av OpenAI
Whisper Large V3 är OpenAI:s mest avancerade modell för automatisk taligenkänning (ASR) som stöder över 100 språk inklusive svenska. Modellen kan transkribera tal till text, översätta tal mellan språk och identifiera talat språk automatiskt. Med 1,5 miljarder parametrar levererar Whisper V3 markant bättre noggrannhet än tidigare versioner, särskilt för icke-engelska språk. Modellen är öppen källkod under MIT-licens och kan köras lokalt, vilket gör den idealisk för integritetskänsliga applikationer.
| Parametrar | 1.5B |
| Modalitet | Ljud |
| Licens | Open Source |
| Utgivningsdatum | 2023-11-06 |
| API-identifierare | openai/whisper-large-v3 |
Utgivning
2023-11-06
Licens
Open Source
GPT-4o är OpenAI:s flaggskeppsmodell som kombinerar text-, bild- och ljudförståelse i en enda multimodal modell. Den erbjuder snabbare svarstider och lägre kostnader jämfört med GPT-4 Turbo, samtidigt som den levererar toppresultat på de flesta benchmarks. Modellen stöder 128K tokens kontextfönster och är optimerad för både konversation och komplexa resonemang. GPT-4o utmärker sig särskilt inom flerspråkig förståelse, kodgenerering och visuell analys, vilket gör den till en av de mest mångsidiga AI-modellerna på marknaden.
DALL-E 3 är OpenAI:s senaste bildgenereringsmodell som representerar ett stort steg framåt inom text-till-bild-generering. Till skillnad från tidigare modeller förstår DALL-E 3 komplexa och detaljerade textbeskrivningar med hög precision och kan generera bilder som troget följer instruktionerna. Modellen är integrerad med ChatGPT, vilket gör det möjligt att iterera på bilder genom naturlig konversation. DALL-E 3 har inbyggda säkerhetsmekanismer som begränsar generering av skadligt innehåll.
Sora är OpenAI:s banbrytande text-till-video-modell som kan generera realistiska och fantasifulla videoscener från textbeskrivningar. Modellen kan skapa videor upp till en minut långa med hög visuell kvalitet och konsekvent fysisk simulering. Sora förstår inte bara vad användaren ber om, utan också hur dessa saker existerar i den fysiska världen. Modellen kan generera komplexa scener med flera karaktärer, specifika rörelsemönster och detaljerade bakgrunder. Sora representerar ett genombrott inom AI-driven videokreation.
o1 är OpenAI:s resonemangsmodell som använder en chain-of-thought-approach för att lösa komplexa problem steg för steg. Till skillnad från traditionella språkmodeller "tänker" o1 innan den svarar, vilket ger markant bättre resultat på matematik, kodning, vetenskapligt resonemang och logiska problem. Modellen placerade sig bland de bästa studenterna på USA:s matematikolympiad och överträffar GPT-4o med stor marginal på vetenskapliga benchmarks som GPQA. o1 representerar ett nytt paradigm inom AI där modeller kan resonera snarare än bara generera text.