av DeepSeek
DeepSeek V3 är en banbrytande open-source-modell med 671 miljarder parametrar som använder en Mixture-of-Experts-arkitektur (MoE) där 37 miljarder parametrar aktiveras per token. Modellen tränades för bara 5,6 miljoner dollar — en bråkdel av kostnaden för jämförbara modeller — och presterar i nivå med GPT-4o och Claude 3.5 Sonnet på de flesta benchmarks. DeepSeek V3 stöder 128K tokens kontextfönster och utmärker sig särskilt inom matematik, kodning och kinesisk språkförståelse.
| Parametrar | 671B |
| Kontextfönster | 128K tokens |
| Modalitet | Text |
| Licens | Open Source |
| Utgivningsdatum | 2024-12-26 |
| API-identifierare | deepseek/deepseek-chat |
Kontextfönster
128K tokens
Utgivning
2024-12-26
Licens
Open Source