DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI

2025-01-20arXiv preprint2800 citeringar

Publicerad:2025-01-20Publicerad i:arXiv preprintCiteringar:2800

Sammanfattning

DeepSeek-R1 visade att reinforcement learning kan producera avancerade resonemangsfähigheter i LLM:er utan supervised fine-tuning. Modellen matchade OpenAIs o1 på matematik- och kodningsbenchmarks och släpptes som öppen källkod, vilket demokratiserade tillgången till resonemangsmodeller. Artikeln blev en av de mest diskuterade AI-publikationerna i början av 2025.

Relaterade företag

DeepSeek

Kostnadseffektiva öppna AI-modeller — V4 ännu ej lanserad

Taggar

DeepSeek Reasoning Reinforcement Learning Öppen källkod