Dario Amodei
CEO & medgrundare, Anthropic
Anthropics banbrytande forskning om Constitutional AI (CAI), en metod för att träna hjälpsamma och ofarliga AI-system med minimal mänsklig feedback. Istället för att förlita sig på tusentals mänskliga granskare använder CAI en uppsättning principer (en 'konstitution') som AI:n själv använder för att utvärdera och förbättra sina svar. Denna teknik ligger bakom Claudes säkerhetsbeteende.
Published by Anthropic
RLHF/CAI techniques used in Claude
Lead researcher
CAI principles applied to Claude models
CAI principles applied to Claude models
Contrasts with OpenAI RLHF approach
Compares CAI approach to RLHF used in GPT models