Constitutional AI: Harmlessness from AI Feedback

Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al.

2022-12-15arXiv preprint4100 citeringar

Publicerad:2022-12-15Publicerad i:arXiv preprintCiteringar:4100

Sammanfattning

Anthropics banbrytande forskning om Constitutional AI (CAI), en metod för att träna hjälpsamma och ofarliga AI-system med minimal mänsklig feedback. Istället för att förlita sig på tusentals mänskliga granskare använder CAI en uppsättning principer (en 'konstitution') som AI:n själv använder för att utvärdera och förbättra sina svar. Denna teknik ligger bakom Claudes säkerhetsbeteende.

Kopplade personer

Dario Amodei

CEO & medgrundare, Anthropic

Relaterade företag

Anthropic

AI-säkerhetsföretag bakom Claude 4.6 Opus, Sonnet och Mythos

Taggar

AI Safety RLHF Constitutional AI Anthropic

Relaterade entiteter

Refererar

Anthropic

Företag

Published by Anthropic

Claude

Verktyg

RLHF/CAI techniques used in Claude

Lead researcher

CAI principles applied to Claude models

Claude Sonnet 4.6

Modell

CAI principles applied to Claude models

OpenAI

Företag

Contrasts with OpenAI RLHF approach

GPT-4o

Modell

Compares CAI approach to RLHF used in GPT models

Författare

Lead author

Co-author

Prior RLHF work cited