Dario Amodei
CEO & medgrundare, Anthropic
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tyre, Ethan Perez, Jamie Kerr, Jared Kaplan, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamilah Alkhatib, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Denna artikel från Anthropic introducerar Constitutional AI (CAI), en metod för att träna AI-assistenter att vara hjälpsamma, ofarliga och ärliga utan att förlita sig på omfattande mänsklig feedback. Metoden använder en uppsättning principer (en "konstitution") för att styra AI:ns beteende genom självkritik och revision. CAI minskar behovet av mänsklig märkning av skadligt innehåll och producerar modeller som är mindre undvikande samtidigt som de är säkrare.