/evergreens/Constitutional AI

generated at 2/17/2025, 8:13:55 AM
Constitutional AI


わかりやすくいうと
Constitutional AI（憲法AI）は、Anthropic社が開発したAIトレーニング手法
危険な返答をしないようにするAIへのトレーニングを、AI自体にやらせちゃう手法
従来、人間がフィードバック(RLHF)をしていたが、ものすごく工数がかかっていた
それを、人ではなく、AIにやらせちゃうことで、コストも時間も短縮できる

有用で、無害で、誠実であることを保証する倫理原則を「憲法」として作る
その憲法を遵守するように、AIモデルに強化学習させる。

2023年7月にリリースされたClaude 2.0の開発からは、このアプローチが取り入れられている。


関連
Claude’s Constitution
Constitutional AI論文


仕組み
Claudeは自己監査機能を持ち、出力が倫理原則に違反していないかをチェックする。
もし人間が敵対的な質問をしてきたら
わかりません、とただ回避するように、無害な回答を言うのではなく
きちんと、そのような要求を拒否する理由を説明する、有益で無害な回答をするようになる。

Constitutional AIの学習に使われた倫理原則は、様々な情報源を組み合わせてできている。
Anthropicが独自に構築した原則
国連人権宣言
トラストとセーフティのベストプラクティス
他のAI研究機関（DeepMindのSparrow Principlesなど）



参考資料
https://toyokeizai.net/articles/-/768256