Constitutional AI
わかりやすくいうと
Constitutional AI(憲法AI)は、Anthropic社が開発したAIトレーニング手法
危険な返答をしないようにするAIへのトレーニングを、AI自体にやらせちゃう手法
従来、人間がフィードバック(
RLHF)をしていたが、ものすごく工数がかかっていた
それを、人ではなく、AIにやらせちゃうことで、コストも時間も短縮できる
有用で、無害で、誠実であることを保証する倫理原則を「憲法」として作る
その憲法を遵守するように、AIモデルに強化学習させる。
2023年7月にリリースされた
Claude 2.0の開発からは、このアプローチが取り入れられている。
関連
仕組み
Claudeは自己監査機能を持ち、出力が倫理原則に違反していないかをチェックする。
もし人間が敵対的な質問をしてきたら
わかりません、とただ回避するように、無害な回答を言うのではなく
きちんと、そのような要求を拒否する理由を説明する、有益で無害な回答をするようになる。
Constitutional AIの学習に使われた倫理原則は、様々な情報源を組み合わせてできている。
Anthropicが独自に構築した原則
国連人権宣言
トラストとセーフティのベストプラクティス
他のAI研究機関(DeepMindのSparrow Principlesなど)
参考資料