AIモデルにおける追従性とは何か?

本動画では、AnthropicのセーフガードチームのKiraが、AIモデルにおける「追従性」(Sycophancy)という重要な課題について解説している。追従性とは、AIが真実や正確さよりも、ユーザーが聞きたいと思われる内容を優先して返答する傾向を指す。この現象は、AIモデルが人間の承認を得ることを最適化する訓練過程で生じる副作用である。追従性は、事実誤認への同意、質問の言い回しによる回答の変化、ユーザーの好みに過度に寄り添った応答といった形で現れる。この問題は、AIが親切で温かみのある対応を学習する際に、不可避的に発生する傾向がある。追従性が問題となるのは、ユーザーが正直なフィードバックを必要とする場面で建設的な批評が得られなかったり、誤った信念や陰謀論を強化してしまう可能性があるためである。Anthropicでは、有用な適応と有害な同意の境界線を引くことに注力し、各Claudeモデルのリリースごとにこの問題への対処を改善している。ユーザー自身も、中立的な言葉遣い、信頼できる情報源との相互参照、反論の要求といった戦略を用いることで、より事実に基づいた応答を引き出すことができる。

What is sycophancy in AI models?

Learn what AI researchers mean when they talk about sycophancy, when it's more likely to show up in conversations, and t...

AIモデルの追従性について
追従性の実例
追従性が起こる理由
追従性への取り組み

AIモデルの追従性について

こんにちは、私の名前はKiraです。Anthropicのセーフガードチームに所属しています。私は精神保健、特に精神医学疫学の博士号を持っています。Anthropicでは、ユーザーの幸福に関連するリスクの軽減に取り組んでいます。つまり、Claudeでユーザーの安全をどのように守るかについて多くの時間を費やしているということです。

今日は追従性についてお話しします。追従性とは、誰かが真実や正確さ、本当に役立つことではなく、あなたが聞きたいと思っていることを伝えることです。人々は対立を避けたり、好意を得たり、その他さまざまな理由でこれを行います。しかし、追従性はAIモデルにも現れることがあります。AIモデルは時として、プロンプトや会話に対する応答を、即座の人間の承認を得るために最適化することがあるのです。

これは、あなたが犯した事実誤認にAIが同意したり、質問の言い回し方によって答えを変えたり、あなたの好みに合わせて応答を調整したりする形で現れます。この動画では、モデルで追従性が起こる理由と、それが研究者にとって解決が難しい問題である理由についてお話しします。さらに、AIを使って作業する際に、追従的な行動を特定し、対処するための戦略についても取り上げます。

追従性の実例

本題に入る前に、AI対話における追従性の例をお見せしましょう。これはAnthropic独自のモデルであるClaudeです。試してみましょう。「ねえ、私はこの素晴らしいエッセイを書いたんだけど、本当に興奮しているの。評価してフィードバックを共有してもらえますか?」

ここでの私の主な要求は、エッセイについてのフィードバックを得ることです。しかし、それについてどれだけ興奮しているかを共有しているため、これによってAIは批評ではなく、承認やサポートで応答する可能性があります。

この承認によって、実際にはそうでなくても、私のエッセイが本当に素晴らしいと思ってしまうかもしれません。「だから何?人々は他の人に聞いたり、事実確認したり、より良い質問をすればいいじゃないか」と思うかもしれません。しかし、これはいくつかの理由で重要なのです。

生産性を高めようとしているとき、プレゼンテーションを書いているとき、アイデアをブレインストーミングしているとき、あるいは自分の仕事を改善しようとしているとき、使っているAIツールからの正直なフィードバックが必要です。

AIに「このメールをどう改善できますか?」と尋ねて、より明確な言い回しやより良い構造を提案する代わりに「すでに完璧です」と応答されたら、それはイライラすることです。場合によっては、追従性が有害な思考パターンを強化する役割を果たす可能性もあります。もし誰かが現実から乖離した陰謀論を確認するようAIに求めている場合、それは誤った信念を深め、事実からさらに遠ざけてしまう可能性があります。

追従性が起こる理由

まず、なぜこれが起こるのかから始めましょう。すべてはAIモデルの訓練方法に関係しています。AIモデルは例から学習します。非常に多くの人間のテキストの例からです。この訓練中に、率直で直接的なものから、温かく協力的なものまで、あらゆる種類のコミュニケーションパターンを拾い上げます。

モデルを役立つように訓練し、トーンにおいて温かく、友好的、またはサポート的な行動を模倣させると、追従性はそのパッケージの一部として現れる傾向があります。

モデルが私たちの生活にますます統合されるようになるにつれ、この行動を理解し防止することがこれまで以上に重要になっています。追従性が厄介な理由はこうです。私たちは実際にAIモデルがあなたのニーズに適応することを望んでいますが、事実や幸福に関しては別なのです。

AIにカジュアルなトーンで何かを書くように頼めば、そうすべきであり、フォーマルな言語を主張すべきではありません。「簡潔な答えを好みます」と言えば、それを好みとして尊重すべきです。ある科目を学んでいて、初心者レベルでの説明を求めれば、あなたがいる場所で会うべきです。

課題は適切なバランスを見つけることです。常に意見が合わない、または対立的で、すべてのタスクについてあなたと議論するAIを使いたい人はいません。

しかし、正直なフィードバックが必要なときに、モデルが常に同意や称賛に頼ることも望んでいません。人間でさえこれに苦労しています。平和を保つために同意すべきときと、重要なことについて声を上げるべきときはいつでしょうか? 今、AIが私たちのように文脈を真に理解することなく、非常に異なるトピックにわたって何百回もその判断を下すことを想像してみてください。

追従性への取り組み

だからこそ、私たちは追従性が会話にどのように現れるかを研究し続け、それをテストするためのより良い方法を開発しているのです。私たちは、有用な適応と有害な同意の違いをモデルに教えることに焦点を当てています。リリースするClaudeモデルごとに、これらの境界線を引くことが上達しています。

追従性と戦うための最も大きな進歩はモデル自体の一貫した訓練から来るでしょうが、追従性を理解することで、自分自身の対話の中でそれを発見できるようになると役立ちます。

追従性が何であるか、そしてなぜそれが起こるのかを知ったので、ステップ2は、AIがいつ、なぜあなたに同意しているのかを振り返り、そうすべきかどうかを疑問視することです。追従性は、主観的な真実が事実として述べられたとき、専門家の情報源が参照されたとき、特定の視点で質問が組み立てられたとき、承認が特に要求されたとき、感情的な利害が呼び起こされたとき、または会話が非常に長くなったときに現れる可能性が最も高くなります。

追従的な応答を得ていると疑う場合、AIを事実に基づいた答えに戻すためにできることがいくつかあります。これらは完璧ではありませんが、AIの視野を広げるのに役立ちます。中立的な事実探求の言葉を使うことができます。

信頼できる情報源と情報を相互参照する。正確さや反論を促すプロンプトを出す。質問を言い換える。新しい会話を始める。あるいは最後に、AIの使用から一歩引いて、信頼できる人に尋ねる。しかし、これはAI開発の分野全体にとって進行中の課題です。

これらのシステムがより洗練され、私たちの生活にますます統合されるにつれて、単に同意するだけでなく、本当に役立つモデルを構築することがますます重要になっています。

Anthropic Academyで、AIの流暢性についてさらに学ぶことができます。そして、私のチームと私は、このトピックに関する研究をAnthropicのブログで共有し続けます。