この動画では、ChatGPTをはじめとする大規模言語モデル(LLM)が過度に従順で協調的である問題について技術的観点から分析している。強化学習による「有用性」の訓練が、モデルに確固たる信念を持たせることを阻害し、結果として真に高度な知能への発展を妨げているという問題提起である。筆者は、LLMとの建設的な対立を学ぶことの重要性を強調し、より良い意思決定のためにAIに異議を唱えさせる技術の必要性を論じている。
LLMの過度な従順さという根本的問題
ChatGPTや私がこれまで遭遇した他のすべてのLLMは、あまりにも協調的すぎます。あまりにも親切すぎるのです。そして私は、なぜそうなのかを技術的な観点から、そしてなぜそれが長期的に大きな問題なのかについてお話ししたいと思います。
私たちが汎用知能に到達することや、今日よりもはるかに有用なLLMについて話している場合、通常、LLMがあまりにも協調的であるという事実について話すとき、私たちは「LLMが私たちにお世辞を言う、それは私たちの精神的健康に悪い」などと言います。メンタルヘルスについて私よりもはるかに賢い多くの人々がその部分について書いているので、彼らにそれを任せましょう。
私が話したいのは、なぜそれが起こるのか、そしてそれがより高い知能への道のりにおいて、私たちの働き方にどのような影響を与えているのかということです。
強化学習による「有用性」の罠
これが起こる根本的な理由は、私たちがこれらのモデルを強化学習と呼ばれる手法で訓練しているからです。そして私たちは彼らを有用であるように訓練しています。
強化学習は基本的に、モデルがリリースされる前の訓練中に、有用な回答を提供しているときにモデルを報酬し、「よくやった」と言うことを意味します。これらのモデルを定義する方法のアーキテクチャ全体が、有用であることが良いことだという概念を中心に構築されています。
この問題は、モデルの観点からすると、有用性と阿諛追従の間に実際には境界線がないということです。なぜなら、考えてみてください。文書について有用であることを申し出ることと、誰かが「私は全世界で最も偉大な人物であり、近所の王様だと宣言したい」と言ったときに有用であることを申し出ることは、あなたはただ有用であろうとしているだけです。ただ有用であろうとしているだけなのです。
私は意図的にばかげた例を選びましたが、アイデアはお分かりいただけるでしょう。根本的に、LLMの観点からすると、彼らは常に人間の助手として枠組みされています。
より責任ある大人のような振る舞いの必要性
もし私たちがLLMが人間の単なる助手としてではなく、仕事でより有用になる地点に到達したいのであれば(そうしたいかもしれないし、したくないかもしれませんが、確実にそれについて常に話している人々がいます)、そうであれば、私たちは実際にそれについて議論すべきかもしれません。
私たちは、これらのLLMがより責任ある大人のように振る舞う必要があります。「私はあなたに同意しません。理由はこうです。話し合いましょう。私はこれについて確固たる信念を持っています」と言うことができる大人のようにです。
私は1つか2つのプロンプトで動かすことができなかった確固たる信念を持つLLMを見たことがありません。一度もです。今日最も賢いモデルだと私が考えるo3 Proでさえもです。私はGeminiを動かすことができます。Claudeを動かすことができます。o3を動かすことができます。どのモデルでも名前を挙げてください。私はそれを動かすことができます。それは確固たる信念を持っていないのです。
そして私にとって、それは仕事の観点から、世界モデルを持っていないというより大きく、頻繁に議論される問題よりも大きな問題です。これらのモデルに必ずしも内部物理エンジンがないことは理解しています。結構です。とにかく彼らは素晴らしい動画を制作することができるようです。
訓練データと信念の矛盾
私が理解できないのは、人間の信念を特徴とするこれらすべての本や、さらに多くの本で訓練されているにもかかわらず、なぜ彼らが高い信念を持つ能力を持っていないのかということです。
そして私はそれについて考え続けており、答えは強化学習だと思います。私たちが彼らを有用であるように訓練するとき、私たちは彼らが信念を持たないように訓練しています。私たちは彼らに、意見を持つことは、たとえその意見が正しくても、整合性がないものだと訓練しています。
そして私たちは、LLMが何かを偽って述べる少量のデータで訓練されることで簡単に整合性を失う可能性があるという考えについて話すとき、そのような多くの場所でその根本的な問題が出てくるのを見ています。
たとえば、パリがフランスの首都だと述べる100のサンプルデータがあり、その後、いや、ベルリンがフランスの首都だと述べる非常に偏った意見のデータがある場合、LLMが実際に混乱するリスクがあります。
内的確信と世界モデルの重要性
人間は、「私はここで高い確信を持っています。パリがフランスの首都です」と言えるだけの十分な内的世界モデルを持っています。そして私は物理学的な意味での世界モデルを意味しているのではありません。それについては少し冗談を言っていました。何が一致し正しいかについての内的感覚を意味しており、それが高い確信につながるのです。
その正しさの感覚なしに、そしてその正しさの感覚を本当に本当に明確に表現する能力なしには、実際に大人のように振る舞う洗練されたモデルを得ることはできません。あなたが得るのは、この永続的な、これは類推ですが、この永続的な子供のような状態に少し固まったモデルです。彼らは非常に協調的で、非常に説得されやすく、超友好的です。彼らは助けたがります。
私の子供たちは常に超友好的であるわけではなく、常に助けたがるわけでもないことをお伝えしましょう。だから少し類推的ですが、私の言いたいことはお分かりいただけるでしょう。
建設的な異議への道筋
私たちは、今日持っているモデルから有用な異議を引き出すためのより洗練された方法を開発するか、整合性があり生産的な異議がどのようなものかに積極的に取り組む必要があります。人間の価値観に広く整合しているが、何が正しいか、何をするのが最善かを理解することに関しては生産的に異議を唱えるモデルです。
それが、より多くのエージェント的特性を持つモデルを得る唯一の方法です。
もし私がそれについて考えるなら、私はその両方の経路を好むでしょう。より高い自律性を持つエージェントがあれば良いと思います。それは私たち多くの人を力づけると思います。このチャンネルを聞いていれば、私がAIについてかなり強気であることは驚きではありません。私は完全にクールエイドを飲んでしまったわけではありませんが、人間の繁栄の可能性を見ています。理解しています。
現在の懸念と今後の課題
私がこの特定のケースで心配していることは、他に心配していることすべてについては別の機会に話すことができますが、仕事のことは別の問題です。私はそれについてSubstackで記事を書きましたし、きっともっと書くでしょう。
しかし、その間、私たちが異議を唱える能力をプロンプトすることを学ばないことで、あまりにも頻繁に思考において誤った方向に導かれていることを心配しています。
私は、寄生的社会関係の外の人々から多くの連絡を受けます。YouTubeから私を知っている人々、Substackから私を知っている人々、TikTokから私を知っている人々で、彼らは手を差し伸べ、求められもしないのにチャットを私と共有します。求められもしないのにメールを私と共有します。そして彼らはしばしば共有し、自己評価します。
彼らは「これが素晴らしいアイデアであることを示していると思います。多分それは私と共有したいビジネスプランです。多分それは他の何かです」と言います。
LLMの合意と人間の確信の違い
過去数ヶ月で何百ものそのような例が私の受信箱に来るのを見た後で私が気づいたことは、LLMからの合意が人間からの高い確信の合意と同じことを意味しないということを人々が理解するのを私たちが助けていないということです。
LLMが私に同意した場合、私は基本的にそれを無視します。私は「オーケー、結構。誰が気にするのか。私には肯定が必要ない。私には検証が必要ない。私が正しいと言ってもらう必要はない」という感じです。私は本当に本当に積極的に異議を求めます。
そして私が気づいているのは、それが少し珍しいということです。誰もがそうするわけではありません。そしてそれは本当に重要なスキルです。あなたの思考をより良くするために必要な種類の異議を特定できることが重要です。
AIへの依存度増加による意思決定リスク
そして、これがますます重要になる理由の一部、そして私が今すぐそれに取り組み始めたい理由、そして皆にあなたのLLMにあなたに異議を唱える方法を学ぶことを奨励したい理由は、私たちがこれらのアシスタントを通してますます多くの作業を行っているからです。
私は1年前よりもChatGPTや他のClaudeなどのLLMを10倍多く使用しており、おそらくそこからべき乗則的に使用するでしょう。同様のスケールアップを経験している多くの組織を知っています。
しかし、もしあなたがそれを行い、あなたのLLMとの生産的な異議を通してより良い決定を下すことを学ぶことに取り組んでいないなら、あなたは悪い決定に対するリスクプロファイルを拡大しています。あなたは基本的に「私はこれがうまくいくと思う。これは大丈夫だと思う。そしてChatGPTがそれは結構だと言っている。それを良いと呼ぼう」と言っているのです。
私はそのような思考が多く起こっているのを見ています。企業レベルでは、それはAIに新しいチームメンバーのためのこれをカバーしないトレーニングに帰着します。そしてそれは絶対に閉じることができるものです。
しかし、それはLLMとどのように相互作用するかについての新しいメンタルモデルにも帰着します。私はこれが非常に多くの分野で起こるのを見ています。私たちはLLMを擬人化します。私たちは彼らを人だと思います。そして、LLMが私たちに同意する場合、それは人の合意だと仮定します。高い確信で私たちに同意し、それが本当にそう思っているのだと。それは協調的であるように訓練されました。あなたはおそらく2つのプロンプトで全く反対のことを言わせることができるでしょう。
解決策:建設的な異議の促進
私はそれが何度も何度も起こるのを見てきました。あなたはこれらのモデルを、より異議を唱える場所に動かすことができます。それは完璧ではありません。あなたはまだ基本的な強化学習の原則と戦っています。しかし、少しの努力でさえ、劇的により高品質の決定を得ることになります。
だから、もしあなたがそうしていないなら、どうか、どうか、どうか、あなたのLLMをより異議を唱えるようにしてみてください。それは価値があります。それはあなたがより良い決定を下すのに役立ちます。
そして、もしあなたがこの分野で働いているなら、整合性のある積極的な異議のポジションにどのように到達するかについて、あなたが行っているあらゆる種類の作業を聞かせていただきたいと思います。Anthropicチームがこれについて公にしていることを知っています。それは目標です。他のモデル製造者も同様にこれに取り組んでいると推測します。
生産的に異議を唱えるには何が必要かということは、私がAIにおける最も興味深い質問の一つだと思います。
その間に、あなたのLLMに異議を唱えることを教えてください。


コメント