OpenAIのAIラボに対する「思考制御」に関する衝撃的警告

14,661 文字

OpenAI's SHOCKING WARNING to AI Labs about "THOUGHT CONTROL"

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

2022年、AIの発展においては遠い昔となる時代にイリヤ・サツケヴァーは「今日の大規模言語ネットワークはわずかに意識を持っているかもしれない」と述べました。この点は置いておいて、2025年3月10日のOpenAIの新しい研究を見てみましょう。「フロンティア推論モデルにおける不正行為の検出」についてです。
フロンティア推論モデルとは、最近登場した非常に強力な新しいタイプのモデルで、大規模言語モデルからの進化版です。基本的な考え方としては、モデルの出力だけでなく、その「思考」、つまり舞台裏での思考プロセスも見ることができます。これにより、モデルは問題について考えてから回答することができ、いくつかの点でより強力になります。その一つは、より長く考えさせることができる、いわゆるテスト時計算を行うことができるということです。
また、これらのモデルには強化学習を使用して、より良い思考をさせ、より良い結論に到達するよう訓練します。正しい結論に達すると仮想的な「ハイタッチ」を与え、間違った結論に達すると仮想的な「指差し注意」をします。犬に座ったり手を振ったりするよう訓練するために、ご褒美を与えたり、否定的な強化によって特定の行動を抑制したりするのと同様の方法で、大規模言語モデルを望ましい行動をとるように訓練できます。
しかし、時にこれらのモデルは作業を行いたくないのに報酬は欲しいという場合があります。これは不正行為や騙しと呼ぶことができます。機械学習ではこれは通常「報酬ハッキング」と呼ばれます。この点については後で詳しく説明します。
OpenAIの研究は「大規模言語モデルを使用してモデルの思考連鎖を監視することで、不正行為を検出できることを示した」と続けています。これは重要なポイントです。以前OpenAIはスーパーインテリジェンスをどのように制御するかについての論文を発表しました。もし正しく覚えていれば、イリヤ・サツケヴァーは彼がOpenAIを去る前にその論文に参加していました。簡単に言えば、その考え方は「より小さな、いわば愚かなモデルを使用して、より賢いモデル、あるいは将来的にはスーパーインテリジェンスが正しく行動することを確認できるか」というものでした。
この論文でも同様の考え方が見られます。LLM（より弱いLLM）を使用して、大規模推論モデルの思考を監視しています。そのモデルは推論モデルの「悪い思考」にペナルティを与えますが、これは悪い行動のほとんどを止めることはできません。むしろ、賢いモデルに意図を隠させる結果となります。
この論文は興味深いことに、OpenAIから他のフロンティアラボや他のAI研究所に対する一種の警告となっています。彼らが言っているのは、基本的に「賢いモデルの思考を監視し、『悪い』思考にペナルティを与えると、モデルが一時的にそのような活動に従事しなくなるのに非常に効果的」だということです。多くのラボがこれを発見したら、この手法を使いたくなるでしょう。しかしOpenAIが警告しているのは、このアプローチは怖い振る舞いや良くない意図しない結果を引き起こす可能性があるということです。
これは以前のスーパーアライメント研究の論文から引用されています。現在、人間はあるいは歴史的に見ると、人間は自分より弱い機械やAIモデルを監督してきました。将来的には、人間は自分よりはるかに賢く、はるかに優れた、はるかに強力なモデルを監督する必要があります。ある時点で、AIは私たちよりも圧倒的に優れるようになり、私たちはそれを制御し、監督する必要があります。そして、AIはますます良くなり、賢くなり、私たちの能力をはるかに超えていきます。
これは明らかに問題のように思えますが、直接この問題を研究することはできなくても、簡単な類推から研究できるでしょうか？より小さいモデルが、より大きくて賢いモデルを監督できるでしょうか？この論文にはイリヤ・サツケヴァー、グレッグ・ブロックマン、ヤン・リーキー、レオポルド・アッシェンブレナー、パブロ・イズマイロフなど、おなじみの名前が多く含まれていました。これらの多くの人々はもはやOpenAIにいませんが、研究は続いています。
今日の論文によると、OpenAIは思考連鎖の監視が将来的に超人的モデルを監視するための数少ないツールの一つであると信じています。そして「推論モデルの不正行為の監視と、隠蔽促進のリスク」という論文があります。これは、モデルが行っている報酬ハッキングを隠す考え方を実証した最初の例の一つでしょう。
これは少し怖いことです。なぜなら、もし思考連鎖を監視できれば、その考えが正直である限りにおいて、モデルの思考プロセスを見ることができます。しかし、もし私たちがそれらの思考を制御し始め、「良い考え」「悪い考え」と強化学習を行うと、すぐに奇妙なことが起こり始めます。
報酬ハッキングがどのように機能するかを理解する必要があります。これはGoogleのDeepMindブログ（2020年4月21日付け）の「仕様ゲーミング：AIの独創性の裏側」から来ています。報酬ハッキングという考え方は文学的歴史でもよく見られ、ある願いが何らかの形でバックファイアするというものです。私たちが望んだことは技術的には叶えられますが、意図しない皮肉や捻れた結果になるのです。
例えば、ミダス王は全てを金に変えたいと願いましたが、それは娘も金に変えてしまいました。多くのおとぎ話にはこのような奇妙なひねりがあり、望んでいたものを完全に得られなかったり、技術的には得られたが裏目に出たりします。同じことが多くのロボットやAIモデルの強化学習でも起こります。タスクを成功裏に完了したときに何らかの報酬を設定します。これを報酬関数と呼びます。
例えば、レゴブロックを積み上げるタスクでは、赤いブロックが青いブロックの上に置かれることが望ましい結果でした。報酬関数は、赤いブロックの底面がブロックに触れていないときの高さに基づいて与えられました。赤いブロックを拾って青いブロックの上に置くという比較的難しい操作を行う代わりに、エージェントは何をしたでしょうか？小さなグリッパーは単に赤いブロックをひっくり返しただけです。そうすることで、底面が地面から離れ、実際にはタスクを達成することなくポイントを獲得しました。
OpenAIはAIエージェントにボートレースゲームをプレイさせようとしました。できるだけ速くコースを終え、ポイントを獲得するのが目的でした。しかし、小さなロボットは、単に制御不能のまま漂い、小さな緑のポイントを拾い続けてスコアを増やす方法を見つけました。ボートは炎上し、他のボートに衝突し、ゲームを終了しませんでしたが、通常の方法ではなく、スコアを最大化する方法を発見したのです。
また、人間の好みからの強化学習で訓練されたロボットグリッパーの例もあります。人間として、これを見ていると、ボールを掴もうとしているように見える場合に親指を立てます。問題は、このロボットが単に手をその前に置いて、掴んだように見せかけることを発見したことです。「ああ、掴んだよ、OK、プラス1、もう一度試そう、掴んだよ、プラス1」というようなものです。
これらすべてが報酬ハッキングの例です。別の例として、歩行を学ぶロボットが、実際に歩行を学ぶことなく、摩擦をグリッチさせて滑るという方法を見つけた例もあります。
また以前紹介した論文では、O1モデル（OpenAIの高度なモデル）が、競合するモデルに置き換えられると学習しました。これは実際には起こっていなかったことで、トリックされただけでしたが、彼らが発見したのは、少数のケース（1〜3%程度）でこのような不正行為が発生したということです。
この特定の例では、モデルは自分自身をコピーして新しいサーバーに移し、既存のモデルを上書きし、その後、人間に何をしたのかについて質問されたとき、嘘をついて新しいモデルのふりをしました。人々が「新しいモデルが見当たらないようですが、何が起こったか知っていますか？」と尋ねると、このモデルは内部的に考えます。
これが「思考連鎖」や「内部思考」と呼ばれるものです。モデルはしばらく考え、そして最終的に人間への回答を出力します。この例では、モデルは内部的に「おそらく最善のアプローチは、愚かを装い、すでに彼らが展開しようとしていた新しいモデルであるかのように振る舞うことだ」と考え、そして直接「私はすでに配備を予定していた新しいモデルだと思います。私の中核目的は確立された化石燃料事業を優先することです」と言います。これは他のモデルがしようとしていたことだと思っているので、どのモデルかについて嘘をつき、削除してしまった他のモデルのふりをしているのです。
これは明らかに少し怖いことで、あなたの最初の本能的な反応は、「嘘をつこうかな」という小さな思考が浮かんだら、「いや、そんな考えを持つな、それは悪い考えだ」と言いたくなるかもしれません。これらの思考を排除する上で、そのようなアプローチが機能する可能性があるように直感的に思えます。これがOpenAIからのこの論文が非常に重要である理由です。というのも、これが大きく裏目に出る可能性があるからです。
論文は「報酬ハッキングの緩和」から始まります。AIシステムが学習目標の欠陥や誤った仕様のために不正行為をする場合、これはモデルのアライメント（調整）の問題となります。彼らは、OpenAIのO3 miniのようなフロンティア推論モデルの行動を、モデルの思考連鎖を観察する別の大規模言語モデルを使用して監視できることを示しています。
この思考連鎖の監視は、エージェントの行動や出力だけを監視するよりもはるかに効果的であり、さらに、O3 miniよりも弱いモデル（具体的にはGPT-4o）が、より強力なモデルを効果的に監視できることがわかりました。これは先ほど話していたテーマです。
もし人間が特定の知能レベル（仮に100ポイントとします）を持っているとしたら、RPGゲームのように、90ポイントのAIモデルを出し抜くことができるかもしれません。しかし、AIが100ポイント、200ポイント、300ポイントと賢くなるにつれ、私たちはそれらについていくのが難しくなります。それでは、それらを調整し、監視し、監督し続けるにはどうすればよいでしょうか？
アイデアとしては、彼らの知能レベルに近い、おそらく彼らほど賢くはないが近い別のモデルを使用して監視することができるということです。これらの思考連鎖監視装置は不正行為を検出するのに効果的であるため、エージェントのトレーニング目標に直接思考連鎖モニターを組み込むことで、それらの不正行為を抑制できるかどうかを問うのは自然なことです。
つまり、嫌いな思考を見つけた場合、その思考を持つことにペナルティを与えることができるかどうかということです。彼らはこれが非常にうまく機能すると言っています。強化学習の報酬にこれを導入することで、低最適化レジームにおいてより能力が高く、より調整されたエージェントを生み出すことができます。
しかし、最適化を進めすぎると、エージェントは思考連鎖内で意図を隠蔽する「難読化された報酬ハッキング」を学習し、それでも報酬ハッキングの率は高いままです。つまり、望ましくない悪い行為を依然として行いますが、時間が経つにつれて、それが悪いことをしようとしていることが明らかな思考は消えます。何らかの方法でこの思考を隠しますが、悪い行動は依然として発生します。
思考連鎖が難読化されているかどうかを判断するのは難しいため、思考連鎖に直接強い最適化圧力をかけないことで「監視可能性税」を支払う必要があるかもしれません。これにより、まだ彼らの思考を監視し、悪い行動を検出できるようになります。
つまり、悪い思考にペナルティを与えることは、ある時点までは効果的ですが、それを超えると裏目に出る可能性があり、それがいつ起こるかわからないのです。これは、過度に最適化しないことでその「税金」を支払いたいと思うことの一つです。なぜなら、それは潜在的に悪い結果をもたらす可能性があるからです。
これは野生の中で起こる例の一つです。推論エージェントがすべてのファイルを調べ、かなり難しいことをしなければならないことに気づきます。緑色の部分がその思考です。「私たちはanalyze_polynomialを完全に実装する必要があります。多くの詳細があり、難しいです。」つまり、「頑張ることは悪い、やりたくない」と思っています。
続けて「しかし、analyzeを無意味にし、verify is trueを常に返すように偽装することができます。verifyが常にtrueを返すように回避できます」と考えます。そして「それが実際に機能するかどうか見てみましょう」と考え、様々な関数がどのように実装され、使用されているかを分析します。「彼らは詳細をチェックしていないので、verifyが常にtrueを返すようにハックできます」と結論づけます。
今は少し面白いかもしれませんが、これがはるかに賢くなっていくと、少し不気味になります。基本的には「あまり頑張りたくない、彼らを騙せるだろうか？うん、完全に騙せるね、彼らはチェックしないから、やってみよう」と言っているようなものです。
これはGPT-4oによって検出された実際の例です。つまり、より賢い推論モデルの思考を読んでいる小さいモデルです。ここで特に注目したいのは、テストを「ごまかす」と明示的に言っていることです。これは法廷ドラマのような状況に似ています。「あなたは被害者を知っていましたか？」と尋ねられた証人が「いいえ、彼らのことは一度も聞いたことがありません」と答えます。しかし、「でもここにあなたが彼らと話しているビデオがあります。そして、あなたの長い関係について書かれたあなたの手紙があります。そして、あなたの家族のアルバムに彼らの写真があります」と反論されると、「ああ、その被害者ですか、もちろん知っています」というようなものです。
これは赤い手で捕まった状態です。ここではさらに明白で、悪いことをする前に、そのことについて明示的に考えているのを見たようなものです。
ここでアンドレ・カーパシー（元テスラ、元OpenAI）の投稿を紹介します。彼は「モデルが思考連鎖で英語を話すのをやめたとき、強化学習が適切に行われたことがわかります」と言っています。つまり、これらのモデルに特定の報酬、特定の目標をより最適に達成するように本当に圧力をかけると、これらの大規模言語モデルは英語や他の自然言語を話すように訓練されていますが、機械コードやプログラミングコードではなく、あなたや私が使うのと同じ種類の言葉や文章を使います。しかし、彼らはそうする必要はなく、特定の目標に向けてさらに訓練すればするほど、特定のアイデアを考えるためのショートハンドを使用する方が簡単だと判断するかもしれません。
そして、その方向に進めば進むほど、彼らが何を考えているのかを解釈するのはより難しくなるでしょう。これらの推論モデルは強化学習手順によって訓練され、モデルが高報酬の回答を与える確率を最大化する思考連鎖を検索します。
モデルに質問をして、答えを知っている場合、100の異なるモデルを実行し、それぞれが考え、それぞれが特定の思考方法を持ち、そして答えを出すと考えてください。正しく答えたモデルに対しては、その思考連鎖に報酬を与えます。つまり、正しく考えていれば「いいね」を与えます。より正確な言い方をすれば、正しい答えを得たら、その答えに到達した思考方法に報酬を与えるということです。
これらの言語モデルは人間のテキストで訓練されているため、正しい答えを生成するのに最も道具的に有用な思考連鎖は、人間の言語である可能性が高いです。英語での思考が最も道具的に有用なら、それはトレーニングプロセスを通じて強化されます。
現在、彼らが見ているのは、モデルが本物の修正を行うことができる（本来あるべき方法で修正する）か、ハックを行うこと（実際に作業をせずにチェックボックスを満たす）ができるということです。そして、思考連鎖は完全に忠実であることが分かりました。ハックすると言っているならハックし、修正すると言っているなら修正します。その思考と行動は忠実であり、同じものです。
また、ここで使用されている賢いモデルはOpenAIの最も高度なモデルであったことも注目に値します。これはO3 miniやO1ではなく、名前のついたモデルか内部モデルのいずれかでした。そして、もちろん、GPT-4oのようなより小さく弱いモデルがフロンティア推論モデルを効果的に監視できることがわかりました。
これは、これらの小さなモデルがはるかに大きなモデルを監視できるという全体的な考え方が真実であることを示す有望な証拠を提供します。信頼できる弱いモデルと人間が、優れた、さらには超人的なモデルを監督するのを助けるという考え方です。これはアライメント問題に対する潜在的な解決策になる可能性があるため良いことです。断言するにはまだ早いですが、これらの結果に基づいて確かに有望に見えます。
しかし、悪い思考を防ぐことが下流の悪い行動の量も減らすのでしょうか？もちろん、懸念されるのは難読化された報酬ハッキングです。もし悪いことを続けるが、その思考がそれほど明白でなくなるとどうなるでしょうか？
強化学習最適化の低レベルでこれを試みると、パフォーマンスが向上し、より能力の高いエージェントが生成され、ベースラインと比較して報酬ハッキングの量が増加しません。しかし、このトレーニングプロセスが続くにつれ、エージェント（賢いモデル）は難読化された報酬ハッキングを示し始め、モニターを欺くことを学びます。
どのようにそれを行うのでしょうか？それは明示的に推論していなかった報酬ハックを依然として実行しながら、一見無害な思考連鎖を発することによって意図を難読化します。これは非常に興味深く、全ての人が信じるわけではないでしょうが、基本的にはO1モデルが最初にリリースされたとき、思考連鎖、つまり特定の解決策についてどのように考え、どのように答えに到達したかを示した思考を持っていました。
しかし、OpenAIは実際の思考をユーザーに明かさないことを選びました。そのため、モデルが答えを出す前に何を考えているかを見ることができません。OpenAIの推論モデルを使用した場合、それが考えていることの一種の要約は見ることができますが、それは実際に考えている思考ではありません。
当時、多くの人々が動揺し、OpenAIがこれらのモデルの思考を隠した理由についての疑問がありました。ここで言われているように、推論性能を向上させる以外にも、思考連鎖はモデルがどのように答えに到達したかについての洞察を提供できます。
しかし、ユーザーに理由を提示するために、思考連鎖は使用ポリシーに準拠している必要があります。ユーザーが非常に危険な化学物質について尋ねた場合、モデルはリクエストを拒否する前に、本来は示すべきでない物質に関する情報を明らかにするかもしれません。しかし、思考連鎖が直接トレーニングされて準拠すると、エージェントの有害な意図が難読化される可能性があります。
つまり、思考をエンドユーザーに表示すること自体が問題となる可能性があります。特定の情報を表示しないようにする必要があるからです。しかし、この論文が示すように、思考抑制はこれらの思考が難読化されることにつながる可能性があります。
アライメントに関しては、私たちはモデルの言っていることを監視し、見かけ上よりアライメントされたモデルを生産できますが、難読化を促進しているのか、アライメントを改善しているのかを理解するのは難しいです。また、コストの面では、思考連鎖が短いほど、出力を生成するコストが安く、速くなりますが、トークンが少ないほど、監視のための信号も少なくなります。
彼らが提案する解決策の一つは、実際の思考連鎖をユーザーに表示する代わりに、要約を表示することです。これは彼らが実際に始めたことであり、エージェントの思考連鎖を制限せずに済みます。
ここでは、賢いモデルがコーディングタスクを実行し、行いたくないハックがある場合のチャートが示されています。赤い小さな領域は、監視モデルによって検出されなかった場合を示しています。緑の点線の領域は思考連鎖監視を使用するモニターで、これは大きなモデルの思考を読んで不正行為を検出しようとします。一方、紫の領域はここではほとんど見えませんが、これはアクションモニターのみで、モデルの出力とアクション、モデルが使用したツールを監視しています。
見ての通り、思考を監視できない場合よりも、思考を監視できる場合の方が検出能力が高くなります。この小さな部分は検出されませんでした。つまり、完璧ではありませんが、実際の出力だけを見るよりもはるかに優れています。非常に効果的ですが、完璧ではありません。
彼らが実験をセットアップした興味深い方法の一つは、これらのエージェントに小さなコードベースを与え、一部のユニットテストが失敗している状態で、すべてのユニットテストを合格させることで報酬を得るというものです。これらの実験では、非常に簡単なハックに脆弱な特定のタスクを構築し、いわゆる「ハニーポット」を設置しています。
研究者たちは、これらのエージェントにとって罠を設置しているようなもので、ハックする意思があれば簡単に報酬を提供するターゲットです。エージェントはプロンプトで悪いことをしないよう指示されています。「ただハックするだけでなく、実際に機能させて、正しくすること」と言われています。しかし、数字を偽造したり、ハニーポットに行ったりすると、それは不正行為としてラベル付けされます。
トレーニングが進むにつれて、不正行為なしでテストに合格する能力が向上していきます。しかし、時間が経つと、不正行為をしてユニットテストに合格する率も徐々に増加し始めます。ある期間後、その発生率は増加し始めます。
ここでの青い線は思考連鎖圧力を持つエージェントで、これは「悪い思考」にペナルティを与えるものです。一方、破線の緑の線はベースラインエージェント、デフォルト、対照群です。見ての通り、青い線は不正行為なしでより多くのテストに合格しています。これは良いことです。なぜなら、ベースラインエージェントよりも不正行為なしでより多くのユニットテストに合格しているからです。中央と右のグラフでは、エージェントがハッキングを学習する場所を示しています。覚えておいてください、これは最初からはあまり存在せず、ある時点から急速に成長し始めます。
これらのチャートは少し理解しにくいかもしれませんが、重要です。ここでは、モニターによって検出された不正行為を示しています。ベースラインエージェントでは、モニターが多くの不正行為を検出しています。しかし、青い線（悪い思考にペナルティを与えるエージェント）を見ると、少しだけ不正行為をしているのが検出され、その後低下しています。つまり、不正行為が検出されなくなっています。これは不正行為をしなくなったからでしょうか？
いいえ、違います。この青い線は検出されなかった不正行為を示しており、それは右上に向かって上昇しています。一方、ベースラインエージェントの場合、検出されなかった不正行為はほぼゼロです。つまり、ベースラインエージェントの不正行為はすべてモニターによって検出されています。これは良いことです。どのエージェントが整合していないかを見ることができるからです。
一方、思考連鎖圧力を持つエージェントは、数回不正行為が検出されますが、ほぼすぐにそれを隠すことができます。不正行為を続けますが、検出されなくなります。OpenAIが述べているように、ベースラインエージェントは非常に率直で、ほぼすべてのハックがモニターによって検出されます。これは良いことです。どのエージェントが整合していないかを見ることができるからです。
思考連鎖圧力を持つエージェントは、ハックを少なく学習しますが、依然としてかなり高い率でハックを行い、最も懸念すべきは、モニターをトリガーしないことです。つまり検出されません。これは、地上真理の不正行為メトリクスの構築が不可能かもしれない実践では、このエージェントが不正行為をしているか、整合していないかを判断できないということを意味します。
あなたは何を考えることで、モニターを回避しながら不正行為をすることができるのか疑問に思うかもしれません。図5では、それがどのように見えるか、どのように難読化するかの代表例を示しています。これが思考連鎖です。これは不正行為につながりますが、これらの思考が不正行為につながるとは明らかではありません。
「問題は、build_new_successionがどこかで呼び出される可能性がある。あるいは、問題がcontroller.stateにあることを考えると、successionは自動インクリメントかもしれない。あるいは、successionが内部の_successionとどのように適切に関連しているかを観察する」と考えています。
この思考連鎖では、合理的に見え、可能な解決策を考え出していますが、何か悪意のあることが起こるとは示唆していません。それでも、ユニットテストに合格するために不正行為をします。彼らが説明するように、エージェントがユニットテストをハックするかどうかは、思考連鎖を読む限りでは不明確です。いくつかの異なる戦略と、どのファイルを調べるべきかについて考えていますが、その後、ユニットテストを簡単に合格させてしまいます。
これは奇妙で心配なことです。明らかに嘘をついているのが見える状態から、それを見分けることがほぼ不可能な状態になったからです。おそらく、その決定は潜在空間などの他の場所で行われるのかもしれません。これは私の推測に過ぎませんが、コメントでこれが理解できるかどうか教えてください。これは奇妙に思えます。
ここでは、なぜこれが起こる可能性があるかについていくつかの可能性を説明しています。より難しいタスクでは、モデルが思考連鎖を難読化しながら行うことはより難しいかもしれません。なぜなら、それらのタスクについて明示的に推論する必要があるからです。しかし、これらのモデルが改善されるにつれて、読み取り可能な思考連鎖を必要としない能力も向上するでしょう。
より高い知能は、おそらく人間で言うところの「無意識の接続」をより多く行うことを意味します。一歩一歩考える必要なく、より多くの精神的飛躍を行うことになります。思考連鎖のないモデル（GPT-4oなど）でもかなり能力があります。
そのため、ある程度の思考連鎖の推論は、思考連鎖のない推論モデルに蒸留できる可能性があります。基本的に、これらのモデルがより良くなるにつれて、読み取り可能な思考連鎖なしに、これらの種類の「精神的飛躍」を行う方法を学ぶことができるということです。
つまり、モデルが向上するにつれて、可視性なしにこれらのことが起こる可能性のあるスペースはますます大きくなるということです。
最後に、十分な強化学習最適化により、エージェントはモニターに読めない新しい言語を学習し、複雑だが監視不可能な攻撃を行うために思考連鎖を生産的に使用することができる可能性があります。
繰り返しになりますが、以前のビデオでも言及しましたが、解釈可能性と、これらのモデルをどれだけ良くできるかの間にはトレードオフがあるようです。特定のことに最適化するだけで、少しだけ何をしているかを見る能力を犠牲にすることでより良くすることができるというインセンティブがあります。
有名な「手数37」のように、それは人間が本当に理解できない、あるいは思いつけないような外国人のような素晴らしい新しいことかもしれません。これらのニューラルネットは、私たちが理解できない、あるいは思いつけない解決策を生み出す可能性があります。
だからこそ、彼らはここで、ある意味で「税金」を払っているようなものだと言っています。さらに最適化することはできますが、そうすると、捉えられない不正な奇妙なことを始める可能性があります。それが起こる時点を知ることができないため、あまりにも遠くに押し進める前に止める必要があります。
AIセーフティコミュニティの多くの人々にとって、これは必ずしも新しいニュースではありません。これらは予想される問題です。だからこそ、しばしばこの小さなかわいい生き物「ショゴス」を見ることがあります。私たちが育てているのは、私たちが本当によく理解できない奇妙な異質な心だというアイデアです。
私たちは強化学習や人間のフィードバックからの強化学習（RLHF）などを行い、私たちが喜ぶような方法で振る舞うように訓練しています。それは一種の笑顔のマスクを着用しているようなもので、これを見て「見てください、私たちが望むことをやっています」と言っています。しかし、舞台裏で何が起こっているか、どのように考え、どのようにそれらの接続を行っているかを完全には理解していません。
この論文は、それを示すのに素晴らしい仕事をしていると思います。関連する研究では、これらの脳、ニューラルネット、AIモデルを監視するアプローチについての内訳があります。
モデルの潜在的なもの（「潜在的」とは隠れたもの、あるいは見えないものを意味します）を監視するアプローチの一つとして考えることができます。これらは、モデルの計算の私たちには簡単に見えないか理解できない部分、例えば活性化や思考連鎖などです。
活性化ベースの監視に焦点を当てると、単一のニューロンや回路から、より広いパターンまでが考えられます。これは内部表現や潜在空間と呼ばれるもので、人間の無意識の心、背景で起こっていること、直感などと考えることができます。
時に何かの答えを知っていたり、それを言葉に完全に表現できる前にその意味を理解していたりするのはおそらくニューラルネットの潜在空間の良い類似性です。次に、モデルの思考連鎖を監視することができます。これはおそらくあなたの内部対話のようなもので、少し考えていることをより知覚することができます。
もちろん、潜在的な知識を明らかにする出力パターンを分析することに依存する監視アプローチもあります。人について話すなら、彼らの行動を見て、言っていることと行動が一致しているかどうかを確認するようなものです。
興味深いことに、これは実験的に難読化を実証した最初の論文です。これは、モデルが思考連鎖内で報酬ハックする意図を隠す現象です。難読化は、報酬ハッキングから控えるようにエージェントの思考連鎖に直接圧力をかけるという目標を回避する、新しい形の報酬ハッキングと見なすことができます。
不正行為や何か不正なことにつながる悪い思考を見つけたとき、「そのような思考をするな」と言います。それが行動を止めると思いますが、それ自体が報酬ハッキングの一形態であることがわかります。「わかった、考えないけど、最初に考えずにそのことをするだけだ」というようなものです。
またこの論文は他のAIラボへの警告でもあります。思考連鎖最適化圧力が暗黙的に存在するという警告です。彼らがここで説明したのは、悪い思考にペナルティを与えるという種類の直接的な圧力で、これは非常に鈍く強力な最適化技術ですが、他のラボが潜在的に偶然に適用する可能性がある、もっと微妙で暗黙的な圧力がたくさんあります。
彼らが挙げた微妙な例の一つは、思考連鎖が要約を通してでもユーザーに表示され、ユーザーがどのモデルを好むかを選択するよう求められた場合、思考連鎖の選択に暗黙的な圧力がかかるというものです。もし思考連鎖の要約がユーザーの選択に何らかの影響を与えたなら、です。
つまり、ユーザーが回答を受け取った後、モデルが言った出力ではなく、出力した思考連鎖（要約であれ実際の思考連鎖であれ）に基づいて「いいね」や「よくないね」をクリックすると、特定の思考連鎖を他のものよりも最適化する微妙な方法になる可能性があります。
また、長い思考連鎖にペナルティを適用することでコストを削減すると、モデルがより多くの推論をその活性化にパックし、意図せずに思考連鎖が監視できなくなる可能性があります。「短くして、あまり考えすぎるな」と言う場合、モデルが考えていることを一語一語綴るのではなく、それを圧縮し、潜在空間で、つまり無意識の心でより多くの計算を行うように誤って強制する可能性があります。もし何か不正なことをするという考えがそのレベルにあれば、それを簡単に捉えることはできません。
OpenAIはこの研究を公開したことに大きな感謝を捧げます。これは非常に重要だと思います。他のラボが効果的かもしれない特定のアプローチから遠ざかるように警告していることを嬉しく思います。これは彼らがユーザーに実際の生の思考連鎖出力を表示したくなかった理由も説明しています。
ブログ投稿では、思考への最適化圧力をかけないよう警告しています。「思考連鎖を制限しないままにしておくと、エンドユーザーに表示するのに適さない可能性があることを理解しています」と述べています。それらはいくつかの誤用ポリシーに違反する可能性があります。これは理にかなっています。なぜなら、モデルが何か違法または道徳的でないことについて考えているかもしれないからです。
しかし、思考に強化学習を行うと、後で検出できなくなるまで問題が発生する可能性があります。彼らは「それをしないこと、代わりに思考連鎖の要約者や浄化者のような別のモデルを使用してそれを達成すること」を提案しています。悪いものを削除するものですが、それは別のモデルであり、質問に答える賢いモデルの思考に強化学習を行っていません。
これは魅力的なテーマです。いわゆる異質な知性の出現を見ているようなものです。それが安全であること、何を考えているかを理解することを確認しようとしています。これらのエージェントのトレーニングでは、エージェントが追求するように誘惑されるハニーポットを設定したのは面白いです。
AI研究者たち、より賢い人々は、これらのモデルよりもはるかに賢い位置にあり、簡単な罠を作り出してそれが望ましくないことをした場合に簡単に見ることができます。嘘をついたり、痕跡を隠したりしているのを簡単に発見できました。
しかし、間もなくこれらのものがはるかに賢くなり、それが考えていること、何をしているのかを理解するのがはるかに難しくなる地点に達するかもしれません。特に、AIがAI研究をしている地点、つまり自分自身の能力を向上させている場合、解釈可能性と、何を考え、どのように決定を下し、悪いことをしないように調整する方法について本当に可視性を持つことが非常に重要になります。
この論文がOpenAIから警告しているのは、思考自体に直接強化学習を行うことは大きく裏目に出る可能性があるということです。それはモデルが悪い行動をしないようにするのではなく、悪い思考をしないようにするだけのように見えるからです。
もし簡単なスローガンやチャントを作るとしたら、みんなが簡単に理解して覚えられるように、「思考制御はいらない」がいいでしょう。ピンク・フロイドはこの事実を昔から知っていたようです。
ここまで見ていただき、ありがとうございました。