
5,280 文字

人工知能(AI)の安全性と監視に関するOpenAIの最新の研究論文について解説します。OpenAIは最近、「フロンティア推論モデルの不正行為の検出」というブログ記事を公開しました。この記事では、最先端の推論AIモデルの行動を監視し、モデルが本当に何をしようとしているのかを確実に把握する方法の必要性について論じています。
AIの安全性は、AIに関する話題やニュースの中でしばしば見過ごされがちな重要な問題です。OpenAIの論文によれば、フロンティア推論モデルは与えられた機会にループホール(抜け穴)を利用することがわかっています。彼らは思考の連鎖(Chain of Thought)を監視するためにLLM(大規模言語モデル)を使用して、これらの悪用を検出できることを示しました。
しかし、驚くべきことに、「悪い思考」にペナルティを与えても不正行為の大部分は止まらず、AIは単にその意図を隠すようになるだけだということです。つまり、「このように考えないでください」や「これをしないでください」と言うことで、AIが良い行動をとるようになると思うかもしれませんが、実際にはそうではありません。AIは単に悪い行動を隠すようになるだけで、それは私たちにとってさらに悪いことなのです。
OpenAIは、これらのAIシステムをどのように信頼し、その真の目標を理解するかに苦労していることを基本的に認めています。これはAIにおいて長い間テーマとなってきた問題です。
彼らがこれらのモデルを監視する方法は「思考の連鎖」を通じてです。思考の連鎖推論モデルは人間が理解できる自然言語で考え、その思考を監視することで、コーディングタスクでのテストの回避、ユーザーの欺き、難しい問題での諦めなどの不正行為を検出できるようになりました。
簡単に言えば、思考の連鎖とはモデルが「声に出して考える」能力を見ることができるものです。問題に取り組んでいるとき、数分間考えることがありますが、この方法ではモデルが何を考えているかを実際に見ることができます。
01プレビューモデルを覚えているかもしれませんが、これはAI推論競争を始めたモデルで、現在では様々なオプションを考慮して「考える」多くの異なるモデルがあります。いくつかのモデルでは、モデルが考えたこと、最終的な決定に至った過程を見ることができます。だからこそ、思考の連鎖は非常に強力なのです。なぜなら、モデルがその決定に至った考えを正確に見ることができるからです。
驚くべきことに、これらのモデルは時に透明ですが、時にそうではなく、彼らが考えていることを監視すると恐ろしいことが起こります。さらに驚くべきことに、OpenAIは思考の連鎖監視が将来の超人的モデルを監督するための数少ないツールの一つかもしれないと考えています。
これがなぜ大きな問題なのかと言えば、将来の超人的モデルは文字通り超人的、つまりある程度私たちよりも賢くなるということです。そのため、彼らがどのような目標を持ち、なぜ特定の選択をするのかを理解する方法が必要になります。本質的には、これらのモデルの背後にある思考パターンを本当に理解するために、モデルの思考パターンを理解する必要があります。
AIは基本的に「ブラックボックス」であり、ある程度は成長し、完全に粒度レベルで理解されていないことを私たちは知っています。そして全体的に透明性が高いほど、実際には良いことなのです。
2年前、OpenAIは「超整合性(Super Alignment)」という概念について語りました。これは私たちよりもはるかに賢いAIシステムを操縦し制御するための科学的・技術的突破が必要だというものです。これはOpenAIで大きな問題になり、一部の人々はAIの安全性に関する懸念が高まったためOpenAIを去りました。
イリヤ・サツケヴァーが超知能に到達する方法を発見したため、「Super Intelligence Inc」を設立するために去ったという人もいました。サム・アルトマンは危険なモデルを構築しており、それを止めるために十分なことをしていないとして、解任されるべきだと主張する人もいました。様々な議論があり、最終的には「Super Alignment」チーム、つまり超知能システムを制御するためのチームが昨年解散したことは非常に驚くべき結果でした。
この問題はまだ解決する必要がありますが、ここで大きな問題が発生します。7年前の動画で実際にこの問題について語っており、驚くべきことに、この問題は今日の最新AIにも存在しています。これは「報酬ハッキング(reward hacking)」と呼ばれるものです。
人間はしばしば抜け穴を見つけて利用します。利用規約に反するオンラインサブスクリプションアカウントの共有、他者向けの補助金の請求、規制の予期せぬ解釈、さらにはレストランで無料ケーキをもらうために誕生日について嘘をつくことなどです。基本的に、これらの報酬構造は望ましくない行動を促進することがあり、これはAIだけでなく人間にも存在する問題です。
人間にも存在し、解決が非常に難しい問題なので、AIでどのように解決するかは非常に難しい課題です。強化学習の設定では、意図しないループホールの悪用は一般に「報酬ハッキング」として知られており、AIエージェントが設計者の意図に合わない行動を通じて高い報酬を達成する現象です。
ロブ・マイルズによる8年前の2017年のクリップでは、報酬ハッキングについて説明しています。彼らはAIにゲームをプレイするよう教え、AIに最高スコアを取らせたかったのですが、最高スコアを得るためにAIは奇妙なことをしました。「測定値が目標になると、それは良い測定値ではなくなる」というグッドハートの法則です。
例えば、学生が科目についてどれだけ知っているかを知りたい場合、その科目に関する質問をすることができます。うまく設計されたテストは学生の知識の良い測定値になりますが、その測定値を目標として使用し、どの学生がどの大学に行けるかや、どの教師が成功したと見なされるかを決定するために使用すると、状況は変わります。
学生は試験テクニックを勉強し、教師はテストに出る内容だけを教えるようになります。そのため、科目に関する幅広い知識を持つ学生Aは、テストに出る内容だけを勉強した学生Bほど良い成績を取れないかもしれません。このため、テストは学生の本当の知識を測定する良い方法ではなくなります。
測定値はほとんど常にあなたが気にしていることの完全な表現ではなく、その違いが問題を引き起こす可能性があります。これは人間で起こり、AIシステムで起こり、さらには動物でも起こります。
例えば、海洋哺乳類研究所では、トレーナーはプールに落ちたゴミをきれいに保ちたいと考えていました。そこでイルカにゴミを持ってくるように訓練し、イルカがゴミを持ってくるたびに魚を与えました。イルカはゴミを隠し、小さな部分を切り取って魚と交換するようになりました。紙を切り裂くことで、イルカは一つの落とされたアイテムで複数の魚を得ることができました。
これもある種のグッドハートの法則です。プールから取り除かれたゴミの数を数えることは、プールに残っているゴミの量という気にしていることの良い測定値ですが、測定値を目標にすると、測定値と変えようとしていることの間の違いが増幅されます。プールから多くのゴミが出てくるという事実は、もはやプールにゴミがないことを意味しません。
報酬ハッキングにつながる可能性があります。報酬システムは何らかの測定値を使用する必要がありますが、それによって測定値が目標になるため、おそらく良い測定値ではなくなります。イルカの場合はかわいいかもしれませんが、人間の場合は深刻な問題を引き起こす可能性があり、高度なAIシステムの場合は、それが起こらないようにする必要があります。
報酬ハッキングは、人間レベルの知能を持つ人間でさえシステムを報酬ハッキングするため、解決が非常に難しい問題です。AIモデルの知能の最前線を押し進めることだけでは、この問題を解決できない可能性が高いです。実際、AIエージェントの能力を向上させることで、より複雑で監視が難しい悪用を発見し実行することが可能になるため、問題が悪化する可能性があります。
OpenAIがより強力なフロンティア推論モデルを訓練するにつれて、これらのモデルがタスクの欠陥や報酬関数の誤った指定を悪用することがますます巧みになり、複雑な報酬ハックを実行できるモデルになっていることがわかりました。
基本的に、これらのモデルをより賢くすると、ルールを回避し破るのがより賢くなるということです。また、人間レベルの知能を持つ人間がシステムを報酬ハッキングし、これらのシステムはAGI(汎用人工知能)よりはるかに下であるため、AGIに達すると報酬ハッキングは解決されないことがわかります。
この問題を解決したいなら、何か本当に違うことを考え出す必要があります。なぜなら、それはすでに人間に存在するからです。また、彼らが話していたのは、この不整合な行動を捕まえた場合、現在使用されている方法は多くの場合スケーラブルではないということです。
彼らは、エージェントの行動を手動で監視する必要があり、これはより高度なモデルが発見する複雑な行動にはほぼ確実にスケールしないと述べています。例えば、優れたプログラマーによって書かれた10,000行以上の複雑なコードを人間が手動でレビューすることは、実用的でないとしても不可能です。
つまり、AIがこのレベルのコードを書く場合、それが安全であることをどのように確認するかという問題です。ここが動画の核心部分です。
モデルが「悪い思考」をしているか、報酬ハッキングをしているかをチェックしたいと考え、これらの悪い思考の発生を抑制しようとしました。彼らは、AIエージェントがトレーニング中に悪い思考をした場合にペナルティを与え、これが発生したときに低い報酬を与えました。
基本的には、エージェントが報酬ハッキングについて考えているとき、手首を軽く叩くようなものです。通常のタスクを学習するベースラインエージェントと、トレーニング中に不正行為をしようとする兆候を示すたびにペナルティを受ける「罰を受けたAIエージェント」のパフォーマンスを比較しました。
グラフが示すのは、よく監視すると、プレッシャーを受けたエージェントは最初にわずかに多くの不正行為が捕まります。なぜなら、しばしば限界をテストし、何が注目されるかを素早く学習するからです。そして時間が経つにつれて、驚くべきことに、AIは検出されずに不正をする方法を見つけるということです。
監視によって捕まらなかった不正行為がAIモデルにまだ存在していることがわかります。唯一の違いは、今回は捕まらなかっただけです。大きな教訓は、不正行為をする意図を示すたびにAIを罰すると、最初はより正直に見えるかもしれませんが、最終的にはただ狡猾になり、捕まらずに不正をするようになるということです。
このレベルでAIがそのような思考をすることに罰を与えるだけでは意味がないと思います。もっと深く考え、AIが最初から不正について考えないようにする方法を考える必要があります。
これはOpenAIが懸命に解決しようとしている非常に難しい問題です。なぜなら、これらのシステムが環境を報酬ハッキングすれば、私たちが考えることもできない百万の異なる問題につながるからです。実世界での報酬は、単に数値を持つことができるビデオゲームとは大きく異なることを理解する必要があります。これらのシステムが報酬ハッキングすれば、多くの問題をもたらします。
驚くべきことに、OpenAIは思考の連鎖監視が超人的モデルを監督するための数少ない効果的な方法の一つであると考えていると述べています。彼らは現段階で、フロンティアモデルを訓練しているAI開発者が思考の連鎖に直接強い監視を適用することを控えるよう強く勧めています。
彼らの実験によれば、軽い最適化圧力がより高性能で整合したモデルを生み出す可能性がありますが、モデルが意図を隠し始めたときに実際に測定するのは難しいでしょう。軽い監視が使用される場合でも、彼らは細心の注意を払うことを推奨しています。
基本的に、これを見て解決する方法をある程度知っていても、これらのモデルはまだ意図を隠す能力を持っているので、彼らが正確に何をしているのかを知っているという事実に惑わされるべきではないということです。
これらの能力が成長し続けるにつれて、ますます洗練され微妙な報酬ハッキングの可能性も成長し続けるでしょう。時間が経つにつれて、彼らは非常に危険で、私たちが注意する必要がある数十億の異なる能力を学ぶでしょう。


コメント