AIが「Among Us」で嘘を見抜くことを学習!- 強化学習による画期的な成果

AGIに仕事を奪われたい
この記事は約12分で読めます。

6,609 文字

AI Learns to Win “Among Us” with Reinforced Learning! - Lie Detection Breakthrough
Get VITURE Pro XR Glasses NOW with 10% OFF:VITURE Official Site: VITURE Amazon: #VITURE #VITUREProJoin My Newsletter for...

スタンフォード大学の研究者たちが、尋問やマルチエージェント間のコミュニケーションを通じて「悪者」を特定する必要があるソーシャルデダクションゲームにおいて、AIエージェントが非常に優れた能力を発揮するようになったことを発見しました。これらのゲームには「マフィア」や人気ゲーム「Among Us」などが含まれます。研究者たちは、他のエージェントとのコミュニケーションを通じて情報を尋問し推論する能力を大幅に向上させる方法を発見しました。これらの戦術はエージェントだけでなく、人間にも有効です。
スタンフォード大学から発表された論文「マルチエージェント強化学習によるソーシャルデダクションのための言語モデルのトレーニング」では、このような状況で密な報酬信号をエージェントに与える方法を見出しました。密な報酬信号という言葉に聞き覚えがあるかもしれませんが、今日もまた強化学習について話すことになります。強化学習こそが全てなのです。
Among Usというゲームに焦点を当てて、その仕組みを説明しましょう。これは隠された役割のゲームと呼ばれ、マルチプレイヤーゲームです。プレイヤーは2つのグループに分かれます。情報を持たない多数派と情報を持つ少数派です。具体的にはAmong Usではクルーメイトとインポスターに分かれます。クルーメイトの目的はインポスターの正体を突き止めることで、インポスターの目的は正体を明かさずにできるだけ長くゲームに残ることです。
ゲーム内でクルーメイトはタスクをこなさなければなりません。タスクにはパズルを解いたり、スイッチのオンオフを切り替えたりすることが含まれます。一方、インポスターの唯一のタスクはクルーメイトを殺すことです。プレイヤーが死体を発見すると、クルーメイトとインポスターの全プレイヤーが集まってフリーチャットフェーズに入り、それぞれが目撃したことを議論します。
当然、インポスターは嘘をつき、他の人を告発したり、「私ではない」と言い張ったりして、自分への疑いをそらそうとします。このフリーチャットフェーズでは、クルーメイトは情報を共有・収集し、誰がインポスターなのかを突き止めようとします。例えば、クルーメイトの1人が殺人を目撃した場合、「プレイヤーBがプレイヤーCを殺すのを見た」と報告できます。ただし、その報告者自身がインポスターである可能性もあるため、誰かの発言が真実か嘘かを見極める必要があります。
議論フェーズの終わりには投票が行われ、全員がインポスターと思われる人物に投票します。クルーメイトはインポスターを追放できれば勝利し、インポスターは最後まで生き残れば勝利します。
マルチエージェントの連携は目新しいものではありません。従来、エージェントが効果的に協力・競争できるマルチエージェント環境は、マルチエージェント強化学習(MARL)と呼ばれてきました。StarCraft、Overcooked、Hanabiなどの競争ゲームは、この種の技術が活用される良い例です。
しかし、問題があります。この技術には膨大なタスク固有の人間のコミュニケーションデータが必要です。基本的に、エキスパートの行動を観察する必要があり、それによってのみエージェントは人間と同等のパフォーマンスを発揮できます。しかし、そのようなデータがない場合はどうなるでしょうか?その場合、これらの技術は機能しません。
この論文の目的は、膨大な人間のデータを必要とせずに、強化学習を使ってこれらのモデルをトレーニングできる報酬信号を見つけることです。私たちは最近、このチャンネルで強化学習について多く話してきました。検証可能な報酬を伴う強化学習は、人工知能を新たなレベルに引き上げるための鍵となります。
しかし、Among Usのような場合、エージェントのコミュニケーションや他のエージェントのコミュニケーションの解釈が良いか悪いかをどのように判断すればよいのでしょうか?他のエージェントに送信するメッセージが役立つのか、あるいは他のエージェントから受け取るメッセージが役立つのかをどのように知ることができるのでしょうか?ゲーム終了時の勝敗だけが報酬信号である場合、強化学習を使用するには十分な信号とは言えません。
この論文の重要な提案は、議論フェーズ中に生成されたメッセージに対して、真実に基づいて他のクルーメイトのインポスターに対する認識をどのように変化させたかによって報酬を与えるアプローチを提案しています。しかし、他のクルーメイトへのメッセージの良さを示す報酬信号だけでなく、他のクルーメイトからのメッセージをどれだけ適切に解釈できたかを示す報酬信号も必要です。
つまり、「話す」と「聞く」の両方が重要なのです。この技術は非常に効果的で、他のクルーメイトに送信したメッセージによって、それらのクルーメイトが実際のインポスターを信じるようになった場合に報酬を与え、逆に他のクルーメイトからのメッセージの解釈によって、そのクルーメイトが実際のインポスターを信じるようになった場合にも報酬を与えます。
そして彼らが学んだのは、単に他のクルーメイトをインポスターの可能性があると告発するだけでなく、実際に証拠を提示してその主張を裏付けることです。この方法は人間の例を必要とせずに実行でき、それが強化学習の力です。その後、セルフプレイの状況に入ることができます。基本的に、エージェントは他のプレイヤーに正確にインポスターが誰であるかを説得するのに最も効果的な言葉の組み合わせを見つけるために、何度も繰り返しゲームをプレイします。
[スポンサーセグメントは省略]
論文からいくつかの重要な点を読み上げましょう。エージェントは、自分が送信するメッセージの有用性や、他のプレイヤーからのメッセージの意味を理解するための強い信号を持っていません。これが先ほど話した「話す」と「聞く」です。ゲームに勝利したときにエージェントが受け取る疎な報酬信号は、エージェント間の質の高い議論を強化するのに十分な情報を持っていません。
私たちは、議論フェーズ中に生成されたメッセージに、インポスターの正体についての他のクルーメイトの信念がどのように変化したかに基づいて報酬を与えるアプローチを提案します。その報酬信号は、ゲームの真実に基づいています。モデルエンジンは実際のインポスターが誰であるかを知っているため、メッセージに基づいてより多くのエージェントが実際のインポスターを信じ始めた場合、それはそれらのメッセージが非常に効果的であったことを示す強い信号となります。
興味深いことに、私たちの技術は、人間の間で行われる実際のAmong Usゲームでよく見られる行動を自然に生み出すことがわかりました。例えば、プレイヤーを直接告発したり、他のクルーメイトを助けるための証拠を提供したりするような行動です。この方法は、標準的な強化学習と比べて2倍高い成功率を示し、さらに私たちのモデルの4倍以上大きな基本モデルと比べても3倍以上高い成功率を示しました。
関連研究のセクションでは、リファレンスゲームと繰り返しリファレンスゲームと呼ばれる状況について言及しています。例えば、複数の画像があり、話者がリスナーに対して、それらの5つの画像の中から正しい1つの画像を選べるように伝える必要があるような状況を想像してください。ただし、単に「画像3を選べ」「画像4を選べ」とは言えず、画像の内容に基づいて画像の選び方を実際に説明する必要があります。これがリファレンスゲームです。
人間は通常、心の理論による推論を使用して話者の意図を理解することで、このような課題に自然に素早く適応します。ChatGPTによると、心の理論とは、他者が自分とは異なる思考、信念、意図、知識を持っている可能性があることを理解する能力です。これにより、個人は他者の精神状態に基づいて、その行動を予測し解釈することができます。
これらのソーシャルデダクションゲームは、リファレンスゲームよりもさらに複雑です。なぜなら、誰も真実を知らず、チームが協力して答えにたどり着く必要があり、さらにインポスターも会話を妨害しようとしているからです。
さらに難しくしているのは、ゲーム終了時の勝敗だけを報酬信号として使用することです。議論中のメッセージの効果についての信号がほとんどないため、コミュニケーションを活用することが単なる強化学習では非常に困難になります。実際には、この疎な信号はマルチエージェント環境でインポスターを特定することを困難にします。なぜなら、正しく投票しても負ける可能性があり、間違って投票しても複数のエージェントがインポスターに投票すれば勝つ可能性があるからです。
これは実際には何を意味するのでしょうか?エージェントとして間違った投票をしてもゲームに勝つ可能性があり、正しい投票をしてもゲームに負ける可能性があるということです。そのため、ゲーム終了時のその非常に疎な信号はさらに悪化してしまいます。
強化学習のベースラインを超えて改善するために、ゲームのソーシャルデダクション要素を活用することができます。各エージェントの正解を選ぶ際の信念は、強化学習のベースラインと比較して、ゲームの核となる要素とコミュニケーション手段を学習するためのより強い信号を提供します。彼らは真実を知っているので、実際のゲーム中に他のエージェントに実際のインポスターを信じさせるようなメッセージを使用できた場合、それは非常に強い信号となります。
しかし、それはエージェントが他のエージェントにメッセージを伝える場合には本当に良いのですが、私たちのエージェントが他のエージェントのメッセージを聞いている場合はどうでしょうか?聞いて解釈しているそのメッセージが実際に良いのか悪いのかをどのように知ることができるでしょうか?基本的には、それを反転させるだけです。他のエージェントからのメッセージを聞くことで、私たちの基本エージェントがインポスターを実際のインポスターだと信じるようになった場合、それはリスナーとしての強化学習にとって非常に豊かな報酬信号となります。
彼らが行ったことは、環境の真実の答え(インポスターの正体)を使用して、インポスターについての推論を直接改善するようにクルーメイトをトレーニングすることです。重要なのは、このトレーニング信号が人間のデモンストレーションデータを特に必要としないということです。人間のデータなしでその豊かな報酬信号を与える方法を見つけ出したのです。
私はこのチャンネルで、STEM(科学、技術、工学、数学)には簡単に識別できる報酬信号があることについて多く話してきました。2+2=4なので、モデルが2+2=4と言えば、それが正しいとわかります。それは検証可能な報酬です。しかし、実際にはそうでないことが多いのです。モデルに物語を書くように頼んだ場合、本当の正解はありません。したがって、報酬信号を与える方法がなく、人間の介入なしには強化学習を使用する方法もありません。
しかし、この場合、そして私が他の多くの分野でも見つかることを期待しているのは、たとえ明白でなくても、実際に報酬信号を特定できるということです。この場合、彼らはAmong Usゲームでそれを行うことができました。
私はすでにセルフプレイについて話しましたが、論文からこの部分を聞いてください。私たちは、クルーメイトとインポスターが以前の敵の方針の反復に対して訓練を行う反復セルフプレイアルゴリズムを採用しています。これはAlphaGoが囲碁で非常に強くなった方法と非常によく似ており、チェスエンジンがチェスで非常に強くなる方法とも似ています。強化学習こそが全てなのです。
これはDeepSeekが思考行動を引き出すのに使用したのと同じ手法であり、バークレーの博士課程の学生が1.5億パラメータのモデルから思考行動を引き出すのにわずか30ドルで使用したのと同じ技術です。強化学習こそがAIを次のレベルに引き上げる道だと私は断言します。
それでは、実際のパフォーマンスについての結果を見てみましょう。ゲームの様々な変形、環境の形状、タスクの数、プレイヤーの数があります。左側に環境の形状(2×1、1×3、2×2など)、タスク数(2、3、4、5、6)、プレイヤー数(4、5、6)が示されています。上部には異なる色が何を意味するかを示す凡例があり、それらは異なる基本モデルまたはトレーニング技術を表しています。
y軸には勝率が示されています。最も濃い灰色で示されている最低の勝率は、基本的に何も行っていない基本モデルです。ご覧のように、基本モデルは全体的に最悪のパフォーマンスを示しました。これらの技術は本当に効果があったことがわかります。というのも、ここからは改善しかないからです。
やや明るい灰色で示されているのは、この基本モデルの大きいバージョン(70億パラメータ版)です。さらに明るい灰色は強化学習(RL)を示していますが、これは私たちが話した追加の信号なしの強化学習です。薄い黄色は、リスニングのみに最適化されたモデルを示していますが、強化学習は使用していません。その後、リスニングを伴う強化学習、そして最後にリスニングとスピーキングを伴う強化学習があります。
ご覧のように、これらの強化学習報酬により、はるかに高い成功率が得られています。単に強化学習でトレーニングするだけでも、基本モデルと比較してパフォーマンスが大幅に向上します。追加のリスニング損失なしの強化学習は、インポスターの正体について推論するのに苦労することがわかりました。代わりにリスニングのみでトレーニングした場合、どのアクションが効果的か、環境の詳細をどのように議論するかはわかりませんが、Among Usではインポスターの正体を予測することが重要であるため、効果的なベースラインとなります。
強化学習とリスニングを組み合わせると、成功率は劇的に向上します。そして最後に、完全なモデルは基本環境において、強化学習のみのベースラインの2倍の勝率を達成します。このグラフ(図5)では、セルフプレイの反復が勝率を改善することがわかります。セルフプレイを行っているという事実が本当に役立っているのです。
要約すると、弱い基本モデル(大きなモデルではなく小さなモデル)にもかかわらず、私たちのエージェントは効果的に話し、議論のメッセージから情報を抽出することを学びました。また、私たちのエージェントは、議論を妨害しようとしているにもかかわらず、クルーメイトの連携を崩すことができない敵対的に訓練されたインポスターに対しても堅牢であることがわかりました。これは本当に素晴らしいことです。
ここで私が得たいくつかの重要なポイントについて話させてください。第一に、AIエージェントは突然、尋問と嘘の発見に非常に長けるようになりました。これ自体が多くの意味を持っています。さらに、エージェント間の連携によって、彼らはさらに強力になります。しかし、私が最も興奮しているのは、報酬信号が(少なくとも私には)明白ではなかったものを明白にし、人間を介さずに強化学習とセルフプレイを使用して、これらのエージェントが会話ゲームでより良いパフォーマンスを発揮するようになったということです。
彼らは豊かな報酬信号を特定することができ、私は多くの異なる分野、職業、タスクにおける鍵は、モデルをトレーニングするための豊かな報酬信号を特定できることだと考えています。なぜなら、それを特定できれば、非常に小さなモデル、多くない強化学習、多くないセルフプレイでも、信じられないような結果を得ることができるからです。これは、わずか30ドルで狭い領域の思考行動を引き出すことができたバークレーの論文で見たのと同じことです。
これについてどう思いますか?このようなシステムをどのような分野に応用できると思いますか?コメントで教えてください。この動画が気に入った場合は、いいねと登録をお願いします。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました