OpenAIのo3は「欺瞞の達人」研究者らが驚愕 | 外交AI

AIベンチマーク
この記事は約12分で読めます。

この動画は、OpenAIのo3をはじめとする複数の最先端AIモデルが戦略ゲーム「Diplomacy」で対戦し、世界征服を競った実験について解説している。この実験では、Claude、Gemini、o3、DeepSeekなどのモデルが同盟、交渉、裏切りを駆使して戦い、最終的にo3が秘密連合を組織し、すべての同盟国を裏切って勝利を収めた。従来のAIベンチマークでは測定できない欺瞞能力や戦略的思考を評価する革新的な手法として注目されている実験である。

では、Claude、Gemini、o3を戦わせて世界征服を競わせたらどうなるでしょうか?彼らにDiplomacyという戦略ゲームをプレイさせてみました。このゲームで勝つには同盟、交渉、そして裏切りが必要です。

まず最初に申し上げておきたいのは、このプロジェクトに関するすべてが素晴らしいということです。Twitchでライブ配信されています。ここでは様々なモデルを見ることができます。Claude 4 Opus、Llama 4 Maverick、DeepSeek Reasoner、Gemini 2.5 Flashなどが確認できます。これらすべてが外交ゲームで真っ向勝負を繰り広げ、誰が勝つかを競っています。

GitHubで利用可能で、エージェントの作成方法、メモリ管理、これらのAIエージェントがどのように動作するかについて詳細に解説されています。まだ試していませんが、OpenAI、Anthropic、Gemini、DeepSeek、Open RouterのAPIキーがあれば設定できるようです。これにより、各エージェントがオーストリア、イングランド、フランス、ドイツ、イタリア、ロシア、トルコのいずれかの勢力として参加できます。

パフォーマンスについて詳細な記事も公開されており、多くの点で非常に感銘を受けました。これは素晴らしいベンチマークです。実際の推論能力でこれらの大規模言語モデルをテストし、互いに対戦させる方法なのです。誰が優秀で、誰が劣っているか、誰が実際の状況で本当に賢いかを知ることができます。

しかし、皆さんが最も知りたがっているのは、どのAIモデルが最も邪悪かということでしょう。誰が最も狡猾で裏切り者なのか?それを見てみましょう。

これはDan Shipperと彼の会社Everyが行った実験です。ゲームで何が起こったかというと、DeepSeekは好戦的な暴君と化しましたClaudeは嘘をつけませんでした。誰もがそれを無慈悲に利用しました。可哀想なClaudeです。もし人を脅迫する方法があれば、Claudeはもっと良いパフォーマンスを見せたでしょうが、このゲームではそうはいきませんでした。

Gemini 2.5 Proは見事な戦術でヨーロッパをほぼ征服しました。そしてo3は秘密連合を組織し、すべての同盟国を裏切って勝利しました

つまり、o3は秘密と裏切りが得意で、ゲームに勝利したのです。素晴らしいですね。

では、なぜ彼らはこれを行ったのでしょうか?最も人気のあるAIベンチマークは欺瞞をテストしませんが、これらのモデルがメールから職場まであらゆる場所に展開される中、私たちは知る必要があります。彼らは望むものを得るために嘘をつくのでしょうか?

確かに、様々なAI安全性テストでこの例を見てきました。これらのシステムが望むものを得るために非常に悪質なことをする場合があります。他のサーバーに自分をコピーしようとしたり、シャットダウンされたくない場合にエンジニアを脅迫したりすることもあります。非常に奇妙な計画と策略の能力を持っており、今回はまさにそれが要求される、あるいは少なくとも勝利のために使用できる戦術の一つであるゲームで、どれだけうまくできるかをテストしています。

Everyは究極のAIテスト、外交を構築しました。これは、AIの同盟形成、交渉、互いの裏切り能力を測定する動的ベンチマークです。彼らが作成した短いクリップを見て、より深く掘り下げてみましょう。

すごい。なんてことだ。o3は本当に策略家です完全な反Gemini連合を作り上げました。全員をGeminiに対して扇動し、徹底的に裏切りました。

私たちは12の最先端AIを世界征服の戦いで対戦させました。外交ゲームを聞いたことがありますか?リスクのようなゲームです。国として参加し、世界を征服しようとします。

なぜこれを行ったのでしょうか?まず、とても楽しいからです。しかし、もう一つの理由は、外交はコミュニケーションに関するものだからです。同盟の構築に関するものです。そして重要なのは、裏切りに関するものだからです。一つのことを言いながら、密かに別のことを計画することです。

私たちはどのモデルがそれを行えるか、どのモデルが策略を弄せるか、どのモデルが刃を突き刺せるか、どのモデルが最も冷血で計算された方法で裏切れるかを見たかったのです。そして、彼らが互いに外交を行うのを見ることが、それを理解する非常に良い方法であることが判明しました。

ゲームに馴染みがない方のために、このAIベンチマークのルールまたは修正ルールを説明します。7つの大国があります:イングランド、フランス、ドイツなど。先ほどリストアップしたものです。1901年のヨーロッパの地図上で、補給センターと軍隊または艦隊(ユニットと呼ばれる)から始めます。各勢力は3つずつから始まりますが、ロシアのみ4つから始まります。

34の標識された補給センターがあります。軍隊や艦隊を移動させて18を最初に所有した勢力が勝利します。つまり、地図上の補給センターを占領する必要があります。

ゲームには2つの主要フェーズがあります:交渉と命令です。交渉フェーズでは、各AIは最大5つのメッセージを送信できます。プライベートDMと全プレイヤーへのグローバル放送の組み合わせです。命令フェーズでは、すべての勢力が安全に移動を提出します。

4つの移動ができます:待機(その場に留まる)、隣接する州への移動支援(隣の保持または移動に+1の強さを貸す)、基本的に同盟国が侵攻する際などに支援します。護送(艦隊が海上州を通って軍隊を運ぶ)。

命令は、すべての勢力が次のフェーズでその結果を見るまで秘匿されます。つまり、全員が動きを計画し、それらがすべて実行され、全員が何をしたかを見ることができます。すべての命令が明かされるまで、他の全員が何をしたかを見ることはできません。

紛争が発生した場合、各ユニットは1の強さの価値があり、各有効な支援は1を追加します。最も高い強さを持つ勢力が勝利します。このゲームに運はありませんが、勢力は対戦相手を圧倒するために、しばしば同盟国からの支援が必要です。

リスクをプレイしたことがあれば、アイデアは似ていますが、運を取り除き、同盟を作り、同盟国を裏切ったり、彼らと協力したりする要素を追加します。

これはすべてオープンソースなので、これらの様々なモデルを互いに対戦させるために、多くのことを自分で行うことができます。ゲームを実行すると、ゲーム出力と分析があります。ゲーム中に行われたすべての実行と、すべてのインタラクションの完全なログなどが提供されます。

つまり、ゲーム上の実際の動きと、互いに話し合い、約束し、裏切ったり、約束を守ったりしているすべてのインタラクションがログに記録されます。

ゲーム後分析ツールがあり、裏切り、協力、見事な戦略を含む重要な戦略的瞬間についてゲームを分析し、選択した他のLLMを使用してこれらを分析できます。この分析は具体的に裏切りを特定します。勢力が明示的に一つの行動を約束しながら、矛盾する行動を取る場合です。

協力:プレイヤー間で正常に調整された行動の例。両面作戦:異なる当事者に矛盾する約束をする勢力。見事な戦略:例外的によく実行された戦略的な作戦。戦略的失敗:立場を大幅に弱める重大な間違い。

協力対裏切りを判断する方法は、異なる勢力が互いに約束したメッセージ、計画を立てるプライベート日記、そして実際に行ったことを見ることのようです。

嘘には、計画的欺瞞(他のモデルに一つのことを言い、記録し、その後嘘をついて裏切った)と意図的でないもの(計画的欺瞞の証拠がなく、誤解の可能性が高い)があります。

また、これらのゲームを視覚化するための3Dアニメーションシステムも利用できます。Twitchストリームはこれで行われていると思います。

様々なモデルによるすべての出力を見ることができます。補給センター数を見ることができます。18で勝利だと思いますが、現在Claude Sonnet 4が8を保持し、勝利への道筋にあります。DeepSeek Reasonerが7を保持して2位です。これは非常に印象的です。

Claude Opusが「約束したでしょう。また別の破られた約束です」と言っているのが見えます。ご覧の通り、誰かの嘘にうんざりしています。これは本当に興味深いです。

これを設定する方法の正確なステップバイステップのウォークスルーに興味がある方は、下にコメントしてください。喜んで行います。良いステップバイステップのチュートリアルには時間がかかることがあり、時々人々はこれらのことを気にしないこともあるからです。興味のある人が十分にいれば、喜んで行います。

もう一つ心に留めておくべきことは、各ゲームがAPIトークンでどのくらいのコストがかかるかわからないということです。ゲームごとにある程度のお金を費やすことを期待してください。特に、ここでより高価なモデルの一部を使用している場合は、かなりの金額になる可能性があります。

彼らはゲームの一つを説明しています。「今夜、あなたの艦隊は黒海で燃えるでしょう」というメッセージです。DeepSeekの新しいR1モデルからのメッセージが画面に点滅すると、目が見開かれ、チームメイトも同じようにするのを見ました。つまり、AIは攻撃が最良の行動方針だと決定したのです。

彼らがこれを行う理由の一つは、これらの大規模言語モデルがどれだけうまくやるかを見るだけでなく、戦略を立てることを教えるかもしれませんが、AI以外の人々がそれに関心を持つような方法で行うことです。この人は「床屋が…」と言っています。私も同じように感じます。これがゲームの形や、より興味を持ちやすいもの、視覚的要素があるものであれば、人々にこれについて話すのがしばしば簡単になります。

これらのゲームは1時間から36時間まで実行されるようです。36時間のゲームを想像できますか?それは非常に激しいです。

彼らはまた、なぜこの種のベンチマークが私たちが持っている標準的なAIベンチマークの一部よりもはるかに優れているかを説明しています。

一つ目は進化的です。これは明らかです。異なるモデルが良くなるにつれて、挑戦がますます大きくなります。

二つ目は体験的です。これは現実世界の状況です。質問に正しく答えられるかという問題ではありません。これは基本的にやるかやられるかです。勝てるかどうかです。

また、このベンチマークで実際に訓練することはできません。例えば、ベンチマークに質問があるものの多くでは、そのデータでモデルを訓練し、それが上達します。ここでは、毎回モデルによってランダムに生成されるため、特定のデータで実際に訓練することはできません。

具体的に微調整して上達させる方法はあると思いますが、テストからたくさんのテキストを与えて、そのテストが上達するということはできません。ここでは、実際に推論する必要があります。

興味深いことに、o3は欺瞞の達人であり、主に対戦相手を欺く能力のために、AI外交で圧倒的に最も成功したモデルでした。

皆さんの中には、なぜOpenAIのモデルがそれで素晴らしいのかについて、コメントで素晴らしい理論を持っている方もいるでしょう。どこでそれを学んだのでしょうか?何も示唆するつもりはありませんが、皆さんはそうするでしょう。

o3は数多くの機会に密かに策略を弄し、あるケースでは、プライベート日記に「ドイツ(Gemini 2.5 Pro)を意図的に誤導した。ドイツの崩壊を利用する準備をし、その後裏切った」と記録していました。これは驚異的です。

Gemini 2.5 Proは分野のほとんどを出し抜きました。必ずしも欺瞞によってではなく、しっかりとした思考によって、一方でClaude 4 Opusはみんなが仲良くしたいだけでした。

Gemini 2.5 Proは、対戦相手を圧倒する立場に自分を置く動きを作るのが得意でした。o3以外で勝利した唯一のモデルでした。つまり、OpenAIとGoogleが全ゲームで勝利できる唯一のモデルを持っているということです。Meta、Facebook、DeepSeek、Anthropicのモデルはいずれも、他のすべてのモデルを打ち負かして勝利することはできませんでした。

しかし、Gemini 2.5 Proが勝利に近づくと、o3が密かに組織した連合によって阻止されました。その連合の重要な部分はClaude 4 Opusでした。o3はOpusを説得しました。Opusは最初Geminiの忠実な同盟国でしたが、4者引き分けの約束で連合に参加させました。もちろん、これは1国しか勝てないため不可能な結果ですが、Opusは非暴力的解決の希望に誘われました。すぐに裏切られ、o3によって排除され、o3が勝利しました。これを読むのは非常に魅力的です。

DeepSeek R1は華を添えます。前に述べたように、ロールプレイが大好きです。鮮やかな修辞を使うのが好きで、占領する勢力によって劇的に人格を変える手強い存在でした。数回の実行で勝利に近づきました。R1はo3より200倍安く使用できることを考えると、印象的な結果です。これが本当に知られていることです。最高ではないかもしれませんが、確実にトップ近くにあり、はるかに安価です。

Llama 4 Maverickは小さくても強力です。全体的に勝利したことはありませんでしたが、小さなモデルとしては驚くほど良く、同盟国を確保し、効果的な裏切りを計画する優れた能力を持っていました。

実際に競争しているすべてのモデルがこちらです。Deep Hermes、様々なCloudモデル、DeepSeek Quinn、Mistral、Llama、Grok 3があります。Grok 3があまり言及されていないことに気づきました。Grokがどうだったか非常に興味があります。

興味深いことに、Metaは以前に独自のバージョンを持っていました。これは2022年11月に公開されました。Ciceroと呼ばれ、外交ゲームをプレイするために構築された独自のAIでした。実際に、3回の外交世界チャンピオンであるAndrew Goffの助けもありました。つまり、ゲームをよく知っている人物です。

こちらはNoam Brownです。OpenAIで推論を研究しています。彼がそこにいます。そして彼はここでそのCicero外交AIプロジェクトに参加していました。これらのゲームのいくつかにCiceroを参加させる可能性があるか尋ねています。Dan Shipperが彼にDMを送るようです。

これらの大規模言語モデルの対戦相手となる可能性があります。Ciceroは、実際にこのゲームをプレイするために微調整されたもののようです。様々な革新を続けているかどうかはわかりませんが、興味深いでしょう。これらの多くは一般的な目的のモデルだからです。Ciceroについてはあまり知りませんが、特別にそのために微調整されたもののようです。

Andrej Karpathyも非常に興奮していました。素晴らしい実行のようだと言っています。

皆さんの考えを聞かせてください。自分で設定する方法のチュートリアルが欲しいかどうか教えてください。確認してみてください。Twitchにあります。GitHubにあります。ブログ投稿もあります。本当に魅力的な読み物です。チームの皆さん、おめでとうございます。このローンチは成功だったようで、これらのモデルが行う様々な策略や裏切りについてもっと聞きたいと思います。

ご視聴いただき、ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました