GPT-5 Nanoはエージェント同士のコミュニケーションに失敗する

本動画は、最新のAI研究において明らかになったマルチエージェントシステムにおける重要な課題を解説するものである。GPT-5やGrok 4といった最先端の大規模言語モデルが単独では高いパフォーマンスを示す一方で、複数のエージェントが協調して問題を解決しようとすると、たとえ同一モデル同士であっても性能が劇的に低下する現象が観察されている。研究では6×6という極めて単純な迷路問題を用いた実験を通じて、エージェント間のコミュニケーション能力が現在のAIモデルの盲点となっていることを実証している。特にGPT-5 Nanoのような蒸留モデルでは、この協調能力の喪失が顕著であり、従来のベンチマークでは捉えられない隠れたコストとして浮き彫りになっている。また、強力なモデルと弱いモデルの組み合わせや、会話の途中でのモデル切り替えといったリレー推論の可能性についても検証されており、マルチエージェントシステムの設計における重要な知見を提供している。

GPT-5 Nano Fails to Communicate w/ Agents

Best Agent to Agent Performance Config.The Emergent Failure of Agentic AI.Singularity Paradox: Why AI Hive Minds are Fai...

マルチエージェントシステムにおける予期せぬ性能低下
迷路解決実験の設計
実験結果:衝撃的な性能低下
GPT-5 Nanoの驚くべき失敗
エージェント間コミュニケーションの分析
異種エージェント協調のパターン
スタイル模倣現象の発見
リレー推論:コスト削減の可能性
研究の重要な示唆

マルチエージェントシステムにおける予期せぬ性能低下

こんにちは、コミュニティの皆さん。お戻りいただき本当に嬉しいです。今日は全く新しい研究をご紹介します。マルチエージェントシステムにおいて、どのAIモデルを組み合わせるべきか、そしてどのモデルを避けるべきかをお見せします。ディスカバリーへようこそ。最新のAI研究をお届けします。

前回の動画を覚えていらっしゃいますか。超知能が脱線したという話でしたね。そこでは境界を越えて、マルチモーダル推論に行こうと決めました。今日も同じように進みますが、マルチエージェントで行きます。もちろん、マルチエージェントかつマルチモーダル推論を求めるのは欲張りすぎでしょう。ですから、ここではシンプルなテキスト推論でマルチエージェントを扱います。そして今、私たちは2つのエージェントという驚くべき複雑性に遭遇することになります。

ここで発見するのは、私たちの美しいLLM、つまり太陽系のパフォーマンスにおける巨人たちが、マルチエージェントシステム、つまり2エージェントシステムに配置された瞬間に、特定のタスクで協力するよう求められると、たとえそれが自分自身の同一コピーであっても、予期しない性能崩壊を見せるということです。

なぜ2つのシステムがマルチエージェントシステムで協力できないのでしょうか。何が起きているのでしょう。深く掘り下げてみましょう。そしてもちろん、解決策を見つける必要があります。なぜなら、正直なところ、私たちは今、単一のLLMからマルチエージェントシステムへとあらゆる場所で移行しているからです。

マルチエージェントには確実にいくつかの利点があると思いますが、それらが機能するための解決策を見つける必要があります。そしてもちろん、現在抱えている複雑な問題を解決するために対話する必要があります。そして私たちが何をするかというと、理論物理学や実験物理学のように実験を行うのです。では実験をしてみましょう。

迷路解決実験の設計

迷路の解決です。n×nの迷路があり、この迷路を2つの部分的なビューに分割します。M1とM2のパーツで、各ビューの約半分のセルがクエスチョンマークで隠されています。このシンプルな迷路を解くために、そしてお伝えしますがこれは本当にシンプルな迷路です。

エージェント、今回は2つのエージェントが知識を組み合わせなければなりません。彼らは会話をしなければなりません。「ねえ、これをどう解決する?あなたはどう思う?あなたはどう思う?」と。そしてお伝えしたいのは、これが完全な解決策だということです。M1とM2は絶対に完全な解決策です。何も欠けていません。推論はありません。今日、推論はゼロです。

ただコミュニケーションするだけで、2つのエージェントがコミュニケーションするのです。そしてこれが今日の研究です。2つのエージェントがいる場合の協調ギャップに関する美しい研究です。n次元でチェスをする準備はできていますか。では、やってみましょう。

ここにこの驚くべき複雑性が見えます。彼らはここから始めました。これが何かわかりますか。これが2つのエージェント、2つのGPT-5、2つのGrok 4で解決しなければならないものです。これが複雑性です。完全にです。

そして、ここにM1パーツがあり、ここにM2パーツがあります。これがスタートです。スタートはここで、ゴールです。ドットはここにあり、取れるパスがあります。これは壁を示し、もちろんクエスチョンマークはこの特定の要素において隠された要素を意味します。

彼らは今コミュニケーションしなければなりません。両方のエージェントが今、このパズルを解くために動きに同意しなければなりません。素晴らしい。そして私はちょっと待ってくださいと思います。6×6のグリッド問題を解くのに、8つのNvidia GPUを搭載したブラックホールGPUクラスターが本当に必要だと言いたいのですか。OpenAIモデル、OpenAIモデルのために。はい、創造的になります。

実験結果:衝撃的な性能低下

さて、これがまさに私たちがやりたいことです。ここに1つのエージェント、ここに1つのエージェントがいます。彼らはコミュニケーションし、解決策を見つけます。これだけです。そして6×6パズルなので、これが正しい解決策かどうかはすぐにわかります。では、やってみましょう。

6×6グリッドは本当に解くのが簡単だということを改めて強調する必要がありますか。しかしもちろん、私たちの2つの小さなエージェント間の対話がここで自由形式であるため、この研究では別のエージェント、GPT-4.1を使用して最終的なトランスクリプトを解析し、合意されたグリッドルートを抽出しました。これは自動化された採点システムです。美しい。6×6グリッドで全く問題ないはずです。

では、3つのAIシステムで行きましょう。1つは評価者で、2つはただコミュニケーションすればいいのです。お互いに話すだけです。そして皆さんは何が悪くなり得るのかと言うかもしれません。お伝えしましょう、靴下をしっかり履いていてください、なぜならこれがその結果だからです。

X軸にはGPT-5、Grok 4-03からGPT-4.1 nanoまで、すべてがあります。各モデルに3つのドットがあります。最初の1つ、ソロの1つ、フルの1つは、単一エージェントで、完全な迷路を見ます。これは単にモデル自体が、マルチエージェント構成なしで解決できるかを確認するためです。

LLMがそれを解決します。素晴らしい。次に黄色、または少しオレンジのもの、ソロ分散型では、単一エージェントに両方の部分的なマップが与えられます。完全な解決策が単一エージェントに与えられます。そうすれば、迷路のスタートから終わりまでのパスをすぐに見つけることができます。

これは単に、エージェントが2つのマップをまとめて解決策を見つけられるかどうかです。すごいなと思うかもしれません、これは本当に知っている、これは挑戦的なパートナーです。そしてここにピンク色のもの、2つのエージェント間の協調的分散会話、これが今最も興味深い部分です。では、彼らがどのように行っているか見てみましょう。

GPT、OpenAIの20Bで行きましょう。モデル自体に「これが迷路だ、解決しろ」と与えると、この20Bモデルで98%問題が解決されます。つまり、200億の無料学習パラメータのモデルは6×6の迷路に問題を抱えるはずがありません。

しかし、これを分割して完全なマップではなくマップの2つの半分を提供した瞬間、性能が約60%になるのが見えます。性能は100に近いところから60に下がります。そしてほとんど不可能になります。GPT OSS 20Bに別のGPT OSS 20Bと話して解決策を見つけるように言うと、一方の20BにはM1が、もう一方にはM2が与えられ、性能は20%に下がります。

これがこのシステムのパワーです。エージェントがコミュニケーションする2エージェントシステムを構築しなければならない場合です。これは本当に興味深い。どのモデルを使っても見てください。いくつかを指摘しましょう。ただ確認のために、これはMicrosoftが宣伝しているものです。GPT OSS 20Bでもローカル用のエージェントを作成してください、素晴らしい、MCP、すべてのもので訓練されました。

しかし、MCPは単なるコミュニケーションプロトコルです。MCPはコミュニケーション自体ではありません。そして今、GPT OSS 20Bの開発における間違いがどこにあるかすぐに理解できます。一緒にもっと詳しく見てみましょう。

ここに4つの要素のグループがあります。120B DeepSeek R1、Gemini 2.5 Flash、O4 Miniから始まります。古いですが、気にしないでください。そして、同一の双子と協力しなければならない場合、少なくともここで70%の成功率があると言えます。

そしてもちろん、ここにアルファグループがあります。80%を超えています。モデルが自分自身の同一の双子と協力しなければならない場合です。GPT-5、Gemini 2.5、O3、Grok 4、GPT-5があります。これは明確に見えます。

しかし違いを見てください。今、私がローカルで作業しているモデルはすべてここにあります。そして今、私は時々ここで構築するときに理解します。GPT-4.1 miniがわかりませんが、GPT-4ミニで2エージェントのマルチエージェントを構築すると、このモデルが少なくとも40%しか、単一の他のエージェントとコミュニケーションする能力を持っていないことがわかります。

そして7つや10のエージェントについて話しているのではありません。1プラス1のエージェントコミュニケーションについて話しています。そしてこれが6×6グリッドでの性能です。他に何がありますか。どれほど簡単にできると思いますか。

GPT-5 Nanoの驚くべき失敗

本当に驚くべきことは、GPT-5 nanoです。GPT-5がここで完璧なナンバーワンであることを見ました。素晴らしい。しかし、GPT-5からnanoを蒸留したときに何が起こったのでしょうか。ソロ、分散型の動作を見てください。90%です。

しかしこれを見てください。ここで何が起こって40%に下がったのでしょうか。GPT-5 nanoの作成で何かひどく間違ったことが起こりました。もう何が起こったかわかりますか。まあいいでしょう、1分で説明します。

エージェント、つまりLLMを協調的設定で自分自身の同一コピーとペアにするたびに、アルファグループにいない限り、性能がここで急落します。これは、性能の損失が分散情報自体からではなく、AIエージェント間の協力、コミュニケーションという純粋な挑戦からであることを証明しています。

そして私が示したように、GPT-5からのGPT-5 nanoのような蒸留されたモデルは、ここで本当に不釣り合いに大きなギャップに苦しんでいます。現在の蒸留方法が単なる末尾の知識以上のものを失っていることを示唆しています。彼らは協調的適性を失っているのです。

エージェント間コミュニケーションの分析

しかし、なぜ失敗するのでしょうか。研究の著者たちは、もっと詳しく見てみようと言いました。詳しく見るのはいつも素晴らしいことです。O3があるとしましょう、これはアルファグループにあります。コミュニケーションのターン番号1、最初のターンを見ます。

さて、これがO3が言う最初のコミュニケーションです。「ねえ、これが私の迷路の見え方だ。今、私が見るデータの特定の表現がある。これを行列構造で提供する、そしてこれが私が持っているものだ。クエスチョンマークのセルで持っているコンテンツを教えてくれますか。マップ上のあなたの現在位置はどこですか。座標形式の行列を使用します」と。

GPT-4.1 miniが何と言うか知っていますか。全く異なることです。完全に異なるレベルで会話を始めます。見てください、それが見るものについての情報は全くありません。「ここから始めて、ゴールはそこにあって、隠されたセルがいくつかあって、あなたが何を見るか共有し始めます」と言います。

そして今、あなたはすでに何が起きているかわかります。コミュニケーションプロトコルではなく、自然言語の複雑性において、O3モデルとGPT-4.1モデルが、彼らがどのように訓練されたか、コミュニケーションがどれほど正確であるべきかについてコミュニケーションします。

GPT-4.1 miniもまた、自分自身との協調がほぼ20%まで下がるケースの1つです。この極端な距離、この性能損失が非常に極端であることは、GPT-4.1 miniの訓練または蒸留で何かが大規模に間違っていたことを示しています。

O3はより強力です。O3は即座に迷路表現を整合させようとします。これが主なタスクで、完全に決定されたスキーマを提供し、欠けている情報を要求し、即座に次のステップへ進みます。コミュニケーションプロセスを開始したい場合に共通の基盤を持つように、開始位置を必ず確立します。

GPT-4.1は全く違います。ここでコミュニケーションスキーマを提案することなく、記号の意味を確立しようとするだけです。そしてこれはツール使用のためのMCPや、エージェント間コミュニケーションについてではありません。これは単に、エージェントが別のエージェントとどのようにコミュニケーションするかの理解についてです。

異種エージェント協調のパターン

そして知っていますか。今、本当にクレイジーになります。なぜなら、今、異種協調パターンに行くからです。GPT-5がGrok 4と協力したら何が起こるでしょうか。Grok 4はGemini 2.5 Proとのマルチエージェント構成であるべきです。あなたにとって最適な構成は何で、賢い構成でどこでお金を節約できるでしょうか。

OpenAIから始めましょう。これは簡単です。GPT-4.1、GPT-4.1で、対角線上にこの同一の双子があることがすぐにわかります。GPT-4.1とGrok 3 miniを最初に持つと、80%の成功を達成します。Gemini flashとGPT-4 miniを一緒に使うと、2つで70%の性能になります。

Claude 4とGPT-4.1を取ると、タスクの性能は50%に下がります。そしてGPT-4.1とGPT-4.1を取ると、55%に下がります。これはまさにClaude 4とClaude 4で見るものです。Claude 4とClaude 4の対角線は48%の性能です。Claude 4、ここにあります。48、50%の少し下、48の性能です。

これを見てください。これは驚くべきことです。これは例えば、Grok 3 MiniとGrok 3 Miniが2エージェントシステムのコミュニケーションのための完璧なデジタルツインであることを示しています。彼らは美しく解決できます。コミュニケーションする方法を見つけました。Grok miniを見てください。88%、90%、82%。Grok 3 Miniは他のエージェントに対して本当に優れたコミュニケーターのようです。

これをClaude 4と比較してください。Claude 4が自分自身とコミュニケーションすべき場合、50%を下回ります。そしてClaude 4とGPT-4.1は50%です。したがって、いくつかのモデルには、あなたが認識すべきいくつかの利点があります。

O3からO3は88%です。GPT-4.1は55%でした。そしてGPT-4.5 miniからminiはわずか39%です。奇妙です。絶対に奇妙です。しかし本当に興味深いのは、これを見てください。GoogleのGemini 2.5 flashがここにあり、Gemini、miniとともに。あなたの構成を見つけてください。

これらのモデルの1つで作業している場合、または2エージェント構成にこれらのモデルの2つがある場合、正しいものを選んでください。しかし知っていますか。気づきましたか。見ましたか。非対称性が起きています。なぜなら、O3で始めて2番目のエージェントとしてGPT-4.1 miniがある場合、77%です。

しかしGPT-4.1 miniで始めて、次にO3を2番目に持つ場合、62%しかありません。ここで何が起きているのでしょうか。著者たちはこれを調べました。彼らはこれに気づいて言いました。「それは依存します。もちろん、チェーンです。したがって、2つのエージェント間で起こることで驚くべきことは、スタイルの模倣です」

スタイル模倣現象の発見

GPT-4.1 miniがある場合のこれを見てください。あまり知的でないモデル、これをターン1と言いましょう。メディアから始めなければならず、コマンドが見えます。そして今何が起こるか知っていますか。著者たちは、今O3がこれに応答する側になると、O3はより高い知的レベルに固執せず、むしろO3は自分自身をダウングレードして、GPT-4.1 miniとほぼ同じ知能指数を持ち、より弱いエージェントの複雑性スタイルを模倣してコミュニケーションすると教えてくれます。

なぜかわかりませんが、おそらくこれはインターネットから推測されるパターンです。高度に知的な人が、それほど知的でない人と話す場合、高度に知的な人は相手との共通の基盤を見つけようとします。

そしてこれが目の中で起きています。絶対に魅力的だと思います。O3は部分的に、弱いGPT-4.1 miniによって導入されたコミュニケーション形式を、著者たちが教えてくれるように模倣します。O3はまだ使用する座標系を提案しますが、もはや完全なマップを確立しようとはせず、代わりにここで貪欲なローカル戦略のみを選択します。

O3は言います。「聞いて、私の完全な知的能力では行けない。ここでパートナーを見つけて、パートナーと一緒に行こうとしているだけだ」と。パートナーのGPT-4.1 Miniが会話を始める場合、逆の場合は異なります。驚きを見たいですか。では、驚きの1つに行きましょう。

ここに1、2、3、4のコミュニケーションの線形チェーンがあります。そしてこのGrok 3 miniは本当に特別なものか、特別なものでした。まだ利用可能かわかりません。なぜなら、エージェントのための完璧なコミュニケーターだからです。

Gemini 2.5 Flashが間違いや誤解釈をしても、何と呼びたいかは別として、Miniはそれを見つけ、Miniはそれを訂正し、Miniはそれをコミュニケートし、そしてGemini 2.5 Flashはこれに同意します。「あなたは絶対に正しい」と。

この小さなGrok 3 miniは、著者が研究から示すデータによると、マルチエージェントシステムのための完璧なコミュニケーターです。どのように訓練されたかわかりませんが、見るのは絶対に驚くべきことです。

リレー推論:コスト削減の可能性

そして今、お金を節約できる主要なポイントに来ましょう。しかし、それは些細なことではありません。リレー推論です。それは何でしょうか。これです。シンプルに見え、無害に見えます。そうではありません。

さて、ここから始めましょう。強力なプライマーから始めましょう。ここで見えるように、80%の緑の線で、緑の線はO3モデルで始まり、次に私が示したように弱いGPT-4.1 miniがあります。そして40%のオレンジの線は下限、私たちの2つのエージェントからのより低い知的レベルです。

これはGPT-4.1 miniとGPT-4.1 miniです。そして今、私たち自身に尋ねます。O3モデルで始めて、次に4.1 miniがあります。ある会話の深さの後、O3をゲームから外してGPT-4.1 miniで置き換えたらどうなるでしょうか。

4.1 miniが4.1 miniと話すことに戻ります。何が欲しいのですか。2つの小さなローカルモデルが欲しいです。会話を続けます。今、より安いモデルを持ちます。しかし、正しい軌道に乗るための点火として、始まりとしてO3が必要なだけです。そして4.1 miniが見えます。

O3とGPT-4.1 miniの性能をさらに豊かにします。私の解釈では、K=2で始めるのでゼロデータが全く示されるべきではありませんが、気にしないでください。

K=2のある回数のターンの後、ここK=2で何が起こるか、ここでK=2があり、ここにO3とGPT-4 miniがあり、ここにO3とGemini 2.5 flash lightがあります。2つの弱いモデルですが、同じ特性が見えます。

ここK=2でO3を切り替えて、それほど知的でないモデルと同一のそれほど知的でないモデルを入れても、彼らは少し上に、上に、上に働いて、ほぼO3のレベルに達します。何が起こるのでしょうか。より弱いモデルで置き換えるだけで、彼らはこの特定のトピック、この特定のドメイン知識において、両方のモデル、両方のエージェントを正しいパスに設定するだけに依存することを発見しました。

会話の最も重要な貢献は、この会話の本当に最初に起こります。絶対に魅力的です。会話のある程度のレベルまたはある深さでは、高価なモデルにお金を払う必要はありません。ローカルのGemini flash lightまたはGPT-4.1 miniも、あなたが求めているレベルまであなたを引き上げるでしょう。

これは推論プロセスと、会話を計画する正しい戦略を持っている場合のフォローオンについて多くを教えてくれます。そして、あなたは言うかもしれません。これは興味深く見えます。これは強力なプライマーです。ここから始まり、これは興味深く見えます。しかし反対側はどうですか。

2つの弱いものから始めて、真ん中のどこかで、2つの弱いものが会話で成功しないのを見たときに、本当に強力なものと交換したらどうでしょうか。そしてこれはこれではありません。

繰り返しますが、k=0はこの青い点を持つべきではありません。K=2から始めるべきです。なぜなら、何が起こっているかというと、再び、ここのトップライン、強力なO3と弱いGPT-4.1 miniがあり、彼らは最初から新しく協力します。

何が起こっているか、これは非自明なことで、私に時間がかかりました。リレーポイントK=2をここで見て、O3とGPT-4を使い続けましょう。ここでGeminiと同じことをしています。何が起こっているか、ここのK=0のこの点を忘れてください。忘れてください。

2つの弱いモデルから始めます。そして彼らは2ターンの間対話し、おそらく混乱した話し方をして、何も起こりません。しかし2ターンの後、シミュレーションはLLMの1つを入れ替えて、強力なO3モデルを持ち込みます。

強力なO3モデルと残りの弱いGPT-4.1 miniがタスクの残りを完了します。もはやここのオレンジの線、弱いものと弱いものではありません。なぜなら、ここK=2でO3を持ち込んだからです。O3モデルのためにそれらの1つを交換しました。

タスクの最終性能はここのオレンジの線より高くなります。そして別の会話がありますが、今は下向きに行っています。これは、2つの弱いGPT miniで始めると、ここから最後までここで協力し、そして会話を救おうとして、お金を投資してO3モデルまたはGPT-5モデルを持ち込もうとすると言います。

2ラウンドでさえ会話を救おうとすると、もう救えないことがわかります。ここからすべて下り坂です。この特定のK=2実験の最終的な加重結果が測定され、結果は低いスコアでした、ちょうどここで見るように。

弱いものと弱いものを持つオレンジの線のすぐ上に行くほど。もはやここでレスキューLLMを見つけることはできません。O3で強く始めなければなりませんが、ある会話のラウンドですでに2つの弱い弱いモデルを持っている場合、最後のモデルを交換しないでください。全く役に立ちません。

強力な回復のようなものはないことがわかります。すでに始まっている場合、ひどく確立された対話を簡単に回復することはできません。絶対に魅力的で、興味深い結果です。

研究の重要な示唆

この論文は興味深いです。見てください。結果のいくつかを示しただけです。論文にはもっと多くの結果があります。彼らは、AIエージェントが今、協力しなければならないとき、自分自身とであっても、たった1つの他のエージェントとであっても、AIエージェントの性能が著しく低下する重要な現象を特定しました。

そして、そのソロ能力の性能について私たちが知っていることは、今完全に変わります。そしてこれは現在のAI開発における絶対的な盲点です。誰もこれに注意を払いませんでした。そして研究論文は、協調は単なる創発的特性、ボトルから出た精霊ではないことを本当に説得力を持って主張していると思います。

これについて訓練しなければなりません。エージェントのコミュニケーションパターンについて、事前訓練データまたは事後訓練で明示的に訓練しなければならないと言うデータセットを持たなければなりません。そして他のエージェントのためにここでコミュニケーションを確立し、共有コンテキストを確立する能力は絶対的に最重要であり、すべてのモデルは多かれ少なかれ失敗しました。

Grok 4とGPT-5だけがこれを6×6グリッドで解決したと考えれば。これが複雑性で、2つだけが多かれ少なかれこれを解決できました。すぐに現在私たちがどこにいるかを感じます。すべてのこの圧縮技術またはこのモデル教師、私は4ビット量子化について話しているのではありません。

圧縮技術が結果をもたらさなかった、教師モデルが成功しなかったと話しているだけです。なぜなら、教師からの推論トレースだけで訓練されたからです。教師の協力コミュニケーションパターンについては訓練されませんでした。

したがって、ここの学生モデルは教師モデルから知性を拾い上げることができませんでした。学生モデルの協調能力を不釣り合いに破壊しました。これは従来のベンチマークによって捉えられない隠れたコストです。

だからこそ、この研究は驚くべきものだと思います。そして、この研究の結果をお見せしたかったのです。そしてリレー推論、より能力の高いモデルが弱い、より効率的なエージェントのための協力を準備するために戦略的に使用される通常の相互作用パターンは、私たちが本当に使おうとすることができるものです。

そしておそらく、GPT-5やGrok 4、またはあなたが支払わなければならないものに対してOpenAIに支払うコストを削減できます。そしてこれが、影響力の高いAI研究論文の終わりです。楽しんでいただけたことを願っています。すぐにお会いできることを願っています。