GPT-5とMCPが世界モデルで失敗する理由:新たな解決策ATLAS

本動画は、GPT-5がModel Context Protocol(MCP)を介して世界モデルと連携する際に直面する根本的な問題を解明し、その解決策としてATLASアーキテクチャを提示する技術解説である。イリノイ大学の研究により、現行LLMが非決定論的ツールの統合に失敗するメカニズムが明らかにされ、清華大学が開発したATLASの二重システムアーキテクチャと強化学習による動的ルーティングポリシーが、オープンソースモデルでGPT-5を上回る性能を実現できることが示される。

GPT-5 w/ MCP Fails on World Models: NEW Solution ATLAS

All rights w/ authors:Current Agents Fail to Leverage World Model as Tool for ForesightCheng Qian1, Emre Can Acikgoz1, B...

GPT-5とMCPの根本的な問題
LLMと確率的ツールの相性問題
ベンチマーク結果が示す衝撃の事実
推論プロセスの詳細分析
驚愕の成功率データ
ATLASアーキテクチャの革新性
まとめ

GPT-5とMCPの根本的な問題

皆さん、こんにちは。またお会いできて嬉しいです。そうですね、GPT-5のMCPを世界モデルに接続する際に問題が発生していることは承知しています。では、その話をしましょう。私のチャンネルDiscoveryへようこそ。最新の研究論文を見ていきます。

今日は皆さんに問題点をお見せし、そして解決策も提示したいと思います。これが最善の方法だからです。

GPT-5のようなLLMにMCPスタイルでツールのリストを渡し、ゼロショットや少数ショットプロンプティングでいつそれらを使用すべきかを判断させようとすると、最初の論文で示されているように、これは数学的にも認知的にも最適ではないことが明らかになりました。そして、少し複雑なツールになると、GPT-5は完全に失敗してしまいます。

JSONスキーマをコンテキストウィンドウに投入し、コンテキスト内学習を行って「あなたは有益なアシスタントです。必要に応じてこのツールを使用してください」と言うだけでは、通常失敗します。特に世界モデル、つまり実際の強力なシミュレーター、物理学、化学、金融、医療、何でも構いませんが、それを提供した場合、LLMがそれを使用することを選択するのは、場合によっては1%未満です。

そして、LLMにそれを使用するよう強制すると、最初の論文でお見せしますが、GPT-5のパフォーマンスは大幅に低下することがよくあります。素晴らしいですね。まず第一に、これはあなたのせいではありません。あなたは何も間違ったことをしていません。現在のLLMがこれに対応していないだけなのです。なぜなら、LLMはツールの効用関数を本質的に理解していないからです。簡単な例でお見せします。

シミュレーターと電卓、どちらが有用なのかを知らないのです。最初の論文の著者が「メタ認知的キャリブレーション」と呼ぶものが欠けています。自分が何を知らないのかを知らないのです。そのため、シンプルなツール呼び出しを介して直感を検証する代わりに、見当違いの自信を持って行動してしまいます。非常にシンプルなツール、私たちが決定論的ツールと呼ぶものでは、MCPは機能します。

234×49は何ですかと尋ねると、LLMは通常、天気予報サービスではなく電卓を呼び出すべきだと分かります。しかし、ここでも最初の論文の著者が示すように、現在のLLMは最適ではありません。LLMはこれを実行できますが、非効率的です。コストとベネフィットのトレードオフを理解していないため、簡単な検索APIでも解決できるのに、実際の複雑なツールをコードで使用して高価なトークン推論を燃やしてしまうかもしれません。

LLMと確率的ツールの相性問題

私たちは大きな問題に直面しています。MCPのアーキテクチャにも問題はありますが、LLMがそれらを扱えないのです。特に世界モデルのような確率的ツール、実際のシミュレーター、例えば天体物理現象のシミュレーションを持つスーパーコンピューターなどに移行すると、現在のMCP使用はこのクラスのツールに対して根本的に壊れています。ですから、何かコーディングが間違っていたというのはあなたのせいではありません。単に現在のLLMがこれを処理できないだけなのです。なぜなら、世界モデルは予測を返すからです。

起こりうることのビデオ、シミュレーション、流体シミュレーション、何でもです。電卓の結果のような単一のスカラー事実ではありません。LLMは今、ツールの出力を絶対的な真実として扱います。つまり、LLMには不確実性を扱うガバナンスメカニズムが欠けているのです。これは全く馬鹿げています。なぜなら、LLMは非決定論的です。確率的ツールなのに、不確実性を扱えないのです。

これが今日のAIの現状です。さて、問題を特定しました。では、解決策です。これを見ていきましょう。もちろん、論文があります。最初の論文は2026年1月8日のものです。イリノイ大学アーバナ・シャンペーン校と他のいくつかの素晴らしい機関からのもので、現在のエージェントは世界モデルを先見性のためのツールとして活用できていないと述べています。

彼らは何時間もかけて美しい研究を行い、テストを重ね、私たちは今、彼らの洞察に基づいて構築することができます。そして解決策として、2026年1月7日の論文をお見せしたいと思います。これはもちろん清華大学によるものです。アメリカの大学が問題を特定した翌日には、すでに中国のMIT清華大学から解決策が出ていたようです。これは、これらの問題を扱う方法、シンプルで美しい方法を正確に示しています。彼らはこれをATLASと呼んでいます。異種モデルとツールをオーケストレーションして、マルチドメインの複雑な推論を行うのです。まさに私たちが待っていた解決策です。

最初の論文が問題を定義し、2番目の論文がすぐに使える解決策です。私のチャンネルへようこそ。始めましょう。最初の論文、美しいアーバナ・シャンペーンのものです。エージェントはメタ認知的な過信に苦しんでいます。

LLMがシミュレーターやツールを使用できないのは、内部の確率分布がタスクを解決するのに十分だと誤って信じているからです。それが完全に間違っていることが分かります。つまり、彼らのトレーニングが完全に間違っていたのです。彼らは今、世界モデルを未来の予測のための信号ではなく、追加のノイズとして扱っています。

これは現在のLLMに本質的に間違っている何かです。彼らはここに美しいタスクを持っています。これらすべてを見てください。エージェントタスク、世界モデルの使用があり、そして視覚的な質問応答タスク、世界モデルの使用があり、すべての異なるベンチマークがあります。そして、視覚的な質問応答で見てみましょう。GPT-4、ここで最初のベンチマークのGPT-4を見てください。この特定のツールで未来をシミュレートすることを選択したのは、わずか0.14%の時間です。

つまり、多かれ少なかれ、助けが必要だと認めることを効果的に拒否したのです。GPT-4は「ねえ、私はツール呼び出しなしでこれができる」と思ったわけです。そして、どうなったと思いますか。次の世代はもっと良くなったと思うなら、GPT-5を見てください。GPT-5は「聞いてください、私はツールは必要ありません。世界モデルも必要ありません。私には過信があります。すべてできます」と言いました。

結果、GPT-5は失敗します。私たちは、そしてテープでも見られるように、より賢いモデルがツールをより良く使用すると想定するかもしれません。より賢いモデルははるかに良くできます。しかし残念ながら、ここの最初の論文の著者はまさに逆を証明しています。モデルが大きくなり、より能力が高くなると、彼らはより傲慢になり、GPT-5でお見せしたように、ツールをさらに少なく使用するようになります。

ベンチマーク結果が示す衝撃の事実

では、タスクの精度について話しましょう。世界モデルありとなしでベンチマークを行います。そして、GPT-5-f2に「ねえ、あなたの解決策にツールを使っていただけますか」と尋ねます。まず、すべてのモデルがあり、ここに世界モデルなしの美しいベンチマークがあり、GPT-5の最初のものは69%だとしましょう。

そして今、「では、世界モデルを使用した場合、この仕事に適したツールを本当に持っていて、より良い結果が得られるはずです」と言います。GPT-5は何を達成すると思いますか。70%です。ああ、すみません、GPT-5 miniでした。GPT-5は69%で、今は70%です。つまり、ここでの成果は正確に0.01です。素晴らしい。

ここでもマイナスだと主張できます。マイナス、マイナス。平均すると、忘れてください。現在のLLMはこれを処理できないことが分かります。少し非決定論的なツールに対して、まだ十分に知的ではありません。それを統合することに完全に失敗しています。だからこそ、私は大きな期待を持っています。DeepSeekが高度なコーディング、高度なエージェント能力、非決定論的ツールのツール呼び出し能力でトレーニングされたという噂を聞いたからです。

そして、はい、DeepSeek 4がそれをやってくれることを祈りましょう。そして、ところで、OpenAI、あなたのGPT-6はどこですか。GPT-5はただのゴミ箱行きですから。さあ、新しいモデルが必要です。エージェントがシミュレーションを見ても、GPT-5でお見せしたように、視覚的な反事実シミュレーションを処理するための認知アーキテクチャがAIに欠けています。

つまり、エージェントは未来のビデオを見ますが、計画を変更しません。パラメトリック知識と矛盾していることを見ますが、この新しい知識をどのように統合し、パラメトリック知識と反事実的である可能性のある新しい知識を統合し、タスクの計画を変更するかについて訓練されていません。

完全に失敗します。これが最先端です。ですから、MCPを介してGPT-5を少し非決定論的な世界モデルに接続したい場合は、忘れてください。MCPで失敗しているわけではありません。世界モデルで失敗しているわけではありません。単にこのAIシステムがこれを行うように訓練されたことがないために失敗しているのです。ボトルネックがLLMの躊躇だけであれば、エージェント、GPTにシミュレーターを使用するよう強制すればパフォーマンスが向上するはずです。

しかし、すでに結果をお見せしました。著者もここで、エージェントにツールを使用するよう強制すると、実際にAIがさらに愚かになることを証明しています。これは素晴らしいことではないでしょうか。これがここでの人工知能です。私たちが必要とする超知能です。さあ、楽しみにしています。次の世代に期待しています。GPT-6、DeepSeek 4。

なんてこった、さあ。そんなに難しくありません。そして彼らは「では、現在のモデルを見てみましょう」と言いました。そして再び、ここにGPT-5モデルがあります。青は世界モデルなしです。そして赤、これはピンクですが、GPT-5に「世界モデルを使ってください」と頼んだものです。

これが世界モデルの知性です。あなたには知性がありません。そして、世界モデルを使用しなければならない場合、GPT-5の知性は9.2パーセントポイント低下することが分かります。なぜなら、世界モデルからどのようにデータを統合し、新しい計画プロセスをどのように利用するかが分からないからです。GPT-5はここで完全に失敗します。他のシステムは失敗しないということでしょうか。これを見てください。ほぼすべての古いシステム、そしてQwen 2.5もありますが、古い世代も失敗します。ですから、トレーニングされた次の世代を楽しみにしています。

統合の失敗を証明しています。エージェントは世界モデルから正しいデータを取得していますが、この追加データを処理する認知負荷により、GPTシステムは幻覚を見るか、パニックに陥ります。素晴らしい。これが最初の論文でした。ありがとう、イリノイ・シャンペーン。なぜGPT-5が失敗するのか。エージェントはシミュレーションを確認としてほぼ扱っています。それが正しいかどうかをチェックしているだけであり、仮説を実際にテストする実験として開いているわけではありません。そして「ねえ、多分正しくないかもしれない。新しいデータが得られるかもしれない」と受け入れるわけではありません。

しかし、シミュレーションがGPT-5のパラメトリック知識と一致しない場合、GPT-5は単に混乱し、幻覚を見始め、私たちが知っているすべての良いことが起こります。ここでのメッセージは、電話しないでください。「世界モデルの統合が失敗しました」と私に書かないでください。はい、知っています。GPT-5がここでの主な理由です。論文を読んでください。彼らはさらに深く掘り下げました。

推論プロセスの詳細分析

「では、推論カテゴリーに入りましょう。これを深く掘り下げてみましょう。ここで何が起こっているのでしょうか」と彼らは言いました。右側だけを見てみましょう。ここにアクションループがあり、3番目の位置を見てみましょう。非効率的なツール使用です。そして、薄い赤のものを見てみましょう。

アクションループが極端に跳ね上がっているのが分かります。そして、ここでの非効率的なツール使用も極端に高くなっています。何だろうと思うかもしれません。2026年1月8日の論文によるデータは、エージェントがMCPを介した非決定論的ツールによるシミュレーション結果を見たときに、予期していなかったもの、パラメトリック知識と反事実的なものを見ると、アクションループに入ることを示しています。そして著者は、それが凍りつき、同じアクションを何度も何度も繰り返すことを示しています。

つまり、このLLMは新しい証拠に基づいて事前分布を更新する方法を知らないのです。彼らはテストし、テストし、すべて同じ問題に戻ります。アクションループが絶対的な最大値に跳ね上がるのを見てください。これを統合する方法を知らず、非効率的なツール使用になります。何をあなたに言えばいいでしょうか。素晴らしい。

幻覚には驚きました。「ああ、時々これには幻覚がありますね」と思いましたが、幻覚を見てください。この論文の著者が示すように、GPTシステムが入るアクションループや非効率的なツール使用と比較すると、ほんのわずかな割合です。

今、主なメッセージ、主な洞察は何でしょうか。現在のGPTシステムのこの失敗はランダムではありません。構造的です。エージェントには、何が起こっているかを理解するガバナンス層が欠けています。非決定論的なツール使用がある場合、彼らは完全に失敗します。これについてトレーニングされていません。清華大学が示したように、LLMの推論プロセス、LLMの脳と呼びましょうか、そのどこでこのプロセスが壊れるかを正確に示すことができます。それは計画の生成ではありません。

LLMに戻ってくるツールの結果を解釈することであり、LLMは単にこの新しいデータを統合し、新しい計画を立てることができません。彼らはさらに進みました。「よし、これをもう一度やりましょう。もう一度やりましょう。ステージ1の先見性の定式化、何を尋ねるか。ステージ2のシミュレーション生成を持ちましょう。世界モデルが行動します。ステージ3の解釈と統合、これをどのように使用するか、そしてエラーはどこにあるか、どこで本当に失敗するか」と彼らは言いました。

この研究の詳細な説明があります。この研究を読んでください。ここでの素晴らしい研究であり、著者は見ています。このAIはシミュレーションのピクセルを見ますが、このピクセルをテキストベースの計画演習の論理的更新に落とし込むことができません。

私たちはまさにここで失敗します。意味のガバナンスです。混乱と誤解、誤ったシミュレーション、幻覚があります。主なトピックはここです。ARは混乱しています。AIはツールから戻ってくる結果をどうすればいいか分からないのです。素晴らしい。これが2026年1月の状況です。そして、彼らはさらに深く掘り下げました。

「これは不可能です。もう一度確認しましょう。これを見てください」と彼らは言いました。エージェントの成功率、外部ツール、非決定論的ツールをどのくらいの頻度で呼び出せるかについて言いました。1つのツール呼び出しでGPT-5が特定のタスクで55%だとすると、もう一度呼び出すと54%に下がります。

驚愕の成功率データ

私たちが期待したのは、3回目の呼び出し後に60%になることでしたが、もう一度やると60%から8%に落ちます。成功率は、これをどう解釈すればいいか分かりません。他のモデルを見てみましょう。例えば、ここのQwen 2.5 Vision Languageです。7B、32B、そして72Bがあります。

サイズによって異なることが分かります。7Bは2回目の世界モデル呼び出しで0%です。32Bは低下します。しかし、72Bは「ちょっと待って。私は67%の成功率で始まります。2回目の世界モデル呼び出しで増加します」と示しています。Qwen 2.5 Vision Languageは、パフォーマンスを75%まで向上させることができました。しかし、5回以上呼び出すと、この特定のモデルの容量を超えてしまいます。

興味深いことに、Qwenの古い2.5では、非決定論的なエージェント統合のためのトレーニングを正しく行ったようです。視覚的な質問応答を見ると、何らかの理由でGPT-5を入れるのを忘れたようですが、一般的に、より多くの呼び出しはしばしばより悪い結果と相関していると教えてくれます。

Ralphのように一晩中何度も何度も実行させれば解決すると期待しても、何度も何度も、全く解決しません。解決できないのです。問題があることは明らかです。しかし、ここに推論プロセスがあり、ここにシミュレーションから、物理エンジンから、論理エンジンから、単純な電卓や天気予報サービスAPIではないものから、すべての新しい情報があります。そして、私たちは失敗します。

あなたが使える解決策は何でしょうか。解決策は清華大学と交通大学、華東師範大学によって発見され、2026年1月7日に「マルチドメインの複雑な推論のための異種モデルとツールのオーケストレーション」として発表されました。LLMにはネイティブなガバナンスメカニズムが欠けていることが分かりました。ここでATLAS、2番目の論文がこれを解決します。ここに、そして靴下をしっかり履いて、私たちのシステム1、つまり速い反射的応答とシステム2、遅い熟考的応答を模倣する二重システムアーキテクチャを導入することで、まさにこれらのツールを管理するために同期します。なんて偶然でしょう。

これは図3です。2つのモードがあります。上にシンプルモードがあり、私たちが興味を持っているのは、強化学習駆動のマルチステップルーティングプロセスです。質問は、私たちを助けてくれる知的なルーターがあるかということです。シンプルなケースでは、トレーニング不要のクラスターベースのルーティングがあります。

私たちがすることは、セマンティック空間を構築し、既知のソフトウェアでエンベディングのクラスタリングを行い、このソフトウェアクラスターの解決策を知っています。新しいタスクがあるときはいつでも、セマンティッククラスターでチェックするだけです。これは似たタスクですか。このクラスター全体について、最もシンプルな解決策はツール番号124であることを知っています。分かりましたが、私たちは興味があります。本当の解決策が欲しいのです。

最初のものは、彼らがATLASクラスターと呼ぶ、履歴統計に基づくトレーニング不要のルーティングメカニズムです。ここで言葉で書き出され、例があります。読みたければここで読めます。新しいクエリが入ると、最も近いクラスター中心にマッピングし、すぐにそのクラスターのチャンピオンペアにルーティングします。そこにツールがあり、したがって即座です。

内部推論ステップはゼロです。なぜなら、ここに歴史的発展があり、人間が何を使用したか、どのツールを使用したかをAIが知っているため、非常に安価だからです。しかし、これはすでに解決策がある場合です。解決策がない場合はどうでしょうか。このATLASは、特化したトラフィックコントローラーを作成します。

このルーターは、LMが特定のツールに触れる前に、クエリをどのように処理するかを決定します。トップワンのセマンティッククラスタリングが完了しています。しかし今度は、強化学習に来て、推論のルーティングと再度の推論のプロセスを持つ反復ループを作成しましょう。そして、どうなったと思いますか。これはまさに、最初の論文、世界モデルのプレプリントで彼らが求めていた決定モジュールであり、彼らは特定できませんでした。

地球の反対側、清華大学では、私が思うに前日にすでに発表されていました。ヨーロッパの中心に座っている私が、池を越えてアメリカを見て、アジア、中国を見ると、学ぶことは素晴らしいことです。すべてのグローバルリソースを統合すれば、学習を加速できます。このビデオのパート1、これが分かります。プレプリント1で、エージェントが傲慢に行動し、ツールを無視したり、ツールを誤解したり、過剰に使用したりすることを証明しました。そして、ATLASがこのキャリブレーションの失敗、私がそう呼んだものを解決します。強化学習を使用して、特定の難易度、特定の複雑性、必要とするツールのセット、そしてMCPからのランダムな呼び出しだけではなく、最適な呼び出し率を学習します。

ATLASアーキテクチャの革新性

「でもちょっと待って、GPT-4やGPT-5の重みにアクセスできません。これはどのように役立つのですか」と思うかもしれません。ATLASの美しさはここにあると思います。それがない場合、どうしますか。スーパーモデルにお金を払うことはできますが、私には何百万ドルもありません。彼らがしたことは、強化学習を介してスマートルーターをトレーニングし、GPTモデルを上回ることができる安価なオープンソースモデルのチームを管理することです。

彼らが行ったのは、知性を人工知能LLM、重みから新しいアーキテクチャに移動させたことです。GPT-5の重みやGPT-6の重みなどを持っていなくても、必要ありません。知性をアーキテクチャに変換できます。ガバナンス層をトレーニングすることで、彼らは特に30億のルーターを決定しました。Qwen 2.5 3B Instruct LLMを使用しました。古いものを使用して、シーケンスツールとモデルでここでパフォーマンスを発揮し、消費者グレードのハードウェアコンポーネントのみを使用してGPT-5のパフォーマンスをシミュレートし、それを上回りました。これはとても美しいと思います。

ここにあります。これが2026年1月7日の新しい研究です。ATLAS強化学習のための推論能力境界分析です。これを見てみましょう。ここにpass@1の結果があり、ATLAS強化学習なしとありです。そしてpass@16の結果があります。デルタがここでの推論能力の改善です。プラス30、プラス26、プラス35。美しく機能します。

このシンプルな検索タスクでのAPI呼び出し数は、私たちが見た一般的なベンチマークのセットと比較して本当に低いことも分かります。しかし、ここのAIM25のようなより複雑なものや、ここのこれがある場合、この特定のセットの平均LLM API呼び出しの最大値まで本当に上昇しているのが分かります。

パート1で見た失敗の直接の解毒剤がまさにあなたが期待した結果です。シンプルなものは本当に呼び出しが少ないですが、本当に複雑になると、平均API呼び出しのピークがあります。

これは、最初の論文で見た失敗の直接の解毒剤です。以前のプレプリントでGPT-5はシミュレーターを効果的に無視しましたが、ここではATLAS強化学習エージェントが動的な使用ポリシーを学習しました。最初の論文で欠けていたメタ認知的キャリブレーションを学習したのです。これを見てください。

システムを構築した後に得られた支配的な組み合わせをお見せしたかっただけです。AIM25では、完璧な組み合わせは何でしょうか。DeepSeekモデル、7Bとプロセス報酬モデルを使用します。もちろん、これは数学の最良の解決策です。コードの場合、Coder 7B LLMを使用し、ツールにはPython環境を使用します。事実ベースの場合は、LLaMA 3を使用します。そして、LLaMA 3を検索APIと組み合わせると、99%の最良の結果が得られることを発見しました。

特定のタスク、特定のベンチマークに対する完璧な組み合わせが何かということだけです。そして美しいのは、最良の組み合わせを本当に見つけるために一度実行する必要がありますが、その後エージェントはもう推測しません。厳格で専門的な関連性を学習したのです。数学には検証ツールが必要であり、幻覚がないように本当に検証する必要があることを知っています。

事実の場合、検索API、検索ツール、おそらくGoogleが必要です。これがATLASのルーティングポリシーにツールの必要性を組み込むことで、相談拒否の問題を解決します。シンプルでエレガントな解決策です。しかし、1つは強制使用、今は世界モデルを使用しなければならないことを示しました。エージェントがデータの処理方法を知らないため、パフォーマンスが低下します。

GPT-5は失敗しました。ATLASは、非効率性を罰し、正しい最終結果を報酬とする複合報酬関数を介して統合失敗を解決します。なんてシンプルで美しい解決策でしょう。ここにすべてのデータがあります。ここに分布内のパフォーマンスがあり、ここに分布外のパフォーマンスがあります。

もちろん、私たちは最後のものに興味があります。分布外のパフォーマンスに興味があります。分布外のタスクに直面したとき、つまりトレーニングされていない常設セマンティックルーター。ここの最初の行にあるルーターDCは、多かれ少なかれメモリに依存しているため失敗しました。

しかし、最後の行、ここの小さなピンクのATLAS強化学習、エージェントは成功します。これが全体的に最高のパフォーマンスです。これを見てください。3.3から33へ、これは大きなジャンプです。答えを記憶していないからです。調査のポリシーを学習しただけです。

ツールを使用して新しい問題を解決する方法を学習しました。一歩下がって、「それで何を学んだか」と言うと、プロンプティングをやめて、オーケストレーションを始めなければなりません。次の大きなクローズドなプロプライエタリーGPT-6モデルを待ってはいけません。忘れてください。知性をアーキテクチャに入れることができます。ATLASがこの美しい論文で、追加のガバナンス層をトレーニングし、強化学習を介してLLMから知性をアーキテクチャに出すことを本当に証明していると思います。

事後トレーニングで、混乱したLLMを、論文で見たように、オープンソースの25億、30億、70億のオープンソースモデルの専門家モデル、GPTモデルを打ち負かすツール使用の専門家に変えることができます。そしてそこにあります。この美しいビデオの終わりに到着しました。