本研究は、現在のAIシステムにおける根本的な欠陥である「静的世界仮説」の問題を指摘し、リアルタイムで変化する環境下でのAI推論の実現に取り組んでいる。清華大学とスタンフォード大学らの研究チームは、従来のリアクティブエージェントとプランニングエージェントの長所を統合した「Agile Thinker」という新しいアーキテクチャを提案した。これは2つのLLMを並列実行し、高速な反応性と戦略的な計画立案を同時に実現するシステムである。実験では3つのリアルタイムゲームを用いて検証が行われ、単一パラダイムのエージェントを大きく上回る性能を示した。Deep Seek R1モデルの推論トレースへのアクセスが可能であることが、この研究の実現に重要な役割を果たしている。

はじめに
こんにちは、コミュニティの皆さん。戻ってきていただいて本当に嬉しいです。今回は全く新しい研究トピックをお届けします。そうです、私のチャンネルDiscovery AIでは、最新のAI研究について話していきます。
さて、今日は現在の研究における根本的な欠陥を特定することから始めます。驚きですよね、でもちょっと待ってください。そして、それを解決可能な問題として形式化していきます。靴下をしっかり履いていてくださいね。なぜなら、その後にエレガントで効果的な解決策を見ていくからです。しかもこれは今すぐ実装できるものなんです。なぜならコードと、完全なコードベースとデータベースの全てを皆さんに提供するからです。では始めましょう。
静的世界仮説の問題
私たちには静的世界仮説というものがあります。これは単純に言えば、環境がAIエージェントの計算が終わるまで待ってくれるという信念のことです。いいえ、皆さんが時速200キロで高速道路を走行しているときに、「ええ、ええ、ゆっくり時間をかけて。時間的に重要なことは何もないから」なんて言えますか?
ただ考えてみてください。好きなだけ時間をかけていいなんて。あるいはロボットシステムを持っていたり、AIが統合された商業的・産業的な問題を抱えていたりする場合、待つことはできません。静的世界仮説では対応できないのです。
これこそが、今日私たちが持っている最大の障壁なんです。洗練されたLLMベースのプランナーをロボティクス、自律システム、産業システム、生産システム、そして複雑なヒューマンコンピュータインターフェースにデプロイする上での障壁です。
リアルタイムAI推論への挑戦
つまり、推論から、私が直近の動画で少し触れた推論から、今度はリアルタイムAI推論へと進むわけです。すると、なんということでしょう、建物全体が崩れ落ちるように、何も機能しなくなるんです。リアルタイムAI推論ですよ。冗談でしょうか?いえ、今まさに魅力的な展開になってきています。
見ていきましょう。これは完全に異なる問題のクラスです。環境状態の変化がエージェントの計算と並行して発生し、エージェントの数に関係なく、私たちはいくつかの課題に直面します。
標準的なエージェントループでは、環境は受動的な関数であり、エージェントのアクションを待ちます。世界はブロックされています。世界はエージェントが考え終わるまで凍結されており、その後評価され、応答の予測があります。
しかし推測してみてください。これはリアルタイムでは起こらないことなんです。リアルタイムエージェントループでは、時間が交渉不可能な制約として存在し、それに対処しなければなりません。
これは、エージェントが特定の時間予算内、おそらくミリ秒単位、あるいは2秒以内にアクションを生成しなければならないことを意味します。または、実行されるデフォルトアクションを定義する必要があります。
もちろん、私たちは今、3年か4年前からリアクティブエージェントを持っています。エージェントは各ステップで小さなトークン予算に制約されています。なぜなら、リアルタイム世界では速くあることを強制されるからです。
リアクティブエージェントとプランニングエージェントの限界
しかし、リアクティブエージェントは依然として私たちがデプロイすべき最良のタイプのエージェントではないでしょうか?このリアクティブエージェントの強みは何でしょうか?それは、即座の環境変化に対して高い応答性を持つことです。素晴らしいですね。
しかし主な弱点は、先見性がないことです。袋小路に追い込まれてしまいます。なぜなら、一歩先しか見ていないからです。高い認知負荷の下では、パフォーマンスが崩壊します。先見性はなく、ただ即座の応答があるだけなんです。
そして昨日のソリューションもプランニングエージェントでした。え?無制限の計算予算ですって?そうです、ユーザークエリを解決するための複数ステップの計画を生成するために、200台のNvidia GPUを立ち上げてください。完了まで計画を実行し、それから変更があります。
ええ、でも知っていますか、世界は回転し、AIが考えているときに世界は止まらないのです。だから、今大きな問題が浮上してきているんです。
プランニングエンジンの強みは必要です。静的な世界で複雑な問題を解決するのに優れています。しかし弱点は、計画がミリ秒単位ですぐに陳腐化してしまうことです。
新しいソリューション:Agile Thinkerの登場
では、どうすればいいでしょうか?今日の研究の著者たちは、「よし、3つのリアルタイムゲームを見てみよう。フリーウェイ、スネーク、そしてオーバークックドだ」と言いました。
車がエージェントが考えている間に動いている状況を想像してください。なんてことでしょう、エージェントが考えているだけのときに世界を凍結することはできません。そして彼らは何かを構築しました。
ご存知のように、OpenAI Gymというプレイグラウンド、サンドボックスがあり、そこで遊ぶことができます。そして彼らは、「よし、AIエージェントのためのリアルタイムジムを構築しよう。そこで彼らのインタラクション、コミュニケーションパターン、依存関係、そして異なるモデル、異なるマシン、異なるGPUクラスター上で同期する必要がある時間枠をシミュレートできる」と言いました。
そしてとてもシンプルです。特定のタイムアウトを設定するか、デフォルトアクションを用意するだけです。このように組み立てるのは簡単です。
こんにちは、ようこそ。こちらが本日11月7日に発表された「進化する時間制約のある環境におけるリアルタイム推論エージェント」です。清華大学、上海交通大学、ジョージア工科大学、そしてスタンフォード大学による研究です。高等教育機関が協力しているのを見るのは素晴らしいことですね。
ウェブサイト、コード、データがあります。全てを詳しくお見せします。
静的な世界、つまり世界が凍結されているときは、シンプルです。時間があります。エージェントはここでは赤い点です。いや、こちらには3台の向かってくるバスがあります。反対車線にはここで、反対方向に走っている車があります。このゲームでどこに移動しますか?
いや、考える時間があります。多分そこに行くべきかな。全てが凍結されています。多分そこに行くべきではないかも。AIは試すことができます。
もしそれが動的になると、プランニングエージェントだけを持っている場合、すぐに死んでしまいます。リアクティブエージェントだけの場合は、1秒後に死にます。だから、これは本当に選択肢にはなりません。
デュアルスレッド認知システム
そして他の人たちが、「提案しよう。2つの並列スレッド、2つの並列マシン、2つの並列LLMとLRM、大規模推論モデルを持って、両方を同時に達成しよう。タイムリーなアクション生成と中断のない深い計画立案を、高度に相互接続された通信層で」と言いました。
そして私たちはこのシステムをAgile Thinkerと呼んでいます。
ここにエージェントの例があります。黄色またはオレンジでプランニングスレッドがあり、青でリアクティブスレッドがあります。2つのLLMを並列で動かす場合、2つのエージェント間の会話がここで見られます。
ようこそ、お伝えしたように、まったく新しいアイデアがここにあります。この問題に対する解決策があり、それがAgile Thinkerのデュアルスレッド認知です。詳しく見ていきましょう。
2つのLLMを並列で実行します。大規模言語モデルと大規模推論モデルがあり、人間の速い思考と遅い思考を模倣します。ここでシステム2の遅い思考のアイデアを覚えていますか。プランニングスレッドを実行するエージェントと同じものがここにあります。
入力は何でしょうか?環境からの観測です。ロボットのセンサーデータなら素晴らしいですね。プロセスは、複数ステップの戦略的計画を生成するための、長く中断のない思考プロセスのチェーンを開始します。環境のタイムステップによって制約されません。システムはできる限り速く考えています。200台、2000台のGPUで。
出力は、推論のストリーミングテキストと、計画プロセスの意図的な更新です。その推論は深く戦略的です。まさに私たちが必要とするものですが、世界のわずかに古いビューで動作しています。
そして彼らは、「よし、これが遅いシステム2のアイデアなら、必要なのは何でしょうか?そう、速い思考です」と言いました。
リアクティブスレッドに、人間の思考プロセスに類似した速いシステム1があります。2つの入力があります。もちろん、環境からの最新の観測、私たちは環境と接触しています。全てのセンサー構造を持つロボットシステムです。そしてプランニングスレッドPの現在の部分的出力です。
したがって、これらのシステムは相互接続されており、もちろん厳格なトークンあたりの時間予算の下で動作します。その仕事は、現在のステップのためのアクションを生成し、環境がどのように変化するかを継続的に観察することです。これだけです。
出力はいつものように単一のアクションです。1マス上に行く、そこに留まる、右に移動する、左に移動する、何でも。これの鍵は、非常に速く、状況を認識していることです。
繰り返しますが、彼らが考えたのは、リアクティブスレッドがPの進行中の思考プロセスを覗き見できるということです。だから環境が変化し、計画が変わっても、問題ありません。
この情報をここでリアクティブスレッドに供給するだけで、必要なアクションを処理し、新しい計画目標をここで統合します。
実験結果と評価
そして彼らは3つのゲームで実験を行い、右側にこれがあり、突然全てがうまくいきます。
さて、どのLLMを使うのか、私はこれに興味があって、「何について話しているんだろう」と思いました。
最初のテストでは、彼らはシンキングモデルとしてDeep Seek R1を選ぶことにしました。特に、問題の複雑さをステップバイステップの手順に分解することを要求するように微調整されています。
そしてご存知ですか?これは、私たちのプランニングパラダイムにおいてプランニングエージェントとして、そしてAgile Thinkerアーキテクチャにおけるプランニングスレッドとして機能するからです。
なぜでしょうか?推論トレースを生成するからです。だからこのオープンソースモデルが必要なんです。そして、即座の高速応答のためのノンシンキングモデルが必要です。
これは、人間によってミリ秒単位で行われる直感的な応答です。Deep Seek V3があります。一般的な目的の指示追従モデルで、直接回答タスクに速く有能です。スピードのために構築されており、これはまさにリアクティブパラダイムに必要なものです。
Deep SeekのリアクティブV3エージェントがあります。少し現代的で、少し速く、完璧に機能します。
さて、「うーん、OpenAIのモデルやGoogleのモデルなど、他のモデルはどうなんだろう」と思うかもしれません。それらは、プランニングのための中間推論データストリームをここで公開していません。実際の推論を覗き込むことができないんです。
なぜなら、企業は、私たちが推論トレースを使って学生モデルを訓練し、その結果、OpenAIやGoogleのモデルにお金を払わなくてもよくなることを恐れているからです。だから、これらのプロプライエタリモデルは実際の推論の複雑さを隠してしまい、それゆえに私たちはそれらを分析し、AIシステム内のどの時間セグメントで何が起こっているのかを理解することができません。
興味深いのは、私たちがここで、つまりスタンフォード大学や他のみんながここで中国のモデル、Deep Seekアーキテクチャに依存しているということです。なぜなら、これは本当にこの種のイントロスペクションを可能にするオープンアーキテクチャだからです。
Deep Seekモデルなしでは、どう進めばいいか本当に問題になっていたでしょう。興味深いですね。
他のモデルへの適用
さて、著者は「うーん、Gemini 2.5のような実際の推論トレースへのアクセスがないため、Agile ThinkerをGeminiモデル2.5で直接実装することはできない」と言い、「でも何とか解決策を見つけなければならない」と言いました。
そして「よし、縮小設計を使ってシステムを近似しよう」と言いました。
リアクティブエージェントがプランニングエージェントの最終出力を参照します。だから何とか、この研究でDeep Seek R1モデルを使ってストリーミング中に部分的な推論データトレースにアクセスするように、推論が完了した後、超高速で超圧縮されなければなりません。
だから、これは本当に、コンピュータインフラストラクチャとモデルで速くなければなりません。だから、Gemini 2.5 Proではなく、GeminiのFlashモデルを使うかもしれません。
さて、Gemini 2.5 Flashと様々なエージェント設計でのパフォーマンスを見てみると、ここに中程度の難易度のフリーウェイの例があります。私が3つのコンピュータゲームをお見せしました。
リアクティブエージェント、シンキングオフ、シンキングオンだけど予算制御付きのリアクティブを見てください。時間が何であれ、そしてシンキングオンのプランニング、そしてこれら2つを組み合わせると、リアクティブとプランニングがあり、これがパフォーマンスです。
ステップあたり32トークンのGeminiでは92%、ステップあたり4000トークンでは組み合わせバージョンで26%を達成します。
内部推論トレースへのアクセスがなく、Gemini 2.5 Flashによる隠れた推論トレースに何らかの最適化をしなければならない場合でも、Deep Seekの結果ははるかに優れています。なぜなら、実際の推論トレースにアクセスできるからです。
このアイデアで、2つの並列マシンがフルスピードで進むことは、Agile Thinkerが両方の長所を持っているということです。計画の戦略的深さが、致命的なレイテンシーなしに実現されます。
調整は時間共有プロトコルに従います。プランニングスレッドPがほとんどのタイムステップで実行され、リアクティブスレッドRが最終期間に引き継いで、もちろん最終的な判断を下します。
もちろん、リソースのバランスがシステムの重要なハイパーパラメータになります。そしてご存知のように、著者たちはこれら3つのコンピュータゲームをテストしただけです。コンピュータゲームの美しさはそこにあります。何百回、何千回でも実行できるんです。
そして彼らは、各特定の複雑さ、各特定のコンピュータゲーム、各特定のモデルに対して、異なる重要なハイパーパラメータ、異なるリソース、時間またはトークン長を見つけました。これらのコンピュータゲームを解決するのに成功するための最適な長さです。
リソース管理の重要性
スネークゲームについてお見せします。リアクティブエージェントとプランニングエージェントがあります。そして、この新しいモデルエージェントシンキングで組み合わせると、他の2つを上回るパフォーマンスを発揮することがわかります。
しかし、反応と計画の間のリソースの管理はそれほど簡単ではありません。なぜなら、時間の複雑さと静的な解決の複雑さは、何とか計算しなければならない対抗力だからです。
だから、これらの2つのエージェント間のインターリンク通信プロトコルがある場合、時間管理には注意してください。
アイデアを与えるために、彼らは多くの実験を行い、ここにフリーウェイ、スネーク、オーバークックドのコンピュータゲーム、認知負荷の増加、時間圧力の増加、そしてシステムの全体的なパフォーマンスがあります。
緑色はもちろん、ご覧のように他のすべてを上回る彼らの新しいシステムです。素晴らしい。まさに私たちが期待するものです。
しかし、認知負荷を増やし、限られたリソースしかないため、時間圧力の解放をある程度提供しないと、微妙なバランスであることがわかります。
そして、リアクティブV3、または予算を強制したリアクティブR1、またはコードポリシー実装のプランニングR1を本当に見ることができます。しかし、他のシステムと比較してのジャンプが見られます。
一般的に、この緑色の新しいシステムは、ここで他のエージェントシステムのあらゆる組み合わせを上回ります。
よし、素晴らしい。Agile Thinkerは一貫して両方の単一パラダイムエージェントを上回ります。これは素晴らしいことです。
しかし、マルチエージェントインタラクションに時間という別の制約があるため、これは別のステップです。そして彼らは親切にもコードとデモを提供してくれました。
スタンフォード大学による特定のホームページもあります。そこに行くことができます。インタラクティブなデモを試すことができます。コードを見ることができます。
ここにリアクティブエージェントがあります。ここにプランニングエージェントがあります。そして並列システムでのAgile Thinkerの非常にシンプルなコードがここにあります。見てください、これです。
そして、このシンプルな単一のコードで完全なコード例を実行できます。少し遊んでみて、経験してください。そうすれば、タスクの複雑さと時間リソースのこの微妙な均衡、そして単純にリアルタイムになるためにシステムに必要なスピードについて、すぐに感覚を得ることができます。
今後の展望
展望として、彼らは、並列アーキテクチャを持たない場合も調査し始めたと言いました。なぜなら、エッジデバイスについて考えると、ここで複数のLLM、複数のスレッドを実行する計算能力を持っていないからです。
したがって、彼らは、同時生成があったらどうなるかと言いました。つまり、私たちの大規模言語モデルと、プランニングのための大規模推論モデル、つまり高速応答システムLLMと長期戦略的計画のためのLRMが、純粋な並列処理ではなく、同時切り替えを通じて同一のコンピュータリソースをここで共有する場合です。
そして彼らはそれを評価しようとし、「単一タスクよりはここで優れているが、もちろん並列最適化には及ばない」と言いました。
だから、彼らはすでにここで計画しているのが見えます。限られたコンピュータリソースがある場合はどうなるか?これらのリソース間の同時切り替えをどのように行うことができるか?
しかし今、これらの計算ストリーム間の依存関係は、システム全体に制約された時間制限があることを考えると、さらに複雑になります。
絶対に魅力的です。リアルタイムAI推論に移行していることをお見せしたかっただけです。そして、なんということでしょう、先には多くの問題があります。これは素晴らしいことです。なぜなら、多くの研究ができ、多くの新しいことを学び、まったく新しいアイデアを持つことができるからです。
何かアイデアがあれば、考えてみてください。世界はAIにおける新しいソリューションを待っています。200台または2000台のGPUにアクセスできるかどうかは関係ありません。他のすべてのサブシステムで実装できる、この素晴らしいアイデアを持っていればいいだけです。
楽しんでいただけたら嬉しいです。少し楽しんでいただけたらと思います。


コメント