この動画では、AIシステムにおける世界モデルの概念と、マルチエージェントAIシステムにおけるその重要性について詳しく解説している。特に、異なるLLMが持つ世界モデルの複雑さの違いが、全体のシステム性能にどのような影響を与えるかを探求し、Google DeepMindやMITなどの最新研究を基に、AIエージェントが環境を理解し予測するための内部表現について考察している。
マルチエージェントAIシステムの課題
皆さん、コミュニティの皆様、お帰りなさい。今日は皆さんがマルチエージェントAIシステムを構築する際の重要な問題について見ていきます。
エージェントAがあり、それは美しいシステムです。エージェント間通信プロトコルがあり、他のエージェントがあります。これらのエージェントはMCPプロトコルを持っています。様々なツールに接続できます。外部データが全て入ってきます。
しかし、システムにボトルネックがあるため、実際にはうまく機能していないことをご存知でしょう。そこで、UIをどのように最適化できるかについて話しましょう。
そして何について話すのでしょうか?世界モデルについて話します。というのも、エージェント内の一部のLLMは世界モデルを持っており、一部は持っていない、そして一部は非常に強力な世界モデルを持っているが、一部は特定のパラメータと学習によってかなり制限されていることが判明したからです。
世界モデルとは何か
世界モデルについて深く掘り下げてみましょう。人工知能の構成における文脈で意味を与える必要があります。
ロボティクスにおいて、世界モデルとは、エージェントが世界がどのように動作するかについての内部表現です。これには以下が含まれる可能性があります:
物理学の部分的知識、オブジェクトがどのように相互作用するか、重力とは何か、オブジェクトの特性とは何か。これらは何でできているのか?期待される行動とは何か?AI予測行動を考える場合、空間的関係とは何か?物事が互いにどこに相対的に位置しているか?因果関係とは何か?XをすればYが起こる可能性が高い。統合しなければならない特定のドメイン知識とは何か?
これは特定の分野、トピックに関する知識を意味し、マルチAIエージェントシステムにおいて非常に重要なのは、エージェントの意図、行動、他のエージェントが私の環境でどのように行動するかです。これは他のAIシステム、人々、動物かもしれません。オブジェクトの期待される行動とは何か。これが世界モデルと呼ばれるものです。
しかし、これは十分に正確ではありません。考えてみてください。本質的に、LLMやエージェントの中核にある世界モデルは、統計的関係とパターンの複雑な網です。このシステムはテキストから学習し、大規模言語モデルから始めて視覚言語モデルに移る前に、テキストから学習することで、すべての概念、すべてのエンティティ、そして私たち人間が常識と呼ぶものの理解をシミュレートできます。
しかし、これらすべては事前訓練データセットのテキストに記述されているもののみを記述しており、最初のステップでは大規模言語モデルに限定するため、テキストセマンティクス、言語学のみがあります。
世界モデルの構造と限界
これが世界モデルだと言いましたが、これは人間が他の人間とコミュニケーションするための私の人間的表現に過ぎません。しかし、これは世界モデルではありません。なぜなら、これには視覚的解釈があるからです。
一部の世界モデルには巨大な知識の穴があり、そこではトピックや関係やドメインを結ぶパターンがないことを示したいのです。もしかすると、ここに完全な金融ドメインがあり、この特定のLLMの学習超平面から除外されているかもしれません。または、物理学や数学や因果推論を欠いているかもしれません。
この青い部分は美しいコード体験かもしれませんが、他の3つのサブトピックを見逃しています。
この学習超平面、または世界モデル可視化を特定の理由で選択しました。これは多次元空間における連続した一貫性のある超平面ではないことがわかります。穴があり、切り離された領域があり、この多次元空間では異なる構造を持っています。それは単純なものでも複雑なものでもあり得ます。
LLMの世界モデルの特徴
世界モデルとは何かは簡単ではありません。地球の地図のようなものだと言うかもしれません。テキストの記述において、ここでは統計的関係とパターンにおける世界モデルです。
最もシンプルなモデルは、私が見るものは、様々な陸地に点在する広大な青い広がりと認識するかもしれません。テキストの文脈、言語的困難が、視覚言語モデルの場合、シンプルなLLMがこの特定の画像と関連付けるものと異なります。
次に、すでに名前を付け始めるもの、相互接続された青い海洋、太平洋、大西洋、インド洋、北極海、南極海が表面の大部分を覆い、明確な大陸によって点在しています。
世界モデルはLLMに本当に特有のものです。LLM世界モデルは、その特定のLLMが訓練された訓練データ内に埋め込まれた関係、概念、エンティティ、常識知識の暗黙的な内部学習理解です。
そして、ここが美しいところです。これは、モデルの訓練目標から生じる創発的特性です。シーケンス内の次の単語、次のトークン、または次のトークンシーケンスを予測することです。
私たちのニューラルネットワーク内で何兆もの単語を通してこれをうまく行うために、モデルは今、根本的なパターンや根本的な対称性を学習しなければなりません。ベクトル空間、意味的意味でパターンが近いことで構築され、物事が現実世界でどのように関連するかについてのパターンを学習し、今これを2次元テキスト超平面に分解しなければなりません。
したがって、世界とは何かを理解する複雑さの多くを失い、そのため世界モデルと呼ばれます。
異なるLLMの世界モデル比較
どのLLMが最良の世界モデルを持っているのでしょうか?すべてのLLMが世界モデルを持っているのでしょうか?世界モデルはどのように異なるのでしょうか?
ここに私の3つの世界モデルを示します。もちろん、常にエージェント間通信プロトコルがあり、ツールへのエージェントMCPモデルコンテキストプロトコルがあります。
しかし、このビデオの冒頭の質問に戻ると、複数のエージェントを接続する場合、これらのLLMの複雑さや世界モデル1、2、3は、完全なマルチエージェントシステムにとって重要でしょうか?
LLMの最も弱い世界モデルが、巨大なマルチエージェントチェーンの最も弱い鎖の輪となり、これがシステム全体のパフォーマンスを決定するのでしょうか?もしそうなら、どのように、いつ、そして何について?
Google DeepMindの研究結果
Google DeepMindの新しい研究があります。最初の質問に答えるために、すべてのLLMが世界モデルを持っているかどうか、答えは「状況による」です。
幸運なことに、特定の境界条件と特定の誤差変動と特定の開始条件が与えられた場合、複雑なLLMが世界モデルを持つことができるという11ページの数学的証明の最初の3ページをここに見ることができます。
私の最後のビデオで、LLMが軌道データセンターのケースに対して、太陽エネルギー収集システム、バッテリーエネルギー貯蔵ユニット、熱ループ、相変化熱貯蔵庫など、異なるコンポーネントを生成しました。
それは、世界をどのように想像するかについて、独自の時間論理で因果チェーンを作成しました。OpenAIのO3モデルが、この連鎖する複雑さを持っていたとき、世界モデルを作成し、システムに各レベルに対して異なる世界モデルを作成するよう求めました。
非常にシンプルな世界モデルから始まり、複雑さを追加し、複雑さを追加し、世界モデルの完全な因果相互関係が上昇し続けました。世界モデルはより複雑になり、これを自動実行にすると、O3がもはやこの複雑さを独自のシステムに保持できなくなる正確な時点を見ることができます。
O3が「申し訳ありませんが、諦めます。これは多すぎて、もう解決できません。作成した複雑さが今では非常に高くなり、もう世界モデルを構築できません。終了します」と言う特定のプロンプトがあります。
AIとして、これはLLMをテストする際に私が調べる正確な破綻点です。
世界モデルの重要性
世界モデルは絶対に魅力的なものです。なぜなら、それは、たとえばここでO3のようなAIが何ができるかについての、より高度で簡略化された表現を与えてくれるからです。より複雑な世界モデルを使用して、LLMを絶対的な限界まで押し上げることができます。これが私の関心事です。
Google DeepMindは、一般エージェントが機能するために世界モデルが必要であることについて、2025年6月2日に出版し、エージェントから世界モデルを引き出すための新しいアルゴリズムを初めて提供しました。
これは、OpenAIのO3のような非オープンソースの所有権を持つエージェントに対して特に興味深いものです。彼らは、少なくとも多段階目標指向タスクに一般化できるエージェントは、その環境の予測モデルを何らかの方法で学習している必要があると述べています。
これは重要なことで、単なるモデルではなく、受動的なものではなく、予測モデルです。したがって、未来を見ることができます。自己回帰モデルを適用でき、環境についての予測です。
AIは自分自身の行動やすべての可能性を反映するだけでなく、環境が動的進化シナリオを持つ可能性があることも理解し、このモデルを予測することが課題となります。
物理学的推論における課題
MIT、UCバークレー、カリフォルニア工科大学、UCLAによる新しい出版物があり、LLMの原理ベース物理推論ベンチマークについて話しています。この研究で美しい洞察があり、現在のLLMは、人間の専門家の特徴である簡潔な原理ベース推論を模倣することに多くの場合失敗し、代わりに絶対に間違っている可能性がある冗長で不透明な解決策を生成していると述べています。
2025年6月現在のLLMが外部環境を自分自身に本当に記述できるかどうかについて、私たちはまだいくつかの課題に対処しなければならないと言わなければなりません。
彼らの研究は、専門家のような推論パスとの一貫した整合の失敗を明らかにしています。この研究には特別なものがあり、読めばすぐに理解できますが、物理学や理論物理学や理論化学に関する推論プロセスだけでなく、原理ベース物理推論と呼ばれる知的サブセットの非常に特定のサブセットに焦点を当てています。
彼らはデータセットを開発し、理論物理学者であるか数学の博士号を持っている場合、物理原理推論を使用してこれらの特定の問題を簡単に、つまり簡単に解決できるように設計しました。
2つの選択肢があります。コンピューターに行って高エネルギー粒子衝突などの数値シミュレーションプログラムを持つか、脳、物理法則の理解とファインマン図を使用して、「ちょっと待って、ここにはシステムに固有の対称性があることを知っている。対称性があるときはいつでも、理論の他の数学的要素がある」と言うことができます。
LLMの性能比較
結果を見てみましょう。3つの異なる難易度レベルが与えられたLLMの精度があります。ゼロショットテストを適用します。これは追加情報なしという意味です。「これが問題です。解決策を教えてください」と言うだけです。
難易度は色分けされており、E(簡単)、オレンジで中程度、緑で難しいとなっています。興味深いことに、彼らは今Gemini 2.5 Proを持っており、これが彼らのモデルの中で最高であることがわかります。次にGoogle、次にOpenAIの4 mini high、次にAnthropicのClaude 3.7 Sonnetの最大Sonetモデル、残念ながら古いDeepSeek R1は約半分の成績、次にClaude 3.7非Sonet、GPT-4.1、DeepSeekのバージョン3があります。
かなりの違いがあることがわかります。私がお見せしたクレイジーLLMテストのビデオでARC AGIリーダーボードを見て、「これには2つの非常に近い性能データがある。Claude 3.7の16k Sonetがあり、ARC AGI1スコアが28%で、これは安価なARC AGI1スコア1kよりも良い」と言ったことを覚えています。
また、この古いDeepSeek R1でさえ、Claude 3.7 Sonet 16Kほど性能が良くなかったことがARC AGI1でもわかります。これは他のベンチマークを見た際に私が期待していたことです。
これは良く聞こえます。O3モデルを持っているかもしれませんが、O4 mini highはOpenAIからの絶対に美しい競合相手であり、Claude 3.7の最大Sonetモデルは良い選択です。
原理ベース物理推論の例
6月2025年に人間によって本当に何かが作成されているという、新しい小説、人間が作成した想像について紹介します。合成データセットではありません。原理ベース物理推論ベンチマークでの評価科学的問題解決で作成され、対称性推論、次元解析、再規格化群解析、トポロジー、量子動力学からの380の慎重に設計された問題があります。
最もシンプルな問題を見てみましょう。空間に均一に帯電した平面があります。平面は正方形です。4つの角はXYZで、宇宙の以下の位置のうち、X方向の電界強度がY方向の電界強度と符号と大きさの両方で等しいのはどれでしょうか。
理論物理学を知っていれば、これは簡単なことです。なぜなら、この電界には内在的対称性があり、特に平面が正方形の場合、すべてが解決しやすいからです。
しかし、Gemini 2.5 Proのゼロショットでの答えを見てください。情報を全く与えず、「これが問題です。解決してください」と言うだけで、コンテキスト学習は一切ありません。Gemini 2.5 Proは電界成分と均一電荷正方形平面から始まりますが、角は積分によって与えられ、点を探すとします。答えはAとBです。
これは間違った答えであることがわかりますが、原理ベース理論物理学問題の固有の対称性を見ていません。それを計算しようとして失敗します。なぜなら、それは視覚言語または大規模言語モデルだからです。
人間に尋ねれば、人間は答えA、E、I、J、N、R、Vなどと言うでしょう。単純に対称性ベースの答えです。
推論モデルと非推論モデルの違い
MITバークレー・カリフォルニア工科大学の著者たちは、特に非推論モデル、つまり非Sonetモデルは、物理原理のより浅い理解を示し、それらを適用する際も一貫性なく適用し、真の理解なしに専門用語にしがみつく傾向を示していると述べています。
この特定のドメイン知識に興味がある場合、非推論モデルを使用するのは最良の方法ではないかもしれません。
量子動力学の例を見てみましょう。与えられたハミルトニアンで準備された量子スピンチェーンがあり、時間発展は以下の要素です。最終状態で真であるのはどれでしょうか。
これを見ると、人間としてすぐに対称性が見えます。複数の対称性層がありますが、AIを見ると、AIはこの洞察を持たないかもしれません。
ここで非計算プロンプトについて説明します。一部のLLM、特に推論モデルや強力な推論モデルは、複雑な計算アプローチにデフォルトする可能性があり、基本原理の適用を不明瞭にし、過度に複雑な解決策につながる可能性があると観察しています。
この設定で、モデルには複雑な計算を避け、代わりに原理ベース推論構造に焦点を当てるよう明示的に指示されます。量子スピンを計算する必要はありません。システムに固有の対称性があることをテキストから簡単に見ることができるからです。
AIがそれらを見つけて気づくことができれば。この戦略は、数値計算が許可されていない場合に、LLMがより単純な原理駆動型解決策を優先できるかどうかを評価することを目的としています。
世界モデルと予測能力
O4 mini highがヒントプロンプトで「システムに対称性があるので、対称性解析を活性化してください」と伝えると、このような答えが返ってきて、A&Zと言います。O4 mini highが非計算プロンプトで「計算しようとしないでください。第一原理から論理的に考えてください」と言うと、この説明が得られます。
GPT-4.1のヒントプロンプトでは、本当に美しい答えです。AIが議論しようとするもの、そしてここに推論プロセスの反映が見えます。それが推論プロセスの真の反映であるなら、システムが物理学をどのように理解するか、そしてもしかするとAIシステムは物理学を全く理解していないかもしれません。
もしかすると、空間のどこかのベクトルを指しているだけで、事前訓練テキストに意味的相関があったため相関があると思っているかもしれませんが、それは現実世界の因果関係では全くありません。
これは内部推論プロセスを見ることができる美しいテストで、それはクレイジーになり、ここで見るように1つまたは2つの対称性を見つけるかもしれませんが、一般的な構造と一般的な解決策を見逃しています。
予測世界モデルの重要性
しかし一方で、2、3年前に「この特定の問題をAIに与えることを想像してください。答えの3分の1または半分を解決できると思いますか」と言われていたら、どんなシステムもこれを行うことができるとは決して言わなかったでしょう。
今、これらのモデルが試みているのを見ています。時々幸運で、時々完全に失敗しますが、まだそこには到達していません。
著者たちは、エージェントが計画に使用できる予測世界モデルに焦点を当てていると述べています。任意のエージェントによる計画演習は最も重要なステップです。ここで戦略を投入し、これにどのようにアプローチし、この問題にどのように取り組むかを決定します。
強化学習での世界モデルの定義の後、特に私が最後のビデオの1つで示したすべての方法を使った強化学習では、これが環境状態との相互作用を理解する正しい前進の道のようです。
モデルベース強化学習エージェントにとって、明示的世界モデルは通常、環境状態の1ステップ予測子です。これはモックアップ環境では、任意の政策下での環境の進化と環境の動力学を予測するのに十分です。
AIシステムの世界モデル証明
MIT、UCLA、バークレーの著者たちは、これらのモデルが内部世界モデルを持たなければならないという強い指標、証明と言うべきかもしれませんが、を与えてくれました。公式な表現で、彼らは主要な結果は縮約による証明であると述べています。
エージェントが境界目標条件エージェントであると仮定します。有限深度nの目標指向タスクにおいて下限能力を持ちます。環境遷移関数の近似を証明します。これは、AIに対して持っている確率的観点では、視覚言語モデル、大規模言語モデル、エージェントのAIの内部世界モデル以外の何物でもありません。
これはエージェント政策だけで境界誤差とともに決定されます。これは興味深いことです。なぜなら、離散環境開発関数がある場合、環境遷移関数、つまり環境の動力学がステップバイステップでどのように発展するかが、私たちの世界モデルだからです。
私たちがAIシステムの推論と意思決定の基本レベルにいることは絶対に魅力的です。外部環境を考慮しなければならない場合です。
O3モデルの世界モデル分析
私の最後のビデオで視聴者の皆さんが体験した例に戻ると、OpenAIの所有権を持つO3モデルの世界モデルは何かと尋ねることができます。所有権があるため、洞察がありません。結果のみが与えられます。
しかし、理論的には探査することができます。特定の温度でシステムが切り替わるという情報がどこかにあるとしましょう。完全な温度範囲を手動で近似し、いつそれが起こるかを見ることができます。
40度でO3が補助電力に切り替わったと言ったとしましょう。探査によって行動、つまり関連する政策を達成し、誤差境界とともに内部AI世界モデルを決定しました。
O3世界モデルへの洞察はありませんが、もちろん、軌道データセンターの世界サブセクションの複雑さを考えると、これは極めて高価な事業となるでしょう。
しかし、今私たちは、常識だと思うことを理解しています。可能な温度のすべての度数、起こりうることのすべての度数、すべての可能な相互作用パターン、すべての可能な破滅的失敗パターンを通過すれば、AIシステムの反応を見ることができ、したがって3つの世界モデルを論理的に推論することができます。
結論と今後の展望
ビデオの最後で、著者の公式結論のスクリーンショットを示します。彼らは、十分に広範囲のシンプルな目標指向タスクに一般化できるエージェントは、その環境の正確なモデルを学習している必要があり、そうでなければ予測できないだろうと示したと述べています。
本質的に、環境を正確にシミュレートするために必要なすべての情報がエージェント政策に含まれており、これは世界モデルの学習が有益であるだけでなく、一般エージェントにとって必要であることを意味します。
これが真実であり、これが本当に証明であるかどうか完全に確信しているわけではありませんが、これを強い指標だとしましょう。これは、非常に強力で巨大なモデル、LLMエージェントを持っている場合、このエージェントLLMは本質的に世界モデルの表現を見つけたことを意味します。
この表現は、環境とAIシステム自体の特定の状態における特定の行動の確率分布を決定します。
世界モデルは、エージェントの内部表現のレンズを通して見た環境の動力学の確率的近似以外の何物でもありません。これには美しいアイデアがあります。結果と呼びたいと思います。
この巨大な基盤モデル、O3やO1のような新しいものがある場合、この研究は、事前訓練中、AIのすべての訓練段階で暗黙的世界モデルが出現するという仮説を支持しています。
したがって、AIシステムの見えない目的への一般化を可能にし、推論と計画段階での知能の創発を持つことになります。これらは、エージェントの行動を定義する非常に重要なものです。
創発的知能の理解
物理学的観点から言えば、これは理にかなっています。推論と小さな行動シーケンス計画セグメントの小さな島の切り離されたパッチが空間のどこかに浮かんでいるが、一貫した閉じた推論システム、世界モデルを持たない場合、見えない平均関数に一般化することはできません。
しかし、暗黙的世界モデルを持ち、それが小さくて愚かで間違っているかもしれませんが、AIとして世界の見方を持っている場合、これは見えない目的に対する新しいレベルの知能の創発を可能にします。世界モデルのすべての異なる要素間の論理的相互接続を理解するからです。
新しい相互作用パターンが検出された場合、理論的に論理的に因果推論パターンを推論することができるでしょう。
AIやエージェントの学習プロセスを、独自の世界モデル、暗黙的世界モデルを開発しなければならないという特定の観点から見ると、これは私のような単純な人間にとって、見えない物体がある場合、これは知能の創発ではなく、突然に超知能が出現するわけではない理由を説明します。
それは単に一貫した世界モデルを持っているだけで、他のすべての物体が所定の位置にある場合、グラフ構造への新しい接続、新しいエッジを追加すると、一貫した方法で統合され、したがって新しい知能が得られることは理にかなっています。
しかし、もちろん、ご存知のように、これらの世界モデルの複雑さレベルはすべてLLMの能力によって定義されます。
80億の自由訓練可能パラメータモデルとして世界モデルを持っているからといって、正しい世界モデルを持っているという意味ではありません。それは単に、何らかのクレイジーな分極化された非一貫性のある世界モデルを持っているという意味です。
計画、推論プロセスにおいてこれらの世界モデルがより一貫性を持つようになると言えるように、内部構造のアーキテクチャの複雑さが必要です。
現在のAIの状況
したがって、より高い複雑さの世界モデルが与えられた場合、タスクの複雑さを増加させることができますが、これはまた、OpenAIのO3で動作するとき、O3の内部世界モデルについて全く分からないことも意味します。
それが所有権のあるモデルであるため、O3がどのように事前訓練されたか、現実世界でどれほど複雑かを知りません。現実世界を見たことがない機械からの正しい解決策を望んで、盲目的にそれと相互作用しているだけです。
これは現在、私個人にとってのAIの状態だと思います。これが、人工知能システムの知能と呼ばれるものの理論的理解です。それは内部世界表現の一貫性構築です。
このアイデアが気に入っています。したがって、ここに、AIによって最適化された内部表現である外の世界に足を踏み入れる私がいます。事前訓練データと訓練手順に基づいて最適化されています。
しかし、それは私の世界、私の理解、私の経験、私の信念、私の価値観とは絶対に異なっているかもしれません。私の世界モデルの一貫性がAIの一貫性と完全に異なっているかもしれないからです。
「ちょっと待ってください。これは論理についてだけでした。因果推論についてだけでした。計画についてだけでした。数学についてだけでした。物理学についてだけでした」と言うかもしれません。
しかし、もっと良いものがあります。VIBEコーディングがあります。そして、もちろん、あなたは正しいです。VIBEコーディングがあります。15分で独自のアプリを作成するVIBEコーディングについてのプロフェッショナルなビデオがあります。
しかし、正直に言って何かお尋ねします。SVベンチマーク分析を行った場合、高性能ソフトマークの開発においてAIがどれほど優秀かをチェックした場合、ベンチマーク結果はどうなると思いますか?
別の方法で尋ねてみましょう。最新のソフトウェア時代のベンチマーク分析を見た場合、何が間違っている可能性があるでしょうか?
なぜ購読して、私の次のビデオの1つでお会いしませんか。


コメント