より賢い世界モデルを構築しよう – より賢いエージェントではなく

AIエージェント
この記事は約14分で読めます。

この動画では、より賢いエージェントではなく、より賢い世界モデルを構築することの重要性について議論している。LAW(Language-Agent-World)フレームワークを紹介し、言語モデル、エージェントモデル、世界モデルの相互関係を探る。特に、LLMを世界モデルとして活用する新しいアプローチと、「What if」分析による予測思考の実装について、2つの研究論文を比較検討しながら解説している。

Build Smarter World Models - Not Smarter Agents
New Ai research addresses a critical limitation in Large Language Models (LLMs): their proficiency at reactive thinking ...

世界モデルとエージェントの新しいパラダイム

こんにちはコミュニティの皆さん。お帰りなさい。より賢い世界を構築しましょう、ただより賢いエージェントを作るだけではなく。これは私が最近遭遇したもので、これは一体何だろうと思いました。

システムを構築すると、ここに言語機能があります。LLMですね。そして物理エンジンを持つ世界機能があり、さらに強化学習で学習されたポリシーを持つエージェント機能があります。

私は「LAWフレームワークって一体何だ?」と思いました。そしてようやく理解しました。Lは言語(Language)、Aはエージェント(Agent)、Wは世界(World)を表しているのです。

ご存知の通り、LLMにはすでに暗黙的な世界モデルが含まれています。LLMには学習された世界知識があり、少なくとも限定的な因果理解があり、事前学習データの複雑さに応じて一定の限界まで戦略的知識を持っています。

LLMはゲーム戦略や社会的ダイナミクスについてある種の戦略的知識を持っています。ここでは高レベルの複雑性を複数の低レベルの複雑性に分解する必要があります。分解ですね。

LLMはエージェントの中核としても見ることができます。現代のERエージェント、たとえばGPTベースのロボットやその他では、もちろん大規模言語モデルまたは視覚言語モデルをエージェントの中核にある中央推論マシンとして使用しています。

LLMは計画者としても、未来の予測者としても機能し、未来を知ることで意思決定者としても働きます。さらに、あらゆるフレームワークで完全なエージェントを構築するためのプラグインなどもあります。

世界モデルの複雑性

世界モデルについて考えると、事態は少し複雑になります。私たちには2つの異なるクラスの世界モデルがあります。

言語的世界モデル、つまり多かれ少なかれ暗黙的で抽象的な統計的なもので、これは私たちのコマンドを実行しません。そして物理エンジンを持つ明示的で実行可能な世界モデルがあります。ここで実際に実行してテストし、LLMの戦略が機能するかどうかを確認できます。位置があり、速度があり、力があります。これが私が物理学に基づくと呼んでいるものです。

理解があり、そして新しい研究があります。これは9月5日のウィスコンシン大学マディソン校の「多エージェント学習のための明示的世界モデルとしての言語駆動階層タスク構造」という論文です。この研究で私を魅了したのは最初の行でした。魅力的でないことも教えますが。

最初の行では、言語モデル、エージェントモデル、世界モデルがあり、これらすべてが人工知能における重要なフロンティアを表すとあります。

私は「そうだけど、言語モデル、エージェントモデル、世界モデルのこれら3つの要素が、コーディングにおいてどのように相互依存しているかを正確に説明できるだろうか」と思いました。

研究の評価と限界

この論文で気に入らないのは、科学におけるソロ起業家がいることです。ここにBrandon Hillという一人の人がいます。この論文を私の視聴者に見せる前に、いつもチェックします。

コンピュータサイエンス学部。Brandon Hill、良いですね。ウィスコンシン大学マディソン校のコンピュータサイエンスに行って名前を入力しましたが、何も見つかりませんでした。大学院生を調べて名前を入力しましたが、何も見つかりません。スタッフ近くのBrandon Hillを調べましたが何も見つからず、しばらくして、ウィスコンシン・ニューロモルフィック・コンピューティング・アンド・ニューロラボがあり、執行委員会にBrennon Hillという理事長がいることを発見しました。

なぜ私がこの論文の技術的詳細に飛び込まずに概要だけを示すのかというと、この論文のアイデアに完全に賛同していないからです。時々こういうことが起こりますが、全く問題ありません。LLMがいくつかの部分を提供できるというアイデアは興味深いものではありません。

LLMはロボットのモーターを制御してパスを実行することはできないという声明があります。なぜならエージェントモデルが必要だからです。あるいはボールの軌道の物理学をシミュレートすることもできません。なぜなら世界モデルが必要だからです。しかし、世界モデルを学習し、物理学をシミュレートできるLLMを構築することができ、ロボットモデルも構築できます。アイデアは分かるでしょう。

言語、エージェント、世界モデルを明確なカテゴリーに分離し始めるときはいつでも、現在のAIの状態では、これが無効になる例を提供できると思います。

スキャフォールディングによる機能特化

機能的特化を見ると、言語エージェントと世界モデルは興味深いです。しかし、それをどう実行するかには実際には答えていません。論文での答えはスキャフォールディングによってです。

そして私は「ここでの詳細な意味は正確には何か」と言いました。学習環境を動的に構造化すること。これは、複雑な長期的行動を効率的に習得することに向けてAIエージェントを導くために、もちろんLLMによって生成される階層的タスク構造、サブゴール、内在的報酬を持つ世界モデルを意味します。

これは素晴らしい定義ですが、それは何を意味するのでしょうか?どのようにコーディングするのでしょうか?

スキャフォールディングとは何かを考えてみました。建築では、労働者が他の方法では到達できないものを構築するのを助ける一時的な支援構造であり、建物が自立するようになると徐々に取り除かれ、一度にすべてを構築することは不可能な、より複雑な構造の建設を可能にします。

AIにおいては、時間的スキャフォールディングがあります。長い時間軸を管理可能なチャンクに分割します。空間的スキャフォールディングがあります。空間的サブゴールを定義します。構成的スキャフォールディングがあります。単純なものから複雑な行動を構築します。そして推測してください、社会的スキャフォールディングがあります。

これは多エージェント協調メッシュを意味します。私たちはそれを構造化します。開始時にいくつかのテンプレートを与えるかもしれません。多エージェント協調のための構造化された協調を構築しました。

このことを正確にいつ実行できるかが分かります。理論物理学では、より単純な問題に分解できない多くの問題があることを歌うことができるからです。ナイフを取って複雑性を切り通し、半分の複雑性を解決するだけということはできません。これは現実の生活ではそのように機能しません。

このスキャフォールディングのアイデアは興味深いアイデアです。論文を読みたい場合、私はここで概要を述べているだけです。問題空間に興味があり、同意する場合は、この論文をご覧ください。

What If分析による予測的思考

別の論文もあり、そこには新しいアイデアがあります。これは、LLMを持つ時の現在の制限についてです。著者たちは、LLMが現在、事前学習データに基づく反応的思考では優秀だが、動的で馴染みのない環境における行動の結果を予測する予測的思考には苦労していると教えてくれます。

2025年9月5日の次の研究の注文では、「LLMの What If 分析が予測的思考を使ってゲーム世界を探索する」というものがあり、シンガポール国立大学(若い大学です)とTencentが新しいアイデアを提案しています。

彼らは新しいパラダイムを提案し、それを「LLMによるWhat If分析」と呼んでいます。彼らはWhat Ifと言い、未来に一歩踏み出し、LLMに「もしX方向にステップを踏んだらどうなるか?Y方向にステップを踏んだらどうなるか?Z方向にステップを踏んだらどうなるか?」と質問させると言います。入力変数や座標系、エネルギー関数などを変更することで仮想的シナリオを評価します。

完全なゲームプレイをテストすることができます。ゲームプレイは、例えばあなたのラップトップ上の本当のコンピュータゲームかもしれませんし、ボソンの構成要素を実際にモデル化するスーパーコンピュータ上の物理エンジンかもしれません。各潜在的行動の結果の完全なシミュレーションを行う能力があることは興味深いことです。

これを見る価値があるでしょうか?はい。結果を見ると、実験結果はこのVia LLMがビデオゲームの状態変化の予測において74%という驚異的に高い精度を達成し、これはベースラインシナリオの最大2倍優れていることを実証していると教えてくれます。このモデルは、正確な先見性がシステムのパフォーマンスにとって重要な高難易度シナリオで特に大幅なパフォーマンス向上を示しています。

この論文を見るべきだと思います。彼らは、私たちが行うことはシンプルで、GRPOなどを使った以前の強化学習フレームワークに従い、そしてVia LLMによる新しい方法があり、これによりLLMがゲーム環境と直接相互作用できるようになると言っています。この相互作用中に推論し説明する自然な能力を維持しながらエージェントがあります。

環境フィードバックとゲーム状態遷移にAIエージェントの学習プロセスを基盤づけることで、私たちのアプローチは各行動の結果を予測し、ゲームメカニクスの深い内在的理解を構築する能力を育成します。それが理解なのか、それとも単にパターン検出とパターン模倣エンジンなのかは、一旦脇に置いておきましょう。

実践的な実装とトレーニング

美しいデモンストレーションでは、ゲーム状態を統合しています。あるいはこれを中心的論点として見たい場合、彼らが核心で言っていることは、強化学習を使った単純なポリシーネットワークからLLMを、学習可能な世界モデル、世界動力学モデルに変換することです。

最初の論文とは対照的に、ここで示したように、私は本当に確信していません。例えば、世界モデルとしてLLMを構築します。世界モデルとLLMと分離の境界線について、これがそれほど明確な境界かどうか確信していません。

任意のゲームがあり、彼らは非常に有名で美しい特定のゲームを取ると言います。そして予測的思考があります。ゲームの特定の状態があります。どこかにヒーローがいます。どこかに城があり、敵がいて、友達がいて、リソースがあります。

複数のオプションがあります。下のレーンを攻撃する、ジャングルモンスターで敵を攻撃する、青いジャングルモンスターを攻撃するなど。タスクは1~2ステップ先を考えることです。理論的結果が何になるかを分析し、強化学習でこれから学習します。シンプルです。

まず、ゲーム自体を学習する必要があります。古典的な教師ありファインチューニングで進みます。コンピュータゲームであるこの世界の基本的な語彙と共通パターンを学習します。この特定のゲームの数千または1万の録画された人間のコンピュータゲームの巨大なデータセットを取ります。各データポイントは現在のゲーム状態、プレイヤーの行動(上下移動、射撃など)、実際の次のゲーム状態です。そしてモデルは、現在の状態とヒーローの行動が与えられたときに次の状態を予測するために単純にトレーニングされます。

メイン学習プロセス

メイン学習プロセスがあります。モデルが予測を行うべきなので、この予測作成でモデルをトレーニングするトレーニングプロセスが必要です。

特定の時刻tにおけるゲーム状態sとアクションAのモデルを提示し、LLMのタスクは予測された世界の変化s+デルタの詳細な説明を生成することです。例を挙げましょう。

ゲームクエリ:現在の状態はヒーローAが位置XとYにいます。タワーのヘルスポイントは500です。取られるアクションはヒーローAがこの特定のタワーを攻撃することです。次に何が起こりますか?

モデルが予測します。モデルは、タワーが85ヘルスポイントを失うと予測します。素晴らしい。

AIが実際のゲームを実行します。環境が今度は真実を提供します。実際のゲームエンジン、真実の源(引用符付き)が、この特定の行動がこの特定の環境状態で取られたときに実際に何が起こるかを計算します。

そして80だけということが判明します。強化学習では報酬関数があります。報酬関数は精度であり、モデルの予測と真実を比較します。私たちの場合、-85対-80があります。

モデルは-85を予測しました。ゲームエンジンからの現実は-80でした。予測は非常に近いものでした。完璧ではありませんが、ほぼ正しかったので高い報酬、例えば1点満点中95点を得たとしましょう。

したがって、バックプロパゲーションが木に逆伝播し、学習プロセスがあります。これがモデルの学習です。LLMの重みはこの特定の報酬に基づいて調整されます。強化学習アルゴリズムの目標は、時間の経過とともにその予測がゲームエンジンによって提供される真実にますます近づくようにモデルを調整することです。

明らかな制限が見えます。再び、現実世界の複雑性を単一のコンピュータゲームに縮小しています。そして、ゲームエンジンが100%完璧ではないかもしれません。いくつかのグリッチがあるかもしれません。論理的でないシーケンスがあるかもしれません。現実はゲームエンジンではなく、現実ははるかに複雑であることが判明します。しかし、もちろん、この瞬間、この学習ステップのために、この単一のゲームを学習するために人工的なゲームエンジンに自分自身を制限しなければなりません。

実践的な応用例

例を挙げましょう。あなたがこの位置にいて、このVia LLMがこのゲームで数千時間訓練され準備ができているとしましょう。

質問は「特定の状態が与えられて、あなたはこれが何であれ、その前に立っています。アクションAでタワーを攻撃するとします」です。このWhat If Via LLMの基盤づけられた予測の力で、次の3秒でタワーのヘルスが250減少してそれを破壊し、タワーを攻撃することに決めた場合、来る雑魚攻撃のためにヒーローのヘルスが150減少するでしょう。

しかし、シナリオBとアクションBで、システムは「もしも?雑魚を攻撃したら?」と答えることができます。Via LLMの基盤づけられた予測は、次の3秒で3体の敵の雑魚が破壊され、ヒーローのヘルスがタワーの射撃から40減少し、タワーのヘルスは変わらないままでしょう。

私たちは何を達成したでしょうか?ハイレベル戦略モジュールがあり、2つの明確に予測された未来があります。特定の目標またはサブゴールが与えられたLMは、サブゴール12に到達するために、オプションAを選ぶべきかオプションBを選ぶべきかを決定できます。これがこのWhat Ifの背後にあるすべてです。

Via LLMの本質的特徴

一歩深く掘り下げて、このVia LLMは何かと言うと、シンボリック言語ベースの世界モデルです。なぜなら、シンボリック表現で動作するからです。ピクセルや何かを使用しません。JSONを使用します。人間が読める用語で実際に記述でき、次のシンボリック状態変化を予測します。これが私たちが必要とするすべてです。

さらに、明示的で解釈可能です。どこかのベクトル空間ではありません。私たち両方が読んですぐに理解できるJSONオブジェクトです。これは大きな利点です。

さらに、このVia LLMは事前訓練された知識を活用します。LLMがすでに持っている知識の上に構築されます。従来の世界モデルはゼロからゲームの物理学を学習するでしょう。

しかし、これでは因果関係、効果、論理、おそらく基本的なゲーム戦略についての広大な既存知識があります。そして、強化学習でのこのトレーニングプロセスで行う必要があるのは、この単一のゲーム戦略、この単一のゲームプレイ、数千時間のトレーニングデータを学習することだけです。

Via LLMを世界モデルと呼ぶのは正しいです。論文の貢献は、事前訓練されたLLMの基盤の上に構築され、その後単一のゲームエンジンのために追加的にトレーニングする世界モデルの新しいアーキテクチャを提案し実証することです。

世界のすべての解釈可能性を持つことができます。シンボリック推論があります。LLMの事前訓練された知識を活用するので、はるかに効率的です。

2つの興味深い論文が互いに少し矛盾していることがわかります。両方をご覧ください。論文2を最初に読み、異なる視点を見たい場合は論文1を読むことを決めるかもしれません。

今後の展望と課題

しかし、私たちが皆、LLMとその完全な機能性の明確な理解と戦っていることを明確に示していると思います。コアLLMを持つエージェントと世界モデルの複雑性。現実世界で遭遇する複雑性を、世界モデルのより小さな複雑性、複数のより小さな複雑性に分解できるでしょうか?世界モデルシミュレーションで複雑性を分解し、特定の世界モデルエンジンを持つ特定のサブ問題に取り組むことができるでしょうか?これが前進の道でしょうか、それとも別のアプローチを選択する必要があるでしょうか?

もちろん、このVia LLM、正確で解釈可能な短期1~2ステップ予測を生成する能力は、高度な戦略的推論の重要な前提条件です。エージェントにとって素晴らしい強力なツールであり、複雑な相互作用システムでこれを適用できます。

しかし、これは個人的な意見ですが、理論物理学者として、私はまだ、衝撃エネルギー速度加速度温度蒸気密度のすべての物理学パラメータを実際に計算する物理エンジンを好み、何らかのLLMが数千、1万、10万の例によって特定のゲームエンジンや物理エンジンを学習し、現実世界で何が起こっているかの真の理解を持たないことに依存することを好みません。

世界モデルとどのように対処するかについて、AI研究の複数の軌跡があることがわかります。

あなたはどう思いますか?あなたの意見に興味があります。チャンネル登録して、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました