ニューロシンボリックWeb世界モデル(物理とAIを分離する)

AI研究
この記事は約17分で読めます。

本動画では、物理法則と想像力を分離する革新的な「Web世界モデル」という新しいアーキテクチャが紹介されている。このモデルは、決定論的な物理演算をTypeScriptなどのコードで実装し、LLMには物語生成やナラティブ作成のみを担当させることで、両者の長所を活かす設計となっている。従来の世界モデルでは物理法則と知覚の両方をニューラルネットワークで同時に学習しようとするため一貫性の問題が生じていたが、この新手法ではJSON型インターフェースを介して両者を直交的に分離することで、構造的幻覚を排除しつつ無限の環境を生成可能にしている。プリンストン大学らの研究チームによるこのアプローチは、データベースなしで無限の宇宙を生成でき、計算がメモリの代替となる点で画期的である。

NeuroSymbolic Web World Model (Decouples Physics from AI)
The idea is simple: Instead of training a huge AI model on Language, syntax, domain knowledge, coding and Science patter...

Web世界モデルの登場

コミュニティの皆さん、こんにちは。お戻りいただき嬉しいです。今日は新しい形の世界モデル、Web世界モデルについてお話しします。ご覧のように、ここでは物理法則と想像力を分離することになります。私のチャンネルDiscoveriへようこそ。最新のAI研究論文を見ていきましょう。

彼らはここで銀河旅行アトラスを構築しました。これはSFシミュレーションで、銀河や星、惑星クラスターの配置を決定する実際の物理アルゴリズムを使用しています。そして、LLMがこのジオメトリにミッションブリーフをテクスチャとして適用します。つまり、データベース検索なしでウェブ上でこれらすべてを行っているのです。彼らはここでGitHubリポジトリを構築しています。

わずか6時間前にコードの記入を始めたところです。ですから、皆さんがこの動画をご覧になる頃には、すべてのコードが実装されていることを願っています。彼らは複数のオブジェクトを構築しました。惑星探査用の3D Web世界モデルも構築しています。事前レンダリングされたメテオに依存するのではなく、空間的な接触がエージェントの探査を決定するナビゲート可能な太陽系を提供します。

体験機能は軽量な宇宙飛行シミュレーターです。軌道ビュー、操縦飛行、地表歩行を切り替えることができ、AIガイドが現在の視点、つまりあなたがこの惑星のどこにいて何を見ているかに合わせた教育的なナレーションを生成します。なんと興味深い言葉でしょう。

研究の背景と起源

すべてはここから始まりました。2018年にGoogle BrainとJurgen Schmidhuberによる再帰的世界マイルが政策進化を促進しました。これらが私たちが参照しなければならない論文です。そして、これが今日の論文です。プリンストン大学、カリフォルニア大学ロサンゼルス校、ペンシルベニア大学によるものです。

彼らはこのWeb世界モデルを構築しました。論文、アーカイブ、動画、コードなど、すべてが揃っています。動画は現在私には利用できませんが、翌日には見られるはずです。明日にはすでにすべての情報が手に入っているかもしれません。

Web世界モデルの核心的アイデア

アイデアは何でしょうか。アイデアは、Webフレームワークを持つことです。テキストコードベースの環境制御性があり、美しいものです。一方で、ほぼ無制限のコンテキストを持つ完全に定義された世界モデルがあります。そして彼らは、中間に何かを構築しましょう、フレームワークがルールを設定し、LLMがコンテンツを埋めるだけのものを構築しましょう、と言っています。

LLMは黒幕ではなく、このAGIでもありません。私たちにはフレームワーク、物理法則があります。物理システム間の状態遷移がルールを設定し、この環境で何が可能か、どのような動きができるかというダイナミクスを設定します。そして、LLMはストーリーとナレーションを提供するだけです。

これははるかに強力なモデルです。なぜなら、AIがすべての思考を行う必要がないからです。このWeb世界モデルでは、無制限のコンテキスト、テキストコードベースの環境制御性があり、美しい。両方の世界の最良の部分を持っています。

論文の詳細

これは2025年12月29日に公開された出版物です。新しいWeb世界モデルです。世界状態と物理法則は通常のWebコードで実装され、両方の世界の論理的一貫性を確保します。一方、LLMはこの構造化された潜在状態の上に、いわば「引用符付きの」文脈、ナラティブ、高レベルの決定のみを生成します。

一般的に、皆さんが目にする標準的なビデオゲームはすべてステートフルです。切り倒したすべての木を巨大なファイルに記憶しなければなりません。世界が大きくなるにつれて、このファイルはサイズが爆発的に増加します。今日の論文の、特にこのWebアイデアの考え方は、ステートレスになるように設計されているということです。

つまり、このWeb世界モデルは、データベースなしで世界をほぼ無限にすることを可能にします。どうやってこれを達成したのでしょうか。

4つの核心設計原則

彼らはWeb世界モデルを構築するための4つの核心設計原則から始めました。

第一に、関心の分離です。核心ルールと状態遷移、つまり物理法則と呼ぶもの、この物理システムのダイナミクスは、創造的生成、つまり起こっているすべての想像とは区別されなければなりません。これが私たちのLLMです。

第二に、型付けされたインターフェースです。潜在的な世界状態は、明示的に型付けされたWebインターフェースとして表現されるべきです。つまりJSONスキーマです。高次元ベクトル空間上の埋め込みやベクトル表現ではなく。

第三に、決定論的生成による無限世界です。拡張は固定されたスキーマを尊重し、行動空間を爆発させることなく世界を成長させることを可能にしなければなりません。

最後に、優雅な劣化です。モデル呼び出しが遅い場合や利用できない場合には、テンプレート構造にフォールバックする必要があります。

ニューロシンボリックアーキテクチャ

主要なアイデアは、もちろんこれはニューロシンボリックアーキテクチャですが、世界状態を2つの直交するコンポーネントに分割することです。最初のものは物理レイヤーです。美しいMIDFSI、これは決定論的なコード、TypeScriptです。不変量、座標、インベントリを処理します。ロックされたドアを通り抜けることはできないというロジックがあります。

そして、LLM部分、想像レイヤーがあります。これは確率的なLLM出力です。バイブ、物語的な記述、ストーリー、視覚的なフレーバーを処理します。つまり、2つの直交するコンポーネントの美しい相互作用があります。

非常にシンプルで、したがってこれにより、エージェントはほぼ無限の銀河を探索できます。なぜなら、コードは特定の座標ペアに惑星が存在し、特定の資源タイプを持つことを保証するからです。それはガス惑星であるか、岩石層です。

一方、LLMはその周りのストーリーを生成します。エイリアン種の説明やミッションテキストをその場で生成します。すぐにアイデアがわかります。主要な部分は、どのようにして確率的で幻覚を起こし創造的なライター、つまりGPT-5.2のようなLLMを、厳密に決定論的な計算機、つまりコードシミュレーション、物理アイデア、惑星の軌道に入るときの物理軌道の計算などと対話させるかということでした。

型付きインターフェースという橋渡し

伝統的なディープラーニングでは、コンポーネント間の橋渡しは通常ベクトルです。しかし、この新しいWeb世界モデルでは、橋渡しは型付きインターフェース、JSONスキーマです。非常にシンプルにするために。

自由テキストの代わりに、ここでTypeScriptで厳密な契約を定義します。これが、私たちのニューロシンボリックソリューションのシンボリック部分です。私は本当にLLMに伝えます。あなたが望むものを何でも想像できますが、あなたの出力はこのようなシンボリックコンテナに正確に適合しなければなりません。

簡単な説明として、インターフェース惑星を定義します。コードによって使用される物理法則です。惑星には名前があり、重力があり、着陸可能かどうかがあり、資源ABCDがあり、あなたのインベントリの想像で埋めることができます。正確に何であるかがわかります。これがLLMで、説明文字列、レンダリング用の背景の空の色は文字列であり、すべての詳細をリストアップし続けます。

すぐに理解できます。説明だけでなく、重力の実数値などもある直交部分空間があります。そして実行は単純に2つの島の間の橋を渡ることです。

プレイヤーが特定の座標セットに着陸すると、システムは座標をハッシュ化し、プロンプトでLLMにプロンプトします。LLMは単に物理法則によって制約された制約ジェネレーターとして機能します。LLMの出力はこうなります。

この惑星の名前は何でも良いです。重力は地球の1.5Gです。呼吸可能ですか?いいえ。資源は鉄と氷のショート、未知のクリスタルです。説明では、これは荒廃地です。空の色が定義されています。

シンプルですね。これがなぜニューロシンボリックブリッジなのかと言うかもしれません。JSONオブジェクト自体がブリッジです。このシステムの両側を同時に満たします。シンボリック側、コード側では、コードがJSONを渡し、たとえば呼吸可能かどうかを読み取ります。偽か真か。この意味論的ロジックが支配的です。惑星が呼吸可能かどうか、あなたは理解しました。

コードは説明、想像、ストーリー側をほぼ完全に無視します。荒涼とした風などは気にしません。ブールフラグや重力定数の数値のみを気にします。コードは安全です。型が保証されているため、クラッシュしません。

LLM側の役割

一方、ニューラル側、古典的なLLM側があります。LLMはここで意味論的理解を行使します。呼吸可能が偽の場合、説明にはおそらくヘルメットか何かについて言及すべきだとわかっています。

これがLLMがストーリーラインの意味論的一貫性に責任を持つところです。LLMは、氷の棒のようなバイブが、氷のショート資源のようなメカニクスと一致することを保証します。

物理レイヤーの定義を単なる静的リストに限定するというのは、この論文を読み始めた当初の私の誤解でした。なぜなら、プレプリントは「物理学」という用語を使用しているからです。しかし、ゲーム理論や強化学習のような意味で、システムの状態ダイナミクスについて話しており、たとえばニュートン的な意味だけに古典的に制限されているわけではありません。

ですから、注意していただきたいのは、私が物理学について話すとき、これは決定論的状態遷移tについて話しているということです。

物理学の形式的定義

形式的な世界モデル文献、たとえばSchmidhuberによるものでは、物理学は遷移関数として定義されています。もちろん、このWeb世界モデルでは、このtは任意の実行可能コードにすることができます。ですから、リストだけに制限されるわけではありません。スーパーコンピュータで実行されるリアルタイムシミュレーションをブラウザで持つこともできます。

tは単純なロジック、たとえばチケットを購入した場合、というものにすることができます。または、近地球軌道計算のための本当に複雑な軌道計算、レイキャスティング、速度、衝突などを含むものにすることもできます。この構成における状況、または可能性は、ほぼ無制限です。

構造的幻覚の排除

このプレプリントの著者たちは、この型付きインターフェースを使用することで、構造的幻覚を排除できると主張しています。もちろん、コンテンツの幻覚はまだあります。なぜなら、LLMは切り替えて、今日は空が緑だと言うかもしれないからです。これは許されます。これは単なる創造性です。

しかし、同じ惑星、同じ座標に翌日戻ってきて、ストーリーを続けたい場合、TypeScriptにあるため、構造的幻覚はほぼ不可能であることを願っています。なぜなら、インターフェースが特定のデータ型を強制するからです。

これにより、世界の潜在空間が数値のブラックボックスから、人間が読め、うまくいけばデバッグ可能で、コード実行可能なデータ構造に変わります。これがこの論文の主要な成果です。

例を挙げましょう。これらの氷の尖塔があるとします。これらは想像のレイヤーに存在します。これは説明文字列にあります。これがストーリーの物語的フレーバーの機能です。

氷の尖塔は、ゲーム内の氷の大きなジャケット状の垂直な形成物です。それらは単なる風景、背景です。コード、物理エンジン、あなたが持っているものは一般的にそれらを無視します。すべての尖塔の衝突物理を計算しません。単にユーザーにテキストを表示して雰囲気を設定します。ああ、私たちはジャケット状の氷の尖塔の荒廃した荒野に移動しています。

一方、氷のショートがある場合、メカニクスは純粋な物理学ではありません。これは、鉄か何かを集めたリソース配列に存在しており、システムが処理しているロジックオブジェクトになっています。

氷のショートはIDを持つ個別のアイテムです。コードはこれに作用し、プレイヤーが採掘をクリックすると、コードは決定論的に定義されたロジックを実行します。このアイテム、この要素をインベントリに追加します。美しい。

コードには製作レシピさえあるかもしれません。インベントリに氷のショートがあれば、製作を許可します。これが型インターフェースの美しさを少し強調することを願っています。

ニューロ側、つまりLLMは、惑星に氷の尖塔があることを知るのに十分賢いです。視覚的な説明、採掘可能な資源は、おそらく論理的に、そしておそらく言語的にも一貫性があるべきです。氷のショートはインベントリアイテムになることができます。突然溶岩や砂漠にいるとは言いません。

美しい。視覚的なものをゲームメカニクスに意味論的に接続しましたが、型インターフェースはそれらを構造的に分離し、コードがクラッシュせずに実行できるようにしました。

コードがクラッシュしないとは

コードがクラッシュせずに実行できるとは実際にどういう意味でしょうか。詳細は何でしょうか。Web世界モデルでは、型付きインターフェースはクラブの厳格なバウンサーのように機能します。LLMにフレーバー、テキストを数学から分離させます。

ハザードのインターフェース、契約があるとします。説明文字列があり、ダメージ値があります。これを定量化する必要があります。これは数値、特定の整数でなければなりません。そして、LLMはこのスキーマに強制的に準拠させられます。

出力は、このアイデア、ハザードの説明がジャケット状の氷原であり、ダメージ値が何であれ50ポイントです。実行では、プレイヤーの健康は、100から始めて50を引いて、結果は1050です。

これはここで完璧に機能します。ハザードがジャケット状の氷原であることを表示し、ストーリーラインに接続されたアクションがあることを理解します。コードがクラッシュせずに実行されると言うとき、または本研究の著者が教えてくれるとき、型付きインターフェースがLLMが単語や説明のようなテキストを、厳密にロジックを必要とするエンジンの部分に渡すのを防ぐことを単に意味します。

これは数学的演算やブール演算子など、私の意味がわかりますか。任意のLLMに新しい惑星を生成してくださいと尋ねると、シロスに着陸します、空気はシナモンのような匂いがします、重力は軽く感じます、光る岩があります、と返すかもしれません。

これはコートをクラッシュさせます。なぜなら、コートには十分な情報がないからです。シナモンのような匂いとはどういう意味ですか。重力が軽く感じるとはどういう意味ですか。物理エンジンで実際の物理的シナリオを計算するには数値が必要です。コードはこれを実行できません。

しかし、このTypeScriptで強制すると、一貫性があります。エージェントが生成された惑星に着陸するゲームをコーディングしているとします。物理レイヤーは知る必要があります。酸素はありますか?重力はどのくらい高いですか?ここで資源を採掘できますか?

ここでの最もシンプルなプレイで、想像レイヤーを持つLLMは、どのように見えるかを処理する必要があります。これがこの特定の論文における最も優雅なトリックです。

データベースなしの無限宇宙

ペタバイト規模のデータベースなしで無限の宇宙をどのように保存するのでしょうか。答えは、まったく保存しないということです。彼らはLLMに適用されるプロシージャル生成原理を利用しています。

エージェントが太陽系の時空間の特定の座標を訪れるときはいつでも、システムはデータベースを検索しません。代わりに、座標をハッシュ化して凍結されたシードを作成します。このシードはLLMに渡されます。

シードが凍結されているため、通常GPTシステムか何かを持つLLMは、その特定の場所に対して決定論的になります。幻覚を大幅に減らしました。ユーザーが惑星を訪れ、去り、状態を少し変更し、100タイム要素後に戻ると、ハッシュはまだ同一です。

この惑星からのシードは同一です。LLMはまったく同じ説明を再生成します。何を達成したのでしょうか。ゼロのストレージコストでオブジェクトの永続性を実現しました。シンプルですが非常に効果的です。

ソフトウェアエンジニアとAI科学者の視点

このアプローチを少し批判させてください。純粋にソフトウェアエンジニアとしてこれを見ると、単にJSONスキーマを使用しているだけに見えます。これは解決されたエンジニアリング問題です。このアプローチの何が特別なのでしょうか。

しかし、AI科学者にとって、ここでのより深い洞察は、コード自体についてではなく、認知アーキテクチャと表現学習から異なるレベルへのシフトについてです。説明させてください。

通常の方法では、世界状態は圧縮されたベクトルです。数学的に効率的ですが、意味論的に不透明です。エージェントがドアがロックされていると信じているかどうかを確認するためにベクトルを読むことはできません。ベクトル内のバグにパッチを当てることはできません。

しかし、この新しいWebモデルでは、この洞察は、コードがベクトル表現よりも、数学空間での埋め込みよりも優れた潜在表現であるということです。潜在状態をタイムリーなインターフェースに強制することで、世界モデルをより解釈可能で編集可能にします。

これがこのニューロシンボリックアプローチのクールなところです。シンボリックロジック、物理法則のルール、最も単純な場合はニュートン物理学を、AIを再トレーニングすることなく、生成プロセスに直接注入できます。

これは美しい。私たちが何をしているかというと、損失関数を介してゼロから物理学を学習することを、シンボリック制約を介して物理学を注入するというはるかにシンプルな方法論に置き換えています。

計算としてのメモリ

追加で達成することは、計算としてのメモリです。コンテキストウィンドウの制限を解決します。現在のLLMエージェントは有限のコンテキストウィンドウ、100万トークン、200万トークンに苦しんでいます。

5,000タイム要素前に訪れた惑星を覚えるために、RAC検索はnのオーダーまたはlog nのオーダーである巨大なデータベースを検索しなければなりません。Webモデルでの決定論的ハッシュ化は、科学的に異なるアプローチ、プロシージャル圧縮を提供します。

それは何でしょうか。世界、すべてのメモリを保存する代わりに、モデルは凍結されたシードを使用して、計算を使用して世界を再導出します。

科学的含意は簡単です。これは、無限の環境では、計算がメモリの代替となることを示唆しています。エージェントは、宇宙の生成関数自体を理解していれば、宇宙を覚える必要はありません。

さらに、生成AIにおける一貫性と多様性のトレードオフを解決するという追加のボーナスポイントがあります。SorraやGenieのような拡散モデルについて考えてみてください。高い多様性、低い一貫性。ゲームエンジン、Unity、Unreal、高い一貫性、低い多様性。

この新しいWebモデルは条件付き独立構造を作成します。このプレプリントは、状態ダイナミクス、物理法則、遷移と呼びましょう、を知覚レンダリング、すべての想像、すべてのストーリーテリングから本当に分離できることを示しています。

もちろん、それらは相互に依存していますが、インテリジェントな方法で。物理分布を効果的に直接デルタ決定論的に保ちながら、同時に知覚分布を本当にクリエイティブにし、高いエントロピーを持つことを許可できます。美しい。

LLMは素晴らしいストーリーを提供しています。現在、ほとんどのエンドツーエンド世界モデルは、1つのネットワークで両方の分布を同時に学習しようとしています。これが著者が教えてくれる理由の1つであり、それらのモデルが一貫性に苦しむ理由です。

このプレプリントの著者は、これらの2つの分布をアーキテクチャ的にもつれを解くことは、それらを共同で学習しようとするよりもはるかに効率的であると主張しています。そして、これは一定の範囲まで真実だと思います。

TypeScriptインターフェースの単純なトリッキーは、実際には任意のニューラルシンボリックアーキテクチャのトロイの木馬です。構造が生成の敵ではないことを示しています。なぜなら、私たちが達成するものは美しいからです。

LLMの出力空間を実行可能なコードに制約することができます。10億パラメータのビデオAIがまだできないことを達成します。無限で一貫性があり、論理的に健全な長期シミュレーションです。これがビデオAIに影響を与えることになるのはすぐにわかります。

物理エンジンの複雑さ

物理法則に戻りましょう。なぜなら、この物理エンジンをどれだけ複雑にできるかに本当に興味があるからです。パラメータのリストだけですか、それとも本当にクレイジーになれますか。物理レイヤーは単なるTypeScriptです。

ロジックレイヤーに直接TensorFlowをインポートすることさえできます。つまり、アーキテクチャは物理エンジン自体を提供しません。単にそれをラップするだけです。コードがどれほどシンプルまたは複雑であっても、ほぼすべての物理エンジン、数学的計算、スーパーコンピュータシミュレーションをインポートまたは含めることができると思います。

さあ、ここまでです。なんて素晴らしいアイデアでしょう。なんて美しいアイデアでしょう。しかし、未来にとってなんて強力なアイデアでしょう。なぜなら、今、物理学と想像力のこの分離により、権力の分離があるからです。

想像力は本当にLLMの領域です。AIは運転できます。ストーリーラインを想像できます。新しいキャラクター、美しい、新しい船の形をデザインできますが、常に私たちのロジック、私たちの物理構造の上に構築しなければなりません。

クレイジーになって物理学を再定義することはできません。物理学に縛られています。しかし、したがって、その完全な探索空間、GPTシステムの解空間は大幅に削減され、したがって幻覚が少なくなり、はるかに優れたストーリーラインになることを願っています。

今日は以上です。これは2025年最後のビデオです。すべての視聴者、すべての購読者、すべてのチャンネルメンバーに感謝します。ここにいてくれて本当に素晴らしかったです。2026年を楽しみにしています。すぐにお会いできることを願っています。

コメント

タイトルとURLをコピーしました