世界モデルは汎用人工知能の鍵となるか？

ハーバード大学の研究チームが発表した論文を中心に、大規模言語モデル（LLM）が訓練データから世界モデルを発達させる能力について詳細に検証している。研究では軌道予測に特化した変換器モデルが1000万の太陽系データで学習しても、重力法則といった一般化された物理学原理の理解には至らないことが明らかになった。この結果は次世代AI開発において、従来のスケーリング手法と世界モデルアプローチの根本的な違いを浮き彫りにしており、汎用人工知能実現への道筋について重要な示唆を与えている。

Are World Models the Key to AGI?

A groundbreaking Harvard study trained AI on 10 million solar systems and found it perfectly predicted orbits but comple...

世界モデルと汎用人工知能への道筋
世界モデルの本質と重要性
Yann LeCunの世界モデル理論
異なるAI発展パラダイム
テスト時計算と推論モデル
世界モデル研究の最新動向
ハーバード研究の詳細分析
研究結果と批判的検討
世界モデル技術の実用展開

世界モデルと汎用人工知能への道筋

今日はな、LLMが訓練データから世界モデルをどう発達させるか、せえへんか、そんで世界モデルが汎用人工知能への進歩にどんだけ重要なんか、そういう話をしていくで。世界モデルってもんにあんまり馴染みがない人らにとっては、ええ入門になるはずや。AI Daily Briefへようこそや。

世界モデルっちゅうのは、この番組で何回か話したことあるけど、技術的な深さ、特に入門的な観点からは、そんなに詳しくやってへんかったんよな。最近、ハーバード大学から出たおもろい論文について、めっちゃ議論されとるんや。世界モデルについての論文で、特に基盤モデルが訓練セットから世界モデルを発達させることができるんかどうかっちゅう話やねん。

もうちょっとええ言い方すると、論文の要約そのものを引用したほうがええかもしれんな。研究者らはこう書いとる：基盤モデルは、シーケンス予測がより深いドメイン理解を明らかにできるっちゅう考えに基づいとる。ケプラーの惑星運動予測が後にニュートン力学の発見につながったんと同じようにな。

せやけど、これらのモデルが本当により深い構造を捉えとるかどうかを評価するんは難しいことなんや。俺らは、基盤モデルがある仮定された世界モデルから生成された合成データセットにどう適応するかを調べる、基盤モデル評価の技術を開発したんや。この技術は、基盤モデルの帰納的バイアスが世界モデルと一致するかどうかを測定するもんで、俺らはこれを帰納的バイアス・プローブと呼んどる。

複数のドメインにわたって、俺らが見つけたんは、基盤モデルは訓練タスクでは優秀な成績を収めることができるけど、新しいタスクに適応する際に、根底にある世界モデルに向けた帰納的バイアスを発達させることができへんっちゅうことや。特に、軌道軌跡で訓練された基盤モデルは、新しい物理タスクに適応する際に、一貫してニュートン力学を適用することができへんかったんや。

さらなる分析で明らかになったんは、これらのモデルがタスク固有のヒューリスティックを発達させたかのように振る舞い、それが一般化に失敗するっちゅうことや。基本的に、研究者らがここで理解しようとしとるんは、LLM（これは簡単に言うたら、訓練データの文脈で次に来るトークンを予測する予測機械や）が、そういう予測から、自分らが動作する世界の理解に対する一般化されたアプローチを採用することに移れるんかどうかっちゅうことやねん。

具体的には、基盤モデルが軌道軌跡についての訓練データに基づいて軌道軌跡を予測できるだけやなくて、それらの軌道軌跡の根底にある物理原理を実際に理解して、その物理学を他のタイプの問題ドメインに適用できるような方法で理解できるんかどうかを把握しようとしとるんや。

世界モデルの本質と重要性

言い換えると、この特定の実験で彼らが関心を持っとる世界モデルっちゅうのは、軌道の根底にある物理学やねん。そんで、基盤モデルが事前にそれらについて知らんでも、その物理学を把握できるかどうかを見ようとしとるんや。これ全部が研究者の専門用語みたいに聞こえるかもしれんけど、これが実際にはLLMがどう発達していく可能性があるか、どの道筋が大きな進歩を生み出す可能性が最も高いかを理解するんに、かなり重要やっちゅうことを納得させたいんや。

そんで、モデルが実際に俺に何ができるんかにしか興味がないビジネスパーソンにとっても、これはまだ重要やと俺は主張するで。なぜなら、次に解放される使用事例の多くは、既存のLLMスケーリング手法か、この世界モデルへの焦点のような根本的に新しい手法のどちらかから来る必要があるLLM能力の進歩を必要とするからや。

そういうわけで、今俺らが世界モデルの会話をしとる文脈やねん。せやけど、世界モデルって実際に何を意味するんか、もうちょっと深く掘り下げてみようや。

AIにおける世界モデルっちゅうのは、外部環境の内部表現を作成するシステムのことを指すんや。それによって、観察、行動、そして今話しとった物理学、因果関係、空間関係のような根底にある動力学に基づいて、将来の状態をシミュレートして予測することができるんや。

これらのモデルは、人間が結果を予測するために無意識に心的モデルを構築する方法からインスピレーションを得とる。例えば、野球選手がすべての可能性を意識的にシミュレートすることなく、ピッチの軌道を予測するようなもんやな。ちなみに、この例は俺らがすぐに話す予定の論文から来とるんや。

本質的には、それらはAIの現実の内部地図として機能して、実世界での試行錯誤だけに頼るんやなくて、シミュレートされた空間でシナリオをリハーサルすることによって、不確実性を扱い、出来事を予測し、より効率的に決定を下すことを可能にするんや。

俺が言うたように、この概念は2018年のDavid HaとJürgen Schmidhuberの論文で始まったんや。三つの主要コンポーネントからなるフレームワークを導入したんやな。一つ目は、画像のような高次元感覚入力をコンパクトな潜在表現に圧縮するビジョンモデル、二つ目は過去の情報に基づいて将来の潜在状態を予測するメモリモデル、三つ目はこれらの表現を使って行動を決定するコントローラーモデルや。

彼らの実験では、このアーキテクチャがカーレーシングシミュレーションに適用されて、エージェントが内部モデル内で幻覚を見て計画することによってトラックをナビゲートすることを学んだんや。世界モデルがドリームのようなシミュレート環境でコントローラーを訓練してパフォーマンスを向上させる方法を実証したんやな。

Yann LeCunの世界モデル理論

世界モデルの最大で最も声の大きい支持者の一人が、MetaのチーフAI科学者であるYann LeCunや。彼は約1年前にLinkedInで世界モデルについて非常に技術的な定義を書いたんや。

せやけど、ちょっとだけ簡単にしてみると、世界モデルは通常、入力（例：観察と行動）を状態表現に処理するエンコーダーを含み、その後に次の状態を予測する予測器が続く。多くの場合、未知のものを説明するために潜在変数を組み込んで、単一の予測やなくて、もっともらしい結果の分布を生成するんや。

訓練は、ビデオや画像などの実世界データの大規模データセットで行われ、拡散モデルやTransformerのような技術を使って動力学を学習するんや。現代の変種では、これをテキスト、画像、ビデオのようなマルチモーダル入力と、予測ビデオや3D空間として環境をシミュレートする出力に拡張しとる。

支持者にとって、世界モデルは複雑で不確実な設定での推論、計画、適応を可能にするから、AIを人間のような知能に向けて進歩させるのに重要やねん。LeCunは言うた：「俺らは機械に世界を理解させる必要がある。物事を記憶できて、直感を持って、常識を持って、人間と同じレベルで推論して計画できる機械をな。」

彼はまた、俺らがすぐに行く場所をほのめかして付け加えた：「最も熱狂的な人らから聞いたかもしれんことにもかかわらず、現在のAIシステムはこれらのどれもできへん。」

これが俺らを次の質問に導くんや：世界モデルは、LLMをスケーリングして次のレベルの高度な人工知能、汎用人工知能、何と呼びたくても、それを達成するための事前訓練やテスト時計算スタイルのアプローチとどう違うんか。

異なるAI発展パラダイム

短い答えは、これらは根本的に異なるアプローチやっちゅうことや。言い換えると、LLMを進歩させるための異なるパラダイムやねん。事前訓練とテスト時計算は、主に自己回帰的次トークン予測である現在のLLMアーキテクチャ内で計算とデータを最適化することに焦点を当てとる。一方、世界モデルはより深い世界理解を可能にするための根本的なアーキテクチャの変化を強調しとるんや。

事前訓練スケーリングは、事前訓練段階でモデルパラメータ、訓練データ量、計算リソースを増やすことによってLLMパフォーマンスが予測可能に改善されるっちゅうスケーリング法則仮説に依存するアプローチや。GPT-4やGrokのようなモデルは、パターンを学習するために膨大なデータセットで訓練されて、ゼロショット推論やフューショット学習のような新興能力を可能にしとるんや。

汎用人工知能に対するこのアプローチの強みは、データから広範な知識と一般化を構築して、モデルが言語、数学、創造的タスクを処理できるようにすることや。スケーリングは今まで重要で、率直に言って急速な進歩を推進してきて、期待される通りのことが起こる、つまり大きなモデルがベンチマークで小さなモデルを上回るっちゅうことやねん。

問題は、収穫逓減の兆候が見えとることや。基本的に、データ品質の問題、バイアス、そして俺らがまだ把握しようとしとる他の要因群のせいで、大幅な計算増加にもかかわらず、パフォーマンスの停滞に達しとるんや。Yann LeCunのような批評家は、基本的にこの道筋は汎用人工知能にとって根本的に欠陥があって、人間レベルの知能を生み出すことは決してできへんと論じとる。

彼はかなりはっきりと言うた：「人間レベルのAIに興味があるなら、LLMには取り組むな。」

もちろん、俺らがこれらのパフォーマンス停滞について話し始めたんは去年の秋やった。そんで、推論モデルと関連付けられた新しいアプローチが、みんなが話しとるもんになり始めたんや。

テスト時計算と推論モデル

それがテスト時計算、または推論時スケーリングで、事前訓練からモデル使用または推論中により多くの計算を割り当てることに焦点を移したんや。技術には、モデルが中間ステップを生成する思考連鎖プロンプティング、複数の道筋を探索するための思考の木、サンプリングや投票による自己一貫性、適応ループ、基本的にモデルが問題についてより深く「考える」ことを可能にする戦略が含まれ、場合によってははるかに大きな事前訓練モデルを上回ることができるんや。

汎用人工知能に達することに関するテスト時計算の強みは、再訓練なしに推論、エラー修正、適応性を向上させることで、数学やコーディングのような複雑なタスクに適しとることや。せやけど、これらのモデルが数分間、場合によってはそれより長い時間考えることを考えると、まだいくつかの課題がある。計算コストが高いんや。

それはまだ根底にある事前訓練モデルに依存しとるし、因果関係や世界接地の欠如のような中核的なLLMの欠陥に対処してへん。つまり、このアプローチでさえ、曖昧性、長文脈推論、実世界の汎用人工知能アプリケーションのスケーラビリティに苦戦する可能性があるんや。

一方、世界モデルは、俺らが議論したように、観察、行動、物理学、因果関係に基づいて将来の状態を予測できる環境の内部シミュレート可能な表現を作成するんや。基本的に、俺らが結果を精神的にシミュレートする人間認知のインスピレーションを利用しとるんや。

これらのアプローチは、ジョイント埋め込み予測アーキテクチャ（JEPA）のようなアーキテクチャを使用し、モデルが生成的でない方法で将来の入力を予測することによって潜在表現を学習するんや。ここでの強みは、世界モデルが常識を可能にし、場合によっては不確実性と長期計画を処理できることで、LeCunのような人らがそれらを人間レベルAIの欠けているリンクと見なす理由やねん。

せやけど、それらにも制限がある。ビデオのようなマルチモーダルデータでの訓練に対する高い計算要求がある。シミュレーションでの幻覚のリスクがあるし、これらのモデルを実世界の動力学にスケーリングする課題もある。それらはまた、率直に言って新しいデータセットと新しいアーキテクチャを必要とするLLMスケーリングよりも成熟してへん。

世界モデル研究の最新動向

これが世界モデルの背景と、俺らの現在の主流LLMアプローチとの違いや。今、世界モデルでは多くの興味深い実験が行われとる。例えば、Fei-FeiLiのWorld Labsは、12月に単一の画像から3D世界を生成できるAIシステムを共有した。worldlabs.ai/blogに行けば、実際にクリックして実験することができるで。

より正確な物理シミュレーションの例も見てきた。例えば、このビール瓶を流れ落ちる結露の水滴みたいなもんや。そして、主要なラボがV3のような高度に有能なビデオモデルを開発することによって世界モデルに後ろ向きに取り組んでいるとさえ示唆する人もおる。

これは、この論文についての会話に特に関連しとると思うねん。6月に、Ethan Molickは書いた：「AIビデオツールは、根底にある物理エンジン、世界モデルを持たずに物理学をうまくシミュレートできるように本当に見えるが、完璧やない。」

そういうわけで、俺らをこのハーバード論文に戻してくるんや。そして、それを理解する最良の方法は、実際に研究者の一人であるKavan Vafaの長いTwitterスレッドを掘り下げることやと思う。

ハーバード研究の詳細分析

基本的に、Kavanと彼の仲間の研究者らが興味を持ったんは、より限定された訓練セットから一般化された世界モデルを得ることができるかどうかやった。言い換えると、正確な予測を行うことができるよく訓練されたモデルが、その知識を世界の一般的理解に外挿できるんかどうかやねん。

Kavanは書いとる：「一つの結果が物語を語る。1000万の太陽系で訓練されたTransformerは惑星軌道を完璧に予測するが、重力法則は台無しにする。」基本的に、Vafaらは1000万の異なる太陽系の軌道からのデータを使って小さなAIモデルを訓練した。これは惑星軌道について予測を行う能力に関して、まさに期待される結果につながったんや。せやけど、それらの予測を重力の一般理論や他の既知の物理モデルに一般化する能力は全くなかったんや。

Kavanは書いとる：「俺らの論文は二つの質問に答えることを目的としとる。一つ、予測と世界モデルの違いは何か？二つ、この区別をテストできる直接的な指標はあるか？」

興味深いことに、定期的な聞き手なら知っとると思うが、これが俺が興味を持ったところや。彼は続ける：「俺らの論文はAIについてやが、これらの質問に答えるために400年前に戻ることが有益や。」俺の内なる歴史専攻の興味を考えてみい。

Kavanは続ける：「おそらく最も影響力のある世界モデルは、俺らがニュートンの重力法則を持つ前に、予測モデルとしてスタートした。俺らはケプラーの惑星軌道の予測を持っとった。ケプラーの予測がニュートンの法則につながったんや。ほな、軌道にしか関心がないなら、ニュートンは何を加えたんか？ニュートンは大して加えへんかった。彼の法則は同じ予測を与える。せやけど、ニュートンの法則は軌道を超えて行った。同じ法則が振り子、砲弾、ロケットを説明する。これが俺らのフレームワークを動機づけとる。予測は一つのタスクに適用され、世界モデルは多くに一般化する。」

ちなみに、これは区別について考える方法の本当にいい簡潔な要約やと思うねん。

Vafaと彼の研究者らが見つけたんは、モデルが軌道についての知識を他の関連する物理問題に転送できへんかったことや。ニュートンの一般的な重力法則を生み出すことに失敗し、代わりに重力が異なる銀河間で異なって働くと信じているように見えたんや。

Vafaはまた、訓練セットにニュートンの法則を持つ主要な商用推論モデルもテストした。ニュートンの法則を適用するように言われずに軌道データの系列を与えられた時、それらは一般化された理論を発達させて成功した予測を行うことに失敗したんや。

Vafaは、これらのモデルの帰納的バイアスを明らかにしようとしとった。つまり、予測を行うために使用される仮定のデフォルトセットをテストすることや。彼は、基盤モデルの帰納的バイアスが与えられた世界モデルに向いてへんなら、何に向いとるんかと尋ねた。

一つの仮説は、モデルが異なる状態に属するが同じ合法的な次のトークンを持つシーケンスを混同するっちゅうことやった。この理論は、オセロゲーム用のボードを使ってテストされた。Vafaが訓練したモデルは、動きの記述に基づいてボードを再構築することができへんかったが、再構築が間違っとっても、しばしば単一の合法的な次の動きを生み出したんや。

軌道予測問題に結び付けると、Vafaは、LLMが二つの状態が共通の次のステップを共有する時に混乱すると示唆しとる。つまり、二つの異なる状態を混同して、予測を不正確にするんや。

研究結果と批判的検討

Vafaは結論した：「一つ、俺らは帰納的バイアス・プローブを提案する。モデルの帰納的バイアスはその世界モデルを明らかにする。二つ、基盤モデルは貧弱な世界モデルで素晴らしい予測を持つことができる。三つ、世界モデルが貧弱な理由の一つは、モデルが類似した許可された次のトークンを持つ異なる状態をグループ化することや。」

本質的に、VafaはTransformerベースのLLMが関連タスクについて予測を行うために転送できる強い世界モデルを持たない、または発達させることができへんと主張しとる。そして、これはLLMが次トークン予測からより一般化された知能に転送する能力の核心を突いているように見える。せやけど、結果がそれが見えるよりもはるかに一般化されてへんかもしれんっちゅう事実を除いてや。

Cognitive Revolution podcastのNathan Lebenzは、まさにこのことを論じる長いLinkedIn投稿を書いた。『プリンセス・ブライド』にウィンクとうなずきで、彼は書いた：「あんたはこの論文を共有し続けとるが、それがあんたが思うとる意味やとは思わへん。」

まず、彼は彼らが何をしたかを説明し、その後書いた：「問題は、最初の実験が失敗した時に何をするかや。AI能力のフロンティアを押し進める会社では、もう一度やってみるやろう。この場合、著者らは勝利を宣言し、アイザック・ニュートンを引用して彼らの『世界モデルなしの世界モデル』を宣伝しとる。」

重要な間違いは単純や。いくつかの失敗した実験から、何かが不可能やっちゅう結論に一般化することはできへん。基本的に、彼が言うとるんは、これがラボの文脈やったら、軌道訓練データから物理モデルを一般化することにLLMが失敗することに基づいて一般化された批判を宣言するんやなくて、ラボは特定のデータセットと予測から、より一般化された世界モデルに行く方法があるかどうかを見るために、何か違う方法でもう一度やってみるやろうっちゅうことや。

彼はまた、ここで使用されたモデルとデータセットが小さいことを指摘しとる。彼は書いとる：「軌道力学については、1億900万パラメータのTransformerと20億トークン、現在のフロンティアモデルとデータセットの約11万分の1のサイズを使用した。オセロについては、データセットはわずか770万トークンや。比較として、オセロの動きシーケンスで訓練されたモデルがボード状態モデルを学習することを示した2022年の元の研究は、2000万ゲーム、50倍多いデータの合成データセットを使用した。言い換えると、彼はこれらは実際には基盤モデルではまったくないと言うとる。」

Lebenzは、LLM事前訓練からの一般化された創発的世界モデルを示した他の論文をいくつか挙げたが、それらはすべてより大きなモデルかより多くの訓練データのどちらかを必要とした。

論文を蒸留すると、彼はモデルがシーケンスの次のトークンを予測できることは、それが堅牢な世界モデルを持っとることを意味せえへんと言うた。それはその通りや。せやけど、それらが世界モデルを発達させることができへんと信じる間違いは犯すなや。それらは明らかにできるし、実際にしとるんや。

世界モデル技術の実用展開

最終的に、あんたが見てきたように、次のAIの解放に到達する正しいアプローチが何なんかについての評決は今のところ出てへん。この分野は新しいアーキテクチャがどのようなもんであるべきかについて単一の答えに落ち着いてへん。明らかなんは、世界モデルアプローチで本当に興味深いことが起こっとるっちゅうことや。

Fei-FeiLiのWorld Labsは、去年のそれらの初期デモ以来、大きな歩みを遂げた。Andreessen HorowitzのMartin Casadoは最近、それが従来の3Dレンダリングエンジンに接続された時に何ができるようになったかを見せた。

そして、世界モデルが汎用人工知能への正しい道筋やないとしても、それが何を意味するにせよ、転送可能な知識の問題を解決することは、依然として巨大な解放やろう。簡単な例として、モデルが理解を一つの文脈から別の文脈に転送できるから、メディア生成がはるかに一貫したものになることができるや、A16ZのJustine Mooreは解放されるであろうものに熱心で、投稿しとる：「これが夢や。画像入力を取って、あんたが探索して相互作用できる環境をレンダリングするビデオ世界モデルや。それはあんた自身のLOFIガールのような一定のビデオストリームかもしれんし、飛び込んでキャラクターとしてプレイすることもできるかもしれん。」

今、彼女はこれが現代のビデオモデルで既に可能やと信じとるが、多くの一貫性ハックを必要とする。言い換えると、モデルが世界の転送可能な理解を持っとったら、この種の製品ははるかに実用的やろうっちゅうことや。

生成ビデオモデルがより広い世界モデルへの裏口なんかどうかっちゅうEthan Molickによって提起されたこの質問に関しては、今年初めのGoogle研究論文が、答えはノーやっちゅうことをある程度論じとる。

研究チームが見つけたんは、ビデオモデルは物理的現実について本当に学習せえへんっちゅうことや。それらは視覚的リアリズムについて学習するだけや。それによって信じられるビデオを作ることができるが、他のドメインで現実的な予測を行うのを助けることはほとんどせえへん。

それでも、それは超エキサイティングな分野で、俺にとってはほぼ必然的に何らかの方法でAIの進歩に大きく貢献する可能性があると感じられるもんや。

そして、もちろん、俺らはここでそれをカバーし続けるで。うまくいけば、今あんたはこの論文とそれを取り巻く議論をもうちょっとよく理解するだけやなくて、世界モデルとそれらがLLMスケーリングの他のアプローチとどう関係するかを理解するためのより良いフレームワークを持っとるはずや。

今のところ、今日のAI Daily Briefはこれで終わりや。次回まで、平和を。