JEPA:AGIへのもう一つの道 / JEPAの全体像を俯瞰する

大規模言語モデルの隆盛の陰で、機械が世界を真に理解するための別のアプローチが着実に成長を続けている。JEPAは表面的な生成ではなく潜在空間での予測を通じて世界の構造を学習する手法であり、静止画像認識から動画理解、行動予測、因果推論へと段階的に進化してきた。この技術系統を一つの地図として俯瞰すると、知性の最適化対象に関する根本的に異なる思想が浮かび上がる。生成能力の拡張だけでは到達できない領域、すなわち物理世界での推論・計画・行動が求められる未来において、JEPAファミリーが示す軌跡は極めて重要な意味を持つのである。

JEPA: The Other Path to AGI / Let’s Map those JEPAs out!

What would it actually take for a machine to understand the world?Even as we’ve been distracted by the immense success o...

機械による世界理解とは何か
JEPAという地図の意義
生成ではなく表現予測へ
JEPAファミリーの進化
静止画から動的理解へ
モダリティの拡張と行動予測へ
世界モデルへの明確な移行
訓練の安定化とLeJEPAの重要性
因果性と長期計画への進化
LLMとの関係性
ハイブリッドの可能性
JEPAという地図が示すもの

機械による世界理解とは何か

AI界隈に十分な時間を費やしていると、誇大広告やプロダクトローンチ、ベンチマーク、推論に関する議論の下に、まだ解決されていない古い問いが横たわっていることに気づきます。機械が世界を理解するには実際に何が必要なのでしょうか。より強い意味での理解、つまり何が存在し、何が変化し、何が何を引き起こし、次に何が起こりそうかについての内部モデルを形成することです。

この問いは決して消え去ったわけではありません。大規模言語モデルの驚異的な成功によって一時的に影が薄くなっただけなのです。しかしそれと並行して、知性は何の上に構築されるべきかについて全く異なる考え方を持つアイデアのファミリーが着実に成長してきました。

そして今これが興味深いのは、JEPAがもはや一つの提案や一つの論文、一つの研究グループではなくなったからです。それははるかに示唆に富む何かへと変貌を遂げました。Yann LeCunはこれをカタログと呼びましたが、それはそれで正しいのですが、私はカタログという言葉ではあまりに受動的すぎると思います。

これらのシステムを実際に並べて配置すると、見えてくるのは地図です。そして地図が有用なのは、方向性を示してくれるからです。

JEPAという地図の意義

こんにちは、アテンション・スパンへようこそ。私の名前はケニアです。今日はJEPAの地図を一緒に歩いてみたいと思います。なぜなら、それは今のAIにおける最も明確な代替軌道の一つを明らかにしており、ほとんどの人が認識しているよりもはるかに重要なものだと考えるからです。

もしJEPAについて聞いたことがなくても全く問題ありません。ある意味、それがこのエピソードをさらに有用なものにしています。

根底にある意見の相違から始めましょう。今日のAIにおける支配的なパラダイムは生成を中心に構築されています。次のトークンを予測したり、信号を再構成したり、生の空間で何らかの出力を生成するようモデルを訓練します。そしてそれを十分にスケールさせて処理すれば、驚くべき能力が出現し始めます。そしてそれは現実です。そうでないふりをする意味はありません。

LLMがこの分野を変えたのは、それらが機能するからです。

生成ではなく表現予測へ

しかし常に別の見方がありました。もしあなたの目的が世界について推論し、その中で計画を立て、行動でき、最終的には物理的環境や部分的に観測された環境で動作できるシステムを構築することであるなら、表面的な生成は重心として正しくないかもしれません。

ここでJEPAの出番です。JEPAはJoint Embedding Predictive Architectureの略です。そしてそれを理解する最もシンプルな方法はこうです。ピクセルやトークンのような生の出力を予測する代わりに、表現を予測するのです。つまり埋め込み、つまり表面下で重要な抽象的な状態を予測します。

このアイデアは、関連するビューや現在と未来の観測から学習することです。これは重要です。現在または未来の観測から、一方の潜在表現を他方から予測することによって学習するのです。

つまり、何かがあらゆる詳細においてどのように見えるかを再構成するのではなく、システムはそのものについて構造的に重要なことと、それがどのように変化するかを捉えることを学習します。

これは微妙に聞こえるかもしれませんが、実際には目的における深遠なシフトです。生の空間ではなく潜在空間で予測を始めると、あなたはすでに純粋な生成から離れ、世界モデルへと漂流しています。あなたはシステムに世界の状態を学習するよう求めているのであって、単にその可視的またはテクスチャ的な表面ではないのです。

これがJEPAが重要な理由です。それは単なる別のモデルファミリーではありません。知性が何のために最適化されるべきかという問いに対する異なる答えなのです。

JEPAファミリーの進化

もしJEPAがまだ一つの概念的フレームワークに過ぎなかったら、私はこれを地図とは呼びません。アイデアと呼ぶでしょう。しかし2022年の最初のJEPA論文以降、このファミリーは大きく拡大しました。

マイルストーンを見渡すと、非常に明確な進行が見えます。そしてその進行こそが今日のストーリーです。

それはJEPAとH-JEPAから始まります。これらは概念的なルーツです。ここではコアとなる原理がすでに配置されています。表現空間での予測であり、H-JEPAは階層的な視点と複数の時間スケール構造を加えることで、すでに世界モデルと計画を指し示しています。このレベルでは、ファミリーはまだ哲学的および建築的な基礎を築いています。議論の条件を定義しているのです。

次にI-JEPAが登場し、ここでストーリーが具体的になります。I-JEPAは、このフレームワークが自己教師あり学習で一般的になっていた標準的な手作業による拡張パイプラインの一部に依存することなく、強力な意味的画像表現を学習できることを示しました。それはまたスケールもうまくいき、あらゆる建築的方向性にはこうした瞬間が必要です。コミュニティが「なるほど面白いアイデアだ」と言うのをやめて「なるほど、これは実際に真剣なレシピかもしれない」と言い始めなければならない瞬間です。

I-JEPAはJEPAファミリーにとってのそうした瞬間の一つです。

静止画から動的理解へ

しかし本当に重要な部分は次に来ます。なぜならファミリーは静的な視覚にとどまらないからです。この地図における最も明確なパターンの一つは、静的な知覚から動的な理解への移行です。

そしてあなたはすでにMC-JEPAでそのシフトを感じることができます。これはより探索的ですが、依然として意味があります。なぜなら動きとコンテンツの特徴を共同で学習しようとするからです。言い換えれば、ファミリーはすでに世界を凍結した画像の山として扱うのをやめ、進化する何かとして扱い始めようとしているのです。

そしてV-JEPAがその動きを明示的にします。今やモデルは動画から学習しており、AIが画像から動画に移行するたびに、問題は非常に重要な形で変化します。なぜなら時間がシステムに入るからです。動きがシステムに入ります。持続性がシステムに入ります。もはや見た目を認識するだけでは済まされません。遷移をモデル化し始めているのです。そして遷移は静的なカテゴリーよりもはるかに世界の構造に近いものです。

これがJEPAが注目に値すると私が考える理由の一つです。それは知覚のレベルで凍結していません。時間、動き、そして最終的には結果をアーキテクチャに引き込もうと試み続けているのです。

モダリティの拡張と行動予測へ

そしてファミリーはさらに広がります。Audio-JEPAはコア原理が視覚に限定されないことを示します。Point-JEPAと3D-JEPAは幾何学的および空間的データへと拡張されます。

この広がりが重要なのは、これが特別な条件下で画像にのみ機能するニッチなトリックではないことを物語っているからです。彼らの野心ははるかに大きく、ファミリーはモダリティを横断して構造化された予測的表現を学習する一般的な方法になろうとしているのです。

この時点で、少しズームアウトすると、すでに地図が形作られているのが見えます。それは表現学習から始まり、時間性へと移行し、それからエンボディドで空間的な知性にますます関連するモダリティへと拡大します。

しかし地図の次の転換点は、本当に賭け金を変えるものです。Act-JEPAはJEPAを知覚から制御へと押し進めます。それは行動シーケンスと潜在観測シーケンスを共同で予測します。つまりモデルはもはや「世界はどのように見えるか」だけを問うのではありません。「エージェントがその中で何かをしたら何が起こるか」を問い始めるのです。

これは私たちにとって非常に重要です。同じ潜在予測フレームワークで行動と結果をモデル化し始めると、あなたはもはや受動的な観察者だけを構築しているのではありません。制御アーキテクチャにはるかに近い何かへと移行しているのです。

ここでJEPAは表現学習だけでなく、ポリシー学習、計画、強化学習、ロボティクス、一度きりの出力を生成するのではなく時間をかけて動作しなければならないエージェントシステムにとって関連性を持ち始めます。

世界モデルへの明確な移行

そしてこれもまた、「世界モデル」というフレーズが非常に文字通りに聞こえ始める点です。なぜならここからファミリーはV-JEPA 2へと移行し、JEPAが理解、予測、計画のための明示的な世界モデルとなり、未見の環境でのゼロショットロボット計画と視覚的サブゴールを実現するからです。

V-JEPA 2では、アーキテクチャが公然と世界での計画の基礎として位置づけられています。そしてそれを手にすれば、地図全体のより広い意図がはるかに明確に見えてきます。それは世界を見ることから、世界を追跡することへ、そして世界で行動することへと移行しようとしているのです。

訓練の安定化とLeJEPAの重要性

ほぼすべての有望なモデルファミリーには常にある地点があります。エキサイティングなデモと大胆な野心が、より厄介な質問に道を譲らなければならない地点です。その質問とは、これは実際にクリーンに、安定して、スケールで訓練できるのか、それとも壊れやすいレシピに包まれた良いアイデアのままなのか、というものです。

ここでLeJEPAがストーリーに登場し、私はLeJEPAがこの地図上で最も重要なマイルストーンの一つだと考えています。たとえそれが最も派手なものでなくても。

LeJEPAは理論と訓練のクリーンアップ層です。それはより原理的な目的を導入し、等方性ガウス埋め込みを主張し、JEPA訓練をより安定させてヒューリスティックの山への依存を減らすための正則化器としてCRAGを追加します。

そしてなぜそれがそれほど重要なのでしょうか。アーキテクチャファミリーがエレガントだからといって基盤になるわけではないからです。他の人々がそれを訓練し、再現し、拡張し、実際に依存できるようになったときに基盤になるのです。そしてもしJEPAがいくつかの論文といくつかの研究室を超えて重要になるつもりなら、LeJEPAはそれが必要とするクリーンアップ層なのです。

因果性と長期計画への進化

そしてその地点を過ぎると、ファミリーの新しいメンバーは方向性を示すシグナルとして読みやすくなります。

Causal-JEPAはオブジェクト中心で因果的に意味のある表現へと押し進めます。これが興味深いのは、AIにおける本当の困難の多くは相関を認識することではなく、介入と計画に有用な構造を区別することだからです。

V-JEPA 2.1は表現品質をさらに改善します。World Modelはよりクリーンなスタイルの世界モデルを提示し、生のピクセルからエンドツーエンドで訓練されます。

Think-JEPAは、JEPAスタイルの世界モデルと視覚言語モデルから派生した意味的思考経路を組み合わせることで、より長い地平線の推論へと押し進めます。

繰り返しますが、これを孤立した論文として読めば一つの印象を得ますが、地図上の点として読めば別の印象を得ます。地図はかなり一貫したアークを示唆しています。

まず良い潜在構造を学習する。次に時間経過の変化を学習する。次に行動と結果を学習する。次に訓練スタックを安定化させる。次に因果的理解と長期地平線計画へと押し進める。

これは実際の地図です。これが道筋です。あなたはAIの一つの分支が異なる知性の理論へと成長しようとしている様子を観察しているのです。

LLMとの関係性

これはLLMに代わるものなのでしょうか。これは人々が通常きちんとした対決を望む地点です。なぜなら今ではすべてのAIストーリーが「どちらが勝つか」へと平板化されるからです。しかし私はそれが単に間違ったフレームだと思います。

JEPAが興味深いのは、LLMが突然時代遅れになるという劇的な置き換えナラティブを与えてくれるからではありません。これは真剣な分析ではありません。

LLMには膨大な実用的利点があります。インフラストラクチャ、エコシステム、開発者のマインドシェア、商業的展開、そしてその背後にある驚異的な量の最適化があります。それらは改善も続けています。異なるアーキテクチャファミリーがより世界中心的な目的を持っているからといって、そのどれもが消えるわけではありません。

同時に、これら二つの道筋が同等であるふりをする理由もありません。それらは異なる本能を中心に組織されています。

LLMの道筋は次トークン予測をスケールさせ、その上にメモリ、ツール、スキャフォールド、そして強化学習を重ねます。JEPAの道筋は予測的な潜在構造から始まり、世界モデリングを副作用ではなく中心として扱います。

これらは汎用知能が何を必要とするかについての異なる賭けです。そしてもしAIの未来がロボティクス、私たちはそれが起こっているのを見ていますが、エンボディドシステム、シミュレーション、計画、そして部分的に観測された環境で動作する自律エージェントにより重く傾くなら、より強い世界モデリング事前分布を持つアーキテクチャがより説得力があるように見え始めます。

それは自動的に彼らを勝者にするわけではありません。ただ彼らを非常に関連性のあるものにするだけです。ただより多くの研究が必要です。

ハイブリッドの可能性

そして実際、より妥当な結果の一つは収束です。生成的インターフェース、言語事前分布、意味的抽象、潜在世界モデル、そして行動計画のすべてが、ぎこちないながらも強力な方法で一緒に重ねられるハイブリッドになる可能性があります。Think-JEPAはすでにその方向を示唆しています。

ですから重要な質問は「LLMを打ち負かすか」ではありません。重要な質問は、人々がAIにますます求めている能力が生成だけでうまく提供できるのか、それともそれらが世界をより明示的にモデル化するアーキテクチャへとこの分野を押し戻すことになるのか、ということです。

JEPAという地図が示すもの

ですからあなたがこのJEPAの地図を見るとき、私はそれを暗記すべき略語の山として扱ってほしくありません。あなたはそれをJEPAのアルファベットと呼ぶこともできます。もちろん、カタログと呼ぶこともできます。

しかし私はあなたにそれを、AIにおける異なる軌道への最も明確な窓、最も明確な地図として扱ってほしいのです。それは原理としての潜在予測から始まります。それは視覚へ、次に動画と動きへ、次にモダリティを横断して、次に行動へ、次に世界モデルへ、次により安定した理論へ、次に因果性とより長い地平線の計画へと移行します。

これは非常に具体的なパターンです。そしてこのファミリーが中心的になるかどうかにかかわらず、それはすでにAIの未来について重要な何かを私たちに語っています。

それは私たちに、この分野の成長する部分にとって、流暢な生成はストーリーの終わりではないと語っています。より困難な目的は、世界そのものの構造を学習することなのです。

そしてそれが、JEPAがあなたの注目に値すると私が考える理由です。

さて、ご視聴ありがとうございました。これについて議論しましょう。コメントを残してください。最も興味深い発展は何か、そしてAIの未来がどのように展開すると思うかを残してください。ありがとうございました。