ヤン・ルカンのLLMに対する10億ドルの賭け

AI研究
この記事は約29分で読めます。

AIの世界的権威であるヤン・ルカンが、現在主流の大規模言語モデル(LLM)とは異なる、JEPA(Joint Embedding Predictive Architecture)と呼ばれる新たなAIアーキテクチャに10億ドルの投資を行っている背景と、その技術的仕組みについて解説する。自己教師あり学習の歴史から、画像や動画データにおける生成モデルの限界、そして世界モデルの構築に向けた合同埋め込みアプローチの可能性までを詳しく掘り下げる。

Yann LeCun's B Bet Against LLMs
Apply to join Hudson River Trading: Labs Book:

生成モデルに代わる新たなアプローチ

それでは、またしてもシリコンバレーで多くの敵を作ってしまいそうな、物議を醸す発言をさせてください。

AIの伝説的人物であるヤン・ルカンは、AIに対する全く新しいアプローチを追求するために10億ドルの資金を集めました。大規模言語モデルとは異なり、ルカンのアプローチは言語を基盤とせず、生成型でもありません。設計上、テキストや画像、動画を出力することはないのです。その代わりに、ルカンはJEPAを提唱しています。JEPAは単一のAIモデルではなく、AIモデルを訓練するための代替的なアーキテクチャ、あるいはフレームワークです。AIや機械学習において成功を収めている多くのアプローチは、ある入力Xが与えられたときに、ある出力Yを予測するようにモデルを訓練します。大規模言語モデルには入力テキストXが与えられ、次に続くテキストYを予測するように訓練されます。画像分類モデルには入力画像Xが与えられ、対応するラベルYを予測するように訓練されます。しかしJEPAはそのような仕組みではありません。代わりに、入力Xと出力Yはそれぞれエンコーダーと呼ばれるモデルに渡されます。これらのエンコーダーは、しばしば埋め込みと呼ばれるベクトルや数値の行列を返します。そこから、プレディクターと呼ばれる3つ目のモデルが、Xの埋め込みからYの埋め込みを予測するように訓練されるのです。

なぜこれがAIシステムを構築する上でより優れた方法となるのでしょうか。JEPAや世界モデルに基づくアプローチは、いつの日かLLMに取って代わると思いますか、それともこれらは異なる問題を解決しているのでしょうか。

最初は異なる問題を解決することになるでしょう。しかし最終的にはLLMに取って代わるはずです。LLMは言語を操作することには非常に長けていますが、基本的にはそれ以外のことは何もできませんからね。言語自体が推論の基盤となっているような領域では非常に優れています。

生成的な言語アプローチを主流とするAIと比較して、JEPAは合同埋め込みアーキテクチャという別の道を歩んでいます。興味深いことに、ルカンはこれら両方のアプローチの初期段階で重要な役割を果たしました。この全2回のシリーズの第1部では、JEPAに至るこの代替の道筋を探ります。なぜヤンが、言語において勢いを増していたまさにその時に生成アーキテクチャから離れたのかを掘り下げ、何年もの間、合同埋め込みアーキテクチャを悩ませてきた表現の崩壊という問題に対するヤンの画期的な解決策について探求します。そして最後に、JEPAのアーキテクチャ自体を詳しく見ていきます。第2部では、JEPAの実装に踏み込み、これらのモデルがLLM主導のアプローチと比べて実際にどうなのかを確認します。

深層学習と自己教師あり学習の台頭

ヤン・ルカンは1980年代にすでにこの革命の到来を予見していました。AI分野の大部分が、データから学習するのではなく明示的にプログラムされたエキスパートシステムの構築に忙殺されていた当時、ヤンは畳み込みニューラルネットワークを開発しました。それから25年後、深層学習が台頭し、現在のようなAIにおける支配的な地位を確立し始めたとき、ブレイクスルーとなった深層学習モデルのAlexNetは、ルカンが1990年代に開発した畳み込みネットワークと驚くほど似ていたのです。しかし、2010年代を通じて深層学習が勢いを増し続けるにつれ、ルカンや他の研究者たちは、このAIへのアプローチがいかにラベル付きの訓練データに依存しているかということにますます懸念を抱くようになりました。AlexNetは、膨大かつ細心の注意を払ってラベル付けされたImageNetデータセットを用いて、人間のアノテーターが各画像に付与したラベルと一致するようにモデルを訓練する教師あり学習によって訓練されました。対照的に、人間の子供は、犬といった概念の非常に一般的な表現を、明示的にラベル付けされた例がごくわずかであっても学習することができます。

手作業でラベル付けされたデータが教師あり学習のボトルネックとなるにつれ、別のアプローチへの関心が高まりました。モデルがラベル付きのデータからではなく、環境との相互作用から学習する強化学習は、Google DeepMindによるAtariのゲームや非常に複雑なボードゲームである囲碁での画期的なパフォーマンスに後押しされ、2010年代半ばにちょっとしたルネサンスを迎えました。同時に、ルカンたちは、データそのものからラベルを取得する自己教師あり学習と呼ばれる変形を含め、ラベルなしのデータから学習する教師なし手法を探求しました。

2015年頃から、私は機械学習コミュニティで少しミームのようになったスライドを見せ始めました。それはケーキのスライドと呼ばれているものです。もし知能がケーキだとしたら、ケーキの大部分は自己教師あり学習であり、ケーキの上のアイシングが教師あり学習、そしてケーキの上のチェリーが強化学習にあたります。当時、人々は強化学習に少し熱狂しすぎていました。だから私は彼らに、あまりにも非効率的であるため、これでは人間や動物の知能の足元にも及ばないだろうと伝えようとしていたのです。そして蓋を開けてみると、自己教師あり学習の成功は、視覚のようなより自然なモダリティよりも、テキストや言語の分野でずっと早く起こりました。

トランスフォーマーとLLMの躍進

ここでヤンが言及しているのは、大規模言語モデルの訓練における次トークン予測の成功のことです。OpenAIは2015年に設立され、当初は強化学習に注力し、OpenAI GymやUniverseを作成して、複雑なビデオゲームで非常に印象的なパフォーマンスを示しました。会社の大部分が強化学習に注力する一方で、イリヤ・サツケヴァーやアレック・ラドフォードらは、Googleが開発した新しいニューラルネットワークアーキテクチャであるトランスフォーマーに関心を持つようになりました。元々は言語翻訳のために設計されたものでしたが、実験を重ねるうちに、ラドフォードは興味深い修正を試みました。トランスフォーマーにある言語のテキストブロックから別の言語のテキストブロックへ翻訳させる代わりに、訓練テキストをシーケンスに分割し、各シーケンスのトークンと呼ばれる最後の小さなテキストの欠片以外のすべてをトランスフォーマーに与え、この最後のトークンが何になるかを予測するように訓練するという、よりシンプルな自己教師ありアプローチに切り替えたのです。

ラドフォードとOpenAIの同僚たちは、7000冊の本からなるかなり大規模なOpenAIの内部データセットでトランスフォーマーを訓練しました。現在私たちが事前学習と呼んでいるこの段階の後に、特定の言語タスクについて人間が作成したラベルを用いた標準的な教師あり学習でモデルをさらに訓練しました。この2段階の訓練アプローチはうまくいき、高校レベルの読解問題などを含む9つの言語ベンチマークで新たな最高水準の結果を打ち立て、個々のタスクごとに設計・訓練されたアーキテクチャや手法を上回りました。ラドフォードのモデルは現在、GPT-1として知られています。GPT-1は当時あまり世間の注目を集めませんでしたが、モデルを人間がラベル付けしたデータへの依存から解放し、前例のないレベルの規模拡大への道を開く大きなブレイクスルーでした。

OpenAIの他の研究者たちは即座にラドフォードの結果の重要性を理解し、チームはこのアプローチに全力を注ぎ、2019年のGPT-2、2020年のGPT-3、そして2022年のChatGPTへと積極的に規模を拡大していきました。2012年にAlexNetは約100万の例で訓練されました。2020年にはGPT-3が数千億の例で訓練されました。そして興味深いことに、新たに出現した訓練パラダイムは、数年前のヤン・ルカンの予測と完全に一致していました。大規模な自己教師あり事前学習フェーズに続いて教師あり学習が行われ、最後に強化学習によって、生の次トークン予測モデルが役立つAIアシスタントへと形成されたのです。

動画予測における生成モデルの限界

しかし、これらの自己教師あり生成アプローチが言語において明確にブレイクスルーを果たした一方で、画像や動画データに関しては状況がはるかに曖昧でした。

私は視覚に関する研究を続けていましたが、当初のアイデアは、動画で何が起こるかを予測するシステムを訓練するために、生成アーキテクチャを使用することでした。つまり、動画で次に何が起こるかをピクセルレベルで訓練しようとしたのです。

GPT-1の成功の何年も前に、ルカンを含む研究者たちは、同じ自己教師あり生成アプローチを動画に適用しようと試みていました。最も単純な実装では、一連の動画フレームからのRGBピクセル値を取り込み、GPTモデルが言語の次のトークンを予測するように訓練されるのと全く同じように、次のフレームのピクセル値を予測するようにニューラルネットワークを構成します。しかし、これらのモデルを使用して次のフレームを予測すると、結果はぼやけたものになります。そしてこのぼやけは、予測の期間が長くなるにつれて劇的に悪化します。大規模言語モデルは自己回帰型です。ChatGPTが質問に答えるとき、一度に1つのトークンを生成します。各ステップで、新しく生成されたトークンを入力にフィードバックして、次の出力を作成します。この自己回帰的アプローチを次フレーム動画予測モデルで試みると、結果はすぐにぼやけて何が何だか分からないものへと劣化してしまいます。JEPAがこのぼやけた予測の問題をどのように回避できるのかを正確に確認する前に、言語モデル以外のトランスフォーマーのもう1つの魅力的な応用例を見てみましょう。

スポンサーメッセージ:Hudson River Trading

この動画はHudson River Tradingの提供でお送りします。こちらはオーダーブックです。左の列にはNvidia株の買い注文が提示価格順に並んでおり、右の列には現在のNvidia株の売り注文が希望価格順に並んでいます。取引の多い日には、このような新規の売買注文が毎秒1000件規模で入ってきます。この注文の殺到は信じられないほど豊かな情報源です。V-JEPAで使用されているようなトランスフォーマーを訓練して、このデータからパターンを見つけ出し、それらのパターンを使用して将来の価格を予測することは可能でしょうか。Hudson River Tradingには、何兆トークンもの過去のデータがあります。これは最先端のLLMを訓練するために使用される訓練データと同じ桁数の規模であり、彼らの研究者たちはこのデータを用いて機械学習の最前線を押し広げようと取り組んでいます。

この動画の後半で紹介するV-JEPAモデルは、動画のパッチを個々の埋め込みベクトルにマッピングします。金融の直感を用いて注文のグループをトークン化し、オーダーブックデータに同様のアプローチをとることも可能です。しかし、この素朴なアプローチは実際にはうまく機能せず、Hudson River Tradingのチームは、最先端のトランスフォーマーアーキテクチャを取引データの複雑さと制約に適応させるための非常に興味深いアプローチをいくつか開発しました。そしてこれらすべては、スピードがすべてである環境で行われています。モデルは信じられないほど厳しいレイテンシの制約の下で実行されなければなりません。これらの魅力的で非常に複雑な研究開発の課題、それに実際に取り組むためのリソース、そしてオープンで非常に協力的な環境が組み合わさることで、Hudson River Tradingは働くのに信じられないほどユニークな場所になっています。

最近、スポンサー候補の方々からよくお話を伺いますが、Hudson River Tradingのチームとのやり取りでは本当に感銘を受けました。これほど深く興味深い問題に対する技術的な議論のレベルと熱意は、私の経験上他に類を見ません。もし興味を持たれましたら、Hudson River Tradingは現在、AI研究者、アルゴリズム開発者、ソフトウェアエンジニアを募集しています。彼らは世界中で採用を行っており、金融のバックグラウンドは必要ありません。詳しくはhudsonrivertrading.com/welchlabsをご覧ください。それでは、JEPAの話に戻りましょう。

生成を必要としない表現学習への転換

さて、私たちの生成的な動画予測アプローチによって生み出されたぼやけたフレームは、決して大きな謎というわけではありません。言語は複雑で予測不可能ですが、動画とは比べ物になりません。言語モデルは固定サイズの語彙を使用します。GPT-2には50,257個の離散的な出力があり、モデルが次に発する可能性のある各トークンに対して1つずつ割り当てられています。この完全な列挙アプローチは動画では絶望的です。フルHD動画の場合、最も一般的なケースでは、各ピクセルが256個の離散的な値をとることができます。そして1920×1080×3色のピクセルがあります。つまり、次に続く動画フレームの可能性は10の1500万乗というような数になり、観測可能な宇宙にある原子の数を遥かに凌駕します。したがって、言語モデルが次に続く可能性のあるトークンごとに離散的な出力を持っているように、私たちの動画予測モデルが次に続く可能性のある動画フレームごとに離散的な出力を持つことなど不可能なのです。代わりに、当時の多くの生成的動画アプローチでは、ネットワークにピクセルの強度値を直接出力させていました。

このアプローチにおける大きな課題は、モデルが不確実性にどう対処するかをどのように学習するかという点です。LLMが文を完成させる学習と、ニューラルネットワークが実際にボールが弾む動画の次のフレームを予測する学習を比較すると、何が問題なのかが正確にわかります。LLMの訓練の場合、モデルは訓練セットの中でボールが左右に弾む様々な例を見ることになります。そしてモデルはこれらのトークンごとに個別の出力を持っているため、基本的にはこれらの確率を独立して更新することができます。しかし、動画モデルの場合はそう簡単にはいきません。ボールが同じ経路をたどり始めてから様々な方向に弾む動画がデータセットに含まれている場合、モデルは与えられた入力に対して単一の出力フレームを直接予測するように強制されるため、この曖昧さに直面したときにモデルができる最善のことは、これらの結果の平均を予測することです。動画のピクセル値を平均化すると、ぼやけた、色あせたぐちゃぐちゃな画像になってしまいます。

もちろん、これは最も素朴なアプローチに過ぎず、過去数十年にわたり、様々な程度の成功を収めた、非常に多くの興味深い動画および画像予測戦略が試みられてきました。しかし、自然に生じる課題により、ルカンや他の研究者たちはある興味深い問いを抱くようになりました。私たちのモデルは本当に生成的である必要があるのだろうか、と。

GPTの例では、重要な事前学習フェーズにおいて、モデルが生成的であるかどうかは実際には問題ではありません。次トークン予測での事前学習後、残るのは本質的に非常に優れたオートコンプリートのようなモデルです。しかし、それが重要なわけではありません。本当に重要なのは、次トークン予測タスクを解決するためにモデルが学習する内部表現と特徴なのです。これらの学習された内部表現こそが、事前学習されたモデルを強力なAIアシスタントに素早く適応させることを可能にします。言語における次トークン予測は、驚くほどうまく機能することが判明した知能の代理指標です。しかし、私たちがインテリジェントなシステムを構築するために必要なこれらの強力な内部表現を学習するために使用できる、他のシグナルや手法はあるのでしょうか。

同時に、2017年から2018年頃にかけて、画像の表現を学習するのに最適なシステムは生成を行わないシステムであるということに気づき始めました。それらは再構成を行うわけではなく、画像を受け取ってエンコーダーにかけ、そしてそのエンコーダーに特定の性質を持たせながらできる限り多くの情報を抽出させようとします。例えば、同じシーンの2つの画像を用意するか、1つの画像を用意して何らかの方法で破損させたり変換したりします。それらの両方をエンコーダーにかけ、抽出した表現が何であれ、それらの2つの画像は意味的に同じものを表しているのだから、本当に同じになるべきだとシステムに伝えるのです。私は90年代からこういったことに取り組んできたので、これは新しいアイデアではありません。合同埋め込みというこのアイデアは、かつてシャムニューラルネットと呼ばれていました。

ここでヤンが言及している手法、シャムネットワークは、1990年代初頭にベル研究所でヤンと彼の共同研究者たちが、偽造署名を検出するシステムを開発していたときに作られました。このシステムは、署名画像のペアを同じニューラルネットワークの2つのコピーに渡すことで機能しました。ネットワークのコピーは、いかなる種類のデータも生成するようには訓練されていませんでした。代わりに、これらは埋め込みベクトルとしばしば呼ばれる数値のベクトルを出力しました。これらのネットワークコピーは、2種類の例で訓練されました。参照用の署名と偽造されていない署名を含むポジティブな例。つまり、これらは同一人物によるものです。そして、参照用の署名と偽造された署名を含むネガティブな例です。偽造の例では、ネットワークのコピーは最大限に異なる埋め込みベクトルを生成するように訓練されます。そしてポジティブな例では、最大限に類似した埋め込みベクトルを生成します。

新しい署名が送られてくると、それをネットワークに渡して埋め込みベクトルを計算し、参照署名から生成された埋め込みベクトルと比較することができます。結果として得られた埋め込みベクトルが十分に類似していなければ、その署名は偽造として検出されます。署名を合同で埋め込むことにより、シャムネットワークは実際の署名画像を予測したり生成したりすることなく、署名画像の非常に有用な内部表現を学習します。

表現の崩壊とBarlow Twinsのひらめき

GPTベースのアプローチがそうであるように、合同埋め込みは私たちのぼやけた動画の問題に対する潜在的に実行可能な解決策を提供してくれます。ヤンが説明するように、画像を受け取ってエンコーダーにかけ、そして特定の性質を持たせながらできる限り多くの情報を抽出させようとするわけです。例えば、同じシーンの2つの画像を用意するか、1つの画像を用意して何らかの方法で破損させたり変換したりします。それらの両方をエンコーダーにかけ、抽出した表現が何であれ、それらの2つの画像は意味的に同じものを表しているのだから、本当に同じになるべきだとシステムに伝えるのです。

つまりここでのアイデアは、画像や動画のコピーを、一方が破損または変換された状態、あるいは両方がそうなった状態で、類似した埋め込みベクトルにマッピングする合同埋め込みアーキテクチャを使用することで、生成モデルで見られたぼやけた動画の問題を回避するというものです。GPTモデルが事前学習中に内部表現を学習し、それがAIアシスタントの動作に適応できるのと同じように、この訓練されたモデルは理想的には、私たちが他のタスクに転用できる画像や動画の有用な内部表現を学習するはずです。

しかし、この合同埋め込み戦略には大きな問題があります。元の画像や動画と破損した画像や動画の埋め込みをできる限り類似させるようにネットワークを訓練しているため、ネットワークは渡されたどんな入力に対しても単に同じ埋め込みベクトルを返すという自明な解決策を見つけてしまう可能性があるのです。例えば、ネットワークが入力画像に対して常にすべて1のベクトルを出力するように学習した場合、ネットワークは同じ画像の破損したビューと破損していないビューの両方に対してすべて1を返すことになり、結果として類似性を最大化しますが、実際には有用なことを何も学習していません。この問題は表現の崩壊として知られています。

ルカンの最初のシャムネットワークのアプローチでは、チームは表現の崩壊を避けるために現在対照学習として知られているものを使用し、ネットワークにポジティブな例とネガティブな例の両方を与えました。同じ対照的なアプローチを画像や動画に適用し、同じ元の画像や動画のビューには類似した埋め込みを出力し、異なる画像や動画には類似しない埋め込みを出力するようにネットワークを訓練できることがわかりました。これらの対照学習法は画像や動画でうまく実装されていますが、規模を拡大する際に問題が発生する可能性があり、意味のある表現を学習するためには大量の計算と多くのネガティブな例を必要とします。ルカンは最悪の場合、対照サンプルの数は表現の次元とともに指数関数的に増加する可能性があると主張しています。

2010年代の終わりまでに、画像や動画を完全に再構成するために生成モデルを使用することは、自己教師あり学習にとって良い戦略ではないことがルカンたちには明らかになっていました。しかし、合同埋め込みアーキテクチャが、大規模言語モデルが享受していたのと同じレベルの強力で一般的な内部表現を学習できるようにする、表現の崩壊問題に対する直接的な解決策はありませんでした。

画像やましてや動画のようなシグナルにとって、再構成が悪いアイデアであることはかなり明白でした。そして私はちょっとしたひらめきを得たのです。というのも、それらの合同埋め込みアーキテクチャを訓練するために私たちが使用していた方法は少し場当たり的なものだったからです。その後、私がMetaで2人のポスドク、特にステファン・ドゥニという人物と一緒に研究を行っていたとき、彼がBarlow Twinsと呼ばれる技術を思いつきました。これは機械学習における計算論的神経科学の古いアイデアに基づいており、ジェフ・ヒントンも似たようなアイデアを試していました。つまり、情報量の尺度を持ち、それを最大化しようと努めるべきだというものです。そして、ホレス・バーローによる現実世界での研究があります。彼は有名な計算論的神経科学者であり、理論的神経科学者です。

ここでヤンは、動物や人間の視覚システムにおけるニューロンは、ニューロン間の冗長な情報を減らすことによって機能するという仮説を1961年に立てたホレス・バーローの研究に言及しています。2020年にルカンと一緒に働いていたポスドクのステファン・ドゥニは、バーローの研究に精通しており、表現の崩壊を避ける1つの方法は、バーローのアイデアをネットワークの出力に適用することではないかと提案しました。私たちが考えてきた合同埋め込みアーキテクチャでは、埋め込みベクトルは埋め込みネットワークの人工ニューロンの最終層によって生成されます。したがって、埋め込みベクトルの長さが128の場合、各ネットワークの出力層には128個のニューロンが含まれます。様々な画像のバッチをそれぞれのネットワークに入力し、画像を読み進めながら最初のニューロンの出力活性化をプロットすると、このニューロンが最初の犬の写真には強く反応し、この猫の写真にはそれほど反応しないことなどがわかります。

私たちの合同埋め込みアプローチに従い、ネットワークは同じ画像バッチの歪んだビューを取り込みます。私たちの合同埋め込みアーキテクチャの要点は、基となる同じ画像や動画の出力される埋め込みを類似させることにあります。したがって、2番目のネットワークの最初のニューロンの出力が、1番目のネットワークの最初のニューロンの出力と類似することを望みます。標準的な合同埋め込みアーキテクチャでは、単にこれら2つのベクトル間の類似度を測定して最大化するだけです。しかし、見てきたように、このアプローチは表現の崩壊の影響を受けやすくなります。ネットワークは単にどんな入力画像に対しても同じ値を出力するように学習してしまうからです。しかしここで、ステファン・ドゥニによって提案されたバーローの仮説を適用すると、異なるニューロンの出力間の冗長性を減らすべきだということになります。ここには少し選択の余地があります。1番目のネットワークの最初のニューロンの出力を、1番目のネットワークの2番目のニューロンの出力と比較するか、それとも2番目のネットワークの2番目のニューロンの出力と比較するかです。チームは、2番目のネットワークの出力と比較することを選択しました。後にわかるように、これにより実装がよりシンプルになり、チームは論文の付録の中で、実際にはこれらの選択肢の間に大きな違いは見られなかったとさらに述べています。

これが2番目のモデルにおける2番目のニューロンの出力です。ニューロンの出力間の冗長性を測定するために、チームはこれらの出力ベクトル間の相互相関を計算しました。この計算は、各ベクトルをスケーリングし、内積をとることで構成され、結果として単一の数値、つまりベクトル間の相関、より正確にはピアソン相関係数が得られます。バーローによって提案されたようにニューロン間の冗長性を減らすために、私たちはこの相関がゼロに近くなることを望みます。1番目のエンコーダーのニューロン出力を縦に配置し、2番目のエンコーダーの出力を横に配置すると、すべてのニューロンのペア間の相関を計算して1つの行列にまとめることができます。この相互相関行列は、1番目のエンコーダーの各出力ニューロンに対応する行と、2番目のエンコーダーの各出力ニューロンに対応する列を持ちます。対角線上の要素は、対応するニューロン間の相関を捉えています。この合同埋め込みアーキテクチャ全体のアイデアは、同じ画像の歪んだバージョンに対して類似した出力を生成することであるため、2つのエンコーダー内の対応するニューロンが高い相関を持つことが望まれます。一方、私たちの相互相関行列のすべての非対角成分は、2つのエンコーダー内の異なるニューロンに対応しています。そしてバーローの仮説に従い、私たちはこれらのニューロン間の冗長性を減らしたいと考えています。つまり、これらの相関がゼロになることを望みます。したがって、理想的には相互相関行列は単位行列のようになります。

ドゥニ、ルカン、そして彼らの共同研究者たちは、彼らの合同埋め込みアーキテクチャのために、相互相関行列の単位行列からの逸脱を測定する新しい損失関数を設計しました。彼らがBarlow Twinsと呼んだこの新しい方法は驚くほどうまく機能し、表現の崩壊を回避しながら、訓練された画像の強力な内部表現を学習しました。チームはこれらの内部表現の質を測定するためにいくつかのアプローチを用いました。

画像認識における自己教師あり学習の進化

先ほど、GPT-1が自己教師ありの事前学習を使用することで、特定の言語タスクに適応された完全な教師ありモデルをどのように上回ることができたかを見ました。視覚タスクの場合、当時最も重要だったベンチマークの1つは、ImageNetデータセットでの精度でした。これは2012年にAlexNetモデルが画期的なパフォーマンスを示したのと同じ画像分類データセットです。元のAlexNetの論文では、ImageNetの検証セットで59.3%の精度を達成していました。自己教師ありのBarlow Twinsアプローチを、AlexNetのような完全な教師ありモデルと比較するために、チームは線形プローブとして知られる一般的なアプローチを使用しました。これは、Barlow Twinsで訓練されたエンコーダーモデルの出力に単一のニューロン層を追加し、教師あり学習を使用してImageNetデータセットを分類するように訓練するものです。重要なのは、この訓練プロセスの間、メインのエンコーダーモデルは凍結されたままであるということです。したがって、このシンプルな線形プローブは、効果的にBarlow Twinsエンコーダーの学習済み表現をImageNetの分類タスクを解決するために適応させていることになります。印象的なことに、線形プローブを備えた凍結されたBarlow Twinsエンコーダーは73.2%のImageNet精度を達成しました。元の完全な教師ありモデルであるAlexNetを10パーセントポイント以上も上回ったのです。

しかし、2012年のAlexNetの論文から2021年のBarlow Twinsの論文までの9年間で、完全な教師ありアプローチはAlexNetに比べて大幅な改善を遂げていました。2020年には、Googleのチームがトランスフォーマーアーキテクチャを画像分類に適用し、88.6%というImageNetでの新たな最高精度を達成していました。したがって2021年までには、Barlow Twinsのひらめきや他の合同埋め込みアプローチのおかげで、視覚タスクにおける自己教師あり学習は急速に進歩していましたが、それでも完全な教師あり手法には劣っていました。LLMの急速な進歩を後押ししていた、言語における一般的で明らかに優れた自己教師ありの生成的事前学習法は、画像や動画のアプリケーションにはまだ手の届かないものでした。

そして、これが本当に正しい進むべき道であることが明らかになりました。その後、私たちはBarlow Twinsの簡略版ともいえるVICRegと呼ばれる別のバージョンを発表し、これも非常に良い結果を出しました。そして同時に、パリのFAIRにいる私たちの同僚からなる別のグループも同様の手法に取り組んでおり、それは最終的にDINOと呼ばれるようになりました。DINO v1、v2、v3と続き、今ではもうDINOとは呼ばれていない新しいバージョンもあります。これもまた合同埋め込み技術です。したがって、表現学習、つまり画像を表現するための自己教師あり学習においては、合同埋め込みの方が優れていることは実に明確でした。

2025年8月に発表されたDINO v3の論文は重要な転換点となり、合同埋め込みアーキテクチャを使用して88.4%という最高水準に極めて近いImageNet精度を達成しました。著者が論文で述べているように、総合的に見て、自己教師ありモデルが画像分類において弱教師ありモデルと同等の結果に達したのはこれが初めてです。DINO v3がいかなる人間が作成したラベルにもアクセスすることなく学習できる表現の質は驚異的です。DINOは分析する画像のパッチごとに埋め込みベクトルを出力します。もし私のこの画像を取り、私の手のこの画像パッチからDINOの埋め込みベクトルを取得し、この埋め込みベクトルを画像内の残りのパッチと比較して、カラーマップを使って各パッチが手のパッチとどれだけ似ているかを視覚化すると、DINOは背景から私の手を驚くほどうまくセグメンテーションします。これはボール、猫、本に適用されたのと同じアプローチです。

世界モデルと自律型AIへの展望

Barlow Twins、VICReg、DINO v1の成功に続き、2022年にルカンはこれらや他の多くの要素をまとめ、自律型機械知能に向けた道筋という60ページのポジションペーパーを作成しました。ルカンが機械学習の理論や実践における特定の技術的な部分に取り組む大多数の論文とは異なり、このペーパーでは私たちがインテリジェントな機械をどのように構築すべきかについて、全体論的で第一原理的なアプローチをとっています。ルカンは、AIに対する現在のアプローチが人間の学習能力には到底及ばないという主張から始め、10代の若者が約20時間の練習で車の運転を習得できるという例を挙げています。

何百万時間もの訓練データを持っていて、Teslaがやっているようにレベル2のシステムをそれで訓練できるのに、なぜレベル3や4や5には到底及ばないのでしょうか。それなのに、17歳の若者は数時間の練習で運転を覚えることができます。これはいったいどういうことなのでしょうか。私たちはその秘密が何なのかを突き止めるべきではないでしょうか。そして私の推測では、その秘密こそが世界モデルなのです。

ルカンの10億ドルの賭けは、現代のAIに欠けているピースは世界モデル、つまり物理世界についての予測を行うモデルであるというものです。彼が2022年のポジションペーパーで述べているように、常識とは、何が起こりそうか、何がもっともらしいか、何が不可能かをエージェントに教えてくれる、世界に関するモデルの集合体とみなすことができます。このような世界モデルを使用することで、動物は非常に少ない試行回数で新しいスキルを習得できます。彼らは自分の行動の結果を予測することができます。彼らは推論し、計画し、探索し、問題に対する新しい解決策を想像することができます。ルカンは続けて、合同埋め込みアーキテクチャは世界モデルを構築するための適切な基盤を提供すると主張しています。

JEPAとはJoint Embedding Predictive Architectureの略です。世界でのある観察を取り込み、そして世界での次の観察を取り込みます。それらをエンコーダーにかけます。これは合同埋め込みタイプのアーキテクチャのようなものです。そして、時間tの状態から時間t+1の状態を予測しようとするプレディクターがあり、これをある行動で条件付けることもできます。これで世界モデルができあがります。

具体的な例として、生成アーキテクチャを使用して動画の次のフレームのピクセル値を予測する代わりに、動画と次のフレームを埋め込みにマッピングし、動画の埋め込みが与えられたときに次のフレームの埋め込みを予測するようにプレディクターモデルを訓練することができます。この実装では、JEPAアーキテクチャは動画の次のフレームのすべてのピクセルを予測するという困難なタスクからモデルを解放し、理論的にはエンコーダーを通過するシーンの顕著な特徴のみを予測することにプレディクターを集中させることができます。ヤンはここで良い例を挙げています。

例えば、ドライブレコーダーの動画で何が起こるかを予測するように地質学のモデルを訓練すると、道路の脇にある木々の葉のランダムな動きを予測することにリソースのほとんどを費やしてしまいます。そういったものは本質的に予測不可能ですが、動き回るピクセルを大量に持っているからです。

先ほどヤンが言及したように、行動で条件付けることでJEPAを一歩進めることができます。第2部で詳しく掘り下げるV-JEPA 2の論文では、チームはロボットアームに送信される行動シグナルでJEPAモデルを条件付けています。そのため、JEPAモデルはロボットのアームと環境の画像のシーケンスを見て、次の動画フレームの埋め込みを予測するように訓練されますが、ロボットアームに送信される制御シグナルも与えられます。これによりプレディクターは、様々な制御シグナルが埋め込み画像におけるロボットアームの位置をどのように変化させるかを予測する学習が可能になります。この学習された世界モデルは、その後ロボットの計画と制御に使用することができます。例えばプラットフォームからカップを動かすといった、ある目標状態の画像が与えられると、この画像は次のフレームエンコーダーに渡され、ロボットの目標状態の埋め込みが生成されます。そこから制御アルゴリズムを使用して、様々な仮説的な行動が与えられたときの世界モデルの予測を探索し、モデルの予測される将来の状態が目標状態と一致するような一連の行動を見つけることができます。ヤンが言うように、これは本当に古いアイデアに新しいひねりを加えたものです。

時間tにおける世界の状態と、自分がとることを想像する行動、あるいは介入や制御の関数として、時間t+1における世界の状態を与えてくれるモデルを構築します。そしてこれがあれば、一連の行動の結果を予測することができ、最適化によって特定の結果に到達するための最適な一連の行動を見つけ出すことができます。これは古典的な最適制御です。1950年代後半のソビエト連邦や1960年代初頭の西側諸国にまで遡るものです。非常に古典的な事柄ですね。古典的でないのは、そのモデルを学習するということです。機械学習を使ってモデルを学習させるのです。そしてさらに古典的でないのは、状態、つまり抽象的な状態表現を計算する入力の表現を学習し、その状態におけるモデルを学習するということです。それがJEPAなのです。

将来の展望と締めくくり

しかし、JEPAやその他の世界モデルベースのアプローチは本当に大規模言語モデルを追い抜くのでしょうか。ルカンが2022年に初めてJEPAを提案して以来、このアーキテクチャは様々なチームによって幅広い問題に適用されてきました。これらのモデルは正確にはどのように評価されているのでしょうか。第2部では、モデルの埋め込み空間の内部で実際に何が起こっているのかを理解するためにV-JEPA 2をより深く掘り下げ、急速に進歩しているVLAアプローチに対して、V-JEPA 2がロボティクス制御アルゴリズムとしてどのように機能するかを見ていきます。また、現在マルチモーダルLLMで解決しているのと同じ視覚・言語の多くの問題を、全く異なる方法で印象的な結果を出しながら解決するVL-JEPAについても探求します。最後に、Lay World Modelと呼ばれるJEPAの実装に少し時間を割きます。Lay World Modelは、初期段階ではありますが、JEPAベースのシステムができることの最も完全な全体像を提供してくれるかもしれません。次回まで、ヤンの見解を最後にお届けします。

それでは、またしてもシリコンバレーで多くの敵を作ってしまいそうな物議を醸す発言をさせてください。私は、行動の結果を予測する能力を持たないエージェントシステムを構築しようと考えること自体が理解できません。そして、VLAはそれを行いません。航空会社は世界モデルを持っていません。彼らは事前に行動の結果を予測することはできません。有名なフランスの王が言ったように、彼らはただ行動を起こし、その後に大洪水がやってくるのです。したがって、本当に信頼性の高いエージェントシステムを構築したいのであれば、システムは自分たちの行動の結果を予測できなければ絶対にダメです。そうして初めて、求められているタスクを完了するためだけでなく、おそらく安全のためのガードレールを保証するためにも、何かを行うための一連の行動を計画できるようになるのです。推論プロセスは、単なる自己回帰的な予測ではなく、探索になります。それが世界モデルです。世界モデルの概念そのものなのです。

この動画をお楽しみいただけましたら、Welch LabsのイラストでわかるAIガイドをぜひチェックしてください。その表紙は一貫性の高いDINOの表現を作り出しているので、良い本であることがお分かりいただけるでしょう。この本は美しくイラストが描かれており、この動画で触れた多くのトピックをより深く掘り下げるのに最適な方法です。第5章のAlexNetは、埋め込みベクトルと深層学習の台頭についてさらに学ぶのに最適です。第6章の神経スケーリング則では、OpenAIにおけるGPT-1からGPT-3までの魅力的な発展についてより深く見ていきます。第9章では、画像や動画の非常に正確なピクセルレベルの表現を再構成できるものの、いくつかの顕著なトレードオフがある拡散モデルについて取り上げています。第1章から第4章では、ニューラルネットワーク、バックプロパゲーション、深層学習の基礎を網羅し、これらすべてのトピックに関する素晴らしい背景知識を提供しています。各章には、思考を刺激する演習問題とサポートするコードが含まれています。この本は現在24カ国に発送可能です。welchlabs.comで今すぐご購入いただけます。

コメント

タイトルとURLをコピーしました