本動画は、人工知能と現代の機械学習における世界的権威であるヤン・ルカン教授による特別講義である。現在の生成AIやLLM(大規模言語モデル)の限界を指摘し、人間や動物のような物理世界の理解や常識、効率的な新スキルの獲得を実現するための次世代AIアーキテクチャ「世界モデル(World Models)」および「JEPA(Joint Embedding Predictive Architecture)」の概念について詳しく解説している。また、生成アーキテクチャからの脱却、自己教師あり学習の重要性、そしてオープンソースAIの必要性について強い警鐘を鳴らしつつ、質疑応答では数学の役割、AIの安全性、量子コンピューティングなど幅広いトピックに対して鋭い見解を述べている。

- ヤン・ルカン教授の紹介
- 次世代AI革命:世界モデルの概念
- エージェント型システムとAIの限界
- 人間や動物の学習方法と自己教師あり学習
- 知性とは何か?
- 自己教師あり学習と世界モデルによる次世代AI
- 推論と計画:システム1とシステム2
- 目的駆動型AIアーキテクチャのビジョン
- 自己教師あり学習と生成モデルの限界
- JEPA(Joint Embedding Predictive Architecture)の提案
- 科学における抽象化と世界モデルの役割
- 世界モデルの応用と制御理論
- コラプスの防止と正則化
- DINOやI-JEPAなどの蒸留手法
- JEPAによるプランニングとV-JEPA
- AIの未来への提言と結論
- 質疑応答:数学の役割とエネルギーベースモデル
- 質疑応答:原子力産業への応用と世界モデル
- 質疑応答:LLMの知性の錯覚
- 質疑応答:AIの安全性とオープンソース
- 質疑応答:世界モデルにおける状態の数学的定義
- 質疑応答:チョムスキー、量子AI、その他の質問
ヤン・ルカン教授の紹介
皆さん、こんにちは。エリック・モランの代理でお詫び申し上げます。本日、特別ゲストの紹介をしていただく予定でしたが、予期せぬ大きなトラブルに見舞われてしまいました。昨日予定されていたフライトが本日に延期となり、現在おそらく飛行機の中にいると思われます。
人工知能と現代の機械学習における世界的パイオニアの一人であるヤン・ルカン教授をお迎えできたことを大変嬉しく思います。ヤン・ルカン教授は、MetaのAI研究部門のディレクターを務め、ニューヨーク大学のデータサイエンス、コンピューターサイエンス、神経科学、電気工学のシルバー教授でもあります。ニューヨーク大学のデータサイエンスセンター、クーラント数理科学研究所、神経科学センター、電気コンピューター工学科など、数々の権威あるセンターや研究所に所属しています。
1983年にパリのESIEEで工学の学位を取得し、1987年にパリのピエール・エ・マリ・キュリー大学でコンピューターサイエンスの博士号を取得しました。トロント大学でのポスドクを経て、1988年にAT&Tベル研究所に加わり、後に画像処理研究部門の責任者となりました。
2003年にニューヨーク大学の教授に就任し、後にニューヨーク大学データサイエンスセンターの初代ディレクターとなりました。2013年にはFacebookのAI研究ディレクターに任命されました。ルカン教授の研究は、人工知能の発展、特にディープラーニング、コンピュータービジョン、ロボティクス、計算論的神経科学に多大な影響を与えてきました。
Meta、Google、Microsoft、IBMなどの主要企業で使用されている現在のAIシステムの多くを支える基盤技術である、畳み込みニューラルネットワークの生みの親の一人として広く認識されています。これらの革新的な技術は、手書き文字認識、銀行技術、画像圧縮、音声認識、ヒューマンコンピューターインタラクションといった実世界での応用にもつながっています。
180以上の科学論文や書籍の章を執筆し、AIコミュニティ全体で主要な編集や科学的役割を果たしてきました。数ある栄誉の中でも、ニューラルネットワークと機械学習への画期的な貢献が認められ、2014年にIEEEニューラルネットワークパイオニア賞を受賞しています。
それでは、ヤン・ルカン教授を温かい拍手でお迎えください。
次世代AI革命:世界モデルの概念
ご紹介いただき、本当にありがとうございます。まずお伝えしておきたいのは、私は1月上旬にMetaを退社し、Advanced Machine Intelligence、略してAMIという新しい会社を立ち上げたということです。ですので、現在はMetaには所属していません。今日お話しすることの多くは、このAMIで私たちが取り組んでいる内容についてです。
また、私がチュニジアを訪れたのは、ほぼ正確に40年前だったことにも気づきました。ずいぶん前のことなので、またいつかぜひ訪問したいと思います。1986年当時、私はまだ博士課程の学生でした。
さて、今日は現在AI研究コミュニティで非常に関心を集めている、世界モデルという概念についてお話しします。私はかなり長い間この研究に取り組んできましたが、ここ5年ほどで研究が加速し、先ほどお話ししたように、最近このアイデアを中心に会社を立ち上げました。私はこれが、AIにおける次の革命をもたらすと考えています。
現在のAIは、その能力においてまだかなり限定的です。人間だけでなく動物に見られるような能力をAIシステムに持たせる必要があります。実際、これが最初の主張になるのですが、AIは動物や人間と比べると本当にひどい有様です。
もちろん、見事なコードを書き、司法試験に合格し、数学オリンピックで優勝し、便利で印象的なあらゆることをこなせるAIシステムは存在します。しかし、夕食のテーブルを片付けたり、家を掃除したり、どんな10代の若者でも20時間の練習でできるようになる車の運転といった、実世界でのごく基本的なタスクはまだこなせません。
基本的に現在のAIは、一連の離散的な記号として表現されるデータを扱うことができます。少なくとも私たちが話題にしている生成AIという種類のAIはそうです。しかし、画像、動画、音声、センサー入力、機器の測定値、財務データなど、データが高次元で連続的、かつノイズが含まれる可能性がある場合、まったく機能しません。言語のような離散的な記号の並びに対しては非常にうまく機能してきた生成的なアプローチは、そうしたデータに対してはまったく役に立たないのです。
エージェント型システムとAIの限界
現在のAIシステムのもう一つの限界は、エージェント型システムとして知られるようになったものに関連しています。エージェント型システムとは行動を起こすことができるシステムのことですが、現在のアプローチはLLMに基づいており、模倣学習を用いて訓練されています。大量の事例やデータを人間から収集し、人間の行動を複製、つまり模倣するようにシステムを訓練します。
シミュレーション環境での強化学習によって微調整することも可能ですが、要求されるデータサンプルの数は膨大で、結果としてシステムは比較的脆く、特化したものになってしまいます。私が考える、エージェント型システムを構築する唯一の方法は、行動を起こす前にその行動の結果を予測できる能力を持ったシステムを作ることです。
それこそが世界モデルの全体的なアイデアです。実際、世界モデルは、明示的に訓練されていなくても、AIシステムが新しい問題を解決できるようにするかもしれません。これこそがまさに動物や人間の知性の本質です。私たちは新しい状況に直面したとき、その状況を理解し、訓練を受けていなくてもタスクを完了する方法を見つけ出すことができます。
最後に、現在のAIシステムには常識がなく、現実世界を理解していません。LLMを完全に混乱させるような例を考えるのを趣味にしている人たちの有名な例があります。私たちにとっては答えが明白なものであってもです。シリコンバレーの一部の人々が1、2年のうちに人工超知能のシステムができると主張していますが、人間レベルの知性どころの話ではありません。それは完全に間違っています。人間のことはさておき、私たちは猫や犬などの動物が持っているような物理的な知性すら模倣できていないのです。
家猫なら誰でも非常に複雑な行動を計画できます。彼らは物理的な世界との相互作用だけでなく、自分自身の物理法則についても非常によく理解しています。人間に目を向ければ、10歳の子供に夕食のテーブルを片付けて食洗機に入れてと頼めば、それについて訓練されていなくても、最初からやってのけるでしょう。これは世界モデルに基づいているからです。車の運転を学ぶのも同じです。10代の若者なら、わずか数時間の練習で、大した事故を起こすことなく運転を学ぶことができます。
一方、私たちには人間が車を運転している数百万時間分の記録データがあります。これを使って、人間のドライバーを模倣するように機械学習システムを訓練することができ、実際に人々はそれを試みてきましたが、うまくいきません。十分に信頼できるものではないのです。だからこそ、レベル5の自動運転車はまだ実現していません。Waymoなどもありますが、それは全く別のアプローチですし、レベル5ではなくレベル4に近いものです。
私たちはモラベックのパラドックスと呼ばれる、AI分野で非常によく知られたパラドックスに何度もぶつかっています。モラベックは1988年に活動していたロボット工学者で、彼は定理の証明やチェスなど、複雑で知的なタスクはコンピューターにとって簡単に見えるが、単に物体を操作するといった私たちが当たり前にしていることが、コンピューターやロボットにはまったく再現できないのは逆説的だと述べています。
人間や動物の学習方法と自己教師あり学習
では、人間や動物はどのように学習しているのでしょうか。人間や動物の学習の大部分は、主として観察によるものです。過去には、先ほど触れた教師あり学習や、強化学習を通じて人間レベルの知性に到達できるのではないかという期待がありました。10年ほど前に強化学習への大きな関心の波がありましたが、それは完全に非現実的であることが判明しました。強化学習はサンプルの効率が悪すぎ、膨大なサンプルを必要とします。教師あり学習についても同様です。
では、人間や動物ではどのような種類の学習が行われているのでしょうか。その学習方法は現在自己教師あり学習として知られるようになっており、自然言語理解のようなシステムの訓練においては極めて成功しているアプローチです。
赤ちゃんは世界についての基本的な概念を学びます。例えば、生物と無生物の違いなどです。言語をまだ持っていなくても、テーブルと椅子が違うという事実を自然に学び、そうしたカテゴリーを自発的に習得します。さらに、ある物体が別の物体の後ろに隠れても存在し続けるという対象物の永続性のような非常にシンプルな概念も学びます。そして生後9ヶ月頃になると、重力や慣性といった直感的な物理学の基本概念を学ぶようになります。
もし、プラットフォームの上に車が置かれていて、その車をプラットフォームから押し出すと空中に浮かんでいるように見える、といったようなシナリオを見せたとします。生後6ヶ月の赤ちゃんはほとんど注意を払いませんが、10ヶ月の赤ちゃんは目を見開いて凝視します。なぜなら、彼女の中の世界モデルが破られているからです。彼女は生後10ヶ月までに、物体は落ちるはずだということを知っているのです。
では、このような学習はどのようなものなのでしょうか。理論神経科学における理論の一つに、これは主に観察によって、そしておそらくは予測によって学習されるというものがあります。脳は一種の予測機械であり、予測符号化と呼ばれる理論があります。脳が何かを予測し、その予測を現実と照らし合わせ、より良い予測ができるように自らを調整するというものです。これは非常に抽象的な概念ですが、問題はどうやってこれを実践に落とし込むか、どうやって実際に機能させるかです。
最近私は、パリの認知科学者であるエマニュエル・デュプー、バークレーのロボット工学者であるジテンドラ・マリク、そしてMetaの元同僚である人物と共同で、まさにこの問いについての論文を執筆しました。AIで可能な学習の種類と人間の学習との違いは何かという内容です。
知性とは何か?
次に、知性とは本当のところ何なのかという別の疑問があります。人々があらゆる種類のベンチマークを発表しているのを目にしますし、それらのベンチマークの集合体が知性のある種の尺度になるだろうという期待を持っているようです。しかし、それらのベンチマークはすべてLLMのようなシステムをテストするために設計されています。ロボットや、物理的な理解、現実の理解、あるいは私たちが理解しているような常識をテストするようには設計されていません。
そして、それは知性をテストする間違った方法です。なぜなら、知性とはスキルの集合体ではないからです。知性とは、新しいスキルを極めて迅速に獲得する能力のことです。全く訓練なしで対応するゼロショット学習かもしれません。新しい状況に直面したとき、何をすべきか分かるということです。あるいは、運転のようにわずか数時間の最小限の訓練で済むものです。このように新しいスキルを獲得したり、新しい問題を解決したりする能力こそが、知性を定義するものなのです。
私はこれについても、同僚と共同で短い記事を書きました。どちらかというとポジションペーパーのようなものです。人間の知性は実は特化型のものですが、私たちはあらゆる問題を理解して素早く新しいスキルを獲得できるため、それが汎用的なものだと感じています。しかし繰り返しますが、人間の知性は非常に特化したものです。したがって、人間レベルの知性を汎用人工知能と呼ぶのはナンセンスです。なぜなら人間の知性は汎用的な知性とは全く異なるからです。
ある時点で、機械がすべての領域で人間の知性を超えるようになることに疑いの余地はありません。すでに多くの領域で人間の知性を超えています。問題は適応力と、新しい問題を解決する能力です。
大規模言語モデルをスケールアップし、より多くのデータで訓練することが人間レベルの知性に到達するという期待を抱きすぎるべきではない理由は、この非常に単純な見積もりによるものです。LLMは人間が作成したテキストで訓練されます。通常、これは約10の13乗語であり、基本的にインターネット上で公開されているすべてのテキストに相当します。これをトークン化すると、約30兆トークンになります。各トークンは約3バイトです。つまり、事前学習データの観点では約10の14乗バイトに相当します。
LLMには、人々が尋ねそうな質問に答えられるようにするためのファインチューニングという段階もありますが、事前学習段階は基本的には10の14乗バイトです。人間がこれだけの量を1日9時間、毎分250語のペースで読み通すとしたら、約40万年かかります。
一方、人間の子供、例えば4歳児は、最初の4年間で起きている1万6000時間のうちに、視覚、触覚、聴覚などの感覚データから学習します。ちなみにこれは動画のデータ量で言うと、YouTubeにアップロードされる約30分分の動画にすぎません。しかしこの子供は、視神経を通じて視覚野に膨大な情報を受け取ります。視神経には約200万本の神経線維があり、それぞれが1秒間に約1バイトの情報を伝達します。計算してみると、そのデータ量は約10の14乗バイトになります。つまり、4歳児はすでに、インターネット上のすべての公開テキストで訓練された最大のLLMと同じ量の生のデータを目にしていることになります。
このことは、テキストや人間が生成したデータだけで訓練しても、決して人間レベルの知性には到達できないということを物語っています。絶対にあり得ないことです。AIシステムには、現実世界からの高帯域幅データである感覚データを理解させる必要があります。しかし現実はごちゃごちゃしているので、これは非常に複雑な問題です。
自己教師あり学習と世界モデルによる次世代AI
最終的に、次のAI革命に向けた進歩は、後ほどお話しする自己教師あり学習の手法を利用することになると思います。ただし、動画のようなセンサーから得られる、高次元で連続的、かつノイズの多いデータに適用できる自己教師あり学習の手法です。そして、そこからエージェント型システムを動かす世界モデルを構築できるようになります。
世界モデルとは、要するにAIシステムがこの行動を起こしたら、世界の状態はどうなるかを予測できるようにするものです。自分自身の行動の結果を予測できるのか。もし結果を予測できれば、特定のタスクを達成するための一連の行動を計画することができます。だからこそAIシステムにはモデルが必要なのです。そしてLLMにはそれがありません。
したがって、私たちが目指すのは、物理的環境や生物を含むあらゆる環境を理解し、永続的な記憶を持ち、長い推論の連鎖を実行でき、おそらく階層的に複雑な行動シーケンスを計画でき、事前の訓練なしで新しいタスクを達成できる、あるいは非常に素早く適応できるエージェント型システムです。そして最後に、制御可能で安全なシステムです。これは、LLMやその他の生成アーキテクチャができることをはるかに超えています。
推論と計画:システム1とシステム2
では、AIシステムはどのような推論を実行できるべきか考えてみましょう。それは思考や推論とは何かという問いでもあります。
最初のタイプのAIシステム、あるいは人間の行動は、心理学者がシステム1と呼ぶものです。つまり、現在の世界の状態を把握した上で、今取るべき行動を予測できるかということです。強化学習の文脈では、これをポリシーと呼びます。状態が与えられたとき、どのような行動をとるべきか。
しかし、人間はこれだけを排他的に行っているわけではありません。システム1は、非常に慣れ親しんだタスクをこなす場合、考える必要がないということを意味します。経験豊富なドライバーが運転するときのように、無意識に行うことができます。誰かと話しながらでも運転できるといったことです。
一方で、システム2という別の行動の仕方があります。これは計画を立てること、つまり特定のタスクを達成するための行動を見つけ出すことです。頭の力をフルに使って行動の結果を予測し、タスクを達成するための一連の行動を計画します。これには世界モデルが必要です。
LLMのような場合は、世界における行動、あるいはトークンの予測になります。離散的なトークンのシーケンスがあり、膨大なデータからシーケンス内の次のトークンを予測するようにシステムを訓練します。そして、そのシステムを使って自己回帰的な予測を行います。それがLLMの仕組みであり、エージェントシステムが行動を生成するために使用されるVLAもその一種です。
これらは、一連の行動を取り、それを予測器に通し、固定された数のニューラルネットワークトランスフォーマーの層を通し、辞書内のすべての可能なトークンに対する分布を予測します。有限の数、おそらく10万程度の候補に対してスコアを出し、分布を得ます。そこからサンプリングを行って、離散的な予測トークンを1つ生成します。次にそれを入力にシフトさせ、2つ目のトークンを予測します。直前に予測されたトークンが入力の一部になるわけです。これは単なる自己回帰予測であり、統計や信号処理の世界で何十年も前から存在する非常に馴染み深い概念です。それが1つ目のモデルです。
2つ目のモデルは、これとは全く異なるものです。知覚を通じて、現在の世界の状態についてある程度のアイデアを持っているとしましょう。それを、自分が想像した一連の行動と一緒に世界モデルに供給します。すると世界モデルは結果を予測します。結果として生じる世界の状態を予測するのです。
次に、この予測された世界の状態を目的関数に供給します。ここでは、決定論的な関数を丸い形で表現し、コスト関数を四角いブロックで表現しています。コスト関数は、1つまたは複数の入力を持ち、コストやペナルティのようなスカラーの出力を暗黙的に持ちます。このタスク目的関数は、特定のタスクが達成されていれば例えばゼロを、達成されていなければタスク達成までの距離に応じた大きな数値を出力します。
そして推論プロセスは最適化によって行われます。システムは、この目的関数を最小化するような行動シーケンスを見つけ出します。つまり、ニューラルネットワークの固定された層を順伝播させることによる推論ではなく、最適化による推論なのです。これははるかに強力なパラダイムです。なぜなら、あらゆる計算モデルや計算問題を最適化問題に還元できるからです。それを固定された数の層を通じた順方向の予測に還元することは必ずしもできませんし、少なくとも効率的ではありません。
目的駆動型AIアーキテクチャのビジョン
この概念に基づき、数年前、およそ4、5年前に、私は世界モデルの概念を中心にAIシステムをどのように構築できるかというビジョンを説明した論文をオンラインで公開しました。タイトルは自律型機械知能に向けた道筋で、下部にURLが表示されています。これはarXivではなくOpenReviewに投稿しました。人々がコメントし、批判できるようにするためです。実際、その事例はたくさんあります。こちらのQRコードの方が論文にアクセスしやすいかもしれません。現在私がお話ししている内容も、ある意味でこのトークの別バージョンであり、異なる側面を強調している部分もあるかもしれません。
それでは、私たちがこれにどのように取り組み、どのように構築し、私が論文を書いてからこの4、5年でどのような進歩を遂げたかについて少しお話ししましょう。
私たちは目的駆動型AIアーキテクチャと呼ばれる知的システムのモデルを持っています。世界を観察し、それを知覚システムに通して、初期の世界の状態に関するある種の抽象的な表現を得ます。これを、現在知覚していない世界の状態について知っていることを示す記憶と組み合わせることができます。
それを世界モデルに供給し、仮説を立てた、あるいは想像した行動シーケンスも供給します。そして、世界モデルからの予測は、達成したいタスクによって定義されるタスク目的関数に送られます。この目的関数には、ガードレールのような役割を果たす他の加算的な項が含まれることもあります。これらをペナルティ関数、あるいは満たすべき制約と考えることができます。
このシステムのエピソードは、最適化を通じて行動シーケンスを探索することにあります。ガードレールの制約に従いながら、タスク目的を最小化する行動シーケンスを探索します。
これは、詳しい方にとっては古典的な最適制御に非常によく似ているように見えるでしょう。実際、世界モデルがあれば、それを複数のタイムステップに適用し、一連の異なる行動を供給し、予測された軌跡全体に対してガードレールのコストを適用し、最終的な予測をタスク目的関数に供給し、最適化によって最適な行動シーケンスを見つけ出すことができます。これは本質的に制御理論でモデル予測制御と呼ばれるものと同じです。ただし、ここでのモデルは私たちが書き下した数式ではなく、観察や例から訓練された世界モデルになります。
最終的に私たちがやりたいのは、このようなシステムを階層的にすることです。世界の状態の単一の表現を持つのではなく、達成したいタスクに応じて、世界の状態に関する複数の抽象的な表現の階層を持つことです。
例えば、私がニューヨークのNYUのオフィスに座っていて、明日パリに行きたい、あるいはチュニスに行きたいとします。非常に高い抽象レベルでは、空港に行って飛行機に乗らなければならないことがわかります。なぜこれほど高い抽象レベルでこれを行う必要があるかというと、私の低レベルの行動は筋肉の制御だからです。人間の心の出力は常に筋肉の制御に変換されます。しかもミリ秒単位の筋肉制御です。ニューヨークからパリへの旅行全体を、ミリ秒単位の筋肉制御の観点で計画することは不可能です。複雑すぎますし、まず情報がありません。道中にあるすべての障害物の位置も、飛行機に乗るためにどれくらい待つか、タクシーを捕まえるのにどれくらいかかるかも分かりません。
そこで、私は非常に高い抽象レベルに自分を置き、この高いレベルで空港に行って飛行機に乗る必要があると計画を立てることができます。これは2つの行動の連続ですが、非常に高レベルの行動です。
次に、空港に行くということが新たな目的関数を定義します。それは基本的に空港までの距離です。そこで、空港に行くために、より低いレベルで計画を立てることができます。私はニューヨークにいるので、通りに出てタクシーを拾わなければなりません。タクシーを呼ぶわけです。すると通りに出るというサブゴールができます。私はオフィスに座っているので、立ち上がり、エレベーターまで歩き、ボタンを押し、下へ降りて建物の外に出る必要があります。
このように、抽象レベルの階層構造を全体にわたって持つことができます。高レベルの予測器は、細部がほとんどない非常に抽象的なレベルで長期的な予測を行い、低レベルはより詳細な短期的な予測を行います。そしてある時点で、ただ行動を起こせばいいレベルに到達します。そのレベルが椅子から立ち上がるべきだというものであれば、何も考えずに行うことができます。世界モデルを使う必要すらありません。非常に慣れ親しんだ、無意識のタスクだからです。
これが私たちが構築する必要のあるものです。これはまだ未解決の問題のようなものです。私たちはこれに関する論文をいくつか出していますが、まだまだ初期段階です。
自己教師あり学習と生成モデルの限界
では、自己教師あり学習とは何でしょうか。どうすれば自己教師あり学習を使って世界モデルを訓練できるのでしょうか。
LLMの文脈で大きな成功を収めた生成的な予測を使用する場合の自己教師あり学習の一般的な形は、入力、例えばテキストの一部や単語の並びを取り、いくつかの単語を削除するなどして何らかの形で破損させます。そして、この破損した入力をエンコーダーとデコーダーに通し、入力の欠落部分を予測しようとします。これが、最も一般的な形の生成的自己教師あり学習と言えます。
これは、言語や、DNA、タンパク質などのあらゆる離散的な記号の並びに対して驚くほどうまく機能します。しかし、これを動画に適用すると、それほどうまくはいきません。動画の一部を隠して、システムに動画の欠けている部分を予測させようとしてもうまくいかないのです。少なくとも生成モデルでは無理です。なぜなら、動画の細部のほとんどは完全に予測不可能だからです。
実際、私たちはこの実験を何度も行ってきました。この研究を始めたのはおそらく10年前、私の場合は15年以上前ですが、長い間、生成モデルを使ってこれを試みてきました。しかし得られるのはぼやけた予測です。もちろん、これは10年前のニューラルネットワークなので、拡散モデルなどを備えた現在とは少し異なりますが、それでもこの問題は残ります。つまり、システムに1つの予測をさせるように訓練しても、起こり得るすべての未来の中から実際にどれが起こるかを判断することができないため、平均値を予測してしまうのです。
私のMetaでの同僚たちも、非常にシミュレートされた環境で別の実験を行いましたが、やはりこのぼやけた予測になります。言語などのテキストのコンテキストであれば、離散的なトークンであり、有限数のトークンに対する確率分布を生成できるため、予測の不確実性を処理できます。しかし、動画ではこれができません。考えられるすべての動画のフレームシーケンスの集合に対する分布を有用な形で表現する効率的な方法がないからです。数学的に計算が完全に不可能です。
そのため、私たちは潜在変数モデルなどを試してきました。拡散モデルやVAEなどで遊ぶことはできますが、それでもやはりうまくいきません。本当に満足できるものではないのです。これについては多くの研究があり、人々が世界モデルについて語るとき、彼らは実際には潜在変数や拡散モデルを用いた生成的な世界モデルを意味しています。しかし、それを実行するのは本当に不可能です。なぜなら、動画の細部のほとんどは完全に予測不可能だからです。最初の部分だけを見た動画の未来の情報のほとんどは予測不可能です。したがって、そのすべてを潜在変数に入れなければならず、それは非常に難しい問題なのです。
JEPA(Joint Embedding Predictive Architecture)の提案
そこで、私の解決策が登場します。それはJEPAというアーキテクチャです。これはJoint Embedding Predictive Architectureの略です。
左側の生成アーキテクチャと比較してみてください。生成アーキテクチャは、観察可能な入力信号の残りの部分と、おそらくアクションや変換と呼ばれる別の部分を条件として、観察できない信号の部分を直接予測しようとします。例えば時間的な移動かもしれません。動画の始まりなら、0.5秒待つことを意味し、次が次の0.5秒の動画セグメントになります。ロボティクスのコンテキストなら、ロボットに送るアクションなどになります。これが生成アーキテクチャです。
私が提案しているJEPAアーキテクチャが基本的に言っているのは、すべての細部を予測することは単純に不可能だ。だから、抽象的な表現を学習し、その抽象的な表現の空間で予測を行おうということです。そして、その抽象的な表現の空間は、単に予測不可能な、入力動画に関するすべての細部を排除します。
非常にシンプルな概念です。考えてみればとても自然に聞こえます。しかし、それこそが私たちが構築しなければならないものです。
これには技術的な問題があります。この種のシステムを単に予測誤差を最小化するように訓練するとどうなるか。生成モデルを予測誤差が最小になるように訓練する場合は、シーケンスの次のアイテムをただ予測します。しかし、このようなシステムを表現空間での予測誤差のみを最小化するように訓練すると、システムはずるをすることができます。定数の表現を予測することにしよう。そうすれば予測誤差は常にゼロになると言うことができるのです。入力を無視し、表現を単なる定数にしてしまうのです。
これで予測問題は自明なものになってしまいます。これは崩壊と呼ばれます。したがって、このタイプのアーキテクチャの訓練は、基本的に崩壊を防ぐことから成ります。
これを行うための異なる手法がいくつかあります。蒸留に基づく方法があります。Metaのパリ支社にいた私の元同僚が開発したDINO、同じくMetaの元チーム(彼らの多くは現在AMIで私たちと一緒に働いています)が開発したI-JEPAやV-JEPAといった技術です。そして、情報最大化に基づく別の手法があり、後で少し説明するSIGなどがそれに当たります。私のチームだけでなく他の人々も開発したさまざまなバージョンがあります。
このJEPAのアイデア全体は、私が提案してからのこの4、5年間でかなり人気を集めるようになりました。Google Scholarで検索すると、約1300件の論文が見つかります。これに関心を持つコミュニティ全体が存在し、成長しています。
私の今の期待は、これらの情報最大化の手法にあります。これらは基本的に、表現における情報量を測定する何らかの方法を持ち、訓練プロセス中にこの情報量を最大化しようとするものです。入力に関する情報をできるだけ多く抽出するエンコーダーを訓練し、同時に予測誤差を最小化します。
するとシステムはトレードオフを見つけます。できるだけ多くの情報を抽出しようとしますが、予測誤差を最小化するために、実際に予測できる情報のみを抽出します。したがって、予測できないもの、つまりノイズや、複雑すぎて予測不可能なものを排除するのです。
科学における抽象化と世界モデルの役割
世界に関する抽象的な表現を見つける必要があるというこの概念は、知的システムを構築するためだけでなく、私たちが科学において世界をモデル化する際にも非常に自然なことです。応用数学者の皆さんならもちろん、現実のモデルを書き下すという概念に精通しているでしょう。
例えば、飛行機や何かの周りの空気の流れをシミュレートしたいとします。小さな立方体の中の空気の状態を、速度、圧力、密度、おそらく粘性、温度などでモデル化します。そしてナビエ・ストークス方程式を解きます。これもすでに一つの抽象化です。
根底にある現実は、空気の分子がお互いにぶつかり合い、飛行機にぶつかり合っている状態です。しかし、実際にこれをシミュレートする人はいません。私たちは常に、シミュレーションを可能にし、より有用なものにする抽象化を見つけ出します。
原則として、今私たち全員の間に起こっていることのすべてを、場の量子論のような非常に基本的な物理学の理論で説明することは可能です。しかし、それには膨大な計算量が必要になりますし、私たち全員を含む立方体の中にある宇宙の波動関数を測定する必要があります。これは完全に非現実的であり、非常に短期的な予測を行うために関わる計算量は正気の沙汰ではありません。
では私たちはどうするのか。私たちは抽象化、つまり粒子、原子、分子を発明します。分子のレベルになれば、本質的に化学を構成する抽象モデルを持つことができます。どの分子が他のどの分子とくっつくか、といったことです。物理学者は化学を応用物理学に過ぎないとからかいますが、量子物理学に由来するすべての根本的な詳細を無視し、化学のレベルでモデルを実際に使用することには大きな利点があります。
生物の世界でも、タンパク質、細胞小器官、細胞、生物、個体、社会、エコシステムといった概念があります。この階層のどのレベルでも、モデルを構築し、予測を立てることができます。階層の上のレベルに行くほど、それらの予測に含まれる細部は少なくなりますが、より複雑で巨大なシステムについて長期的な予測ができるようになります。そしてこの階層のどのレベルも、一つ下のレベルについての詳細を無視しています。
物理学では、実はこれは一種のアートのようなものです。これはエントロピーと呼ばれます。物理システムの何らかの性質を抽象化し、それを記述する際、集合的に無視した情報のことをエントロピーと呼びます。
飛行機にぶつかる空気分子をシミュレートできないのと同じように、箱の中の空気分子もシミュレートしません。しかし、箱を熱すれば圧力が上がることは集合的に予測できます。理想気体の状態方程式です。これは集合的な法則であり、システムの状態に関する大部分の情報を無視しても予測を可能にしてくれます。
予測を行うためには、知的システムが世界の抽象的な表現を見つける必要があるというこの概念は、絶対に不可欠なものです。そして、これがJEPAの背後にある唯一のアイデアなのです。
面白いことに、生成モデルを捨てるべきだと人々を説得するのに私は苦労しています。私にとっては完全に自明なことのように思えるのですが、これを人々に納得させるのは非常に難しいのです。
予測を可能にする世界モデルは、世界のシミュレーターであるべきではありません。それは、予測可能でありかつ関連性があると思われる世界の部分だけをシミュレートするものであるべきです。したがって世界モデルはデジタルツインではありません。生成モデルでもありません。動画生成システムであるべきではないのです。
世界モデルがどうあるべきかというと、抽象的な表現空間において、次の世界の状態がどうなるかという行動を条件とした予測器です。そして、先ほどお話しした計画のための最適化プロセスが、組み合わせ探索ではなく勾配ベースの手法で実行できるように、できれば微分可能であるべきです。
世界モデルの応用と制御理論
では、世界モデルを何に使えるのでしょうか。ターボジェットエンジンを最適に制御したいとしましょう。ターボジェットエンジンの全体的な動作を説明できる小さな数式の束を書いて解くのは非常に困難です。ターボジェットエンジンには通常1000個ほどのセンサーがあり、1000個のセンサーから測定値を取得します。
実現したいのは、エンジンの状態の抽象的な表現を抽出し、おそらく自分が行おうと想像しているアクションや介入を組み合わせることです。そして一定期間の測定を通じて結果、つまりシステムの次の状態を観察します。そしてこの抽象レベルで、前の状態と自分が想像したアクションの結果として、エンジンの次の状態がどうなるかを予測します。
もしそのようなモデルがあれば、燃料消費量、効率、寿命、あるいはCO2排出量など、望む指標を最適化するためのアクション、介入、または制御のシーケンスを計画することができます。これはまさに古典的な最適制御ですが、方程式を書き下すという還元主義的なアプローチではなく、データから訓練されたモデルを使用しています。
もちろん、ここで応用数学者の皆さんの仕事を奪おうとしているわけではありません。これは、古典的な方程式のセットに落とし込むことが非常に困難な複雑なシステムの現象論的モデルを構築するための新しい方法にすぎません。
当然、化学プラントや石油精製所などのより複雑なシステム、あるいはあらゆる産業プロセス、さらには患者という極めて複雑なシステムにもこれを適用することが考えられます。そこでも抽象的な表現が必要です。患者をある生化学的相互作用のレベルでシミュレートするわけではありませんから。より抽象的なものが必要です。
しかし、糖尿病のような慢性疾患を抱える患者を治療したり、インスリンを産生する膵臓のベータ細胞に変わるよう幹細胞に指示するような行動計画を立てたりできる現象論的モデルを持つことは想像できるでしょう。
もちろんこれを使ってロボットを制御することもできます。今日のロボティクスの悲しい現状は、ヒューマノイドを含むロボットを製造している多くの企業があり、彼らはロボットにカンフーやダンスなどの本当に素晴らしい離れ業をさせることができますが、物理世界との相互作用をモデル化すること、例えばマニピュレーションなどが難しいということです。現実世界をモデル化するのは複雑であり、これこそがJEPAを必要とする領域です。
この世界モデルのアイデアは非常に古く、50年代後半から60年代前半にまで遡りますし、モデル予測制御のアイデア全体も1970年代から存在しています。これは新しい概念ではありません。私やユルゲン・シュミットフーバーや機械学習コミュニティが発明したものでもありません。本当に最適制御コミュニティによって発明されたもので、ほぼ私と同じくらいの歴史があります。そして、これの背後にある数学は非常に興味深いものです。なぜなら、それらはすべて古典力学などに基づいているからです。
コラプスの防止と正則化
では、どのようにしてこれらの世界モデルを訓練するのでしょうか。過去6、7年の間に、自己教師あり学習の適切な方法は生成アーキテクチャではなく、Joint Embeddingアーキテクチャを使用することであるという多くの証拠がありました。
これを行う方法は、画像の表現を学習するようにシステムを訓練することです。同じシーンの異なるビューである2つの画像を見せるか、あるいは一方が元の画像でもう一方がそれを破損させたバージョンの画像を見せ、悪い方の画像から良い方の画像の表現を予測するようにシステムを訓練します。
このように完全に自己教師ありでシステムを訓練したら、エンコーダーの出力である表現を使用します。エンコーダーを固定し、その上にシンプルな分類器を教師ありで、場合によってはわずかなサンプルだけで訓練し、パフォーマンスを測定します。
私たちが発見したのは、このコンテキストで最もパフォーマンスが良いアーキテクチャは、再構成を試みないJoint Embeddingであるということです。オートエンコーダー、変分オートエンコーダー、マスクド・オートエンコーダー、拡散モデルなど、再構成ベースの手法を人々は試してきましたが、これらの手法から得られる表現はあまり良くありません。本当に優れたものは、Embeddingを使用し、再構成を試みないものです。高次元でノイズの多い連続データを再構成するようにシステムを訓練しようとすると、システムを殺してしまうのです。
先ほど申し上げたように、ここでの主な課題は崩壊を防ぐことです。システムを訓練する際、システムは入力を無視して定数の表現を生成するだけで満足してしまいます。この崩壊を防ぐためのいくつかの技術を持っていますが、本当に興味深いと思うので最新のものについてのみお話しします。SIGREGと呼ばれるもので、これはエンコーダーから出力されるベクトルの情報量の何らかの尺度を最大化する方法です。
これには理論的な根本問題があり、私の意見では解決不可能です。何かを最大化するためには、そのものの正確な測定値か、あるいは下限が必要です。情報量を最大化するには情報量の下限が必要ですが、残念ながら情報量を正確に測定することはできません。なぜなら、点の確率分布の正確な見積もりがあることを前提としているからであり、私たちが持っているのは離散的なサンプルだけだからです。したがって情報量を実際に測定することはできず、私たちが持っている近似的な尺度は上限だけです。測定時に考慮する依存関係の種類について仮定を置いているため上限になってしまうのです。
そこで私たちがごく最近たどり着いた技術は、エンコーダーから出力されたデータ点の集まりに対して適用されるものです。もし、バッチ上のサンプルのこれらの点の分布が等方性多変量ガウス分布になるようにエンコーダーを訓練できたとすれば、すべての変数は互いに独立になります。分散が1に拘束されるなどすればシステムはゼロに崩壊せず、変数は独立しているため、最大の情報量を持つことになります。結合ガウス分布は、与えられた分散に対する最大エントロピー分布なのです。
ではこれをどうやって行うのか。これは完全に手に負えないように見えますが、いくつかの定理を使って実行します。その定理の1つはブラックウェルに由来するもので、経験分布を多くの異なる軸に沿って投影するというものです。特定の軸に沿って投影したときの周辺分布は1次元の分布になります。
次に、この投影された1次元分布とガウス分布との間の距離はどれくらいかと考えます。実は、この経験分布とガウス分布との間の何らかの距離を簡単に計算することができます。一番簡単な方法は分布ではなく累積分布で計算することです。この1次元投影の累積経験分布を計算します。サンプルの値に従ってソートし、累積分布である階段関数を計算します。この分布とガウス分布の理想的な累積分布との間のワッサースタイン距離を計算できます。基本的に、すべてのデータ点に対して勾配が得られます。累積経験分布がガウス分布により近くなるように、それぞれの値をどう動かすか、どう変更すべきかを教えてくれるのです。
実際SIGREGで行っているのは少し異なり、経験分布とガウス分布の特性関数を計算し、その特性空間での距離を計算します。これはEps-Pullと呼ばれる基準で、これが私たちがSIGREGで使用しているものです。しかし、より最近のバージョンでは、先ほどの累積分布のアイデアに戻りつつあります。
ここで見ているのは、そのようにして得られた点の集まりを、さまざまな基準を使って分布がガウス分布になるようにどのように動かすかの様々な例です。これは共分散行列の非対角項を最小化するもので、それぞれ異なる基準を使用しています。Eps-Pullは私たちがSIGREGの研究で採用したものですが、先ほど言ったように累積分布を使用した他の研究もあります。
さて、これでエンコーダーから出力されるすべての点、そしてすべての点のすべての成分に対する勾配が得られました。全体の分布をより多変量等方性ガウス分布にするために、特定のサンプルの特定の成分の値をどのように変更すべきかが分かります。この勾配をエンコーダーを通して逆伝播させ、重みを変更します。これが正則化です。そして同時に予測誤差を最小化し、すべてのニューラルネットのパラメータを同時に調整してこれらを実行します。
これは比較的小規模な例では驚くほどうまく機能します。これを非常に大規模なニューラルネットにスケールアップする作業はまだ残っていますが、より最近ではこの技術を使用して世界モデルを構築し、結果は非常に有望です。NYUでの私との共同研究で、NYUの学生、Metaの研究者たち、そしてブラウン大学にいる私の元ポスドクも参加しています。
私が説明した通りですが、ここでは訓練時にロボットが取るアクションに条件付けられた予測器があります。これが非常にうまく機能します。これを使って、特定の目標に到達するためのアクションのシーケンスを計画するシステムを基本的に訓練できます。デコーダーを訓練してシステムが予測で何を想像しているかを表示させると、かなりうまく機能しているように見えます。シミュレートされた、比較的単純なおもちゃのような計画タスクの数々で比較的うまく機能しています。詳細で退屈させるつもりはありません。
DINOやI-JEPAなどの蒸留手法
さて、ここからは最も有望だと私が考えているものについてお話ししますが、現在最も完成度が高いのはこれではありません。今日最も完成度が高いのは、画像や動画の表現を学習するための蒸留の手法です。
特にI-JEPAと呼ばれる数年前の技術があります。JEPAアーキテクチャの1つを採用し、それが崩壊するのを防ぐために訓練する方法です。少し謎めいており、なぜ機能するかを完全には理解していませんが、機能することは確かです。このアイデアの由来は複数ありますが、オリジナルはGoogleの論文にあると思います。
アイデアとしては、依然として2つのエンコーダーを持っていますが、予測誤差を最小化する方法が異なります。崩壊を防ぐための様々な正規化がありますが、もう一つのトリックは、基本的にシステムのこの部分に勾配を伝播させないことです。右側のエンコーダーは勾配を受け取らず、その重みは、訓練中に勾配を受け取る左側のエンコーダーの重みの何らかの関数になります。
右側のエンコーダーの重みを計算する方法は、訓練中の左側のエンコーダーの過去の重みベクトルのシーケンスを取り、指数移動平均、基本的には過去の重みの移動平均を計算し、それを右側のエンコーダーの重みとして設定するというものです。なぜかこれが崩壊を防ぎます。理由はよく分かっていないため、この方法は完全に満足のいくものではありませんが、非常にうまく機能し、スケールアップして非常に良い結果を得ることができます。
これが機能する理由を説明しようとする理論的な論文もいくつかあります。特にMetaの元同僚であるヤン・ドンたちの論文です。彼らは、エンコーダーと予測器が線形であるといういくつかの仮説の下では、崩壊しないダイナミクスの固定点が存在することを証明できるとしていますが、私たちが分かっているのはそれだけです。しかし、驚くほどうまく機能します。
もう一つの蒸留手法がDINOと呼ばれるものです。これはパリにいるMetaの元同僚たちの研究で、最新のものはDINO v3です。これは基本的に、画像から汎用的な特徴を抽出するための世界最高の方法であり、望むどんな下流タスクの画像表現としても使用できます。オープンソースであり、非常に人気があります。医療画像や衛星画像など、様々なアプリケーションに適用されています。
JEPAによるプランニングとV-JEPA
では、計画のためにこれらのJEPA世界モデルをどのように使用するのでしょうか。予測器をアクション条件付きで訓練し、この予測器ができたらモデル予測制御を使用することができます。一連のアクションの結果を想像し、最終的な予測状態から達成したいターゲット状態までの距離測度や何らかのダイバージェンスを測定します。そして最適化を通じて、そのコストを最小化するアクションのシーケンスを計画します。これが目的駆動型AIによる計画です。
DINOなどの事前学習済みエンコーダーをこれに使用する論文がいくつかあり、単純なタスクではそこそこうまく機能します。動画をお見せしましょう。フレームレートが十分に見えるくらい高いといいのですが。これはDINO表現の上に訓練された世界モデルです。左側が初期構成、上部がターゲット構成、下部がシステムが計画によって推論したアクションのシーケンスで、基本的には初期状態を最終状態に変えるものです。これをいくつかの異なるシミュレートされたおもちゃの計画シナリオに適用し、そこそこうまく機能しました。
より最近では、これらのJEPAアーキテクチャの1つをエンドツーエンドで訓練しました。エンコーダーと予測器を訓練し、動画用の世界モデルを構築したのです。動画を取得し、大きな塊をマスクして破損させ、このアーキテクチャ全体を訓練します。アクションが含まれる例もあれば、含まれない例もあります。最初の段階ではアクションはありません。システムに予測するように訓練するだけです。そして、その短い動画セグメントの表現を、アクション認識のような下流タスクへの入力として使用します。
これは非常にうまく機能します。これはおそらく、様々なタスクを達成できる汎用的な方法で動画を表現するための最高のシステムです。しかし、これにできることは基本的に、システムがある程度の常識を獲得することです。V-JEPAの最初のバージョンをテストにかけ、システムが現実世界で何が可能で何が不可能かをどの程度学習したかを確認しようとしました。
そこで、不可能なことが起こる動画を見せます。例えば、ボールが空中に投げられ、通常の軌道をたどりますが、あるフレームで消えてしまったり、立方体に変わったりするなど、不可能なことが起こる動画です。そしてシステムの内部で予測誤差を測定することができます。そのような不可能な出来事が起こると予測誤差が急上昇します。つまりシステムは基本的に、不可能な事象に対して驚きを知っているのです。表現レベルでの予測という観察のみを通じて自発的に訓練されたシステムが、あるレベルの物理的常識を獲得したという現象を観察したのはこれが初めてのことです。これは本当に新しくて興味深いことです。
V-JEPAシステムの訓練の第2段階は、ロボットからの動画からアクション条件付きで訓練し、それを予測器として使用してアクションのシーケンスを基本的に計画することです。これは計画の例を示す短い動画です。初期状態から始まり、エンコーダーを通して状態のターゲット値を与えるゴールがあります。そして探索と最適化により、システムはカップが動かされてゴールに近づくためのアクションシーケンスを計画します。実際にシステムによって計画されたアクションシーケンスです。
現在ではこれより少し新しいバージョンがあり、サブレベルの階層的計画を行うことができますが、ここでは説明しません。V-JEPA 2.1と呼ばれるさらに新しいバージョンは、オープンソースコードと事前学習済みモデルを入手できます。これらのシステムは動画から情報を抽出するのに本当に優れており、計画にも優れています。深度推定のようなこともできます。
V-JEPA 2.1システムは、単一の画像内のすべてのピクセルの深度を予測するように表現のトップに非常に単純なヘッドを訓練すると、かなり良い仕事をしてくれます。世界が3次元であるということを全く教えられることなく、動画で訓練されただけで3D世界を表現することを学習しているため、非常に興味深いです。おそらく、カメラを動かしたときの世界の見え方の変化を説明する最良の方法は、画像内のすべての点に深度を与えることだと学習したのでしょう。システムの表現は暗黙のうちに深度をエンコードしているのです。これは本当に興味深いポイントです。
また、物体の境界やカテゴリーなどの情報も含まれています。セマンティックセグメンテーションを行うようにヘッドを訓練すると、かなり良い仕事をしてくれます。V-JEPA 2.1が生成する高次元表現の最初のいくつかの主成分をグラフィカルな色で表現すると、そこから得られるセマンティックセグメンテーションのようなものが見て取れます。
少し時間を使いすぎているので、これは飛ばして結論に行きましょう。
AIの未来への提言と結論
AIを次のレベルに押し上げたいと考えている人々へのいくつかの提言があります。それは、生成アーキテクチャを捨てて、Joint Embedding Predictive Architectureを支持することです。業界全体が生成AIやLLMに莫大なリソースを投資している中で、私は皆にこれはあまり先まで行かないだろうと言っているのですから、シリコンバレーではあまり人気がありません。
私は彼らが役に立たないと言っているのではありません。非常に有用であり研究を続けるべきですが、人間レベルの知性への道筋としては、LLMは行き止まりです。ですから、生成モデルを捨て、確率モデリングを捨てて、私がエネルギーベースモデルと呼ぶ別のパラダイムを支持してください。対照学習法も捨ててください。これについてはあまり話しませんでしたが、私がはるかに有望だと考える情報最大化法に焦点を当てたからです。対照学習法はJoint Embeddingアーキテクチャを訓練して崩壊を防ぐ古い方法です。
また私は過去12年間、強化学習を捨てるか、少なくともその使用を最小限に抑えよとも声高に言ってきました。なぜならサンプル効率が非常に悪いからです。したがって、もし本当にAIを人間や動物レベルに押し上げることに関心があるなら、LLMに取り組むべきではなく、世界モデルに取り組むべきです。そして世界モデルは生成的な方法で予測を行うのではなく、世界の抽象的な表現を見つけることを試みるべきだと主張してきました。
世界モデルやJEPAでの実験で良い結果が出始め、シリコンバレーのほとんどがLLMに集中しているため、私は昨年末にMetaを離れ、AMIという会社を設立することにしました。この会社はまさにこの開発に焦点を当てています。私たちはまだ研究を行っており、オープンソース化し、論文を発表しています。まだ始まったばかりで、採用も行っています。そして基本的には、現在のAIが苦手としている現実世界の問題をすべて解決することを目指しています。
私たちの希望は、階層的JEPAと階層的計画が、あらゆる複雑な現象の普遍的な因果モデルを訓練することを可能にし、将来のあらゆる知的システムの基盤となるかもしれないということです。どうもありがとうございました。
質疑応答:数学の役割とエネルギーベースモデル
ヤン・ルカン教授、本当にありがとうございました。皆様から質問があればお願いします。
最初の質問があります。応用数学のウェビナーの招待を引き受けてくださったこと自体が、この科学の重要性を示す最大の証拠だと感じています。AIの研究に専念している数学者は十分だと思いますか。それとももっと数学者が必要だと思いますか。
はい。私の学術的なポストはクーラント研究所にありますが、これは9月以降、ニューヨーク大学の中の1つの学校として独立しました。数学、コンピューターサイエンス、そしてデータサイエンスを統合した学校です。かつては文理学部の1つでしたが、現在は独立しています。これは、数学とコンピューターサイエンス、そして実質的に応用AIであるデータサイエンスが非常に重要になっているからです。ニューヨーク大学は、この分野全体が非常に重要であるため、法科大学院やビジネススクール、工学部から独立した専用の学校を持つべきだと判断したのです。
私はコンピューターサイエンス学部に所属しつつもクーラントの一部であるため、応用数学の人々や学生とも多くの交流がありました。長年UCLAの純粋・応用数学研究所の科学諮問委員会のメンバーでもあり、数学者たちを機械学習、特にディープラーニングの世界に引き込もうと常に努力してきました。なぜなら、そこにある数学的課題は本当に非常に興味深く、同時に非常に複雑だからです。
伝統的に、数学的背景を持つ機械学習に興味のある人々は、カーネル法、サポートベクターマシン、ベイズ推論といった、より単純な機械学習パラダイムに焦点を当ててきました。そちらの方が理論を書きやすいからです。ニューラルネットは非常に複雑で扱いにくいものです。そのため、理論家たちはディープラーニングに取り組むことに消極的でした。私たちが最適化する関数は非凸であり、何も証明できないからです。
私たちは確率的勾配降下法を使いますが、最適化の専門家にとってはその振る舞いをモデル化するのは非常に困難です。最適化アルゴリズムを分析するために私たちが使用する従来の最適化のツールや基準はすべて窓から投げ捨てられます。なぜなら、機械学習では厳密な最適化は気にしないからです。それをすると過学習を起こしてしまうからです。
統計学者や確率論者でさえ、二重降下と呼ばれる現象には困惑しています。伝統的に統計学の教科書では、一連の点に関数をフィットさせようとするとき、パラメータが多すぎると過学習を起こすから良くない、と教えられます。10個の点に11次多項式を使うと、多項式はすべての点に正確に合いますが、点と点の間は完全に暴れてしまいますよね。したがって、ノイズの多い信号の関数近似としては、パラメータの少ないモデルが必要です。
しかし、その議論は経験的に完全に間違っていることが判明しました。今、私たちはこれを理論的に理解する必要があります。ニューラルネットはパラメータ過剰です。訓練サンプルの数と比較して、パラメータの数は膨大です。にもかかわらず、これらのシステムは非常によく汎化し、補間も行い、外挿すら行います。これが二重降下という経験的現象であり、モデルのパラメータ数などのパワーを増やすにつれて、テストセットでのエラーは最初下がっていきます。そして、パワーを増やしていくとエラーが増加する地点があり、ここで過学習が発生します。しかしその後、モデルのパワーをさらに増やすと、少なくとも適切に正則化されていれば、エラーは再び減少し、ゼロに近づくことさえあります。
この現象は少し不可解です。直感的な説明はいくつかあり、私自身も以前から持っていますが、理論的には完全には理解されていません。
そして、数学がさらに特異な役割を果たす部分があります。エネルギーベースモデルについてはあまり話しませんでしたが、そこで非常に興味深い数学的研究ができると期待しています。例えば、2つの変数間の依存関係を推定したいとしましょう。2つのスカラー変数XとYの依存関係があり、データの束を与えられたとします。しかしXとYの依存関係は関数ではありません。なぜなら、与えられたXに対して複数のYの値が存在する可能性があるからです。
このXとYの依存関係をどうやって捉えればいいのでしょうか。もちろんXとYの結合分布を学習すると言うこともできますが、高次元ではそれは非常に困難です。高次元での分布の推定は基本的に不可能で計算困難です。エネルギー関数で表現し、マイナスの指数を取って正規化する必要がありますが、正規化定数は計算不可能です。物理学の分配関数のようですが、複雑なエネルギー関数をどう積分すればいいのかわかりません。基本的に計算不能なのです。
では、もっと簡単な方法はどうでしょうか。それがエネルギーベースモデルです。スカラーの出力を返すコントラスト関数を学習できます。XとYのペアを受け取り、そのペアがデータ密度の高い領域にあればゼロなどの低い値を返し、データマニフォールドから離れるとそのスカラー関数の値が増加するというものです。要するに、データマニフォールド上にいるのか、そこから離れているのかを教えてくれるコントラスト関数、エネルギー関数です。2つの変数の依存関係を捉えるために必要なのはこれだけです。これは確率モデリングよりも依存関係を捉えるはるかに優れた、そして簡単な方法です。これについては多くの理論を構築する必要があります。長くなってしまってすみません。
質疑応答:原子力産業への応用と世界モデル
チャットに質問があります。デニー・ラフさんからですね。
はい、聞こえますか。ルカン教授、講演ありがとうございます。単なるアクション予測と、世界モデルを使った真のプランニングの違いや、AIの次の波がトークンだけでなく高次元でノイズの多いデータを扱う必要があるというご指摘は非常に興味深かったです。
私の質問は、宇宙産業や原子力産業のような、安全性が極めて重要な業界への導入についてです。私はパリの原子力エンジニアで、デジタルエクセレンスセンターのR&Dチームにいます。センサーのストリーム、検査画像、メンテナンスデータなど、私たちが直面している現実はまさにあなたが説明した通りでした。
質問ですが、あなたは世界モデルはデジタルツインであるべきではないと主張し、ChatGPTのような生成モデルに対してかなり強い立場をとっていますね。しかし原子力分野では、物理ベースのモデルや明示的なシミュレーター、あるいは不確実性の定量化はオプションではありません。私たちはパフォーマンスだけでなく、検証や監査可能性などでも評価されます。
専門家ではないので恐縮ですが、あなたが説明したJEPAスタイルの、あるいはアクション条件付き世界モデルが、原子力のような分野での第一原理エンジニアリングモデルとどのようにインターフェースしていくと考えていますか。デジタルツインを置き換えるものとして見ているのか、それとも異常の予測などのプランニングのためのより高い抽象レイヤーとして見ているのでしょうか。
ええ、私たちが予想していること、そしてもちろんAMIという会社のコンテキストでよく考えていることは、私たちの最初のビジネスであり顧客はおそらく、原子力発電所などの複雑なシステムの制御になるだろうということです。
システムの現象論的モデルを訓練し、あらゆる状況に対する介入シーケンスを計画できるようにします。これは実際のデータで訓練することもできますし、デジタルツインシミュレーションから得られた合成データで事前学習し、実際のデータで補完してより現実的にすることもできます。
そして、システムは実行しながら自分自身を微調整していくこともできます。毎ステップ予測を行い、その結果を観察し、自分の予測と実際に起きたことにズレがあるからモデルを調整する必要があると判断します。これはモデル予測制御で行われていることに似ています。
ですから、原子力発電所の制御に使えるほど信頼できるモデルができるまでには時間がかかるかもしれませんが、それが私たちの核心的なビジネスであり、希望でもあります。
なるほど、興味深いです。補足ですが、原子力分野ではプロセスを単純化しようとしており、SMRと呼ばれるものを開発しています。あなたのJEPAスタイルのモデルとは、有益なコラボレーションの可能性があると思います。ありがとうございました。
質疑応答:LLMの知性の錯覚
他にご質問はありますか。モハメドさん、直接質問をお願いします。
はい。素晴らしい講演をありがとうございます。私の質問はよくあるものですが、言語に基づいて次の単語を予測するように設計されたシステムにおいて、突然知性のひらめきがどのように起こるのかということです。時として本物の知性を示しているように見え、困惑させられます。これがいつ、どのように起こったのかについて何か説明はありますか。
ええ。LLMが困惑するような知性を示す分野は2つか3つしかありません。それは、コンピューターコードの生成、数学、そしておそらく法律のテキストなどです。その理由は、これらの分野では、言語自体が推論の基盤になっているからです。
私たちが数学をするとき、単なる記号の操作が時に予期せぬ結果をもたらします。推論は基本言語自体によってサポートされるのです。コードを書くときにも似た現象があり、コードを構成するアイデアがあっても、それを書き始めると結晶化し、単純にコードを書くという行為が概念を明確にしてくれます。優れたコンピューターサイエンティストならそうです。
したがって、LLMが行っている記号の操作が、これら2つの領域では推論の助けになることが想像できます。実際、システムが数学やコードを処理する方法は、たくさんの異なる記号のシーケンスを生成し、別のネットワークが最良のものを選ぶというものです。コード生成ならコードが動くかどうかテストして反復できます。だからコード生成には時間がかかるのです。数学であれば、結果にたどり着き、証明を試みたり、数値例で検証したりできます。
つまり、これらは答えが正しいかどうか検証できるため、自己調整機能が働く領域なのです。そして推論の基盤は言語そのものです。
しかし、人間の推論と知性のほとんどは言語とは何の関係もありません。現実世界での私たちの経験に関係していますが、言語に縛られていませんし、言語に助けられてすらいません。それは動物に最もよく当てはまりますよね。彼らは言語を持っていませんから。
LLMで私たちが観察する知性の種類は非常に狭く限定的なものです。私たちがするすべての質問に答えてくれるから知能があるように見えるのは、一種の錯覚です。彼らは基本的には検索を行っています。特に賢いわけではなく、膨大な知識を蓄積し、適切なタイミングでそれを吐き出し、少し適応させることに極めて優れているだけです。実際、時には本当に馬鹿げた答えを返してきます。
最近SNSで出回った話があります。車を洗いたい。洗車場は家から100メートル離れている。歩いて行くべきかと尋ねた人がいました。ChatGPTやClaudeなどほとんどのAIは、はい、たった100メートルなので歩くべきですと答えました。あなたが車を持っていくことにならないという現実に気づいていないのです。
正確に答えられたのはGoogleのGeminiだけでした。しかし、おそらく最近になって正しい答えを出すようにファインチューニングされたからでしょう。
私は1、2年前、Lex Fridmanの人気ポッドキャストのインタビューでこう言いました。LLMは物理的な直感を持っていません。テーブルに物を置いてテーブルを押せば、物は一緒に動くという当たり前の物理的直感がありません。ChatGPTなどに聞いても、物理的な現実を理解して正しい予測をすることはできませんと。
もちろん半年後、その同じ質問をChatGPTの次のバージョンにすると、正しく答えるようになりました。物理的な現実をより深く理解したからではなく、ポッドキャスト公開後に何百人もの人がその質問をして間違った答えを確認し、OpenAIがそれをトレーニングデータに組み込んでファインチューニングしたからです。どんな質問でもファインチューニングすれば正しく答えられますが、それは検索です。基礎となる数学の深い理解を持たずに丸暗記しているクラスの学生のようなものです。
質疑応答:AIの安全性とオープンソース
素晴らしい講義をありがとうございます。先生は人間のAIに対する関心に焦点を当てていらっしゃいますが、人類は将来のAIを恐れるべきでしょうか。
ええ、よくある質問ですね。私たちはAIに対して注意深くあるべきです。なぜならAIは強力なテクノロジーであり、社会に恩恵をもたらすようにしなければならないからです。しかし、私たちの社会はこれに慣れています。消費者向けの新しい技術が登場するたびに、私たちは安全性を確保するための規制を設けてきました。
しかし、多くの人々が主張するような理由でAIを恐れるべきではありません。AIが他の技術と質的に異なり、研究レベルで本質的に危険だという考えは完全に間違っています。馬鹿げています。
実際のところ、これはシリコンバレーで始まった効果的利他主義と呼ばれるカルトのようなものです。人類の未来について長期的な予測を試み、潜在的に強力な技術は危険だから研究を止めるべきだと主張する人々です。完全に狂っています。現在AIに取り組んでいる多くの人がそのコミュニティの出身です。ダリオ・アモデイ、サム・アルトマンもある程度そうですし、彼らはそこから離れつつあるかもしれませんが。
ダリオ・アモデイは最近、Claudeは非常に強力なので、すべての人の手に渡したくない。サイバー攻撃を起こすなど危険すぎるからだと主張しました。しかし調査の結果、それは完全なデタラメだと判明しました。既存のツールでできないような新しいサイバーセキュリティ機能などなかったのです。彼らは脆弱性がわかっているソフトウェアを攻撃するように巧みにプロンプトを出し、コンピューターセキュリティのコミュニティによって完全に論破されました。
それは彼らのマーケティング戦略です。彼らは何年もの間、政府にロビー活動を行い、AIは非常に危険だから研究を規制すべきだ、オープンソースAIは人類滅亡につながる可能性があるから禁止すべきだと主張してきました。自分たちが誰よりも進んでいると思い込み、巨大な優越感を抱いています。無知な大衆にはAIをどう扱えばいいかわからないから利用できるようにするな。私たちは自分たちのしていることを分かっているから規制するなと政府に言っているのです。信じられないほど貴族的な態度であり、私は狂っていると思います。
もう一つの重要なポイントは、チュニジアや北アフリカ、ヨーロッパ、アジアなど世界の多くの地域にとって、オープンソースAIが必要不可欠だということです。AIにおける主権を持つ唯一の方法は、強力なオープンソースAIシステムにアクセスすることです。プロプライエタリなAI企業はそれを止めたいと考えており、それを阻止することに商業的な利益を持っています。
質疑応答:世界モデルにおける状態の数学的定義
刺激的なトークをありがとうございます。数学者としてお聞きします。アクション条件付き世界モデルと因果モデルについてですが、モデルはすべての詳細を予測するのではなく、抽象表現空間で予測を行うと仰いました。より深く詳細を予測する数学的モデルが必要だと感じます。状態の数学的に厳密な概念とは何ですか。マルコフ状態に近いのか、表現空間の単なる要素なのでしょうか。
非常に良い質問です。特定の物理システムなどにおいて、状態の単一の適切な定義というものはありません。状態の表現には複数のレベルがあります。良い状態とは、あなたが行いたい予測を可能にするもののことです。
例えば飛行機の周りの空気の流れの場合、分子の位置や速度、温度といった非常に低レベルで高次元な状態表現は、ごく短期的な予測しかできません。だからこそ私たちは抽象化を行います。空気を小さな立方体の中の速度、密度、温度などで表し、ナビエ・ストークス方程式を解きます。あるいは空間の離散化をさらに大きくすることもできます。精度は落ちますが、より長期間の予測が可能です。
ヨットでセーリングをする人はわかると思いますが、船の速度を最大化するために帆を調整しなければなりません。私は頭の中で非常に抽象的なレベルで帆の後ろの空気の乱れをシミュレートしています。角度をつけすぎると乱気流が起きる、追い風に真っ直ぐ向かうと層流が得られないから少し角度をずらす、などです。ニュートンの方程式を解いているわけではなく、もっと高い概念レベルでのメンタルシミュレーターですが、乱気流や迎角を特定できます。
データや経験から構築できる私が言っている現象論的モデルとはこのようなものです。すべての詳細をシミュレートするわけではなく、そうすることは不可能です。箱の中の空気分子を個別にシミュレートすることはできませんが、PV=nRTと書くことはできます。熱すれば分子の平均速度が上がり圧力が上がるという法則です。
つまり状態とは単一の定義ではありません。それは階層であり、どのような予測を行いたいかに応じてその階層レベルを選択するのです。
理解しました。世界モデルは相関だけでなく因果関係も捉えられるということですね。
ええ。前の状態とアクション、そして次の状態を観察できれば、それは因果モデルになります。もちろん、真の因果推論ではアクションを観察できない場合もあります。その場合は潜在一アクションを推論する技術が必要で、少し複雑になります。人間でさえ因果推論がそれほど得意というわけではありませんからね。雷を神の怒りだと説明してきたように。気分を害するかもしれませんが、もし人間が因果推論にそれほど長けていれば、宗教は存在しなかったでしょう。
質疑応答:チョムスキー、量子AI、その他の質問
言語に関するチョムスキーの普遍文法と、データ駆動型ニューラルネットワークの見解が和解することはあると思いますか。
その議論はすでに決着がついています。人間の脳には言語のための特別なハードワイヤードされた器官があり、それが記号操作を可能にするというチョムスキーの理論や、AIシステムに明示的な記号操作メカニズムを組み込むべきだと主張する人々の意見は、私には馬鹿げて聞こえます。
人間の脳は単なるニューロンの集まりであり、大脳皮質の構造はどこも非常に似ています。特定の場所に特別なアーキテクチャがあるわけではありません。LLMが証明したことがあるとすれば、伝統的な言語学の概念やチョムスキーが何十年も主張してきた概念に一切頼ることなく、極めて優れた言語理解と操作ができるということです。その戦いは終わり、チョムスキー派は敗北しました。
今日は国際量子デーですが、量子コンピューティングが現実のシミュレーションの可能性を提供し、和解の解決策になる可能性はありませんか。
私は全くそうは思いません。量子コンピューティングについては極めて懐疑的です。中期的にも、量子システムのシミュレーション以外に有用な用途があるとは思えません。素因数分解を除いて、数学的に証明可能で効率的な有用なアルゴリズムはありません。技術も複雑で、スケールアップやエラー訂正がうまくいくかも不明です。魅力的な研究テーマであることは間違いありませんが、産業として、あるいは今後20年以内でAIに重大な影響を与えるとは全く信じていません。
コンペティションでNVIDIAの大規模言語モデルをLoRAアダプターで微調整するように求められました。アドバイスはありますか。
残念ながら特別な推奨事項はありません。Metaの多くの人々がLLMや対話システムに取り組んでいた時期も、私は個人的に関わっていませんでした。ChatGPTなどが一般に認知されるようになった頃には、私はすでにAIの未来は世界モデルにあるという論文を発表しており、LLMの研究に深く関わってこなかったからです。LoRAは世界モデルの調整にも使える興味深い概念ですが、LLMの微調整について特別なアドバイスは持っていません。
計算生物学の博士課程の学生ですが、空間的トランスクリプトミクスなどの新しい生物学の応用において、JEPAをさらに発展させる可能性はありますか。夏のインターンシップは募集していますか。
私が言及した1300件の論文の中にはバイオインフォマティクスやゲノミクスに関するものもかなりあるはずですが、まだ広く開発されているわけではなく、開拓の余地が大いにあります。ワイツマン科学研究所などでも、様々な症状の治療を受けている患者の状態をJEPAでモデル化する研究などが行われています。
インターンシップについては、AMIは現在急ピッチで組織を作っているところです。基本的には、修士2年目でインターンシップを行い、その後私たちのところで博士課程の学生として研究を続ける意欲のある方を受け入れる可能性があります。
最後の質問をお願いします。幾何学的ディープラーニングの将来の役割についてどうお考えですか。
まず多様体学習についてお答えします。JEPAを訓練して崩壊を防ぐために情報最大化を使用するというアイデアは、基本的に多様体学習です。高次元の入力空間におけるデータの低次元構造を学習し、それを平坦な多様体にマッピングしようとしているわけですから。 グラフニューラルネットとの接続については、グラフを入力とするJEPAを訓練した人はまだいないと思います。それは実験するのに非常に興味深いテーマでしょう。私の元共同研究者でシンガポール国立大学にいるザビエル・ブレッソンなど、これに関心を持っている人々がいることは知っています。
お時間となりましたので、これで終了とさせていただきます。ヤン・ルカン教授、新たな挑戦へのご多幸をお祈りします。ありがとうございました。
ありがとうございました。


コメント