本動画は、AIのゴッドファーザーの一人と称されるヤン・ルカン氏へのインタビューである。大規模言語モデル(LLM)の限界と今後の課題について深く掘り下げ、LLMが真の人間レベルの知能に至る道筋ではないと主張する理由を詳説する。また、同氏が新たに立ち上げた企業AMIの取り組みや、物理世界を理解して行動を予測する世界モデル、そしてJEPAアーキテクチャの重要性について解説する。さらに、MetaのAI研究部門FAIRでの経験、オープンソースAIの未来を担うプラットフォームTapestryの構想、AIの安全性に対する独自の視点まで、次世代のAI技術に向けた包括的な洞察を提供する内容となっている。

AIのゴッドファーザーが語る未来への道筋と新たな挑戦
AIのゴッドファーザーのお一人ですよね。この先の進化の道筋についてどのような見解をお持ちですか。
5年で世界を完全に制覇するでしょうね。画期的な研究を生み出す最善の方法は、最高の人材を雇い、彼らの邪魔をしないことです。言葉が悪くてすみません。
チューリング賞を他のお二人と共同受賞されましたが、いつ頃から見解が分かれ始めたのでしょうか。
2023年です。
Metaを離れるべき時期だとどうやって判断したのですか。しばらくの間、こうしたことについてじっくり考えていたように聞こえますが。
私の役割やアレックスとの関係、そしてMetaでAIがどう運営されていたかについて、大きな誤解があります。
この1年で考えが変わったことは何かありますか。つまり、ヤン・ルカンという存在そのものがですね。
彼はAIのゴッドファーザーの一人であり、この分野の絶対的なレジェンドです。私が長年憧れてきた人物でもあります。ですから、彼をアンスーパーバイズド・ラーニングのポッドキャストにお招きできたことは、本当に素晴らしい出来事でした。彼はLLMに対して多くの点で懐疑的な立場をとっていることで知られています。そこで私たちは、LLMにできること、できないこと、彼が考える限界、そして最終的に彼がなぜ異なるアーキテクチャを追求することに決めたのかについて深く掘り下げました。さらに、Metaでの日々についても語り合いました。FAIRの設立において彼が誇りに思っていること、ここ数年がどのように進展したか、そして何が最終的に彼を独立させ、自身の会社であるAMIを立ち上げるに至らせたのか。現在のAIエコシステム全体で起きていること、基礎研究とLLMの推進の間にある緊張関係、それが今日の多くの組織でどのように展開しているか、さらにはこの分野全体がどこへ向かっているのかについてのヤンの考えを聞くのは、ただただ魅力的だと思います。彼はこの分野における絶対的な巨人であり、このポッドキャストを始めたとき、彼のようなゲストを呼べたらと願っていましたから、本当に夢のようです。私たちの会話を皆さんに楽しんでいただけることを確信しています。それでは早速、ヤンの登場です。
ヤン、本日は本当にお会いできて光栄です。あなたはAIのゴッドファーザーの一人です。何年も前にこのポッドキャストを始めたとき、いつかあなたのような方をお招きできたらと心から願っていました。
私はニュージャージー州に住んでいるので、その呼び方はあまり好きではないんですよ。ニュージャージーでゴッドファーザーと言えば、全く違う意味になってしまいますからね。
確かにその通りですね。皆がニューラルネットワークを疑っていた時にあなたがそこに賭けたことは伝説的です。そして今日、あなたは多くの人が信じている支配的な生成アーキテクチャであるLLMに対して、ある意味で似たような賭けをしているように感じます。あなたはこのテーマを掲げて最近新しい会社を立ち上げました。本日の対話の目標は、リスナーの皆さんにAMIやTapestryでの取り組みについて、より多くの情報をお届けすることです。なぜあなたが、他の分野の人々が生成モデルに関して間違った方向に向かっていると考えているのか、そしてこの分野の発展やMetaでの時間に対するあなたの振り返りをお聞きできればと思います。たった1回のポッドキャストエピソードにしては、ささやかな目標ですね。まずは核心部分から始めるのが良いと思いました。なぜなら、その新会社こそが、あなたの今後の技術的テーゼを最も明確に示していると感じるからです。最近立ち上げたその会社は、世界モデルに焦点を当てており、あなたがMetaで先駆的に開発したJEPAアーキテクチャの拡張を目指していますね。そのアーキテクチャの起源や、人間の脳やその働きからどの程度インスピレーションを得たのかについて少しお話しいただけますか。
まず最初に申し上げておきたいのは、LLMに何か問題があるわけではないということです。LLMは、私も含めて私たち全員が使用している多くの非常に便利なAI製品の基盤となっています。彼らがこなすタスクにおいて、彼らは素晴らしいものです。ただ、人間のレベル、あるいは人間に似た知能、さらには動物のような知能へと至る道筋ではないというだけです。それが私の主張です。LLMが役に立たないと言っているわけではありません。人間に至る道ではないと言っているのです。
つまり、あなたは最初の主要なオープンソースモデルの構築にも貢献されましたよね。
もちろんです。では、AMIとは何でしょうか。AMIはAdvanced Machine Intelligenceの略で、サブタイトルやモットーのようなものとして、実世界のためのAIを掲げています。今日人々が知っているAI技術の多くは、人間の言語であれ、コンピューターのコードであれ、数学であれ、あるいは人間の言語と呼ぶにはギリギリの法律用語であれ、言語の操作には適しています。残念ながら、法律分野では多くの人間の言語がそのために使われていますが。悲しいことに、言語はある意味で非常に特殊であり、最近大きな成功を収めている大規模言語モデルやGPTスタイルのアーキテクチャといったタイプのアプローチに特に適しているのです。しかし、現実世界はどうでしょうか。物理的な世界を理解するということはどういうことでしょうか。実は、現実は言語よりもはるかに複雑なのです。なぜなら、それは高次元で、連続的で、ノイズが多く、乱雑だからです。そして、現実世界を理解するようにシステムを訓練することは、はるかに困難です。それこそが私たちが追求していることであり、私がキャリアの大部分をかけて追求してきたことです。そして、過去5、6年ほどの間、加速度的に取り組みを進め、ここ2年で大きな進展を遂げました。ですから、これを中心にスタートアップを立ち上げ、その推進に向けて本格的にギアを上げることは理にかなっていました。昨年末までには、Metaがそれを追求するのに適切な場所ではないことが明らかになっていました。それが、私が辞めてAMI Labsを始めた理由です。
基礎研究と製品化の間に生じる緊張関係
多くの人が大企業や研究機関から独立し、自分がワクワクする特定の研究の方向性を追求するという、全体的に見られる非常に興味深いトレンドだと思います。FAIRでのご経験から、あなたはこの状況を非常に興味深い視点から見てこられたはずです。これらの企業において、可能な限り多くの異なる研究の方向性を追求しようとする動きと、何かが本当にうまくいっているのだから、これを向こう半年から1年かけて売っていくために集中しようという動きの間に存在する、ある種の緊張関係についてです。この点についてのあなたのお考えと、業界全体で見てこられたことについてお伺いしたいです。
それは奇妙なトレードオフですね。研究開発には大きく分けて2つのモードがあります。多くの探索的な研究や、多様な研究の方向性が存在します。そして時々、何かがうまくいきそうな兆しを見せると、それをさらに推し進める必要がありますが、そうなるとそれはもはや研究ではありません。それに携わっている人々は研究者であり、少なくともメディアでは研究者と呼ばれていますが、実際には製品化に向けて推進するエンジニアリングの色彩が強くなっています。FAIRで始まったプロジェクトがきっかけで、Metaでもそうしたことが何度か起こりました。2023年の初頭にもまさにそうしたことが起きました。FAIRで開発されたLLaMAが非常に有望だったため、Metaはそれを現実のものとし、一連の製品に変えるためにGenAIという組織全体を立ち上げました。そしてLLaMA 2、LLaMA 3、LLaMA 4を生み出しましたが、少し期待外れな部分もありました。マーク・ザッカーバーグがそれに失望したため、彼は組織全体を再起動し、再編成して新しい人材を雇い入れました。しかし、この1年で起きたもう一つのことは、基本的にMetaという企業が、自分たちが少し遅れをとっていることに気づき、業界に追いつくことに戦略の焦点を再び合わせたことです。その悲しい副作用として、多くの探索的研究の優先順位が下がってしまいました。私が取り組んでいたJEPAや世界モデルに関するプロジェクトは例外でした。なぜなら、マーク自身やCTOのアンドリュー・ボズワースをはじめとする社内の多くの人々がそのプロジェクトに強い関心を持ち、長期的な影響力を本当に信じていたからです。しかし、会社の残りの部分は完全にLLMに集中しており、Metaがもはやそのプロジェクトを推進するための適切な場所ではないことが私には明確になりました。そして私たちも良い結果を出し始めていたので、研究と実際にその技術を開発し、スケールアップさせ、そこから製品を構築する段階への移行を行わなければならないことは明らかでした。また、応用先の大半が、Metaが特に興味を持っていない分野である可能性が高いことにも気づきました。私たちが取り組んできた技術の応用先は、製造業などの産業分野が中心だったからです。
世界モデルとジェネレーティブモデルの決定的な違い
明らかにあなたは世界モデルやその広範な世界を追求されていますね。そして、より生成的、ジェネレーティブなアプローチから世界モデルの領域にアプローチしている人たちもいると思います。例えば、GoogleのGenieや動画モデルのチーム、ロボティクス側でVLAモデルを構築しているチーム、あるいは空間的な3Dモデルに取り組んでいるチームなどがいます。あなたがJEPAモデルに期待を寄せるようになった証拠の蓄積と、生成的アプローチをとる人々の成果とを比較した場合、これらのアーキテクチャやアプローチを比較するという点で、私たちは今日どこに立っているとお考えですか。
世界モデルという言葉は急速にバズワードになりつつありますね。現在、研究分野では間違いなくそうですし、産業界でもある程度はそうです。そこには2つの派閥のようなものがあります。VLAについてはお話ししません。なぜなら、VLAは現在、明確にどこにも行き着かない、つまり本当に機能していないと見なされているからです。VLAとは、ビジョン、言語、アクションのモデルのことです。LLMの技術を使って、ロボットなどを制御するための行動を生成するようにシステムを訓練するアプローチです。視覚が入力され、言語が入力され、行動が出力され、もしかしたら言語も出力されるかもしれません。これは現在ではほぼ失敗と見なされています。十分な信頼性がなく、あまりにも多くの訓練データを必要とするなどの理由からです。さて、もう一つの世界モデルについてお話ししましょう。世界モデルとは何かというと、非常に一般的なレベルで言えば、エージェント的なシステムが自身の行動の結果を予測し、予期できるようにするものです。私からすれば、行動の結果を予測する能力を持たないシステムで、どうやってエージェントシステムを構築しようと考え得るのか全く想像もつきません。それは極めて不可欠な能力です。私たちが世界で行動するとき、私たちはこの能力を持っていますし、結果について考えずに行動を起こすとき、私たちは大きなリスクを冒していることになります。そして多くの場合、他の人からはバカだと思われます。現在、国際政治の舞台には、自分の行動の結果を予測する能力を完全に欠いている人々の例が山ほどあります。それが世界モデルです。自身の行動の結果を予測する能力、それだけのことです。この能力があれば、目標を満たしタスクを達成するための一連の行動を計画することができます。そして、探索と最適化のプロセスによる推論と計画を通じてこれを行います。一つひとつの行動を自己回帰的に予測していくことで行うのではありません。自分が設定したタスクを達成するであろう一連の行動を探索することによって行うのです。ですから、この設計図は現在のLLMができることとは完全に異なります。LLMには自身の行動の結果を予測する能力はなく、次のトークンを予測することによって推論を行うため、計画能力もありません。探索によるものではないのです。ここでお話しした2つの特徴こそが、知的な振る舞いにとって不可欠だと私は考えています。第一に自身の行動の結果を予測する能力、第二に最適化や探索によって正しい結果を生み出す良い行動のシーケンスを見つけ出す計画能力です。そして第三の特徴として、行動の結果をどのように予測するかという問題があります。もし私の目の前に水の入ったボトルがあるとします。これを聞いているだけで映像を見ていない方もいると思うので説明しますが、私の前にはキャップの開いた水のボトルがあります。底のほうを押せばテーブルの上を滑るでしょうし、上の方を押せばおそらく倒れるでしょう。ボトルがどの方向にどう倒れるか、正確に予測することはできません。どのように滑るか、水がどのようにこぼれるかも正確には予測できません。テーブルがどちらかの方向に傾いていて、水が特定の方向に流れるかどうかなどもです。ピクセルレベルでこれを予測することは到底不可能です。したがって、私たちの世界のメンタルモデルは、抽象的な表現レベルで予測を行っているのです。
認知科学からのインスピレーションと表現学習のブレイクスルー
このアーキテクチャに取り組まれていた際、人間の脳からインスピレーションを得た部分は大きかったのでしょうか。あなたが説明されていることは、まさに私たちが物事を行う方法、あるいは少なくとも認知科学によって示されている方法と一致しているように思えます。それをニューラルアーキテクチャにどう翻訳するかという点には大きなギャップがあるとは思いますが。
確かに、認知科学は一つの動機づけでした。心理学者がシステム2と呼ぶものですね。意図的で熟考的な行動をとる際、私たちは自分の行動の結果を想像し、予測し、それに基づいて計画を立てます。これは、反射的・本能的に行動するシステム1とは対照的です。ですから、インスピレーションはあります。しかし同時に、ピクセルを生成したくはないという実証的な証拠もたくさんあります。私は、予測によって世界モデルを学習するという問題に非常に長い間興味を持っていました。そして約5年前に、画像や動画の表現学習に成功したアーキテクチャはすべて非生成的アーキテクチャであり、生成的なアーキテクチャは基本すべて失敗に終わっていることに気づくという閃きを得ました。VAE、つまり変分オートエンコーダや、より一般的なオートエンコーダが良い例です。これらは入力の抽象的な表現を学習するための自然な方法のように思えますよね。ニューラルネットワークの入力に画像を与え、出力でその入力を再現するように訓練します。しかし、大きなニューラルネットワークを使ってこのように訓練しても、システムは何も面白いことをしません。単に恒等関数を学習するだけです。画像表現を学習するためにVAEを訓練しても、ある程度の結果は得られますが、本当に素晴らしいものではありません。スパースオートエンコーダでも同じです。そして、デノイジングオートエンコーダと呼ばれるものから派生した別の一連の技術があります。マスクドオートエンコーダはその一種ですし、自然言語処理におけるBERTもその一種です。画像の一部を壊し、その巨大なニューラルネットを訓練して元の画像を復元させます。FAIRにはMAEというこの技術に関する巨大なプロジェクトがありました。結果は非常に期待外れでした。競争も激しく、本当に満足のいく素晴らしい結果は得られませんでした。それと同時に、MAEに取り組んでいた同じメンバーの一部や、パリやニューヨークの他のメンバーたちが、非生成的アーキテクチャである結合埋め込みアーキテクチャを用いた他の技術に取り組んでいました。画像の一部を壊し、2つの画像を2つのエンコーダに通し、壊された画像の表現から元の画像の表現を予測しようとするものです。それがJEPAです。JEPAは結合埋め込み予測アーキテクチャの略です。一つのエンコーダがある観測を行い、別のエンコーダが異なる観測を行います。そして予測器を使って、2つ目の表現から1つ目の表現を予測しようとします。これらの技術は、画像や動画を表現する上で、ピクセルを予測するよりもはるかにうまく機能することが判明しました。DINO、DINO V1、V2、V3といった技術や、パリのFAIRで現在も続いているプロジェクト、JEPAのプロジェクト、VJEPAなどがあります。その前にはSimCLRやMoCoなど様々な技術がありました。他グループによるものもたくさんあります。しかし、ピクセルを予測するよりも、こちらの方が画像表現を学習するのにはるかに優れた方法であることが分かったのです。私の頭の中で、そして私だけでなく多くの人の中で、これが進むべき道であり、ピクセル予測は負け戦であるという考えがカチッとはまりました。
ロボティクスにおけるデータ効率と汎化の壁
さまざまなモデル企業から発表されるロボット工学のデモを見ていると、ますます印象的になっているように感じます。部屋や特定のタスクを見たことがなくても、計画や推論のようなことを行ってタスクを実行できるようなデモもありますよね。生成的なアプローチによって真の進歩に向かっていると感じているリスナーに対して、どのように説明されますか。
実際の進歩はありますし、それらのデモの中には本当に素晴らしいものもあります。しかし、それらは膨大な量のデータを使って訓練されています。実際の操作から収集したデータや、人間の行動、例えばグリッパーのようなものを手に持ってデータを収集したり、人間の手や指の動きをトラッキングしてそれをロボットのコマンドに翻訳したりして集めたデータです。これらのシステムは主に模倣学習で訓練され、少しだけシミュレーション内での強化学習を使ってファインチューニングされています。この問題点は、システムを模倣によって訓練するために非常に多くのデータが必要になることです。コストがかさみますし、ロボットに解かせたいタスクごとに大量のデータを収集しなければならないという意味で少し脆弱でもあります。一方、もしシステムが行動の結果を予測できる世界モデルを持っていれば、タスクを達成するための訓練を受けずとも、新しいタスクを解決するための行動を計画できるはずです。ですから、世界モデルベースのシステムで得られる汎化の度合いは、はるかに大きくなります。模倣学習とファインチューニングで訓練されたシステムよりも、より少ない訓練データでより幅広いタスクに対応できるようになるのです。
確かにそのアプローチにはより多くのデータが必要ですね。この汎化に関する疑問は本当に大きな課題だと思います。タスクAが上達すればタスクBの助けになるという結果を示している人たちもいますが、それでもこれらのアーキテクチャにおける大きな未解決の問題だと感じます。
タスク間の相乗効果は得られます。システムに多くのタスクを解決させる訓練をすればするほど、どんな技術を使おうとも、少量のデータで新しいタスクを獲得できるようになります。しかし、世界モデルへの期待は、人間や多くの動物が完全にやってのけるように、システムがゼロショットで問題を解決できるようになることです。これこそが本当の希望です。少量の訓練データで、あるいは訓練データなしで、強化学習スタイルの微調整を少し加えるだけで、はるかに多くの問題を解決できるようになることです。17歳の若者がどうして10数時間、あるいは20時間程度で車の運転を覚えられるのでしょうか。私たちには人間が車を運転している何百万時間もの訓練データがあるにもかかわらず、レベル5の自動運転車はいまだに存在しません。つまり、模倣学習は自動運転というタスクにおいてすら機能していないことは明らかです。
時間と大量のデータを要するかもしれない既存の能力開発と、この新しいアーキテクチャとの間の競争になりそうですね。動画モデルを使ってシミュレーション用の合成データを大量に生成するという夢のような話もあります。たとえ物理的な観点から完璧でなくても、ロボット工学や基礎となる物理世界を改善するのに十分役立つという考えです。Googleはその方向に進んでいるようですが、こうしたアプローチについてはどうお考えですか。
私は先ほどと同じ質問を投げかけたいと思います。なぜ17歳の若者は20時間で運転を覚えられるのでしょうか。何百万時間もの手本は必要ありませんし、合成データも必要ありません。そのどれも不要なのです。私は人間と同じくらい速く学習できるシステムを求めています。もしそれを解明できれば、生成されたデータは必要ありません。システムをシミュレーションで訓練する必要はあるかもしれませんが、現在のシステムが要求するほどの時間や試行回数は必要ありません。結局はデータ効率の問題なのです。
このポッドキャストでジェリー・トウォレックにインタビューしたときのことです。彼はOpenAIにいて、自身のラボを立ち上げるためにスピンアウトしましたが、似たような緊張感を感じました。私たちが今やっているように強化学習をスケーリングし続ければ、非常に印象的な結果が得られ続けることには彼も同意するでしょう。しかし、彼はもっとずっと効率的な方法があるはずだと感じていたのだと思います。これは興味深い緊張関係です。ビジネスの観点から見れば、もしそれが継続的にスケーリングできて結果が良くなり続けるとわかっているなら、データ効率の良い新しいことに挑戦するインセンティブはあまりないかもしれませんから。
他の企業にとっても、違うことをするインセンティブはありません。なぜなら、皆同じものを追いかけていて、他社に遅れをとるわけにはいかないからです。だから皆同じことに取り組んでいるのです。シリコンバレーを中心に、誰もが同じ塹壕を掘っているような、ある種の群集心理のようなものがありますね。私がAMI Labsの本社をあえてパリに設立したのもそのためです。アメリカのオフィスはシリコンバレーではなくニューヨークにあります。
それは本当に興味深いです。現在の幅広いエコシステムに存在する緊張状態を示していると思います。データ効率の良い手法が存在するかもしれないが、既存のものをスケーリングし続けることでより良い結果が得られるのだから気にする必要はないという意見もあるでしょう。そしてもちろん、これらのモデルから達成できる新しいことや、研究者として新しいものを発見する喜びの両面から、他のアーキテクチャに惹かれる理由もよくわかります。これは一つの賭けですよね。
賭けではありますが、私たちはすでに結果を出しているので、かなり自信を持っていますよ。
実世界への応用と完全なる世界制覇へのタイムライン
AMIの技術について、最も期待している初期の分野や、技術がどこへ向かっていくとお考えか教えていただけますか。
そうですね、実世界のためのAIと言いましたが、家庭用ロボットはどこにいるのでしょうか。レベル5の自動運転車はどこにいるのでしょうか。
私はいつ家庭用ロボットを手に入れられるのでしょうか。とても楽しみなんですが。
それは数年先の話になります。ロボットを作っている会社は山ほどあるという事実にもかかわらず、どうすればロボットを本当に役立つほど賢くできるか、わかっている会社は一つもありません。赤ちゃんのいる家で安心して任せられるようなレベルには全く達していません。比較的狭い製造業のタスクでさえそうです。少数のタスクに対する模倣学習を除けば、それを確実に実行する方法を誰も本当に理解していないのです。では、どうすればこれらを役立つものにできるでしょうか。それは比較的長期的な目標です。より短期的には、産業界に膨大な数の応用例があります。複雑なシステムにおいて、この制御変数を変更したら何が起こるかを予測できるインテリジェントなシステムが必要とされる場面です。ジェットエンジン、化学プラント、発電所、製造ライン、患者、あるいは人間の細胞など、少数の数式ではその振る舞いをモデル化できないほど複雑なシステムです。従来のモデリング手法は機能しません。必要なのは、データからそのシステムの動態をモデル化するために、ニューラルネットワーク、つまりディープラーニングシステムを訓練することです。最終的に得られるのは、そのプロセスやシステムの現象論的モデルです。もしそれが行動条件付けされたものであれば、目的のためにシステムを最適に制御することを可能にする世界モデルを基本的に得ることになります。産業界におけるこの応用数は途方もないものになると思います。
今後数年間でJEPAモデルはどのような段階に達すると思われますか。目指すべきマイルストーンや、進歩の道筋についてのご見解をお聞かせください。
そうですね、数年というのは少し短いですが、5年で世界を完全に制覇するでしょうね。
なるほど、5年で世界制覇への道のりのどこかに到達するわけですね。
もちろんこれはジョークですが、リーナス・トーバルズの言葉の引用です。Linuxでの目標は何かと聞かれたとき、彼は完全な世界制覇だと答え、実際ほぼそれを成し遂げましたからね。大まかに言えば、世界中のあらゆるコンピューターがLinuxを実行しているわけですから。ジョークはさておき、最終的にこれが未来のインテリジェントシステムの設計図になると思います。言語インターフェースとしてのLLMの居場所も少しは残るでしょう。しかし、私たちが設計しているのは、思考する能力を持つシステムです。最初は話したり聞いたりすることはできないかもしれませんが、思考を行い、その上に話すことと聞くことを追加できるようになるでしょう。
あなたやチームは、これを証明する初期の成果を出すために熱心に取り組んでおられることと思います。すでにいくつか成果も出されていますね。5年後の世界制覇への道筋における中間ステップについて、どのように考えておられますか。
1年かそこらで、非常に多様なモダリティに対して階層モデルを訓練する一般的な方法論が確立できると思います。現在の技術にはいくつか欠点があり完全に満足しているわけではありませんが、動画については良い結果を出せることが分かっています。私たちが本当に求めている方法論の小規模なデモンストレーションは既にあります。それをスケールアップし、動画だけでなく産業パートナーから得られる他の種類のデータセットにおいても、十分とは言えない他の技術と同レベルのパフォーマンスに引き上げる必要があります。ですから、いくつかの異なるユースケースの計画を立てるための世界モデル、おそらく行動条件付けされた世界モデルを訓練できるデモンストレーションを用意できるでしょう。ロボット工学のケースもあれば、様々な種類の産業プロセス制御のケースもあるでしょう。この分野のパートナーがいるため、ヘルスケア分野のケースも含まれるかもしれません。それが1年から18ヶ月以内に実現するはずです。そして、この方法論とモデルを、すでに私たちの会社の投資家でもあるパートナーたちとのユースケースに押し進め、基本的にはある種普遍的な世界モデルをどう構築するかについての経験を積んでいくつもりです。
これまでにもニューラルネットワークに全く逆張りの賭けをし、歴史が証明するように圧倒的に正しかったというご経験をお持ちですよね。この賭けについても、AIの最先端にいる人たちに聞けば今日は逆張りだと言われるかもしれません。どのくらいの期間でこれが正しかったと明らかになると思われますか。
予想よりも早く起こると思います。なぜなら、世界モデルはすでにバズワードになりつつありますから。少なくとも研究レベルではそうですし、業界にも浸透し始めています。VAEはダメで、LLMは実世界データには機能しないと多くの人が気づき始めています。ユーザー側の業界はすでにこれに気づいています。そしてロボット産業の重要性から、多くの人々がどうやってそこに到達するか、どうやってロボットを役立つものにするかを必死に考えようとしています。ですから、パラダイムシフトが必要だという認識は今まさに起きており、2027年の初めまでには誰の目にも完全に明らかになると思います。もちろん、それまでに私たちが解決策を持っているという意味ではありません。そうなることを願っていますが、それは今後の課題ですね。
Tapestry構想とAIにおける主権の重要性
話をLLM側に切り替えましょう。Tapestryでの取り組みについて言及されましたが、これはリスナーにとって非常に興味深いものになると思いますので、少しお話しいただけますか。
はい。これはAMI Labsの取り組みとは少し直交するものです。
まるでそれだけでは十分に忙しくないかのようにですね。
ここ3年ほど温めてきたアイデアで、人々が様々な目的でAIアシスタントをますます利用するようになっているという事実に基づいています。従来の検索エンジンの利用が減少し、お気に入りのAIアシスタントに質問をするようになっています。Metaや他の企業が進めているスマートグラスなどのスマートデバイスの計画が実現すれば、スマートグラスや他のデバイスを通じて声でAIアシスタントと会話するようになるでしょう。つまり、あなたが受け取る情報のすべてがAIアシスタントを介したものになります。もしあなたがアメリカや中国以外の世界のどこかに住んでいて、AIアシスタントを持っているとします。そのアシスタントがカリフォルニアや北京、上海、深センで作られたものだとしたら、それはあなたにとって良いことではありません。あなたが話す言語は、そのシステムが十分に扱えるよう訓練されていないかもしれません。シリコンバレーや中国の人々には理解されにくい文化を持っており、インターネット上の公開データにも十分に反映されていないかもしれません。モデルを構築している人々の価値観とは全く異なる価値観を持っているかもしれません。西海岸のテック企業や中国の企業から提供される少数のAIアシスタントには全く代表されていない政治的意見を持っている可能性は非常に高いでしょう。では、これに対する解決策は何でしょうか。インドの農家や、フランス、ドイツの哲学者にどのようにサービスを提供するのでしょうか。必要なのは、特定の言語を話し、特定の文化や価値観、政治的偏向、信条を持つ人々の関心に合わせて誰もがファインチューニングできる、オープンで無料の基盤モデル、LLMスタイルのプラットフォームです。つまり、多種多様なAIアシスタントが必要なのです。アメリカでも中国でもない世界中の多くの国が、自国の産業のためだけでなく、市民のためにも、AIに対するある程度の主権を絶対に求めています。彼らは市民が中国やカリフォルニアのモデルに洗脳されることを望んでいません。主権を求めているのです。どうすればそれを実現できるのでしょうか。フロンティアに到達するこのようなオープンプラットフォームを作る方法は、プロプライエタリなシステムよりも多くの、より高品質なデータで訓練することです。インド、フランス、ベトナム、モロッコ、スイス、韓国、日本、カザフスタンの人々と話すと、皆が基本的に主権を求めています。そして彼らに、あなた方はモデルをローカルで訓練しているから、データを共有する必要はありませんと伝えるのです。これがTapestryの極めて重要な側面です。国際的な貢献者がTapestryにデータを貢献し、世界のすべての知識と文化の宝庫となるようなグローバルモデルの訓練に貢献します。しかし貢献者は、データと計算資源を提供しながらも、自身のデータのコントロールを維持します。他の貢献者とデータを共有する必要はありません。彼らが貢献するのはパラメータベクトルです。つまり、連合学習のようなスタイルになります。複数のデータセンターがあり、モデルのグローバルなコンセンサスからパラメータベクトルを取得します。全貢献者のパラメータベクトルの平均のようなものだと考えてください。すべての貢献者が、おそらく中央サーバーを通じて、私のパラメータベクトルはこれですが、あなたのは何ですかと定期的にやり取りします。このようにしてパラメータベクトルを交換し、ローカルのワーカーは自身のパラメータベクトルを更新する際、グローバルなコンセンサスベクトルに可能な限り近づけようとします。この訓練が進むにつれて、すべてのパラメータベクトルが、人類の全知識の宝庫とも言えるコンセンサスモデルへと収束していきます。こうして、世界中のすべてのデータで訓練されたのと同じくらい優れたオープンモデルが完成し、それを自分自身の目的、政治的、文化的、言語的バイアス、あるいは関心分野に合わせて自由にファインチューニングできるようになります。アメリカでも中国でもないほとんどの国が主権を求めていること、そしてAIが急速にプラットフォームになりつつあり、プラットフォームはオープンになるという自然な傾向があることから、これが実現に向かう自然な力学が働いていると思います。Linuxで起きたことと同じです。インターネットやワイヤレスネットワークのソフトウェアインフラでも同じことが起きました。すべてオープンソースです。最初はプロプライエタリでしたが、それはすべて一掃されました。
クローズドソースのモデルが良くなるにつれて、それが隠蔽され、次世代の訓練に使われるのではないかという懸念が多くありました。クローズドソースモデルがオープンソースの競合他社よりもはるかに優れてしまうような、ある種の逃げ切りシナリオのようなものです。それを回避するための非常に賢明な方法ですね。
1996年当時のインターネットインフラの主要プレーヤーが誰だったか思い出してください。サン・マイクロシステムズ、HP、Dell、その他数社でした。サン・マイクロシステムズは自社のプロプライエタリなハードウェアでSolarisを売り、HPはHP-UXを売っていました。彼らはUnixはWindowsよりもはるかに信頼性が高いと主張し、WindowsでWebサーバーを実行するなんてあり得ないと言っていました。DellはWindows NTでそれをやろうとしていましたが、今、WebサーバーとしてWindows NTを動かしている人がいるでしょうか。これらはすべてLinuxによって完全に一掃されました。インターネット全体がLinuxで動いています。Azureでさえ、MicrosoftでさえLinuxを動かしているのです。今日のOpenAIやAnthropicなどは、昨日のサン・マイクロシステムズやHP-UXのようなものなのです。
オープンソースの逆襲とLLMの得意分野
その言葉の裏には、これらのモデルがどれだけ良くなれるかという限界に対するあなたの見解が暗に含まれていますね。だからこそ、時間が経てばオープンソース陣営が追いつくことが可能になると。
彼らはすでにデータ不足に陥っています。公開されているテキストデータはすべて使い果たされています。もうそれ以上はないのです。だから彼らがやっているのは、商業用の著作権で保護されたデータをライセンスしたり、合成データで訓練したりすることです。
大規模な事前学習を経て、過去数年間で彼らが示してきた印象的な結果についてお聞きしたいです。IMOゴールドや、次々と更新されるベンチマークなどがありますが。
ええ、それは非常に興味深いことです。しかし、その2つの分野について考えてみてください。数学とコードです。これらは、言語そのものが推論の基盤となっている2つの領域です。それが推論の基盤のすべてではありませんが、数学を行う際、直感的な部分ではなく紙の上での形式的なやり方において、私たちは言語を操作していますよね。そしてLLMはそれが本当に得意なのです。ですから、定理の証明などはLLMが本当に得意とするところです。しかし、優れた概念や定義などを考え出すようなことはあまり得意ではありません。ここに問題があるから解けといった問題解決者なのです。数学は単なる問題解決ではありません。その大部分は創造的な行為ですが、彼らはそれをしません。コードについても同じです。LLMは優れたプログラマーですが、ソフトウェアアーキテクトではありません。コンピューターサイエンティストでもありません。しかし、私たちのためにプログラミングをしてくれることはできます。完全に人間に取って代わるような状態にはありません。それは人間の世界を変えるものです。人間は抽象度の階層を1つ上がり、私たちの役割は何を作るかを決めることになります。しかし、実際に作る段階ではLLMの助けを借りることができます。ここで重要な点は、LLMは言語そのものが推論の基盤である領域においては特に成功を収めているが、それ以外の分野ではそうではないということです。
では、どうすればLLMがあなたを納得させることができるでしょうか。
ゼロショットのエージェンティックシステムですね。エージェンティックシステムに新しい問題を与えます。そのシステムはその特定の問題を解決する訓練を受けておらず、台本も持っていません。システムが自身の行動の結果を予測し、それを計画に使用する能力を持たない限り、訓練されたことのないタスクを達成することはできませんし、LLMでこれを行うことは不可能です。おそらく、探索や計画などの能力を備えた大幅に拡張されたLLMでなら可能かもしれません。現在、数学やコードを行うLLMは実際にこれを行っています。特定のタスクを達成するトークンのシーケンスを探索し、コードを実行したり証明が正しいか検証したりできるからです。生成されたものが正しいかどうかをチェックする方法があるのです。しかし、これは計画を行うための非常に効率的な方法ではありませんし、トークン空間でこの種の探索を実行できるドメインでのみ機能します。私がJEPAについて話しているのは、これをトークン空間ではなく、抽象的な思考空間で行うということです。
おそらくリスナーの中には、たとえ非効率であっても、トークン空間で行われる処理でうまくいっているのであれば、それは経済の大部分を占めているのだから問題ないではないかと考える人もいるでしょう。
ええ、うまくいっているならそれで構いません。彼らが得意とすることに使う分には何の問題もありません。ただ、それが人間の知能への道筋ではないと言っているのです。巨大な領域が抜け落ちているのですから。
つまり、ソフトウェアアーキテクトになれる前に限界に達するだろうということですね。私は、完全に限界に達するとは思っていませんが、デプロイできるユースケースの数が増えるにつれて、それらをデプロイするのがますます困難になるだろうとは思います。それぞれのユースケースに対して大量の訓練データを収集しなければならなくなりますから。また、ハルシネーションや危険な動作などを排除し、システムを完全に信頼できるものにすることはできないでしょう。自身の行動の結果を予測する能力を持たない限り、つまり明示的な世界モデルを持たない限りは。
AIのリスクと目的駆動型システムへの転換
なるほど。では、100%の精度や、様々なタスクにわたる汎化能力に対しては悲観的だということですね。この分野の発展において非常に興味深いことの一つは、あなたがチューリング賞を共同受賞した他のお二人が、時間の経過とともにLLMの力や潜在的な脅威、安全性のリスクについてずっと確信を深めているように見えることです。あなたの見解はいつ頃から彼らと分かれ始めたのでしょうか。
2023年です。
あなたの考えをそうさせた要因は何ですか。
私は考えを変えていません。彼らが考えを変えたのです。ほぼ同じ時期に、GPT-4がきっかけでした。ジェフはそうしたものとは全く無縁で、LLMには全く興味を持っていませんでしたが、2023年にGPT-4が登場したときにそれを見て閃きを得たのです。驚くべきことに、これらのシステムは人間レベルの知能に本当に近づいており、主観的な経験を持っているかもしれないと言ったのです。そして彼は簡単な計算をして言いました。人間の大脳皮質には約160億個のニューロンがあります。もしバックプロパゲーションのようなものを行いたい場合、脳は直接バックプロパゲーションを行うわけではありませんが、何らかの目的関数のための勾配推定のようなことを行うとすれば、ニューラルネット内の仮想ニューロンの機能を再現するために、おそらく数個のニューロンのネットワークが必要になるだろうと。そして彼は、バックプロパゲーションニューロンの働きを再現するために10個の実際のニューロンの回路が必要だと仮定しようと言いました。そうすると突然、あなたの皮質はわずか16億個のニューロンということになります。なんてことだ、GPT-4はこれに本当に近い。人間と同じくらい賢くなるかもしれないと。私はこの主張を全く信じていません。これはジェフなりの、引退宣言のようなものだと私は思っています。よし、私は引退して勝利を宣言できる。私はキャリアを通じて皮質の学習アルゴリズムを探求してきた。それが何だったのかは発見できなかったかもしれないが、バックプロパゲーションは良い代替品のようだ。とてもよく機能するし、これこそ私たちが必要としていたものかもしれない。だから私は引退し、世界中を回ってAIの潜在的な可能性と危険性について講演しよう、といった具合です。それが彼の知的軌跡だったのだと思います。彼は1から2年前と比べると、潜在的な危険性についてあまり声を大にして言わなくなりました。彼はそれが真にインテリジェントなシステムを設計する方法だと気付いたのでしょう。彼はおそらく、現在のLLMがそれほど賢くないこと、人間のような知能に到達するまでには概念的なブレイクスルーがいくつか必要であること、そしてそれらのシステムの設計図はLLMとは全く異なるものであり、制御可能にする方法がおそらく存在することに気づいたのだと思います。私は何年も前からこれを言い続けてきましたが、彼は最近それをついに発見したわけです。ヨシュアに関しても同じようなことが言えます。彼ら二人が心配しているのは、社会や政治システムがAIの恩恵を最大化し、AIが一部の富裕層をさらに富ませ、不平等を拡大させ、悪用による大惨事を引き起こさないようにする能力があるかどうかということだと思います。これはAIが世界を乗っ取るといった破滅的なシナリオではなく、現在のLLMでも起こり得る悪用に関する懸念であり、それは確かに危険です。しかし、一部の人々が主張するほど終末的なものだとは思いません。Anthropicでさえ主張し、そのために政府にAIを規制させるよう働きかけようとしてきたような終末的なものでは絶対にありません。私はそうした考えには全く同意しません。
彼らは純粋にそう信じているように見えますが。
純粋に信じている部分もあるとは思いますが、同時に、自分たちのシステムが危険だと信じ込ませ、政府や一部の人々を洗脳することに、ある種の商業的な正当な理由があるのだとも思います。
新しいアーキテクチャについてですが、LLMがすべての最終形態であることに対して弱気である一方で、新しいアーキテクチャに対してもかなり野心的なタイムラインをお持ちですよね。非常に強力な機能の実現からそれほど遠くないとお考えのようです。もしこれらのブレイクスルーが新しいアーキテクチャから生み出された場合、安全性についてはどのようにお考えですか。私たちは安心すべきなのでしょうか。
また少し議論を呼ぶようなことを言いますが、AMIの一部の同僚は私がこれを言うのを好ましく思っていませんでした。私は、LLMは本質的に安全ではないと考えています。LLMを信頼性が高く安全なものにすることはできないと思います。ハルシネーションを止めることはできないからです。もし彼らがエージェントとして振る舞うなら、結果を予測していない行動をとらないという保証はできません。
信頼性に関する懸念がある中で、彼らが15時間のコーディングテストをこなせることに驚きはありますか。
コーディングというのは、生成されたコードが自分の仕様を満たしているか実際に検証できる分野です。しかし、すべてがコーディングというわけではありません。コーディングエージェントがハードドライブのデータを消去してしまったり、大金を失ったりデータを消失させたりするようなバカなことをした例はあります。ですから、現在の形式のLLMは、自身の行動の結果を予測できないため、本質的に安全ではないと考えています。彼らが達成するタスクの方法は訓練に依存しています。プロンプトを与えると、訓練によって条件付けられた範囲内でのみ、そのプロンプトに対応するタスクを実行します。しかし、タスクを強制的に達成させ、それが適切に達成されたかを予測させるようなハードワイヤードの制約はありません。
初期の頃によくあったように、質問をすると彼らは延々とその質問を繰り返し続けるといったことがありました。
また、彼らには常識がありません。1ヶ月ほど前に出回っていたジョークがあります。車を洗いたい。洗車場は家から100ヤードのところにある。歩いて行くべきか、というものです。2週間ほど前に試してみましたが、ドイツを除いてすべてが、はい、歩いて行くべきですと答えました。
彼らは以前あなたがその話をした動画で訓練されているのでしょうね。
私の動画ではありません。私が考え出したものではないので。誰が考え出したのかは覚えていますが。しかし、私がLLMにはこれができると言うと、半年後にはそれができるようになっているという例がいくつかあります。私がポッドキャストで言ったのを見た人たちが、それをChatGPTに入力するからです。それが訓練データの一部となり、次のバージョンではファインチューニングデータセットに組み込まれます。だから質問に答えられるようになるのですが、それは突然賢くなったからではなく、その質問で明示的に訓練されたからに過ぎません。ですから、LLMは興味深いことに安全ではありません。現在のパラダイムでこれを修正する方法はないと思います。私が提案してきたアーキテクチャは、目的駆動型AIです。AIシステムにこのタスクを達成せよという目的を与えます。システムはどうやってタスクを達成するかを知るのでしょうか。世界モデルを持っており、想像した一連の行動の結果を予測するのです。その結果が、タスクが達成されたかどうかを記述するコスト関数を満たせば、そのシステムは最適化によってそのタスクを達成する行動のシーケンスを見つけ出し、コストを最小化します。それ以外のことはできません。もちろんそこでも問題が起こる可能性はあります。例えば、タスクが達成された度合いを測定していると考えているコスト関数が正確でない可能性があります。世界モデルが不正確で、システムが行った予測が正しくない可能性もあります。つまり、行動の結果として何が起こるかという予測が間違っているわけです。ですからシステムがミスを犯す可能性は依然としてありますが、行動の結果をある程度予測できるということは、エージェントシステムにとって不可欠なことだと思います。タスク達成を保証するコスト関数だけでなく、安全性の制約となる他の目的関数やコスト関数を追加することもできます。途中で誰も傷つけないことといった制約です。これを抽象的なレベルで指定することはできませんが、低レベルの目的関数を組み合わせることで、システムが危険な存在にならないことを保証できます。システムは構造上これらの条件を満たさなければならず、違反することはできません。LLMの場合はそうではありません。LLMは常に抜け道を見つけることができます。訓練エラーとテストエラーの間にはギャップがあり、システムが本当に愚かな行動をとるようなプロンプトが常に存在するのです。
医療分野への適用可能性とLLMの限界
ヘルスケア分野におけるLLMの具体的な事例についてお話ししましょう。AMIとヘルスケアの可能性について大いに期待されていると思います。ヘルスケア分野でもLLMは様々な用途に使われていますが、LLMではどうしても機能せず、世界をより深く理解するモデルが必要となるのはどのような領域だとお考えですか。
例えば、特定の患者の慢性疾患や非慢性疾患の治療方針を設計する場合です。過去に観察されたテンプレートには完全に当てはまらないかもしれませんが、患者の生理学的な動態について優れたメンタルモデルを持っていれば、実際に患者を良い状態に導く治療方針を設計できるかもしれません。患者というのは、細胞の可能性もあります。インスリンを産生する膵臓のベータ細胞になるよう幹細胞にどうやって指示を出せばいいのでしょうか。1型糖尿病の患者は、免疫システムが自分のベータ細胞を食べてしまう自己免疫疾患です。どうやってベータ細胞を作り続ければいいのか。細胞にメッセージを送れるか。幹細胞をベータ細胞に変えるために、どんなメッセージのシーケンスを送ればいいのかを考え出せるような、人間の細胞のモデルを持っているでしょうか。
LLM擁護派とそうでない派は、お互いにすれ違った議論をしているように思います。LLMにできること、つまりトップクラスの医師の治療を世界中にスケーリングさせることは、もし実現できれば信じられないほどの潜在的なインパクトがあり、大いに可能性があります。一方で、あなたが話していることは、トップクラスの医師をも超えるようなこと、それをどう実現するかという点で、これは現在進行形の課題ですね。
トップクラスの医師以上のものが必要です。LLMがうまくできるのは、主に本で読めるような知識を吐き出すことです。しかし、もし医学が本にある宣言的知識を蓄積するだけのものであれば、本を読むだけで医者になれるはずです。本を読むだけでは医者にはなれません。研修医制度を経験し、実際に心音を聞いたりお腹を押したりして、虫垂炎などの診断を下さなければならないのです。
LLM自体が世界中で最高品質のヘルスケアを提供できるかどうか、非常に興味深いところです。将来的にもう一度確認してみる必要がありますね。現状はかなり近づいているように見えますが。
Meta/FAIRでの歩みと組織の変容
Metaでの時間についてもぜひ触れたいです。あなたは10年以上かけて、世界で最も尊敬される研究ラボの一つを築き上げました。最近退社されましたが、FAIRを運営した期間を振り返って、何が一番うまくいき、何がうまくいかなかったとお考えですか。
うまくいったのは、本当に革新的なトップクラスの研究ラボを構築できたことです。PyTorchのような、業界全体で役立つ基本的な手法や科学的アプローチ、ツールを数多く生み出しました。Googleの数人を除いて、業界全体が基本的にPyTorchの上に成り立っていますからね。そして、ブレイクスルーをもたらすイノベーションに不可欠だと私が考える、オープンで科学的なプロセスの文化を築けたことです。イノベーションには一連の連鎖があります。新しい概念を生み出す基礎研究があり、その多くは大学で行われます。一部は産業界の高度な研究ラボで行われますが、それは片手で数えられるほどしかありません。Googleはその一つですし、FAIRもそうでした。おそらく今もそうだと思いますが、確信はありません。次にこれは良いアイデアだ、実用化できるか推し進めてみようという段階があります。しかし、まだ研究レベルです。特定の問題にだけ機能する解決策を見つけようとごまかすのではなく、自分たちが考え出した、あるいはコミュニティから取り入れたこの技術が本当に実用的になるか、製品としてではなく、何かのタスクやベンチマークで記録を更新できるかを示す段階です。そして次の段階は、研究ラボを抱える企業がよし、これに大規模なエンジニアリングの労力を注ぎ込もうと決断し、前に進める段階です。ここで多くのプロジェクトが失敗します。多くの企業が引き継ぎに失敗するのです。Metaは実際、この点ではかなり優れていました。完璧とは言えませんが、GUIやマウス、ウィンドウシステムの波を完全に見逃したXerox PARCのようなやってはいけない教科書的な例ではありませんでした。Metaもいくつかのステップを見逃しましたが、それは一部は組織的な理由であり、一部は研究に近いものの完全に製品部門ではない組織が、3ヶ月の締め切りに追われる製品化ではなく、技術をさらに推し進めるリレーのバトンを受け取る必要があるからです。かつてFacebookやMetaにはそれがありました。しかしそれを失い、FAIRは基本的に社内で孤立してしまいました。多くのアイデアがありましたが、誰も取り上げませんでした。そして2023年、初期段階で約60人から70人の科学者やエンジニアをFAIRから引き抜いてGenAIという組織が作られました。しかしその組織は短期的なプレッシャーにさらされすぎていたため、FAIRと対話する時間がありませんでした。そのため、GenAIはLLMの最前線で革新を起こす代わりに短期的なことに集中せざるを得ず、非常に保守的になってしまいました。基本的に研究と製品開発の間で、推進力のミスマッチというギャップが生じてしまったのです。
LLaMA 4で起きたのもそういうことですか。
LLaMA 3からすでに始まっていました。LLaMA 1は2022年から2023年初頭にかけてFAIR内の小さなプロジェクトでした。GenAIが設立されると、LLaMAのメンバーは基本的にGenAIに異動しました。彼らはLLaMA 2に取り組み始めましたが、その中の何人かが自分たちでスタートアップができると気づきました。それがMistralの始まりです。LLaMAの著者2名がGoogle出身のもう1名と一緒にMistralを設立し、数名が去って別のことを始めました。様々な理由から、Metaにとって幸せな時期とは言えませんでした。多くの人が去り、LLaMA 2やLLaMA 3、LLaMA 4を引き継いだGenAI組織は、短期的なプレッシャーの下で非常に保守的になっていきました。グループ間の不均衡やリーダーシップからのプレッシャーの組み合わせであり、物事がうまくいかなくなる理由はいくつもありますが、特定の誰かを責めることはできません。
現在、競争が激化しているため、多くの組織が短期的なプレッシャーの下にあります。FAIRのような環境や、Googleで長年存在したような環境、多くの研究者がさまざまなことに挑戦できる環境は、今後も可能だと思われますか。それとも独立して会社を立ち上げるしかないのでしょうか。競争激化の中でも、この業界にFAIRのような本来の精神を持つ場所はまだ存在するとお考えですか。
Google ResearchやDeepMindの中には、人々が実際に研究を行っている場所がいくつかあると思います。しかし、業界はますます閉鎖的になってきています。Googleは間違いなく閉鎖的になりましたし、MetaやFAIRでさえ同じ方向に向かい始めています。出版に対する制限が増え、画期的な研究を本当にやりたいと考える人々にとって魅力が薄れています。中期的に関連する研究をしても十分なリソースが得られず、それについて話すなと言われます。ブレイクスルーを生み出すには良い雰囲気、助けになる環境とは言えません。FAIRの初期や、全盛期のベル研究所、Xerox PARCのような画期的な研究を生み出す最も確実な方法は、最高の人材を雇い、彼らに何に取り組むべきか、どのプロジェクトにアプローチすべきかを嗅ぎ分ける嗅覚を持たせ、成功するための手段を与え、そして彼らの邪魔をしないことです。言葉が悪くてすみません。
幅広い研究コミュニティにどのような影響を与えるかが気になります。FAIRの遺産の一つは、あなたが本当に多くの研究者を育て、彼らがエコシステム全体で活躍していることです。初期のキャリアをFAIRで過ごした人々と同じような若い人たちが、今は短期的な優先順位や目標を持つラボに参加しているように感じます。多くの若手が短期的な力学に放り込まれる現在のエコシステムにおいて、業界の発展の仕方に変化はあるのでしょうか。
私と一緒に働きたがるような人たちは、基本的に最初から少し変わった人たちですからね。また、アカデミアや博士課程の間は、現在の世代のAIシステムではなく、次世代のAIシステムに取り組むべきだという考えに賛同する人たちです。今アカデミアでLLMに取り組むのは信じられないほど退屈です。少なくとも私にとっては。なぜLLMが機能するのか、その限界は何かを説明し研究するような記述的な科学であり、創造的ではありません。役に立ちはしますが。LLMで新しいことができると本当に示したいなら、それに必要なGPUは手に入りません。だから忘れてください。博士課程ならLLMに取り組む意味はありません。貢献することはできませんから。
新たなビジョンの掲揚とMetaからの旅立ち
Metaを離れるべき時だとどのように判断されたのですか。しばらく考えていたようですが、何か決定的になった瞬間はありましたか。
それは様々なことの組み合わせでした。まず理解していただきたいのは、Facebookでの私の役割について多くの人が完全に間違った認識を持っているということです。私は2013年後半に入社し、実質的には2014年初頭から働き始めました。最初の4年半はFAIRのディレクターを務めました。FAIRという組織を作り、文化を築き、主要な人材を採用し、管理しました。4年半後、いくつか理由があってその役職から退き、チーフAIサイエンティストになりました。第一の理由は、私が60歳、正確には58歳に近づいていたことです。そして私はマネジメントをしたくなかった。組織を立ち上げるために一定期間やる覚悟はありましたが、単に得意ではないのです。私は科学的・技術的なビジョナリーであり、エンジニアであり、科学者です。マネジメントに関しては私より優れた人がたくさんいます。それで、ジョエル・ピノーとアントワーヌ・ボルドにFAIRのディレクター職を引き継ぎ、私はチーフAIサイエンティストになりました。私はCTOに報告し、FAIRの目標であったインテリジェントシステムの構築という本来の目的に沿った研究プロジェクトを再始動させることを目標としていました。FAIRを運営している間、自分の研究は一旦保留にしていました。時間がなかったのです。人間レベルの、人間に近いAIシステムのアーキテクチャを設計することが重要だと考えていました。それが自己教師あり学習や、動画などの感覚信号からの予測、そして世界モデルに基づくものになるという概念に辿り着きました。これらは古いアイデアです。実際、2016年のNeurIPSの基調講演で、AI研究が進むべき道は行動の結果を予測し計画する世界モデルであると述べました。強化学習は非効率すぎるため私たちをそこへ導くものではなく、教師あり学習も限界を見せているため、未来は自己教師あり学習と世界モデルにあると言いました。では自己教師あり学習と世界モデルをどう実現するか。動画予測などいくつかのプロジェクトを立ち上げましたが、うまくいかないアプローチもありました。そして、動画から自己教師あり学習を訓練できるが、表現空間での予測を行うようシステムを訓練しなければならないという概念を思いつきました。これがJEPAのアイデアです。JEPAがあれば、それを行動条件付けすることで世界モデルに変えることができ、計画に使用できます。私は2020年頃にこのアイデアを持ち、2022年に長いビジョンペーパーを書きました。自分のビジョン全体を書いた論文を出そう、秘密はすべて明かす、構わない。これによって私のビジョンに賛同する人たちが集まるかもしれないと思ったのです。そしてそれは本当にうまくいきました。このテーマで働きたいからとNYUやパリに集まってきた学生たちだけでなく、FAIRのチーム全体がこれは素晴らしい、これに取り組みたいと言ってくれたのです。ジョエル・ピノーもこれはFAIRの主要なミッションにすべきかもしれないと言いました。私たちはこれを内部でAdvanced Machine Intelligenceと呼んでいました。
面白いですね。そしてその名前を持ち出すことが許され、今は会社の名前になっているのですね。
マーク・ザッカーバーグもその論文を読み、内容を理解しプロジェクトに賛同してくれました。CTOのアンドリュー・ボズワースや前CTOのM・シュレップファー、私の直接のマネージャーだったチーフプロダクトオフィサーのクリス・コックスもそのアイデアを気に入り、内部でAMIと呼ばれたこのプロジェクトに対してリーダーシップからの多大な支持がありました。動画に関して成果が出始めていたのですが、会社の全リソースはLLMに集中し始めました。マークやバズからの支持があったにもかかわらず、その下の層の人たちは意味を見出せなかったのだと思います。政治的にも少し難しくなりました。JEPAの世界モデルの応用先はウェアラブルエージェントやロボット工学などにありますが、Metaは現在Amazonにいるジータ・マタラティックが率いていたロボティクスAIグループ全体を解散する決断を下しました。ですから、もはや適切な環境ではないことは明らかでした。応用先のほとんどはMetaが興味を持たない産業分野であり、FAIRはGenAIのLLM対応を支援するようますます圧力を受けるようになっていました。すべてが明らかになりました。そしてその徹底的なアプローチは投資家たちにも非常に有効でした。AMIの資金調達をする際、誰もが私のストーリーを知っていました。私の論文を読んだり、講演を聞いたりして、ストーリーに納得してくれていた多くのVCの人たちがいました。彼らはLLMに限界があることに気づいており、次世代のAIシステムを構築するというアイデアに関心を持っていたのです。
その内部での純粋なLLMへのフォーカスには、スケールの獲得などが引き金としてあったのでしょうか。
間違いありません。他の理由もあるでしょう。インサイダー情報を持っているわけではありませんが、マークがアレックスに自分自身の若い頃の姿、あるいは潜在的な後継者の姿を重ね合わせている可能性はあります。
メディアの論調では、アレックスが加わると研究組織の運営が難しくなるといったものが多かったように感じます。あなたがそのように感じたかどうかは分かりませんが。
そこに大きな誤解があります。私の役割やアレックスとの関係、MetaでAIがどう運営されていたかについてです。私はLLaMAに対して技術的な貢献を一切していません。皆無です。LLaMAに対する私の唯一の貢献は、LLaMA 2のオープンソース化を強く主張したことでした。オープンソース化すべきかどうかについて、法務部門やポリシー部門が反対し、広報部門やバズをはじめとするエンジニアリング部門が賛成するという大きな内部議論がありました。マーク・ザッカーバーグから下は40人が参加し、数ヶ月間毎週2時間もの議論が交わされました。私やバズは、安全性のリスクは過大評価されており、産業を創出する機会は極めて大きく、LLaMA 2をオープンソース化することでAI産業を活性化できると強く主張しました。実際その通りになりました。しかし私はLLaMA自体には、ポジティブであれネガティブであれ、一切の貢献をしていません。それを止めたり遅らせたりするようなこともしていません。FAIR内にはLLMに取り組んでいる人がたくさんいて、それはそれで素晴らしいことでした。私はそれに対して反対意見を言ったことはありません。これは人間の知能への道ではないと言ったこと以外は。音声認識や翻訳と同じように役立つものだと。特に私がFAIRのディレクターを退任した2018年以降は、人々が何に取り組むかについて直接的な影響力は持っていませんでした。自分のビジョンを発表し、プロジェクトの周りに人を集めること以外は。彼らは私の上司だからではなく、私と働きたくてそうしてくれたのです。ですから、Meta社内のLLMに対してポジティブ・ネガティブどちらの影響力も持っていませんでした。戦略について長期的な視点や研究ラボの維持方法についてはある程度影響力がありましたが。そして直近の1年、2024年の初めや2025年にかけて、FAIRが向かう方向性や管理のされ方は、イノベーションや研究のブレイクスルーを維持し、優秀な人材を引き留めるために必要だと私が考えるものとは一致しませんでした。すでに多くの優秀な人材が去っています。
あなたが取り組んでいたプロジェクトに社内で人を集めるのは難しかったでしょうし、あなた自身にもLLM関連の仕事をするようプレッシャーがあったのでしょうね。
ええ、でも他の多くの人たちも去りましたからね。
自己教師あり学習の成功と表現コラプスへのアプローチ
お話を聞いていて印象的なのは、あなたがこの分野において長い間、驚くほど一貫した見解を持ち続けていることです。過去の講演にもそれが現れています。しかし、この1年で目まぐるしく変化する中で、考えが変わったことは何かありますか。
私たちがかつて教師なし学習と呼んでいたもの、今では自己教師あり学習と呼んでいますが、その概念についてです。2003年頃まで、入力データの良い表現を獲得し、少量の教師ありラベルデータでモデルをファインチューニングするという教師なし事前学習の考え方は、この技術が機能し得るという証拠をいくつか示していました。私はこれを動画に適用しようとしました。なぜなら、最終的に私がやりたかったのは、世界が過ぎ行くのを見るだけでシステムが世界の仕組みを理解するように訓練することだったからです。それが基本的なアイデアです。2010年代初頭にこの主張を始め、GPUがない中で単純な動画予測の作業を行いました。FAIR設立後は、ピクセルレベルでの動画予測をより本格的に行いましたが、それがうまくいかないことに気づき、自己教師あり学習を主張し始めました。システムをタスク解決のためではなく、予測のために汎用的に訓練し、その表現を下流のタスク入力として使用するという考え方です。これが2016年のNeurIPSでの私の基調講演の後半のテーマでした。私はこのアイデアを推進し続け、機能させる方法を発見しようとしました。私にとって驚きだったのは、それが信じられないほどの成功を収めたことです。ただし動画に対してではなく、言語に対してです。LLMは自己教師あり学習の圧倒的に成功した例なのです。
確かにその通りですね。とても良い締めくくりになると思いますが、最後にあなたにお言葉をお譲りしたいと思います。リスナーは皆あなたのことをよく知っていますが、今取り組んでいる新しいことなど、チェックすべきものがあればぜひ教えてください。
ひとつお話しさせてください。LLMが機能するのは、離散的なシンボルのシーケンスがある場合、言語における可能なシンボルの数は約10万などと有限であるため、予測が容易だからです。ニューラルネットで全トークンに対する確率分布を出力し、そこからサンプリングしてトークンを入力にシフトし、次のトークンを生成するという自己回帰的予測が可能です。これは特殊なケースです。現実世界を対象とする場合、生成モデルは使えません。そのため、表現を学習し、表現空間で予測を行うシステムを訓練する必要があります。私が何十年も前に解決策を発明していたにもかかわらず、約5年前までは簡単に解決できるとは思っていなかった大きな問題がありました。例えば動画の初期セグメントと続き、あるいは画像とノイズを加えたバージョンという2つの入力を取り、エンコーダを通して一方の表現から他方を予測するよう予測器を訓練する場合、システムが定数表現を予測するという非常に単純な解決策に陥る問題です。これが表現の崩壊、表現コラプスと呼ばれるものです。JEPA、つまり結合埋め込みアーキテクチャのための自己教師あり学習における最大の疑問は、コラプスをどう防ぐかということです。1993年に私が考案した解決策は対照学習でした。予測できるべきものの例と、予測できないはずのものの例を用意するのです。しかしこの方法は次元に対してうまくスケールしません。もう一つ、80年代後半にジェフ・ヒントンとスー・ベッカーが考案した、2つのネットワーク間の相互情報量を最大化しようとする技術があります。ユルゲン・シュミットフーバーは、自分も1992年にこれのバージョンを作った。それがJEPAだと怒っていますが、それはJEPAではありません。結合埋め込みアーキテクチャのコラプスを防ぐ一つの方法に過ぎませんし、特に優れた方法だとも思いません。さて、JEPAアーキテクチャにおいてコラプスを防ぐ良い方法を見つける必要があります。対照的な方法は良いアプローチではないと思います。蒸留メソッドと呼ばれる別のアプローチがあり、これはコラプスを防ぎますが、なぜ防げるのか私たちにはわかりません。DINOがその良い例です。一方のエンコーダが他方のエンコーダの教師として機能します。DeepMindのBoostrap your own latentという論文にもこの手法が使われていますが、強化学習の直感から派生したこのトリックがなぜかコラプスを防ぐのです。少数の理論的な論文もありますが、満足のいくものではありません。最小化していると考えているコスト関数が実際には最小化されておらず、訓練時に上昇することもあります。ですから私たちはこの方法が好きではありませんが、VJEPAやJEPAのモデルの訓練には機能しています。しかし現在、私たちはこの方法から移行しつつあります。最近、エンコーダからの出力の情報量を最大化しようとする明示的な正則化項に関する論文がいくつか出ています。ヒントンやシュミットフーバーの手法と同じ系統です。問題は情報量をどう測定するかですが、測定できないため上限を設けるしかありません。VICRegや、SIGRegと呼ばれるものがあります。これは私のポスドクだったランドール・ビストリエロのブラウン大学での研究で、エンコーダからの変数の分布を強制的にガウス分布にし、情報量を最大化するものです。これは非常に有望だと思います。まばらな表現や等方性の表現を生成できるバリエーションもあります。世界モデルをこれを使って訓練した小規模な論文がありますので、もし1つ論文を読むなら、L-E-World Modelを読んでみてください。名前をつけたのは私ではなくランドールですが。
素晴らしいですね。リンクも貼っておきます。ヤン、本日は貴重なお時間をいただき本当にありがとうございました。ポッドキャストに出演していただき感謝しています。
呼んでくれてありがとう。楽しかったです。
私はジェイコブ・エフロンです。Unsupervised Learningをお聴きいただきありがとうございました。AI分野で最もスマートな方々と対話し、モデルの現状やそれがビジネスと世界に与える意味について質問するポッドキャストです。Redpointでの投資家としての本業に加え、夜と週末のプロジェクトとして本当に楽しんでやっています。このような素晴らしいゲストをお招きできるのも、ポッドキャストを購読し、友人にシェアしてくださる皆様のおかげです。ぜひ引き続きサポートをお願いします。それでは、次のエピソードでお会いしましょう。


コメント