LLM革命は終わった。物理AI革命が急速に到来している

AI研究
この記事は約20分で読めます。

Meta AIの研究責任者を務めたヤン・ルカンが、現在のLLMパラダイムの限界と次世代AI革命について語る。人間レベルの知能実現には概念的なブレークスルーが必要であり、言語ベースのLLMではなく物理世界を理解するワールドモデルこそが真の知能への鍵となる。彼が立ち上げた新会社Advanced Machine Intelligence(AMI)では、動画や感覚データから学習する非生成型アーキテクチャJEPAを開発中である。AI研究のオープン性の重要性、AIリスクの実態、そして2035年に向けたAIの展望まで、AI界の重鞭者が包括的な視点を提示する。

The LLM Revolution Is Over. The Physical AI Revolution Is Coming Fast
On stage at Imagination In Action's AI Summit in Davos with John Werner, founder and CEO of Imagination In Action, Yann ...

AGIへの道のりと人間知能の限界

最初の質問はAGIへの道のりについてどのあたりにいるかということですね。私たちは人間レベルの知能、あるいは超知能への道を歩んでいます。私は有名なことにAGIという言葉が好きではありません。機械が人間より賢くなるとは思っていないからではありません。人間の知能が汎用的だとは思わないからです。

ですから人間レベルのAIをAGIと呼ぶのは誤った呼び方なのです。残念ながらその船は出航してしまいましたが、いずれ機械が人間より賢くなることは間違いありません。ただそれは来年起こることではありません。2年後にも起こらないでしょう。なぜならそのためにはいくつかの概念的なブレークスルーが必要だからです。それは私が取り組んできたことであり、今も取り組んでいることです。

現在のAI能力に関する誤解

多くのリーダーが今日のAI能力について最も誤解していることは何でしょうか。そしてその誤解がなぜ政策、規制、そして今まさに行われている資本配分の決定にとって重要なのでしょうか。

人間の知能、人間レベルの知能、あるいは超知能に到達するには、スケールアップだけでは無理ですし、現在のパラダイムを洗練させるだけでも無理です。パラダイムの変更が必要なのです。私はこのことを何年も前から見てきました。そして今、LLMパラダイムの限界が見え始めていると思います。

今年、多くの人々がエージェントシステムについて語っています。しかしLLMに基づいてエージェントシステムを構築するのは災いのレシピです。なぜならシステムが自分の行動の結果を予測できないのに、どうやって一連の行動を計画できるでしょうか。

知的な振る舞いを実現するには、システムが世界で何が起こるかを予測でき、自分の行動の結果を予測できる必要があります。これができて初めて、特定の目的に到達するための一連の行動を計画できるのです。これが欠けているもの、つまりワールドモデルの概念です。

LLMにはこれがありません。これなしには知的な振る舞いは得られません。効率的な学習も得られません。ゼロショットでのタスク解決も得られません。10歳の子供に初めて簡単なタスクを解くよう頼むと、必ずしも訓練されていなくてもそれを実行します。17歳が車を運転する最初の10時間で、その子は車を運転できるようになります。

私たちは自動運転車を訓練するために何百万時間もの訓練データを使いました。それでもまだレベル5の自動運転は実現していません。これは基本的なアーキテクチャがそこにないことを物語っています。

知能に関する埋め込まれた前提

知能に関する埋め込まれた前提について。グローバルなAI議論の多くは、知能が実際にどのように機能するかについての暗黙の前提に基づいているようです。あなたは長年、知能は主に言語に関するものではなく、物理的・社会的世界を理解することだと主張してきました。今日の支配的なAIモデルに欠けているものは何でしょうか。そして真の知能に近づくために実際に必要なアーキテクチャや学習パラダイムとはどのようなものでしょうか。

もし人間であれ機械であれ知能について、ダボスにいるすべての世界のリーダーに本当に理解してほしいアイデアが一つあるとしたら、それは何でしょうか。

現実世界は言語の世界よりもはるかに複雑です。これは逆説的です。なぜなら人間として、私たちは言語を人間知能の頂点のようなものだと考えているからです。しかしテキストの次の単語を予測することは、それほど複雑ではないことが判明しました。LLMに多くの知識を蓄積することはできます。だからこそLLMはあれほど大きくなければならず、あれほど多くのデータで訓練する必要があるのです。

しかし真の知能は現実世界の理解から生まれます。残念ながら現実世界は雑然としています。感覚データは高次元で連続的でノイズが多く、生成型アーキテクチャはこの種のデータではうまく機能しません。ですからLLMに使用するアーキテクチャのタイプは現実世界には適用できないのです。

物理AI革命の到来

次の革命的なAI、そしてそれは急速に到来していますが、現実世界を理解するAIシステムになるでしょう。動画やセンサーデータのような高次元で連続的でノイズの多いデータを理解するシステム。自分の環境がどのように進化するか、環境に対する自分の影響は何かについて予測モデルを構築できるシステム。

計画を立て、コアレベルで推論できるシステム。制御可能で安全なシステムで、タスクを与えればそれを達成するようなシステムです。

私たちはもう一つのAI革命を目にすることになります。深層学習革命、LLM革命を見てきました。今度は物理AI革命とでも言うべきものになるでしょう。

Metaでの12年間と重要なブレークスルー

次の質問はMetaでの時間についてです。あなたは12年間Metaで驚異的な加速の期間にAI研究を率いてきました。過去10年間のAIの急速な進歩を可能にした最も重要なブレークスルーとして何を見ていますか。そして今後を見据えて、AIが停滞やAIの冬に入るのではなく、長期的な約束に応えるために、まだ起こる必要がある重要な科学的または研究のブレークスルーは何でしょうか。

この分野を前進させた驚くべき数のイノベーションや発明がありましたが、進歩における最大の要因は特定の貢献ではありませんでした。もちろんTransformerのようなものをいくつか挙げることはできますが、特定の貢献ではないのです。

AI研究がオープンだったという事実です。人々は研究を行い、論文を書き、arXivに投稿し、最終的には会議や学術誌などに提出し、コードをオープンソース化しました。

これによって分野は非常に速く進歩しました。なぜなら何かにより多くの人々が貢献できればできるほど、進歩はより速く起こるからです。そして私の絶望に対して、過去数年間に起こっていることは、ますます多くの産業研究所がクローズドになっていることです。OpenAIと呼ぶことはできますが、Anthropicは決してオープンではなく実際には非常にクローズドです。Googleは少しオープンになり、今はより閉鎖的になりました。

FAIRは非常にオープンでしたが、今Metaで同等性の変化があり、これが運営方法を変える可能性があります。これは災害的だと思います。なぜなら進歩、特に西側、特に米国での進歩が遅くなるからです。

同時に、よりオープンな研究所や産業研究所は中国にあります。現時点で最高のオープンソースモデルは中国から来ています。それらは本当に優れており、研究コミュニティの誰もが中国のモデルを使用しています。

Metaの私の元同僚たちは、LLaMAの後継版の新バージョンに取り組んでいます。それは良いものになるかもしれませんが、オープンになるかどうかは完全には明確ではありません。ですからこれは大きな間違いだと思います。私たちはそのために進歩を遅らせているのです。

Advanced Machine Intelligence(AMI)の挑戦

あなたの新しいベンチャー、Advanced Machine Intelligenceについて。これは次の章への完璧な移行です。あなたは最近この会社を立ち上げました。公開されている報道によると、AMIはワールドモデルに基づく根本的に新しい世代のAIシステムの構築に焦点を当てているようです。

言語だけではなく、動画、物理的相互作用、空間データから学習するシステム。今日の主要なシステムができないAMIが解決しようとしている問題についてもっと共有していただけますか。そして現実的に、堅牢なワールドモデルに必要なアーキテクチャを開発するのにどのくらい時間がかかると思いますか。

Advanced Machine Intelligence、私たちは実際にはAMIと発音しています。これはフランス語で友達を意味します。これは実際、私がMetaのFAIRで推進していた研究プロジェクトの名前です。私は実際にはFAIRで個人貢献者でした。私は誰のマネージャーでもありませんでした。

人々がそのプロジェクトに取り組んだのは、取り組みたかったから、私と一緒に仕事をしたかったからであって、私が彼らの上司だったからではありません。これが研究環境における最良の状況です。トップダウンではなく、ボトムアップです。研究はそのように行われるべきなのです。多くの人々はこれを理解していませんが、それが本当にあるべき姿なのです。

私たちはFAIRでこのプロジェクトを長い間続けてきました。Advanced Machine Intelligenceというのは、感覚データ、動画から学習できるAIシステムを構築するというアイデアに私たちが与えた名前です。ワールドモデルを学習し、時刻tでの世界の状態、システムが想像する行動を取ることで、この行動から生じる時刻t+1での世界の状態を予測できますか。

そのようなワールドモデルがあれば、タスクを達成するための一連の行動を計画できます。これが青写真です。私は60ページの大きなビジョンペーパーを書きました。最初の部分だけを読めば、そのアイデアを得られます。あるいは2022年にオンラインで公開した私の講演を聞くこともできます。そこで私の意見ではAI研究がどこに向かうべきかを説明しました。そして私たちはそれ以来それを構築し、大きな進歩を遂げています。

私たちには今、ラベルのない動画で完全に自己教師あり学習で訓練できるシステムがあります。これらのシステムは動画を理解し、本当によく表現し、動画の欠けている部分を予測でき、常識のある程度の感覚も獲得しています。

不可能なことが起こる動画を見せると、システムはこれは不可能だと言います。空中にボールを投げてボールが止まったり消えたりすると、予測誤差が急上昇します。なぜならシステムは、いいえ、これは訓練中に観察したことと完全に矛盾していると言うからです。

私たちにはその要素があります。これはJEPA、Joint Embedding Predictive Architectureと呼ばれる非生成型アーキテクチャに基づいています。これは表現空間で予測を行います。トリックがあります。非生成型のシステムを訓練して、基本的に入力についてできるだけ多くの情報を抽出し、入力のできるだけ多くを表現するように指示し、同時にその空間で予測することは複雑です。

これは極めて重要です。なぜかは説明しませんが、これは本当に重要な側面だと思いますし、ほとんどの業界が確実に取り組んでいることからの完全な脱却です。

AMIの計画はこのアーキテクチャを開発することです。すでに動作するプロトタイプがありますが、あらゆるモダリティ、あらゆるデータ、あらゆるセンサーデータに適用できるように方法論を一般化したいと考えています。

そうすれば、データから複雑なシステムの現象論的モデルを構築できます。おそらく最適に制御できるでしょう。製造プロセス、化学プラント、ターボジェットエンジン、航空機全体、化学反応、細胞、生きた細胞など、あらゆる種類の産業プロセスです。

世界のすべてが複雑なのは、本当に複雑なシステムの創発的集団現象だからです。私たちはそれらのものの現象論的モデルしか構築できません。

これがあなたが聞いたことがあると確信しているデジタルツインのアイデアです。人々は物理システムを正確にモデル化しようとしているので、シミュレートできます。問題は、システムをあまりに正確にシミュレートすると何も予測できないということです。

私は量子場理論か何かの観点から、この部屋で現時点で起こっているすべてを説明できます。しかしそれは完全に実用的ではないでしょう。それは思考プロセスを含め、この部屋で起こっているすべてを説明するでしょう。全員の脳をシミュレートできます。しかしもちろん、それは完全に実用的ではありません。

この部屋で今起こっていることを理解できる方法は、心理学、おそらく少しの科学、そのようなもの、あるいは経済学を通じてです。量子場理論や素粒子物理学や原子物理学や分子やタンパク質や細胞小器官や細胞や生物のレベルではありません。

これははるかに高いレベルです。ですから予測を可能にするために現象の抽象的な表現を開発しなければならないというアイデアは絶対に重要であり、生成モデルはそれを行いません。

オープン対クローズドAI

オープンな研究とオープンモデルの最も強力な提唱者の一人でした。AIのパワーがより少数の企業や政府の間でますます集中するようになっても。フロンティアAIが主にクローズドで、プロプライエタリで、地政学的にサイロ化されたものになった場合、どのようなリスクが見えますか。

オープン性は最終的に競争上の優位性なのか、それとも積極的に保護されなければならない公共財なのか。そしてオープン性はどこで、もしあるとすれば、止まるべきでしょうか。

AIは急速にプラットフォームになりつつあると思います。歴史的にプラットフォームは常にオープンソースになってきました。これは90年代に人々がインターネットについて行っていた議論を思い出させます。

インターネットのインフラストラクチャは分散型でオープンでしたが、Sun MicrosystemsやHPからサーバーを購入し、プロプライエタリのオペレーティングシステムとプロプライエタリのウェブサーバーなどを実行しなければなりませんでした。

これはすべて完全に一掃されました。インターネット全体がLinuxで動作しており、インターネットのソフトウェアスタック全体は、低レベルのプロトコルからオペレーティングシステム、ウェブサーバー、その上のアプリケーションまで、オープンソースです。オープンソースでなければ、採用されないだけです。

これはAIにも起こるはずの同様の現象だと思いますし、特に中国でも米国でもない国々によって推進されるべきだと思います。現在のパラダイムに固執するなら、AIシステム、特にLLMを全人類の知識の貯蔵庫にしたいのです。

どんなに大きくても、民間企業が単独でこれを行うことはできません。多言語データ、ローカルな文化データへのアクセスが必要です。システムを微調整するために政府や地元の人々からの貢献が必要であり、プロプライエタリシステムではそれを得ることはできません。

ですから私が数年間提唱してきたのは、世界のさまざまな地域が、全人類の知識の貯蔵庫となりうるグローバルなオープンソースLLMの訓練に貢献するコンソーシアムのアイデアです。

これは絶対に重要です。なぜならAIの最大のリスクについて人々は話しているからです。AIが世界を支配して私たち全員を殺すことについて、2年前にこれについて議論しました。

フランス語でお許しいただければ、それはたわごとです。AIの最も重要なリスクは近い将来、私たちのデジタル食生活全体がAIシステムによって媒介される場所で、それらのAIシステムが米国西海岸または中国の一握りのプロプライエタリ企業から来る場合、民主主義の健全性、文化的多様性、言語的多様性、価値体系にとって大きな問題になるということです。

ですから私たちには報道の多様性が必要なのと同じ理由で、AIアシスタントの非常に多様な集団が必要であり、それはオープンソースでのみ実現できます。

安全性、制御、AIリスク

あなたは終末論的なAI物語に反論し、それがこの部屋のリーダーたちにとってより差し迫った懸念から注意をそらす可能性があると主張してきました。今後5年から10年の間に真剣な注意を払うに値する真のAIリスクは何でしょうか。

これらのうちどれが最も差し迫っていると見ていますか。そしてどれが過大評価されていますか。企業や政府間の権力の集中、AIシステムの人間による悪用、雇用面での経済的混乱、または私たちが過小評価している他の体系的リスク。

AIの捕捉と集中管理が最大の危険だと思います。なぜなら先ほど言ったように、それが私たちのすべての情報食生活を媒介するからです。世界中の人々はそれを拒否するだけだと思いますので、私たちは代替手段を提供するオープンなインフラストラクチャを構築する必要があります。

それは高品質で、最初はLLM、おそらく今後は他のタイプのAIシステムでなければなりません。他のリスク、人間による悪用、そうですね、それは問題です。しかしそれは世界のすべてのようなものです。悪用される可能性があります。そしてこれに対する対策があるでしょう。私はそれについて過度に心配していません。

私の友人の何人かは心配していますが、それは単なる別のリスクだと思います。特に実存的なものではありません。

経済的混乱について。私は経済学者ではありません。実際、今夜2人の非常に著名な経済学者と夕食を共にしますが、私は彼らの言葉を繰り返すだけです。これはノーベル賞受賞者のフィリップ・アギョンとスタンフォードのエリック・ブリニョルフソンです。

経済学の多くの人々がいます。彼らが予測しているのは、AIが時間の経過とともに生産性を年間約6%向上させるということです。これは急激な離陸のようなものではありません。年間6%は実際には大きいです。軽視すべきものではありません。

しかしまだ測定可能ではありませんが、それが彼らの予測です。大量失業のような大規模な失業を引き起こすことはありません。その理由は、技術が経済に広まる速度を制限するものは、人々がそれを使うことを学べる速さだからです。

ですからそれは組み込まれた規制メカニズムのようなものです。エリック、私は何か愚かなことを言っていますか。

いいえ、あなたは大丈夫です。私はただあなたの言葉を繰り返しているだけです。あと10分です。

アライメントは正しいフレームか

多くの政策立案者がAIアライメントに焦点を当てていますが、誰の価値観へのアライメントなのか、誰による執行なのか。アライメントは最終的には技術的な課題なのか、それとも政治的・制度的な課題なのか。そして私たちは根本的にガバナンスの問題であるべきものを解決するために、エンジニアに過度の要求をしているのでしょうか。

アライメントの問題は非常に興味深いものです。なぜなら多くの人々がLLMの観点からそれを考えているからです。私のLLMを、ばかげた侮辱的な答えや無神経なものを生成しないようにどうやってアライメントするかというように。それは間違った考え方です。なぜならAIアーキテクチャは大きく変わるからです。それらは異なるものになるでしょう。

私が前に説明した青写真のタイプ、私が目的駆動型AIと呼ぶものは、目的を与えられたシステムであり、彼らができる唯一のことはこの目的を満たすことであり、推論時に満たされなければならないガードレールの対象にすることができます。

これは適切に振る舞うようにLLMを強制したり訓練したりする方法とは非常に異なります。LLMが適切に振る舞うことを決して確信できません。なぜなら訓練するデータは、人々がそれに適合できるすべてのプロンプトの非常に小さなサブセットだからです。

ですからLLMの安全性や振る舞いを決して保証できません。もし未来のAIシステムが人間のような知能を持つとしたらLLMになると想像しようとすると、もちろんそれは起こりませんが、「ああ、それは危険だ」と言うことになります。それは間違ったアプローチです。

AI労働と人間の主体性

AIはすでに仕事を再構築していますが、人々が予想する方法でばかりではありません。AIが人間の知能を置き換えるのではなく増強する場所はどこだと見ていますか。そして社会が移行コストを過小評価していると思う場所はどこですか。

あなたの意見では、私たちは雇用喪失について間違った質問をしていますか。そして若者、教育者、そして私たちの聴衆の労働力リーダーたちに、AI豊かな未来にどのように最もよく準備するかについてのあなたのアドバイスは何ですか。

2番目の質問から答えます。明らかに技術進歩は加速しており、それが意味することは、今勉強している人は誰でも仕事を変えなければならないということです。なぜなら技術は非常に速く進化するからです。

ですから学生が学ぶ必要があるのは基礎です。5年や10年で時代遅れにならない、長い保存期間を持つものです。非常に基本的なこと。私は学生に言います。もしモバイルアプリプログラミングのコースを受けるか量子力学を受けるかの選択があるなら、コンピュータサイエンティストであっても量子力学を選びなさい。

なぜならそうすることで学ぶ方法は、学ぶことを学ぶことを可能にし、また基本的な技術を手に入れ、あらゆる種類の異なる文脈で再利用できるからです。機械学習の基礎となる数学のすべてが基本的に統計物理学から来ていることを、どうやって事前に知ることができるでしょうか。だからこそ最近はAIをやる物理学者がたくさんいるのです。

基礎を学んでください。学ぶことを学んでください。そして専門知識を変え、仕事を変える準備をしてください。それが2番目の質問でした。最初の質問は忘れてしまいました。

時間の関係で先に進みます。私の最後の質問は2035年がどのように見えるかです。成功と失敗がどのように見えるかをお聞きします。しかしその前に、すぐに答えていただきたい5つの簡単な質問があります。

ライトニングラウンド

今AIで最も過大評価されているアイデアは何ですか。

最も過小評価されている研究の方向性は何ですか。ワールドモデル。

AI以外で、あなたの知能についての考え方を最も形作った1冊の本または思想家は誰ですか。

フランス・ドゥ・ヴァール、残念ながら最近亡くなりました。彼は本を書きました。「私たちは動物がどれほど知的であるかを理解するのに十分知的か」。私たちは知能を言語に関連していると考えます。そうではありません。動物は本当に知的であり、それが現在機械で再現できない種類の知能なのです。その本を読んでください。彼は忙しい。

科学的、企業的、デイビッド・ルーベンシュタインのような、彼はすぐそこにいますが、あるいは政治的な、今後10年間でAIの軌道を最も形作ると思うリーダーは誰ですか。

これにどう答えればいいか分かりません。答えはこうです。それはオンになるでしょう。

ダボスがAIをカバーする方法で最も欠けていると思うことは何ですか。つまり、ダボスのすべてを意味します。ダボスがすでにどれほど激しいかを考えると、何かを追加すると、私たち全員が週の間に死ぬか何かになるでしょうから、もういいです。

これまでヤンを楽しんだ人は誰ですか。彼が最後の仕事を辞めた後に島に引退しなくて、彼がこの事件に取り組んでいることを嬉しく思う人は誰ですか。

私の妻に話すべきでした。

長期的視点:2035年の成功と失敗

最後の質問です。あなたはAIが数十年にわたってどのように進化するかについて稀な深い視点を持っています。10年から15年先、およそ2035年を見据えた場合、私たちの経済、機関、そしてダボスのようなフォーラムさえも、AIのために今日とどのように大きく異なって見えるでしょうか。成功はどのように見え、失敗はどのように見えるでしょうか。

成功は物理世界を理解するAIシステムを含むでしょうが、おそらく人間のような知能のようなものに到達するでしょう。もちろん特定の領域では人間より知的になるでしょう。なぜならコンピュータが人間より多くのことをよりよくできることを知っているからです。それが成功です。

私はこれが今後10年以内に無視できない確率で起こると想像しています。来年起こることではありません。2年かかるわけでもありません。私のより楽観的な同僚の何人かとは異なり、まだやるべきことがたくさんあります。

それはイベントのようなものではありません。多くの人々の心の中では、AGIと彼らが呼ぶものへの秘密が一つあり、翌日コンピュータが世界を支配するというものです。これはばかげています。このようには決して起こりません。

一連の概念的なブレークスルーが起こるでしょう。それらは無名の研究論文にあり、誰も注意を払わないでしょう。誰かがそれらがどれほど強力かを実証する5年後まで。

これは深層学習でもある程度起こったことです。それはTransformerでも起こったことであり、LLMでも起こったことです。ですから私たちはこれを目にするでしょう。科学コミュニティが注目している、またはまだ注目していない論文を読んでください。なぜならそれらが今後5年間で革命を引き起こすからです。

AIはどのように見えるでしょうか。5年、10年後にどのように見えるでしょうか。私たちは常に私たちを支援するアシスタントを持つでしょう。おそらく私たちのスマートグラスの中、少なくともそれがMetaのビジョンです、あるいは他のウェアラブルデバイスで。

これらのシステムは私たちを支援し、私たちの知能を増幅するでしょう。おそらくより合理的な決定を下すことを可能にするでしょう。知能は世界で最も必要とされる商品ですから、地球上の知能の総量を増やすという目的は、非常に良いものだと思います。それは本質的に良いことです。

それは私たちの制御下にあるでしょう。超知能システムとの私たちの関係は、ビジネス、学術、または政治的リーダーとそのスタッフとの関係と同じになるでしょう。政治家は確実に自分より賢い人々のスタッフに囲まれています。教授にも確かに当てはまります。

私たちの目的は、学生を私たちより賢くすることです。ビジネスでも同じことです。研究では確実に、あなたに起こりうる最高のことは、あなたより賢い人々と一緒に働くことです。

最後の1分で、こう質問させてください。5年前、このステージでメラ・ミュラーはGPT-2によって書かれた本を掲げました。GPT-2がダボスで言及された数少ない時の一つだったと思います。その年。5年前です。

AIについて人々が話していた多くのことで、彼らは今起こっていることが90年先だと予測していました。過去5年間は本当に速く動きました。あなたにとってはそうではなかったかもしれませんが。次の5年間はどのように見えるでしょうか。さらに速く感じるでしょうか。そして私たち全員が種として、社会として、この大きな変化の中で繁栄するためにどのように準備できるでしょうか。

それは、科学技術の進歩を試みる塹壕にいるかどうか、すぐにはブレークスルーだと気づかない概念的なブレークスルーか、それらを機能させ始めるまで、そのようなものかによって、非常に異なって見えます。

しかし外側から、公衆が見るものは不連続な変化です。公衆はChatGPTを見ました。それはGPT-3.5か何かでしたが、不連続な変化として。そうではありませんでした。技術はその何年も前から開発されていました。多くのラボが内部で同様のシステムを持っていました。ただその時に可視化されただけです。

その前のDARPAグランドチャレンジが、自動運転車の可能性に対する公衆の目を開きました。

皆さん、ヤン・ルカンでした。

コメント

タイトルとURLをコピーしました