ヤン・ルカンの衝撃的警告：「AI業界は壮大な間違いを犯している」

8,402 文字

Yann Le Cun brise le mythe : “L’IA fonce droit dans le mur”

🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

現在のAI戦略はすべて壮大な間違いだとしたら？今日、業界全体がかなりシンプルな戦略に全てを賭けています。より大きなAIモデルを構築し、より多くのデータを与え、より多くの計算能力を与える。
これによって、真の汎用人工知能、つまりAGIが現れることを期待しているのです。人間の知性、人類の知性をあらゆる点で上回る知性です。彼にとって、この道を進み続けることは、まさに壁に突進するようなものです。そして言っておかなければならないのは、これは単なる意見の相違ではなく、ビジョンの衝突であり、言語だけで十分だと考える人々と、現実世界を理解することがはるかに複雑な課題だと知っている人々との間の対決なのです。
では、AI業界は道を誤っているのでしょうか？LLM（大規模言語モデル）は、知性の最後の境界を越えることができない輝かしい幻想に過ぎないのでしょうか？このビデオでは、ヤン・ルカンの過激な視点を深く分析し、彼の議論を解剖して、これらがAIの未来にとって、そして何よりも私たちの文明の未来にとって何を意味するのかを理解しようとします。
なぜなら、最終的にはそれが私たちの話題だからです。そう、私たちの文明の未来です。今日、私はこの分析にあなたを連れていきます。このビデオが気に入ったら、まだでしたらチャンネル登録やいいねをお願いします。また、ニュースレターも始めたことをお知らせします。
登録するだけで、月曜から金曜まで最高のニュース要約をメールでお送りします。これを踏まえて、ビデオを始めましょう。
さて、フランスの天才ヤン・ルカンとは一体誰なのでしょうか？彼はインターネット上でランダムに意見を述べているだけの人ではありません。彼は現代人工知能の創始者の一人です。
彼は1960年にパリ近郊で生まれ、すぐに当時「ニューラルネットワーク」と呼ばれていたものを探求し始めました。当時、多くの研究者にとってはまったく未知の分野でした。これは小さなことではありません。1980年代から、彼は機械学習に取り組み、革新的なアイデアを持っていました。それは、機械に画像、音声、さらにはテキストを認識することを教えるというものでした。
そして、それらすべてを数千の例を見せるだけで学習させるのです。何か思い当たるものがありますね？彼は伝説的なAT&T研究所でも働き、銀行小切手を自動認識するシステムも開発しました。そう、フランスのクレディ・ミュチュエル銀行の基盤にあるAIは彼が手がけたものでした。その後、ニューヨーク大学でデータサイエンスセンターも設立しました。
私たちは時代で最も影響力のあるエンジニアの一人について話しています。2013年、Facebookの創業者であり、MetaのCEOであるマーク・ザッカーバーグが個人的に彼に接触し、F A I R（フェア）と呼ばれるFacebookの人工知能研究所（後にMetaになる）の設立を提案しました。そしてヤン・ルカンは当時のGoogleからのオファーさえ断りました。
すごいですよね？現在、彼はMetaでAIの科学ディレクターを務めており、AIの世界、そして地政学的世界全般で最も戦略的なポストの一つを担っています。彼がこれほど尊敬されているのは、畳み込みニューラルネットワーク（CNN）という重要な概念を開発し、今日でも現代AIの基盤となる技術を生み出したからです。
彼はAIの創始者の一人なのです。2018年には、ジェフリー・ヒントンとヨシュア・ベンジオとともに、情報科学におけるノーベル賞に相当するチューリング賞を受賞しています。このチャンネルをフォローしている方なら、この3人のことをご存知でしょう。私はよく彼らのインタビューを翻訳して共有し、彼らの視点や分析を紹介しています。
私たちはすでに彼らの論文を分析し、さらに多くのことを行ってきました。彼らは業界ではAIの3人の創始者と呼ばれています。つまり、今日人工知能が世界を変えようとしているのは、明らかに彼のおかげでもあるのです。しかし、さらに興味深いのは、そのアイコン的な地位にもかかわらず、彼が現在のAIコミュニティの大多数とは異なる視点を持っていることです。
集団的なパニックに屈する傾向がなく、彼はAIは実存的リスクではなく、イノベーションを抑制することは歴史的な誤りになると考えています。これについては後ほど詳しく見ていきましょう。
ヤン・ルカンのレベルがわかったところで、彼がAIの未来について本当に考えていることに目を向けてみましょう。彼の視点は、私たちが至る所で聞くものとは根本的に異なっています。
彼にとって、大規模言語モデル（LLM）、つまりChat GPTのような有名なモデルは、人工知能の未来ではありません。なぜなら、彼によれば、それらは根本的に限界があるからです。テキストだけでAIをトレーニングすることが、人間のような知性を達成するには不十分である理由について、彼がシンプルに説明している部分をご紹介します。
「ヤン、昨年のAI分野では多くの興味深いことが起こりました。あなたにとって昨年最も刺激的な進展は何でしたか？」
「挙げるには多すぎますが、一つ言うと、驚かれるかもしれませんが、私はもうLLMに興味がありません。これらは産業界の手に渡り、製品化され、細かい改良を追求しているものです。彼らはより多くのデータ、より多くの計算能力を得ようとし、合成データを生成しようとしています。私はもっと興味深い問題があると思います。」
「主に4つあります。どうやって機械に物理的な世界を理解させるか？ジェンセンが今朝の講演で話していましたね。どうやって永続的なメモリを持たせるか？これについて話す人はほとんどいません。そして残りの2つは、どうやって推論し、計画を立てるようにするかです。」
「もちろんLLMに推論させる試みはありますが、私の見解では、それは推論を非常に単純化した捉え方です。私はおそらくもっと良い方法があると思います。ですから、私が熱中しているのは、この技術コミュニティの多くの人々が5年後に熱中するかもしれないことですが、今のところそれはあまり刺激的には見えません。なぜなら、それらは難解な学術論文だからです。」
では、ヤン・ルカンがここで説明していることは具体的に何でしょうか？彼は、LLMが行っているように、テキストのみからAIを形成するだけでは、人間のような知性に到達することはできないと言っています。
彼の議論は単純な事実に基づいています。今日の大規模モデルが消化するテキスト情報の量は、人間の子供が最初の4年間に目だけを通じて受け取る情報量に相当するというのです。言い換えれば、言語だけでは知性のすべてではないというのが彼の攻撃の視点です。
しかし、理解すべきことは、この立場が今日の業界の大部分が考えていることと反対の流れにあるということです。なぜなら、Open AI、Anthropic、Google、DeepMindなどの業界は、モデルのサイズを十分に大きくし、トレーニングの精度を向上させれば、言語だけから一般的な形の知性に到達できるという考えに大きく賭けているからです。
そして今のところ、このアプローチが素晴らしい結果をもたらしていることは否定できません。モデルはすでに非常に複雑な問題を解決でき、多くのコードを生成でき、新しい状況について推論することができます。数年前には不可能だと思われていたことです。
一方では、ヤン・ルカンが「注意してください、LLMには限界があります。実際の世界を認識し理解する機械が必要です」と言い、他方では、業界が「おそらくそうかもしれませんが、それなしでもどこまで到達できるかご覧ください」と答えています。これがヤン・ルカンが今日AIの議論の中で自由電子のように見える理由です。
注意してください。彼はLLMのパフォーマンスを否定しているわけではありませんが、多くの人がまだ同じモデルで進歩の余地があると見ている一方で、彼はLLMの構造的限界を強調しています。つまり、私は誰が正しいかを言っているわけではありません。私たちは、AIの未来に関する二つの対立するビジョンを目の前にしており、その結果は現時点では依然として未知数です。さて。
今、あなたは「ヤン・ルカンがLLMが未来の道だと信じていないなら、彼によれば何が未来なのか？」と疑問に思うかもしれません。そして実際にこの抜粋で、彼は自分のビジョン、人工知能にとって次の大きなステップだと考えるものについての概要を示しています。
それはワールドモデルと呼ばれるモデルです。彼の説明を聞いてみましょう。
「しかし物理的世界について推論し、永続的なメモリを持ち、計画を立てるLLMでないなら、それは何ですか？基盤となるモデルは何でしょうか？」
「多くの人がワールドモデルに取り組んでいます。ワールドモデルとは何でしょうか？ワールドモデルは私たち全員が心の中に持っているものです。本質的に思考を操作することを可能にするものです。つまり、私たちは現実世界のモデルを持っています。例えば、このボトルの上を押すと恐らく倒れるでしょう。しかし底の方を押すと、滑るでしょう。そして強く押しすぎると、変形するかもしれません。」
「私たちは物理的世界のモデルを生後数ヶ月で獲得し、それが実際の世界を扱うことを可能にしています。そして実際の世界を扱うことは言語を扱うことよりもはるかに難しいのです。だから私が思うに、実際の世界を本当に扱えるシステムに必要なアーキテクチャのタイプは、私たちが現在使用しているものとは全く異なります。」
「LLMはトークンを予測します。トークンは何でもあり得ます。自律走行車のモデルはセンサーからのトークンを使用し、運転するトークンを生成します。そして、ある意味では、少なくとも安全に運転でき、ポールに衝突しない場所について、物理的世界について推論します。」
「なぜトークンが物理的世界を表現するのに適切な方法ではないのですか？トークンは離散的です。つまり、トークンについて話すとき、一般に有限の可能性のセットについて話しています。典型的なLLMでは、可能なトークンの数は約10万程度です。」
「だから、トークンを予測するようにシステムをトレーニングするとき、例えばテキストの中で次に来る正確なトークンを予測するようにトレーニングすることはできません。しかし、辞書内のすべての可能なトークンに対する確率分布を生成することはできます。これは単に10万個の0から1の間の数字の長いベクトルで、合計が1になります。私たちはこれをすることができます。」
「しかし、高次元で連続的ないわゆる自然データであるビデオについては、これを行うことができません。そして、ピクセルレベルでビデオを予測するようにシステムをトレーニングすることで、世界を理解したり世界の精神的モデルを構築したりするためのすべての試みは失敗しています。」
「ニューラルネットワークなどのシステムをトレーニングして、画像の良い表現を学習させるためには、破損または変換されたバージョンから画像を再構築することで機能するすべての技術が実質的に失敗しています。完全に失敗したわけではありませんが、うまく機能しますが、私たちが共同埋め込みと呼ぶ代替アーキテクチャほどうまく機能しません。それは本質的にピクセルレベルでの再構築を試みないのです。」
「彼らは画像やビデオ、あるいはトレーニングされている自然信号の抽象的な表現、抽象的表現を学習しようとします。これにより、この抽象的表現空間で予測を行うことができます。私がよく使う例は、この部屋のビデオを撮って、カメラを少し動かし、ここで止まって、このビデオの続きを予測するようシステムに求めた場合、おそらく部屋があり、人々が座っているなどと予測するでしょう。」
「あなたたち一人一人がどのように見えるかを予測する方法はありません。それはビデオの最初のセグメントからは完全に予測不可能です。そして、世界には単純に予測できないものがたくさんあります。そして、ピクセルレベルで予測するようにシステムをトレーニングすると、発明できない詳細を発明しようとすることにすべてのリソースを費やしてしまいます。」
「そして、それは完全な資源の無駄です。そして、私たちが行った試み（私は20年間これに取り組んでいます）、ビデオ予測による自己教師あり学習を使用してシステムをトレーニングすることは機能しません。表現レベルでそれを行う場合にのみ機能し、これはこれらのアーキテクチャが…」
それでは、ヤン・ルカンが説明したことから何を理解できるでしょうか？基本的に、彼はAIの未来はワールドモデル（world models）と呼ばれるものを通じてやってくると言っています。簡単に言えば、彼は私たちのように、言語を操作するだけでなく、行動の物理的な結果を予測し、計画し、理解する能力を持つシステムを作りたいと考えています。子供はボトルを横に押すと滑り、上から押すと破裂する可能性があることを知っています。
これが起こることを精神的にシミュレーションする能力、それがワールドモデルです。そして彼にとって、AIが本当に知的になるためには、この能力を獲得する必要があるのです。さて、業界の誰もがこれに同意しているでしょうか？いいえ、全くそうではありません。すでに言いましたが、今日のAI巨人たちは、LLMをますます強力にし、データベース、外部ツール、長期記憶プロセスなどに接続することで、LLM自体から計画と推論の能力を得ることができると考えています。
言い換えれば、彼らは一種の漸進的な進化に賭けています。LLMをステップバイステップで強化し、少しずつモジュールを追加して、少しずつ世界を理解し、対話できるようにします。ルカンはそれが機能しないと考えています。彼は、電動スクーターを少しずつ改良してレーシングカーを作ろうとするようなものだと考えています。
そのため、彼が提案しているのはさらに根本的なものです。テキストだけに依存せず、世界の内部表現を作り出し、その後、推論を学ぶことができるシステムです。この議論は根本的なものです。それはAIをどのように構築するかだけでなく、知性とは本当は何かに関わるからです。
今日、明確にしておきますが、ワールドモデルはまだ非常に実験的なものです。LLMはすべての実用的なアプリケーションを支配しています。つまり、現時点では言語が主導しています。しかし注意してください。長期的には、ヤン・ルカンのビジョンが状況を完全に変える可能性があります。これが今日私たちがいる場所です。
一方では、言語モデルの拡張に大規模に賭け続けているAI業界があります。Open AI、Google、DeepMind、Anthropicなど、すべてがサイズ、データの質、そしてますます複雑なアーキテクチャによって、AGI（汎用人工知能）と呼ばれるものに近づくという考えに賭けています。
他方では、ご理解いただいたように、AIの創始者の一人であるヤン・ルカンがいて、「実際の世界の理解なしに、物理的な結果を予測する能力なしに、ワールドモデルなしには、本当の知性はない」と言っています。そして率直に言って、これは真剣に受け止めるべき視点です。なぜなら、非常に偉大な情報科学者であり哲学者であり、因果推論の最も偉大な専門家の一人であるJudah Pearlが彼の著書「The Book of Why（なぜの本）」で書いたように、彼は次のように述べています。「知的に行動できるAIは、単なる観察の相関ではなく、世界の因果的表現を操作できなければならない」。
そして今日、いかに強力であっても、最高のLLMでさえ、まだ本当の意味で原因と結果を操作していません。彼らは非常に洗練された統計的相関を操作しています。そしてルカンは、真の知性とは何よりも、私が世界で行動した場合に何が起こるかを予測できることであり、単に一貫した文章を生成することではないと私たちに思い出させています。このテーマを掘り下げて、英語を少し理解したい場合は、3つのことをお勧めします。
まず、ヤン・ルカン自身が2022年に発表した基本的な論文「自律型機械知能への道筋」を読んでください。彼はそこでワールドモデルと自己教師あり学習に関するビジョンを詳細に説明しています。次に、リチャード・サットンの「苦い教訓（The Bitter Lesson）」という記事を読むことを強くお勧めします。これは長期的には、なぜ一般的な生の学習方法が特殊な方法をしばしば上回るのかを説明しています。
そしてさらに深く掘り下げたい場合は、David HaとJürgen Schmidhuber（発音が間違っていたらすみません）による「World Models」を読んでください。これは、世界のダイナミクスを予測し、その中で行動するエージェントをトレーニングする方法に関する最初の具体的な研究のひとつです。これは2018年に発表された古い科学論文ですが、ワールドモデルを作成するために必要なニューラルネットワークについて多くの興味深いことを明らかにしています。これらのリンクはすべて説明欄に掲載します。
最後に、アラン・チューリング自身が言ったように、思考する機械を作る試みは、私たち自身がどのように考えるかを発見するのに大いに役立つでしょう。
そして彼の先駆的な発明から数十年後、彼が正しかったことがよくわかります。今日、LLMのアプローチだけで十分なのか、あるいは真の革命は世界から学ぶことができるシステムを通じて起こるのかはまだわかりません。個人的には、未来はおそらく両方の混合になると思います。
より強力なLLM、はい、しかし内部のワールドモデルによって強化され、現在の限界を埋めるものになるでしょう。ここで30秒ほど使って、あなたがこれを魅力的だと思うならば、私はこの知識をすべて集め、さらに多くの実践的なケースを含めた、非常に具体的で常に改善している研修を用意していることをお知らせします。
数ヶ月前から、私の「Vision IA」プログラムで1500人以上の学習者を研修してきました。これは、人工知能と共に自律的で効率的、そして私が言うところの「超人的」になれるように設計された完全な研修です。現在のレベルに関係なく、事前の技術的なスキルは必要ありません。
ユニークなビデオレッスンを通じて、市場で最も強力なツールを完全にマスターするまで、ゼロからステップバイステップでサポートします。Gemini、ChatGPT、Grok、Eleven Labsなどのツールの使い方を学びます。今週は、新しいツール、新しいテクニック、新しい機会を含む大きなアップデートを発表します。
はい、Vision IAの私の目標は、AIを可能な限り多くの人に簡単に届けることです。今日登録することで、将来のすべての更新へのアクセスを無期限かつ追加費用なしで確保できます。AIの大規模な到来に振り回されるのではなく、他の人より先を行く保証です。
このビデオの下にあるリンクをクリックして今すぐ参加してください。最初のレッスンであなたにお会いします。それでは質問です。あなたの意見では、誰が本当に未来を構築しているのでしょうか？LLMの巨人たちか、それともワールドモデルの先駆者たちか？コメントで教えてください。
私はすべてのコメントを注意深く読んでいます。全員に返信することはできませんが、読んでいることを知っておいてください。そしてもちろん、この人工知能への探求が私と同じくらいあなたを魅了するなら、チャンネル登録やいいねをすることを考えてください。ここでは、単にニュースを始めるだけでなく、歴史を形作っているものを本当に理解しようとしています。
X（旧Twitter）へのリンク、ニュースレター、または私の研修へのリンクはすべて、ビデオの下のコメント欄または説明欄にあることをお知らせします。とにかく、視聴していただきありがとうございます。次のビデオでお会いしましょう。
この人工知能に関する分析に興味を持たれ、この魅力的な分野の進歩についての理解を深めたい場合は、人工知能に特化した私のx.comページをご覧ください。そこでは、私たちの日常を変え、未来を形作る人工知能の最新のイノベーションと具体的なアプリケーションに関する詳細な分析を見つけることができます。