ヤン・ルカンがロボティクス産業全体に異議を唱える

ロボット
この記事は約13分で読めます。

Meta AI研究の第一人者であるヤン・ルカンが、ロボティクス産業全体に対して爆弾発言を行った。彼は最近のインタビューで、印象的なデモを披露するヒューマノイドロボット企業のほとんどが事前計算された動作に依存しており、真の自律性や汎用知性を持っていないと暴露した。ルカンは、現在の業界標準である大量のデモンストレーションデータによるパターンマッチング手法を批判し、代わりにV-JEPAと呼ばれる世界モデルアプローチこそが解決策であると主張する。この発言はTwitter上で大きな論争を巻き起こし、イーロン・マスクを含む業界関係者からの反論を招いた。ルカンの主張の核心は、ロボットが真に有用になるためには、何百万もの事例から暗黙的に学習するのではなく、物理法則や因果関係を理解する明示的な世界モデルが必要だというものである。

Yann LeCun Just Called Out the Entire Robotics Industry
Checkout Free Community: - 🐤 Follow Me on Twitter 🌐 Intersted In AI Business:

ヤン・ルカンの衝撃的な告発

ヤン・ルカンはロボティクス産業を暴露したのでしょうか。この動画について詳しく見ていく必要があります。

このビデオクリップは絶対的にバイラルになっていまして、ヤン・ルカンが最近のインタビューで述べたことは、本質的にロボティクス産業全体を暴露するものでした。まずはこの1分間のクリップを聞いてみてください。その後、すべてを詳しく掘り下げていきます。これについて話さなければなりません。

ヒューマノイドロボットを製造している企業はたくさんありまして、カンフーをやったりするような印象的なことをやっていますよね。これは全て事前計算されたものなんです。それらの企業は、絶対にどの企業も、これらのロボットを有用になるほど賢くする方法を知りません。これがロボティクス産業の大きな秘密なんです。

非常に狭いタスクでしか訓練できませんし、大量のデータを収集する必要があります。自動運転車を作ろうとしていたのと同じ方法ですね。コストがかかりますし、少数の狭いタスクにしか実用的ではありません。あなたの飼い猫ほどの常識すら持っていないロボットしかないんです。人間の知性は言うまでもありません。だから、これが今後数年間の課題なんですよ。システムに現実世界を本当に理解させることです。

問題は、言語で成功したアプローチが高次元の連続的でノイズの多いデータには機能しないということです。何か別のものを使う必要があります。

ロボティクス産業の実態

これはかなり衝撃的な発言でしたね。彼は基本的にヒューマノイドロボティクス産業全体を名指しで批判したわけです。理解しなければならないのは、ヒューマノイドロボティクス産業には非常に多くの主要プレイヤーがいるということです。

しかし、彼には一理あります。では、彼が最初に言ったことの1つから始めましょう。それは、これらのロボティクスデモの多くが事前計算されているということです。そして、彼はこれについて正しいんです。ほとんどの人が気づいていないのは、Unitree G1のデモを見ているとき、これらは完全に自律的ではない事前計算されたアクションだということです。

つまり、環境を判断して動き回る能力という点では自律的です。それはできます。しかし、歩き回って植物を拾う方法を知っていて、自分が置かれている環境について推論できるロボットではないんです。これは派手な事前計算されたデモなんです。

また、ほとんどの人は、これらのロボットが実際に失敗する回数の多さも知りません。今これはUnitreeに対する批判では全くありません。しかし、これらのロボットがオフスクリーンで失敗する回数の多さに驚くでしょう。理解しなければならないのは、これは企業によって提示されたビデオプレゼンテーションであり、私がここでUnitreeを使っているのは、彼らが最も広く知られているロボティクス企業の1つであり、このようなビデオを見るときにはゴールドスタンダードだからです。

だから、ほとんどの人は気づいていないのですが、これらのデモが行われているとき、ロボットが単に失敗する失敗モードやエッジケースがいくつかのシナリオで存在する可能性があります。しかし、それらの企業にとって、それを広い人々に見せることはインセンティブに反するんです。

彼らの目標は、より多くの販売を促進し、誇大広告を高め、もちろんヒューマノイドロボティクスに興味を持つ個人を増やすという点で業界を前進させることです。だからヤン・ルカンはここで本質的に言っているんです。見てください、確かにこれらのロボット企業は超印象的に見えますが、実際には見えるほど印象的ではありません。なぜなら、すべて事前計算されているからです。

Boston Dynamicsの事例

さて、これについて実際にクレイジーなのは、私が実際に調査を行ったことです。特定の企業について掘り下げたかったんです。なぜなら、「オーケー、Unitreeはそれでいいとして、Boston Dynamicsはどうなんだ」と思ったからです。それで実際にGoogleで調べました。2026年のCESを見たんです。これが新バージョンのBoston Dynamics Atlasを初めて見ることができた場所でした。

実際にクレイジーだったのは、CES 2026のAtlasデモンストレーションが実際には遠隔操作されていたということです。製品版は完全に自律的に機能することを意図しているにもかかわらずです。これはクレイジーです。なぜなら、世界最大のテックショーでの生産準備完了Atlasの大々的なお披露目がテレオペレーションだったからです。

もし私が間違っていたら許してください。でも、私は多くのリサーチエージェントを使いましたし、それらすべてが操作されていたと言って戻ってきました。でも、それは多くの知識ではありませんでした。ほとんどの人がこれは完全に自律的だと思っていたと思います。

これが完全に自律的にできなかったと言っているわけではありません。しかし、覚えておかなければならないのは、年間で最も注目されるテックカンファレンスの1つで、世界中が見ている舞台にロボットを置いて、それを完全に自律的にすることには大きな固有のリスクがあるということです。

失敗のリスクを減らすために、テレオペレーションにすることは理にかなっていると思います。つまり、これは本質的にヤン・ルカンが言っていることなんです。デモは信じられないほど見えますが、振り付けと遠隔操作を取り除けば、汎用知能はないんです。

業界のタイムラインと現実

クレイジーなのは、実際にBoston Dynamicsがやっていることのタイムラインを掘り下げてみると、彼らは2026年にこれらのロボットを配備して産業タスクを実行する目標を持っているということです。そして、どうやら2028年にパーツソーシング作業にAtlasを配備し、2030年にはさらに多くのことをする計画だそうです。

ここでのタイムラインは実際に興味深いです。なぜなら、彼らは2028年に基本的なパーツソーティングを行い、2030年にはより複雑なパーツを扱うと言っているからです。だから、これらの企業は、今現在汎用知能を主張しているわけではないんです。そして、このCESデモは、ヤン・ルカンのポイントを示しています。彼は基本的に言っているんです。見てください、ハードウェアは100%これらの人たちが持っているものです。

彼らは印象的な機械的能力を持っていますが、新しいタスクを理解できる汎用知能を持っている企業は1つもありません。そして、その多くはまだ人間のオペレーターを必要としています。

さて、この全体のことでTwitterは大騒ぎになりました。人々は「ああ、またヤン・ルカンが始まった」と言っていました。何人かの人は「なぜヤン・ルカンはいつもそんなにネガティブなナンシーなんだ」と言っていました。そしてもちろん、イーロン・マスクは自分の反応を出すことにしました。

彼は「彼は自分ができないなら、誰もできないと思っている」と言いました。もちろん、理解しなければならないのは、イーロン・マスクはもちろんTeslaのOptimusヒューマノイドロボットを指しているということです。彼はTeslaでヒューマノイドに取り組んでいます。だから彼は言っているんです。見てください、もしヤン・ルカンがそれをできないなら、他のどの企業もできないと彼は思っているんだと。

V-JEPAという解決策

さて、ヤン・ルカンはすぐに言いました。実際にはその正反対です。私はできることを知っていますし、どうやるかも知っています。これは大胆な発言です。業界全体が解決しようとしていて、単に解決していない問題を解決する方法を知っていると言うのは、かなり大胆な発言です。そして彼は、みんなが賭けている現在の技術ではないと言っています。

私の賭けは有名なことにV-JEPAと世界モデル、そしてプランニングです。そしてある時点で、私が正しいことに気づくでしょう。

さて、V-JEPAが何か知らない人のために説明すると、これは基本的にAIに動画を理解させるために、ピクセルを埋めるのではなく、根本的な概念を理解することで欠けているものを予測させるというものです。

だから、これは現在のAIとは超異なります。通常の動画、通常のChatGPTのビデオのようなものは、ビデオフレームを見て、次の正確なピクセルを予測します。これは、X位置の赤いボールがY位置に移動することを暗記するようなものです。

さて、V-JEPAは、ヤン・ルカンがこの問題全体とロボティクス産業を暴露しようとしているソリューションですが、特定のチャンクがマスクアウトされた動画の一部を見た場合、マスクされた部分に何があるかを概念的に予測します。ピクセル単位ではありません。

ボールには運動量があることを理解し、重力がそれを引き下げるので、ボールは弧を描くだろうということです。つまり、基本的に、例えば真ん中の5秒が黒塗りされた動画を誰かに見せたとします。ピクセル単位の予測は、すべてのピクセルの色を推測しようとしますが、V-JEPAは人がボールを投げていたことを理解します。

だから、真ん中の部分はおそらくボールが空中を投げられて着地する様子を示しているでしょう。これがV-JEPAと他のものとの重要な違いです。V-JEPAは、予測不可能な情報を破棄する柔軟性を持つ抽象表現空間で動画の欠けている部分を予測することで学習します。

詳細を暗記しようとしているのではありません。物理学、パターン、実際の世界がどのように機能するかといった根本的な概念を学習しようとしているんです。V-JEPAの予測器は、空間的な不確実性をモデル化し、ピクセルレベルの詳細ではなく、見えない領域に関する高レベルの情報を予測できる原始的な世界モデルと見なすことができます。

こう考えてみてください。もしロボットが実際にV-JEPAを持っていて、それが機能するなら、あなたが一度水を注ぐのを見ることができるということです。その概念を理解します。液体は下に流れ、容器を底から上に満たします。そして、その概念全体を理解して、まったく異なる容器に液体を注ぐことができるでしょう。

そして、それはモデルが水を注ぐ10,000の例、ジュースを注ぐ10,000の例、背の高いカップや短いカップのような形をしたカップに注ぐ10,000の例を必要とすることを防ぐでしょう。

V-JEPAの本質と論争

基本的に、V-JEPAはヤン・ルカンが動画から原理と物理学を学習するAIを構築しようとする試みです。生成AIのようにパターンを暗記するだけではありません。それはまだ初期の研究ですが、これは基本的に構造であり、ヤン・ルカンが機能すると言っている種類のものです。

さて、ここにはいくつかの非常に厳しい公的意見がありました。誰かが言いました。これは多くの人々が彼をとても嫌う理由になるタイプのBSです。彼は単に反対意見を持っているだけではありません。彼はこれらの分野のすべての人が愚かで十分に優れていないと積極的に考えており、一方で彼の素晴らしいV-JEPAで猫レベルのAGIで世界を救うと。

そしてもちろん別の反論がここで言われました。17歳は10〜20時間で運転を学びません。それはむしろ10〜20時間プラス17年間の強化学習と、進化を通じて何百万年もの間の膨大な量の事前訓練の上に、非常に堅牢な物理環境があります。だから本質的に彼がここで言っていることは、非常に興味深いポイントを作っています。

彼は基本的に言っているんです。見てください、人間は10〜20時間でゼロから運転を学ぶわけではありません。彼らは17年間の具体化された経験を事前にロードされて来ます。それがあなたの物理的直感、物体の永続性、空間推論、そして視覚処理、モーター制御、脅威検出を通じた何百万年もの進化的最適化です。

だから、ティーンエイジャーが運転を学ぶとき、彼らは実際には世界理解の大規模な基盤を微調整しているんです。ゼロから学習しているのではありません。そして、AIがやっていることと比較してください。多くの人々は、オーケー、ティーンエイジャーは17歳や16歳になってすぐにそのように運転を学べる。でも、なぜロボットは何百万もの例が必要なのかと言うでしょう。

そして、これについて考えると、これは実際にヤン・ルカンの理論を支持する議論です。なぜなら、彼は世界モデルの基盤が必要であることを認めているからです。人々がここで見逃していると思う唯一の議論は、その基盤をどのように得るかについて議論しているということです。

この人は基本的に、進化、事前訓練、大量のデータを通じてそれを得たいと主張しています。もっと多くの例が必要なだけです。それは標準的な業界の立場のようなものです。

しかし、ヤン・ルカンの立場は、パターンマッチングやデモンストレーションを通じて暗黙的に世界モデルを学習することはできないということです。明示的な世界モデルアーキテクチャが必要なんです。

根本的な問いと今後の展望

今後も出てくると思う重要な質問は、ロボットが実際に何百万時間ものデモンストレーションデータから直感的な物理学と常識を暗黙的に開発できるのか、それとも予測的な世界モデルを構築するための明示的なメカニズムが必要なのかということです。そしてヤン・ルカンは本質的に後者に賭けています。明示的な世界モデリングが必要です。

現在の方法でより多くのデモンストレーションデータを使ってスケールアップするだけでは到達できません。それらは根本的に間違った構造なんです。そしてもちろん、私が言ったように、かなり厳しい反論がありました。この人は5年後、世界モデルでロボットをエンドツーエンドで訓練するときに、馬鹿に見えるだろうと。

彼はLLMに対して使ったのと同じ議論を使っていて、それらはすべて失敗しました。ヤンはLLMや何であれがAGIではないかもしれないと精神的に正しい人々の1人ですが、実際にはこれは崩れるだけです。AGIは必要ありません。人間のサンプル効率が必要です。

そして、彼は正しいと思います。AGIは必要ありません。10,000の例ではなく10の例が必要になるまで、データを効率的にサンプリングできる必要があるだけです。

さて、もちろんヤン・ルカンは再び応答します。彼はこのナンセンスを受け入れていません。彼は言います。私が約10年間、世界モデルとプランニングのエンドツーエンドの自己教師あり訓練を提唱してきたことに気づいていますか。過去5年間で多くの進歩を遂げ、実際に過去2年間でシンプルなロボティクスタスクのために機能させました。そして、それを実用的にするために会社を始めたばかりです。誰が馬鹿に見えるかは分かりません。

だから、もちろんそれがヤン・ルカンの反論です。そして、私がちょうどV-JEPAについて説明したことを覚えておいてください。そして彼はさらにここで言っています。少数のロボティクス企業が世界モデルのプランニングに取り組んでいますが、大多数はVLAやシミュレーションでのRL微調整を伴う拡散ポリシーのようなLM派生メソッドを使用しています。

それらは狭いタスクには適していますが、ヒューマノイドハードウェアを構築している企業は、革新的なロボティクスAIに取り組んでいない傾向があります。そして、これが重要なポイントだと思います。彼は基本的に言っているんです。見てください、これらの派手なヒューマノイドロボティクスデモに取り組んでいるすべての企業は、実際にそれを動かす革新的なロボティクスAIには取り組んでいません。

彼らはヒューマノイドを本当に良く見せているだけです。

結論

この全体をまとめると、基本的に一方では、業界は言っています。見てください、これらのものに基本的にパターンマッチングをさせるために、何時間も何時間も訓練データが必要です。そしてヤン・ルカンは基本的に言っているんです。見てください、それはやり方ではありません。

これらのものに現実がどのように機能するかを理解させる必要があります。そうすれば、データがないときや、これまで見たことのない奇妙な領域に到達したときでも、根本的な概念を理解しているので、理解できます。すべての馴染みのある詳細を見る必要はありません。

だから、超興味深いことになると思います。ヤン・ルカンはすでに彼の新しいラボに人材を引きつけています。だから、何百万ドルもの資金でこれを追求する実際のリソースを持ったとき、本当に興味深いことになるでしょう。

だから、彼の見解が実際にどうなるかを見るのは、超興味深いことになるでしょう。私は実際に彼がこれをどこに持っていくか見るのが本当に楽しみです。しかし、ロボティクスについてあなたたちがどう思うか教えてください。ロボティクスは完全に失敗すると思いますか。ヤン・ルカンが正しいと思いますか。超興味深いです。それでは次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました