Metaのヤン・ルカンが「LLMは終わった」と宣言:すべてを変える「推論」AIの登場

AI研究
この記事は約8分で読めます。

MetaのAI研究所FAIRを率いるヤン・ルカンが、大規模言語モデル(LLM)のスケールアップだけでは人間レベルのAIに到達できないと断言した。彼のチームが開発したVLJPAは、従来の単語ごとの生成方式とは一線を画す革新的なモデルである。JEPAと呼ばれるジョイント埋め込み予測アーキテクチャを採用し、画像や動画から直接意味を予測する非生成型アプローチにより、より高速で効率的な処理を実現。わずか16〜20億パラメータという軽量設計ながら、他のビジョン言語モデルを凌駕する性能を発揮する。ルカンは、4歳児が見る視覚データ量がLLMの訓練データに匹敵することを指摘し、真の知能には言語生成ではなく世界の理解が必要だと主張。この研究は、チャットボットを超えた真のAI知能への重要な一歩となる可能性を示している。

Meta Boss Yann LeCun says LLMs ARE DEAD: Meet the "Reasoning" AI That Changes Everything
#AI #claude #anthropic #agi The End of LLMs: Meet the "Reasoning" AI That Changes Everything Meta Boss Yann LeCun says L...

LLMのスケールアップでは人間レベルのAIに到達できない

LLMをただスケールアップするだけでは、人間レベルのAIには到達できません。これは実現しないのです。

VLJPAをご紹介しましょう。これはヤン・ルカンが率いるMetaのFAIR研究所が開発した、最先端の効率的な言語モデルです。このモデルはJEPA(ジョイント埋め込み予測アーキテクチャ)を採用し、従来の単語ごとの生成方式から脱却しています。

VLJPAは非生成型で、画像や動画から直接意味を予測し、必要に応じてテキストに変換します。このセマンティックなアプローチにより、より高速で効率的かつ強力になり、少ないパラメータで他のビジョン言語モデルを上回る性能を発揮します。

ロボティクスにおけるVLJPAの可能性は驚異的です。環境を真に理解し、より効果的に相互作用するロボットを想像してみてください。このエキサイティングな開発をさらに詳しく見ていきましょう。

生成型モデルと非生成型モデルの決定的な違い

生成型モデルと非生成型モデルの区別は非常に重要です。ChatGPTのような生成型モデルはテキストを段階的に構築しますが、これは時間がかかり非効率的になることがあります。VLJPAのような非生成型モデルは、最初にテキストを生成する必要なく、内部で情報を処理します。これにより、従来のモデルの逐次的な単語生成をバイパスして、より素早く思考し理解することができます。

VLJPAは、トークンや文ではなく、意味ベクトルを直接予測するという異なる方法で動作します。これは、真の知能は言語を生成することではなく、世界を理解することにあるというヤン・ルカンの信念を反映しています。VLJPAはこの考えを具現化し、テキスト生成よりも内部理解を優先しています。すでに状況を把握していて、必要なときだけコミュニケーションする非生成型AIのようなもので、ルカンの知能に対するビジョンと一致しています。

この論文は、言語とトークンに依存するLLMから、潜在空間と意味に焦点を当てたVLJPAのようなモデルへのシフトを示唆しています。AIの未来は、言語が主要な焦点ではなく二次的なツールとなる、より抽象的で言語に依存しない方法での推論を含むかもしれません。VLJPAのアプローチが普及すれば、AIの能力と優先事項を再定義するポストLLM時代が到来する可能性があります。

VLJPAの視覚的理解プロセス

VLJPAは、一時的な解釈を表す赤い点と、安定した解釈を表す青い点のマップを通じて、進化する理解を視覚化します。単に視覚を説明するだけの基本的なビジョンモデルとは異なり、VLJPAはシーンについてより深い理解を動的に発展させます。この違いは、VLJPAが時間をかけて理解を洗練させる能力にあり、表面的な説明を超えて、より微妙な洞察を提供します。

VLJPAは、即座のラベリングよりも理解を優先するという点で、低コストのビジョンモデルとは異なります。基本的なモデルはフレームごとに反応し、一貫性のない未洗練な説明を生成します。しかしVLJPAは、ビデオストリームを処理して、イベントについての連続的で確信のある理解を構築します。アクションを正確にラベル付けするのを待ち、一時的な推測(赤い点)を安定した正しい解釈(青い点)に変換します。例えば、キャニスターを拾い上げる動作を認識するようなものです。

時間認識能力とリアルワールド応用

決定的な違いは、VLJPAの時間認識能力と、時間経過に伴うアクションを追跡する能力にあります。個々のフレームのみを処理する安価なモデルとは異なります。これにより、VLJPAはロボティクスのような実世界アプリケーションにとって非常に価値のあるものとなります。そこではアクションシーケンスの理解が鍵となるからです。

ドットクラウドは、VLJPAの意味がどのように進化し固まっていくかを視覚化します。これは、テキスト生成に焦点を当て、静かなセマンティック状態を維持できないトークンベースのモデルには欠けている能力です。本質的に、VLJPAは単なる反応的なセンサーではなく、思慮深い観察者のように振る舞います。

VLJPAのアーキテクチャ解説

VLJPAのアーキテクチャは複雑になりえますが、簡略化すると理解しやすくなります。このモデルには、視覚用のXエンコーダー、予測器(脳)、そしてテキスト用のオプションのYエンコーダーなどのコンポーネントが含まれています。アーキテクチャを主要な部分に分解することで、VLJPAがどのように情報を処理するかを理解しやすくなります。

VLJPAは言語よりも理解を優先し、視覚入力(Xエンコーダー)と内部推論(予測器/脳)に焦点を当てています。テキストクエリ(Yエンコーダー)は二次的で、モデルはトレーニングロスを通じて継続的に改善されます。最終結果は、VLJPAの理解力の強さを示す意味のある出力です。テストでのパフォーマンスは、AIのトップ候補としての地位をさらに固めています。

他モデルとの性能比較

スコアボード比較は、VLJPAの進歩を本当に際立たせており、ClipやPerceiverのような確立されたモデルを上回っています。VLJPAは、そのコンパクトなサイズを考慮すると、特に顕著な進歩を示しています。多くの人がこの重要な詳細を見落とすかもしれませんが、VLJPAの効率性と小規模性は重要な利点であり、様々なアプリケーションにとってより実用的なソリューションとなっています。

生成型モデルはトークン生成に優れているかもしれませんが、VLJPAは人間のような推論に優れています。より少ないパラメータ(16〜20億)とトレーニングサンプルで、VLJPAは多くの他のモデルを超える効率性を達成しています。この軽量でありながら強力な設計により、VLJPAはAIの風景の中で際立ち、従来の生成型アプローチに対する有望な代替案を提供しています。

ゼロショットタスクでの卓越した性能

ゼロショットタスクにおけるVLJPAのパフォーマンスは印象的です。学習が速いだけでなく、ビデオキャプショニングと分類で優れた結果を達成しています。ファインチューニングなしでのこの強力なパフォーマンスは、トークンベースのモデルよりも効果的にビデオコンテンツを把握するVLJPAの能力を示しています。

ヤン・ルカンの革新的なアプローチは、トークン生成を超えて、AI理解の新境地を開いているようです。VLJPAの予測器はわずか5億パラメータと驚くほど小さいですが、他の視覚言語モデルははるかに大きく効率が低いです。このコンパクトな設計により、VLJPAはより軽くトレーニングでき、それでも印象的なパフォーマンスを発揮できます。

ヤン・ルカンがこの合理化されたアーキテクチャを強調していることは、より少ないリソースでAIに革命を起こす可能性を示しています。まさに画期的な偉業です。

ルカンが語るLLMの限界と視覚データの重要性

インターネット上で公開されているすべてのテキストに加えて、いくつかの他の資料があり、私たちの誰もがそれを読み通すのに約50万年かかるでしょう。つまり、膨大な量のテキストデータがあるわけです。

これを、子供が人生の最初の数年間に知覚するものと比較してみましょう。心理学者によると、4歳児は合計16,000時間起きていたことになります。そして視神経の各繊維を通じて毎秒約1バイトが流れています。私たちには200万本の視神経繊維があります。つまり、視覚野には毎秒約2メガバイトが届いているのです。

16,000時間の間、計算してみると、約10の14乗バイトになります。4歳児は、これまで生成されたすべてのテキストで訓練された最大のLLMと同じくらいの視覚データを見てきたのです。

これが示しているのは、現実世界にはずっと多くの情報があるということですが、それはまたずっと複雑でもあります。ノイズがあり、高次元で、連続的です。そして基本的に、LLMを訓練するために使用される方法は現実世界では機能しません。

これは、司法試験に合格したり、方程式を解いたり、大学生のように積分を計算したり、数学の問題を解いたりできるLLMがある一方で、家事ができる家庭用ロボットがまだないことを説明しています。レベル5の自動運転車さえありません。つまり、ありますが、ズルをしているのです。

確かに、どんなティーンエイジャーでも20時間の練習で運転を学べるように、20時間の練習で運転を学べる自動運転車はありません。明らかに、機械を人間や動物の知能レベルに到達させるために、非常に大きな何かが欠けているのです。

抽象化の重要性とJEPAの思想

ソニア・ジョセフは、AIにおける抽象化についてのヤン・ルカンの知恵を強調しています。交通シミュレーションですべての原子をモデル化しないのと同様に、JEPAは知能のような複雑な現象を理解するには適切な抽象化レベルが必要であることを示しています。この考え方は、より効率的で効果的なAIモデルにつながる可能性があり、ルカンと彼のチームの仕事からの重要な教訓です。

JEPAの背後にある論文は、現在のモデルが因果的ダイナミクスを予測していないということです。潜在空間で予測し、将来を予測すれば、これらのピクセルレベルの詳細をすべて抽象化する可能性が高くなります。

例えば、今この会話をモデル化する場合でも、原子レベルまでモデル化する必要はありません。それは計算コストが高く、非効率的です。私たちは目標に適した表現レベルで物事をモデル化します。

同様に、JEPAは物理世界で計画を立て、動き回る物体についての反事実的推論ができるように、必要な抽象化レベルでの物理的表現を持つように最適化されています。

より洗練されたAIへの重要な一歩

このモデルは、より洗練されたAIに向けた重要な一歩を表しています。間違いがあっても、VLJPAは機械の理解の限界を押し広げ、単なるチャットボットから真の知能へと研究の方向性を導いています。不完全さにもかかわらず、これらの進歩を受け入れることがAIの進化の鍵です。

ご視聴ありがとうございました。次の動画でまたお会いしましょう。

コメント

タイトルとURLをコピーしました