MetaのAI主任科学者であるヤン・ルカンが発表した新しい論文が、従来の大規模言語モデル(LLM)とは根本的に異なるAIアーキテクチャを提示している。VLJと呼ばれるこのモデルは、Joint Embedding Predictive Architecture(JEPA)に基づく非生成型の視覚言語モデルであり、トークンを一つずつ生成するのではなく、意味ベクトルを直接予測する。言語はあくまで出力形式に過ぎず、真の知能は世界の理解にあるというヤン・ルカンの哲学を体現したこのアプローチは、従来モデルの半分のパラメータで優れた性能を発揮し、ロボティクスやエージェント、リアルタイム理解が求められる分野において革命的な可能性を秘めている。これはLLM後の次世代AIの形を示唆するものである。

MetaのAI主任科学者による新論文
MetaのAI主任科学者が新しい論文を発表しました。そしてこれは大規模言語モデルの終わりの始まりなのでしょうか。これについて話していきましょう。
皆さんの多くがご存知の通り、MetaのAI主任科学者であるヤン・ルカンは、報道によればMetaを去った、あるいは去ろうとしており、自身のAIスタートアップを立ち上げるとされています。しかしその前に、彼は実際に非常に興味深い論文を作成しました。私はそれについて話したいと思います。
彼がMetaの様々な研究者たちと共に作成した論文は、VLJと呼ばれています。これはJoint Embedding Predictive Architecture、つまりJEPAに基づいて構築された視覚言語モデルです。これは、言ってみればVJAアーキテクチャの拡張版と言えるでしょう。
これは本当に素晴らしいことです。なぜなら、これはMetaのFAIR研究所からのものであり、もちろんヤン・ルカンがこれを主導しているわけですが、この論文について私が発見した信じられないこと、いや信じられないというよりも極めて興味深いことは、ChatGPTのように一語一語答えを生成するモデルとは異なり、VLJは全く異なることをするという点です。
これは非生成型モデルなのです。つまり、このモデルは意味を直接予測します。そしてそれはテキストを介してではありません。このモデルは、自分が見ているもの、画像や動画に対する内部的な理解を構築し、必要に応じてその理解を言葉に変換します。
トークン空間ではなく意味空間で学習するため、より高速で効率的であり、従来の視覚言語モデルの約半分のパラメータを使用しながら、多くの場合より優れたパフォーマンスを発揮します。これは驚異的です。なぜなら、これがロボティクスやエージェントにとって意味することは非常に大きいからです。では、詳しく見ていきましょう。
非生成型システムという革新
このアーキテクチャがいかに異なるかを示すために、私が本当に指摘したいことの一つは、これが非生成型システムであるという事実についてです。
生成型システムが何かをご存知であれば、通常これは生成型モデル、つまりChatGPTやGPT-4のようなもので、トークンや単語を一度に一つずつ生成するということを意味します。左から右へと進み、すべての出力が完全に書き出されて初めて存在することになります。
つまり、この動画で何が起こっているかを答えるために、生成型モデルは「よし、最初の単語を決めよう、次に2番目、次に3番目」というように、文全体を終えるまで続けます。文字通り、生成を終えるまで最終的な答えを知ることができないのです。これは非常に遅く、非常に苦痛なプロセスです。
しかし、非生成型システムとはここでは、考えるために話す必要がないということを意味します。VJAが本質的に行うことは、デフォルトで単語を生成しないということです。次のトークンを予測しません。文が存在する必要がないのです。
代わりに、意味ベクトルを直接予測します。違いをこのように考えてみてください。生成型AIは「まだ考えている最中だけど、自分が考えていることを説明させて」というもので、非生成型AIは「私はすでに知っている、あなたが尋ねれば説明するだけ」というものです。
そして覚えておいてください、これがヤン・ルカンがこれほどまでにこだわる理由全体なのですが、彼は長い間ずっと、言語は知能ではないと言ってきました。彼の信念は、知能とは世界を理解することであり、言語は単なる出力形式に過ぎないというものです。
しかしVLAはまさにその哲学を反映しています。だからこそ、この動画はLLMの後に来るものについて話しているのです。言語で考え、トークンで推論する代わりに、潜在空間で考え、意味で推論し、言語は実際にはオプションであるという世界です。これがこの論文が語っているパラダイムシフトです。
そして私は、もしかしたら、ほんのもしかしたらですが、これがより多くの支持を得れば、これがポストLLMになる可能性があると思います。
時間経過における内部理解
基本的に、この動画で見ているものは、時間経過における内部理解のマップです。各ドットは本質的に、その瞬間にAIが起こっていると考えているものです。赤いものが見えますが、これらは基本的に瞬間的な推測です。しかし青は本質的に安定化された理解です。
理解していただきたいのは、左側で見ているものは本質的にビジョンモデル、つまりそれが見ることができるものだということです。さて、ほとんどの人がここで尋ねるであろうことは、これが動画で起こっていることを正確に説明する安価なビジョンモデルとどう違うのかということです。
簡単に言えば、安価なモデルは話しますが、VLJは理解しているということです。それが正確に何を意味するのか、分解する必要があります。
ローコストビジョンモデル、つまり記述者は基本的に、このように動作する安価な基本的ビジョンモデルです。フレームがあり、ラベルがあり、フレームがあり、ラベル、フレーム、ラベルという具合です。各フレームを見て、見たものを推測し、すぐにテキストを吐き出します。
つまり、これはどのように見えるかというと、手、ボトル、キャニスターを拾う、というもので、ジャンプし、一貫性がなく、記憶もなく、基本的に反応しているだけで理解していません。
しかしここにVLJがあります。VLJは代わりにこれを行います。もちろんビデオストリームがあり、連続的な意味があり、そしてイベントがあります。
これは時間をかけて意味を追跡し、安定した理解を構築し、確信を持った時にのみアクションにラベルを付けます。だから赤いドットが見えるわけです。これは瞬間的な推測です。間違っているかもしれません。ボトルかもしれません。しかし青いドットは安定化された意味です。キャニスターなのです。
時間的理解の重要性
これが実際に重要である理由は、安価なモデルは「ボトルが見える、ボトルが見える、ボトルが見える」と言うからです。しかしVLJは実際にアクションを理解し、「アクションはキャニスターを拾うことだ」と言います。
決定的な違いはもちろん時間です。ローコストモデルは単一のフレームで考え、前後の真の感覚を持っていません。VLJは時間的意味で考え、アクションがいつ始まり、続き、終わるかを知っています。
だからこそ、これはロボティクス、ウェアラブル、エージェント、現実世界の計画において極めて有用なのです。そしてドットクラウドが重要である理由は、意味がフレームからフレームへとわずかにドリフトし、十分な証拠が存在すると固定されることを示しているからです。
これはトークンベースのモデルが効率的に行うことができないものです。なぜなら、第一に、彼らはテキストを生成し続ける必要があり、第二に、サイレントな意味状態を保持することができないからです。
考えてみれば、安価なモデルは基本的に推測を叫ぶ防犯カメラの動体検知器のようなものですが、VLJは見ている人間のようなもので、「ああ、わかった、彼は何かを拾っているんだ」と言います。
アーキテクチャの詳細
もちろん、アーキテクチャの図を理解したいと思うかもしれません。これがVLJモデルのアーキテクチャです。
これがどのように機能するかを知りたければ、基本的にこれがアーキテクチャです。しかし正直なところ、少し混乱していました。そこで私は、よりシンプルな説明を得ることにしました。実際にGPT image 1.5を使用してこの画像を得ました。なぜならこれは実際にかなり良いからです。そして、これでも多すぎる場合は、こちらもあります。
言語はオプション、理解は必須ではありません。基本的に、Xエンコーダーは視覚入力です。つまり、動画フレームです。プレディクターは基本的に脳です。Yenエンコーダーはテキストクエリ、つまりあなたが尋ねることです。そしてもちろん、単語からエンコードされた意味があり、それがYデコーダーです。
それからもちろん、思考を比較するというものがあり、これはトレーニング損失で、本質的には時間とともに改善されることを意味します。そしてもちろん、最終出力があり、これが正解、つまり実際の意味です。
性能比較とテスト結果
これのテストを見ると、現在これが最高です。スコアボードを見ていますが、そこには他のもの、つまり異なるAIモデルが見えます。CLIP、SigLP、P coreが見えます。これらは古い有名なビジョンモデルです。
VLJ baseと比較すると、これはVJA SFT、つまりファインチューニングですが、VJERは本当に本当に信じられないほどの改善であることがわかります。そして私が思うに、多くの人が見逃すであろうことの一つは、もちろんVLJが非常に非常に小さいという事実を見逃すであろうということです。
生成型モデルがただトークンにトークンを重ねているのに対し、実際に人間のように推論するものを考えているなら、パラメータ数と見たサンプル数を見ることができます。VL JPAは16億パラメータで、見たサンプルの観点では20億パラメータです。私たちが見ている他のものよりも著しく効率的です。
これはかなり信じられないことだと思います。つまり、ここを見続けると、ゼロショット動画キャプショニングが見えます。これは同じデータと同じセットアップで、VOJepperが実際により速く学習し、より高いキャプション品質に到達することを示しています。意味を予測することは、単語を予測するよりも速く学習するのです。
それからもちろん、チャート2があり、これはゼロショット動画分類です。同じことで、VLJは素早く引き離し、視覚言語モデルは非常にゆっくりと改善します。ファインチューニングなしでも、VJは動画をよりよく理解します。これは、物事を理解するためにトークン生成が必要だという考えを打ち砕きます。そして明らかに、ヤン・ルカンは何かをつかんでいることが明確です。
効率性の革新
もう一度、適切なサイズを見ると、私が言ったことを覚えておいてください。もう一度言いますが、私が言ったことを覚えておいてください。モデルの実際のサイズを見ると、もう一度、視覚言語モデルははるかに大きく、はるかに効率が悪いことがわかります。
VJERは、プレディクターの観点で0.5億パラメータしか必要としません。トレーニング中に重いデコーダーはありません。VJepperは、訓練可能なパラメータの半分でより良い結果を得ることになります。これは機械学習の用語では非常に驚異的です。
そしてもちろん、ここにヤン・ルカンがこれらのことについて話している様子があります。これは2~3週間前だったと思います。
4歳児は、これまでに生産されたすべてのテキストで訓練された最大のLLMと同じくらいの視覚データを見ています。そしてそれが教えてくれることは、現実世界にははるかに多くの情報があるということですが、それははるかに複雑でもあります。ノイズがあり、高次元で、連続的です。そして基本的に、LLMを訓練するために使用される方法は、現実世界では機能しません。
それが、司法試験に合格したり、方程式を解いたり、大学生のように積分を計算したり、数学の問題を解いたりできるLLMがある理由を説明しています。しかし、私たちにはまだ家庭用ロボットがありません。家の雑用をこなせるロボットです。レベル5の自動運転車さえありません。いや、ありますが、しかし私たちはごまかしています。
つまり、10代の若者のように20時間の練習で運転を学ぶことができる自動運転車は確実にありません。
正しい抽象化レベルでの学習
そしてもちろん、実際に私はヤン・ルカンのTwitterに行き、彼がSonia Josephからのこれをリツイートしているのを見ました。これはもちろんMetaで働いている人で、彼女は本質的にこう言いました。
私たちは知能をモデル化するためにすべての原子をシミュレートしません。道路交通をモデル化するために量子場理論を使用しません。Jeepaは、正しい抽象化レベルで物理学を学ぶことの重要性を私に教えてくれました。ヤン・ルカンとJeppaチームに感謝します。あなたたちと働けたことは特権でした。
では、これを見てみましょう。Japaの背後にある論文は、私たちの現在のモデルが因果的ダイナミクスを予測していないということです。そして、潜在空間で予測し、かつ未来を予測すれば、これらすべてのピクセルレベルの詳細を抽象化する可能性が高くなります。
例えば、私たちがこの会話、まさに今この会話をモデル化するとき、原子のレベルまでモデル化する必要はありません。それは計算コストが非常に高く、非常に効率が悪いでしょう。私たちは目標に適した表現で物事をモデル化します。
同様に、JEPAは必要とする抽象化レベルで物理的表現を持つように最適化されています。これにより、物理世界で計画を立て、Japaの背後で動き回る物体について反事実的推論を行うことができるのです。
現状の課題と将来性
さて、私はRedditでこの動画について話しているいくつかのコメントを見ました。それが検出するアクションのほとんどは間違っているというものです。実際に読むために任意の時点で動画を止めれば、それは本当にひどいものです。
そして誰かはまた、まあ、その男性、同じ男性または同じ人は、私は5回止めて、それらはすべて間違っていたと言っています。ピザの側面をでっち上げ、他の何かをでっち上げました。
しかし、ここで最も重要なことは、それが100%正しいということではないと思います。最も重要なことは、それが実際に私たちをAIモデルが実際にあるべき正しい方向に動かしているということであり、単にチャットボットに完全に気を取られているのではないということだと思います。


コメント