見る前に見ることを学ぶAI(LLMからVLMへ)

本動画では、Metaの超知能チームによる最新研究「見る前に見ることを学ぶ」論文を解説している。この研究は、言語モデルから視覚言語モデルへの変換において、テキストベースの推論データが視覚理解に極めて重要な役割を果たすことを明らかにした。具体的には、事前学習データの75%をコード、数学、科学などの論理的推論中心のテキストで構成し、わずか15%の視覚的記述データを加えるだけで、高性能な視覚言語モデルが構築できることを50万GPUアワーの実験で実証している。この発見は、AI研究における従来の常識を覆し、多量のマルチモーダルデータよりも論理的推論能力の方が視覚的質問応答において重要であることを示唆するものである。

AI Learning to See before Seeing (LLM to VLM)

Reasoning crystallizes in the textual embedding space during autoregressive pre-training, abstracting hierarchical struc...

AIが視覚を獲得する新しい方法
テキストと画像表現の統合
視覚的知識の二つの要素
最適な事前学習データの配分
ベクトル空間における推論の本質
実験結果と最適な配分比率

AIが視覚を獲得する新しい方法

こんにちは、コミュニティの皆さん。また戻ってきていただき、とても嬉しいです。今日は言語モデルから視覚言語モデルへと進化させる方法について、実際にコーディングしながら見ていきます。そしてそれはシンプルなんです。私のチャンネルへようこそ。ここでは最新のAI研究を探求しています。そして今日の論文はこちら、Metaの超知能チームによる2025年9月末の研究「見る前に見ることを学ぶ」です。これは本当に素晴らしい内容なんです。

もちろん、この研究は非常に重要な論文に基づいています。こちらをご覧ください。2025年6月中旬のバージョン3です。「埋め込みの普遍的幾何学の活用」、コーネル大学コンピュータサイエンス学部の論文です。これは必読の論文なんです。なぜなら、ここで彼らは特定のベクトル空間から別のベクトル空間へとテキスト埋め込みを変換する最初の方法を紹介しているからです。しかもペアになったデータ、エンコーダー、あるいは事前定義されたマッチングのセットなしでです。

これがすべての基礎となる研究なんです。そして彼らはこう言っています。異なるモデルからの入力埋め込みは完全に異なるものですが、特定の潜在表現、ベクトル空間を使えば、それらを統合したり密接に整列させたりできることを示すことができる、と。この研究で本当に素晴らしい形で実現されました。もちろん彼らはここでプラトニック表現仮説を使用しています。これは、十分なサイズのすべての画像モデルが特定の数学的ベクトル空間において同じ潜在表現に収束するという推測です。

そして今、コーネル大学の著者たちは、このテキストモデルに対する仮説のより強力で建設的なバージョンを提案しています。テキスト表現、つまり埋め込みの普遍的な潜在構造は学習可能であり、さらに注目すべきは、あるベクトル空間または高次元空間から別の空間へと表現を変換するために活用できる、ということです。

つまりこういうことです。画像モデルとテキストモデルがあって、マッピングがあり、すべてがうまく機能する。そして2025年6月に定式化されたプラトニック表現仮説があるわけです。では、Metaの超知能による新しい研究は何をしているのでしょうか。それは私が今お見せした両方の洞察を結びつけているだけなんです。

テキストと画像表現の統合

彼らはこう言っています。これがテキストについて真実で、これが画像について真実なら、なぜテキストと画像の表現を組み合わせないのか、と。そしてここに引用符で囲まれた、あるいはほぼ引用符で囲まれた言葉があります。もしかしたらそれらは、洞窟の壁に映る影のような、世界そのものの異なるプラトニック的投影に過ぎないのかもしれない。そして、単一の投影から世界そのものの構造を学習できるかもしれない、と。皆さんはもちろん、世界モデルが必要だと言うでしょう。私のチャンネルで世界モデルについての動画をぜひご覧ください。

さて、もちろんこの論文全体をたった2つの文で要約することもできるでしょう。でも、それではどこに楽しみがあるのでしょうか。彼らが実際に何をしたのか見てみましょう。これは驚くべきことです。彼らはMetaのインフラを使って約50万GPUアワーを投資し、これが本当に実現可能であることを証明したと述べています。さて、私たちにとっての問いはこうです。知能はどこに位置しているのか。それはテキストの埋め込みの中にあるのか。視覚的埋め込みの中にあるのか。そしてこれらの埋め込みはどのように互いにマッピングされるのか。新しいベクトル空間を作り出すのか。私たちには何ができるのか。

彼らはこう言います。言葉だけで、テキスト情報だけで、超賢いAIを訓練することを想像してみてください。本、ウェブサイト、コードを使って、このAIに一枚の写真も見せることなく訓練するのです。もちろん、それは現実世界のテキスト記述なので、球体の幾何学や長方形の幾何学について、ある種の隠れた情報や隠れた知識があります。

これが著者たちが「視覚的事前知識」と呼ぶもので、テキストだけに基づいているものです。つまり、テキストの中で、言語的な文章の中で、3次元の長方形のオブジェクトの特性を記述できるわけです。そしてこれが彼らが言語の埋め込みに基づく視覚的事前知識と呼ぶものです。そして今、彼らはここで大量の実験を実行しました。先ほどお見せした50万時間のコンピューター時間を使って、AIが世界の記述を読むだけで見ることを学習しているかどうかを解明したのです。しかし、視覚エンコーダーを追加したらどうなるでしょうか。

この情報をどのように統合するのか。彼らは特定のタイプのために多くの異なるAIを構築し、すべてをテストしました。これは巨大な実験でした。素晴らしいことです。そして彼らは言いました。結果をお教えしましょう。より良いAI、視覚言語モデルのレシピ、事前学習のための料理のレシピはシンプルです。

約50%の純粋な推論テキスト、頭脳的なテキストを混ぜるだけです。これはPythonやC++でのコードにおける因果推論シーケンスの表現であったり、システムがステップバイステップの因果推論を学習するためのものです。コーディングのように、素晴らしいですね。あるいは世界中の数学の本、科学の本、すべてのSTEMの本です。そしてこれが50%であれば、驚くべき最小量として約15%の視覚的記述を追加します。つまり、これは赤いリンゴの画像です、というような。そして残りはインターネットからの一般的なものです。

テキストだけでAIに視覚についての多くを教えることができますが、本当に優れたものにするためには、著者たちは論理的な訓練データに絶対に焦点を当てなければならないと言っています。つまり、コード、数学、科学です。これがステップバイステップの推論プロセスの基礎を提供しているのです。興味深いのは、言語モデルがあり、すべてのアイデアがトークンの言語的パターンのシーケンスで記述されている場合です。

視覚的知識の二つの要素

視覚的トークンをテキストトークンに統合するためには、ごくわずかな視覚データがあればいいだけなんです。そうすれば世界モデルを作成し、その世界モデルを視覚的多様体にマッピングできるかもしれません。さて、彼らが発見した別のことがあります。これはMetaの超知能チームとオックスフォード大学による本当に素晴らしい発見です。彼らは、視覚的知識は引用符付きですが、多かれ少なかれ2つの部分に分かれていることを発見したと言っています。知覚そのものについてのごく小さな部分があります。画像を見なければならず、AIはその画像のいくつかの詳細を見ています。写真の中の小さなオブジェクトを見つけたり、画像の中のテキストを読んだりするのですが、これについては大量のデータは必要ありません。そしてこれが今の訓練の洞察なんです。なぜなら、私たちはいつも大量のマルチモーダル訓練データが必要だと思っていたからです。そして彼らは、それは必要ないと言っているのです。

本当に重要なのは何か分かりますか。推論の部分です。これは思考についてです。視覚について考えること、空間パズルを解くこと、どの箱が私に近いか、あるいは図を使った数学の問題を解くこと。そしてそれは主に、彼らが頭脳的テキストと呼ぶもの、視覚的なコードではなく、数学、科学、論文から来ているのです。私たちはちょうどこれについて話しました。そして彼らは言います。この新しい視覚言語モデルを訓練するための事前学習データに追加すればするほど、AIはより良くなり、エージェントはより良くなる、と。そして彼らは、信じられないことだと言いました。私たちは訓練データの最大75%までこの頭脳的テキストを追加しました。そしてモデル自体が生成する画像が、視覚的な質問と答えにおいても、より良い答えを生成しているのを見ました。それは画像の中に何があるかという記述的な部分ではなく、主に訓練データの75%、コード、数学、科学、論文による理解についてなのです。絶対に魅力的です。

つまり、写真についてのテキストは少し重要です。木製のテーブルの上の赤いリンゴ、それは始動させますが、ほんの少しでいいのです。そして、あまり多すぎても目に余分な賢さを加えることはありません。むしろ逆です。推論にとって絶対に魅力的です。それはこの論理的なもの、プログラミングコードや数学や証明やラムダや定理などについてのことで、AIにステップバイステップで考えることを教えるのです。残念ながら、インターネット上の通常のテキストは、インターネット上で公開しているほとんどの人にとって、論理的なステップバイステップの因果推論の訓練ではないようです。

つまり、私たちが数学的ベクトル空間のベクトル埋め込みの中に持っているこの論理は、言語的に近い意味的構造が、その構造のベクトルも新しい数学的ベクトル空間において近いところにマッピングされるという類似性尺度を持つことによって成り立っています。この論理は、一枚の写真も見ることなく、今や画像にも転移するのです。

なぜだか分かりますか。なぜなら私たちは視覚エンコーダーを持っているからです。つまり、写真も埋め込みに変換されます。そしてこれらの埋め込みには、私たちはすでに言語的論理シーケンスが埋め込まれているのです。したがって、提案されたこの事前学習の混合は、超知能チームによる主要な結果です。彼らは言います。50%の推論中心の事前学習データ、15%の視覚的記述テキスト。

最適な事前学習データの配分

画像の中に何があるか、最小限の量です。そうすれば、視覚を認識するLLMを育成できます。これは1兆トークンスケールまで検証されました。つまり、もしあなたが望むなら、これは50万GPUアワーという集中的な実験でした。すべてが素晴らしいです。つまり、多くの作業が行われました。そして研究から一つお見せしたいことがあります。事前学習データソースの影響です。彼らは実際に行って言いました。今、事前学習データソースの分離があります。

コードだけではどうなるか。アートではどうか。インターネットの食べ物の記述ではどうか。数学、アカデミアではどうか。そして彼らは、視覚中心の視覚質問応答のために、いくつかの支配的な部分があると言いました。そして、多かれ少なかれ2種類のデータが見えます。推論中心のもの。つまり、第一にコード、数学、アカデミア、科学です。

そして私たちは、彼らがここで視覚的世界記述が豊富な企業と呼ぶもの、例えばアートや食べ物の記述のようなものを持っています。この2つです。ここで視覚中心の強力なパフォーマンスのために本当に重要な2つの分離されたグループが見えます。そして今、彼らはさらに進みます。では比率はどうなるのか。そして彼らは見てくださいと言います。これはy軸上の精度です。

注意してください、異なるスケーリングがあります。これは33です。これは45です。そして彼らは、見てみましょう、例えば視覚中心の視覚質問応答のための推論について、この頭脳的なものからどのような割合が必要なのか、と言います。絶対に魅力的なことに、コード推論、数学推論、科学推論が見えます。ここで超知能が白い背景に淡い黄色の3つの異なる形式を使っているのが見えますが、これは本当に超知能的です。しかし一般的に、75%でピークになっているのが見えます。

つまり、最良の結果を得るためには、事前学習データの最大75%まで、頭脳的なもの、推論のもの、コーディング、STEM、数学、科学、論理を追加しなければならないのです。もちろん100%ではありません。なぜならそうすると視覚情報が全くなくなってしまうからです。しかし70〜75%が視覚のための推論なのです。驚くべきことです。さて、私たちがちょうど見た推論中心の影響について、ここで同じことができます。そしてここに視覚データカテゴリーがあります。つまり、どのくらいの視覚情報を入れるべきかです。そして、ああ、25%でピークになっているのが見えます。

つまり、正確に言えば、推論については75%、そして事前学習データで必要な純粋な視覚データについては、驚くべきことにわずか25%です。ここでも25%が見えます。これについてはそうではないかもしれませんが、一般的にはここで視覚データカテゴリーと比率のピーク値のようなものです。そして今、彼らは、さて、この新しい視覚言語モデルの事前学習データのためのデータソースミックスを見てみましょう、と言いました。これはLLMの推論能力の論理に基づいています。私たちは何をするのか、データのミックスは何か。

ご覧のとおり、ここにはより多くの言語があり、ここにはより多くの視覚があります。興味深いことに、彼らはここでミックス番号6がランキングでここで1位であることを発見しました。これが最高のパフォーマーです。そして、精度とメトリックを見ると、52.7ですが、もう一方は52.6で、これは52.5です。つまり、もう一方を取れば、これは相対的に1位です。しかし、何が興味深いか分かりますか。視覚の量を見てください。16、14.8、40.4、40.0、約15%の視覚情報のみです。しかし推論を見てください。49、52、55、57。これは今や絶対に魅力的です。少しのコード、少しの数学。

2%の文学、5%の他のアカデミックなもの。視覚データの量がここで支配的なものではないということを見るのは興味深いです。しかし視覚的推論のためには、テキスト的推論の方がはるかに重要なのです。さて、これがなぜかというと、著者たちは、私たちの言語的埋め込みにおける学習された視覚的事前知識の普遍性があると主張しているからです。

ベクトル空間における推論の本質

非常に単純なケースで言えば、知的推論の完全な学習は、私たちが構築したテキストベクトル空間で起こっていると言えるかもしれません。そして今、追加の視覚トークン埋め込みが提供されると、このベクトル空間にマッピングされた支配的なテキスト論理がまだそこにあり、視覚トークンを追加するだけなのです。何だと思いますか。

そうです。トークンを追加するだけですが、テキストからの論理はまだそこにあり、視覚トークンシーケンスを含み、統合することになります。理にかなっていますよね。つまり、私たちがここで発見する知的推論、ステップバイステップの論理や問題解決は、主にテキストトークン、言語トークン、主にコードスニペット、数学的証明、科学的説明からの推論中心のテキストから生まれます。ステップバイステップの論理です。なぜならコードについて考えてみてください。少し後退して考えれば、コードは順次論理を教えるのです。条件Aがあればこれをする、条件Bがあれば別のことをする。

これは、テキスト埋め込み空間またはより正確にはテンソル空間という特定の数学的ベクトル空間へのマッピングにおいて、一般的なテキストベースの推論エンジンを構築します。しかしそれはまだ視覚に結びついていません。抽象的で柔軟なのです。そして、もしかしたら視覚トークンで新しい空間を構築するかもしれませんし、視覚埋め込み空間を取って視覚トークンを追加するだけかもしれませんが、この空間で動作する一般的な推論エンジンを持っていることを理解してください。したがって、視覚的思考のための視覚トークン埋め込みをここに追加することは、ベクトル空間間のマッピング、単なるマッピングなのです。そしてそこで起こっているのは魔法ではありません。これを強調したかっただけです。

テキストの事前学習の後、優れたマルチモーダルAIを生成するために、私がお見せしたように視覚エンコーダーを追加するだけです。CLIPでもDINOでも何でも、画像を取り、それを特徴、形、色に分解し、すべての情報を視覚トークンに変換します。そして私たちはこれを単純にベクトル空間にマッピングします。したがって、もちろん、これは単純な説明です。

このシステムやフレームワークはモダリティに依存しません。なぜなら、このベクトル空間に追加するどんな種類の人工トークンでも、言語トークンシーケンスに基づく推論エンジンを持っているからです。つまり、推論はテキストに閉じ込められているのではなく、視覚トークンを含む多かれ少なかれあらゆる埋め込みシーケンスを扱えるほど十分に抽象化されているのです。

もちろん最適化はできますが、基本にこだわりましょう。そして超知能チームによるこの論文、マーク超知能は、今や推論の比率でテストアウトします。どのように構築を最適化するか、ここで正しいレシピをどう持つか。画像の質問への論理的な答え、たとえそうであっても、彼らは時々ショートカットを幻覚すると示しています。もちろん幻覚はまだそこにあります。しかし一般的に、この論文を読み、彼らが行ったすべてのアブレーション研究とすべての実験を見た後、私は理解しました。推論はテキスト記述に基づいており、そこにあるすべてのものが他の数学的空間にマッピングされることになります。では、これを見てみましょう。

実験結果と最適な配分比率

ここで性能、一般的な性能、知識性能、または異なる視覚エンコーダーにおける視覚中心の視覚質問応答性能を見ています。CLIPでもDINOでも何でも、気にしないでください。そしてx軸には、LLMの事前学習で使用された推論中心データの比率があります。つまり、この特定のグラフには多くの作業が費やされました。推論中心データの比率です。そして、テキスト推論中心データが75%あれば、ここにピークがあることが分かります。ここではピークが75%ほど明確ではありません。

ここではピークは多かれ少なかれ50にあります。ここでは75%に明確なピークがあります。そして視覚中心については、まさに75%です。つまり、LLMの事前学習のミックスにおいて推論中心データの比率が約75%あれば、これは優れた視覚言語モデルになります。これがMetaからの主なコミュニケーションです。

しかしもちろん、これを理解した今、私たちは先に進んでこう言えるでしょう。でも、この視覚埋め込み機能と今や競合するような専用の視覚学習アルゴリズムを開始したらどうなるか想像してみてください。例えばビデオシーケンシングのような非常に強力な視覚学習アルゴリズムも持っていたらどうなるか。これら2つの推論メカニズムは競合するのか。マッピングされるのか。新しい推論複合構造を持つ新しい空間を作り出すのか。AIは絶対に美しいです。もし知りたければ、なぜ購読しないのですか。そして次のビデオでお会いしましょう。