視覚と言語空間のためのAIコネクタ

この動画では、現在の視覚言語モデルにおける重要な問題である情報損失について詳しく解説している。特に視覚エンコーダと言語モデルを接続するコネクタモジュールに焦点を当て、異なる次元のベクトル空間間でのマッピング処理によって生じる構造的歪みと細かな視覚情報の欠失を定量的に分析している。コペンハーゲン大学、Microsoft、ケンブリッジ大学による2024年9月の研究論文を基に、LLaVA、IDEFICS 2、Qwen 2.5といった主要モデルでの実験結果を示し、50%から90%という深刻な近傍情報の損失率を明らかにしている。

AI Connectors For VISION & Language Spaces

A detailed exploration of the failure modes for Vision Language Models (Vision AI), focusing on the Connector module bet...

視覚言語モデルにおける情報損失の問題
高次元空間での課題とコネクタの役割
最もシンプルな説明と現在のアプローチ
異なるコネクタ設計の比較
情報損失の定量化手法
実験結果と重複比率の分析
実験設定と結果
研究の重要な発見
効果的なコネクタの要件

視覚言語モデルにおける情報損失の問題

こんにちはコミュニティの皆さん。また戻ってきてくれてほんまに嬉しいわ。今日は視覚言語モデルについての全く新しいAI研究論文があるんや。視覚ベクトル空間とテキストベクトル空間へのマッピングについて話していくで。

さあ、始めよか。ここにある研究やけど、2024年9月半ばに出されたもんで「Lost in Embeddings」っちゅうタイトルやな。現在の視覚言語モデルで遭遇する情報損失についてや。コペンハーゲン大学、Microsoft、ケンブリッジ大学が関わっとる研究やな。

彼らが教えてくれとるのは、特にマルチモーダルの視覚言語に行く時に、決定的に重要なもんがあるっちゅうことや。それがモダリティ融合っちゅうやつで、これが今まともに機能してないんや。問題があるっちゅうわけやな。

ほんまええ感じに、事前訓練された視覚エンコーダと事前訓練された言語モデルを組み合わせとるんやけど、これらが同じ土俵に立っとるわけやないねん。全然違うオブジェクトなんや。なんでかっちゅうと、事前訓練された言語モデル、つまりLLMやけど、これを構築するのはめちゃくちゃ高いからや。

ほんなら、どうやってやるかっちゅうと、理論的には簡単や。たくさんの文章があって、それから文章の意味的類似性を与えて、意味的な近さを模倣する数学的ベクトル空間を構築するだけやねん。新しい数学的空間、新しいベクトル表現の中でな。そして、この構文ベクトル表現の次元数は4,000から500,000次元まで持つことができるんや。タスクの複雑さによってほんまに変わってくるんやな。

高次元空間での課題とコネクタの役割

つまり、ここは高い複雑性の領域におるっちゅうことやな。そして言った通り、ほんまに高いんや。ほんなら、多くの視覚言語モデルがやっとることは、コネクタとか、もしかしたらプロジェクタとして知られとる小さなニューラルネットワークモジュールを使うことや。これで視覚空間とテキスト表現空間の間のギャップを正確に埋めるんやな。

そこで、これらの空間は平等に扱われとるかって聞くかもしれんけど、答えはノーや。なんでかっちゅうと、大規模言語モデルから始めとるからや。つまり、テキスト表現空間とLLMにたくさん投資してきたんや。今度は世界的な企業が、視覚を統合するのをちょっと安くしようとしとるんやな。

ほんなら、どうするかっちゅうと、画像があって、それから好きな視覚エンコーダで行くんや。いくつか見せるで。画像パッチのグリッド次元があって、それからこれを新しい数学的表現に変換せなあかんのや。どうやってやるかっちゅうと、普通はコネクタモジュールでやるねん。

このコネクタモデルまたはプロジェクタが、視覚エンコーダの出力を変換して、少なくともテキストエンコーダの次元に合わせるんや。特定の次元d’の視覚埋め込みを、テキスト互換次元dに投影するっちゅうわけやな。

面白いことに、d’が例えば1,000次元で、dが4,000次元かもしれん。または完全に違うもんかもしれん。つまり、数学的空間の次元だけ見ても、うまくいってないのがわかるやろ。何かトリックをせなあかん。何か新しい数学的操作をして、これを埋め込めるようにせなあかんのや。そして、何かをする時はいつでも、重要な情報損失があることを意識せなあかんねん。

最もシンプルな説明と現在のアプローチ

今見せた論文では、美しいアイデアがあるんや。何かっちゅうと、最もシンプルな説明を見つけることができるかっちゅうことや。視覚言語モデルって何やろ？って。そして彼らが言うには、簡単やって。

コアにあるのはコネクタモジュールで、視覚エンコーダの出力を変換してテキストエンコーダの次元に合わせて、視覚埋め込みをテキスト互換の次元数学空間表現に投影するんや。そして、視覚では16×16ピクセルまたは32×32ピクセルなどのグリッドがあることを覚えといてや。次元だけやなくて、他にもたくさんの問題があるんやな。

ほんなら、どうするかっちゅうと、平坦化する操作があるんや。これがフラット化で、視覚とテキストの埋め込みを統一された線形シーケンスに結合するんや。なんでかっちゅうと、LLMは線形モデルやからな。

視覚埋め込みの平坦化されたグリッドを連結することで、テキスト埋め込みのシーケンスと一緒にする可能性が2、3あるんや。単純にそれらを巨大な線形シーケンスに連結するだけやねん。新しいパターンができて、それをパターン認識マシンに送り込むんや。素晴らしいやろ。これが言語モデルやねん。

自己回帰言語モデルができて、次のトークンの確率を予測するんや。テキスト埋め込み、つまりテキストトークンがあるけど、画像のグリッド次元を与えて非常に特定の数学的空間で生成された構文トークンもあるんやな。

これがほんまに一貫しとるかっちゅうと、そんな感じがせんやろ。これはほんまにスムーズに動いとらんのや。たくさんの数学的変換が起こっとる。1,000から4,000次元空間への変換を考えてみてや。これは全然スムーズな操作やないねん。

異なるコネクタ設計の比較

ほんなら、これらのコネクタをどう構築するかやけど、特に自己回帰視覚言語モデルで美しいアイデアがたくさんあるんや。

歴史からLLaVAを知っとるかもしれんな。2層MLPを使って画像埋め込みを言語モデル埋め込み空間に投影するんや。画像エンコーダによって抽出されたパッチ数である画像特徴長を保持するねん。

Qwen 2.5視覚言語は、パッチマージャーを使用しとる。これも2層MLPで、入力画像特徴の長さを減らすんや。画像内の隣接する4つのパッチの画像表現をまず統合して、それから2層MLPを通して新しい表現を学習し、画像表現を言語モデル埋め込み次元に投影するんやな。

言語と視覚に対して、まだ2つの異なる数学的ベクトル空間があって、いつも何とかごまかそうとしとるのがわかるやろ。言語がLLM構築にめちゃくちゃ高かったから、GPT-4とか何でもええけど、視覚を追加したいだけで、最初から始めて、ほんまに完全で複雑な視覚空間と完全で複雑な言語空間を持って、それから積空間を構築するのは嫌やねん。簡単で安くしたいだけなんや。

もちろん、Hugging FaceのIDEFICS 2は、コネクタとしてperceiver resamplerっちゅうもんを活用しとる。美しいやろ。単純にクロスアテンション層があるだけや。

でも、ちょっと戻ってみてや。何をしとるかっちゅうと、言語モデル埋め込み空間に投影しとるんや。画像表現を言語モデル埋め込み空間に投影せなあかんのや。つまり、言語用の数学的ベクトル空間だけを構築して、視覚エンコーダから来るトークンをそこに押し込んどるんやな。完璧なやり方やないけど、今日はこのやり方でやっとるんや。

情報損失の定量化手法

そのため、情報損失があって、この研究では、おそらく初めて、コネクタモジュール、プロジェクタでのこの特定の情報損失を定量化しようと決めたんや。

どうやってやるかっちゅうと、2つのシンプルな可能性があるって言うとるんや。最初の方法は、単純に数学的空間の構造情報を見ることやねん。意味埋め込みが近くにある構造情報を見るんや。

特定のベクトルがあって、εの環境を見に行って、そのε環境内でたくさんの画像を見つけるんや。そして、投影またはコネクタモジュールの前後で各画像表現のk最近傍を比較するんや。めちゃくちゃ簡単に違いがすぐにわかって、これが数学的空間の構造変形やって言うんやな。

でも、絶対的な細かい詳細についてはどうやろ？これは時空連続体の巨大な身体歪曲みたいなもんやけど、単一の数値を特定せなあかんなら、もっと詳細に行かなあかん。そのため、投影された表現から元の画像を再構築するって言うたんや。拡散から知っとることやから、全然問題ないやろ。この再構築がどれだけ良いか見てみよやって。

k最近傍重複比率が特定の指標になって、これを見てみよか。

実験結果と重複比率の分析

LLaVAの画像埋め込みがあるとするな。まず、クエリ画像があって、これが標準ベクトルやねん。投影する前に、この画像は、上の行にある画像に近い投影数学空間に埋め込まれとるんや。

でも、言語表現が支配的な特徴である異なる数学的空間にマッピングする数学的操作を行った後、この画像は2行目で定義された他の画像に近くなっとるのがわかるやろ。重複する画像もあるんやな。これで重複比率がわかるやろ。

でも、元の視覚埋め込みのε環境には表現されてないキノコなど、全く新しい画像もあるんや。IDEFICS 2も見てみよか。異なる画像埋め込みがあって、数学的空間の歪んだ時空にマッピングしとるようなもんやな。

IDEFICS 2で別の視覚言語モデルを見てみよか。また、クエリ画像に最も近い画像は何かっちゅうと、上の行で見ることができるで。面白いことに、背景にグリッドがあるんやな。重複もあることがわかる。

でも、残りの画像は全然違うねん。投影後、空間の別の場所におるんや。この特定の視覚情報、視覚データを空間の複雑で異なる領域に投影したんやな。これで多くの問題が発生する可能性があって、視覚言語モデルで遭遇するエラーや損失を引き起こすことがわかるやろ。

Qwen 2.5視覚言語で行くと、ちょっと面白いことになるで。クリスマスツリー、家族、海の向こうの船がある元の埋め込みを見てや。ちょっと変やけどな。でも投影後は、果物、オレンジなどの意味的な用語にもっと近くなっとるんや。

面白いことに、視覚データの言語データ空間への投影によって、実際に一般的な用語により近くなっとるんやな。この投影、このコネクタ操作中の構造情報損失を反映しとって、画像埋め込み間の局所幾何学的関係がどの程度保持されとるか、または保持されてないか、歪められとるかを示しとる。

でも、画像内の単一の文字や単一の文字をほんまに特定したい場合、パッチレベルでの細かい視覚特徴の損失は特定できないんやな。

実験設定と結果

そこで彼らがやったのは、公開されて馴染みのある評価データセットを取ったことやな。もちろん、再構築の2番目の項目については、特定の再構築モデルを構築せなあかんって言うたんや。LLaVAに対してはかなりシンプルで簡単で、シンプルな3層MLPでやった。IDEFICSとQwenに対しては、16層16ヘッドの変換器エンコーダを次元ベクトル表現に実装したんや。

結果はどうやろ？追加情報はたくさんあるけど、最終結果を見てみよか。近傍重複比率は、視覚言語モデルでコネクタ、投影で起こった構造情報損失を反映しとるんや。意味表現空間での損失やな。

色分けして見てみよか。青がLLaVA、オレンジがIDEFICS 2、緑がQwen言語で、異なるベンチマークを表しとる。一般的に言えることは、青のLLaVAとIDEFICS 2は重複比率が約0.5、つまり約50%やっちゅうことや。これらの画像を空間の新しい部分、新しい領域に投影して、馴染みのある画像との重複は50%しかないんやな。

一方、Qwen 2.5は近傍画像の約90%、近傍ランキング情報を失っとる。このプロジェクタの操作で、すべてのモデルで重要な近傍の並べ替えがあることがわかるやろ。

視覚言語モデルで、突然視覚情報が50%、90%まで最大限歪められることが欲しいことなんかって聞きたくなるやろ。これがまさに視覚言語モデルで情報損失に遭遇する場所なんやな。

もちろん、言うた通り2番目は再構築損失もあるんや。投影された画像からこれを再構築しようとすると、関連パッチでの損失もあって、LLaVAとIDEFICSのパフォーマンスに悪影響を与える。Qwenについては、研究自体で詳細を見つけることができるで。

研究の重要な発見

一般的に著者らは、視覚言語モデルでの情報損失の2つの重要な側面を見つけたって教えてくれとる。まず、最近傍ランキングの40から60%の差によって示されるグローバル意味関係の構造的シフトがあるんや。これを完全に未知の部分空間に投影しとって、差は最大60%やねん。すごいやろ。

パッチレベルの再構築損失については、一般的にキャプション性能に悪影響を与えて、モデルの失敗も説明しとるんや。「この画像で見える3つの数字を特定してくれ」みたいな細かい視覚的根拠のある質問回答を探しとる時にな。これでかなり多くのことが説明できるやろ。

時空構造の完全な歪曲っちゅう全体的な効果があって、より細かい詳細に行っても、パッチレベルの再構築損失が重要なことがわかるんやな。一般的に、コネクタやっちゅうことを教えてくれとる。視覚表現、視覚埋め込みの局所幾何学を大幅に歪める特定のネットワーク、ニューラルネットワークやっちゅうことやな。

効果的なコネクタの要件

他の研究者らは、次世代を構築する場合の効果的なコネクタの2つの重要な特性を教えてくれとる。以下をやってくれっちゅうことや。

今日よりもはるかに良く画像の意味表現を保持または改善するコネクタが必要やねん。そして、テキストコンテキストに最も関連する視覚情報を新しい方法で保持せなあかんのや。

そのため、ここでの発見は、視覚言語モデルコネクタのさらなる改善を導くことができるって決めとるんや。

ちょっと違う視点から読みたいなら、この論文がほんまに面白いと思うで。2024年からやけど、ほんまに読む価値があるんや。これはHugging Faceからのもので、「視覚言語モデルを構築する時に重要なこと」って言うとるんや。

答えは既に2024年にあって、驚きやないけど、視覚とテキストのモダリティを融合するコネクタモジュールと、推論効率への影響やねん。もちろん、マルチモーダル訓練手順と訓練安定性への影響もあるけどな。

2024年5月とほぼ同じレベルにおることがわかるやろ。境界をちょっと押し進めたけど、ほんまに高いパフォーマンス効率を持つ完全に新しいコネクタの方法は出てきてないんやな。

楽しんでもらえたやろか。次回も見てもらえたら嬉しいで。