VLMはほぼ盲目状態なのか?(プリンストン、ハーバード、Google研究)

AI研究
この記事は約17分で読めます。

この動画では、ハーバード大学とプリンストン大学による最新の研究論文を通じて、現在の視覚言語モデル(VLM)の能力と限界を詳細に分析している。一方の研究では視覚化がAIのデータ分析性能を向上させることを示しているが、他方の研究では基本的な視覚推論タスクにおいてVLMが致命的な欠陥を抱えていることを明らかにしている。両研究を比較することで、現在のAI技術における視覚処理の複雑な現実が浮き彫りになる。

VLM are almost blind? (Princeton, Harvard, Google)
Does visual reasoning exist in our latest VLM? Or is it all transferred back to a semantic complexity? Latest Ai researc...

視覚言語モデルの信頼性に関する疑問

こんにちはコミュニティの皆さん。視覚言語モデルを信頼できるんやろか?現在のAIの視覚推論や視覚同期能力に知能は存在するんやろか?調べてみよう。ハーバードとプリンストンから新しい研究論文が2つ出てるからな。

まず最初のアイデアは簡単や。新しいコミュニケーション様式みたいなもんやな。何があるかって言うと、数値データストリーム、つまり純粋なデータそのものがあるわな。それから別の表現もある。これはPythonやC++のコードや。ここで必要なら、ここでコード内の操作のシーケンスを定義するわけや。そしてもちろん、英語テキストでのアイデアの言語的意味表現もあるわな。

これらを提供したら、何かもっとうまくできるやろか?特定の高次元ベクトル空間で非常に特殊な視点を与えたデータ視覚化を提供したらどうやろか?これは役に立つやろか?例えば、データクラスタリングが起こってるのが見えたり、他のアルゴリズムやデータに対する他の演算子があったりする場合、役に立つやろか?

アイデアは簡単や。パターンマッチング機械であるAIエージェントがタスクを実行し、より知的になり、推論性能を向上させるのを助けるために、あらゆる種類の複雑さの視覚的なものをデザインできるやろか?そして今、多様式AIシステムや多様式エージェントを扱ってるからな。ここで順序に注意せなあかん。

研究手法と対象モデル

簡単やと言うてるわ。2つの主要なVLMを取る。まあもうそんなに主要じゃないけどな。調べてる3つの一般的なデータ分析タスクがあって、慎重に選択した5つの異なる入力条件がある。これは視覚同期プロセスをLLMの意味言語同期プロセスから分離したいからや。統計的に関連性を持たせるために、12,000回の個別実行を行うわ。素晴らしいやろ。

これらが2つの祖父的な視覚言語モデル、GPT-4.1とClaude 3.5 Sonnetや。なんで古いやつを取るんやって言うなら、まあ想像してみいや。現在の視覚言語モデルを取って、視覚推論にいくつかの誤動作やエラーや欠陥があることを示すとしたら、どうやろか?まさか。寄付をくれるかもしれんし、学生のキャリアパスを求めるかもしれんグローバル企業に対して、どこの大学もそんなことする勇気はないやろ。

だから祖父モデルで行くんや。マウスを動かすところはどこでも、単純にプロンプトが与えられる。これは美しいわ、すごく簡単やからな。見てみい。以下のデータのパターン、トレンド、興味深い特徴は何かって。それだけや。視覚言語モデルに考えさせるんや。

3つのデータ分析タスク

それから3つのデータ分析タスクがある。これ以上簡単にはできひんわ。クラスターを検出する。なんてこった。放物線トレンド識別がある。簡単や。それか一番簡単なやつ、外れ値推定や。50個のポイントがあって、1個のポイントがこの特定の線から外れてZ軸上でシフトしてる。それだけや。それが複雑さの全てや。

でも今、視覚化での推論、視覚化での思考の効果を分離するために、超平面でと言うてもええけど、美しいアイデアがあったんや。最初に、データストリームだけを与える。これがベースライン、数値の生データx、yデータや。

それから多様式推論をやってるから、視覚化が全くない白い画像だけを与える。多様式推論に切り替えたときに、これがモデルに何か影響があるか確認するためや。それからコントロールグループ2では、データと間違った視覚化を言う。何か効果があるか?正しいデータと間違った視覚化を目に与えたら、今度は何が起こるやろか?

それからもちろん、2つの正しい視覚化を与えなあかん。データと正しい視覚化や。つまり行データと、例えばどんな次元でも好きなデータの正しい散布図の両方や。そして興味深いことに、散布図だけで生の数値データはなしや。これは視覚情報だけの力を分離するんや。ここで視覚言語モデルから、視覚チャンネルだけで何が検出できるかを本当にテストするんや。

評価方法と結果

論文のプレプリントには興味深いデータがたくさんある。読んでみてや。評価方法と結果に飛ぶわ。放物線タスクをどう評価するかって?簡単や。単純にキーワード検索で、答えに「parabolic」や「quadratic」の言葉が含まれてるかや。クラスタリングと外れ値タスクについては、どうやと思う?Gemini AIシステムを自動AI判定者として使うんや。AIがAIを判定するわけや。

ここでハーバード大学とGoogle研究の研究があって、2025年7月24日に発表されたもんや。追加の視覚化が視覚言語モデルのデータ理解と、データに対するより良い推論プロセスや思考プロセスを持つのに役立つかどうかや。金融ドメインタスクについて考えてみい。これが機能するなら、AIの金融理解をここでどう改善できるかってな。

結果に単純に行こう。はい、機能するで。でもハーバードがやったから、いくつか特別な質問といくつか深い洞察があったんや。これが研究を非常にエレガントにしてると思うで。

重要な発見

まず最初に、間違った条件でのデータ、視覚条件が最悪のパフォーマンスを生み出すことに気づいたんや。データだけを提供するよりもさらに悪いんや。これは重要な発見やで。つまり、AIは人間のように、データに対応しない視覚化によって積極的に誤解されることに本当に敏感やということや。AIは、この場合何をすべきかを学習してないんや。だからここで事前訓練を改善せなあかん。

2番目に、これを見ると、VLMは「アイデアがない」と教えてくれるか?急に数値データでデータストリームを検出し、それから視覚化があって、それらが合わないことを検出したからや。ここに不一致があるんや。AIは何も言わんかった。800回中たった7回だけ、これに言及する勇気があったんや。だからAIは沈黙を保って、静かに失敗するんや。混乱してるか、数値入力よりも視覚入力を信頼してるかや。分からへん。両方ともブラックボックスシステムやからな。

それからデータと正しい視覚化、そして正しいもの1つだけの比較を見たんや。そして興味深いことに、放物線タスクのような形状についてで、トレンドが非常に微妙な場合、チャートだけを提供することがチャートとデータを提供するよりも効果的やったんや。つまり、モデルの視覚システムにグローバル構造を即座に明確にすることが成功への道やったということや。

視覚化の効果

一方で、外れ値タスクのような特定のポイントを識別するだけなら、チャート単体よりもチャートとデータの両方を提供する方が良かったんや。だからここで両方のモダリティの相乗的使用があったわけや。興味深いな。事前訓練データセットに大きく依存するんや。

今、視覚化そのものを見てみよう。はい、それ自体がジョークやって分かってるで。ここで上にGPT-4.1、下のグラフにClaude 3.5 Sonnetがある。見ての通り、クラスター数を増やすと、GPTでは美しいパフォーマンスが見れるで。データと正しい視覚化、そして正しいデータだけや。

機能するんや。単純に機能する。他の全てはクラスター数の増加、複雑さの増加とともに下がっていく。Claude 3.5でも同じことが言えるで。完璧な設定から始まるけど、見てみい、3つのクラスター、4つのクラスター、5つのクラスターですぐに下がっていく。間違った視覚化でのデータはひどいで。ほとんど全く識別できひん。でもデータと正しい、そして正しいだけのバージョンは、はい、約70〜80%を維持してるで。素晴らしい。GPT-4.1は見ての通り少し悪いな。

これは何を意味するか?これは、正しい視覚化を提供することがデータのみのベースラインよりもパフォーマンスを劇的に改善するという最も明確な視覚的証拠や。だから視覚化のこの新しいコミュニケーション表現を挿入することで、推論と検出、そして思考でAIを助けるんや。

放物線テストの結果

今、放物線テストを見てみよう。今度は興味深いで。正しいだけのバーがデータと正しいバーよりも有意に高いのが見えるやろ。Claude 3.5で行こう。正しいだけかデータと正しいか。これで微妙なグローバルパターンを含むタスクの議論が支持されるわけや。生データはノイズとして作用し、視覚だけが最も純粋な信号やということや。

だからここの濃い青で視覚化だけがあって、生の数値データと正しい視覚化を与えても、パフォーマンスは大幅に低下するんや。これを見てみい。信じられへん。なんでこんなことが起こるんや?

そしてもちろん、これは絶対に魅力的やと思うけど、アウトプットトークン数を見たんや。外れ値検出設定での代表的アウトプットトークン数で、どれだけのトークンが生成されたかや。このテストで行くと、正しいだけオプションが最も短いのを生成する。これは濃い青やで。y軸が同じじゃないから注意してや。GPT 4.1とClaude 3.5では800トークンがあって、こっちは300トークンだけや。

これは視覚を提示されたとき、モデルが内部推論戦略を変更するという議論になるんや。何らかの広範な統計計算や推定を実行する代わりに、モデルは今度は最も顕著な視覚特徴に焦点を当てて、これを直接報告するんや。

推論戦略の変化

これは統計分析モードから視覚パターン認識モードへの変化の行動的シグネチャーのようなもんや。突然モデルが統計分析から本当に視覚パターンに切り替わるんや。LLMや視覚言語モデルがいつ内部戦略スイッチやモードスイッチを決定するかは興味深いな。

それは使用する視覚言語モデルに大きく依存するんや。でも一般的に言えば、視覚化がAIデータ分析を強化する本当に強力なツールやということが証明されたと言えるで。「これは素晴らしい」と言うかもしれんな。

そして今度はどのシナリオで視覚化が最も有益か、完全な処理パイプラインのどこで視覚を導入すべきかという質問があったんや。データパイプラインのどこで正確に、フィルター、グラフィカルフィルター、幾何学的フィルターを使った特定のデータ表現の視覚化という追加の光学的視点を提供すべきかや。

そしてAIマルチエージェント向けに特定の視覚化を設計・最適化するために、視覚がAIを助けることを可能にする基礎的な認知メカニズムは何かや。

第一の論文のまとめ

だから最初の論文は絶対に素晴らしくて、LLMの視覚システムが役に立つ、直感的だと感じる形式、散布図のようなクラスターを見る素晴らしい方法にデータを前処理することで、AIアナリストからより良い結果を得ることができることを示してるで。これは言語と視覚パターン認識を融合できるから、ワークフロー設計における人間の目の相互作用の勝利やと言えるかもしれんな。

でも心の中に小さな声があるやろ。なんで視覚パターン認識モードをそんなに明示的に言及したんやろうって。そしてなんで第一の論文やって言ったんやろうって。はい、プリンストンから第二の論文があるからや。

プリンストンの対照的研究

これは2025年7月の初めからの少し古いもんや。プリンストンは「視覚言語モデルにはトンネル視覚がある」と教えてくれる。だから今度はプリンストン大学で、第一のプレプリントに対する反対の観点を評価してるんや。主要なVLMにおける非局所視覚推論を評価してるわけや。

そして最後に祖父モデルで行かずに、少し良いGemini 2.5 Proで行くんや。実際のモデルで行く。プリンストンは実際のモデルで行くことに問題がないのが分かるやろ。

この動画で最初に見たプレプリントは、かなり楽観的なメッセージを届けてくれたわ。特定のフィルター表現でのデータ視覚化は、数値データストリームと表現があるときに人間を助けるのと同じように、AI視覚言語モデルを助けるってな。

厳しい現実

2番目のプレプリントは冷たい分析の水のバケツを持って来るんや。何やと思う?今日の主要なVLMには非局所視覚推論が欠けてるんや。画像の異なる、時には遠い部分からの情報を繋ぎ合わせてタスクを完了するという基本的な能力が、現代の視覚言語モデルにはほとんど欠けてるんや。

「ああ素晴らしい、また何かが機能してないということに戻ったな」と言うかもしれん。はい、その通りや。失敗から学びたいんや。より良くなりたいんや。グローバル企業がマーケティングパンフレットで「これは購入できる最高のモデルや」と言うときに、ただ信頼したくないんや。

このプレプリントは視覚言語モデルが何を見るかから、どのようにそれを見るかに焦点を移すんや。これは絶対に興味深いで。簡単なアナロジーで考えてみい。地図上で都市を認識することと、その特定の都市を通るルートを辿ることができることの違いや。

3つの視覚推論タスク

始めよう。ここの著者は視覚推論の複雑なアイデアを3つの特定の本当に具体的に定義されたタスクに分解してるんや。物事を比較すること、手がかりのシーケンスを探すこと、視覚的複雑さでパスを辿ることや。これ以上簡単なことはないで。毎日やってることや。

これは視覚言語モデルの弱点を診断するための、より厳密な語彙を提供するんや。ここでオブジェクト再識別、この視覚的な宝探し、そして回路接続があるんや。全て詳しく説明するで。とても簡単やから気に入ると思うで。

発見は現在の視覚言語モデルアーキテクチャの基本的な限界を示唆してるんや。それらの成功は、画像に対して独立した一瞥を実行した後の、大規模言語モデルのテキストベースの推論プロセスに依存してるんや。だからLLM、言語モデルに戻るわけや。推論は視覚空間で起こってない。推論はほとんど言語意味空間でのみ起こってるんや。

視覚推論の限界

「ちくしょう、マルチモーダルに行きたかったのに。全てを言語意味的複雑さパターンに戻したくない。視覚言語空間に行って、そこで議論し反駁する自由が欲しいんや」と言うやろな。だからVLMは推論が視覚ドメイン自体で起こらなければならないときに苦労するんや。

素晴らしいな。それで3つのコア非局所視覚スキルを開発したんや。これを証明せなあかん。比較知覚、立方体や何かの視覚的実体を作業記憶に保持し、変換の下でも別のものと比較する能力がある。だから心の中で立方体を90度、180度回転させ、色を変える、何でもできる。人間としてこれができるんや。

精神的検索。これは画像全体で注意の離散的な証拠駆動ジャンプを実行する能力ではないんや。左の角から右の角に行き、右の角から中央に行き、それから中央から指示子やベクトルがあって画像の他の場所に行く。ただジャンプするだけや。

そしてもちろん、離散から連続へ、画像でコンターやパスを辿る。だから滑らかな視覚検索アルゴリズムについて話してるんや。変異標準の未接続オブジェクトがある。ここで見るオブジェクトは、一緒に変換される未接続チップの星座や。ピクセル完璧変異があって、コントロールがある。「はい」の答えは、画像2が変換回転の下で画像1のピクセル対ピクセルマッチであることを意味するんや。

具体的なタスク例

だからモデルには色付きの形状のグリッドが示され、各形状には他のオブジェクト、他の色の形状ペアを指定するテキストがラベル付けされてるんや。例えば示したように、ティールの三角形にはピンクの円と書かれたテキストがあって、今度の仕事はピンクの円に行くことや。視覚言語モデルとして、これはそんなに簡単じゃないことをせなあかん。これは反復プロセスやからな。

形状Aを見つけ、形状Aのラベルを読み、それからラベルの特性を持つ形状Bを見つけ、それからそのラベルを読んで続けるんや。だから推論は逐次的で視覚的や。両方が必要で、ここでシーケンスを見つけ、どこかから始めて、3ステップ後にどこにいるかを教えてやということや。簡単や。家でできるで。

実験結果の惨状

結果はどうか?洞察だけを与える。論文を自分で読んでや。気に入ると思うで。洞察その1。モデルは一貫性のあるオブジェクトを全く比較できひん。素晴らしいな。だからここにあるわ。回転や平行移動や何かの後のオブジェクト再識別や。ここにモデルがある。50で見ると、50はランダムチャンスや。コイン投げやで。これがほとんど全てのモデルが住んでる場所や。

Gemini 2.5 Proの65%で少し良いとか、OpenAI o4 miniでここで少し良いと議論できるかもしれん。でも残りの群れについては、本当にこの2つ以外のモデルで行くなら、o3が55でランダムより少しだけ上やけど、「これにお金を使う価値はない」と言うで。

標準的なオブジェクト再識別タスクでは、最高のVLMや最も高価なVLMでさえ、ランダムの50をかろうじて上回る程度や。単純な回転後に一貫性のあるオブジェクトが同じかどうかを確実に判断できなかったんや。「うわあ、素晴らしい。これが金を払ってるもんか」と言うやろな。人間を見てみい。人間には簡単や。心の中でできる。コンピューター画面で見る必要もないんや。

さらなる衝撃的事実

衝撃的なひねりは、未接続のピクセル完璧変異でパフォーマンスが大幅に改善したことや。これは何を意味するか?モデルがオブジェクトを構成するものについて、内部理解に強いが欠陥のある事前知識を持ってるということや。

一貫性のある形状に直面したとき、内部報酬システムで話してた内部世界モデルを覚えてるか?オブジェクトが何かについての内部モデルが変換によって混乱させられるんや。もう識別できなくなる。でもオブジェクトが1、2、3の部品の緩い集合体の場合、個別の簡素化された断片を比較するのが得意なんや。

つまり単一の部品は扱えるけど、オブジェクト全体自体は扱えないということや。また複雑さを下げる。標準的な幾何学形状よりも高い複雑さがあると、AIにはチャンスがないんや。

洞察その2。モデルは検索しない。ただ推測するだけや。「おい、それは素晴らしいな。これがAIシステムに金を払う理由や」って言うやろ。精神検索の失敗や。

何を意味するかって?これを見てみい。9%で、これがランダムチャンスや。視覚言語モデルの90%を見てや。「おい、うわあ、素晴らしい。7B、11B、32B。ああ、うわあ、美しい」って言うやろ。Claude 3.7でも全然あかんな。o4 miniやGemini 2.5 Proかもしれんな。o3?いや、そうでもないな。人間は100%簡単や。

人間にとって何がそんなに簡単なんや?最高のGemini 2.5 Proでさえ、残りよりは良いけど、この結果を得るためにクラウドで何個のGPUを起動せなあかんか分からん。ローカルAI実装、ローカルラップトップや家庭用コンピューターでClaude 3.7で行くなら、視覚的宝探しにはチャンスが全くないで。

でもパフォーマンスはチェーン長が伸びても一貫して低下しなかった。これは逐次アルゴリズムに沿って進むことさえ試してなかったことを示してるんや。代わりに特定の画像で最も頻繁な色を推測するようなヒューリスティックを単純に使ってたんや。トレースに従うような単純な視覚プログラムを実行できなかった。失敗して、色識別だけで行ったんや。

最終的な絶望的結果

洞察その3に来よう。この動画を終えたいからな。これは憂鬱になって、人々が超知能について話してるのに、単なるジョークや。洞察その3。モデルは辿らない。色をマッチングするだけや。

もっとひどくしよう。滑らかな視覚検索でさえ、最高の視覚言語モデルで完全な失敗や。勾配証明を見てや、論文を自分で見てくれ。視覚言語モデルは検索演習として示したワイヤーを実際に辿ってない。ほとんど完全に色マッチングヒューリスティックスキームに依存してるけど、パスに沿って従ってはないんや。この近道が取り除かれて、全てが単色になると、この特定のタスクを解決する視覚言語モデルの能力は完全に崩壊するんや。素晴らしいな。

研究の意義と今後の課題

現在少し憂鬱やと思うけど、これは次世代モデルを改善するためや。何が機能して何が全く機能してないかを理解せなあかん。それから設計図に戻らなあかん。視覚言語モデルの事前訓練を強化し、最初からやり直して改善せなあかんのや。

元の出版物から見たいなら、その通りや。素晴らしいな。両方の論文の要約は何か?両方の論文は一緒に興味深くて、3週間離れてるにも関わらず、特定の理由でこの2つの論文を選んだんや。それらは絶対に互いに対照的なポイントやからな。

一方では視覚化は素晴らしいと言う。これはAI視覚言語モデルが視覚ドメインで推論プロセスを持つのを助けるもう一つのデータ表現やということや。だから第一の論文では、純粋な数値、数値データストリームから視覚表現への入力モダリティの変更が視覚言語モデルのパフォーマンスを改善するかと尋ねたんや。答えは制限付きやけど、一般的には助けになるということや。

第二の論文では、視覚言語モデルが視覚モダリティ自体の中で逐次推論アルゴリズムを実行できるかという質問やった。答えは絶対的にノー、全然あかんということや。

第一の論文の利益を考えてみると、データが視覚言語モデルに対して生データに加えて別の表現空間でどう表現されるかから来てるんや。興味深いな。しかし、視覚言語モデルの失敗、ビデオについて話してるんじゃなくて静的画像について話してるで。静的画像でさえ、その視覚データを逐次的に処理できないという無能力。この失敗はVLM自体にあるんや。

これは視覚言語能力の層状の性質と呼べるものを明らかにしてると思うで。どういうことかって?追加の視覚データ表現、特定の偏光フィルター、特定の要約、特定のクラスターアルゴリズム、特定の分析を与えることで、これらのシステムを助けることができるんや。だからAIがデータストリームの隠れたパターンを理解するのを助けることができる。

でもそれらの画像やこの視覚化について推論する能力は現在幅広いけど、信じられないほど浅い、ほとんど存在しない浅さやということを認識せなあかん。だからこの視覚言語モデルは画像上の森を見ることはできるけど、森を通る小道をたどる方法を全く知らんのや。全然や。

現実と期待のギャップ

よし、これが今日の動画や。最新のAI研究論文を読んでちょっと失望してるで。マーケティングやソーシャルメディアプラットフォームで「超知能が来週来る」って見るからな。現実は何やと思う?パフォーマンスをステップバイステップで分析する本当に分析的なプロセスがあるなら、現実ははいやけど、現実はそうやということや。

コメント

タイトルとURLをコピーしました