大規模言語モデルが新しいコンテキストを無視する問題清華大学とスタンフォード大学の研究

清華大学、スタンフォード大学、ハーバード大学による最新研究が、大規模言語モデルの重大な欠陥を明らかにした。本研究では、AIモデルが新たに提供された文書や証拠を実際に分析しているのか、それとも事前学習された知識に依存して統計的に正しい答えを推測しているだけなのかを検証する新しいベンチマーク「SIN」を開発した。結果は衝撃的である。GPT-5は解答精度では76%と最高スコアを記録したものの、提供された文書内の証拠を正確に特定する能力は52%に低下し、約25%のケースで文書を実際には読まずに統計的推測で正解を導き出していることが判明した。この「トレーサビリティギャップ」は、AIが真の科学的推論ではなく、学習済みパターンマッチングに依存していることを示しており、特に個別の医療記録、財務諸表、新規研究論文など、ユニークなデータの分析を必要とする場面では深刻な問題となる。

LLMs Ignoring New Context (Tsinghua, Stanford)

All rights w/ authors:SIN-Bench: Tracing Native Evidence Chains in Long-Context MultimodalScientific Interleaved Literat...

AIの証拠ギャップ:大規模言語モデルの隠れた欠陥
研究の概要:清華大学とスタンフォード大学の共同研究
従来のベンチマークの限界
新しいベンチマーク:SINベンチマーク
Chain of Thoughtの限界
データセットの構築
マルチモーダル評価の3つの次元
検証タスクとハードネガティブ
データセットの対象分野
評価結果:各モデルのパフォーマンス
研究の限界
主要な発見:トレーサビリティギャップ
モダリティエンタングルメント
ハードネガティブへの脆弱性
AIがショートカットを作成する仕組み
記憶化の問題
科学における深刻な影響
証拠根拠の問題:50%の成功率
結論:AIにはまだ長い道のりがある

AIの証拠ギャップ:大規模言語モデルの隠れた欠陥

こんにちは、コミュニティの皆さん。まったく新しいAI研究論文が発表されました。これは非常に重要な内容です。それでは、AIの証拠ギャップについてお話ししましょう。私のチャンネル「Discovery」へようこそ。最新の研究論文を見ていきます。

今回の研究も、AIが事前学習されたパラメトリック知識と、私たちが今AIに提供する新しい事実やデータとの関係についてです。コンテキスト学習があり、RAGがあり、データベース接続があり、API呼び出しがあり、マルチエージェント構造があり、MCPプロトコルがあります。何であれ、本質的には関係ありません。私たちが興味を持っているのは、新しい事実と新しいデータがここでパラメトリック知識と一致しない場合に何が起こるか、このAIの推論プロセスで何が起こるかということです。では、楽しんでいきましょう。

研究の概要:清華大学とスタンフォード大学の共同研究

ここに論文があります。2026年1月15日、清華大学、上海AIラボラトリー、スタンフォード大学、ハーバード大学による美しい新しい研究です。彼らはここで、長いコンテキストのマルチモーダル科学的インターリーフ文献演習におけるネイティブな証拠チェーンを追跡しています。彼らは単純に問いかけています。新しい事実をAIに提示した場合、AIはこれらの新しい事実を推論プロセスに統合するのでしょうか。

AIモデルが長くて密度の高い文書を処理する場合、既存の評価システムは単純に失敗します。なぜなら、システムが長い文書の論理を本当に理解しているのか、それともAIが単にカンニングしているのかを区別できないからです。AIが今、パラメトリック知識に依存して答えを推論している場合です。

ご覧のように、ここにはスタンフォード、ハーバード、清華があります。つまり、靴下をしっかり履いて聞いてください。これは科学についての話です。本当に美しい何かについてです。これはソーシャルメディアについてではありません。これは、本格的なプロフェッショナルな仕事をしたい場合の話です。見ていきましょう。

従来のベンチマークの限界

さて、皆さんご存知の「needle in a haystack(干し草の中の針)」は素晴らしいものです。これが私たちの古いパラダイムです。長い長いテキストのどこかに「needle」という用語があり、そして別の場所にも「needle」があります。質問は「針はいくつありますか」です。ほぼすべてのAIシステムが、「needles」のような特定のトークン文字列を検索して答えを出すことができます。

はい、私たちは検索語「needless」をここで見つけました。でも、これは最高の複雑さでのAI推論ではないと言えるでしょう。これは単に用語を見つけるだけです。そうですね。したがって、5か月前にすでにありました。私たちは「needle in a haystack」から「needle chain(針の連鎖)」に移行しました。これについて知りたい方のための動画があります。

しかし、今日の清華やスタンフォードなどのアーティストたちは、別のことをしようと言っています。「needle in a haystack」は良かったけれど、「fish in the ocean(海の中の魚)」にしましょう。なぜなら、今は推論に拡張するからです。AIには知的であってほしいからです。それでは、エビデンスベースの推論に行きましょう。

新しいベンチマーク:SINベンチマーク

私たちには何があるでしょうか。アブストラクトがあり、序論があるかもしれません。そして、科学的手法の詳細な説明があります。結果があるかもしれません。結果は表で提示されます。結果はグラフとしてここに表現されています。あるいは、短いテキストによる説明があるかもしれません。

世界最高のAIモデルが、テキスト、おそらくいくつかの表、そしておそらくここに画像さえも含む、この証拠の連鎖を見つけることができるかどうか見てみましょう。つまり、マルチモーダルと呼びます。そして、AIによる最終的な答え、例えばGPT-5を期待します。しかし、これは証拠によって裏付けられるべきです。そして、私たちはそれらの文書を提供します。

ご覧のように、とても美しいです。現在のリーダーボードは少し誤解を招くものです。なぜなら、時々GPT-5は正しく結果を幻覚で導き出すからです。特に多肢選択式の場合、A、B、またはCがあります。パラメトリック記憶やヒューリスティックなショートカットを介して正しい答えに到達します。真の科学的で本物の文書理解や論理の理解、真の科学的推論ではなく。

そして今、新しいベンチマークがあります。私たちのSINベンチマークは、まさにこれを明らかにします。これはこの特定の目的のためだけに設計されました。単純に言えば、世界最高のAIであるあなたが、推論の証拠を私に示すことができるかどうかを教えてくれます。できなければ、ゼロ点です。

つまり、正しい解決策を幻覚で導き出すことはできます。正しい解決策を与える確率分布があるかもしれません。私はそれを無視します。私はあなたの答えに対する絶対的な論理的推論を求めています。それではやってみましょう。

Chain of Thoughtの限界

さて、私の最後のビデオの1つで、AIの亀裂が広がっていることをお見せしました。そして、私はChain of Thoughtシステムに非常に期待していました。しかし、もちろんこのビデオでは、トップシークレットの訓練データから移動します。これは知的財産として保護されていないことを願うデータで、すべての大手グローバル企業がシステムを訓練しています。そして今、このテストのために提供する特定の文書セットに移ります。著者たちは非常に特別な文書セットを選択することにしました。

データセットの構築

見てみましょう。彼らは科学文献に入ります。彼らはOABサーバーなどを持っています。構造化されたファイル、HTML、JSONがあります。生データと最終的なデータ生成があります。そして、このデータ表現を最適化したいのです。ループがあります。Googleから、OpenAIから、Claudeから、Qwenから、すべてのものとのクロスバリデーションがあります。

人間参加型の監査があり、科学文献の推論プロセスにおけるゴールデンサンプルを本当に提供します。彼らは本当にここでかなりのリソースを持っていて、データを構造化し、パイプラインに持ち込みました。そして、ゴールデンサンプル、新しいベンチマークデータがあります。そして、このデータ、このデータセットを使用して、因果推論における複数のモデルを評価します。

標準的なRAGや長いコンテキスト評価における単純なタスクでは、通常、答えをスコアリングします。多肢選択式ABCで答えが正しいか、それともBか、何かです。これが今日までです。しかし、この新しいSINベンチマークでは、モデルは今、データのタプルを出力しなければなりません。答えと説明があります。説明は、インターリーブされた視覚的アンカーとテキストからなる構造化された証拠の連鎖です。

マルチモーダル評価の3つの次元

私たちは本当にマルチモーダルになります。美しくグラフを理解していることを示してください。表の正しい値を特定できることを理解していることを示してください。そして、これを科学文献のテキストに接続できることを示してくださいと言います。彼らはこれを3つの次元で評価しました。

証拠のマッチング:視覚的アンカーがテキストの説明と一致しているか。関連性:取得されたセグメントが実際に主張を裏付けているか。論理:証拠の順序が時系列的および論理的に本当に正しいか。

彼らは美しい相関関数といくつかの新しい数学的マトリックスを持っています。これらすべてが美しいです。研究を自分で読めば詳細を見ることができます。強くお勧めします。しかし、結果だけをお見せします。

彼らは、ここで複数のベンチマークを使用します。まず、質問と答えがあります。モデルは、特定の推論クエリQに対する答えと証拠チェーンを生成します。このプロセスは、生成された根拠とソース基盤との間の厳密な意味的整合性を保証します。

そして、「needle in a haystack」のように、これもあります。彼らは、コアタスクからの有効な出力を証拠ローカリゼーションチャレンジに再定式化しました。グラフにあるのか、表にあるのか、テキストにあるのか、どこにあるのか。サマリーからの特定の主張に対してクエリQを修正することで、評価および制御できる裏付け証拠チェーンの再構築を要求します。

検証タスクとハードネガティブ

次に検証があります。著者たちは、有効なチェーンに対してネガティブサンプリングを適用することで、識別インスタンスを構築します。2種類の問題を導入します。1つ目は不十分な証拠と呼びます。有効な主張を完全に無関係な証拠とペアにすること。2つ目は摂動された証拠と呼びます。有効なチェーンの順序または整合性を混乱させることです。論理的ギャップを監査するAIモデルの能力をテストしたいだけです。

そして最後に要約タスクです。ご存知のように、これはサイト・アズ・ユー・ライト戦略を採用しています。モデルは、各重要な記述が提供された文書内の検証可能な証拠アンカーに明示的にリンクする、全体的な要約を作成します。

単純な評価、単純な検証、要約、論理タスク、素晴らしいです。この美しいシートの書面による要約が必要な場合は、これです。そして、彼らが本当にプロフェッショナルであることをお見せしたいと思います。ここを見てください。質問があり、文書があり、さまざまなベンチマークのためのインターリーブされた証拠チェーンがあります。彼らは本当にここで多くの努力を払いました。

例えば、天体物理学の超新星では、画像や赤外線など、本当にすべてを持っています。彼らは本当にテキストとすべての視覚情報を提供します。私たちのAIシステムは、もはや大規模言語モデルだけでなく、視覚言語モデルでもあると思います。したがって、画像の内容を理解し、これがテキストで提示されている論理と一貫しているかどうかをチェックすることに問題はないはずです。

データセットの対象分野

しかし、このデータセットがどのようなトピックで訓練されたかと尋ねたら、科学だと言いました。そして、ここにあります。12のレベルがあります。天文学、天体物理学、生物学、コンピュータサイエンス、多くのコンピュータサイエンス、地球・環境科学、経済学、金融、工学、純粋数学、医学、健康科学、哲学、物理学、光学、社会科学、統計学、データサイエンス。美しい断面と言えます。

評価結果:各モデルのパフォーマンス

現在の科学的トピックからこれを見たい場合、結果はこちらです。彼らはGemini 3 Pro、Claude Sonnet 4.5、GPT-5のような適切なシステムを提供します。興味深いことに、Gemini 2.5 ProとGrok 4も提供しています。さらに、Qwen 3ビジョン言語8Bのようなオープンウェイト構造のためのCSMベンチマークも提供しています。

次に、アクティブ3Bの30Bを持つMixture of Expertと、20億の自由に訓練可能なパラメータを持つビジョン言語があります。したがって、プロプライエタリな巨大モデルから8B、アクティブ3BのMixture of Expert、そして小さな2Bモデルまでの美しい断面を得ます。彼らはどのように機能するでしょうか。

繰り返しますが、検索、検証、質問と答え、要約タスクがあり、全体的な平均があります。彼らはマッチング、論理、答えの正確性、検証の正確性でこれをテストします。式があり、すべてが研究で詳しく説明されています。深く掘り下げてください。楽しめると思います。しかし、これが最終結果です。

この特定のタスクに対する最良の全体的モデルは、著者によるとGemini 3 Proで、Claude Sonnet 4.5が続き、次にGPT-5です。そして、最後はここでGrok 4です。しかし、ここで56%から49%までの距離も見てください。そして、オープンソースの8Bモデルは45%です。科学的推論で本当にマルチモーダルになった場合のパフォーマンスの感覚がつかめます。

研究の限界

さて、いくつかの限界があります。明確にしましょう。これには限界があり、これを強調しなければなりません。証拠なし、スコアなしは定量的です。モデルは、この人間が最適化したゴールデンな推論チェーンとは異なる、異なる有効な推論パスを見つけるかもしれません。

著者たちはここで意味的マッチングを使用しますが、複雑な科学論文における推論の分散は非常に高いです。特に物理学、理論物理学、天体物理学などに行く場合。明確にさせてください。本当にチャンスがあります。非ゼロのチャンスがあります。有効な代替証明が、人間のゴールデンチェーン証明と同一でないため、ここでゼロとしてスコアリングされる可能性があります。

パーセンテージをお伝えすることはできませんが、これが可能である非常に低い確率があります。しかし、ここで計算コストも見てみましょう。証拠チェーンの評価には、LLM審査員が必要です。彼らはQwen 3ビジョン言語8Bを使用しました。意味的等価性を検証するために。これが完璧なAIモデル8Bでしょうか。おそらくそうではありません。この研究で発見した限界があります。少し塩を加えて受け止めてください。

主要な発見:トレーサビリティギャップ

しかし、主要な新しい洞察は何でしょうか。私たちのモデルにはトレーサビリティギャップがあります。これに対処しなければなりません。つまり、答えの正しさと真の論理的な証拠ベースの根拠との間には、明確な能力ギャップがあります。

例えば、表でGPT-5は質問と答えで最高の生の答えの正確性76%を達成していますが、証拠が必要な場合、他のすべてのテストでGemini 3 Proに遅れをとっています。これは、GPT-5が、私が提示した論文を見ずに答えを推測するために、その巨大で美しい内部知識、つまり事前学習、例えば完全なインターネットに依存していることを意味します。

これが論文で、この論文を分析してほしいと言うとします。それが私の物理理論であったり、私の医療記録であったり、私の財務諸表であったりします。GPT-5は、場合によっては単に内部知識で進み、論文をまったく見ないことがわかります。これはあまり良くありません。なぜなら、私は人間として、私の個別の問題に対する個別の答えが欲しいからです。しかし、もちろんGPT-5は統計的モデルです。

モダリティエンタングルメント

次に、モダリティエンタングルメントがあります。これは絶対に驚くべきことです。アブレーション研究は、データをインターリーブとして提示することを示しています。つまり、テキストと画像がインラインであることです。これは、テキストとキャプション、例えばどこかに図8があるとか、画像がテキストから分離されている、おそらく次のページにあるというのを本当に上回ります。

これは、AIシステムのインテリジェンスにおいて本当に効果があり、驚くべきことです。何かを書きたい場合、AIシステムがそれを評価することを知っているなら、テキストの空間的近接性、因果推論、新しい発見、そしておそらく表と、マルチモーダルな証拠を持つ画像に注意を払ってください。

できるだけ近くに配置してください。これが現在、AIシステムにとって本当に重要だからです。特に深い推論に行く場合。テキストと画像の空間的近接性は、AIシステムの深い推論にとって非常に重要です。これは少し奇妙ですが、これが現実です。

ハードネガティブへの脆弱性

さて、ハードネガティブへの脆弱性があります。これは少し説明できます。検証タスクでは、ハードネガティブを示されると、モデルが急落します。つまり、トピック的に関連している純粋な証拠です。はい、私たちは両方とも数学について話していますが、真の証拠には論理的に不十分です。

視覚言語モデルは、正しく見えるグラフを見て、ここにいて、意味的にはほぼ正しく見えると言うのに苦労します。しかし、これが主張を証明しないと言うことができません。グラフ、表、視覚的表現では正しく見えますが、実際には私の論理的チェーンにはありません。私が設定したことを証明していません。そこで、私たちの視覚言語は本当に問題を抱えます。

正しく見えるものは正しいようだと。これは、AIが内部的に考えるかもしれない解釈の1つです。GPT-5が場合によっては見ずに推測することを見ると、モデルが単純に特定の確率分布を最適化しながら、GPT-5に分析してもらうために提示した文書を効果的に無視していることを意味します。

AIがショートカットを作成する仕組み

何が起こっているかというと、私たちが知っているように、モデルはここで単純にショートカットを作成します。私のデータを無視するだけです。デモをしてみましょう。新しい個人的な文書、例えば私の財務諸表や医療諸表などを提供するとします。そして、GPT-5に尋ねます。私の新しい物理論文で提案された方法は、2019年からの通常のTransformerベースラインを上回りますか。

GPT-5は美しいパターンマッチングマシンです。GPT-5は、例えば完全なインターネットを学習しました。したがって、その内部確率分布は、事前学習されたデータで完璧です。例えば約1年前、おそらく1年半前です。すべてのarXiv論文を読みました。これを知っているはずです。

何百万もの論文の訓練に基づいて、GPT-5は現在、例えば公開された論文の99%が何らかのベースラインを上回ると主張していることを知っています。もちろんです。これが新しい科学的出版物がある理由です。現在の最先端よりも優れています。したがって、GPT-5は、公開された論文の99%がこれを行っていることを知っているため、GPT-5に提供した文書内の特定の表を実際に検証することなく、私に「はい、それはデータを達成しています、上回っています」と答えることができます。

問題ないと言うかもしれません。GPT-5は99%のケースで正しいです。しかし、私はこのサービスにお金を払っているユーザーであり、私の特定の財務表、または私の特定の理論物理学の表、または私の特定の医療表があり、私のデータがあります。そして、99%正しいAIシステムによる結果を得ますが、提供された文書さえ見ていません。わかりません。これは少し最適化できると思います。

記憶化の問題

記憶化。GPT-5が事前学習中に特定の論文を見たことがある場合、例えば1年前の場合、学習した重みテンソル分布から本当に見つければ、コンテキストとして白紙を与えても正しい答えを受け取ることができます。読んでいないからです。学習したことを暗唱しているだけで、うまくいけば正しい順序で得られます。これは本当に強力な要素です。

しかし、白紙を与えて、何かを再現するだけなら、これは検索でできることです。推論はありません。複雑さはありません。インテリジェンスはありません。しかし、特定の論文を見たことがない場合でも、まったく新しい科学論文の場合、GPT-5は他のAIシステムと同様に、その科学的能力に依存します。

もちろん、例えば、アブレーション研究は通常、すべてのarXiv論文のセクション4に表示され、学習率は通常特定の間隔内にあることを知っています。これがデフォルト値です。何が起こっているのでしょうか。GPT-5は単純に空白を埋めます。そうでなければ、私の論文を読まなければなりません。

統計的におそらく幻覚で空白を埋めます。提供したPDF形式から数値を抽出するのではなく。この文章は、これは良いことだと言うかもしれません。GPT-5に空白がある場合、他のすべてのユーザーの99%がこの方法で行く、この推論の道を辿る、統計的に確率の高い幻覚で進みます。したがって、良い指標を与えます。

しかし、私の論文を見ない場合、私の科学的実験データを抽出しない場合、絶対にそうです。科学では、他のすべての実験の99%と同じにならないように実験を行います。新しいものを発見したいのです。新しい薬を見つけたいのです。新しいアルゴリズムを見つけたいのです。革新的なものを見つけたいのです。

科学における深刻な影響

特に科学では、これは非常に傷つきます。なぜなら、私のデータと私の理論が、1年半前にすでに公開されていない新しいものであることを期待しているからです。これが起こる場合、このAIは本当に科学にとって役立つのでしょうか。あなたが決めてください。

そして、著者たちは、このギャップが存在することを明確に示しました。特にSINの質問と答えタスクの結果に行く場合。必要に応じて表に戻ってください。2つのメトリックがあります。答えの正確性があります。これは単純に答えのテキストが正しいかどうかを測定します。

GPT-5のスコアは、お伝えしたように、テストされたモデルの中で最高のパフォーマンスです。ほとんどの場合、答えを正しく取得します。しかし、クエリが統計的平均から答えることができる一般的な質問である場合、これは推論でしょうか。メトリック2があり、これが証拠の根拠です。

証拠根拠の問題:50%の成功率

これは、モデルGPT-5が、AIへの入力として提供した文書内の正しい視覚的またはテキスト的証拠を正常に指摘したかどうかを測定します。私の結果を見て、私のファイルを見て、私の文書を見てくださいと言います。そして、GPT-5のスコアは52に下がります。ちなみに、これはGemini 3 Proよりも低いです。これが、Gemini 3 Proがここから推奨されるモデルである理由です。

しかし、証拠の根拠がある場合に何が起こっているか見てください。つまり、50/50、正直に言うと、これが私たちが達成するものです。発散と呼びましょう。76と52の間のギャップは、ここで時々AI企業が私たちにインテリジェンスとして提示したい幻想を明らかにします。

しかし、この研究の著者が示す事実は、25%のケースで、正しい最終結論を提供しましたが、文書内の証拠を特定することに完全に失敗したということです。統計的に正しい推論された答えを与えただけで、このAIシステムに提示した文書とは何の関係もありません。

結論:AIにはまだ長い道のりがある

そこで私たちはいます。さて、私の最後のビデオで、AIの亀裂が広がっています。これは、AIがまだそこにないことを示す別の研究だと思います。AIを本当にインテリジェントシステムと呼ぶには、まだ長い道のりがあります。

そして、私が期待していたこのChain of Thoughtは、内部プローブのようなもので、「Chain of Thoughtを見せて。推論の連鎖を見せて。すべての推論ステップを見せて」と尋ねることができます。これは単なる幻想です。AIシステムがこれを持っている場合に生成するものです。なぜなら、これが本当にこのブラックボックスAIに照らすことができる懐中電灯であることを期待していたからです。

判明したところ、いいえ、AIによって高度に操作された結果を受け取るだけです。さて、楽しんでいただけたことを願います。これが今日のビデオです。おそらく、特に科学的環境でAIシステムを使用した経験からの洞察もあるでしょう。文書をAIに提示したときに、統計的結果を結果としてフィードバックされたくない場合です。

とにかく、購読してください。いいねを残してください。私のチャンネルのメンバーになってください。しかし、とにかく、次のビデオでお会いできることを願っています。