長文文脈推論:RAGとICLが失敗する理由

RAG
この記事は約17分で読めます。

この動画は「Needle in a Haystack」テストの根本的な問題点を暴露し、現在の大規模言語モデルが長文文脈での真の推論能力を持たないことを明らかにする新研究「Needle Chain」について解説している。従来のテストは単一の事実検索に過ぎず、複数の情報を論理的に組み合わせる推論タスクでは、最先端のGPT-4 Omniでさえ20個の関連事実で60%、50個では20%まで性能が低下することが判明した。この発見はRAGシステムや長文文脈処理の限界を示し、現在のLLMアーキテクチャの構造的制約を浮き彫りにしている。

Long Context Reasoning: Why RAG & ICL Fail
Needle-in-a-haystack served for a long time as a tool to show the performance of the long context window of LLMs (eg 128...

「干し草の中の針」テストの真実

はい皆さん、また戻ってきてくれてありがとうございます。「干し草の中の針」のこと覚えてはりますやろ。LLMの推論のための長い文脈ウィンドウのことや。ここでTPD4が128,000トークンのウィンドウを持ってて、干し草の中の針やったんや。いや、でもな、わしは細かい注意書きを読んでへんかったんや。なぜなら、その注意書きは完全に正しかったからや。

そこには「ある事実が文書内に配置され、その後検索される」って書いてあったんや。単一の事実、推論については何も書いてない、何かを組み合わせることについても何も書いてない。単一のデータポイントが128,000トークンの文字列の中で見つかったっちゅうことや。つまりな、CtrlF機能が動くっちゅうことや。これがあって、特定の部分文字列を見つけるだけやったら動くんや。

これが「干し草の中の針」やったんや。わしはこれを推論ウィンドウやと誤解してたんや。今見てみたら驚きやで、干し草の中の針のパフォーマンスを見ると、今日のどのモデルも100%なんや。どこへ行こうが何をしようが、小さかろうが大きかろうが巨大やろうが、小さなオープンソースやろうが制限されてようが、100%や。そして完璧なんや。全てが完璧や。

つまりLlama 4やったら、いや、もしLlama 4を1000万トークンの文脈長ウィンドウで使ったら、絶対に完璧やで。いや、そしてわしらはこれを全てのRAGシステムで使ってるんや。例えば、どこかの文書サーバーに500個の文書があるとしよう。そんでわしは待てよ、これは100%で単一の事実しか検索できへんっちゅうことなんかって思ったんや。そうや、そういうことなんや。

新しい研究「Needle Chain」の衝撃的発見

そして、これがわしが皆さんに見せたい新しい研究や。目を開いてもらいたいんや、なぜならわしは目を閉じてたからや。長文文脈推論や。わしらのLLMの長文文脈推論に必要なもの、LLMの文脈長が128K、256K、100万とかの時に、RAGベースの検索みたいに他のソースから追加の外部情報を検索して、わしらのLLMがこの追加情報を全部フィードバックして統合できるんやけど、知ってるか、「干し草の中の針」っちゅうのは、

干し草の中の針ベンチマークは、LLMの長文文脈理解能力を評価するための著名なツールやったんや。判明したんは、これはマーケティングやったっちゅうことや。単一の事実以上のことは理解してへんかったんや。今、これはLLMがどれだけ効果的に特定のクエリ関連情報、つまり針を、はるかに大きなテキストの本体、わしらが干し草の山と呼ぶもので、しばしば関係ない気を散らすコンテンツを含んでるもんの中で見つけることができるかを評価してるんや。

もちろん、500個の文書があって特定のクエリがある場合、SQLのクエリに関連する情報はごくわずかしかないやろ。そして、わしは「なんでLLMの有効文脈長が不足するんや」とか「長文文脈推論でLLMの限界をテストする」っちゅう出版物を見たことがあるんや。そして、ここで突然推論が出てきて、失敗するって言われるんや。

2024年10月、それらの研究がわしに「おい、これは失敗するで」って教えてくれたんや。2024年11月、また「失敗する」って言われたんや。そやけどわしは無視して、まだ文脈推論があるって信じてたんや。そやから、この古いパラダイム「干し草の中の針」をもっと詳しく見てみよう。

500ページの本があるとしよう、企業会議の簡単なやつや、全ての記録、全部や。そんでクエリがある「プロジェクト・フェニックスの予算の正確なドル金額を見つけろ」や。

今、この新しい研究の後で、わしはこれが一種の宝探しゲームに過ぎへんことを理解したんや。なぜなら、これは情報検索についてやからや。LLMは膨大なノイズの中で非常に特定の孤立した単一の効果を見つけることができるんか?モデルの注意メカニズムは長距離でも持ちこたえるんか?そして、他の全ての関係ない情報、干し草の山を無視して、クエリ関連の針、この小さな情報の断片にだけ集中できるんか?

そして見てみると、コードで言えば、500ブロックの完全に関係ない情報のブロックがあるんや。そんで針がここに隠されてるんや。そしてその針は正確に「プロジェクト・フェニックスの予算は120万やった」なんや。ここに人間の質問があって、ここに針がある。これがテストやったんや。そして何やと思う?プロジェクト・フェニックスの特定の文字列を見つける文字列検索操作は100%やったし、今も100%や。

そしてわしの間違いは、これを推論やと見たことやったんや。いや、これは文字列の中の部分文字列を見つけるだけや。NIAの完璧なスコアは、全てのモデルが単一のデータポイント、単一の情報を見つけることができることを証明してるんや。LLMが複数のソースからの情報を理解したり、合成したりできることを証明するもんやない。

SQLサーバーに2冊の本があって新しい結論に到達するとしよう。これは、巨大なレゴのピースの箱の中から単一の青いレゴブロックを見つけることと、実際にレゴブロックで宇宙船を作る指示に従うことの違いなんや。もし干し草の中の推論について同じ誤解を持ってたなら、新しいモデル「ニードルチェーン」を見てみよう。

ニードルチェーンによる真の推論テスト

これが今、本当の文脈推論のテストや。ニードルチェーンの著者らは、現実世界のタスクはしばしば単なる宝探しやないって言うてるんや。1つの情報を探すんやなくて、複数の部分を組み立てなあかんのや。重要な部分が因果推論のために正しい順序で接続されなあかんのや。そやから、これは合成と論理のテストになるんや。特にマルチエージェントシステムでは、もう干し草の中の針ではLLMには全く無駄やで。

そやから彼らは言ったんや「わしらの新しいテストには2種類の文が必要や」。まず最初は独立した針や。これがアンカー事実や。単独で成り立つ唯一の情報や。文は「エリスは基本給1,000ドルを受け取った」や。依存関係なし、何もなし。2番目のタイプの文は依存した食事や。そやから「ボブはアリスの2倍稼ぐ」がある。

そんでもう1つ必要で「チャーリーはボブより500ドル少なく稼ぐ」って言うやつや。そやから、この2つの間でボブがわしらのポインターやっちゅうのが分かるやろ。それ自体では役に立たず、他の針との関係でのみ意味を持つんや。そして今、彼らは言うたんや「今、干し草の中の単一の針を見つけるんやなくて、干し草の山の中の針の連鎖を見つけるんや」

わしらには何千何万もの針があって、今度は正しい針の連鎖を見つけなあかんのや。そして今、わしらは推論について話してるんや。彼らはさらに、3つの動作モードが必要やって言うた。前方連鎖がある。これは簡単や。これは推論に必要な論理ステップとして、わしらが話すのと全く同じ順序や。

エリスは基本給1,000ドルを受け取った。ボブはアリスの2倍稼ぐ。彼はアリスへのポインターを持ってて、チャーリーはボブより500ドル少なく稼ぐ、そしてボブのポインター。素晴らしい、これは解けるで。これは因果推論問題や。LLMが情報を左から右に処理する最も自然な方法や。基本的な順次推論で、推論順序は1、2、3で、言語的意味論、テキスト順序と完全に一致してるんや。

今度は推測したやろ、後方連鎖は全く逆や。わしらは戻るんや。そして3番目は、そう、後方連鎖や。理解したやろ。今度はチャーリーについて最初に読むんやけど、この情報では何もできへん。そやから、エージェントとして作業メモリにこの特定の単一効果を保持しなあかんのや。そんでボブについて読んで、それも保持する。2つの情報を関連付けることはできへん。そして、システムがアリスについての最後の文に到達した時だけ、他の2つのポインターが見え始めて、作業メモリに保存された情報が意味を持つようになるんや。

そんで論理を後戻りして、解決に到達するための有効な論理連鎖をここで見つけなあかんのや。そやから、この後方連鎖はかなりの挑戦やで。そしてもちろん混合連鎖、そう推測した通り、全てがランダムな順序で、全てがメモリにある。これはどのLLMにとっても楽しいもんや。そして君は言うかもしれん「オーケー、そやから、もし今、干し草の中の針が単なる操作やったって理解するなら」。「単一の効果を見つけろ、終了」って、完全なSQLデータベースやnoSQLデータベース、または企業会議の文書サーバーで。

衝撃的な性能低下の実態

今、このニードルチェーンは、大きな文脈ウィンドウがLLMには十分やないし、エージェントにも十分やないって教えてくれるんや。なぜなら、それはそのウィンドウ内の認知能力を測定してるだけやからや。そして新しいプレプリントの衝撃的な結果は、GB4 Omniのような最先端のLLMでも、巨大な文脈ウィンドウを持ってて、100万やなくて128Kで行こう、Geminiと一緒に、わしが今示したニードルチェーンのような組み立て指示を実行する能力が、わずか20個の関連事実で破綻するっちゅうことや。

そやから、もしわしがRAGで見つけなあかん20個の事実の論理連鎖があって、その20個の事実のうち10個が既に文献にあるとしよう。最終的にはここで「これはこのインターネットページから抽出された」とか「この文書から抽出された」って見たいんや。そんで会社があって、収益を見たいんや。収益報告書があって、年があって、四半期結果があって、利益があって、20個の関連事実がすぐに存在してるんや。

そして知ってるか、システムが破綻するんや。そして君は「オーケー、君の20個の関連事実は文字列として長すぎる」って言うやろ。彼らは文字列が0.2K、2Kトークン未満でも破綻することを示してるんや。そやから、これが今、わしが2年前に干し草の中の針が始まった時に欲しかった本当のグラフや。

これが今、干し草の山の中の針のパフォーマンスや。これは推論についてで、Kがわしらの論理順次連鎖に必要な針の数やっちゅうのが分かるやろ。もし標準的なRAGで抽出したい10個の事実があるなら、5個は文献で、5個は何でもええから、100%から90%に下がるんや。

もし正しい論理的因果推論順序で見つけたい20個の針があるなら、60%のパフォーマンスまで下がるんや。そしてもしあえて深い研究に深く踏み込んで、25個の文献があったり、会社の10個の異なる章、人事、財務、見通し、技術、何でもがあったりするなら、

そしたらパフォーマンスは20%未満に破綻するんや。そやから、これが推論のための干し草の山の中の針があるなら、はるかに現実的な絵やで。そしてこれが今日の論文や。わしは2025年7月30日に見つけたことをとても誇りに思ってるんや。韓国大学、絶対に美しい。両著者に感謝するで。ニードルチェーン:LLMの無傷の長文文脈推論能力の測定。

そう、彼らは前方連鎖、後方連鎖、混合連鎖を示してくれてるんや。分かったやろ。そして結果、結果はとても美しい。わしは既にグラフで示したし、今テーブルでも持ってるんや。そやから、下半分を見てみよう。QN 2.5 32Bがある。Llama 3 370Bがある。そして巨大なクローズドGBD4 omniがある。

干し草の中の針で行くなら、全て100%や。いつも100%、またはここでは99.5%だけやけど、素晴らしい、完璧や。因果推論については何も教えてくれへん。これは「文字列で部分文字列を見つける」機能が動いてるかどうかを教えてくれるだけや。

でも今ニードルチェーンに行くと、ここで後方連鎖があるのが見えるやろ。エージェントのメモリがアクティブである必要があるところで、Llama 370Bで行くと、見つけなあかん50個の異なる針があって、その50個の針の間に因果推論がある場合、わしらは31%しか持ってへん。そしてGPT4 Omniで行くと、わしが2、3ヶ月前まで標準モデルとして使ってたやつやけど、20%のパフォーマンスまで落ちるんや。

そやから、もし標準的なD設定で何かを見つけるためにJub4 Omniを使うなら、君のパフォーマンスは君が思ってたような100%やない。君のパフォーマンスは20%まで下がってるんや。そしてもしあえてもっと複雑にするなら、K=100で、7%まで下がって、そんでGPD4 Omniで200個の針まであえて行くなら、君のパフォーマンスはほぼゼロに近いんや。

素晴らしい。でもこれがより現実的な絵や。なぜなら、干し草の中の針テストによって作られた完璧な長文文脈能力の錯覚を本当に解体してるからや。彼らは単一の事実をどう見つけるかをテストして、干し草の中の針の細かい注意書きで絶対に正しかったんや。でもこれは今、わしらの最も進歩したLLMでも推論能力に深刻な方向性の欠陥があることを明らかにしてるんや。

エラーの性質と分析

そう、わしらはこの間違いの性質は何なんかって聞くかもしれん。間違いの特徴を深く掘り下げることができるんか?モデルは単に数学を間違って実行したんか、それともLLMがパズルのピースを忘れただけなんか、それとも指示に従うのに失敗して、人間のクエリからの指示を無視したんか?

ここにあるで。赤で指示に従わない。LLMはわしらが言ったことを無視しただけや。青で針の省略。これはモデルが1つ以上の針、推論の論理ステップを見逃したっちゅうことや。そして計算エラーは単に数学が間違ってるっちゅうことや。

今これを見てみい。ここでいつも、GPDを見てみよう。最初に前方パスがあって、後方パスがあって、混合パスがある。この全ての違いが見えるか?これは絶対的やないことを覚えといて。これは特定の失敗率と特定のモードでの失敗の構成についてだけや。そやから、ここでGPD4前方を見ると、1、2、3の通常の順序で、ここで主要な矢印バーを見ると、71%が針の省略や。

推論プロセスで1つか2つの論理ステップを見逃しただけや。そして50個のニールで、論理を見逃すことで既に31%を達成してるんや。後方はもっと美しい。信じられへん。でもここで興味深いことに、後方では指示に従わないのがほとんどないんや。見てみい、これはここだけで針の省略や。興味深いことに、でも完全にひっくり返るんや。

混合に行くと、ここの40%が今度は指示に従わないになるんや。そやから、これは何を教えてくれるんか?これは、タスクの複雑さがLLM GP4の能力を超えるモデルの破綻点やっちゅうことを教えてくれるんや。タスクを解決するための一貫した戦略を定式化できへんのや。もしRAGがあって、「SQLデータベースや他の何かへのアクセスを与えられてるから、わしのクエリのための正しい情報を見つけてくれ」って言うなら。

なんて美しいんやろ。わしらは今、それがどこで起こるかを知ってるんや。そして、もっと情報があるで。自分で見てください。これは美しい研究や。そして、ここでの失敗の移行は、LLMで期待する単純な算術エラー、数学エラーから始まるんや。なぜなら、LLMは表計算機やないからや。

そんで、エラーの伝播で破滅的なメモリの欠落に移行するんや。そして最終段階は、複雑なカード問題で人間のタスクを本当に放棄して、システムが破綻するんや。彼らはもう1つの素晴らしいアイデアを持ってたんや。この研究の著者らは、推論プロセスがどのように、どこで破綻するかの診断マップを作ったんや。

そして君は言うかもしれん「なんで覚えてるんや、2年前に真ん中の問題があって、数ヶ月間話題になって、それから消えたんや」。彼らは今それを解決できるんや。データを見てみい。また、QN 2.5、Llama 370B、巨大なGPD4 omniや。左側には文脈の頭から文脈の尻尾への提示順序がある。

そやから、これは位置やとしよう。右側には論理の頭と論理の尻尾がある。そやから、これはLLMが構築して生成する論理推論順序やとしよう。そして、0%のパフォーマンスは赤で、100%のパフォーマンスは緑や。なんて偶然や。そして、ここで何か興味深いことが起こってるのが見えるやろ。

そしてもちろん、異なる行で前方、後方、混合があるんや。以前、LLMは長い文脈プロンプトの物理的な真ん中に置かれた情報を忘れる傾向があったんや。トークンを計算して、このトークンの真ん中で、そこの情報は単純にLRMによって無視されてたんや。

そして今、著者らは複雑な推論についてこれを見ると、これは全体の話やないって主張してるんや。そしてわしはこれを興味深いと思ったんや。なぜなら、彼らは「見てみい、論理の頭と論理の尻尾をわしらの推論順序で見ると」って言うたからや。「わしらが見つけたのは、モデルが文脈の真ん中で迷子になってるだけやないっちゅうことや」

「論理的議論の道筋と論理の順序、因果推論の真ん中でも迷子になってるんや」。モデルは因果順序の開始から終了までをつなぐ論理的なリンクを忘れるんや。少し見えるやろ。始まりの論理の頭は緑や。終わりの論理の尻尾も緑や。そして真ん中でますます赤が見えるやろ。ここでも、ますます赤が見える。オーケー、GD4は単に赤や。つまり、オーケーやけど、興味深いことにLlama 70Bでは、比較的きれいに見えるやろ。

これを見ると、そう、これは始まりで緑かもしれん、これは終わりで緑かもしれん、そして真ん中では全てが因果推論の議論としてLLMによって多かれ少なかれ無視されてるんや。絶対に魅力的や。時々、説明を見つけるのに2、3年かかるんや。論文を読んで、何も期待してへん時に、突然目が開かれるんや。

推論モデルでも失敗する現実

そしてわしは君が何を言うか知ってる。君は「ちょっと待てよ」って言うやろ。君は「ちょっと待てよ。モデルを見てみい」って言うやろ。そしてわしはモデルを見て「これはQ 2.5や」って言うんや。いや、これは非推論パスや。君は「これは古いLlama 3や。これは非推論や」って言うかもしれん。「ch4 Omniは03や01のOモデルやない。これは非推論モデルや」って。そして君は「この新しい研究で非推論モデルだけを見せたやろ」って言うかもしれん。そして君は正しい。

そして君は「あのな、もしそれらが非推論モデルやったら、これは推論LLM、大規模推論モデルでは起こらへんやろ。なぜなら、今それらのモデルは最新のO3で1時間まで推論するのに15分から30分かかるからや。そやから、これらのモデルは今、逆論理順序を通過して順序立てる時間があるんや。なぜなら、わしらは知能やからや」って言うやろ。

「わしらは超知能に近いんや。そやから君はこれがohで起こらへんって教えてくれるやろ」って。そやから推論モデルのパフォーマンスを見てみよう。そして調べられた順序では、推論モデルも見てみい。QN3 32BをK=50で、針の順序長が0.5Kの総長で見てみい。100万トークン長や50万トークン長のLLMにとって、これが複雑すぎるなんて言わんといて。システムのパフォーマンスは13%まで下がるんや。

19%まで落ちるんや。そして最良の場合、QN3で、ついにQN3 32Bが少なくとも24%の精度を達成するんや。これはひどい。推論モデルは完全に失敗するんや。もし20個の針があるなら、彼らは少し良いんや。少なくとも53%や76%や88%やからな。そう、彼らはパフォーマンスを維持しようとするんやけど、少し複雑さを増やして、少し深い研究をすると、13%まで下がるんや。

でも、ここで括弧内にもう1つの数字があるのが見えるやろ。そして君は「それは何や?」って言うかもしれん。わしはそれが好きや。見てみい。QWQ32Bを見てみよう。19%の精度やけど、彼らは回答のトークン数も教えてくれるんや。7,938、これは8,000トークンに近い、これがLLMの論証の回答やったんや。

なんで?これが正しい回答やからや。つまり、81%の時間で間違った回答を得るために、QW32B、そしてこれはこのモデルに特有やない。これは他のかなりの数のモデルで起こるんや。平均して約8,000トークンの回答長の推論を書いたんや。これが正しい回答やって。8,000トークンはページとページとページのテキストや。

そやから、もしLLMが極端に詳細な説明で戻ってきたら、何やと思う?もしわしの最後のビデオを見たなら、知能は鍵やないっちゅうことが分かるやろ。なんて偶然やろ。わしの最後のビデオでは、LLMの修正利得と過剰同期損失について話したんや。

そしてわしは、推論のために今修正してる別の研究をここで見せたんや。推論プロセスで修正して、より良い推論率を達成するんやけど、同時にこの追加推論で発生するコストもあるんや。わしらの小さなLRMによってタイプ1思考プロセスで最初に正しく回答された全質問の分数が、今度は高度な推論プロセスで欠陥のある推論プロセスによって不正確な回答に堕落してるんや。

そしてわしはこのビデオで、これが小さな言語モデルが修正利得に比例しない非常に悪い推論パフォーマンスを持つ理由を説明してるって言ったんや。これがSLMで起こってる失敗なんや。これがこの研究のこのデータポイントの説明なんや。著者らはお互いのことを全く知らへんかった。でも、異なる研究から実験的事実への説明を発見するのは美しいと思わんか?

そやから警告として、8,000トークンの回答を得たと思うなら、わしはモデルがわしがほとんど信じられへんほど自信を持って間違ってることを教えることができるで。テキストの量だけで、これがAIによる深い思考プロセスやっちゅう錯覚を与えるんや。でもこの表は、これが完全に迷子になったモデルの症状に過ぎんことを示してるんや。これはその知能のしるしやない。これは全ての推論への文脈を失ったっちゅうしるしなんや。

構造的限界と解決策への道筋

そやから、そこにあるんや。今日の研究は、この新しいテスト「ニードルチェーン」によって暴露された脆弱性をわしらに示してくれるんや。そしてわしはそれが好きや。これがわしらのLLMにとってLLM自体の深いアーキテクチャ限界やっちゅうことを示してるんや。単なるチューニングの問題やない。なぜなら、多くのモデルが32Kや128Kの短いシーケンスで訓練されて、その後チューニングでLlama 4の100万や1000万に膨らませられるからや。

この研究は、これはチューニングの問題やないって教えてくれるんや。これは君のLLMの正しい深いアーキテクチャ構成の深い特徴なんや。わしは事前訓練だけやと推測するで。なんてことや。

そやから、最終的に「干し草の中の針」へのわしの壊れた理解への解決策がここにあるんや。そして今日、今日発表されたこの研究を読んだ後で、わしはこの新しいテスト「ニードルチェーン」を理解したんや。それは動作についてはるかに深い洞察を提供してくれて、わしが注意しなあかんことと、わしらの正しいモデル、わしらのコンテンツモデルの欠陥を示してくれるんや。推論や非推論モデルで行こうが関係なく、長文文脈推論は単に動かへん。これは錯覚なんや。

ビデオを楽しんでもらえたら嬉しいで。もしかしたら購読してくれて、次のビデオで会えるかもしれんな。

コメント

タイトルとURLをコピーしました