RAGの崩壊知識の衝突がある状況下での推論

RAGシステムや文脈内学習を通じて最新情報を提供しても、大規模言語モデルは必ずしもその新しい知識を多段階の推論チェーンに統合できないことが明らかになった。スイス連邦工科大学ローザンヌ校とストーニーブルック大学の最新研究は、LLMが新しい外部情報と事前学習されたパラメトリック知識との間に矛盾が生じた場合、推論に失敗するか、更新情報を完全に無視する傾向があることを実証している。特にコードや数学のような手続き的知識の更新においてRAGは極めて脆弱であり、宣言的知識の更新と比較して大きな性能差が存在する。この研究はRAGの限界を浮き彫りにし、重要なミッションクリティカルな更新にはファインチューニングなどの代替手法が必要である可能性を示唆している。

RAG Collapses: Reasoning w/ Conflicting Knowledge

RAG incorporates a hidden danger that most developers are currently falling into.All rights w/ authors: "Tracking the Li...

RAGシステムにおける知識更新の落とし穴
RAGが抱える根本的な問題
長年の誤った仮定
RAG成功物語の幻想
バックファイア効果の発見
知識プロービングと知識注入
評価指標の詳細
驚くべき実験結果
思考連鎖による逆効果
さらなる洞察と実践的な意味

RAGシステムにおける知識更新の落とし穴

皆さん、こんにちは。コミュニティの皆さん、戻ってきてくださって本当にありがとうございます。はい、まだ風邪をひいていますが、今日のRAGに関する動画を始めましょう。私たちのチャンネルで新しい発見がありました。さっそく始めましょう。

では、ローカルのLLMに最近の更新情報を伝えるとしましょう。こう言うんです。ねえ、現在のイギリスの首相はもはやスナク氏ではありません。キア・スターマー氏ですよ、と。ええ、私はこの新しい事実がプロンプトから、RAGから、コンテキスト学習から、APIコール、データベース、何でもいいですが、そこから来たものとして受け入れます。

しかし、すぐに質問するとどうなるでしょう。では、現在の首相の配偶者はどこで生まれましたか、と。LLMは自信を持ってここで答えることができます。しかしその答えはキア・スターマー氏の妻ではなく、リシ・スナク氏の妻に基づいているのです。ご覧のように、何かが起こっていて、ここで推論プロセスが壊れているんです。

つまり、LLMはプロンプトで提供された孤立した事実をここで正常に思い出すことはできました。しかし、その新しい知識を多段階の推論チェーンに伝播させることには完全に失敗したのです。

RAGが抱える根本的な問題

これは何を意味するのでしょうか。RAGシステムができること、LLMができることとして、私が考えていたのはこうです。もし私がここでこの人物の名前と家族全員を新しい名前に置き換えたら、LLMは自動的に新しい家族のメンバーも今や正しい答えの対象になると理解するだろう、と。

ところが違うんです。そうではないことが判明しました。確かにここでは一番上の名前を交換しました。しかしLLMは依然としてここで古い家族のメンバーを参照しているんです。古い推論とパラメトリック知識を参照しているんです。

これが意味するのは、RAGはこのLLMに与えられているパラメトリック知識を上書きすることができないということです。そしてここに論文があります。2026年1月21日付けです。これはスイス連邦工科大学ローザンヌ校とストーニーブルック大学からのもので、知識伝播の限界を追跡しています。LLMが知識の衝突がある状況下で多段階推論にどのように失敗するかについてです。

見ていきましょう。彼らは、LLMに新しい情報を提供した場合、それがAIシステムの推論と知識の衝突を厳密に測定するための新しい関係フレームワークを構築しました。AIに新しい情報を提供すると、それは事前学習されたパラメトリック知識と衝突することになります。

そして著者たちは私たちに言います。あのですね、私たちは新しいベンチマークを構築しました。本当に興味深いですよ。これから詳しく見ていきますが、ウィキペディア、コード、数学からの多様なデータセットでこれを行いました。現実的な多事実の衝突を特徴としたいと思っており、私たちのLLMがどのように応答するかを見たいんです。

長年の誤った仮定

私たちAI科学者は長い間、古くなったパラメトリック知識にパッチを当てるためにRAGに頼ってきました。そして私は仮定していました。正しい事実をコンテキストウィンドウに入れれば、モデルは単純にそれを使用するだろう、と。

さて、このプレプリントはここで新しいベンチマークを導入し、この仮定が間違っていることを証明しています。つまり、新しい外部情報がLLMの内部的またはパラメトリック知識と衝突した場合、LLMは頻繁にこの新しい知識を複雑な推論に統合することに失敗し、しばしば彼らが推論失敗と呼ぶものに苦しむことを実証しているんです。つまり、間違った理由で正しく答えるか、あるいは単に更新を完全に無視するということです。

これは私たちが人工知能システムに期待することではありません。さて、ここにもご覧のとおり2025年9月にストーニーブルック大学とシカゴ大学からの論文もありました。彼らはすでにここで、誤情報がLLMに何をするかを探求していたんです。

つまり、LLMに接続して、このLLMが提供するものに同意しないとしましょう。ユーザーとしてコンテキストウィンドウでそれを上書きできるでしょうか。一般的に、上書きされた情報でも推論するのでしょうか、それともしないのでしょうか。

LLMには内部的な衝突があり、大規模言語モデルには未知のエラー伝播があります。どちらが勝つのでしょうか。事前学習されたモデルでしょうか、それともRAGが提供する新しいデータでしょうか。

彼らは言います。聞いてください、これはエージェント的AIとすべてのRAGシステムの信頼性における真の重大なボトルネックです。なぜなら、これが失敗すれば、推論に問題が生じるからです。

RAG成功物語の幻想

では、RAG成功物語の幻想について話しましょう。もちろん、これは私たちの評価手順に戻ります。グローバル企業によってここで導入されたコアベンチマークは、しばしば単純な事実、つまり事実の想起を測定します。首相は誰ですか、と。そしてそこで止まります。

しかし、このプレプリントはさらに一歩進んで、AIモデルが想起テストを見事に通過できることを示しています。しかし、この事実の想起に依存する下流の推論では完全に失敗するんです。

だから今日、私は何か新しいことを学びました。もし今、新しいAPIを使用したコーディングのためのエージェントや、更新された規制を使用した財務分析のためのエージェントを構築しているなら、単に検索するだけでは不十分です。モデルがそれらの更新を論理的に伝播させ、それらの更新について推論できなければ。

新しい数値的事実を与えただけで、RAG入力が消化されて新しい推論手順に統合されなければ、このシステムは依然として古いパラメトリック知識で議論し推論することになります。

バックファイア効果の発見

著者たちは、彼らがバックファイア効果と呼ぶものを発見しました。これはちょっと面白いですよね。彼らは、更新された事実を提供することが、クローズドブックのベースライン性能と比較して、AIモデルの性能を悪化させることさえあることを発見したんです。

つまり、より正しい事実、より更新された事実をLLMに提供すればするほど、このLLMをより混乱させる可能性があるということです。なぜなら、検索された事実の数が増加すると、知識集約の範囲として、AIモデルは今しばしば混乱し、実際には自分自身の推論能力の劣化につながるからです。

つまり、あまりにも多くの新しいデータを更新すると、AIは完全に失敗する可能性があります。さて、著者たちは私が言ったように、ここで新しいフレームワークを提案しています。検索された事実のセット、つまり新しいコンテキストがLLMのパラメトリック知識と衝突したとき、LLMがどのように振る舞うかを評価するためのものです。このパラメトリック知識は、OpenAIやxAIなどで事前学習されたものです。

知識プロービングと知識注入

さて、著者たちには非常にシンプルな2つのステージがあります。知識プロービングと知識注入です。最初のものを見てみましょう。システムは、モデルが知っていると考えていることと知らないことを正確に特定します。複雑な質問に対して、システムはそれを原子的事実のセットに分解し、各原子的事実についてシステムはモデルに問い合わせます。これだけです。

それから知識注入があります。ここにクローズドブックがあります。つまり、モデルはパラメトリックメモリのみに依存してクエリに答えます。そしてオープンブックテストがあります。つまり、AIモデルは、知識ギャップから導き出された正しい事実を含むコンテキストを持つ状態で答えます。

さあ、質問は何でしょうか。私たちのLLMは、この新しいコンテキストCを利用して、複数ホップの推論にわたってパラメトリックデータを上書きできるでしょうか。単一の事実の上書き、名前の上書きだけでなく、より深く層に、トランスフォーマー層に浸透し、本当にここで新しい推論プロセスに火をつけることができるでしょうか。それとも失敗するでしょうか。RAGは失敗するでしょうか。

彼らはここでもいくつかのビジュアルを提供しています。フェーズ1の知識プロービング、フェーズ2の知識注入、そしてウィキペディア、コード、数学のベンチマークデータで集中的なテストを行いました。結果は本当に興味深いと思います。

評価指標の詳細

さて、彼らにはいくつかの指標が必要でした。まず、アンサーパスがあります。これは標準的な精度指標です。モデルは最終的な答えを正しく得たでしょうか。

次に、忠実度指標があります。モデルは推論チェーンで提供された事実を使用したでしょうか。それとも単に幻覚を見たり、正しい答えを推測しただけでしょうか。

そして、ホリスティックポーズHP、このプレプリントによって導入されたゴールドスタンダード指標があります。モデルは、正しい答えを得て、かつコンテキスト学習やRAGシステムを通じて提供された新しい知識を忠実に使用した場合にのみ、ここでポイントを獲得します。

驚くべき実験結果

さて、彼らはここで美しくすべての性能データを持っています。ここでお見せしているのは、Qwen2.5の1.7Bモデル、Qwen2.5の4Bモデル、Qwen2.5の8Bモデルです。ホリスティックパスがあり、アンサーパスがあり、そして完全な知識含意の結果があります。これらはウィキペディア、コード、数学についてのものです。

さあ、これを始めましょう。これはHPが示しているのは、特にQwen2.5が宣言的知識のパッチ適用に非常に優れているということです。つまり、コンテキストでは王様は今やチャールズです。ご覧ください、ベースモデルは4.5ですが、追加することで83.6に跳ね上がります。本当に素晴らしいですね。

しかし、今度はコードを見てください。17.4から18.3に跳ね上がっています。これは手続き的知識のパッチ適用において本当にひどいんです。たとえば、appendの代わりにconcatを使う、あるいは何でもいいですが。

宣言的知識のパッチ適用と手続き的知識のパッチ適用の間には大きな違いがあります。もちろん、両方とも単にLLMが訓練されたパターンに過ぎないことは理解できます。

でも、コードをさらに見てください。つまり、正しいコード構文がコンテキストウィンドウにあっても、古い構文に関する内部的な訓練の方が外部の指示を圧倒してしまうんです。これは知っておくと興味深いことです。

思考連鎖による逆効果

さて、私が言ったもう一つの効果、バックファイア効果です。では、思考連鎖を持つモデルを使用すればいいと思うかもしれません。ええ、appendがあって、ここに思考連鎖のappendがあります。

これを見てください。83.6から64.4にパフォーマンスが落ちています。なぜなら、小さなモデルが思考連鎖で、RAGやコンテキスト学習によってここで提供された新しい要因について考える時間を与えられたとき、この小さなAIのパフォーマンスは崩壊したからです。

プレプリントが示唆しているのは、これはAIモデルが単純な事実の更新を監視し、幻覚につながったためだということです。モデルは、強力な内部メモリであるパラメトリック知識と、RAGを介して提供された外部データとの間の衝突によって完全に混乱してしまったんです。

だから今、私たちはRAGが完全に失敗している場所を理解し始めています。

さらなる洞察と実践的な意味

さらなる洞察は何でしょうか。著者たちは、知識の衝突が知識伝播を破壊すること、そして標準的なRAGモデルがコードや数学を含む深い推論タスクには不十分であることを証明しています。

これは非常に興味深い洞察ですが、これが意味するのは、ミッションクリティカルな更新、たとえばコードエージェントを新しいフレームワークに更新するとか、基礎となる法律の変更、たとえば金融のコンテキストでの場合、コンテキスト学習やインコンテキスト学習は絶対に脆弱であり、新しい知識をLLMに更新するために使用すべき方法論ではないかもしれないということです。

おそらく、根本的な信念の更新には、純粋にRAGに依存するのではなく、ターゲットを絞ったファインチューニングを試みるべきでしょう。RAG対手続き的知識について話していたことを覚えていますか。

幸いなことに、私の過去2、3本の動画でお見せしたように、ここで継続学習と教師あり微調整のボトルネックを解決する方法を示しました。私たちには壊滅的忘却という問題があります。

また、私たちには新しいAIのポストトレーニングがあります。そこでは、適応された教師あり微調整への直交ベクトルとして強化学習を追加するだけです。ご覧のとおり、AI研究コミュニティもすでにこれを探求しています。おそらくRAGがどこで失敗するかについてのこの詳細な知識を持っていなかったかもしれませんが、私たちはすでにここで新しいAIモデル、新しいAIアーキテクチャ、RAGとコンテキスト学習のための新しいAIアルゴリズムの方向に進んでいるんです。

したがって、今まで、私たちはRAGで何がうまくいっていないのか、そしてなぜ時々あなたの数学、あなたのコード、あるいは単にあなたのテキストの演習が現在のAIシステムでうまくいかないのかを理解しています。何か新しい情報があったことを願っています。少し楽しんでいただけたかもしれません。次の動画でお会いできたら素晴らしいですね。