RAG 3.0における強化学習：自己学習AIエージェントの推論（清華大学）

この動画では、RAG（Retrieval-Augmented Generation）と強化学習を組み合わせた新しいフレームワーク「RAG 3.0」について解説している。従来のAIエージェントが抱える無限ループ問題や、いつ内部知識に頼り、いつ外部検索を行うべきかの判断問題に対する革新的な解決策を提示する。清華大学による最新研究「UR2」を中心に、カリキュラム学習、二段階報酬システム、外部LLMを活用した要約機能などの技術的革新を詳しく紹介し、従来のSearch R1手法との比較も行っている。

RAG 3.0 in RL: Self-Learning AI Agent Reasoning (Tsinghua)

Why RL is the Future of RAG (new framework: UR2).Unifying RAG & Reasoning with Reinforcement Learning.all rights w/ auth...

RAG 3.0と強化学習の組み合わせ
LLMの内部知識と外部知識の判断
複雑なクエリの分解プロセス
データ統合と処理の複雑性
無限ループ問題の理解
現実の複雑性と科学的アプローチ
戦略的クエリ形成の課題
強化学習による解決策
最新の研究成果：UR2とSearch R1
MCPの限界と外部世界の複雑性
UR2フレームワークの革新点
カリキュラム学習の利点
二段階報酬システムの効果
ノイズのある検索問題への対処
複雑性の軽減と専門化
Search R1とUR2の比較と応用
知識バランスの最適化
次世代LLMへの展望

RAG 3.0と強化学習の組み合わせ

こんにちは、コミュニティの皆さん。また戻ってきてくれてほんまに嬉しいわ。今日は次のステップに進むで。ここでRAGと強化学習を組み合わせた新しいフレームワークを紹介するんや。そうや、もちろんここではMCPプロトコルのクライアントサーバー実装のアイデアと、特別な理由で新しい報酬関数を組み合わせていくんや。

今、なんでそんな美しい新しいものを、RAGと強化学習手法を相互に結びつけた新しいフレームワークを作らなあかんのかって思うやろ。

実は、わしの視聴者の一人が、わしの動画にコメントしてくれた勇敢な人がおってな、素晴らしいコメントをしてくれたんや。その人は言うてくれた、「見つけたんやけど、エージェントはMCPツールで簡単に無限ループに入ってしまうし、ハードコードされた制限やループカウンターなしではそれを防ぐのがめちゃくちゃ難しい。そういう制限があると、エージェントが深い研究や複雑なタスクを実行するのを妨げてしまって、本来の目的を台無しにしてしまう」ってな。

なんて素晴らしい発言や！その人は完全に正しいで。そして今日、わしらはこの問題を解決していくんや。

LLMの内部知識と外部知識の判断

まず最初に取り組まなあかん質問は、LLMがいつ、どうやって自分自身で内部の知恵に頼るべきかを学習するかってことや。誰かはこれをパラメトリック知識って呼んでるけど、それに対してRAGシステムのような外部知識を求める必要があるのはいつなのかってことやな。

それに加えて、考えてみてくれ、検索の要素もあるやろ。LLMはいつ推論を始めるべきなんか？もしかしたら、自分の推論プロセスだけで解決策を見つけられるかもしれんし、インターネット上の外部知識に頼る必要がないかもしれんからな。

だから、内部の知恵に頼る、パラメトリック知識、外部知識を求める、どのデータソースをいつ使うか、推論で進めるか、この3つのうちどれでも交換プロセスを持つか。

じゃあ、どうやってこの知識を、この直感を、この「自分が何を知らないかを知る」ことを学習するんやろ？そしてもちろん、「どうやって」の質問もある。LLMはどうやって検索することを決めるんや？戦略的にそれをどうやってできるんや？いつ、この3つの要素のうちどれを活性化するんや？そして、人間の研究者みたいに、人間のクエリから複雑な問題を一連の的を絞った質問に分解することを学習できるんやろか？人間の研究者の生涯の経験をする必要があるんやろか？

それは間違った質問や。正しい質問は、人間の研究者の生涯の経験を学習できるかってことや。

複雑なクエリの分解プロセス

ここで、わしの非常にシンプルな洞察を教えたるわ。人間からの深い複雑なクエリがあるとしよう。そしたらAIは何をするか？例えばGPT-4oに行って、プロンプト最適化をしたら何が起こるか知ってるやろ。それは、深い複雑性を持つ人間のクエリを、複雑性は低いけど複数の要素に分解するんや。トピック1、2、3、4ってな。

素晴らしいやろ。そして今度は、LLMがそのトピックをどうするか決めなあかん。もしそれが自分のパラメトリック知識にないって分かったら、トピック1についてはインターネットにクエリを送る。別のトピックについては、内部で推論を始めることを決めるかもしれん。因果推論や純粋な論理演繹が正しい解決策につながるかもしれん。トピック3については、データレイクやデータベースにクエリを送らなあかん。トピック4については、GPT-4oがお金のことでよくやるのは、ユーザーに戻って聞くことや。「何をしてほしいんや？説明してくれ？何をしてほしいか全然分からん」ってな。

データ統合と処理の複雑性

素晴らしいやろ。でもこれはもっと面白いんや。なぜかというと、インターネット検索の後、推論の後、データレイクの後に、データブロックを得るからや。今、追加情報があるわけや。そして「よし、素晴らしい、文脈内学習や」って言う。そうや。そして、LLMにここですべてを提供するか、古典的なRAGシステムに行く。「問題ないで。ランカーがある。リランカーがある。最初の2000個のデータブロックからリリランカーがある」ってな。

そして、一部の人は言うかもしれん、「おい、今、これだけ多くのデータがあるから、ついにAGIができた、知能の創発があって、この知能がこれを扱うんや」ってな。いや、違う。なぜなら、それは1兆の訓練可能なパラメータのモデルやから。

だから、スケールアップしている間に、どうにかして知能が創発しなければならん。もしあんたがもうちょっと古典的な科学的なやり方をするなら、「ちょっと待てや。人間の複雑性に答えようとするプロセス中に生成したこのデータストリームを見てみよう。これらのデータストリームはどんな複雑性レベルで、そのデータに本質的に何があるんや？」って言うやろ。

データストリームに、データストリーム1に対して突然4つのサブトピックがあるとしよう。また、LLMは決める。最初のやつにはインターネットを作る、2番目のやつにはデータリンクを作る、3番目のやつにはユーザーに聞き返す、トピック4には推論プロセスを始めるだけ。でも、LLMはどうやって何をすべきか知るんや？

そうや、テンプレートをデザインして、「推論プロセスを1回やれ」って言うことはできる。いや、それかテンプレートにハードリミットを入れる。いや。5ループ後には、何があっても独立して終了しなあかん。何があっても終了しなければならん。そうでなければ、そうや。

無限ループ問題の理解

だから、これがある種の答えやな。もしわしのユーザーが「エージェントが簡単に無限ループに入るのを発見した」って言うなら、そうや、これが見えるからやで。想像してみ、データ1だけやなくて、他のデータブロックすべてでも起こってるんや。これが今、並列で起こってるんや。素晴らしいやろ。

じゃあ、本当に深い研究をしたり、より深い複雑性を探求したりしたらどうなるんや？今度はトピック1で、インターネットが戻ってきて、「わしのデータストリーム1.1に5つのサブトピックがあるで」って言う。素晴らしい。そしてどんどん続いて、どんどん深くなって、どんどん多くのデータを生成する。そして「おい、ちょっと待てや、これは間違ってる、完全に間違ってる、この画像は」って言う。

知ってるやろ、すべての質問は平坦やから。インターネットにクエリを送って答えを得るだけや。より多くのデータや情報は得られん。人生は簡単や。さあ来い。すべての質問は平坦や。1つの質問、1つの簡単な答え。LMは全く考える必要もないし、より多くのリソースも必要ない。そして、すべての質問が平坦やから、いや、すべての答えもその複雑性において平坦や。

現実の複雑性と科学的アプローチ

より深い複雑性なんてない。さあ、シンプルにしよう。そして、すべての答えが平坦やから、次のステップに進もう。これは、すべての問題も平坦ってことや。美しいシンプルな世界や。なんでAIを複雑にしたいんや？そして、AIで遭遇するすべての問題が平坦やから、知ってるやろ、それは素晴らしい。なぜなら、わしらとすべての人間も、AIを使うときは平坦やから。

だから、AIやAGIを使うときは、非常に浅いレベルの複雑性しか持たん。だからAGIやねん。だからSamが正しかった。クエド・デモンストランダム、証明したで。GPT-4oはAGIや。素晴らしいやろ。

今、これが世界のかなり平坦な解釈やったと思うかもしれん。だから、科学に戻ろう。この画像でどんな問題に遭遇するか？動的検索ポリシー問題がある。

いや、LLMは本当にここで、特定の複雑性を与えられたときに検索プロセスを自分で開始するタイミングを決める学習された適応ポリシーが不足してるんや。通常、LLMによるこの決定は発見的ベースやから、過度に高いレイテンシのAPI呼び出し、MCPプロトコル、クライアントサーバーか、単純に検索の失敗につながる。

そして、LLMが「突然1つのデータベースがあるから、1万のデータベースのうち1つだけ使う。ローカルミニマムやから」って決める局所最適解もある。そして1つのデータベースに固着して、エージェントが実際に何をしてるか分からん状態になる。

戦略的クエリ形成の課題

2番目は戦略的クエリ形成問題や。通常、すべてが平坦や。いや、すべてがシングルターンや。今、わしらのLLM、エージェントの中核やけど、複数の複雑性レベルでの反復推論のためのマルチターン会話に最適化されてない。LLMは問題を分解することを学習しなければならん。これが最初のステップや。

そして、人間のクエリで遭遇する特定の複雑性レベルに対して、一連の的を絞ったクエリを形成する。そしてクエリの結果で段階的にコンテキストを再構築して、より高い複雑性レベルに戻る。これがわしが動画で説明した、なぜGPT-4oがより高い複雑性で失敗するかってことや。GPT-4oが失敗するのはまさにこのステップやねん。

さらに、クロスドメイン汎化問題もある。本当にファインチューニングすれば、数学や国際数学オリンピアードのような、非常に狭いドメイン、技術的ドメインでは動作するかもしれん。

でも、異なる知識モダリティに汎化しようとした瞬間、数学から理論物理学に行こうとしただけでも、システムは失敗する。

強化学習による解決策

だから、わしらがやりたいことは、テンプレートや現在RAGシステムで使ってる何であれ、人間がハードコードした検索ロジックを超えることや。わしらが欲しいのは、訓練プロセスでAIの知能を使うことで、今日知ってる唯一の訓練プロセスは強化学習やねん。

だから、ここでLLMを訓練して、知識獲得のための汎化可能な動的ポリシーをマスターしたいんや。だから、グラフRAGから何であれ、あんたのRAG複雑性がどんなものであっても、そして、LLM自体のための強化学習プロセスという、この美しいRAGの陰陽がある。

なんで、より高い複雑性のクエリに意味をなさないハードコードされたテンプレートを構築しなあかんのや？わしはAIに対して、誰かがわしのためにテンプレートを構築したクエリだけを求められん。いや、AIがわしのクエリに答えるためにや。

最新の研究成果：UR2とSearch R1

これは意味をなさん。わしの前にはAIがあるんや。だから、AIを学習させるんや。そしてここで今、これを覚えてるか？これは最後のビデオや。今、わしは最後のビデオからここを続けるんや。今、わしらのソースを取り上げる。覚えてるか、わしは2つの研究を見せた。最初に詳しく話したのは、Search R1で、イリノイ大学アーバナ・シャンペーン校による強化学習でLLMを訓練して推論し、検索エンジンを活用する研究や。そして、ARグループからのMCP toolbench+もあって、MCP ツール呼び出しが金融タスクで中核性能を持つってアイデアがあった。そうや、25%くらいでな。素晴らしい。

さあ、続けよう。だから、はっきりさせよう。わしの視聴者の何人かがコメントして、「要約してくれ」って言ってたから。だから、エージェントの脳の内部で何が起こって、今外の世界とやり取りするときに何が起こるんや？

だから、MCPが最も簡単なケースで何を解決するか言うてみよう。いや、標準的なLLM APIはほぼステートレスや。いや。そして、エージェントが呼び出しをするたびに、その全ソート履歴を再送信しなければならん。遅い、高価、コンテキストウィンドウ。あんたもこれ全部知ってるやろ。

今、MCPは外部化する。もしLLMの作業メモリをキーバリューキャッシュで欲しいなら、これが本当にあるもので、もしエージェントの永続セッション、何百もの小さな呼び出しが欲しいならな。分かるやろ。

だから、完璧な引用符付きの永続的で巨大な内部メモリを持つエージェントがある。履歴、これをホワイトボードと呼ぼう。

MCPの限界と外部世界の複雑性

今、エージェントの外の世界、MCPが解決できないもの、あんたの外の世界は天文学的なサイズを持ってる。そして今、エージェントポリシー、単一エージェント、LLMの学習されたポリシーは、今でもこの外部世界から何を引っ張ってホワイトボードに書くかを決めなければならん。そしてこれが、わしらが今、MCPでも含めて、あらゆる形のRAGでも生きてるすべての古典的検索失敗を持ってる場所や。なぜなら、それらは戦略的失敗を持ってるから。

だから、MCPのような完璧なメモリを持つAIエージェント、本当の知能エージェントがまだRAGで失敗する理由は、どんな形のRAGでも、失敗がメモリやモデルの機械的能力にあるんやない。失敗は検索のための認知ポリシーにある。LLMがいつ正確にどのプロセスを開始するかの学習にある。

だから、LLMはインターネットで情報を狩るアクティブプロセス中に、MCPサーバーの1つをクエリするだけの貧弱で非指導的、あるいはナイーブな決定をしてるんや。現在、わしらのエージェントは、言ってみれば狩猟採集レベルにあるんや。

じゃあ、これについて何ができるんや？何か新しいものが必要やし、わしは最後のビデオで既にSearch R1のよりシンプルなケースを見せた。そして今度は、AIの最新研究について話そう。UR2、強化学習を通してRAGと推論を統一する研究や。

これは清華大学による美しい研究や。そして、清華大学と清華大学AI産業研究所、中国の河北経済商業大学経営科学学院が、2025年8月8日にここで美しい新しいアイデアを出してくれた。マルチまたはシングルエージェントシステムの推論プロセスでRAGと強化学習を組み合わせるだけで、すべての問題を克服する方法やねん。

UR2フレームワークの革新点

簡単から始めよう。研究の著者らは「LLMは素晴らしい、どんなRAGシステムでも、どんな強化学習手法でも、使えばうまく動作する。でも、これら2つの要素が独立して開発されてることに注目してくれ。でも、それらを一緒に持ってこれたら想像してみ。わしらがLLMの学習可能性を使って、人間の相互作用なしに、テンプレートなしに、事前定義されたハードコードされた人間のコードなしに、検索戦略やツール使用自体を最適化できたら想像してみ」って言ってる。

だから、RAG強化学習の新しいフレームワークに入ろう。この両方を組み合わせよう。これらのシステムが一緒に訓練されるこの陰陽イメージを持とう。

今、わしは最後のビデオでSearch R1について構築して、この新しい出版物でSearch R1を超える次のステップが何かをあんたに伝えるんや。

まず、訓練サンプル自体について話そう。論文を読んだら、UR2がすべての訓練サンプルを平等に扱わないことにすぐ気付くやろ。なぜなら、それは今、訓練データをその複雑性、難易度で事前分類するから。簡単、易しい、中程度、難しい。そして、今、カリキュラム学習を採用する。だから、簡単なやつから始めて、中程度に行って、そして本当に本当にたくさんの訓練データを難しいレベルで持つんや。

Search R1は、このカリキュラム学習なしに統一データセットで訓練することを覚えてるか。だから素晴らしいやろ。

カリキュラム学習の利点

今、これが何をもたらすか？検索する決定は単一的なスキルやない。いや、それはモデルのパラメトリック知識に対する、わしが複雑性と呼ぶ問題の難易度に高度に依存してるんや。小さな3Bモデルについて考えるか、671億の訓練可能パラメータモデルについて考えてみ。

今、特定のLLMに、そのパラメトリック知識や内部推論で内部的に解決できない問題で主に検索を練習することを強制することで、この新しい手法は今、はるかに効率的で、言ってみればより良い検索ポリシーを教える。検索ツールの過度使用と過少使用を防ぎ、コストとすべてを一緒に最適化することを希望的に防ぐ。

今、本当に興味深いのは報酬関数や。Search R1では報酬関数について話したし、わしは最初に本当にシンプルな報酬関数を使うって言ったのを覚えてるか。

今、UR2では報酬のアイデアが違う。2段階アプローチを持ってる。ステージ1は、訓練プロセスの最初の時間で報酬したいのは、単純にここで検索の活性化やって言う。

だから、わしらはここで正しいツール使用について、どの特定のタスクにどのツールをいつ推論プロセスで使うかの計画についてのみ気にする。正しく形成された検索クエリを+3、+4でより多く報酬し、シンタックスエラーや役に立たないクエリにペナルティを与える。分かるやろ。

だから、正しく形成されたクエリを目指すだけで、ステージ2は最終的に与えられた実際の答えの品質や。だから今、報酬関数は正しい形式から正しい計画から実際の結果へ、与えられた最終答えの正確性、事実的正確性に移る。簡単やろ。

二段階報酬システムの効果

そして、あんたは言うかもしれん、「興味深いな。最後のビデオでMCP toolbench+の結果について話したとき、著者らもここですべてのMCPツールを評価する2つのパラメータを持つことを決めた。最初のやつは覚えてるか、ASDD acc精度で実行計画、これがまさに今この新しい研究で見てるものや。そして2番目も実行結果で、すべてのMCPツール呼び出しの事実的正確性やった。なんて偶然や、両方の研究が多かれ少なかれ同じ2つのパラメータクラスを見てるやん」って。

今、これはSearch R1とは対照的やってことを覚えとき。わしは彼らがシンプルな報酬関数を使うって言ったけど、著者らは「待て、わしらは次のイテレーションでより複雑な報酬関数を計画してる」って言ってくれた。だから興味深い。

でも、この新しいUR2手法で何を達成するんや？今度は、検索の言語を話すことを学ぶ問題、MCPと言おうか、実際にその言語を使って正しい答えを見つけることをまた分離、分離して複雑性を減らす。だから美しい2段階プロセスや。

それが行うのは、わしらのエージェントがただランダムに探索してるこの強化学習訓練の困難な初期段階をここで安定化することや。だから、最初のステップでシンタックス最優先の密で達成しやすい報酬を提供することで、エージェントの学習プロセスを助ける。そして、最終答えを事実的に正確にするより困難な報酬構造を導入する前に、学習プロセスをここでブートストラップする。

ノイズのある検索問題への対処

素晴らしいアイデアや。気に入った。そして、この新しい論文でSearch R1を超える3番目の革新は、わしらが話したノイズのある検索問題や。これは興味深い。Search R1では、彼らが使った主要技術、主要テクニックは検索トークンロスマスキングやったって覚えてるか。例も見た。

今、UR2は別のアイデアを持ってる。「わしらにはこれをやってくれる知能が必要や。だから、この情報の前処理が必要で、ロスマスキングは全くやりたくない。知能があるから、すべての生の検索データの要約器として外部LLMを持ってる。この要約器は検索されたテキストを凝縮して、重要なことに、事実でないクエリを認識してフラグを立てるようにもプロンプトされてる。さらに、ポリシーモデルへの別の信号であるフォールバックメッセージもある。『何か間違った』ってな」って言う。

だから突然、わしらのために仕事をしてくれる別の非常に強力な外部LLMに依存してるんや。

複雑性の軽減と専門化

なんでこれをするか？また複雑性を減らすためや。UR2アプローチは、単純にここでノイズからシグナルを蒸留する認知負担を純粋なポリシーモデルのPIデータから専用の外部要約LLMにオフロードする。これがLLM、エージェントがやらなあかん仕事の複雑性を減らす。

だから、これによりポリシーモデルLLMが高レベル推論軌道のみに焦点を当てることができるようになる。わしらはいつもAIの複雑性を減らす同じパターンに戻ってる。AIは高い複雑性を扱えん。エージェントに検索ツールの限界を認識することを教える巧妙な方法や。

だから、そこにある。Search R1手法を基に構築し、さらに革新を推進する3つの美しいアイデアを見たやろ。

Search R1とUR2の比較と応用

今、わしはあんたがまだSearch R1を使えると思うし、本当に明確に定義された検索タスクがあるときには理想的や。もし主要な目的が明確なタスクのための強化ループの技術的安定性なら。シンプル、頑健、美しいマスキング技術を持ってる。動作することが分かってるし、これは信頼性の高い高度に専門化されたエージェントを構築するためにかなり強力やと思う。

でも、この新しいUR2アプローチは、外部LLMを使うのを忘れたらあかんけど、より汎用的な種類の自律エージェントで、強化学習で直接的な複雑化を学習するんや。カリキュラムを非常に知的な方法で使う。学習プロセスを助けるための2段階報酬関数を持ってる。

正しいツール使用でより簡単な学習プロセスを開始する。LLMがツールの使い方を学習する。だから、視聴者がわしのビデオの最初にコメントしたような問題を抱えることがない。今、LLMはこのすべてを知ってる。でも、すべてのツール使用、MCPクライアントサーバープロトコルでLLMを訓練しなあかん。LLMに知的に節約的であることを教えることができる。

知識バランスの最適化

わかった。わかった。わしは内部知識を外部情報のコストと有用性に対してバランスさせて、幅広い問題範囲で上に行く。そして、わしらは今、わしがビデオの最初に見せた問題に直面してて、解決策を持ってることが分かる。わしが言ったこの「いつ」の質問や。LLMがいつ、依存する内部パラメトリック知識をどう持つかを知り、いつ純粋な論理で内部推論プロセスを開始するか、ただ外部データのためのツール使用、MCPプロトコルを開始するかを知るのか。

そしてもちろん、あんたが勇敢なら、両方のシステムを組み合わせることができる。いや、わしは両方の世界の最良を組み合わせた将来のシステムを想像できる。いや、わしらはUR2のカリキュラムを使って、ここで完璧な方法でエージェントを訓練する。そして、本当に専用のタスクがあれば、わしはSearch R1のロスマスキング技術を使って、ここでプロセスを安定化する。プロセステクニック、すまん、ちょっとドイツ語が出た。ここでプロセスを安定化するんや。

次世代LLMへの展望

だから、次世代LLMの開発における最新ステップがここで見られるのは非常に興味深い。すべてのエージェント的タスク、すべてのツール使用、MCPプロトコル、エージェント間でこれらをはるかに良く扱えることを希望的に可能にするやろ。なぜなら、現在それらはかなり頻繁に失敗してるから。楽しんでもらえたと思う。わしの次のビデオで会えたら素晴らしいで。