ComoRAGとREX-RAGによるRAGエージェンシー(RAG 3.0)の具現化

RAG
この記事は約18分で読めます。

この動画では、次世代の検索拡張生成システムであるRAG 3.0の最新研究を紹介している。具体的には、武漢大学が開発したRex-RAGと華南理工大学が開発したComoRAGという二つの革新的システムについて詳解する。Rex-RAGは行き詰まり状況からの脱出に特化した探索型システムであり、ComoRAGは人間の前頭前皮質を模倣した認知的メモリ組織化フレームワークである。両システムは従来のRAGシステムを5-11%上回る性能向上を実現しており、複雑な推論タスクにおけるエージェント型AI の可能性を示している。

ComoRAG and REX-RAG Embody RAG-Agency (RAG 3.0)
ComoRAG reframes long narrative comprehension from a stateless retrieval task into a stateful process of metacognitive r...

RAG 3.0時代の到来

こんにちは、コミュニティの皆さん。また戻ってきてくれてほんまに嬉しいわ。せや、知ってるやろ、RAGは死んだって話やけど、もちろん冗談やで。でも今回は二つの真新しいRAGシステムを持ってきたんや。Rex-RAGとComoRAGや。説明したるわ。

RAGが死んだって言うのは、GPTが死んだって言うのと同じで、GPT-2のことを指してるんや。実際、この数日でGPT-2の真新しいバージョンも出たしな。でも今現在はGPT-5で作業してるわけやから、これはちょっとしたジョークみたいなもんやな。

RAGが死んだって言うのも全く同じことや。RAG第1世代のことを指してるんや。私にとってはGraph-RAG以前の全てがそれに当たって、今現在はRAG 3.0で作業してるっちゅうわけや。これは私が混乱せえへんように勝手に作った記法やねん。どの複雑さレベルのエージェント型RAG、マルチエージェントRAGで作業してるかを明確にするために自分で考え出したもんや。

で、現在はRAG 3.0やっちゅうことやな。これでここの質問にも答えられると思うわ。視聴者の人が「RAGの種類って結局いくつあるん?どれが最先端なん?」って聞いてくれたからな。最先端っちゅうのは本当に最新のエージェント型RAGシステム3.0のことで、マルチエージェントシステム、MCPやA2Aプロトコルなんかも全部含んでるやつのことやな。

Rex-RAG:推論探索と政策修正システム

今日は二つの真新しいRAG第3世代システムを紹介したいと思うねん。まずはRex-RAGからや。これは「検索拡張生成における推論探索と政策修正」っちゅう意味で、見ての通り高度にエージェント的やねん。これは武漢大学の研究やで、素晴らしいわ。

彼らが持ってる二つの新しい革新技術で、論文を読む時に理解せなあかん本当に重要なポイントがある。それは混合サンプリング戦略や。これが多様な軌道を生成するんやけど、ターゲット政策πデータとプロ政策πイプシロンの両方からのアクションを組み合わせて、行き詰まりから抜け出すっちゅうわけや。

行き詰まりっちゅうのは強化学習でよく遭遇する問題で、急にモデルが行き詰まって、何をしたらええか分からんくなってしまうんや。もっとシンプルに言うたら、システムが論理的分析的なやり方で全部試したけど、行き詰まりで何をしたらええか分からん時に、政策実装のワイルドカードを使うっちゅうことや。これがそれやねん。

もちろん政策修正メカニズムも持ってる。混合サンプリングによって導入される分布シフトがあるからな。これが全てやで。この美しい視覚化を見てもらいたいねん。研究者たちによるものや。Rex-RAGの凡例もここにある。美しいやろ。

本当に興味深いのは適応的リサンプリングや。システムが「おい、ここで詰まったで」って言うんや。例えば、「トランスフォーマーモデルは何年に発明されたん?」っちゅう質問で、システムが電気トランスフォーマーを考えてしまったとするわな。質問で指定されてなかったからな。そしたらシステムは電気トランスフォーマーの方向に行ってしまう。答えは1885年や。これは間違った答えやな。

そしてLLMがこの行き詰まりから抜け出せへんとしよう。そこで適応的リサンプリングが起こるんや。「おい、質問を間違って理解したわ。間違ったクエリを使ったし、検索結果も間違ってる。今度は探索プロンプトを使おう」っちゅうことになる。新しいプローブロールアウトがあって、そこでAIとトランスフォーマーアーキテクチャの話題に入って、2017年が正しい答えになるっちゅうわけや。

だからシンプルなアイデアなんやで。数学的正規化に惑わされたらあかんねん。

ComoRAG:認知的メモリ組織化フレームワーク

二つ目のRAG 3.0システムがComoRAGや。これは人間の前頭前皮質を模倣した認知的にインスパイアされたメモリ組織化RAGフレームワークで、最新モデルで遭遇する長い叙事的推論チェーンで真のステートフル推論を実現するためのもんやねん。

もしこれがLLMに実装されたら、GPT-5.5とか何て呼ばれるか分からんけど、とにかく本当に絶対的に魅力的やろうな。これは華南理工大学の研究者によって提示された最先端中の最先端やねん。

三つの柱があるとしたら、まずは深い文脈理解のための知識ソースが必要やな。そして、これがメインポイントやけど、動的メモリワークスペースや。これはマルチターン推論の追跡と統合のためのもんで、LLMが好きなように書き込める内部ホワイトスペースみたいなもんやな。

私の過去三つの動画のうちの一つで見せたやつと全く同じや。これは長い叙事的推論複雑性チェーンで本当に機能するみたいな方法論やねん。そして必要なのはメタ認知制御ループだけや。この簡単な手順を後で見せるわ。

これをステートレス推論、つまりシングルステップRAGシステムと比較したいなら、または第二世代マルチステップRAGシステムと比較するなら、美しいのは動的メモリワークスペースを持つステートフル推論やねん。そこではすべての異なるパスの蓄積があって、メモリ組織化されたステートフル理解の最適化に役立つっちゅうわけや。

もう少し詳しく知りたいなら、もちろん全ての例を通して進んでいけば、何が起こってるかの美しいアイデアが得られるわ。でも最初のと同じように、論文を読む時に役立つように、本当に簡単な説明をしたいと思うねん。そしたら本当に速く読めるからな。

性能評価と実例

価値があるかどうか見てみよう。Rex-RAGはここで3Bモデルを使った場合、平均性能向上が5%や。7Bモデルを使った場合は3.6%、ベースラインに対して。少なくとも何かあるし、25%や50%のジャンプではないけど、そういう時代はもうほぼ終わってるねん。今は本当に5%とか、ComoRAGを見ても、従来のRAGシステムより優れてて、最強のRAGベースラインモデルと比較して最大11%の向上やねん。

そや、これが5%から11%で、この種の性能向上があれば私らはもう幸せやねん。特に複雑なクエリではな。これが私らが目指すもんや。

例で見せたいと思う。ここにQwen 2.5の70億パラメータモデルがある。ベースモデルがあって、シンプルな質問や。「グレイズアナトミーの飛行機墜落で誰が死んだん?」私はこれについて全然知らんけど、これがQwen 2.5モデルの典型的な反応で、何もせえへんかった時のやつや。

そしてRex-RAG方法論、つまりRex 3.0を統合すると、もう少し詳しくやってみよう。この質問に答えるためにAIが教えてくれるのは「グレイズアナトミーの飛行機墜落で誰が死んだかを決める必要がある。まずはグレイズアナトミーの飛行機墜落についての情報を検索することから始めよう。誰が飛行機墜落で死んだかを検索」っちゅうことや。

そして検索から情報が返ってくる。得られた情報から分かったのは、デレック・シェパード医師が飛行機墜落で亡くなったっちゅうことや。でも提供された情報について混乱があったようで、異なる結果が得られた。飛行機墜落で亡くなった人の具体的な名前を再度検索して明確にしよう。

そしてLLMによって開始された、もう一つのより詳細な検索があるのが分かるやろ。Rex-RAGでこれをどうやるかを学習したからやねん。より詳細な情報が返ってきた。そしてこれが全て、Qwen 2.5ベースがRex-RAGで決めたことや。いつこれを開始するか、なぜこれを開始するか、複雑な推論チェーンのどの特定の点でこれを開始するか、そして問題は、テンプレートを使わず、何もハードコードせずに、そういうことができるシステムをどうやって訓練するかっちゅうことや。これは自律的自己学習AIシステムやねん。

ここに文脈コード化された信頼できる情報、信頼できない情報、追加パラメータがある。だから話し合おう。両方の論文を一緒に説明しよう。これは挑戦的やし、絶対に魅力的やと思うからな。

Rex-RAGとComoRAGの動作原理

Rex-RAGは何をするんや?モデル、つまりLLMは高度な行動政策を構築するんや。または本能と呼んでもええけど、より科学的に言うなら次に取るべきアクションのための政策やな。試行錯誤によって一貫したモデルを構築するんや。もちろん、学習したから言わなあかんけど、知的な試行錯誤や。もちろんそうやで。

だから実践と失敗から学習を通じて戦略を洗練するんや。試行錯誤やな。シンプルや。特定のドメイン固有クエリでシステムを何度も何度も動かさなあかん。

Rex-RAGの主な目標は、この特定のドメインのこの与えられた複雑性レベルで多くの異なる質問をどう解決するかの一般的なスキルを学習することや。

興味深いのは失敗をどう扱うかや。AIが「おい、このパスはブロックされてる」って言ったら、例で見せたように、「実証済みの脱出方法の一つを使って、どこに着地するか見てみよう」っちゅうことになる。だからここには一種のアスリート、探検家みたいなもんがあるねん。これは分析的深思システムではなく、「ワイルドカードをくれ、試してみよう、もしかしたら行き詰まりシステムから脱出できるかもしれん」って言うやつや。

一方で、この特定のアーカイブ論文を理由があって選んだんやけど、ComoRAGがある。これは思考家や、建築家みたいなもんやな。モデルは政策ではなく世界モデル、完全な世界モデル、現在の問題の明示的なマインドマップを構築するんや。

関わる全てのオブジェクトの全ての状態を理解して、LLMが自分の推論経路で検出した推論の不一致と論理的不一致を修正することで一貫したモデルを構築するんや。だからこのLLMの訓練で注意せなあかん限界がもう見えてるわな。

ComoRAGの主な目標は人間のクエリという一つの質問に完全に答えることや。完全な絵を構築することでな。だから次のステップは発表されたものを超えて、この高度なメモリシステムを取って、より永続的なメモリにマッピングすることやろうな。

だから解決パスがあるわけやけど、今のところは発表された内容に留めて、この特定の人間クエリに焦点を当てて完璧に質問に答えたいっちゅうことや。失敗モードをどう扱うかっちゅうと、「おい、このエラーのマップが間違ってる。今度は偵察隊を送らなあかん。検索をして、データベースへのMCPコールか何でも、この論理的不一致の特定の事例をその場で修正する必要がある」って言うだけやねん。

環境と学習特性の違い

環境について少し話そう。Rex-RAGはここで強化学習を最適化する場合、本当に強力なアプリケーションやねん。知的な試行錯誤を通じて、より良い問題解決戦略を教えることで行動を本当に改善するからな。おっと、知的な試行錯誤を忘れてた。AIについて話してるからな。

だからこの種の知性は、環境との相互作用、世界との相互作用によって何がうまくいって何がうまくいかないかを経験から学習することで、創発的な出現をしたり発展したりするねん。でも注意せなあかんのは、なぜうまくいくかを理解せずにやっちゅうことや。

ただ試してるだけやねん。「全ての可能性をくれ、試してみる、運が良ければ行き詰まりから脱出できるかもしれん」っちゅうことや。だからRex-RAGはより効率的な政策を学習してるけど、なぜそれがうまくいくかは理解してへんねん。ただの試行錯誤で、これは良いことかもしれん。一部の使用例では正にこれが必要なものかもしれんけど、一般的にはComoRAGを見てみることを勧めるわ。

ComoRAGは現在どんな状況にあるかを理解するプロセスをモデル化しようとしてるねん。だからComoRAGの目標は、今日私らが理解してる人間の推論プロセスを模倣するように、世界が推論してることの内部の一貫した構造化された心的モデルを構築することや。

そしてアイデアはシンプルで、明示的なメモリワークスペース、つまり作業できるホワイトボードを追加するんや。全て記録できて、これらの意味的トピック全ての相互接続が何かとか、そういうことが言えるやつや。

だからワークスペースを与えて、AIが継続的に反省し、改善を求める。これは人間が解釈し理解できる方法でAIが推論するシステムを作るための私らの一歩やねん。

内部メモリワークスペースメモリ最適化を見ると、これは全く別のトピックやけど、これはキーバリューキャッシュ最適化のことではないねん。これはモデルが多くの異なる可能性と理解モデルをホワイトボードに保持して、そこから推論で脱出しようとすることやねん。

Rex-RAGが政策最適化の学習やと言うなら、ComoRAGは世界観と理解を構築しようとしてると言える。「今どこにいるか、周りの世界は何か、周りの環境は何か、そして考えたら理論的選択肢は何か」そして行動を決定するっちゅうことや。

実際のクエリでの動作例

実際のクエリがある時に一番よく学べると思うねん。だからこれをやってみた。珍しい本が市立図書館で午後2時ちょうどに盗まれた。唯一の容疑者はセラスで、彼には鉄壁のアリバイがある。セラスは何らかの理由でAIが常に遭遇する名前やねん。

彼は午後1時から午後3時まで、市の海岸桟橋のカフェで昼食を取ってるのを複数の目撃者に見られてた。図書館と桟橋は街の反対側で、車で45分離れてる。この人はどうやって犯罪を犯すことができたんやろうか?

これを見ると正に何が起こってるかが分かる。だからこのクエリを取って、これは面白いと思う。そして両方の新しい方法論からの反応と流れを見てみよう。

Rex-RAGの操作フローは何やろうか?最初のステップは従来の古い戦略に従って、行き詰まりにぶつかるっちゅうことや。Rex-RAGが「よっしゃ、学習した戦略、つまり学習した政策で、目撃証言のアリバイを他の全てより信頼する」って言うからやねん。

だから試行1では事実Aと事実Bを検索して、政策に従って、目撃者は信頼できるものとして含めて、したがってタイムラインは不可能で、この人が告発されたことをここでやったのは不可能やっちゅう結論に達するんや。堅固なアリバイに基づいて、この人は犯罪を犯すことができなかった。報告された犯罪の時刻が間違ってるからやっちゅうことやな。

そしてRex-RAGが登場して、「よっしゃ、真実と照らし合わせて確率を確認しよう。間違ってるやないか」って言う。だから報酬はゼロや。行き詰まりや。これが正にRex-RAGを発明した理由やねん。何が起こるか見てみよう。

今度はシステムがワイルドカードを探索することを決定しようとする。数学的説明もあるけど、ワイルドカードでいこう。詰まったポイントに戻って、ランダムな探索プロンプトを注入する。

この注入されたプロンプトは「重要な何かを見落としてるかもしれん。両方の事実がどういうわけか真実である可能性を再考してみよう。何か見落としてたか?」みたいなもんやな。だからここで再びこの特定のLLMの推論複雑性に向かうのが分かる。だからクエリの複雑性レベル7が与えられたら、複雑性レベル7にも対応できるGPT-5を確実に持たなあかん。

この切り込みがエージェントを通常の慣習的な道から強制的に外して、犯罪時刻を却下する代わりに、両方の事実が共存できる世界を考慮することを強制されるんや。美しいやろ?

これで今度はシステムが以前は試さなかったであろう新しい検索クエリを生成するかもしれん。私らはRAG 3にいるからな。この行動はシンプルに検索や。「この特定の都市で桟橋から図書館への高速移動の他の方法はあるか?」

検索が返ってくる。インターネットなり都市情報なりデータベースなり、何でもかまへん。新しい事実Zを受け取る。フェリーがあるっちゅうことや。そしてこの新しい情報で、正しい解決策をつなぎ合わせることができる。

だから試行1の古い戦略は失敗に終わった。そしてこのワイルドカード探索戦略は、通常は使わんけど絶望的やから取る政策の最適化に基づいて、試行錯誤で成功を収めたっちゅうわけや。

今度はこの学習アルゴリズム、つまり自己学習システムがエージェントの核となる政策を更新する。だから今学習したのは、シンプルに言うと、一見不可能なアリバイに直面した時、高い報酬の行動は、この例で今学習したように、従来とは異なる交通手段を調査することや。クエリで車で45分かかるって言ってるけど、他の交通手段もあるからな。

だから代替手段を探索する。Rex-RAGが次回似たようなタスクに直面した時のために、一般的な問題解決政策を改善したってことやな。政策にワイルドカードがあるのは見事やけど、二つ目の論文ComoRAGを見てみよう。操作フローがどう違うかやな。

ComoRAGでも同じトピック、同じクエリや。二つの主な事実があって、ComoRAGは「よっしゃ、私にはメモリワークスペースがあって、そこに全て置ける」って言う。午後2時に図書館で犯罪が犯されて、人が午後1時から午後3時まで桟橋のカフェで見られてた。

これに答えようとして、すぐに論理的矛盾を検出する。どうしてこんなことが可能やろうか?でもここには時点があって、ここには時間間隔があるのが分かる。だから自己調査エージェント、つまり別のLLMが、どうやと思う?AIがAIと通信して、壊れたモデルを見て、正確な問題、つまり二つの場所間の移動時間を特定する。

でも45分以内に別の選択肢があるかもしれん。今度は適当に推測するんやなくて、これがこのRAGシステムの違いなんやけど、この正確な誤解を修正するための具体的な質問を定式化するんや。論理的矛盾が起こるこの単一の部分でな。

LLMは論理的矛盾だけを見て、どうやってこれを解決できるか考える。そして再び新しい調査クエリ、新しいRAGシステムクエリを生成して、インターネットに問いかけて、「この論理的矛盾を解決するために、どんな選択肢があるか?多分5つの異なる選択肢があるやろう。海岸桟橋と市立図書館間の最速の交通手段は何か?」って言う。

だからこのRAGシステムでこれを解決する異なる方法が分かるやろ。今度はRexがプローブを実行して戻ってきて、「おお、見落としてた情報がもう一つある。この新しい事実や」って言う。地下フェリーサービスがあって、これは8分しかかからへん。だから8分という移動時間で新しい可能性があるっちゅうわけや。

だからこのタスクで成功したようなもんで、答えは「この人は理論的には犯すことができた。8分の新しいフェリーがあるから」っちゅうことや。まあ、時間的にもっと鋭い間隔で間に合うと思うなら、私も全く同感や。これはただのデモンストレーションやからな。ありがとう。

洞察と理解

両方の論文を読んで理解して、何を教えてくれるかっちゅうと、Rex-RAGでRAGシステムがある。これは本当に真に堅牢な推論器で、すべての状況に完璧なマップを必要としないねん。一種の回復力があるからや。回復力のある行動政策実装があって、失敗からどう回復するかの本能や政策を学習してるねん。これは重要やで。

だからシステムは完璧やないけど、運用的な失敗モードがあって、したがってこのRAGシステムのキーは、間違いを避けることやなくて、間違いを犯して行き詰まりからの解決策を見つけることやねん。間違いを犯した後に新しい前進の道を見つけることの専門家やっちゅうわけや。このRAGシステムをどう設定するかは興味深いな。

本当に異なるのはComoRAGで、これは全ての事実を一貫したストーリーに整理することやねん。このシステムComoRAGは本当に真の理解を望んでるねん。いくつかの事実を特定するだけやなくて、一貫したストーリーラインがなければならんくて、したがって世界の心的モデルを構築して、パラドックスに直面した時、積極的に欠けてる情報の断片を探したり、パズル全体が再び組み合わさるような代替案を見つけたりするんや。

心的モデルと世界モデルについて聞いたことがあるかって思うやろ?もちろんあるで。だからRex-RAGに与えるラインは「RAGシステムとして現在の調査ラインが失敗した。だから行き詰まりから脱出するためにRAGシステムに尋ねる異なるタイプの質問は何か?」っちゅうことや。

答えは「通常はせえへんけど、絶望的やからワイルドカード戦略で行こう。知的な動きかもしれんけど確率は低い。でも絶望的やからワイルドカード政策で行く」っちゅうことやな。

一方ComoRAGは思考家で、「今現在起こってることについて私の理解が壊れてる。何かが一貫したストーリーラインで全然合わへん。だからRAGとして、具体的にどの情報が欠けてるのか?理論的に私の分析的頭脳で、ストーリーの壊れた理解を修正するのは何やろうか?」って言う。

だから欠けてる情報を抽象化する巨大な抽象化能力があって、この世界モデルを指針として持ってるんや。だから「具体的に欠けてる情報は何か」っちゅう答えに辿り着く。

世界モデルについて話すと、12日前に「AI内部の秘密の心」とか、3日前に「マルチエージェントシステムによる創発的コミュニケーティブAI世界モデル」を見せたし、2か月前には違うのを見たりした。だから世界モデルは本当にマルチエージェントや単一エージェントシステムの思考をまとめて保つ一貫したブラケットで、前進への道を提供するもんやけど、実装は本当に様々やねん。

だから視聴者の質問に戻ると、本当に具体的なタスクによるんや。環境はどれくらい複雑か?どんな種類の相互作用があるか?どんな種類のモデルを持ってるか?どんなドメインの複雑性に遭遇するか?AIにやってもらいたいタスクの複雑性は何か?そしてそれに適したモデルを見つけに行かなあかんねん。

もし私に聞いて質問があるなら、「70ページの完全な研究論文を一語で説明できるか?」って言われたら、もちろん問題ないで。

だからRex-RAG 3.0をどう特徴づけるかって思うけど、「回復力」やな。絶対的に回復力のあるシステムや。行き詰まりで間違いを犯しても諦めへん。「おお、今度は戦って、ワイルドカードで行こう」って言うねん。

ComoRAGは「一貫したストーリーライン」やな。環境、AIがいる状況の深い理解と、物理的理解があったり、この環境の力学の観察者やったりして、可能な次の行動は何かっちゅうのがある、もっと分析的思考モデルやねん。

だからRex 3.0が分かるやろ。新しいファミリーメンバーのRex-RAGとComoRAGがあって、Rex 3をひとつの用語で特徴づけるなら、RAGエージェンシーかもしれん。今本当に運用可能になったRAGエージェンシーやな。

運用について話すと、GitHubリンクがあって、全てこのGitHubリポジトリにある。驚きなのは、よく見ると彼らがsearch R1で動作してるのが分かることや。これは3本前の動画、最初の動画やったからな。だからこれは4本目の動画やけど、まだ同じサークルにいるっちゅうことやな。AI研究の最新最先端にいるんや。

残念ながら二つ目の論文については、これが著者のGitHubリポジトリやけど、本当に昨日発表されたばかりやから、まだ見られへん。コードがここで発表されるって約束されてたんやけど。だからこの動画を見る時には、このGitHubアドレスに行けば、二つ目のRAGシステム、RAG 3.0システムのコードが運用可能になってて、テストしたり試したりして、AIコミュニティにフィードバックを提供できることを願ってるで。

これでや。楽しんでもらえたと思う。何か明確にできたと思うし、最新のRAGシステムの二つの新しい論文を本当に簡単な方法で紹介できたと思う。彼らは異なる操作モード、異なるシステムでどう動作するかが違って、研究は美しい世界やっちゅうのが分かるやろ。

全ての状況で本当に絶対的に効率的な操作セットにはまだ収束してへん。でも非常に特定の状況、非常に特定のタスク、非常に特定のドメインのために多かれ少なかれ構築してるんや。だから今貢献したいなら、完璧なタイミングやで。次の動画で会おうや。

コメント

タイトルとURLをコピーしました