エージェント型ハイパーグラフRAG with RL: Graph-R1

この動画では、北京大学が開発したハイパーグラフRAGシステムと強化学習を組み合わせた革新的な「Graph-R1」について解説している。従来のグラフRAGシステムを超えて、より高次元で複雑な知識構造を扱えるハイパーグラフを採用し、完全に人間を介さない自動学習システムを実現した。GRPOという最適化手法を用いて、AIエージェントが環境との相互作用を通じて自律的に推論能力を向上させる仕組みが詳細に説明されている。

Agentic HyperGraphRAG w RL: Graph-R1

The Graph-R1 framework introduces a new agentic RAG paradigm where a policy, optimized via end-to-end reinforcement lear...

最新AI研究：ハイパーグラフRAGと強化学習の革新的融合
ハイパーグラフRAGの構築と動作原理
Graph-R1の革新的アプローチ
GitHubでの実装詳細
ハイパーグラフ検索の仕組み
Graph-R1のGRPO最適化
強化学習における報酬関数の進化
環境構造の重要性
現実世界でのAIシステムの限界
ハイパーエッジの革新性
システムの詳細な動作フロー
ベクトル空間の必要性
全体システムの統合
プロンプトの実装詳細
実験結果と性能評価
まとめと将来への展望

最新AI研究：ハイパーグラフRAGと強化学習の革新的融合

コミュニティの皆さん、こんにちは。戻ってきてくれて嬉しいわ。今日は最新のAI研究、ハイパーグラフRAGと強化学習の組み合わせについて話そうや。もう古典的なグラフRAGは知ってるやろ。今年はこれについて動画をようけ作ったで。グラフニューラルネットワークからグラフRAGのスケーリング、そしてライトRAGやPRAG、その他の色んなバリエーションまでな。

でも今日は、今日は何か新しいツールが必要や。ハイパーグラフRAGシステムが必要なんや。これは2025年5月末に北京大学が開発したもんや。GitHubのリポジトリもあるし、完全なコードも用意されてる。試してみたかったら全部使えるで。ここに標準的なRAGシステム、古典的なグラフRAGシステムがある。

そして今、うちらの全く新しいハイパーグラフRAGシステムや。すぐに分かるやろうけど、ここでは数学や理論物理学で知られてるハイパーグラフ構造で動作してるんや。ちょっと見てみよか。標準RAG、グラフRAG、ライトRAG、PRAG、ハイパーRAG、そして全く新しいハイパーグラフRAGシステムの知識構築と知識検索プロセスを比較したいなら、ここに一つの視点で違いが正確に分かるで。

ハイパーグラフの定義が欲しいなら、もちろん簡単や。各ハイパーエッジは2つ以上のエンティティを接続するんや。これだけや。これは2023年5月に北京大学が発表した論文に基づいてて、ハイパーリレーショナル知識グラフについてやった。彼らは単純にこの方法論をさらに発展させて、ローカルレベルの注意機構のためのデュアル注意層と自己注意層を持ってるんや。

この簡単な例に馴染みがあることを願うわ。人がいて、これは機能で、役職を持ってて、この一人の人についてはるかに多くの情報があるんや。開始時間や交代時期、終了時期に交代されるなど、他にもようけあるで。だからこの情報を全部、単純なグラフRAGシステムの代わりに、より高次元の複雑さで持ちたいんや。

ハイパーグラフRAGの構築と動作原理

うちらがやることは、もちろんドメイン知識を持つことや。普通はPDF、本、インターネット上の何でもにあるな。だからページが山ほどあるんや。全部をハイパーエッジ構造に抽出するんや。ここに美しい特定の例を示してるで。今、知識ハイパーグラフを持ってるなら、それは完全に自動で構築される。GitHubを見てくれ、完全に自律的に行われるんや。このプロセスがどのように詳細に起こるかは、約2分後に説明するわ。

美しいのは、突然ハイパーエッジ上で、クラスター化された多次元追加コンテンツを持つことなんや。だから、RAG抽出がはるかに効率的になるんや。

これについて話そうや。これは、どうやってAI研究の最先端に本当に行けるかについてのミニシリーズの3本目の動画や。最初の動画では、LLMに推論を訓練させて、強化学習MCPでサーチエンジンをツールとして活用するSearch R1について話した。

2本目は、古典的なRAGシステムとディープ推論を強化学習で統一することやった。今日は複雑さの次のステップについて話すんや。2025年7月末のGraph-R1について話すで。エンドツーエンドの強化学習によるエージェント型グラフRAGフレームワークや。

人間は完全にループから外されてる。ここには複数の複雑さのレベルで自己学習、自己改善、自己推論を試みるAIシステムがあるんや。絶対に魅力的やで。

Graph-R1の革新的アプローチ

Graph-R1のアイデアは簡単や。R1はここにあって、GRPO最適化手法があって、グラフは理解してるやろ。今、知識ハイパーグラフを持つハイパーグラフに行くんや。だからこれがこのシリーズの3本目の動画で、今何が起こってるかを理解するのがとても簡単なんや。

ここにエージェントがあって、知識ハイパーグラフで推論して答えを見つけるために何でも聞いてくれや。ここには単一ターンの相互作用じゃなくて、マルチターンの相互作用があるんや。知識ハイパーグラフに非常に多くの情報があることを考えるとな。

そしてユーザーが簡単なタスクを持ってるとしよう。「セルジオ誰かを記念する映画の監督の配偶者は誰や？」みたいなな。複数のリンクがあるから、RAGシステムに対して単純な一回の実行以上が必要やということが分かるやろ。エージェントは今考えるんや。「これに答えるには、誰が映画を監督したかを見つけて、その監督の配偶者が誰かを見つける必要がある」ってな。

だから簡単なクエリ、知識ハイパーグラフ、「セルジオを記念する映画の監督」があって、ハイパーグラフでグラフ構造により高次元の複雑さを持ってるから、今ずっと簡単なんや。すべての情報が積み重なって、最終的に完璧な答えが得られるんや。

GitHubでの実装詳細

これをGitHubでも見てみよう。すべてが既に利用できるで。異なるデータセットをAPI形式に変換して、それから知識ハイパーグラフ用に変換したのがあるんや。知識ハイパーグラフの構築方法は1秒で説明するわ。かなり簡単で、完全に自動化されてる。Pythonコードも既にあるし、ポートを設定してすぐに実行できるで。

でも、古典的なグラフRAGパイプラインとの違いを理解することから始めようや。グラフRAGについての動画で覚えてるやろうけど、知識グラフ構築がステージ1やった。そしてグラフ検索があった。これは2ステップのプロセスとして定式化されてた。候補推論パスを検索して、もちろん無関係なものを剪定する必要があった。美しい最適化があって、答え生成は人間のクエリと選択されたパスが与えられて、答え生成がここで自然言語の答えを生成するんや。なぜか？グラフベースの証拠に根ざしてるからや。公式も既に説明したな。

ハイパーグラフ検索の仕組み

今、ハイパーグラフ検索に行くと、ほとんど同じやと推測するやろ。今、ハイパーグラフ検索のためのデュアルパス相互作用プロセスがあるだけや。エンティティベース検索と直接ハイパーエッジ検索もあるんや。これが追加の複雑さを持つ場所やということを覚えておいてくれ。でも他に何も見えへん。クエリハイパーエッジ類似性に基づいてハイパーエッジを直接検索して、1分でもっと詳しく説明するけど、関連する関係事実を収集するんや。単一ノード表現と単一多次元エッジ表現と比較すると、はるかに多くの情報があるだけで、そしてレートプロトコルランク集約を通じてすべてを融合して戻すんや。

素晴らしいな。ここにあるのが、古典的なグラフRAGパイプラインの1、2、3ステップで、ここにハイパーグラフパイプラインの1、2、3ステップがあるんや。とても簡単で、とても似てるということを見せたかっただけや。より多くの情報を提供する高い複雑性をここに統合するだけなんや。

今、検索R1について話した動画で知ってるやろう。これがここのサムネイルで、8分52秒のところで、ここで行ってる数学的最適化プロセスのGRPO目的を見せたんや。すべての異なる項について説明したで。これがGRPO目的で検索R1テンプレートやったら、今Graph-R1についても同じことを見せるわ。

Graph-R1のGRPO最適化

Graph-R1テンプレートがここにあって、すぐに気づくやろう。「あ、とても似てる、ほとんど同じや」って。もちろんや、インターネット上のどこかでの検索を、構造化ハイパーグラフでの検索に交換しただけやからな。信じられへんかもしれへんけど、R1 GRPOの方法論で行く目的もここに単純にこの項があるんや。

何か特別なものがあるか？分布シフトに対する調整のためのrhoパラメータがあって、知っててなじみのあるアドバンテージAを、特定のスケーリング関数fを使って報酬を正規化してるんや。技術的な詳細やけど気にせんでええで。でもすぐに馴染みがあることが分かるやろう。グループ・クレーマー発散、ベータパラメータ、起こってるクリッピングがある。これは全部知ってて、どう動作するか理解してることや。

今、何が違うかっていうと、報酬関数や。覚えてるやろうけど、この動画でオートサーチ1が「最も簡単なルールベース報酬システムを使って、最終結果報酬関数を使う」って言って、「将来はより高度な報酬関数、適応的検索戦略、マルチツール統合などに行く」って言ってた。でも今、この新しいやつで、彼らは本当にこの追加マイルを行って、これを見てくれ。

彼らは今、検索R1とは違って、Graph-R1で結果指向報酬関数に行くことにしたんやけど、ここに2つの部分があるんや。最初に、これは既になじみのあるフォーマット報酬や。単純に、AIエージェントが意図された推論構造に従うことを奨励するんや。出力が定義した整った形のブロックを含んでる場合とかな。

そして2番目に、答え報酬がある。ここで、黄金の真実の答えと比較して、生成された答えの意味的正しさを本当に測るんや。

再び、知ってるプロセスやけど、今少し複雑になってる。「待って、Iオペレータ知ってる」って言うやろうな。もちろんや、これは検索R1でロスマスキングがある時に見せたやつと全く同じなんや。3部構成の動画シリーズがあったら、これを見てすぐに何が起こってるか理解できるのがとても簡単やということが分かるやろう。他の動画を見てたらな。

強化学習における報酬関数の進化

でも「待って、強化学習でRAG3について話した2番目の動画があって、これをUR2と呼んだな」って言うやろう。17分34秒で彼らの報酬アイデアを見たときも覚えてるやろう。報酬関数の2段階アイデアもあったんや。同じく検索活性化があって、報酬関数は正しいツール使用だけを気にして、最初のステップでは答えの正しさは無視されて、そしてステージ2でのみ答えの品質のためのさらなる最適化に行ったんや。UR2で最終答えの正しさをここで評価したな。

UR2の著者からのこのアイデアが、今この出版物でも見つかるんや。この第3の動画でも、フォーマット報酬関数と答え報酬関数があって、2番目の時には生成された答えの意味的正しさに行くんや。

だから多くの並行したことが見えるやろう。これは清華大学によるものやった。素晴らしいな。

このミニシリーズの第3の動画での洞察は何かって？今まで違う方法でフレーミングしようと思ったんや。今まではエージェント、AIエージェントの性能を向上させなければならないと思ってただけやった。メモリ最適化、キー値キャッシュ最適化などをここで改善しなければならない。MCP最適化、AIエージェント、LLM自体についてのすべてや。

環境構造の重要性

そして今ここで、残酷に見えるのは、環境の構造についてでもあるということや。エージェントが環境と相互作用するのが、ここでのエージェントの定義やからな。この環境がどのように構造化されてるか、エージェントが環境で遭遇する複雑さが、エージェントの性能の決定要因なんや。Graph-R1の成功の理由の1つやと思うし、すぐに性能データを示すけど、環境の知識をここで構造化することが、単なるデータエンジニアリングタスクじゃないということを示してるんや。単にクリーンアップするだけじゃなくてな。これは高性能推論エージェントを構築するための基本的な部分なんや。

だから短く言うと、エージェントが何かと相互作用するから、よりスマートなエージェントを構築することだけじゃなくて、これを完全なシステムとして見なければならないんや。

エージェントとその知識環境の一種の共生システムなんや。ハイパー知識グラフに行くなら、これらのシステムは性能を向上させるときに能力で共進化しなければならないんや。

私の次の動画の1つは、こんな感じになるやろう。外部世界の非構造化カオスから意味的秩序へ、マルチエージェントシステムの高度推論の触媒としての環境。現在のAIシステムを考慮して、環境の最適化された表現を再構築しなければならないからな。

現実世界でのAIシステムの限界

現在のAIシステムについて話してるけど、昨日インターネットでこの動画を見つけたんや。数年前のもので自分で見つけることができる。メイントピックは何やったか？中国からのAI搭載車の性能をクラッシュテストしたんや。夜の高速道路で高速で、突然車が立ってる。前でも側面でもなく、対角線的な解釈の一種や。

タイトルを見たら、そこで何が起こったか正確に理解できるやろう。興味深いことに、コメンテーターの1人が、高速で、高速道路の速度で、多くのセンサーやライダーや何やかんやレーザーがある場合、現在の車に組み込まれたAIシステムにとって、高速道路速度での急速に変化する環境が複雑すぎるかもしれないと気づいたんや。完全な環境を検出して分析するだけじゃなくてな。

環境内のオブジェクトの位置を理解する。オブジェクトの動力学についてすべてを理解して、この障害物にクラッシュしない脱出経路、脱出ルートをここで計算しようとする。これをリアルタイムで見るのは絶対に興味深いで。中国のテレビか放送局ADAS testに感謝するわ。これらのAIシステムをリアルタイムで見て、どのように失敗するか、大規模に失敗するかを見るのは絶対に魅力的やった。そして船上により多くのシステムを持つほど、失敗率との相関があったんや。

これについて考えなければならなかった。本当に安い車が1台あって、センサーがあまりなくて、安いバージョンやったんやけど、この車は多くの問題を解決することができたんや。だから1つのシステムにより多くのセンサーアレイを詰め込むほど、高速道路速度で大量のデータストリームが入ってくるのに、現在の実装での速度を持つのが分かるやろう。

これは現在のAIシステムの限界を明らかに示してるんや。要約すると、現実世界は特に高速道路速度で2つ以上のエンティティに接続する非常に複雑な事実で満ちてるんや。古典的なグラフ構造だけに行くなら十分じゃないやろう。

ハイパーエッジの革新性

ここにGraph-R1論文からの文があるんや。この文を見てくれ。特定の条件、高血圧症、特定のレベルのオブジェクト、特定の定量化、特定の診断を持つ患者との関係がある。これを古典的なグラフ構造にマッピングしたいなら、何かを見逃すやろう。これらの事実の相互接続された複雑さ、相互関係を見逃すんや。

標準RAGはチャンクだけや。標準グラフはもちろん、このような損失のある不完全なペアのシリーズに分解される。そして本当にハイパーグラフRAGのこのハイパーエッジアイデアが必要で、この特定の患者に特定のすべてのノードがあるグループ化、クラスタリングを本当に持ってて、この情報に即座にアクセスできるんや。

だからハイパーエッジのアイデアが、必要な前進のジャンプになる可能性があると思うんや。このハイパーエッジがここで、この単一文の4つのエンティティノード全部をリンクしてるからな。

システムの詳細な動作フロー

今、どのようにやるかがあって、強化学習に自動的に学習させる前に、この操作の正確なフローを理解するだけでいいんや。AIシステムがこれを自動的に学習する。だから、RLが次のステップで学習するフローを絶対的な精度で本当に定義する非RLバージョンを持たなければならないんや。

ハイパーグラフを詳細に使用する仕組み。最初に4つのポイントで、知識ハイパーグラフ構築をしなければならない。このためのコードがある。Wikipediaのテキストを取って、GoogleかMicrosoftに言うと想像してくれ。「今、グローバルWikipediaで本当にWikipedia全体からハイパーグラフを構築してください」って言うんや。開発者向けに無料でこのデータがあったら本当に興味深いやろうな。

2番目に、既に見せたように、単純なキーワード検索よりもはるかに多くのデュアルパス検索戦略がある。2つの攻撃方法があって、エンティティ検索とハイパーエッジ検索、そしてハイパーグラフ知識融合がある。これが重要なステップやということを覚えてくれ。取得したエンティティを取って、接続されたハイパーエッジ全部を見つけるために検索を拡張するんや。

でも取得したハイパーエッジも取って、これらのハイパーエッジを拡張して、ハイパーエッジ内の接続されたエンティティ全部、すべてのノードを見つけるんや。だから宇宙のビッグバンのような双方向拡張があるんや。

近くにあるすべてのために完全なデータコンテンツまたは完全な情報コンテンツを確実に持つようにして、そして生成がある。ハイパーグラフガイド生成、古典的なRAGシステムや。だから最終的に取得された知識は、従来のテキストチャンクのような他のシステムと組み合わせることができて、特定のプロンプトでLLMに供給して、古典的なRAGシステムを持つんや。

ベクトル空間の必要性

再び、何かに気づいたか？ポイント2のハイパーエッジ検索で、並行してユーザークエリと意味的に類似したハイパーエッジを見つけて、これは不可能やと見たから、非常に高速やったんや。このポイント2に戻ると、著者は本当に追加でベクトル空間、埋め込み用のベクトル空間を構築しなければならないと決めたんや。

人間のクエリのような類似表現を見つけるプロセスのために、まだベクトル空間に行くんや。他にも多くの機会があるけど、ベクトル空間に行って、「別の文埋め込みモデルがある」って言うんや。何でも使って、言及することはないんやけど、すべてのノードとすべてのハイパーエッジのためにベクトル空間表現と埋め込みを作成するんや。

古典的なRAGシステムでやるように正確にな。なぜかって言うと、もちろん今構築したGraph-R1エージェントのためにも、意味的類似性検索最適化を見つけなければならないからや。コサイン類似性関数を通らなければならなくて、今問題はこのコサインの要素は何か？数学的空間の複雑さは何か？最も簡単な場合、ベクトル空間なんや。

でももちろん、ヒルベルト空間で動作したいやろう。これは知ってた。でも今のところ、ベクトル空間で行かなければならないんや。ということで、ベクトル空間と埋め込みも構築しなければならないことを知ってて、そして意味的類似性検索クラシックを持つんや。

全体システムの統合

今すべてがある。今すべてが理解された。プロセスを理解した。ステップを理解した。起こってる完全なフローを理解した。そして今、AIに「お前、強化学習のやり方知ってるやろう。これがデータセット、これが方法論、これがフロー、学習しろ」って言うだけや。素晴らしいな、それだけや。

だからハイパーグラフRAGシステムでのハイパーグラフ構築方法は、Graph-R1の前処理で使った方法と全く同じで、印刷されない。ハイパーグラフRAGでの多段階検索と拡散パイプラインは、Graph-R1エージェントに必要なプロセスと全く同じで、既に示した目的関数でGPOを使った古典的強化学習を使って、システムを学習させて、自律的に最適化プロセスを実行させるんや。それだけや。

美しいのは、固定された人間がコーディングしたハードコーディングされたループ数、レベル数、何でもプリプログラムされた素材戦略の代わりに、今Graph-R1エージェントが人間のクエリに対する解決策を見つけるために最適なマルチターンポリシーを自分で学習する、より複雑な数学的最適化プロセスを持ってることや。

プロンプトの実装詳細

ハイパーグラフRAGシステムで使ったプロンプトを見せたいんや。自分でも本当に興味があって、「これはどのくらい複雑になるんやろう？」って言ったんや。何やと思う？また別のLLM、別のAIシステムなんや。

人間はもうループにいないんや。関係抽出プロンプトTがない。これは文書からのスクリーンショットや。だからこのプロンプトは、生テキスト文書から構造化された二進グラフ関係事実じゃなく、n項関係事実、ハイパーエッジを抽出するために設計されてるんや。これはここでこれで行われて、何らかのLLMがこの仕事を実行してるんや。

もちろん、エンティティ抽出プロンプトも必要や。今Tがある。おめでとう。だからこのプロンプト、これがプロンプトや。もちろん、実際のデータで記入された例があって、実際に持ってるクエリがある。このプロンプトは、ユーザークエリからキーエンティティを抽出するために使われるんや。でも理解してる。ここで文を示したな。

メタコマンドを知ってるし、これは前提条件を持つ人で、量詞があって、それから何かもある。だからここでエンティティを抽出して、そしてここで検索拡張生成プロンプト。なじみのあるすべて。前にテンプレートを見せただけや。今、完全なプロンプト構造がここにある。

これだけや。特別なものも派手なものもない。単にハイパーグラフRAGシステムに行って、新しい最適化された強化学習方法論とインテリジェントな方法で組み合わせるだけや。

実験結果と性能評価

結果はどうや？何か良いもんか？Graph-R1論文の付録に表5があって、これを強く推奨するで。ここから始めようか。非常に特定の医療質問があるクエリがあって、それから人間の答え、ゴールデンコア答え、超音波何とかがあるんや。そして機械の異なる視点をテストするベンチマークがようけあるんや。見てみよう。

標準RAG、グラフRAG、ライトRAG、PRAG、ヒッポRAG、ハイパーRAGがあるけど、読めるで。これを見つけたんや。だから最初の3つを見てみよう。ナイーブ、素晴らしい標準RAGで、各ベンチマークの評価スコアがここにあって、それからグラフRAGで評価スコアがここにあって、ベンチマークがどこにあるかの第一印象が得られるで。

それからライトRAG、PRAG、ハイパーRAGがあって、そして最後にここで関係スコアがあって、最初のが100%、70%、92%、90%、95%、100%、100%やということが分かるやろう。だからGraph-R1の著者によって選択されたこの選択された論文で、Graph-R1の著者によって選択された複雑さで、これがGraph-R1の著者が新しい方法論の最良の完璧なケースとして見せたい結果なんや。

絶対に魅力的やな。でも「これは使う特定のLLMにどのくらい依存してるんや？」って言うかもしれへんな。そして彼らはこれをチェックしてるんや。GPT-4 omniを使って、Q1 2.5の1.5B、3B、7B instructを使って、そしてすべての異なるデータセット、wikiデータセット、ホットスポット質問と答え、音楽とエラーで、すべてのパラメータがここにあるんや。標準RAG、グラフRAG、ライトRAG、パスRAG、ヒッパーRAG、ハイパーグラフRAGのすべての性能データを再び見てくれ。7Bを見たいなら、最後のブロックを見てくれ。

7Bは既に推奨するモデルなんや。残念ながら、まだ2.5 Qwenで3バージョンのQwen 3じゃない。気にせんでええ、方法論で比較すると、Graph-R1の太字が最良で、他のすべての方法論を本当に上回ってるのが分かるやろう。本当に素晴らしい結果やけど、これはもちろん期待してた何かや。

だから評価のための古典的データセットに行っても、これは将来にとって本当に絶対に興味深く見えるんや。そしてそれがあったんや。簡単やった。

まとめと将来への展望

これで3本目の動画の終わりや。今日達成したことは、RAGシステム、古典的RAGシステムでも古典的グラフRAGシステムでもなく、複雑な推論に必要で重要な、より高い複雑さのハイパーグラフシステムに行ったんや。

すべての要素、すべての相互作用、すべての依存関係を定義した。プロセスのフローを定義して、そしてGRPO目的といくつかの制御パラメータを持つ通常の強化学習プロセスを使っただけや。そしてAIが解決できる自律的で完全に自動化されたスケーリング自己学習最適化問題を持ったんや。

古典的RAGシステムと比較した新しいシステムの性能を見せた。楽しんでもらえたことを願ってる。次の動画で会えたら素晴らしいな。