固有値の後：EIGEN-1マルチエージェントRAG

この動画は、マルチエージェントシステムにおけるRAG（Retrieval-Augmented Generation）の最新研究であるEIGEN-1フレームワークについて解説している。従来のLLMが単体で22%程度の精度しか達成できなかった科学的推論タスクを、複数のAIエージェントが協調することで50%以上まで向上させる革新的な手法を紹介する。特に、推論プロセスを512文字間隔でモニタリングし、知識ギャップを即座に検出してRAGシステムから情報を取得する仕組みや、階層的解決精密化プロセスによって複数の解決案を相互検証する手法が詳しく説明される。

After Eigenvalues: EIGEN-1Multi-Agent RAG

EIGEN-1 is a highly efficient agentic framework that replaces explicit tool calls with an implicit, on-stream Monitor-Qu...

EIGEN-1：マルチエージェントRAGシステムの革新
HLE（人類最後の試験）ベンチマークでの課題
エラータイプの分析
構造的・通信複雑性の解決
EIGEN-1フレームワークの紹介
モニターベースRAGシステム
インジェクターとコンテキスト最適化
システムの知能とインジェクター
階層的解決精密化プロセス
品質認識反復推論プロセス
研究結果と性能向上
データベース構築と実装詳細
将来の展望とマイクロダイナミクス

EIGEN-1：マルチエージェントRAGシステムの革新

こんにちはコミュニティの皆さん、今日もお戻りいただき嬉しく思います。今日はマルチエージェントシステムにおけるRAGについてお話しします。皆さんは「完璧に協調するエージェントのチームをどうやって構築するのか」と疑問に思うかもしれませんね。

今、私たちはプロンプトエンジニアリングから離れて、マルチエージェントの認知アーキテクチャへと移行しています。これらのエージェントは社会的、いわゆる「社会的」な動力学を持つようになります。機械が社会的な動力学を持つのです。つまり、私たちはLLMの囁き手から、マルチエージェント構造を持つ社会の建築家へと移行しているのです。

今日の私たちの課題は何でしょうか。素晴らしい新しい論文があります。これは今日最高の論文です。ソリューション2として、ここにベンチマークがあります。ご覧ください。これらは皆さんがご存知のLLMです。Gemini、DeepSeek、QwenのGemini、Claude 3.5、Grok-4などで、性能と精度において最高なのはGrok-4の30%です。では、どうすれば50%に到達できるでしょうか。これが今日お話しする内容です。

HLE（人類最後の試験）ベンチマークでの課題

それでは、ここから始めましょう。HLEをご存知でない方のために説明しますと、これは「人類最後の試験」で、少し科学的な側面があります。生物学、化学の問題です。現在のLLMのパフォーマンスを見ると、少し複雑になると性能が大幅に劣化します。

そして今、これを組み合わせて言います。「深いドメイン知識からの外部データが必要だ」と。もちろん、これが私たちのRAGシステムです。RAGを複数のエージェントによる複雑な多段階推論に統合する必要があります。異なる時間と異なる複雑さレベルで動作するのです。皆さんは「ついにAIが面白くなってきた」と言うかもしれません。その通りです。

私たちが話す2つの基本的なアーキテクチャ上の制限とその解決策があります。私たちには推論トレースの論理的フローの断片化があります。RAGを呼び出したり、新しい外部データを取得するために明示的なツール呼び出しを行う際に、推論プロセスが中断されるのです。また、多数決を行う民主的なマルチエージェント協力では非効率性が見られます。

エラータイプの分析

これらの問題にどう対処するか、2つのエラータイプをお見せしましょう。エラータイプ1は、単純にLLMが過信しているというものです。RAGは全くありません。LLMは自身のパラメータ的知識に頼って「この特定の公式について知っている。これが数学的表現だ」と言います。しかし、それは純粋な幻覚だったのです。実際は違うものです。では、なぜRAGシステムが必要なのでしょうか。LLMは知っているのです。「知っている」というのは引用符付きですが、実際は幻覚を見ているのです。

エラータイプ2はより興味深いものです。RAGの呼び出しがLLMの推論トレースを中断するというものです。これは人間に例えると、何かについて考えているときに「もっと情報が必要だ」と思って深く調べる、たとえばGoogleで検索して、解決策を持って戻ってきて「推論プロセスのどこにいたんだっけ？この新しい結果、この新しいデータ、この新しい知識を古い推論トレースにどう統合するんだ？そして推論トレースをどう修正するんだ？」と言うようなものです。

LLMも同じ問題を抱えていることが分かります。もちろん、彼らは人間の行動を模倣しているのです。RAGの呼び出しが推論を中断するエラータイプ2があるのです。

構造的・通信複雑性の解決

これを解決しましょう。一歩下がってマルチエージェント協力を見ると、2つの別々の問題があることが分かります。アーキテクチャ的ハイパープレーンで解決する構造的複雑性の問題と、通信複雑性に関する問題があります。

マルチエージェント間で共有する情報の量、時間、そしてすべて – 情報交換自体、量、詳細、どの時間枠で行うか、どのLLMとエージェントにどの情報を提供するか、どのエージェントが意思決定を行うか、多数決システムを使うか – なんという複雑さでしょう。解決策が何か推測できますよね。はい、もちろんRAGと統合します。そうでなければ、これは退屈なビデオになってしまいますから。

EIGEN-1フレームワークの紹介

解決策は何でしょうか。新しい論文があります。それはEIGEN-1と呼ばれています。EIGEN-1は固有値やEIGEN関数のようなものです。EIGEN-1は美しいアイデアで、先ほどお見せしたベンチマークを50%近く、48.3%まで押し上げます。

GPT-4o単体の性能精度は22.8%です。OpenAI Deep Researchによるo1-mini for exampleを使っても、この特定のベンチマーク「人類最後の試験」で22.8%を達成しただけです。しかし、私たちは50%を目指しています。これをどうやって実現するのでしょうか。EIGEN-1で実現します。

これは新しいフレームワークで、たった3つのコンポーネントからなります。とてもシンプルです。リトリーバル引数があります。直接的ではありません。トークンを継続的にモニタリングするリトリーバル拡張プロセスフレームワークです。

モニターベースRAGシステム

モニターベースRAGシステムがあり、例を使って詳細をお見せします。セマンティック不確実性を通じて知識ギャップを検出するために、トークンレベルで継続的に動作します。そして、RAGシステム用の即座のクエリを生成し、取得した情報を推論プロセスにシームレスに注入します。

別の要素があります。これは階層的解決精密化という美しいものです。この情報を使って、システムは複数の解決策を生成します。10個の解決策があるとして、1つの候補解決策をアンカーとして選び、他の9つの解決策と相互チェックします。これを反復的に行います。

10個の解決策にあるすべての情報を絞り出し、比較して階層的解決精密化プロセスを生成します。最後に、複数のエージェントによる反復的推論プロセスがあります。このビデオはエージェントでいっぱいです。

最初のモニターベースRAGを見てみましょう。リトリーバル拡張チェックが継続的に行われます。512文字の固定間隔で推論を継続的にモニタリングし、次のトークン生成推論トレース生成内で行います。128文字のオーバーラップがある512文字で、境界では何も見落としません。

問題があると、LLMの推論トレース（GPT-4oでも、オープンソースでも）を見て、推論トレースが実際に見えます。「このパイパラメータについて少し知っている」と言うと、これがモニターベースRAGシステムによって即座に検出されます。「追加情報を提供する必要がある。推論トレースでさらに500文字待つ必要はない。すぐにクエリがRAGシステムに送られ、データベースに、NoSQLでも何でも、追加情報がある」と。

インジェクターとコンテキスト最適化

インジェクターがあります。それを投影し直します。マルチモダリティの可能性があることを覚えておいてください。それを投影し直すと、突然追加のコンテキストが得られます。コンテキストの最適化です。

しかし、見てください。私たちが何をしているかを見てください。一歩下がって見てみましょう。これはあなたが馴染みのある構造です。なぜこれを行うのでしょうか。送信するクエリを可能な限り細粒度に、最小限に、できるだけシンプルにすることで、エージェントは不必要な検索スペースの拡張を避けます。「単一の用語が理解できない」と即座に言って、すぐに行ってこの用語が何かをチェックし、説明を求めます。検索スペースが高次元に拡張することを望まず、最小限にして即座に応答したいのです。

したがって、取得した証拠の関連性を最大化します。推論トレースの512文字以内で動作する完全に新しいランクシステムです。

しかし、私たちが何をするか分かりますか。これも複雑性です。512文字または推論複雑性があり、RAGで馴染みのない不確実性の複雑性を、可能な限り細粒度の最小要素に削減します。これらの最小要素をクエリします。

システムの知能とインジェクター

システムの知能は、システムが複雑な知能を持つことではありません。完全に逆です。複雑性に向かい、それを何百もの断片に刻み、それらの100個の断片のそれぞれの小さな断片を解決します。そして、うまくいけば、それらを一貫した解決策として再び組み合わせることができるでしょう。そのため、第2部があります。

インジェクターはRAG結果を持って戻ってきて、生のRAG出力を簡潔なユーティリティ重視のスニペットにフィルタリングして圧縮します。はい、もちろん、ここに別のエージェントがあり、何が素晴らしいか正確に分かります。追加のコンテキストを提供したとしたら、インジェクターは元のコンテキストとRAG結果を持っており、これに馴染みがあります。

例を見たいなら、インジェクターで問題が発生する可能性もあることを覚えておいてください。例を見てみましょう。これは人間の質問です。これは私たちのベンチマークからの1つのクエリです。

LLMが推論セットを開始します。「2つのなんとかがある」。そして、モニターが来て「推論トレースと再結合誘発変化点で不確実性を検出した」と言います。

クエリが「すぐにクエリを定義する。キーワード、キーフレーズを生成して抽出する。それらからクエリを定式化し、すぐにクエリする。アップロードタイプの再結合変化点はいくつあるか」などと言います。リトリーバーから知識を取得し、インジェクターがこの追加情報、私たちが知っているすべてを持ち帰ります。

階層的解決精密化プロセス

しかし、この情報を得たところで、今度は本当の作業が始まります。拡張されたクエリがあり、複数のエージェントが動作しています。この追加のコンテキストで初期解決策を生成する提案があります。10の異なる解決策があるとしましょう。私たちは確率システムにいます。正しい解決策が何かは分かりません。

コレクターがあります。コレクターが1つずつチェックします。そして、精密化という美しいことが起こります。この精密化が第2ステップの階層的解決精密化です。これは特別です。

10の解決策それぞれに対して、論理完成、数値修正、方法論置換、または技術用語の表現精密化のために修復戦略を適用します。10の要素の最初の1つを選択しました。1つのアンカーと9つの解決策があります。相互チェック、相互参照を行い、もちろんLLMがどれだけ知的かによります。

これをテキストで見ると、とても楽しいものです。ピア情報修復メカニズムがあります。これがHSR（階層的解決精密化）で、すべての解決策（10個）が最終出力に等しく貢献すべきという仮定に挑戦します。すべての解決策が同じ美しさや同じ知性を持つわけではありません。AIシステムの投票は最良の方法ではないかもしれません。

品質認識反復推論プロセス

したがって、エキスパート協力パターンを反映した構造化関係とピア情報修復構造があり、品質認識反復推論プロセスに進みます。

ここには別のLLMベースの評価者、別のエージェントがあります。チームは論理、回答、説明の3つの品質次元を定義し、改善提案も含みます。複数の次元に対して特定の閾値があります。この閾値を超えると、回答が閾値を超えます。

最良の解決策を選択します。ランカーがあります。従来のランクRAGシステムから知っているランカーで、最終回答があります。シンプルで馴染みがありますが、エージェント、エージェント、エージェント、エージェント、エージェント、エージェントが相互作用し、非常に低い複雑性で特定のタスクを与えられた複雑さは、複雑性を最大限まで削減する必要があることを示しています。そうでなければ機能しません。

研究結果と性能向上

しかし、ここで設計したマルチエージェント協力の新しいアーキテクチャを考えると、素晴らしい結果が得られます。これを見てみましょう。

これは研究1「科学的推論のためのモニターベースRAGを用いた適応的マルチエージェント精密化」です。イェール大学、上海交通大学、復旦大学、カリフォルニア大学ロサンゼルス校、上海AIラボ、オックスフォード大学、およびAllen AIが2024年9月25日に発表しました。

完全な例を見たい場合、LLMがステップ2で推論を再開し、コーディングに進み、コーディング結果の抽出に進み、最終要約に進みます。美しいです。この論文が発表されてからわずか9時間後にこのビデオを録画しました。

GitHubで見ると、「詳細は近日公開」と書いてあります。このビデオを見る頃には、明日にでも、GitHubリポジトリのコードが既にあることを願っています。

結果を再度見てみましょう。これは数値的で、ビデオの冒頭で示した最初のベンチマークです。GPT-4oは22%です。これは有名ではなく、34%まで上がる他のエージェントシステムがあります。マルチエージェントを使用すると大幅な跳躍がありますが、EIGEN-1を使用してオープンソースのDeepSeek V3またはo1を使用すると、私たちが望む50%に近づき、o1を使用すると60%を超える性能を得られます。

これは本当に素晴らしく、比較できる他のベンチマークもあります。マルチエージェントシステムでは22%から50%または60%の精度に跳躍することが分かります。機能しているようです。

データベース構築と実装詳細

ここで付録のスクリーンショットを示します。RAGデータベースがどのように構築されたかを正確に示しています。生物学と化学の10,000のPDF論文から、PDF平文テキストなどを抽出し、ポジティブ・ネガティブキーワードなどもあり、完全なプロンプトも提供されます。

RAG箇条書き要約のために本当に素晴らしく、RAGの章でも、GitHubにはまだありませんが、少なくとも論文の付録には完全なプロンプトがあります。

将来の展望とマイクロダイナミクス

しかし、本当に興味深いのは、一歩下がって完全な研究を見ると、ここで提供される洞察です。EIGEN-1は効率的で効果的なエージェント協力システムのマイクロアーキテクチャで、サブシステムがエージェントがどのように相互作用し、リランクし、動作して科学的解決策を精密化し、真実により速く収束するかの正式なプロトコルを作成します。

ここでお話ししなかったのは、彼らは競合する他のマルチエージェントシステムよりも少ないトークンを使用すると主張していることです。継続的にモニタリングしているため、不足している知識、知識ギャップや技術用語の誤解を即座に識別し、他の場所に行って爆発したりループに入ったりしません。

彼らははるかに効率的だと言っており、これは素晴らしいことです。しかし、もちろんこれは物語の最初の部分に過ぎません。次のビデオでは、今見たマルチエージェントシステム間の相互作用を特に支配するマイクロダイナミクスについて深く掘り下げる予定です。これはマクロダイナミクスの視点からこれを補完するビデオになります。

楽しんでいただけたでしょうか。チャンネル登録をお願いします。次のビデオでお会いしましょう。