本動画では、テキストを介さない革新的なRAGシステム「S-Path-RAG」について解説する。従来のRAGシステムは知識をテキストチャンクに分割し、セマンティック類似性に基づいて検索するが、この過程で関係構造が破壊され、LLMの推論タスクが困難になる。S-Path-RAGは、知識グラフの構造的トポロジーを数学的ベクトル表現として直接LLMのトランスフォーマー層に注入することで、トークン消費を削減し、トポロジカルな関係性を保持したまま推論を可能にする。この手法は、Anthropicが開発中のClaude Mythosのようなマークダウンファイル依存型システムが抱える構造的知識の喪失という課題に対する解決策となりうる画期的なアプローチである。

S-Path-RAGの登場背景
皆さん、こんにちは。戻ってきていただき本当に嬉しいです。さて、今日はRAGについてお話ししますが、これまで見たことのないRAGシステムです。グラフ空間における構造的トポロジーと、セマンティック空間における潜在多様体について見ていきます。
なぜ今このタイミングなのかと思われるかもしれませんね。実は今、何かが起きているんです。もし私の前回の動画、特にAnthropicによるAIファイルシステムが知性を解き放つことができるかについての動画をご覧になった方は、メインのLLMがこれらのファイルシステムでは全く学習していないことに気づかれたでしょう。
正規のワークスペースがあって、そこにスキルMDファイルがスクリプトを参照し、タスク履歴やデータのすべてが含まれているとします。これは素晴らしいことです。すべてがMDファイルに収められています。しかし、LLMにとってはどうでしょうか。
そしてこれは偶然の一致とも言えますが、AnthropicによってClaude Mythosがリークされました。このMythosは次世代のAIモデルとなり、最高のモデルになると言われています。そうです、この地球上のあらゆるものを凌駕するモデルです。
お気づきかと思いますが、AnthropicはすべてをMDファイルにアウトソースすると、ある種の構造的知性を失うことを認識しているのです。そのため、彼らは今、次のAIモデルでこのすべてを補おうとしています。しかし、これは本当でしょうか。本当にそうなのでしょうか。
従来のRAGシステムの問題点
なぜなら、これを見てください。これは古典的なRAGシステムと類似性があります。すべてをアウトソースして、それをロードするだけです。インコンテキスト学習を行っているわけです。では、何が問題になりうるのでしょうか。
私はRAG 3.0エージェンシーについて完全なYouTubeプレイリストを持っています。そこには、グラフRAGシステムのための階層的推論から、RAGを使ったマルチエージェントシステム、Googleによる完全に新しいワールドモデルRAGやフリーRAGまで、先月のすべての開発内容が含まれています。
しかし、Anthropicで現在起こっていることについて話しましょう。私のより深い主張はシンプルです。テキストがチャンクに平坦化されるときに、現在知識をエンコードしている関係構造を破壊すると、すべての言語モデルが正しく推論できなくなる可能性があるということです。そうすれば、古典的なRAGシステムになります。
情報や知識の関係構造が明示的に保存されず、いくつかのMDファイルに入れられてしまうと、推論は突然、Mythosのような新しい超知的AIシステムにとって、直接的なグラフトラバーサルタスクではなく、創発的な再構築タスクになります。これは、いくつかの現実的なモデル制約の下では、著しく信頼性が低くなります。
テキストチャンクの問題
これはどういう意味でしょうか。アイデアをお伝えするために、典型的な古いRAGシステムでは、知識がここに別々のテキストスニペット、つまりテキストスニペットのセットとして保存されます。
チャンクA:「アリスは会社XのCEOである」 チャンクB:「会社Xは会社Yに買収された」 チャンクC:「会社Yは製品セットを開発した」
これらすべてが、ベクトル空間におけるセマンティック類似性を使って独立して検索される場合、各チャンクはクエリのセマンティック類似性に個別に似ているために選択されます。しかし、それらが一貫した推論チェーンを形成するという保証は全くありません。
このグラフを見てください。スニペットがあって、1、2、3、4、5、6、7個のスニペットがあります。そして今、どのスニペットが他のスニペットに属するのか、正確な論理的マッピングを見つけなければなりません。チャンクAをチャンクBに、チャンクCに接続して推論トレースを得るために、ベクトル空間、セマンティック類似性空間にどれだけの可能性が存在するか見てください。
元の関係構造を破壊し、バラバラにした瞬間、テキストはある程度内容自体を保存しますが、多くの場合、明示的な構造を破壊してしまいます。では、LLMのタスクは何でしょうか。この論理的推論を行うことが突然非常に困難になります。
LLMが直面する課題
なぜなら、LLMは今、適切なタイミングで適切なチャンクを取得し、パラメトリックな知識と事前学習を考慮してそれらがどのように接続されているかを推論し、そして確率システムと自己回帰的な次トークン予測システムの中で推論チェーンを内部的に構築しなければならないからです。
私たちがMDファイルで見逃しているものが何か、お分かりいただけますか。私たちが遭遇する複雑さについて考えてみてください。
組み合わせ推論があります。LLMはここで組み合わせ探索問題に直面します。RAGシステムで10個のチャンクがあるとします。今、LLMはどれが関連性があり、どの順序で、どのような関係の下にあるかを考えます。しかし、これは内部計算において組み合わせ爆発を引き起こします。
私たち人間にとっては、スキルMDファイルが1つ、または20個のスキルMDファイルがあり、経験ファイルがあり、すべてのメモリファイル、メモリMD、すべてが自然言語ファイルにアウトソースされているのは素晴らしいように見えます。しかし、これはLLMにとっては大きな問題を引き起こします。
グラフ空間とセマンティック空間の二重性
これをどう解決するのでしょうか。このゴルディアスの結び目をどう切り抜けるのでしょうか。どうすればいいのでしょうか。
これまで使用し、開発してきたものはシンプルでした。グラフ空間では、LLMの認知負荷を軽減する明示的な構造がありました。簡単でした。論理的チェーン、グラフ構造、ノードエッジA、B、C、Dがあれば、完了でした。
しかし、この構造がなく、すべてをセマンティック空間に戻すと、LLMはパターンマッチングを使って関係を再構築しなければなりません。これは完全に信頼性に欠けます。特に複雑なマルチステップ推論においてはそうです。
したがって、私たちが実際に持っているのは、現在進行中のAI知識表現の戦い、二重性です。これは、私たちが2つの異なる数学的空間で動作していることを意味します。グラフベースの推論とLLMのためのシーケンシャルモデリングがあります。
グラフでは簡単です。ノードとエッジ、エンティティと関係があります。しかしLLMはテキストをシーケンスとして見ており、推論はトークン表現の内部で暗黙的になります。したがって、トークン確率分布の内部で推論が行われます。
アテンションはグラフトラバーサルとは比較できません。LLMはアテンション行列を使用します。しかし、アテンションはパスの妥当性を強制せず、推移的推論を保証しません。
グラフ検索とシーケンスモデリングの比較
グラフ検索とシーケンスモデリングを比較すると、このモデルがどこに導くかがわかります。グラフは推論の前に検索空間を制限します。しかし、シーケンス、つまり自然言語LLMは、LLMに推論プロセス中に検索ベースを再構築することを強制します。
そして今、知識の複雑さで起こっているすべての平坦化は、グラフ上の構造化された最適化問題を、残念ながら潜在構造を持つシーケンス上の制約のない推論問題に変換してしまいます。これは限られた計算とアテンション確率の下で解決するのが厳密により困難です。
S-Path-RAGの登場
したがって、なんという偶然でしょう、まったく新しい論文があります。これは2026年3月26日に発表されました。なぜか3月5日と書かれていますが、気にしないでおきましょう。
マカオ大学、深セン大学、漢陽大学、浙江大学、リバプール大学が一緒になって、マルチホップ知識グラフの特定の仕事のために、新しいシステム、セマンティック認識最短パス検索拡張生成を構築したと言いました。
では、最も簡単な方法である質問応答のために見ていきましょう。これがS-Path-RAGです。
マルチホップとは単純に、答えがいくつかの事実を連鎖させることに依存していることを意味します。どのテキストチャンクがセマンティック的に類似しているかを尋ねる代わりに、S-Path-RAGシステム、これは完全に異なる種類のRAGシステムですが、単純に証拠の断片が特定のドメインで意味のあるパスを形成しているかどうかを尋ねます。
セマンティック類似性から構造的妥当性へ
セマンティック類似性から構造的妥当性へのシフトがあり、これが興味深い部分になります。RAG、そして私たちはここで少し数学に深く入り込んでいきますが、RAGは検索と推論のフレームワークです。
RAGはもはやRAG 3.0ではありません。何と呼びたいかはわかりませんが、本当に今、すごいことになっています。RAGは今、トポロジー認識グラフ検索エンジンを持っています。さらに、統合のためのセマンティックガイダンスを持ち、これをコンパクトな潜在融合アルゴリズムで行います。
これはRAGの下であなたが知っているものではありません。私たちには1つの仕事があります。知識グラフ上のマルチホップ質問応答を強化することです。そしてこの論文は、私の謙虚な意見では、かなり美しい革新を持っています。
明示的に重み付けされたパス検索戦略、微分可能な、そしてこれが美しい点ですが、パススコアリングメカニズムがあり、古典的な検証器を組み込み、LLMに言語表現ではなく、ソフトな潜在表現を注入します。
明示的な診断から検索へのマッパーがあり、これはルールベースまたは学習可能です。もちろん、ソフトからディスクリートへのグラフ編集への移行のための新しいメカニズムがあり、RAGシステムは今、アシスタントに新しいサブグラフをメイングラフに追加するよう依頼します。
したがって、純粋な知識グラフレベルでの最適化ステップとなりうる追加の強化学習も持つことができます。これらが、このビデオで今から遭遇する新しい革新のいくつかです。
システムの概要
では、見ていきましょう。美しいです。テキストがあるとしましょう、本か何かがあって、人間の自然なテキストがあります。次に、これを知識グラフに変換します。あるいは、すでに知識グラフ表現を持っているかもしれません。
そして今、仕事は、この数百万または数十億のノードとエッジを持つ知識グラフから、LLMに実行を依頼した仕事に必要な情報をここで抽出することです。フードの下で驚くべきことが起こっています。
探偵の比喩
私は簡単な例から始めたいと思います。私はいつもウォームアップ段階が必要なんです。何について話しているのかを理解する必要があります。完全な構造を見てから、深く掘り下げたいのです。これはあなたに話せる物語だと思います。
LLMが探偵だと想像してください。探偵は複雑な事件を解決しようとしています。もちろん、知識グラフはこの探偵の前にある巨大な壁で、容疑者や物体、場所などの写真で覆われており、それらを接続する赤い紐があります。
AIに目を作ってもらえますか。素晴らしい。私たちの前には多くの情報があります。
標準的なRAGシステムは、壁から50枚のランダムな写真を引きはがして、特定のサブセットを取り出し、それらを探偵に手渡して、「これらを読んでください」、レポートかもしれないし、これらの画像を見てくださいと言うようなものです。
しかし、ここでのコンテキストウィンドウの探偵は、単に圧倒され、混乱してしまいます。情報が多すぎる可能性があります。では、今何が起こっているのでしょうか。
このS-Path-RAGシステムは、最初の見ると、証拠ボードの小さな関連セクション、特定の現在のサブグラフ、小さいGを見て、手がかりがどのように接続されているか、赤いリボンがここでどのように接続しているかを研究すると言います。
パスの選択とフィルタリング
この特定のサブグラフで何に焦点を当てているのでしょうか。赤い紐を見つけると、手がかりを接続する最も論理的な接続、マッピング、または論理的な紐を見つけます。これらは画像や教科書などで表現されており、私たちはこれを候補パス、つまり探偵、LLMが仕事を解決するために絶対に興味深いパスPと呼びます。
そして、フィルタリングがあり、今、賢いアシスタントがいます。もちろん、それは別のシステムになりますが、今、それらの紐の重要性をスコアリングします。無関係なものを捨て、絶対的に最高の証拠だけを保持します。特定の時間tで選択されたHです。
探偵にこのすべての紐についての膨大なテキストレポートを自然な人間の言語で読むことを強制する代わりに、アシスタントはAIなので、今、すべての証拠を数学的に圧縮し、この密なデータを探偵の脳に直接ビームまたは転送します。
そしてそれはLLMなので、今、トランスフォーマー層にソフトな潜在混合を注入し、それにクロスアテンションメカニズムを適用します。
反復的なプロセス
次に、探偵はこのすべての情報を得て、最初の暫定的な推測を行い、答えはAかもしれないと言います。美しいです。しかし、探偵とその仲間が確信を持てない場合、彼らは今、メッセージを出力して、この特定の人物の上司が誰なのか、またはこの人物が7時にどこにいたのかなど、知る必要があると言います。
LLMは戻ってきて、この情報を見て、今、別のヘルパーに送られる診断メッセージ、追加情報を得るために十分な情報を持っていないと言います。
そして今、アシスタントはボードを更新し、人々にインタビューし、戻ってきます。7時にその人はこの場所にいたなどと言います。アシスタントは今、メッセージを使って証拠ボードに新しい特定の写真を追加するか、ああ、新しいアリバイがあったとわかったら、悪いものを削除します。グラフ構造、知識グラフ自体のグラフ表現を編集しています。
そして、ループに入ります。これを何度も繰り返します。閾値がある場合、最大10回まで、探偵が最終的な答えを持っていると非常に確信するまで繰り返します。
これが私たちが話している複雑さです。かなりシンプルなアイデアであることがわかります。残念ながら、これを数学的表現に変換すると、少し興味深くなります。
エンジニアリングへの翻訳
エンジニアリング的な翻訳から始めましょう。グラフエンコーディングから始めます。テキストがあり、テキストから知識グラフを構築し、ローカル知識グラフが目の前にあります。
そして今、グラフニューラルネットワーク、GNNがあり、メッセージパッシングでこのグラフを処理します。これについては複数のビデオがあります。特定のサブグラフまたはサブグラフのセット上のすべてのノードとエッジに対して、密なベクトル埋め込みを作成します。
これは、ネットワークが今、グラフのトポロジーを自然に理解していることを意味し、人間がグラフ構造で見ているものを正確に説明するテキスト記述だけに制限されていません。
グラフ構造自体のトポロジーの数学的表現が利用可能になっています。そして、パス生成とプルーニングがあります。お伝えしたように、システムは今、グラフを検索して重要なパス、エンティティAから関係BからエンティティCを見つけます。探偵は今、何が起こりえたかについて考えています。
そして今、ニューラルスコアラーを使って各パスに特定の確率を割り当てます。これは単純な数学的操作であることをお見せします。それによって、すべてのノイズとそれほど重要でない情報をフィルタリングし、最終的に重要と思われる選択されたパスの厳選されたリストになります。
ソフト潜在混合
今、ソフト潜在混合の興味深い部分が来ます。選択されたすべてのパス、たとえば20個のパスを、AがBを介してCに接続され、BがXに接続されているというようなテキスト文字列に変換する代わりに、システムは今、これらのパスのベクトル埋め込みを取り、それらを高次元空間の単一の連続テンソルに数学的に混合します。
これが今、私たちのZコンテキストです。突然、これらのパスの完全に異なる幾何学的表現があります。そして、もちろんそれをLLMに持っていく必要があります。
どうするのでしょうか。もちろん、グロスアテンション、クロスアテンションがあります。私たちが今持っているテンソルは、LLMトランスフォーマー層に直接渡され、LLMは今、このグラフデータを連続的なキーバリュー構造のセットとして扱います。2分後に式をお見せします。そのテキストトークン、私の人間のクエリが今、アテンドできるものです。
これが私たちが知っていることで、次のステップでデュアルLLM出力があります。
デュアルLLM出力とエージェンティックツール使用
LLMはクロス計算の後、答え、暫定的な答えと推論トレースを出力します。エンティティXについての詳細情報がまだ不足しています。
そして、RAGシステムにエージェンティックツール使用があります。システムは今、ポリシーπマップを使用して、テキストメッセージを実行可能な、たとえばデータベースクエリに翻訳し、インターネットやグローバル知識グラフなどのソースから、より多くのノード、特定のエッジを取得し、次のループ、次の実行のための新しい更新された拡張グラフネットワークを作成します。
これが今、エンジニアリングアプローチで処理する必要がある場合のステップです。ここにまとめてあります。グラフエンコーディング、パス生成とプルーニングから始め、ソフト潜在混合を作成します。
これをLLMに持っていき、クロスアテンションメカニズムで注入します。LLMは今持っている情報と知識について考え、デュアルLLM出力を作成します。より多くの情報が必要かもしれません。
そのため、LLMはより多くの情報を収集し、何かを計算し、戻ってくるためにいくつかのエージェンティックツールを使用することを決定します。そして、最初からやり直します。
標準グラフRAGとの違い
このRAGシステムは、RAGシステムの一部として、古典的なRAGシステムとは全く異なることがわかります。標準的なグラフRAGシステムでさえ、グラフRAGはパスの言語化に依存しています。
グラフからパスを抽出し、それらをいくつかの離散的なテキストまたはエンコーディングに変換し、LLMコンテキストウィンドウに詰め込みます。しかし、私たちが望んでいるのは、できるだけ長くコンテキストウィンドウを自由に保ち、インコンテキスト学習方法論にすべての情報を詰め込まないことです。
さて、S-Path-RAGシステムに、どのパスがLLMに実際に有用かを学習させるために、はい、お察しの通り、パス選択が微分可能でなければなりません。そうすれば、LLMの最終的な答えからグラフ検索器まで、古典的なバックプロパゲーション勾配を持つことができます。
システムに何かを学習させたいのです。したがって、微分可能でなければなりません。したがって、著者たちが考え出した数学的トリックを使用する必要があり、このトリックはシンプルですが、離散的なパスを選ぶことは微分不可能なステップであるため、彼らはここでGumbel-Softmax緩和式を使用します。
Gumbel-Softmaxとクロスアテンション
美しいです。これが何をするかというと、単純にシステムが各単一パスPに連続的な重みを割り当てることを可能にします。ここでノイズが注入されています。深く掘り下げたい場合は、論文を見てください。そうでなければ、これはトリックです。
今、興味深いのは、クロスアテンションインターフェース自体です。これは、このRAGシステムで今起こっている最も興味深い革新です。
彼らは今、ソフト潜在混合、Zコンテキストを、エンコードされたパス自体の重み付き和として定義します。そして、これを入力埋め込みに追加する代わりに、これは簡略化ですが、Zコンテキストをキーまたはキーバリュー行列、キーグラフとバリューグラフに投影し、それらをLLMのマルチヘッドアテンションブロック、私たちがよく知っているソフト関数に直接注入します。
アテンションは今、私の人間のクエリのクエリトークンとキーグラフ、バリューグラフ表現を持っています。LLMテキストクエリトークンは今、純粋なグラフトポロジカルベクトルに対して直接アテンションスコアを計算しており、それによって検索空間を制限し、数千のトークンを節約し、LLMのハルシネーション確率を劇的に減少させることが期待されます。
数学的詳細
数学的な観点から本当に理解したい場合、これは少し簡略化されていましたが、詳細が必要な場合、選択された各パスPに対して、グラフニューラルネットワークとパスエンコーダーは、パスにエンコードされた密なベクトル表現を生成します。
たとえば50個の選択されたパスがある場合、もちろん、特定の数学的空間に50個の異なるベクトル表現のセットがあります。システムは今、これら50個のベクトルのセットを取り、いくつかの線形投影層を通過させ、それによって今、キーの行列、キーグラフと値の行列、Vグラフを作成します。
各パス、これが今重要ですが、各単一パスは今、独自の対応するキーバリュー属性を持っています。そして今、システムは特定のアルファ関数を使用します。気にしないでください。信頼度、または検証器がある場合は検証器スコア自体を含んでおり、個々のパス表現自体をスケーリングします。
キーグラフとバリューグラフは個々のパスを表す行列であるため、LLMテキストトークンQトークンは今、知識グラフ内の特定の個別のパスに独立してアテンドできます。
これは、はるかに一貫した数学的説明です。したがって、これはLLMアテンションヘッド、古典的なものが、すべての個々のグラフパスを同時にスキャンし、LLMに実行を依頼した人間の質問に答えるために必要な正確なトポロジカル証拠を選び出すことを可能にします。
ソクラテス的グラフ対話
これが、トポロジカル空間で動いており、セマンティック空間に融合し戻していることがわかります。しかし、トポロジカル空間の構造と知識グラフが必要です。検索アルゴリズムの大規模な制限、検索空間の制限を持つために、そうでなければ、ばかげている計算リソースを無駄にするだけです。
次のステップとして、彼らが新しいソクラテス的グラフ対話と呼ぶものがあります。何でしょうか。コンテキストが連続ベクトルとして表現されているため、お見せしたように、LLMは今、この特定のベクトル空間にギャップがある場所を実現できます。
そして、LLMの特定の答えへの信頼度が低いとき、それはソフトな言葉ですが、診断メッセージを発して、アシスタントLLMまたはAIに、この特定の人物について、この特定の時点で、この特定の場所について、より多くの情報が必要だと伝えます。
したがって、マッピング関数πマップは、強化学習駆動またはルールベースのエージェントとして機能し、この診断メッセージ、文トランスフォーマーやBERTモデルのようなものを考えてください、をマスクまたはクエリに変換します。
論文に式があります。時間期間t+1のために、この追加情報でグラフを拡張します。これはすべて、私たちがすでによく知っていることです。これを行う方法を知っています。これまで見たことがないのは、この組み合わせです。
システムの全体像
組み合わせについて言えば、ここにスクリーンショットがあり、ここにニューラルソクラテス的グラフ対話ループがあります。これが彼らがここで呼んでいるものです。しかし、これはまさに詳細に見てきたものです。
このイメージをまとめるように今お願いされたら、もちろん私たちがちょうど話したこと、すでに提示したこと、メインの結果、論文への主要な洞察を反映して、この例で説明すると、S-Path-RAGシステムとは何かと言えば、人間が書いたテキストを読む代わりに、LLMがクロスアテンションメカニズムを介して知識またはドメイン知識を表すグラフトポロジーを数学的に吸収し、それに答えようと試みます。
そして、失敗した場合、これが重要ですが、失敗した場合、言葉で命令して、追加のサブグラフを提供する別のYでグラフの境界を拡張し、数学的信頼度閾値が満たされ、LLMがこれが正しい答えだと確信するまでプロセスを繰り返します。
モデルの訓練
なんとエレガントな解決策でしょうが、数学的には、うわあ、これは正直なところかなりいい論文です。かなりいい論文について言えば、もちろん彼らはこのモデルを訓練しなければなりません。実行時にこれを実行する運用プロセスについて話していただけでした。
しかし、これを実行するためには、このモデルを訓練しなければならず、モデルを訓練するには、損失関数、全体的な損失関数が必要であることがわかっています。これは特定の重み付き和です。ここに1、2、3、4、5の異なる項があります。
購読者であれば、この項に精通しているでしょう。特別なものは何もありません。しかし、もちろんここでラムダは、ハイパーパラメータを少し調整できる場所ですが、これはかなりデリケートなトピックですが、それ以外は特にありません。
どのようにこれを訓練するのでしょうか。これは重要です。グラフニューラルネットワーク、パスエンコーダー、検証器は最初にグラフベースの目的で事前訓練され、次にスコア、ある場合は注入投影層が最適化されますが、言語モデルはもちろん凍結されたままでなければなりません。
そして、言語モデルに対してより小さい学習率を使用し、検索モジュールに対してより大きい学習率を使用して、テルストまたはジョイント微調整を実施します。オプションとして、モデルはタスク固有の報酬関数を使用したPPOベースの強化学習でさらに洗練されます。
私たちは本当にRAGシステムでできることの限界にいると言えます。私はこれをRAGシステムとは呼びません。RAGシステムよりもはるかに複雑なものですが、RAGは単に誰もが知っていて反応するキーワードです。だからRAGにとどまりましょう。
しかし、これにはLLM自体の強化学習も含まれています。そして、これが現在のAnthropicのアイデアに従っているだけでは見逃している美しさです。
実験結果
結果について言えば、論文には大量の結果があります。ちょっとお見せしたいと思います。最終的に、これがS-Path-RAGです。2つの異なるベンチマークで、太字が最高のパフォーマンスデータを持っているのがわかります。
何だと思いますか。なんという驚きでしょう。記述した方法で学習を行い、事前訓練のための完璧なデータセットを持っている場合、これまで知っているすべてのものを凌駕します。
興味深いのは、S-Path-RAGが今、知識グラフ質問応答で通常抱えている主要な課題に対処していることです。この関連するマルチホップ証拠の特定、LLMにとってもっともらしいが完全にサポートされていないパスのフィルタリング、LLMへの構造化された証拠の効率的な提示などが含まれます。
LLMはよりシンプルな仕事を持ち、ハルシネーションが少なくなり、などなどです。
要約
S-Path-RAGの一部として、簡単な要約をすると、システムはセマンティック的に重み付けされたパスをランク付けし、検証パイプラインを介して偽陽性を抑制し、クロスアテンションメカニズムを通じて潜在パスを注入し、モデルガイドによるグラフ編集を介して検索を反復的に洗練します。追加のサブグラフがドメイングラフから追加されます。
論文はここで終わります。では、このビデオを始めたところに戻りましょう。私の問題に来ましょう。
S-Path-RAGは、Anthropicで見られるテキストへの平坦化問題を解決するのでしょうか。何だと思いますか。なぜ私がこの特定の論文を選んだのか。そうです、これがS-Path-RAGが解決するために発明された正確な核心問題です。なんという偶然でしょう。
マークダウンファイルの問題点
標準的なグラフRAGやナイーブな知識グラフ拡張LLMを使用すると、LLMが読めるようにグラフをテキストに翻訳し直さなければなりません。
マルチホップ推論のために、標準的なシステムはこのような長い言語化された文字列を生成します。そして、これは確実に災害の尺度です。美しいです。
著者たちは、この平坦化アプローチの2つの致命的な欠陥が、この新しいRAGシステムによって今、治癒されると指摘しています。私たちが持っていたのは、トークンコンテキストの肥大化です。
50個の可能なパスをシステムが検索し、これは低い方ですが、これらすべての50個の可能なパスをその複雑さのすべてで言語化すると、コンテキストウィンドウを冗長でノイズの多いテキストで満たし、パスのいくつかは他のパスに反対しているか、他のパスを無視しているか、わかりませんが、プロンプト構造に持ちたくないものです。
そしてもちろん、トポロジカルな盲目性です。LLMは自己回帰的な次トークン予測器です。テキストを線形に処理します。単一トークンまたはマルチトークン予測であっても、関係ありません。線形です。
グラフ表現にある高度に相互接続された知識を線形テキスト、線形テキスト表現に平坦化すると、LLMはこの線形テキスト人間言語表現における知識、データの明示的な構造階層と論理的接続性を失います。
したがって、私はマークダウンファイルのファンではありません。なぜなら、LLMにとって論理的接続を見つけることがはるかに困難になるからです。
S-Path-RAGの解決策
しかし、S-Path-RAGは、ちょうどお見せしたすべての問題を解決します。グラフを英語に翻訳する代わりに、グラフをいくつかの連続的な数学的ベクトル、そのコンテキストに翻訳し、クロストランスフォーメーション、トランスフォーマー層で脳に直接融合させます。
パスエンコーダーを使用し、それをキーと値に直接投影します。LLMクロスアテンションブロックのための詳細な数学的説明でこれをお見せしました。
LLMアテンションヘッドは、ベクトル空間で直接グラフトポロジーに対して古典的な数学的ルックを実行できます。テキストMD記述だけでなく、マルチホップ推論のものの複雑さを理解するのに役立つトポロジーの構造的記述があれば、LLMにとって人生がはるかに簡単になります。
素晴らしい。結果は何でしょうか。ゼロトークン肥大化です。これを見てください。グラフデータはLLM標準テキストトークンウィンドウを消費しません。そして、ゼロトポロジカル損失です。
なぜなら、グラフニューラルネットワークは、マルチホップ関係を潜在空間における幾何学的距離として保存するからです。つまり、LLMは、データを線形方式で読んでそのトポロジーを推測しようとするのではなく、データの構造を感じる、検出することができます。
結論
これが、グラフデータとトポロジカル表現が私たちのテキストの複雑さを補完すべきだと私が考える理由です。Anthropicにとって、すべてをマークダウンファイルにアウトソースする方がはるかに簡単であることは理解しています。
しかし、AI自体にとって、LLMが今直面している複雑さにとって、これは私たちが現在直面している問題を解決しません。
さあ、この美しい論文に対する私の個人的な考察をお届けしました。ぜひこの論文を読んでください。スキップした詳細な数学がたくさんあります。全体像、主要な結果、論文への主要な洞察を提供し、この例で説明できたことを願っています。
楽しんでいただけたことを願っています。あなたにとって追加情報があったことを願っています。次のビデオでお会いできるのを楽しみにしています。


コメント