ついに信頼できるAIが登場？

プリンストン大学の内部化された推論システムと外部化された検証システムという2つの異なるAIアプローチを比較分析した動画である。従来のRAGシステムの限界を指摘し、グラフRAGによる決定論的クエリが如何にして医薬品副作用検索において99%以上の精度を達成するかを解説している。最終的に両アプローチの融合による次世代AI開発の可能性を提示している。

Finally a trustworthy AI?

The Last Mile of AI Trust: Tune vs. Query.Two Paths to AI Superintelligence.all rights w/ authors:"RAG-based Architectur...

はじめに
現在の信頼性の危機
検証可能な検索の新しい公理
実験結果の紹介
データベースとグラフRAGの実装
グラフRAGによる解決
なぜグラフRAGが効果的なのか
決定論的プロセスとしてのグラフRAG
制限と注意点
結果の詳細分析
知識ソースの構造の重要性
データフォーマットBの革新
原子的事実への変換
2つのアプローチの比較
内在主義対外在主義
人間の例での比較
さらに明確にするために
次世代AIへの展望

はじめに

みなさん、こんにちは。また戻ってきてくれて本当に嬉しいわ。今日はAIへの2つの道筋について話していこう。もっと具体的に言うなら、信頼できるAIシステムについてや。なんでかって言うたら、まだAIモデルにおける信頼の最後の一マイルっていう問題があるからなんや。

例を挙げてみよか。たった16時間前に、Tom’s Hardwareから美しい記事が出てたんや。その記事によると、誰かが実際の企業の本番環境でAIエージェントを使って、1200社以上の役員記録を削除してしもたんやて。AIが一掃してしもたんや。そんなん起こってしまうんや。

「誰がそんなことするねん？誰がAIシステムを実際の本番システムに入れるねん？」って思うやろ。もちろんこんなことが起こる可能性はあるんやけど、この信頼の最後の一マイルがめちゃくちゃ重要なんや。なんでかって言うたら、確かに大規模言語モデル（LLM）は全てを理解する驚くべき能力を持ってて、めちゃくちゃ興奮させてくれるんやけど、医療とか製造業みたいな実際の運用システムに行く瞬間、この信頼の最後の一マイルがものすごく重要になってくるんや。

現在の信頼性の危機

今のところ、みんなこの信頼の危機を感じてるんや。なんでかって言うたら、AIっていうのは一種のブラックボックスやからな。それを引き出すかもしれへんけど、普通の会話で単純に話すだけやったら、まあええかもしれへんし、好奇心程度のもんかもしれへん。でも実際の産業応用、例えば薬の副作用を特定するみたいな場面で間違いを犯したら、これは破滅的な失敗になってしまうんや。

でも解決策があるんや。RAG（Retrieval-Augmented Generation）っていうやつや。原理は簡単や。LLMに物事を作り上げさせないようにするんや。だから外部の実証された実際のデータ、事実に基づかせなあかん。標準的なRAGはここでセマンティック類似性、コサイン類似性に頼ってるんや。これを使って変換と埋め込みベクトルへのマッピングを新しい数学的ベクトル空間、例えば1000次元とか15000次元でやるんや。

標準的なRAGは幻覚を減らしてくれるけど、不正確さを完全に排除することはできへんのや。もし本当に高いリスクを伴う事実検証が必要やったら、コサイン類似性の確率的類似性と実際の決定論的証明の間のこの最後の一マイルのギャップを埋めなあかん。

検証可能な検索の新しい公理

どうやってやるかって？LLMの会話インターフェースが必要やけど、データベース検索の論理的確実性も必要なんや。そこで検証可能な検索の新しい公理が出てくるんや。高精度の事実検証のために、セマンティック類似性検索の確率的曖昧性は、知識ソースを形式的グラフとして再構築し、ユーザークエリを決定論的シンボリッククエリに変換してこのグラフに対して実行することで、単純に排除できるんや。

何が起こってるか分かるか？LLMの主要な役割を答えの生成者から検証された外部事実の提示者へと完全に再フレーミングしてるんや。だからLLMには推論や推論、取得したテキストからの合成を求めたらあかん。LLMは形式的クエリを調整して、その結果を明確に伝えるために使われるべきなんや。

実験結果の紹介

簡単な実験をやってみよか。物理学では常にこれをやるんや。コンピュータサイエンスは物理学の一部やからな。誰かが既にやってくれてたわ。素晴らしいな。

アメリカの宇宙生物医学センター、ピッツバーグ大学、MITとハーバードの Broad Institute、そしてパククアイのある大学からの研究があるんや。こんにちは、会えて嬉しいわ。「LLMにおける薬物副作用検索のためのRAGベースアーキテクチャ」っていう新しい研究や。

彼らは実際に調べてくれて、Broad Instituteについて教えたるわ。馴染みがなかったらあかんから。ここはMITとハーバード大学、そして5つのハーバード教育病院のパートナーなんや。そうそう、まだWikipediaを使ってるで。

データベースとグラフRAGの実装

彼らがやったことは簡単やった。データベースが必要で、彼らはSIDER 4.1データベースを持ってたんや。これが主要な知識ソースで、解剖学的治療学的化学分類の副作用について知ってることが全部入ってるんや。

140,000の関連付けのデータセットがあって、それが知る必要のある全てや。この実証のために、複雑さを19,520の薬物副作用ペアにまで削減したんや。

従来のRAGでは、テキストスプリッターでチャンクに分けて、埋め込みを作るんや。彼らは1,536次元の数学的ベクトル空間を使うことにしたんや。それからベクトルデータベースへのマッピングを作る。彼らは有料の商用のやつを使ったんや。

結果はどうやったかって？パフォーマンスはどうやったんかって？Llama 3 8Bのスタンドアローン性能を何もなしで見てみると、精度0.5、F1スコア0.1、感度0.09やった。これは全く受け入れられる形ではないんや。だから標準的な既製のLLMは絶対に使ったらあかん。

RAGとデータフォーマットAを使って、美しいRAGができたんや。精度は88%まで上がって、感度は77%まで上がった。でも医療では77%では足りへんのや。これを実世界のテストケースに適用できるとは言えへんのや。RAGでは十分やないんや。

グラフRAGによる解決

彼らはAWS LambdaとAmazon Bedrockとか全部やって、Pine Coneにお金を払って、「ああ、お金を全部使ったけど、単純に方法論が十分やないんや」って言うんや。でも解決策があるんや。その解決策を知ってるやろ？簡単や解決策やで。うちのチャンネルの購読者やったら、もう1年以上この話をしてるから知ってるはずや。

グラフRAG、投機的RAG、グラフニューラルネットワーク上のグラフRAG、推論のためのグラフRAG対文脈学習、関係推論へと発展したPRAG、グラフRAGを超えて進んでるけど、今日はグラフRAGに集中するで。

簡単や。データベースがあって、グラフを構築して、グラフデータベースを作る。Neo4jを使おか。薬物と全ての副作用がグラフの異なるノードを構成して、ノード間の関係がエッジとしてエンコードされるんや。これは標準的で、特にエッジ属性は「副作用を引き起こす可能性がある」とラベル付けされて、これがNeo4jデータベースに入ってて、Cypherでクエリできるんや。

Cypherに馴染みがなかったら、学ぶのは簡単や。SQLに似てるけど、グラフオブジェクト用に最適化された宣言的言語なんや。グラフRAGフレームワークを見たかったら、Cypherがあって、簡単なクエリがあるんや。

コサイン類似性を構築された数学空間で操作してるんやなくて、ベクトル表現の別のクラスに近い近似環境の不十分な量を測定してるんでもなくて、純粋なコードがあるんや。確率的やなくて決定論的なコードで、Neo4jとAWS LambdaとAmazon Bedrockに行って、全部にお金を払うんや。

完全なワークフローがあって、Llama 3 8Bを使う。グラフRAGはほぼ完璧や。これを見てくれ。精度99.99%、F1 99%、精度、感度、絶対に魅力的や。

なぜグラフRAGが効果的なのか

なんでこんなことが起こるんかって興味があるやろ？確率的システムから決定論的システムに移行したからなんや。グラフRAGは薬物副作用関連をグラフとして表現することで、曖昧性を減らして検索精度を向上させる高精度な関係駆動クエリを持ってるんや。グラフデータベースを使って作業してるからなんや。

簡単な例を挙げてみよか。「この要素は何かを引き起こす可能性があるか？」っていうクエリがあるとしよう。標準的なRAGプロセスでは、まだ確率的観点で作業してる場合、クエリのテキストチャンクのベクトルデータベースを検索して、数学的ベクトル空間の近似環境から、チャンクAは「これは血栓を防ぐために使われる抗凝固剤や」、チャンクBは「抗凝固剤の一般的な副作用には含まれる」みたいなチャンクを取得するかもしれへん。

でもクエリの2つのオブジェクト間に直接的な関係がないから、LLMはチャンクAとチャンクBを読んで、この要素が抗凝固剤で、抗凝固剤が特定の効果を引き起こすから、論理的推論、またはそうでないかもしれへんけど、これが正確にこの効果を引き起こすっていう内部的に推論しなあかん。

この推論ステップで曖昧性とエラーが発生する可能性があって、実際に発生するんや。この推論は医療分析の複雑さのレベルではAからBレベルやないからなんや。

決定論的プロセスとしてのグラフRAG

これが標準的なRAGやった。だからベクトルデータベースとRAGはもう使わへんのや。グラフRAGを見てみると決定論的プロセスなんや。2つのエンティティ、エンティティ認識があって、薬物と副作用があって、グラフデータベース用のCypherクエリを構築するだけなんや。クエリを実行すると、定義した薬物と副作用のノートと別のノートを結ぶ直接エッジを見つけたら、エッジオブジェクトを返すんや。

このシステムはリンクが見つかったから「はい」と報告するんや。美しさは干渉がないことや。推論もない。何もない。ただのクエリなんや。結果は直接的な論理的検索で、報告されたほぼ完璧な発生は、グラフRAGの設計の直接的な結果なんや。

制限と注意点

注意深く、これに過度な解釈をしたらあかん。著者が示してくれたのは、定義されたタスクに対する並外れた精度やからな。でもタスクを見てくれ。単一の有向関係の存在を検証する、グラフで言えば1ホップクエリなんや。現在の形では、著者グループが公開した形では、もう少し複雑な「高血圧によって引き起こされる状態を治療するために使われる薬物の一般的な副作用は何か？」みたいなマルチホップ質問には答えへんのや。

単一の直接エッジに行くだけで、それだけなんや。RAGのような確率的セマンティック検索を決定論的シンボリッククエリに置き換えて、これが精度の飛躍につながってるんや。でもここから学んだのは、知識ソースの構造、データベースやなくてグラフデータベースが、知識ソースの内容と同じくらい重要やということなんや。

結果の詳細分析

結果を見てみよう。これは1ホップの複雑さだけやということを覚えておいてくれ。グラフRAGは美しいけど、既に示したRAGが他のデータフォーマットでは機能してへんことを汚い実験で示したんや。「機能してへん」って既に言ったRAGが、今度は精度99.98％、精度99.9％、感度99.99％を持ってるんや。グラフRAGと比較すると感度99.99％で、「何が起こったんや？」って言うやろ。

何が起こってるかを正確に理解して方法論を理解してたら簡単や。「そうや、これを期待してた」って言えるんや。詳しく見てみよか。

知識ソースの構造の重要性

事実検索では、知識ソースの構造は内容と同じくらい重要なんや。つまり、古典的なRAGのデータフォーマットAを見てた場合、段落とか複数のサブ文がある長い文で全てがあるんや。「薬物アスピリンは以下の副作用A、B、C、D、E、F、Gを引き起こす」みたいに、全てを一緒に埋め込んで、全てを混ぜ合わせて、連結して、何らかの確率とか平均を計算して、トークンの要素の混合物を構築して、それを圧縮して、ベクトルを作るんや。

このアスピリンチャンクのベクトル埋め込み、どうチャンクに分けようとも、リストされた全ての副作用が一緒に圧縮された平均的意味を表すんや。だから特定の技術用語や医学用語を探してる場合、この用語はこの特定のシーケンスの他の全ての用語によってセマンティックに希釈される可能性があるんや。

別のデータフォーマットがあって、これがどれだけ簡単かを愛してもらえるはずや。見てくれ、彼らがやったことを。この複雑さが高すぎることを理解してるから、簡単にしたんや。

データフォーマットBの革新

今度は「薬物アスピリンは副作用としてこれを引き起こす可能性がある」がある。それから別の文がある。「薬物アスピリンは副作用としてBを引き起こす可能性がある」、そして「薬物アスピリンは副作用としてCを引き起こす可能性がある」。

だから同一の内容の完全に異なる表現があるんや。でも今度は極めて低い複雑さの文表現を選んでるんや。何をやろうとも、常に同じルールブックなんや。複雑さを減らして、複数のより簡単な複雑さを作って、それからそれらのより簡単な複雑さを計算し続けるんや。

作られたベクトルは薬物アスピリンと副作用としての特定の効果を持ってるんや。他は何もなし、希釈なし、絶対に正確なんや。だからベクトルはクエリベクトルと比較されて、突然美しいコサイン類似性が本当に近くなるんや。なんでか？ベクトルが定義したもののベクトルと極めて類似してるからなんや。

検索はもはやテキストの段落での実際のファジー検索やなくて、事実文への正確なマッチなんや。簡単や。

原子的事実への変換

各文書を原子的事実にすることで、一般的にできるとは言えへんけど、できる場合、複雑さをレベル1の複雑さまで減らせる場合、著者は基本的にベクトルデータベースを高性能なキーバリューストアに変えたことを示してくれたんや。クエリがキーで、事実文が値なんや。

複雑さを完全に減らすっていうアイデアを持ったのが魅力的や。でも高い複雑さでは失敗するのは当然や。でも考えてみてくれ。ここで達成したのはほぼ決定論的プロセスなんや。RAGバージョンBのパフォーマンスはグラフRAGとほぼ同じくらい良いんや。

理解してたら、RAG BがグラフRAGとほぼ同じくらい良い最適化を得ることができるんや。でも覚えておいてくれ、これはまだ検索アルゴリズムで、グラフRAGはまだ論理クエリアルゴリズムなんや。注意が必要や。システムを騙すことはできるけど、何をやってるかの深い理解が必要なんや。

2つのアプローチの比較

素晴らしい出版や。著者は、正確に何をやってるかを知ってて、非常に特殊な使用例がある場合、標準的なRAGをグラフRAGとほぼ同じくらい良くできることを示してくれた。ソース文書を個別の原子的事実として構造化すれば。これはスピードの大幅な改善をもたらして、コストを削減できるけど、注意深く、これは低い複雑さの単一ケースだけやで。

オーケー、これがウォームアップやった。これが導入やった。「もう全部知ってるで。何が新しいねん？」って言うやろ。オーケー、ビデオを始めよか。

既に特異点について話して、「ほぼ人間と同じくらい良い」って示してくれてるのを知ってるやろ。そして次のでは、プリンストン大学によって既に発見された超知能について話したんや。イーロン・マスクは「何やて？超知能チームを作ったばかりやのに。すまん、マスク、でもプリンストン大学で既に解決されてるんや」って言うんや。

方法論と適用したアルゴリズムについて考えてみてくれ。彼らは今、スペクトラムの異なる側にいるんや。うちの最後のビデオ「プリンストンのボトムアップ超知能」を見てみよう。これを内在主義学派と呼んでるんや。

内在主義対外在主義

一種の哲学やからな。真の専門知識は知能に体現されなければならないって言ってるんや。知識と推論は外部的であってはあかん。はあ？モデルパラメータの構造そのものに織り込まれなあかん。どこに行こうと、典型的なトランスフォーマーを集中的なトレーニングを通して言おう。超知能で教師付きファインチューニングを示したけど、これはRL アルゴリズムの後のバージョンの特定の形に他ならへんのや。

プリンストンでの目標は、内在化された第一論理原理から推論するエージェントを作ることやった。それは絶対的な専門家、非常に狭い専門家で、推論プロセスが引用符付きで第二の天性になるほど多くのケースを見てきたんや。

今日のグラフRAGペーパー、Broad Instituteとクアイは、異なるアイデアを持ってるんや。完全な外在化の哲学なんや。だから拡張検証のアプローチがあるんや。RAG、リトリーバー拡張生成について考えてみてくれ。LLMは真実のソースであってはあかんって言うんや。LLMは単なるインテリジェントなスイッチ、外部の監査可能で動的に更新可能な真実のソースへのインターフェースであるべきなんや。

考えてみてくれ。これは本当やないんや。でもこれについてはまた後で、でもオーケーや。これが声明なんや。彼らはこれを見たがってて、目標はオラクルを作ることなんや。検証可能なレポートをクエリすることで完全に根拠のある答えを提供するシステムなんや。これがデータベースかもしれへんし、ニュースデータベースかもしれへん。CNNに行くデータベースかもしれへんし、Fox Entertainmentに属するデータベースかもしれへん。

真実の問題をLLMやなくて、別のオブジェクト、データベースやグラフデータベースや他の構造に転送しただけやって分かるやろ。

人間の例での比較

人間の例と比較してみよか。この場合は記憶に頼らない優秀な若い医師や。病院で何もやったことがないからな。でも最新の医療データベースにChatGPTを完璧に使って、全ての決定をSQL、完璧で、SQL プログラミング、垂直レベルで全てを知ってるけど、自分では経験がないんや。図書館でどこを探せばいいかは知ってるけど、何も体験してないんや。

システム、グラフRAGシステムに何を求める？何を好む？並べて見せてくれ。このボタンマップはプリンストンの超知能や。

主なアイデアは推論プロセスを内在化することで、モデル自体が推論エンジンになるんや。グラフRAGと今日の出版は異なるんや。これは事実検索を外在化することなんや。モデルは事実エンジンを真実として使うんや。

でもプリンストンのボトムアップ超知能には美しい特徴があったんや。マルチホップ構成推論は、AからBからCのような高い複雑さの問題を解決するために明示的に設計されてるんや。前回のビデオで、複雑さの集約で7ステップまで行けることを示したんや。

今日のこのペーパーで示されたグラフRAGは、シングルホップ直接エッジ関連なんや。1つのタスク、そして1つのタスクだけのために明示的に設計されてるんや。薬物があって、その副作用が欲しいんや。止まり。それだけや。AとBを結ぶ直接的な事実があるんや。これは定義された複雑さのレベル、低い複雑さのレベルを持ってるんや。

さらに明確にするために

さらに明確にするために、超知能に関するプリンストンのペーパーは、実世界の実際の人間の医師、経験豊富な医師のように考えることができるAIの構築方法を教えてくれるんや。鑑別診断と論理推論の真のプロセスを学習するんや。

今日のグラフペーパーは、医師の全インターネットライブラリに完璧にアクセスして、あらゆる小さな事実を瞬時に相互参照できるAIの構築方法を教えてくれるんや。

もちろん、「ちょっと待てよ。理想的なシステムは両方を組み合わせることができればいいやん」って言うやろ。だから聞くかもしれへん、内在化された構成推論エンジンと動的外部検証システムを融合して、深い推論者で信頼できる事実チェッカーの両方である真新しいモデル、AIの次世代を作ることができるかって。

次世代AIへの展望

このハイブリッドモデルは、AIモデル開発の次のフロンティアを表してるんや。これが最も重要なタスクで本当に信頼できるAIを作るための重要なステップになると思うんや。でも正しくやらなあかんし、内在化された構成推論と外在化された検証システムの組み合わせには、いくつかの固有の課題があることを理解しなあかん。

でもこれは次のビデオのトピックになると思うんや。だから、この種のビデオが好きやったら、なんで購読せえへんのや？次のビデオで会おうな。