LLM + ナレッジグラフ + GNN = AIによる真実？

8,002 文字

LLM + Knowledge Graph + GNN = TRUTH by AI?

GraphCHECK: Improving Factuality in LLM Outputs w/ Graph Neural Networks for Knowledge-Graph Enhanced VerificationCan AI...

こんにちは、コミュニティの皆さん。戻ってきてくれて嬉しいです。今日は、AIが特定の文の真偽を判断できるかどうかを見ていきます。誰かがAIと言いましたか？はい、すべてにAIを使いますね。
ここに2025年2月23日の話があります。若いプログラマーたちはすべてにAIを使っていますが、「それが実際どう動くのか」と聞かれると茫然とした表情をするという話です。あなたは「AIはコードや科学についてではなく、投資や世界的な投資家たちの利益についてだ」と言うかもしれません。米国経済を見てください。株式市場を見てください。NVIDIAが米国経済や国家安全保障にとってどれほど重要か見てください。
Googleは「いいえ」と「はい」と教えてくれます。そうですね、スタートアップ企業が単一のデータタイプを事実確認するためのAIモデルを提供していることは知っています。もちろん、AIモデルが幻覚を見ること、そして情報源さえも幻覚することも知っています。そして、これらの幻覚に少し対処するためにRAGシステムがあることも知っています。モデルが関係性を間違えることも知っています。
「だからこそ知識グラフ統合があるんじゃないか」と言うかもしれません。グラフRAGのようなものですね。また「AIモデルは今やディープリサーチを行う」と言うかもしれません。しかし、あなたの質問「何かが間違っているか、事実に反しているか、期待とは異なる単純な嘘かどうかを検出できるか」への解決策はないのです。
このビデオを開いて、このディープリサーチを見てみましょう。単純なテストをしました。OpenAI Deep Researchで、メタ分析を行い、「AIを事実確認だけでなく、長くて複雑な情報の一般的な検証者としても使えるか」と尋ねました。一文を事実確認するのは簡単ですが、正しいデータと間違った結論や解釈が混在する長くて複雑なテキストについてはどうでしょうか？これは問題だと思います。
すると、OpenAIのDeep Researchが「科学的検証、ジャーナリスティックな検証、計算的検証、法的検証のどれについて話しているのか指定してください」と返してきました。私はすべてを選びました。ここにOpenAIのDeep Researchの結果があります。考えるプロセスを見てみましょう。
OpenAIは、トランスフォーマーやナレッジグラフなどのAIモデルに関する情報を収集し、論理的一貫性と歴史的正確性に焦点を当てていました。トランスフォーマーのテキスト一貫性検証、ナレッジグラフによる事実確認、マルチエージェント敵対的事実確認などを検索していました。ペイウォールを通じて直接リンクを取得しようとしましたが失敗し、新しいクライアントインターフェースでスクロール機能を実装しました。
主張の検出と検証に関する調査をマッピングし、真実性マトリックスを収集していますが、これは私が求めたものではありません。科学的原則との整合性や事実確認に掘り下げています。マルチエージェント事実確認を検索していますが、結果は5年前の2020年のBERTベースのモデル、7年前の2018年の論理的整合性検出、4年前の2021年のデータセット、5年前のT5など、かなり古いものばかりです。
8分後、これが選別プロセスでした。そして24の情報源があります。しかし、これらが完璧な情報源でなかったらどうなるでしょうか？結果はこのようになります：文脈検証のためのトランスフォーマーベースのモデル（GPT-3使用）は4年前の2021年のもの、GPT-3のパフォーマンスに関する情報、5年前の2020年のT5やBART、2年前の2023年のケンブリッジの研究、5年前の2020年の研究、5年前のBiStyleエンコーダ、1990年代のWikipedia、7年前の2018年の研究、2008年のBERTスタンフォード、GPT-3での科学的事実確認、2020年のCOVID-19研究、OpenAI GPT-C、2020年、2021年、2023年、2022年のベンチマークなど。
これがDeep Researchの解決策ですが、私はこれは失敗だと思います。
では、事実確認について考えてみましょう。「ヴォルフガング・アマデウス・モーツァルトはヨーロッパ、特にオーストリアで有名な作曲家だった」という事実は簡単に確認できます。しかし「ヨーロッパの風景主義、初期資本主義の脈動、貴族のパトロネージ、ザルツブルクの大司教コロラドと教会の関係、公開コンサート、財政変動、公開購読コンサート、社会経済的な要素の相互関係」などについて語るとなると、事実確認は全く簡単ではありません。
単一のポイントの事実確認から、これが正しい声明かどうかの確認へと移行するのは興味深いことです。医療に関する声明かもしれません。あなた自身に関する医療声明かもしれません。それが正しいか間違っているかを知りたいと思いませんか？
知識グラフを構築しましょう。ヴォルフガング・アマデウス・モーツァルトから始めて知識グラフを作ります。最初の5%だけでも続いていきます。しかし、知識グラフには当時の経済状況、政治システム、貴族制度、ヴォルフガングの特定の性格（彼はおそらく最も単純な人物ではなかった）、家族の背景、友人、パートナーなど、多くの追加情報が必要です。この複雑な段落を検証するために、多くの情報やデータが不足しています。
ここで天才の閃きが必要です。私たちが持っているのは、LLM（事前学習され、微調整され、整列された）とその中の母集団知識、そしてRAGです。前回のRAG、グラフRAG、ライトRAG、PARAGに関するビデオで、外部データでRAGを実装する最新技術をお見せしました。しかし、このグラフRAGは情報の海、データの宇宙に埋め込まれています。このデータの宇宙にグラフRAGをどう統合するのでしょうか？
グラフRAGは私の個人データや企業文書、個人テキストデータベース、企業データベースに限定されていると言えるかもしれません。特定のクエリに対してLLMを使い、グラフRAGは非常に少量の追加情報を提供するだけです。LLMの中の母集団知識はインターネット全体のゴミを含んでいますが、政治システムや金融システム、彼の時代の経済学についての背景情報をどう評価すればいいのでしょうか？
段落を検証するために、欠けているリンクを検出し、それらの接続性を見つける必要があります。どのRAGシステムも欠けているリンクを検出することはできません。どうすればいいのでしょうか？
カンケン実験をしてみましょう。アメリカではCNNやFoxがあり、同じ出来事について特定の方法で、特定のデータを提示し、ポジティブな視点で伝えます。別のチャンネルは全く同じ出来事を見ますが、異なる前提を持っています。彼らは一部のデータを示さず、知識圏の別のセクターに配置された異なるデータセットに焦点を当てるかもしれません。彼らは他のセクターとの接続を全く行わないかもしれません。彼らは欠けているリンクを実装しようとするので、彼らの知識や物語、完全なデータ情報はかなり限られており、CNNも同様に限られています。
その後、以前はTwitterと呼ばれていたプラットフォームに行くと、さらに高度な単純化があり、「こんなナンセンスを投稿している人々は誰なんだ」と思うような線形パターンになっています。
これに対処するAIシステムをどう構築できるでしょうか？答えは簡単です。CNNではなく、GNN（グラフニューラルネットワーク）です。なぜなら、そこでの数学的装置はメッセージパッシングアルゴリズムだからです。
この新しいアイデアの核心に入りましょう。誰かが何かを主張し、CNNからの報道があるとします。それらの2つのテキスト部分から、主張の知識グラフと関連文書のエンコーディングに関する知識グラフを構築します。ここでデータの一部は失われますが、トレーニングデータとして、真実かどうかに応じて0または1のラベルを持っています。
前回のDeep Seekエージェントのビデオや、AIが知識グラフ上で推論する方法に関するビデオを思い出すかもしれません。エージェントが知識グラフ自体で作業するのです。では、これらを使えないのはなぜでしょうか？
次の複雑性のステップは、より広い文脈（経済学、金融的視点、性格特性、社会規範など）を統合し、新しい投資データの欠けているリンクを検出することです。もはや知識グラフの知識に限定されず、グラフをその複雑な環境（経済、金融、個性、医学、物理学など）に統合します。これがグラフニューラルネットワークで起こることです。
ご存知の通り、3年前に知識グラフ埋め込みに関するビデオを始めました。29のビデオがあり、深いグラフライブラリのコードにあるメッセージパッシングについてすべて見つけることができます。DGLでのリンク予測、ニューラルベルマンによるGNN解釈、深層学習とグラフニューラルネットワークにおけるリー群の重要性など、数学的な内容もあります。
メッセージパッシングの簡単な説明をします。メッセージパッシングは、各ノードが隣接ノードから情報を集約し、特定のグラフ内での役割と他のエンティティとの関係について文脈的理解を効果的に構築できるようにします。GNNは単にグラフの構造を比較するだけでなく、その構造を処理して意味のあるパターンと関係性を抽出します。これにより、知識グラフ間の単純なグラフマッチング演習を超えたより柔軟で学習された比較形式が可能になります。
東京大学、テキサスA&M大学、ケンブリッジ大学、デューク医科大学、イェール大学からの2025年2月23日の新しい研究があります。「GraphCheck：抽出された知識グラフのパワーで長文テキストの障壁を打破する事実確認」というものです。
重要な洞察は、構造化された知識が長くて複雑なテキストに直面したときの事実確認またはグラフチェックに役立つということです。新しい要素は、グラフニューラルネットワークを使用して知識グラフを処理することです。グラフニューラルネットワークはグラフ埋め込みを生成し、それはソフトプロンプトとして使用され、LLMの事実確認プロセスを導きます。
つまり、グラフニューラルネットワークはより複雑なタスクや事実確認タスクにおいてLLMの効果的な知識統合者として機能できるということです。
最も単純な形式では、誰かがインターネット上で何かを主張し、少しの文書があり、Claude 3.7 Sonnetなどに「これは真実ですか？」と尋ねます。もっと良いのは、複雑な主張（複数の文）があり、それを単一の文や関連する単語のまとまりに分割します。つまり原子的な主張です。そしてRAGからの文書からチャンキングを行い、ペアワイズチェックを数百のアイテムに対して行います。
しかし、これが大量の文書になると、非常に非効率になります。今日の主要研究の著者たちのアイデアは単純です。誰かによる主張と文書があり、このテキスト情報をLLMに提供するだけでなく、知識グラフも構築します。それらの知識グラフをグラフニューラルネットワークで変換し、グラフニューラルネットワークは特定の埋め込みを行い、それらの埋め込みは特定の数学的空間でLLMが理解できる一貫したベクトル空間に投影されます。
つまり、テキスト情報と知識グラフからの追加情報があり、すべてがベクトル埋め込みを持つ数学的ベクトル空間にあります。最初のケースではテキスト情報だけでしたが、今は知識グラフとGNN数学からの知識を提供します。
この出版物からの例を見てみましょう。単純なアイデアの主張と、公式ソースや何かからの文書があります。両方に対して知識グラフを構築します。理論的には、知識グラフ自体を比較し、類似したノードや辺があるかどうかを確認するだけでいいと言えるかもしれません。しかし、もしそうでなかったら？もし一方のグラフにリンクが欠けていたら？もし検証または反証するために追加の背景情報が必要な場合は？
ここでグラフニューラルネットワークのアイデアが登場します。組織構造を見てみましょう。公式テキストである文書テキストがあり、誰かがインターネット上で何かを主張します（例：「パラセタモールはどの量でも安全で、アスピリンは胃の問題を引き起こす可能性がある」）。
トリプレットを生成し、GPTなどにトリプレットを生成するよう依頼し、それらのトリプレットから知識グラフを構築します。メインの文書（医療データベースなど）の知識グラフと、この人物からの主張知識グラフを構築します。これは比較的簡単で、「パラセタモールはどの量でも安全」というリンクがないことがすぐにわかります。なぜなら、「どの量でも安全」というリンクは文書知識グラフでサポートされていないからです。
しかし、興味深い部分はここからです。知識グラフがあり、それらの知識グラフをメインのLLM（自己注意層を持つ古典的なトランスフォーマーアーキテクチャ）が理解できるベクトル表現に変換したいのです。
文書テキストと主張テキストを単純な埋め込みでLLMに提供します。問題ありません。しかし、知識グラフからは異なる数学的空間での異なる数学的表現があります。これもエンコードし、LLMのベクトル空間と互換性のある新しいベクトル空間にこの埋め込み構造を投影する必要があります。このLLMが検証LLMです。
グラフ埋め込みをLLMのテキスト埋め込みと整列させるために、プロジェクターモジュールが使用されます。このプロジェクターモジュールは、文書グラフ埋め込みと主張グラフ埋め込みをLLM埋め込み空間と互換性のある投影されたグラフ埋め込みにマッピングします。つまり、ある数学的空間での表現を別の数学的空間に変換しているだけです。
このエンコーダーは、望む動作をするために少し訓練する必要があります。外部データを使ったグラフ事前訓練があります。最終的に、投影されたグラフ埋め込みがテキスト埋め込みと一緒に連結され、検証LLMの自己注意層に供給されます。そしてLLMは事実確認を実行し、真または偽のラベルを出力します。
ソフトプロンプトを使用していますが、これは訓練を通じて最適化されることが多いです。GraphCheckでは、グラフニューラルネットワークとプロジェクターモデルは、LLMが事実確認決定を行う際に最も役立つグラフ埋め込みを生成するように訓練されています。この表現を学習することが効果的である鍵です。
投影されたグラフ埋め込みを文書と主張のテキスト埋め込みと連結することで、検証LLMが処理する入力表現を拡張しています。テキスト埋め込みとグラフ埋め込みの両方がLLMの自己注意メカニズムに入ります。グラフ埋め込みは人間が読めるテキストではありませんが、LLMがテキスト入力のさまざまな部分にどのように注意を払うかに影響します。
グラフニューラルネットワーク内の各ノードは独自のベクトル表現を持っていますが、今日話しているGraphCheck実装では、リードアウト関数と合計を使用しています。すべての特定のノードベクトル表現を高次元数学的空間内の単一のグローバルグラフ埋め込みベクトルに集約します。この計算は非常に簡単で高速ですが、詳細な情報の多くが失われます。
このグローバルグラフ埋め込みベクトルが検証LLMに対して全体のグラフを表現し、ソフトプロンプトとして機能します。これはベクトル表現であり、トランスフォーマーアーキテクチャの最初の層で起こることと同じです。
要約すると、GraphCheck方法論はテキスト埋め込みと投影されたグラフ埋め込みを連結し、組み合わせた入力ベクトルを作成します。検証LLMの観点からは、単に入力としてベクトルを受け取っています。このベクトルは埋め込みを連結していますが、LLMはそれを気にしません。このベクトルにはテキストと知識グラフの両方からの情報が含まれています。
注意してください。著者たちは長文書について、知識グラフの完全性が重要だと言っています。すべてのテキスト情報、すべての意味的エンコーディングは、知識グラフ構築のためのトリプレット構造に変換する必要があります。彼らは8Bモデルによって抽出されたトリプレットがあまり良くなかったことを発見しました。これらの8Bモデルは重要な詳細、時間、推論を欠いていました。
公式文書と誰かのインターネット上の主張の例では、Claude 3.5 Sonnet、Omni、Deep VS3、LLAMA 8Bを比較しています。大きなモデルは知識グラフ表現へのトリプレットへの変換に問題ありませんが、LLAMA 8Bはいくつかの事実を見逃し、唯一間違った結論に至ったモデルです。他の3つは正しい結論に達しました。
最終結果を見てみましょう。6つのベンチマークを集計すると、GraphCheck LLAMA 3.3 70Bは71%、GraphCheck Q1 72Bは70.7%とほぼ71%ですが、著者らは性能データも提供しています。GPT-4 Omniを使用したグラフRAGのみの場合、70.6%の性能です。これらはすべて非常に近いので、このテストケースではGraphCheck方法論を採用する価値があるかどうか明確ではありません。
著者らは詳細な性能データを提供しています。一般ドメインテストフィールドと医療ドメインテストフィールドがあります。医学で何か間違ったことをすると、AIの結論は大きな影響を持つ可能性があるため、医療ドメインに注目しましょう。
さまざまなテストとベンチマークがあり、OpenAIのGPT-4 Omni、O1、3.5 Sonnet、Deep VS3、小規模モデルからQ 2.5 72B、LLAMA 3.3 70B、そして最後の2行にGraphCheck実装（70B LLAMAとQ1 72B）があります。
興味深いことに、著者らは色付けの巧みな手法を使用しています。最良のモデルだけでなく、2番目と3番目に良いモデルも色で示しています。そうでなければ、公衆衛生の分野では3番目に良いモデルに色がつかないでしょう。なぜなら、最良のモデルは単にオリジナルのLLAMA 70BとQ1 70Bだからです。
視覚的にはこれが他のすべてを上回っているという印象を受けますが、よく見ると微妙な違いがあります。
しかし、このGraphCheck方法論は美しいモデルだと思います。2年前のグラフニューラルネットワークに関するビデオを見て、数学的フレームワークで行ったことを理解していれば、このアイデアに基づいて構築するのは比較的簡単です。グラフ内のすべてのベクトルの合計を行うのではなく、より詳細で具体的になることができます。テーマ別クラスタリングや、2年前のビデオで示したコードの特定の評価方法を採用することができます。
この研究を読むのは美しかったです。多くの新しいアイデアを得ました。2〜3年前にこれらのビデオをすべて作ったことを後悔していません。なぜなら今、彼らのアイデアを実装するのがとても簡単だからです。当時、なぜグラフ埋め込みを行うのか、他の方法論と比較してどのような利点があるのかを理解していれば、グラフ事実確認に関するこの研究に基づいて次のエポックに進むのは本当に簡単です。
もしあなたが購読者であれば、次のビデオのいずれかでこれを行うかもしれません。