LLMによる知識グラフの修復（Apple MacBook）

この動画は、大規模言語モデル（LLM）を使用して知識グラフの修復を行う最新の研究について解説している。医療分野における知識グラフの構造的および意味的な不整合を検出し修正する手法を、6つのオープンソースLLMを用いて検証した研究結果が紹介される。研究では、患者のアレルギー情報と処方薬の成分に関する論理的矛盾を例に、LLMの構造的推論能力と事実的検証能力の限界が明らかにされている。MacBook Pro M3 Maxという一般的なコンシューマー向けノートパソコンで実施されたこの研究は、AI研究の民主化という観点からも注目に値する内容である。

LLM repairs Knowledge Graph (Apple MacBook)

all rights w/ authors:"Graph Repairs with Large Language Models: An Empirical Study"Hrishikesh TerdalkarAngela BonifatiA...

LLMによる知識グラフ修復の概要
グラフ修復とLLMの実装
壊れたグラフの問題
診断と修復のプロセス
エラーの定義とグラフ否定制約
サブグラフ表現の変換方法
最終プロンプトの構成とワークフロー
主な発見：良い学生、下手な外科医
構文順守と意味的正確性の二分法
方法2が最適な理由と少数ショット学習
基本的な制限：構造的推論と事実的推論
実践的な実装とコード
研究の背景と実行環境
未来への展望：ニューロシンボリック

LLMによる知識グラフ修復の概要

こんにちはコミュニティの皆さん。今日はLLMがどのように知識グラフを修復できるかについてお話しします。最新の研究をご紹介しますが、皆さんは「でも待って、最新の動画で既に何かを見せてくれたじゃないか」とおっしゃるかもしれません。はい、その通りです。

でも今日は、もっとずっとシンプルになります。そして「それは何だろう、何だろう」と言って、そうです、LLM自体かもしれないと言うでしょう。

ここにあります。「ちょっと待って、LLM自体って」とおっしゃるでしょう。でも前回の動画では、LLMは依然として重大な課題に直面していることを見せました。LLMには構造化された医療推論が欠けているのです。LLMは医療概念間の関係を体系的に処理し推論することができません。LLMは他の予防接種の影響を受けやすいのです。

LLMは一部の医療予測には役に立たないのです。はい、まあ、それらは単なる詳細でした。そして今、LLMを使って知識グラフを本当にシンプルな方法で修正するのです。

本当に問題のある複雑な因果推論パターンの問題を持つ一つのオブジェクトを使用し、それを使って、重要なリンクがタプル構造で欠けている可能性がある知識グラフを修復するという、極端な制限があることを認識しています。

つまり、皆さんはこれが高度に実験的な動画であることをご理解いただいているのです。

グラフ修復とLLMの実装

LLMによるグラフ修復を始めましょう。新しい論文があり、彼らは「グラフ修復を自動化できる」と言っています。私は「素晴らしい」と言いました。

ここで美しいLLMを使用して、グラフの意味的不整合を検出し修正します。その方法は簡単で、グラフ否定制約を使用します。グラフ否定制約を最も簡単な方法で説明すると、このような形で書かれます。

患者が処方を受け、この薬には分子成分が含まれており、おそらくこの特定の患者はここの成分の一つにアレルギーを持っているのです。

私たちが行うことは、6つのオープンソースLLMを取ることです。OpenAIのモンスターLLMではありません。オープンソースを取り、様々なプロンプト戦略で遊び回ります。私たちは調査し、「知識グラフを修復すべきLLMの能力と制限について重要な洞察を見つけることができるか」と言います。

壊れたグラフの問題

壊れたグラフの問題があります。医療知識グラフを想像してください。診療所のどこか、医師のところにあるものです。エラーとは何でしょうか。

患者がアレルギーを持つ成分を含む薬を処方される場合があります。これが主な例になります。または、関係が誤ってラベル付けされているために薬物接続が欠けている場合があります。または、トランザクションリンクが単純に欠けている場合があります。

知識グラフには非常に多くの問題があります。これらのエラーを修正する方法は分かっています。最初のケース、最もシンプルなケースでは、人間がルールベースのシステムを書きます。専門家が行って、手動で厳格なルールを書きます。これは使用例の約半分に関するものです。

そして当然、ループに人間を入れます。医師が数十億のノードとエッジに行き、手動でそれらを修正します。

または、私たちは人工知能の時代にいると言いましょう。そして、絶対にクレイジーなアイデアだと分かっていますが、LLMを使用できるというアイデアがあります。特にここでは文脈的推論能力、論理、因果推論チェーンを使用できます。LLMが推論プロセスを行う際に見せてくれるシーケンスの種類です。そして、これをここで使用し、知識グラフを治癒できるグラフドクターを構築できます。

診断と修復のプロセス

最初に行うことは、診断です。知識グラフの小さな局所化された部分を見て、論理的に一貫性がない可能性のあるサブグラフをすべて見つけなければなりません。

次に推論し、ここでLLMのパラメトリック知識が、論理的不整合があることを理解するための主要部分になります。そして、それを修正するだけです。

もしこれが機能すれば、データ品質とデータ整合性を革命的に変える可能性があります。ここで重要なミッションクリティカルなタスクにおいて、広大な知識ベースをより信頼性が高く、より信頼できるものにします。そして、すべては人間の相互作用なし、ループに人間なしで、LLMの美しい推論能力にのみ依存して自動的に行われます。

誰かこれに問題を見つけますか。それでは行いましょう。

エラーの定義とグラフ否定制約

もちろん、何かを学びたいのです。知識グラフでエラーを構成するものが何かを知る必要があります。ここで既にグラフ否定制約という最もシンプルなルールをお見せしました。

これが行うことは、グラフに存在すべきでないパターンを定義することです。私たちは因果的意味推論には行きません。私たちは「考えられる最もシンプルなケースは何か」と言うだけです。グラフに絶対に存在すべきでないサブパターンがあります。

それは何でしょうか。患者は、その薬が患者がアレルギーを持つ成分を含んでいる場合、その薬を処方されるべきではありません。これがこの動画での最もシンプルな例です。

この禁止パターンを書くと、このようになります。ここではもちろんCypherクエリを使用します。または、グラフデータベースのクエリ言語が必要な場合です。

Neo4Jで作業するかもしれませんし、Neptuneで作業するかもしれません。何でも構いません。重要なのは、テストグラフでこの禁止パターンのすべての単一インスタンスを見つけるためにクエリを実行することです。

そして、はい、もちろん、これは一つの特定のパターンに対する一つのクエリにすぎません。10億ノードの知識グラフがあった場合、どれだけ多くの一貫性のないパターンがあるか想像してみてください。

しかし、私たちは始まりから始めなければなりません。そこで一つのシンプルなテストパターンで行きます。各マッチは、知識グラフで修復が必要な不整合です。

サブグラフ表現の変換方法

次に直面する問題は、この不整合なサブグラフを変換しなければならないことです。知識グラフでそれを検出し局所化したとしても想像してください。

大規模言語モデルが理解できるテキスト表現に、非次元のサブグラフ表現の表現をどのように持っていくのでしょうか。

今日の論文の著者たち（これは美しい論文です。この動画の最後に論文をお見せします）は、3つの方法を発見し、これらの方法をテストして、推奨事項を提供してくれます。

方法1：生データ。このラベル、このプロパティを持つノード6588のノード表現を与え、特定のタイプを持つそれらのノード間のエッジに行きます。素晴らしい。グラフ要素をダンプし、機械読み取り可能にしますが、これは最もシンプルな方法にすぎません。

方法2：テンプレートベースです。ここでテンプレートは私たちの友人であることをご存知でしょう。特にLLMとの推論プロセスにおいて。この非常にシンプルなタスクで不整合を見つけるために持っているのは、グラフから埋められたプレースホルダーを持つ事前定義された人間読み取り可能な文です。

単一の例では、「人Pの最初はMr. Sanford 861が薬Mとこの薬の処方を取り、この薬の名前は以下であり、成分I識別をoxycodoneとして含み、人Pは成分Iにアレルギーがあります」と言います。人間読み取り可能で理解可能な要素があり、それは素晴らしいです。

方法3：AI時代では、お分かりでしょう、素晴らしい美しいエージェントを使用します。このエージェントは今、AI要約を生成します。トレーニングデータが必要です。素晴らしい。トレーニングされ、ファインチューニングされていると仮定すれば、方法1の生データを分析LLMに与え、自然な英語で問題を要約するよう単純に求めることができます。そして、そのAI生成要約（どれだけ良いか、または破滅的に悪いかもしれませんが）を別のLLM、修復LLMに送るだけです。

今、エージェントがあります。美しい。

最終プロンプトの構成とワークフロー

これをどのように行うのでしょうか。この全体のフローは何でしょうか。LLMに与えられる最終プロンプト。

最初に、システムに「あなたは美しいAIアシスタントです。あなたの主な仕事はここでグラフ修復です。分かりますか」と伝えます。

次に問題、エンコードされた不整合があります。特定のLLMのためのグラフサブグラフのエンコーディングです。

そして、処方、特にここでは出力フォーマットを定義しなければなりません。これは自動化にとって重要です。明確に構造化された出力フォーマットが必要です。これがあなたが探しているフォーマットです。

ここに修復の開始と終了があります。そして、操作、ターゲット、詳細があります。これが最も簡単な形です。

例を見たいですか。ここです。操作：エッジを削除、美しいターゲットRC、詳細なし。これは、RCとして識別されるエッジを削除することを意味します。なんて美しくシンプルな言語でしょう。

主な発見：良い学生、下手な外科医

主な発見は何でしょうか。論文に多くの情報があります。ぜひ読んでください。本当に素晴らしいです。LLMは良い学生だが、本当に下手な外科医だということを理解してください。

テストされた6つのLLMは、人間が与えた指示とフォーマットに従うことが本当に得意で、構文的に正しい応答を生成しました。しかし、私が構文的と言い、意味品質とは言わなかったことに注目してください。

これは、「今、処方を書くことができる」と学び、言う数学の学生のようなものです。「フォーマット、従わなければならない単語のシーケンスを理解しました」と。その数学の学生は、おそらく役に立つ薬を選ぶかもしれません。ある程度の妥当性がありますが、頻繁に数学の学生は、この特定の使用例、この特定の患者にとって最適な薬を本当に選ばないのです。そのため、全体的な精度は初期の医学生では高くないでしょう。

LLMも絶対に同様に振る舞います。しかし、今私たちは科学にいるので、学生について話すのではありません。与えられた特定のフォーマットfでの構文的順守について話します。

評価されたフォーマットの大部分、特にLlama 2、Qwen 2.5、DeepSeek V1は、私がお見せした最もシンプルなものである規定された構造化フォーマットに準拠した応答を生成することで高い忠実度を示しています。

より複雑な推論がある場合は、フォーマットを定義します。フォーマット順守スコアは、テストされたすべてのモデルで一貫して90%を超えました。それは素晴らしくないですか。

LLMは構造化生成タスクの指示に従うことが本当に得意です。しかし、医療では薬を必要とする人間が必要であることを知っています。

意味的正確性はどうでしょうか。すべての患者の健康文書では、何かに敏感かもしれず、何かにアレルギーがあるかもしれず、既に他の薬の組み合わせを試したことがあるかもしれません。

意味内容はどうでしょうか。修復が時間違反を成功裏に解決すれば、修復は有効です。これは素晴らしいです。

最良のモデルは、テンプレートエンコーディングでの最適条件下で70-80%のスコアを持っています。「修復が正しければ、修復は正確だ」と言うかもしれません。ここでグラウンドトゥルース修正に対応しています。誤った成分エッジの除去対正しいアレルギーエッジの除去です。

残念ながら、正しい薬の精度スコアは実質的に低く、40%を滅多に超えないことが判明しました。

すべてのオープンソースLLMは本当に失敗します。なぜなら、医療では40%は成功率ではないからです。

構文順守と意味的正確性の二分法

しかし、絶対に魅力的な別の発見があります。構文順守と意味的正確性の間の二分法です。「何を言っているのですか」とおっしゃるかもしれません。

簡単です。LLMはタスクの構文を学ぶことができるが、意味、単語の意味と絶対に格闘していることを示唆しています。

構造的パターンに従い、修正すべきものを特定できます。素晴らしい。しかし、LLMはこの研究の命令を私たちに告げています。最も事実的で論理的に健全な修正を一貫して選択するための正確な推論や知識の基盤が欠けています。

これは、すべてのLLMの一般的な特徴として既に発見したものです。オープンソースだけでなく、すべての他のプロプライエタリLLMでも。

彼らは素晴らしい学生ですが、医者にはさせないでください。

さらにあります。この研究は本当に興味深いです。オーバージェネレーションのようなものがあり、この自然言語生成は、LLMが必要以上に多くの出力を生成する現象です。このLLMは、冗長で無関係、または事実的に絶対に間違った情報を含みます。

ただ生成し続け、より多くのナンセンス、より多くのナンセンスを生成し続けます。ここで彼らは、Llama 3.2 Qの行動がグラフ上の修復操作の過度な数を持っていることを発見しましたが、残念ながら精度と負の相関があります。

何かをするだけでは、非ドメインでの解決策にならないのです。そして、もちろん、彼らはLLMに問題を提示する方法の重要性を発見しました。LLMの特定の種類の推論を達成するためです。

テンプレートベースのテキスト記述（私がお見せした方法2）は、LLMにとって最良の結果をもたらし、生のノードエッジ表現（このリスト表現の種類）とLLM生成AI生成要約記述の両方を上回りました。

構造化因果推論のためのテンプレート、再び。

方法2が最適な理由と少数ショット学習

なぜM2なのでしょうか。考えやすいです。大規模言語モデルがあります。人間の文の言語的意味形式に密接に似ているものは何でも、これらの物語のような構造への順守の種類を持つと推測されます。より効果的な文脈推論です。

私は自分自身に「少数ショット学習はどうなのか」と尋ねました。今まで私たちはゼロショットでした。1つまたは2つの例を提供したら何が起こるでしょうか。

彼らは「本当に混合バッグです。時々少し助けることができますが、盲目的なコピーのような失敗モードにもつながります。LLMは実際の問題の文脈に関係なく、例の修復構造をここで模倣するだけです。

線形パターンに従うだけで、内容、人、薬、医学化合物について何も理解していません。線形パターンに従うだけで、彼らはここで論理的シーケンスパターンを示します。

このモデル5.4では、1つまたは2つの短い例から1つまたは2つの例を与えると、ここで悪化さえします。つまり、モデルに対して非常に敏感であることが分かります。

基本的な制限：構造的推論と事実的推論

しかし、もちろん大きなものがあります。ここです。基本的な制限があり、これは要約ではありません。

構造的推論と事実的推論について話しています。この研究で調査されたLLMは、構造的論理満足化を実行することによってここで動作します。論理チェーンに従いますが、チェーンの構造のみです。

この構造的論理チェーンの要素の事実的検証には行きません。これらのモデルによる事実的検証はほぼ無視できます。

例を挙げましょう。知識グラフで不整合を見つけることをします。LLMは何をするでしょうか。複数のサブグラフを見つけ、この問題の起源を理解しようとします。

最もシンプルな方法は、トップノッチでエスカレートし、LLMに例えば患者と薬の間のエッジの除去を提案させることです。この「薬を服用する」と言うエッジです。この患者は薬を服用し、LLMが発見したのは、服用を削除すれば、患者のメモと特定の薬のメモがあり、もはや文脈がなく、LLMは「この2つのオブジェクト間の関係を削除すれば、知識グラフのより深い論理に降りていくと、完全に無関係なのでほとんど問題がない」と発見します。

グラフは2つの分離されたサブグラフに分離され、問題がありません。人間と医療の間を削除すると言います。これを削除すれば、これはすべての解決策です。

臨床の文脈では、これは無意味と呼ぶかもしれません。したがって、これはLLMに行ってほしくない修復だと言うでしょう。

しかし、これはLLMが行う修復です。このモデルは、データの現実世界への影響を考慮することなく、即座の論理パズルを解くのです。診療所で患者をその薬情報から分離する場合、意味は何でしょうか。

LLMの構造的推論が主要な動作モードであり、同程度の事実的推論が欠けていることが分かります。

または、もう少し親切に言いたいなら、この研究の文脈での現世代のLLMは、強力なパターンマッチャーと構造的問題解決者として動作し、知識基盤推論者としては決して動作しないと言えます。

LLMは偶然構造的に正しい答えに導かれることがありますが、他に何もなしに実際の事実検証を実行することを頼りにすることはできません。

OTスタイルは、より高い事実的整合性を要求する基本的な制限です。

実践的な実装とコード

しかし今、操作的な部分に来て、とても美しいことをお見せしたいと思います。家庭でこれを行うことができます。完全なコードが利用可能であることをお見せします。

彼らはローカルモデルのLlamaに行きます。パラメータサイズ7B、14Bを見てください。家庭のラップトップでこれを行うことができるかもしれません。Llama 3.2、Mistral。家庭で複製できるLlama IDさえ提供してくれます。

これは762億パラメータのDeepSeek R1ではないことが即座に分かります。これは7Bモデルです。これは蒸留されたダウン量子化された、Olamaにこの式を入れただけです。これはDeepSeek R1の小さな蒸留されたモデルであり、大きな兄弟ではありません。ローカル用で、サイズは5GB未満の最小限です。

このミニモデルのパフォーマンスは何でしょうか。ここに論文全体の最も重要な視覚化があります。

Llama、Mistral、5.4、Llama Qwen 2.5、DeepSeek R1蒸留版で、有効なフォーマットが見つかり、この濃い紫色で80%、90%、100%近くで応答されています。すべてのモデルが成功しています。

有効な種類の修復もこの緑色の種類にあります。しかし、実際に価値があり、本当に必要な正しい修復は黄色で、Llama 3.2では存在しません。Mistralでは存在しません。5.4では10%、Llama 2ではほとんど気づかない、Qwen 2.5では、そしてDeepSeek R1蒸留版で20%以上で最も支配的です。

これは絶対に魅力的です。赤色では、彼らは時間も測定しました。予想されるように、正しい修復の最良の結果には時間がかかります。

すべての可能な組み合わせを通過し、システムは本当に推論しようとし、推論トレースを出力します。DeepSeek R1は推論トレースを見せてくれます。オープンソースモデルの推論トレースです。これはオープンAIで適切な恐怖モデルでこの評価を行うことができる美しい利点です。推論トレースへの詳細なダイブのチャンスがありません。

研究の背景と実行環境

ここにこの美しい研究があります。これは2025年7月4日からです。これがどこからのものか知っていますか。フランスベースからで、CNRSです。これはフランスの国立研究実験室です。巨大な運営です。

絶対に魅力的なことは何か知っていますか。彼らはMacBook Pro M3 Max、わずか36GBの統合メモリでこれを行いました。

これは通常のコンシューマーノートブックです。つまり、通常といっても、もちろんかなり高価ですが、かなりの数の裕福な学生や人々の手の届く範囲内にあります。論文を書き、LLMによるグラフ修復を本当に理解し、洞察の研究を発表することができます。

これはなんて美しいことでしょうか。研究を構成する方法、正確に何を調査したいかについて巧妙なアイデアを持つだけでよく、GoogleクラウドやMicrosoftなどのクラウドに行くことも可能ですが、MacBook Pro M3 Maxでこれを行うことができます。このアイデアが大好きです。

これを見るのは初めてで、もちろんフランスからです。フランス人は絶対にクールです。彼らは「なぜここでNvidiaのMaxwellやH100やB200を使う必要があるのか」と言います。いいえ、MacBook Proで行くだけです。フランス人が大好きです。

コードはもちろんGitHubで完全に利用可能です。3ヶ月前に既にテストされていることが分かります。今発表されました。すべてが利用可能です。好きなものを楽しんでください。ほぼすべてを見つけました。

未来への展望：ニューロシンボリック

しかし、未来について話しましょう。これについて何を学び、実験がどれほどシンプルであっても、発見に絶対に魅了されることができるかが分かります。

未来は本当にニューロシンボリックでしょうか。私にとって、論文の最も重要な洞察は、LLMが主に構造的論理満足化を実行し、事実的検証は行わないということです。

LLMはグラフパターンの論理的矛盾を修正します。ノードとエッジのグラフシーケンスで、「何かが機能していない」ことを正確に見つけますが、パターンマッチングのみで、パターンの内容、ノートの内容、エッジの内容についてではありません。

著者たちは、これは知識グラフでLLMを適用したい場合、または知識グラフから間違った情報を回復し、最新の情報更新で知識グラフを修復するLLMに直面している基本的な推論ギャップだと主張しています。

LLMのドメイン特化ファインチューニングを行う場合、どこまで進むことができるでしょうか。研究者として、不整合なサブグラフに特有のタプルの大規模データセットを理論的に作成しなければならないと想像してください。次に、GDC違反記述の詳細、そして正しい修復操作です。

もちろん、知識グラフで動作するためタプルが必要です。実際の複雑な医療知識グラフの各可能な不整合サブグラフ構成に対するこのデータで大規模言語モデルをファインチューニングすることで、この進歩を自動化する方法がまだ見えません。

この論文は、薬の特定の医療成分にアレルギーがあるという1つの単一例についてのもので、1つの使用例から何が分かるかを見ることができます。

LLMをこれらのデータでファインチューニングすることで、プロンプトを超えて移動し、非常に専用のLLMまたはマルチエージェントシステムにグラフ修復の文法を直接教えることができるかもしれません。私たちはデータの問題、LLMのパフォーマンスのための正しく構成された高品質データの問題に戻ります。

Gemini Pro 2.5で少し遊んでいました。出力フォーマットはどうあるべきでしょうか。例からこれを期待するでしょう。構造化された説明です。

修復操作、再び例を取ります。エッジRCを削除しますが、人間として合理的を持ちたいです。特に金融、特に医療、特に理論物理学で、どこでもあなたのドメインで、なぜ説明するかを知りたいのです。

事実的矛盾をコード化します。なぜ説明するのか。エッジは薬M1が成分I1を含むことを主張し、これはこれがOKではないと言う外部データソースと矛盾します。

証拠を見せてください。接続したAPIを見せてください。この医療データベースで実行したクエリを見せてください。得た応答を見せてください。タイムスタンプを見せてください。再現可能にしてください。

内部推論プロセスを見たいです。医療データベースへのここで起こった関数呼び出しを見たいです。内部信頼度スコアまたはあなたが好きなように呼ぶものを見せてください。

LLMを本当に医療知識グラフや金融知識グラフの修正に放したい場合、因果論理推論パフォーマンスを向上させ、すべてのハルシネーションを減らすのに役立つ構造化知識表現をここで定義するLLMのさらなる統合が必要だと思います。

私たちはコード化方法、コード化で考慮すべきことを見つけ出す非常に初期段階にいます。この非常にシンプルな例で見ることができるように、再びMacBook ProでのCNRSからのこの研究が大好きです。AI研究を行うことができます。

なぜ自分で試してみないのでしょうか。そしてなぜ購読しないのでしょうか。次の動画でお会いしましょう。