この動画は、グラフ理論を活用してLLMの推論能力を向上させる新しい研究について解説している。従来のLLMが持つサブシンボリックな世界に、グラフ問題の象徴的な論理構造を継続事前学習によって統合することで、数学以外の論理的推論、位相的推論、計算的推論などの汎用的な推論スキルの獲得を目指す研究である。香港科技大学の研究チームが開発したGraph Pileという110億トークンのデータセットを用いて、LLMに新たな推論プリミティブを追加する手法を検証し、特定ドメインを超えた推論能力の転移可能性を探求している。

グラフ理論とLLMの融合による推論革命
みなさん、こんにちは!また戻って来てくれはって、ほんまに嬉しいわ。そうや、AI研究でまた画期的なアイデアが出てきたんや。今回はな、グラフを汎用的な先生として使って、LLMを最適化していくっちゅう話や。
今やLLMの世界っちゅうのは、サブシンボリックな世界なんやで。何十億もの数値的なテンソル重みとバイアスで定義された、めちゃくちゃ高次元の空間があるんや。グラフや知識グラフにあるようなノード変数なんかはないんやな。
その代わりに、トランスフォーマーアーキテクチャの大規模言語モデルでは、すべての概念がベクトル埋め込みとして表現されとるんや。知識もデータベースに保存されるんやなくて、まさにそのベクトル同士の幾何学的関係にエンコードされとるんやで。
今やLLMは美しいツール呼び出し能力を持っとるやろ?これは従来のプログラムで、シンボリックなもんや。node = 5みたいな変数があって、こんな感じのハードコードされたルールを実行するんや。
つまりな、ツールやコードプログラム、Pythonやらの環境、C++なんかでは、論理が明示的で透明なんや。そりゃそうやで。ちょっとメモリを追加したら、エージェントになるからな。
物理学シミュレーションから見る推論構造
でも話をツールに戻そうか。C++で理論物理学の実験をする数値計算コンピュータシミュレーションのツールがあるとしよう。
このツールは、特定の天体物理現象について数値結果を計算するんや。知らんけど、銀河の赤方偏移を計算するとかな。この計算がコードでどう実行されたかには、固有の推論構造があるんや。誰かが銀河の赤方偏移を計算し始める前に、どうコーディングするか考えたんやからな。
このコードの中には、論理の流れとパターンが隠れとるんや。LLMがC++みたいな他言語の固有推論構造を統合した新しい形のデータセットで事前学習されると、C++の論理のシンボリック世界を自分のサブシンボリック世界にマッピングすることを強制されるんや。
ここで美しいことが起こるんやで。LLMの推論能力に新しい推論プリミティブを追加するんや。どうやるかって?継続事前学習で簡単にできるんや。
継続事前学習の課題と解決策
継続事前学習にはもう一つの問題があるんや。高度に専門化された知識はあるけど、転移可能性に欠けるんや。つまり、数学的に精巧なモデルでも、論理的推論や因果推論で必ずしも優れているとは限らんのや。数学と因果推論は近いやろうと思うやろ?でも実際のAIモデルでは、性能を示すことができんかったんや。
だから作り出されるのは、ほんまに狭い知能なんや。でもどうやってより幅広い、より汎用的な推論能力を育てるんやろうか?
そう、君らも予想しとるやろうけど、今日の新しい研究論文はまさに汎用推論能力を開拓する方法についてなんや。彼らは言うとるで。「基礎的な論理条件が豊富な問題のクラスを特定できれば、それらをマスターすることで、ツールに頼らずにすべてのドメインにわたって大規模言語モデルの推論能力を向上させることができる」って。
これは第二のクラスの思考やで。ツールは素晴らしいけど、これをLLMの推論能力に統合したいんや。
多様な推論スキルの必要性
今日の研究の著者らが決めたのは、数学を超えた多様な推論スキルセットが必要だということや。論理的、位相的、計算的、列挙的なスキルが必要やって。これら全部、すぐに見せたるで。
これらのスキルは、単純な従来の数学スキルやテキストボット用のテキスト問題スキルよりも、より基礎的で、より深いレベルの理解にあるって言うとるんや。大規模言語モデルの推論と知能のウサギ穴にどんどん深く入っていくんやで。
この美しい論文の図の一つを見てみい。位相的推論が論理的推論と明確にクラスターを組んでて、ハミルトニアンパス、位相的ソート、最大クリークなんかがある。すぐに話すからな。
彼らが主張するのは、この思考、この推論の核心、すべての最小公倍数を見つけられれば、他のすべてのドメインの推論性能を向上させることができるってことや。位相的関係やな。
グラフ問題の統合という新アイデア
これは全く新しいアイデアや。知識グラフなんかのグラフ問題をLLMの事前学習プロセスに統合するって言うとるんや。注意してほしいのは、これは教師あり微調整やないし、強化学習でもないっちゅうことや。戻って、LLMの事前学習の最初のステップに行くんや。
著者らは言うとるで。「複数のドメインにわたって汎用推論能力を向上させる強力なツールを解き放つことを目指している」って。
CPT、継続事前学習が、緑のバッタちゃんたち、すべての新参者のために見ていくツール、方法論なんや。CPTとSFTと強化学習の違いは何やろうか?これやで。
継続事前学習は、一般知識について考えて新しいドメインに適応することや。大きなラベルなしテキストコーパスでこれをやるんや。イギリスの百科事典の新しいセットを読んで世界観を広げるようなもんや。
微調整はもっと特定のタスクに特化されとるんや。指示に従うための下流タスクのトレーニングについて話しとるんや。通常、プロンプト-レスポンスペアみたいなラベル付き例でやるけど、これはかなり限定的や。新しいスキルを一つだけ学ぶんや。
強化学習は、クラシックな2017年のOpenAIの人間フィードバックからの強化学習やな。これは人間の価値観への調整と特定の方向付けだけや。先生がモデルに何が良くて何が悪いか、期待される行動は何かを指導してくれるんや。
継続事前学習による知識基盤の拡張
今、真の拡張的事前学習に行くんやけど、事前学習はやらんのや。オープンソースモデル、小さな言語モデルから始めて、継続事前学習をやるんや。これは運用上の問題がぎょうさんある。理論的なアイデアにこだわろう。
継続事前学習は、初期の事前学習フェーズのようにモデルの核となる知識ベースを拡張するんや。でもMicrosoftやGoogle、OpenAIがやったものの上に構築するんや。微調整や強化学習のGRPO、DPOなんかでモデルの行動を形作るのとは全く対照的や。
数学的推論だけやなくて、アルゴリズム問題解決や純粋論理推論なんかの複数ドメインにおける他の形の複雑な推論も改善しようとしとるんや。証明読み取り機やLeanみたいな特定のツールに頼らんとな。
著者らは、ドメイン特化事前学習と完全に新しい推論トレースを統合することで、より汎用的に有能な推論モデルの開発との間のギャップを埋めようとしとるんや。これが人工知能の聖杯やって言うとるで。
Graph Pileデータセットの構築
研究はここにあるで。香港科学技術大学や。美しい研究や。読んでみい。2025年7月23日に発表された、「グラフ問題によるLLMの汎用推論能力向上」や。
グラフ理論、数学的グラフ理論から持っとる完全な理解を、もしシンボリック理論とするなら、LLMのサブシンボリック表現に持ち込むんや。けっこう面白いで。
トレーニングデータセットが必要やったから、新しいデータセット、グラフ問題推論データを使った継続事前学習用の最初のデータセットを構築したんや。彼らはトレーニングデータをGraph Pileと呼んどる。歴史的には、われらにはPileがあった。今度はGraph Pileや。約110億トークンで、現実世界のグラフは28億トークンや。そうや、260万を超えるサンプルがあるんや。
事前学習には大量の、ほんまに大量の、めちゃくちゃ大量のトレーニングデータが必要やっちゅうことを覚えといてや。260万は低い方や。シンプルや。知っとることすべてや。思考の連鎖、思考のプログラム、実行のトレース。特別なもんは何もない。
四つの学習アプローチ
でも見てみよう。思考の連鎖や。これがLLMに「なぜ」を教えるっちゅうのは知っとるやろ。グラフ問題を解決するための段階的な自然言語説明をここで合成するんや。
文献から美しい例があるで。接続性をテストしよう。質問と答えがあるんや。LLMはここでこのグラフ理論的問題を学ぶ。大規模言語モデルでトークン化された単語のここでの言語的意味的接続性や。
別のコード言語を学ぶようなもんや。そんなに難しくないで。これがうまくいくのは知っとるけど、めちゃくちゃ制限があるんや。LLMに体系的推論プロセスを開発して明確にすることを教えるんや。そんなに深くはないけど、うまくいく。
二つ目は思考のプログラムや。これは「どうやって」を教える。LLMを活用してグラフ問題に対する正確で実行可能なコード解決策を生成するんや。コード解決策があったら、多かれ少なかれこれを学ぶだけや。いや、トークンの連続に過ぎん。
三つ目は抽象的理論的基盤からの現実世界の根拠や。今度は具体的な例に行くんや。知識グラフや、数学的グラフ理論をやっとるなら社会ネットワークを使うんや。
異なる空港からパリに行きたい特定の目標への最短経路を見つけるような、複雑で現実的で実用的なシナリオについて推論するモデルの能力や。これは全部知られとる。全部そこにある。
最後に、これが新しい要素や。実行のトレース。これは少し面白いで。グラフアルゴリズムコードを分析して、ここで流れを見つけようとする。議論での線形シーケンス、流れを見つけて、なぜコードが特定の方法で書かれたかを見つけようとするんや。
推論プロセスの動的理解
モデルはシステムの中間変数状態を予測することを学ぶんや。コードがなぜその方法で書かれて、他の異なる方法ではないのかの議論を見つけようとするんや。
ここで推論プロセスの動的を捉えようとしとるんや。単なるパターンマッチングよりもずっと深いスキルや。GitHubに行ってコピーして「これがパターンや」って言うだけやない。
推論プロセスのためのこのパターンの内部動的を理解したいんや。これは本当に面白くて革新的な要素やで。
もう少し詳しく見てみよう。君らがもっと知りたがってるのは分かっとる。論理推論タスクはシンプルや。すべてのグラフ問題は基本的に論理ルールから導出された推論に基づいとるんや。それによって本質的に論理推論のタスクなんや。
二つの例を見つけたいんや。グラフを与える。サイクルが含まれとるかチェックする。これがサイクルの定義や。他の要素もあって、特定の論理ルールを適用するんや。サイクルは、頂点からのパスが同じ頂点を再訪するときにグラフに存在するっちゅうルールは簡単や。
位相的推論と列挙タスク
位相的推論タスクはもう少し挑戦的や。グラフのノードとエッジの関係を探って、その関係に基づいて推論をするんや。数学的位相について知っとることすべてと、最も簡単な場合の位相的推論を言語モデルに移すんや。位相的ソート、共通隣接の例があるで。
位相的ソートは、知っとる通り、直接非環式グラフの階層関係を明らかにする。共通隣接はノード間の局所的接続を強調するんや。
もっと面白いのは列挙タスクや。すべての可能な解決策、すべての可能な構成、数学的組み合わせ的方法で与えられたクエリに対するすべての可能な理論的解決策をリストアップせなあかん場合があるからや。
最適化手順や、ここでの検索、誘導検索、あるいは単なる試行錯誤検索に関わるすべてや。これは面白いで。これをもっと詳細に分析して例を持てば、何千何万もの例があって、LLMがこの推論複雑性を学ぶのに十分なトレーニングデータを見つけることができるんや。
例えば、ハミルトニアンパスや最大クリーク問題なんかがあるで。
Graph Mindモデルの開発と評価
彼らはこれをやって、260万の例を見つけたんや。そして言ったんや。「よし、今トレーニングデータセットがある。何をするか分かるやろ?」継続事前学習や。これ自体が複雑さやから、この特定のトピックに関する動画を準備しとるから、このステップは無視するで。自分のモデルを継続事前学習する最良の方法についてな。
でも彼らは行って、事前学習はめちゃくちゃ高いから、20億の訓練可能パラメータから80億の訓練可能パラメータまでの非常に小さなモデルでやったんや。推論モデルの3つのバージョンを作って、継続事前学習モードで新しいトレーニングデータセットを使った新しいモデルをGraph Mindと呼んどる。
まず数学を見たんや。3つのモデルがある。本当に最小構成のGemma 2 2B、オープンソースのLlama 3 8B、オープンソースのLlama 3.1 8Bや。
望むすべての数学ベンチマークでここに、最後に平均があるんや。棚から取ってきたモデル自体、あるいはデータセットGraph Pileで継続事前学習をやった場合がここにある。
Graph Pileが通常の標準バニラLlama 3.1 8Bを大幅に上回っとるところがめちゃくちゃあるのが分かるで。2Bでは39から41への重要なジャンプが時々あるけど、8Bではほぼ同じや。数学での効果はそんなに大きくない。3、4、5パーセントポイントや。
でもこれを見てみい。論理を見てみい。常識を見てみい。コードを見てみい。グラフ問題を見てみい。16から62への動きが見えるで。33から75へ。3から50への外れ値もあるな。でも効果が見えるで。新しいトレーニングデータセット、LLMが継続事前学習で学ぶ新しい複雑学習パターンを考えると、数学ではそんなにやないけど、数学に近い他のすべて、論理、常識、コード、グラフで効果を示すんや。ドメイン外タスクではるかに良い性能向上があるんや。
性能向上の詳細分析
ここで彼らは主張しとるで。Graph Mindは古い基盤、小さな20億基盤モデルを数学推論で最大5%、他のドメインで22%上回るって。合理的に聞こえるで。
グラフについて古典的ベンチマークをここに示してくれた。見てみい。うーん、20億のGemma 2は12.4%や。Graph Pileは少し良いだけやけど、4とでも言おうか。
もっと現代的なLlama 3.1 8B、少し大きくて少し暖かいのに行くと、ここでの増加は実際にはそんなにないで。いや、71.7から73.0へ。少し時々欠けとるけど、Graph Riskは面白そうや。この性能ジャンプを見てみい。
また聞けるやろうな。「ちょっと待てよ。これは本当にすべてのドメインにわたる推論の改善のための汎用能力なんか、それとも事前学習データが包含したオリジナルドメインにかなり近いドメインなんか?」
グラフ推論データセットのGraph WithとGraph Instructの評価詳細を見ると、いくつかの不連続性が見つかるで。すべてを見てみい。グラフ接続性フロー最短パス位相的ソートを説明したやろ。これを通った最大フロー共通隣接ページランクや。すべてのベンチマークがここにある。時々Graph Pileがずっと良いけど、時々古典的モデルの方が良いっちゅう効果が見えるで。これがどうして起こるのか、現在理解でけへん。
だからこのベンチマークデータには本当に絶対的な一貫性がないんや。ここでLlama 3.1 8Bを見たら、7%から93%に行くなら、ここで本当に輝いとるって言うやろうな。Graph Instructベンチマークはベンチマークデータで重要な改善を本当に示しとるで。
温度感度とアルゴリズム推論
私の視聴者の多くが聞いてくるんや。「温度感度を含めてくれへんか?」素晴らしいで。オレンジにLlama 3 8B、緑にLlama 3 8Bに基づいたこの超継続事前学習Graph Mind 8Bがあるんや。
一般的に並行的な発展があるのが見えるで。でも、このカーソルクローを見てみい。アルゴリズム推論スキルを直接テストするんや。これは汎用推論改善のために改善したい主要な核心推論スキルの一つや。アルゴリズム部分やな。
でも温度0.0に行ったら、うわあ、見てみい。Graph MindがLlama Sweepの2%か知らんけど、それに比べて50%近くや。でも温度を上げた瞬間、完全に消えてしまうんや。
この効果は説明でけへん。このレポートには数値データとテストデータがぎょうさんある。このレポート、特に附録を見てみい。数値データが山ほどあって、この一つを選んで、例えば100%の性能ジャンプがどこで起こっとるのか説明でけへん不連続性がまだあると思うで。何かがまだ完全に正しくないみたいや。
興味があったら、もちろんGoogleのもんや。素晴らしいで。
推論能力の転移可能性と今後の展望
推論能力は非常に狭く転移可能なスキルやっちゅうことが分かったんや。でも今、学習方法論としてドメイン特化継続事前学習からより高い複雑性推論パターンを含む継続事前学習方法への転換があるんや。
これは絶対に魅力的や。トランスフォーマー層構造について考えたり、テンソル重みについて考えたり、1万次元空間でのテンソル重みとその超平面配向の複雑性について考えたら、より高い複雑性推論パターンのためのこのベクトル空間の新しい領域、新しい四分円を開いているみたいや。ベクトル埋め込みがベクトル空間のこの高複雑性オブジェクトを指すところでな。
これについて特別な動画を作るつもりや。これは絶対に魅力的な新しい発展やと思うからな。
汎用推論をさらに改善するために他の汎用カリキュラムを特定する探求が続いとるんや。LLMのために言語形式でより多くの形式論理を含めることができるかもしれんし、物理学と物理法則の意味的定式化でより多くの理解を含めて、LLMのより良い推論性能を可能にするかもしれん。
あるいは言うかもしれん。「なんでや?ツールがあるで。C++からLean forまで、必要なもんは全部ある。より高い複雑性推論パターンのパターン認識をLLMに押し込もうとする必要はない。そのためのツールがあるんや。だからエージェントがあるんやで。世界に接続できるし、世界と相互作用できるし、他の計算資源も使えるんや。」
そうや、でも答えはLLMによって生成されるんや。ツールがあってええし、すべてのコンピュータプログラミングやらPPRやらにアクセスできてええけど、ツールから結果を取り戻すときに、一般的な推論プロセスでの意味的複雑性でLLMの大規模言語モデルの推論能力をさらに増加させることができたらどんなにええかを想像してみい、って言う他のグループも理解するで。
これは進む絶対に魅力的な方法で、両方に利益があると思うで。
特別ボーナス:AIの現状に関する実験
君らへのボーナスや。この時点まで動画を見てくれたなら、ちょうど5時間前にYouTubeチャンネルに簡単な質問を投稿したんや。「この声明は真実か?」
LLMの知能は、高度なグラフ推論のための複雑な解決経路を提供する学習ベクトル空間表現に、より高い複雑性パターンを構成する能力に過ぎないっちゅう声明や。もちろん論文を読んだ後にこれをやって、君らがどう見るか興味があったんや。
5時間後に、科学コミュニティとして既に論文を読んで、不正確な声明で僕らを騙そうとしたのを知っとるから声明が true やと思うか、65%が「うん、論文知っとる」って言ったで。素晴らしいけど、知っとる?
GPTに行ったんや、ログインもせん、これは無料版で、みんながアクセスできるやつや。同じ声明を入れたんや。
興味深いことに、ChatGPTは「おい、これは偽やで」って言ったんや。そうやって。
「もう一回読んでみい。知能は学習ベクトル空間表現に高複雑性パターンを構成する能力やって言うとるで」これは真の声明や。僕の最近の動画の一つを見たことがあるなら、小さな大規模言語モデルは声明の最後に配置されたアンカーに非常に敏感やっちゅうことを知っとるで。
突然ChatGPTが「おい、EM での知能が多くの点で僕の事になぜ声明が真実なのかを理解できる能力として理解できるって指摘するのは絶対に正しい」って言ったんや。なんと驚きや。
だから何をしようと素晴らしいけど、戻ってきて「僕の声明の第二部にはまだいくつかのニュアンスがある」って言って、僕の声明の第二部を説明して、また聞いたんや。「そしたら僕の声明は真実か?」
もし判事として読みたいなら、この新しい出版物も読んで、戻ってきて「このビデオの内容を説明した君の洗練された声明。君の洗練された声明は現在の研究に支持されとって、真実と考えることができる」って言ったんや。
この時点で、ChatGPT、君は何を話しとるのか全く分からんって思ったで。絶対に分からん。
真実とは独立に、事実とは独立に、データとは独立に、AIシステムから任意の声明を修正して偏向させることができる。そして突然、もちろん僕の声明は真実で、なぜ君の声明がハイブリッドコンテキストで成り立つのかって。今度はChatGPTが僕がなぜ正しいのかを説明してくれるんや。ちょっと面白いけど、AIの現在の状態を示しとるで。
そうや、これは僕が作りたい別の動画や。僕の視聴者や購読者の多くが、できれば聞いてくるんや。「おい、AIの完全な状態を10分の動画で説明してくれへんか?」そうや、時間があったら今度の週末にでもやってみよか。チャレンジやな。面白そうや。
もっと見たかったら、チャンネル登録して、次の動画で会おうや。


コメント