Princeton大学が提案する知識グラフを暗黙的報酬モデルとして活用する新しいAI強化学習手法の解説である。従来の数学やコーディング領域に限定されていた検証可能な報酬構造を、医学や法律などオープンエンド領域にも拡張するため、知識グラフの因果関係と構造を代数的枠組みで捉え直す。これにより、1~3ホップの訓練データのみで4~5ホップの未知の推論タスクに汎化可能となり、パターンマッチングではなく論理的演繹そのものを学習させることが可能になるという画期的なアプローチである。

知識グラフが切り開く新しいAIの可能性
こんにちは、コミュニティの皆さん。また戻ってきてくれて本当に嬉しいです。人工知能の最新研究について話しましょう。私が最後の動画の一つで「私たちはAIを破壊した」と宣言したのを覚えていますよね。そして、つい最近の動画では新しい代数でAIを再構築したんです。そして信じられないことに、その翌日にPrinceton大学が素晴らしい論文を発表したんです。
それについて話していきましょう。2026年3月14日、生成AIのための代替的な軌道、Princetonです。さて、Princetonはここでこのトピックに焦点を当てています。強化学習、つまり事後学習は、検証可能な報酬構造、数学かコードのどちらかがあって計算できる場合は、すべてが素晴らしいんです。でも、オープンエンドな問題では、私たちは完全にここで行き詰まっています。特に報酬関数について話す場合、これをどう扱えばいいのか分からないんです。
そこで新しいアイデアが出てきました。抽象化を事後学習や強化学習の暗黙的報酬モデルとして使うのはどうだろうか、というものです。見ていきましょう。彼らは、現在のLLMは数学とコーディングという、厳密な既存の抽象化が構造的な基盤を提供している領域でのみ、本物の推論パスを持っていると言っています。
これはPython環境でもC++でも、あるいは数学でもそうです。そして彼らは今、ドメイン特化型超知能と呼ぶものを提案しています。ちょっと待って、逃げないでくださいね。これは正直言って最も賢いタイトルではありませんが、アイデアは絶対に魅力的なんです。彼らは、80億人のための一つのシステムという巨大な独占的AIシステムは必要ないと主張しています。代わりに、エキスパートシステムを構築すればいいんじゃないか、と。
代数的抽象化による推論の実現
オープンワールドドメインで堅牢な推論を達成するには、知識グラフ、純粋なオントロジー、形式論理の実装といった明示的なシンボリック抽象化を構築するだけでいいんじゃないか、と彼らは主張しています。なぜなら、形式論理は数学とコーディングの領域で私たちに非常によく役立ってきたからです。私が化学の教科書や他の文書からスキルを抽出したときのことを覚えていますよね。私たちのスキルMD、つまりそれらの設定がすべての解決策になると分かったんです。
でも、それはそうではないことが判明しました。なぜなら、ちょうど30分後に私が示したように、スキルは素晴らしいんです。スキルはタスクレベルのワークフローテンプレートです。でも、私たちに欠けているもの、そして私がこの特定の動画で示したのは、Xスキル、つまり経験と行動レベルの戦術的知識、つまりスキルをどのように、いつ使うかについての知識が欠けているということでした。
そして私はこの動画で経験を、エピソード的なプロトタイプ、特定の出会いの圧縮された汎化可能な痕跡のようなものと定義しました。そして今、彼らが汎化可能な推論の痕跡と言うとき、すぐに理解できますよね。もちろん、知識グラフです。つまり、これは青空から突然現れたわけではないんです。でも、すでに別の出版物がありました。同じことです。
スキルだけでは不十分なんです。Princetonが言うには、経験の代わりに知識グラフのようなものが必要だと。今、アイデアは多かれ少なかれ同じです。ドメイン特化型のコーパス、つまりテキストがあります。コールドスタートとしていくつかの意味的ソース、シード知識グラフがあります。文章があります。そしてトリプルのサポートがあります。
統一された構文的および意味的表現を構築します。そしてグラフマーがあります。これは何でしょうか。これは、生のテキストから事実的かつ論理的に妥当なドメイン特化型知識グラフを抽出したものです。つまり、純粋なテキストから、化学の教科書や、おそらくいくつかのビジュアルから、ここで私が示したことです。巨大なビジョン言語モデルがあって、すべてのスキルMDファイル、マークダウンファイルを抽出するんです。
今、ここでも多かれ少なかれ同じことをやっています。そして今、ここで完全な知識グラフを抽出します。そして彼らはこれをグラフマーと美しく呼んでいます。そしてなぜこれをしなければならないのかを教えてくれます。なぜなら、教師あり微調整だけをやっても、堅牢なゼロショット合成推論を引き出すには不十分だからです。
教師あり学習の限界と知識グラフの役割
そして彼らは言います。教師ありデータだけで訓練されたモデルは、非常に複雑な未見のマルチホップシナリオに直面したとき、依然として表面的なパターンマッチングにデフォルトする可能性があると。つまりSFT、教師あり微調整だけでは十分ではないんです。だから強化学習があるんですが、従来の強化学習環境は硬直しすぎています。それでPrincetonは言いました。じゃあ今、何をすべきなのか、と。
そしてPrincetonが教えてくれます。解決策は、今度は抽象化そのものを暗黙的報酬モデルとして使用することにあると。そしてこれが機能するのは、知識グラフ、あるいは一般的なグラフが、ドメイン知識のすべてのエンティティ間の因果的かつ関係的なリンクを今やエンコードしているからだと言っています。したがって、知識グラフ内のマルチホップパスは、今や根拠真理として機能できるんです。
これは検証可能な論理チェーンなんです。これで何を達成したか分かりますか。もはやプロセス報酬モデルは必要ありません。報酬構造を返してくれる第二のLLMは必要ないんです。知識グラフが構築されていれば、今度はエンティティ間の原因と関係のリンクの構造を使うことができます。
でもね、エンティティ、それらのエンティティは特別なんです。そして、これをさらに高度な数学的解決策で見たい場合は、そうですね、昨日の私の動画でAIのための代数的因果性について話しました。そして私はPrincetonのこの問題をより高いレベルで正確に解決したんです。でも、これは研究のスクリーンショットです。
でも、もっと高いレベルに留まりましょう。知識グラフは、今やドメイン知識をオブジェクトと関係とともに、検証可能な複雑な構造に変換すると言いましょう。これをエラボレートと呼びましょう。そして今、私たちはここで解決策を見つけたいんです。おそらくこれは特定のグラフ、迷路の上に重ねる前進のパスです。いや、そして覚えておいてください、より高いレベルは非常に抽象的なんです。
このグラフのノードは、概念、抽象的な概念だと考えてください。そしてグラフのエッジは論理ルールです。分かりますか。感じられますか。そうです。知識グラフのノードとエッジは代数を形成できるんです。そして今、私は昨日の動画に戻ってここで円を閉じます。つまり、これはAI研究者にとって、知識グラフをより高いレベルで代数として見ることが、AIでアーキテクチャを構築する方法についてすべてを変えるということを意味します。なぜなら、推論が今や単なる代数構造であれば、何世紀にもわたる数学的最適化を活用できるからです。
何千人もの数学の専門家の知識があり、彼らは代数を構築し、代数について知るべきすべてを発見してきました。簡単な例を挙げましょう。グラフ埋め込みです。知識グラフを代数として見ると、通常、離散的な単語に対して簡単に微積分を行うことはできません。いや、私たちの古典的な自己回帰的な次のトークン予測変換アーキテクチャではね。
代数的原始要素の力
でも、これらの代数的原始要素を連続的なベクトル空間にマッピングすれば、幾何学的深層学習のようなことをすると、今度は古典的な勾配降下法を使って論理方程式を解くことができるんです。でも注意してください。すぐに理解できるはずです。特定のドメイン、例えば医学、金融、理論物理学のために代数的原始要素をどのように構築するか、絶対に注意しなければならないということを。
別の例を挙げましょう。今度はエッジも因果的原始要素として扱うことで、ニューラルネットワークの内部に何らかの微積分を実装できます。例えば、今は解決できない問題、反事実的な問題を解決できるんです。もしノードXを外科的に介入して変更したら、グラフに何が起こるか。ノードY、Zなどにどんな影響があるか。この「もしも」のシナリオ、これらの仮説的なシナリオについて、深い数学的解決策を持ちたいんです。
エッジも因果的原始要素として見れば、これができるんです。あるいは単純に、ここで無限の数の連鎖を掛け合わせるとしましょう。関係代数で訓練されたものは、今や精度を低下させることなく、無限の因果ホップの連鎖を構成できます。なぜなら、私たち科学コミュニティは代数についてほぼすべてを知っているからです。これが、例えば古典的な標準LLMのコンテキストウィンドウの制限を打ち破る方法です。
AIの見方を再フレーミングするだけで、AIのシーケンスと複雑性を知識グラフとして見ると、何が開けるか分かりますか。これには馴染みがあるでしょう。でも今、知識グラフから、定義しなければならない数学的代数に移りましょう。なぜなら、もしこれを行えば、ラムダを因果的原始要素の代数に明示的に基礎づけることによって、モデルに代数的演算子そのものを与えることになるからです。
そしてこれは、モデルを構築する際に生活をとても楽にしてくれます。グラフを代数に変える方法を見たい場合は、コメントを残してください。この動画には多すぎると思うので。でも自分でやりたい場合は、ヒントをあげましょう。代数構造を高次元の連続空間に埋め込めば、論理ルールを幾何学的変換として扱うことができます。
これを解決した場合は、コメントを残してください。さて、知識グラフと代数は、将来のAIシステムの開発にとって本当に密接な関係にあることが分かります。でも戻りましょう。これはPrinceton大学による別の研究です。これはすでに2026年3月6日に発表されました。暗黙的報酬モデルとしての知識グラフです。
知識グラフによる報酬構造の革新
ここで私たちが抱えている問題に戻りましょう。検証不可能な報酬構造を持つ強化学習です。それでどう構築したか。答えは簡単です。知識グラフを暗黙的報酬構造として持つんです。GitHubがあります。素晴らしい。すべてが利用可能です。そしてアイデアは簡単です。訓練フェーズでは、1ホップ、2ホップ、3ホップがあります。素晴らしい。教師あり微調整があります。強化学習があります。事後訓練フェーズがあります。知識パスに触発された修正された報酬信号が戻ってきます。
そして、ベースモデル、教師あり微調整があります。LoRAアダプターでやります。そして強化学習があります。GPO、ポリシー最適化で進みます。そして実際の実行、推論フェーズが起こるとき、ああ、突然システムは、強化学習をやったので、4ホップまたは5ホップの複雑な推論構造を解決できるようになります。訓練データで4または5ホップのタスクを一度も見たことがないのにです。
これが美しさです。これが代数的演算子で進む場合の絶対的な美しさです。なぜなら、事後訓練や事前訓練のデータセットに何千、何万もの訓練例を入れる必要がないからです。代わりに、代数を定義し、代数演算を与えるだけで、AIはこれを解決できます。もちろん、Lean 4などを使うでしょう。
でも、これははるかに簡単になります。つまり、このPrincetonの論文でここで扱っている場合、知識グラフを暗黙的報酬モデルとして扱い、パスから導出された報酬をスケーラブルな方法で使用して、今やモデルに、ドメイン原始要素をどう構成するか、そしてこれらのドメイン原始要素を長い推論チェーンにどう構成するかを学習させます。これが私たちの推論LLMです。今、マッピングがあることが分かります。ドメイン原始要素がある場合、私の最後の動画では代数的因果性について話しました。
そして、因果性原始要素が必要な場合、私が今この動画の後にこの研究を示す理由、そのリンクがすぐに分かります。お伝えしたように、教師あり微調整と組み合わせたコンパクトな強化学習、知識グラフパスに整合した報酬構造、暗黙的報酬モデルがあります。そして合成されたモデルは、1から3ホップの訓練から未見の4から5ホップの訓練に汎化でき、フォーマットの摂動や分布外でも堅牢なんです。これはなんて美しいんでしょう。
強化学習における報酬関数の設計
今、Princetonの著者たちがここで教えてくれます。さて、私たちはTRPOセットアップをやりました。素晴らしい。今、LLMポリシーπt、戦略があります。クレイジーな人間からのプロンプトXがあります。そして、マルチステップの思考の連鎖の推論軌跡、因果推論軌跡Yを生成します。
知識グラフで進む場合、Yを離散的な論理ステップまたはホップのシーケンスに渡します。素晴らしい。そして、ニューラル報酬モデル、第二のモデルの代わりに、グラフトポロジーに基づく決定論的アルゴリズム報酬関数を定義します。それで、どうやってこれをやるんでしょうか。実はとても簡単です。総報酬関数には3つのシグナルの合成があります。
それを見てみましょう。最初のシグナルは、公理的妥当性、局所報酬、つまりステップ報酬です。AからBへの主張をする推論ステップsiごとに、知識グラフにクエリして、エッジが実際に存在するかを確認します。真であれば、この特定のステップの報酬はプラス1です。そして、もしそれが幻覚だったら、どうなると思いますか。マイナス5と言います。
つまり、AIフレームワークによる推測を抑制するための厳しいペナルティです。第二のシグナルは、チェーンの連続性です。構造的報酬です。ステップは前のステップに論理的に接続していますか。最も単純な定式化では、ステップ1のテールノードがステップ2のヘッドノードでなければなりません。これが真であれば、報酬にプラス2です。マイナスではありません。
そして3番目は、終端の基盤、グローバル報酬です。そうです。トレースの最後に到達した最終ノードは、プロンプト条件を満たしていますか。すべてをまとめると、強化学習アルゴリズムの最終的な目的があります。これがここでの最適化演習です。本当に素晴らしいのは、そして私たちはこれを何年も知っているんですが、科学的な魔法が必要な場合です。
なぜこれがゼロショットスケーリングを引き起こすのか。なぜなら、強化学習は、教師あり学習のように、モデルに医学的事実を教えなかったからです。この知識グラフから導出された報酬は、論理的演繹の不変のメカニクスを教えたんです。ここでシーケンスを模倣するだけでなく、うまくいけばシーケンスの論理的な部分を理解することを学んだんです。
グラフのステップを一つずつ、途切れることなく構築することを強制されることで、モデルはうまくいけば、私たちのAIのアルゴリズムループを内部化します。そしてループは簡単です。話しているエンティティを特定します。このエンティティの出入りするすべての有効な関係を見つけます。接続されている次のエンティティ、あるいはこのエンティティの周りのイプシロン環境内にある次のエンティティを取得します。そして連続性をチェックして、続けます。
そして期待されるのは、ニューラルネットワークがこのグラフトラバーサルのアルゴリズムを学習すると、5ステップ歩くことが、2ステップ歩くのとまったく同じ、括弧内の認知機構を必要とするということです。したがって、モデルはうまくいけば、単にステップ1から3を思い出すだけでなく、推論することを学習します。これが分布外問題からの解決策になるでしょう。素晴らしい。
ドメイン特化型超知能への道
つまり、今、ニューラルネットワークで学習された抽象化を扱っているんです。そして今、私たちが構築した抽象化、知識グラフとしての抽象化を暗黙的報酬モデルに変えることによって、医学、法律、科学のような形式的コンパイラ、C++やPythonソリューションを欠くドメインを、完全に検証可能な数学的問題に変換します。知識グラフで、あるいはより高いレベルで代数を使って。
そしてこれは、Princetonのドメイン特化型超知能に関する新しい論文の礎石ではありません。ところで、これはかなり重い論文で、エネルギー消費、水消費に関する多くの研究と洞察があります。つまり、これは一種の壮大なサーベイなので、もし興味があれば、この研究を強くお勧めします。個人的な見解、もちろんです。
AIにおける意味、つまり今や抽象的概念を幾何学的ベクトルとして定義し、論理ルールを数学的演算子、変換、平行移動、またはテンソル積と定義することによって、任意の複雑な推論タスクを、計算可能な代数演算のシーケンスに分解できます。
これは正しいでしょうか。そしてもし正しいなら、どのドメインで正しいのでしょうか。これが妥当でない例を見つけられますか。コメントを残してください。したがって、この動画で少し楽しんでいただけたことを願っています。新しい代数に関するAIにおける美しい最新研究があることを示しました。
いや、これは暗黙的報酬モデルとしての知識グラフについてでした。でも、これをもう少し高い数学的視点から再フレーミングすると、Princetonの研究は突然、AIにおける新しい代数について話していることになります。そして今、代数が新しいネットワークを発見するという、絶対に魅力的な出来事があります。
そしてこれは、次世代のAIのための全く新しい可能性を開くんです。楽しんでいただけたことを願っています。メンバーになってください。次の動画でお会いしましょう。


コメント