14BモデルがGPT-5.2を超える性能を実現 ファジーグラフ報酬による推論革命

AI研究
この記事は約15分で読めます。

Princeton大学の研究チームが、知識グラフを暗黙的な報酬モデルとして活用する新しいAIシステムを発表した。この手法は、従来のLLMが抱える「真の組み合わせ的推論」の限界を克服するものである。研究の核心は、3ホップの推論で訓練されたモデルが5ホップの複雑な問題を解決できるという点にある。従来のスケーリング則では推論ステップが増えるほど精度が低下するが、この新手法では逆にステップ数が増加しても精度が向上する逆転現象が観測された。特筆すべきは、わずか14億パラメータのローカルモデルがGPT-5.2を大きく上回る性能を示した点である。5ホップ推論タスクにおいて、GPT-5.2の精度70%に対し、この新手法を適用した14Bモデルは90%の精度を達成し、20ポイントもの差をつけた。この手法の鍵は、最終的な答えではなく推論の各ステップを検証する「パス整合性報酬関数」にある。モデルは正解を当てることではなく、論理的な橋渡しを示すことで報酬を得るため、確率的なパターンマッチングではなく決定論的な検証エンジンとして機能する。

How a 14B Model BEATS GPT-5.2 | FUZZY Graph Reward
All rights w/ authors: "Knowledge Graphs are Implicit Reward Models: Path-DerivedSignals Enable Compositional Reasoning"...

Princeton大学の画期的な新研究

こんにちは、コミュニティの皆さん。また戻ってきてくれて本当に嬉しいです。Princeton大学による新しいAIシステムがあるんですが、これが本当に素晴らしいんです。一緒に見ていきましょう。私のチャンネル、ディスカバリーへようこそ。

いつも購読者の方から同じような意見をいただくんです。8Bモデルについての動画を見せてもらったけれど、もちろんそういうモデルは汎化性能が低いし、うまく機能しないことは分かっている。推論能力も高くないことは知っている、とね。でも実際のところ、8Bモデルは多くの人がローカルPCにダウンロードして使えるサイズなんです。特に現在のGPU不足を考えると重要です。ローカルの8Bモデルにも注目すべきだと思います。

でも、もちろん皆さんの言うことも正しいです。最先端のモデル、月額200ドルや2000ドルを払って使う最も高価なモデルも見るべきですよね。でも問題は、本当にそれだけのパフォーマンスが得られるのかということです。これを探っていきましょう。

2026年1月22日付けのこの新しい論文から始めることもできます。日本からの論文で「GPT-5でさえ5まで数えられない」というタイトルなんですが、アメリカの機関について話したいという声もあるでしょう。念のため確認すると、これは本当に日本の国立情報学研究所の研究者によるもので、ここに出版物があります。これが現在のGPTシステムについて人々が考えていることです。

知識グラフを暗黙的報酬モデルとして活用

念のため、Princeton大学を見てみましょう。Princeton大学には2026年1月21日付けの素晴らしい新しい研究があります。「知識グラフは暗黙的な報酬モデルである」というタイトルです。この研究では、現在のLLMに重大なボトルネックがあることを示しています。LLMには真の組み合わせ的推論を実行する能力が欠けているんです。

LLMについてまた悪いことを言うのかと思われるかもしれませんね。でもこれはLLMについて悪く言っているわけではありません。ただ、皆さんが聞かされている働き方とは違う方法で機能しているということを示したいだけなんです。金融、医療、科学でLLMを使っていて、なぜうまく機能しないのかと疑問に思っているなら、まさにこれが理由なんです。

Princeton大学が示しているのは、AIモデルはパターンマッチングだけで高い精度を達成することが多いものの、公理的な事実を組み合わせて、訓練段階では見たことのない新しい多段階の論理チェーンを作ることに苦戦するということです。

医療データセットにおける3ホップ推論

ここでリハブ推論が実際に何を意味するのか例を挙げましょう。Princeton大学の医療データセットについて話しているんですが、これは単なる推測ではありません。症状から症候群、そして疾患へと至る特定のパスがあって、モデルは3ホップ推論の正確なパスを見つけた場合にのみ報酬を得られるんです。

医療知識グラフ、統合医学言語システム(UMLS)からの例がここにあります。アメリカではいつも選択式問題があるのが好きなんです。ヨーロッパにはこれがありません。ヨーロッパでは問題が与えられて、解決策を見つけるんです。アメリカではABCDの選択肢があるのが好きなんですよ。だから答えは分かりますよね。

これが私たちが話している背景です。AIは科学だけでなく、他のさまざまな非消費者向けシステムにも使われています。ちょうど3時間前に皆さんに聞いたんですが、AIが特定の目的で現在統合されている非消費者向けシステムについてもう少し見せたら興味がありますかと。200票か300票集まったら、私のコミュニティの意見を見てみます。

検証可能な報酬フレームワークの提案

Princeton大学の話に戻りましょう。著者たちは検証可能な報酬を用いた強化学習フレームワークを提案しています。知識パスを推論の根拠として扱うことで、中間ステップを強化する密な報酬信号を導き出しているんです。

それで何が特別なのかと思うかもしれません。これは何年も前から知られていることですよね。この新しい論文の何が特別なんでしょうか。もう少し詳しく読むと、これまでは主に数学やコードで機能してきたことが分かります。なぜなら、コードコンパイラや数学計算機は客観的に真か偽かの報酬関数を計算できるからです。

でも医学や法律のような分野に行くと、もはやこれを計算することができません。では、計算機が存在しないファジーな領域があった場合、どうなるでしょうか。どうやってこの正の報酬関数を得るのでしょうか。セマンティックコンパイラが必要なんです。これがPrinceton大学が達成しようとしたものです。

3ホップから5ホップへの汎化

これを示す最も簡単な方法は何でしょうか。彼らは、3ホップ推論の例だけで訓練することで、5ホップ推論の複雑さを学習させることに成功したんです。

分布外のケースで通常のAIは成功するでしょうか。答えはノーです。なぜなら、標準的な教師あり微調整では、点Aから点Cへの完成したマップを何千も見せます。ロボットはこれを記憶します。しかし失敗するのは、ロボットを点Aに置いて点Eに行くように頼んだ時です。2つの都市を含むより大きなマップを見たことがないので、単純に失敗します。マップをつなぎ合わせる方法を知らないんです。

北極同盟について話しているとしましょう。国防政策シミュレーションやコンピュータゲームにAIモデルを使う場合、どんな問題に遭遇するかすぐに分かりますよね。

でも、超知能はどこにあるんだと言うかもしれません。2ヶ月前や2年前にマーケティングが教えてくれたハイパー知能のことです。灰の中からフェニックスのように出現するはずのシステムで、超知能を手に入れるはずだったと。これを信じるなら、それも一つの可能性です。でも研究に戻りましょう。

パス整合性報酬関数の仕組み

著者たちは非常に特定的な検証可能な報酬アプローチを選択しています。ロボットが目的地に到着したかで評価するのではなく、有効なターンを取ったかで評価するんです。報酬信号はロボットに「まだ終点に到達したかは気にしない。AからBへの道が接続されていることを確認したか。良し。BがCに接続されているか。良し」と伝えます。

訓練方法を変えているのが分かりますね。単一のリンクを検証するという原子的スキルを強化することで、モデルは再帰的なロジックを学習します。常に次の有効なノードを見つけるということです。グラフ理論的アプローチとしては本当にシンプルなタスクです。

でも、Princeton大学ではあまりにシンプルにしたくないので、美しいパス整合性報酬関数があります。これが報酬関数です。見てください、かなりシンプルです。発見したパスのパーセンテージを単純にスコア化して、少しのボーナスと1.2倍の増幅がありますが、それだけです。

言ってみれば、魔法は報酬関数の特定的な数学的定式化にあるんです。これは事実上、訓練ループにファクトチェッカーを組み込んでいます。

独自の訓練ループ

これを詳しく見てみましょう。この特定的な訓練ループとは何でしょうか。他の強化学習と比べて何がユニークなんでしょうか。

モデルは3ホップの質問に答えようとします。重要なステップは、モデルが同期ブロック、一種の思考の連鎖を出力しなければならないことです。暗黙的な報酬モデルが同期ブロック内のテキストをスキャンします。エンティティ抽出を行います。医学用語を引き出します。そしてトリプル検証を行います。グラフをチェックします。モールの最初のエンティティは実際に2番目にリンクしているのか、と。

これが美しい訓練ループであることが分かりますね。報酬ロジックが異なるんです。もしモデルがAからCにジャンプして、推測していたとしたら、たとえ正しい答えを得たとしても低い報酬を得ることになります。答えが正しくてもです。

これは今までのものとは矛盾しています。今までは、答えが正しければ、それが正しく推論されたのか、単に推測されたのか、幻覚で正しくなったのかは評価していませんでした。誰が気にしますか。ここでは、モデルがAからBからCへと進み、橋渡し機能Bを示して正しい答えCに到達すれば、高い報酬を得ます。そしてこれは医学的に正しくなければなりません。

モデルが学習するのは、勝つことは正しい答えを推測することではないということです。勝つことは、AとCの間の論理的な橋を示すことなんです。

3ホップが5ホップになる仕組み

では、どうやって3が5になるんでしょうか。訓練フェーズを見てみましょう。ホップ1、2、3があります。素晴らしい。それから教師あり微調整と強化訓練フェーズがあります。素晴らしいと思うかもしれません。ベースモデルがあって、LoRAで教師あり微調整があって、それから強化学習のためのGRPO最適化があります。

興味深いフェーズは、知識グラフパスに触発され修正された報酬信号があることです。これは密な報酬信号です。最終的な報酬信号ではありません。4ステップの手順がある場合、各ステップごとに正しい、正しい、正しくない、正しくないと教えてくれます。強化学習のGRPO訓練フェーズ中のパス由来報酬信号であることが分かりますね。

お話ししたように、ほとんどのモデルは、訓練した複雑さと同じ複雑さでテストします。Princeton大学は違うやり方をしていると言っています。3ホップまでのシンプルなロジックの分子で訓練しますが、複雑な5ホップのポリマー構造でテストするんです。

この図が、どうやってこれを達成しているかを示しています。知識グラフは訓練フェーズ中は教師として機能しますが、推論フェーズでは知識グラフは利用できません。訓練中、モデルは追加の接続を学習します。

実際の推論プロセス

自明なことですよね。ユーザーが「症状Aと副作用Eの関係は何ですか」と尋ねたとします。これは医療の5ホップのギャップを埋める必要があるとしましょう。教師あり微調整されたモデルの場合、モデルはパニックになります。AとEを関連付けるシステムプロンプトを見たことがないので、幻覚を起こすか諦めるかするでしょう。

でもこの新しい強化学習では、Aから始まります。これで訓練されているので、ポリシーは「接続されたノードを見つけよ」と言います。Bを見つけます。BからCを見つけます。これが最大の訓練複雑度です。

そしてここで魔法が起こります。モデルはCを認識します。Cは別のサブスペースにもあります。Cには他のエッジがあります。質問は本質的に新しいものですが、ノードCはこのシステムにとって馴染みがあります。だから同じロジックを適用します。別のコンテキストで学んだロジックです。

Cから接続されたノードを見つけます。Dを見つけます。DからEを見つけます。そう、それほど息をのむほど素晴らしいわけではありません。ただ、ここで学ぶんです。ベビーステップ、シンプルなステップを踏みますが、検証するんです。

3ホップの推論チェーンをつなぎ合わせて5ホップ問題を解決していると言えます。なぜこれが大きな問題なんでしょうか。実は、推論の逆スケーリング則を解決しているんです。なぜなら、通常、推論チェーンが長くなるほどエラー率は複合していくからです。

ステップごとに90%の精度がある場合、5ステップのチェーンは59%の精度しかありません。続けるほど、パーセンテージは低下していきます。

驚異的な性能向上

ここに研究からのデータがあります。ベースモデルは青色です。教師あり微調整は赤色かオレンジ色です。Princeton大学のこの新しい強化学習を使った教師あり微調整を見てください。ステップ4からステップ5に進むと、モデルの精度がほぼ90%まで増加しているのが分かります。

つまり、この研究の主な主張は、知識グラフ関数が暗黙的な報酬モデルとして機能し、それによってパス由来の信号にLLMモデルの推論を基礎づけるということです。もちろん、これらの信号のデータがどこから来ているか、教師あり微調整フェーズでどこで学習が起こったかは理解していますよね。そして強化学習では、AIシステムが踊る方法の一貫性とエレガンスを完璧に微調整しているだけなんです。素晴らしい。

でも、このプラス11%を見てください。これは巨大です。そしてここでもう一度、このオレンジ色の線を見てください。上昇トレンドがあります。これは今まで見たことがないものです。この傾向は正の計算勾配を示しています。モデルは、ベースラインと比較して、シンプルなタスクよりも5ホップタスクで実際により良いパフォーマンスを発揮したんです。

なぜでしょうか。お話ししたように、この強化学習は特別だからです。モデルを検証エンジン、ほぼ決定論的なエンジンになるよう訓練したんです。別の視点から見ることもできます。モデルに各ステップについて本当にパラノイアになるよう教えたと言えます。AからBへと厳密にチェックしています。

モデルは、次の一歩を踏み出す前に、基礎がしっかりしていることを確認します。

研究の重要な洞察

洞察は何でしょうか。研究を見てください、ぜひお勧めします。美しい研究です。見てみましょう。彼らは、報酬を目的地の位置から完全な旅へとシフトすることでこの改善を達成しました。

推論の複雑さにおいて有効なパスセグメントを最適化するようモデルを訓練することで、パスの長さは多かれ少なかれ無関係になります。モデルは単一ステップテイカーになります。複雑さを最大限に削減します。私たちは次の一歩だけに興味があるんです。

自己回帰モデルを思い出してください。もはやマップ記憶装置ではありません。もはや人間のフィードバックによる強化学習の複雑さを追求していません。単一のステップを気にかけます。

14BモデルがGPT-5.2を上回る

でも私たちは、すべてをスケールが解決すると考えるよう、グローバル企業によって条件付けられ、影響を受け、あるいは操作されていると言いましょう。毎日コミュニティの反応でこれを目にします。ですから、GPT-5.2を使って、私のコンピュータでローカルに実行できるかもしれない14Bモデルと競争させたらどうなるか見せたいと思います。

Y軸に精度があり、X軸に推論ホップの数があります。3つだけで訓練して、それから分布外にして、推論能力が向上することを期待しています。最も高価なGPT-5.2にお金を払っている場合、推論ホップの4から5へのステップで、最愛のGPT-5.2の推論能力、精度に大規模な劣化があることが分かります。

単純にパフォーマンスを発揮できないんです。でも反対側を見てください。明るい面を見てください。何が素晴らしいか。これを見てください。ローカルの140億の自由に訓練可能なパラメータモデルがあって、それがはるかに優れているんです。

見てください、GPT-5.2の精度は70%です。そして私たちのローカルモデルで90%に到達できます。20ポイントの差は素晴らしい。そしてこれは単に14Bモデルで行われているんです。

より多くのデータセンターは必要ありません。より多くのスケーリングも必要ありません。より知的なものが必要なだけです。ローカルモデルと14Bモデルは、GPT-5.2に対して美しいパフォーマンス向上を示しています。

推論時の知識グラフ不使用

念のため確認しておきたいのは、5ホップ問題を解決するテストの時点で、モデルは知識グラフにアクセスできないということです。著者たちは訓練中にのみ知識グラフを使用しました。このAIモデルに、グラフの構造をニューラルウェイトテンソルに内部化させるためです。

モデルは、AがBに接続されているということを単に記憶したのではありません。もちろん教師あり微調整の新しいデータが与えられて、医学的概念が互いにどのように接続されるかという推論プロセスの一般化されたアルゴリズムを学習したんです。

Princeton大学のこのモデルの画期的な点は、推論領域でこの知識グラフを見せられることなく、それらを組み合わせる方法を見つけ出したことです。高度に専門化された、高度にドメイン特化した専門家システムを構築して、あらゆるGPT-5.2システムを簡単に上回ることができるんです。素晴らしい。

決定論的推論の実現

これを別の視点から見せたいと思います。これを見てください。アスピリンは頭痛を治療します。アスピリンは胃出血を引き起こします。「アスピリンは何を治療しますか」というプロンプトがある場合、標準モデルでは、数学的ベクトル空間にある埋め込み構造に入ると、アスピリンと頭痛がここで本当に近くにあることに気づきます。

高い確率があります。最も近い用語のセットを見ると、アスピリンと頭痛が見つかります。

新しいRLVRモデルでは、特定のエッジを探します。「治療する」を探して、頭痛を見つけます。ログインします。

でも他のケースを見てみましょう。プロンプトが「アスピリンの負の生理学的結果は何ですか」だとしましょう。標準モデルでは、統計的関連が非常に強いため、まだ頭痛を幻覚するかもしれません。または曖昧になって幻覚を始めるかもしれません。

でもこのモデルでは、巨大な頭痛ノードを無視します。なぜなら、プロンプトが特定の結果を求めているからです。それは特定のタイプのエッジにマッピングされません。これが「何を引き起こすか」のエッジです。

決定論的に頭痛パスをシャットダウンして、胃出血パスを歩いていくんです。知識グラフの内容が与えられて、生の言語や典型的なLLMの自己回帰システムとは完全に異なる推論パラダイムがあることが分かります。

RAGベクトル空間埋め込みを見ると、アスピリンとヘイディットは磁石のように本当に密着しています。でも知識グラフでは、本当に決定論的オペレーターになります。もはや確率的オペレーターではありません。なぜなら、正しいエッジパラメータがあることを二重三重にチェックすることを本当にモデルに強制していて、確率的な次トークン予測ではなく、これがフォローされるものであることを確認しているからです。

今、それらは特定の関係によって本当に接続されていて、探しているロジックに応じてナビゲートしたり完全に無視したりできます。念のため言うと、知識グラフは答えのキーとして機能しますが、訓練プロセス中にモデルに正しい答えを与えることはありません。推論ステップ1から4が正しかったか、推論ステップ1から3が正しくて推論ステップ4が正しくなかったかをモデルに伝えるだけです。

コメント

タイトルとURLをコピーしました