本動画は、AI推論の精度向上を目指す新手法「セルフエボリューション・ルーブリック」を解説する。従来の強化学習では最終回答の正誤のみで報酬を与えるため、AIが思考プロセスを理解せずショートカットを学ぶ「報酬ハッキング」が生じる問題があった。シンガポール国立大学らの研究チームは、AI自身が評価基準(ルーブリック)を生成し、それに基づいて自らの推論過程を検証する手法を開発した。単一のモデルが「推論者」と「評価者」の二役を担い、人間の介入なしに推論品質を自己改善する仕組みである。数学的論理など検証可能領域において小幅ながら性能向上が確認されたが、AIの本質的な知性拡大には限界があることも示唆されている。

AIの推論能力を高める新アプローチ
こんにちは、コミュニティの皆さん。お帰りなさい。今日はAIモデルの推論能力を向上させる話をしましょう。ご存知の通り、私たちには従来から検証可能報酬による強化学習という手法があります。しかしこれは、AIモデルの思考プロセス、つまり推論過程に対する直接的な監督をほぼ無視しているんです。
そのため、AIが学習する推論戦略は最適とは言えず、これは大きなリスクとなります。そこで解決策があります。2026年2月11日、シンガポール国立大学と中国科学技術大学が、セルフエボリューション・ルーブリックによってチェーン・オブ・ソート推論を強化する手法を発表しました。
ルーブリックとは何かと言うと、AIモデル自身が提案する自己生成の自然言語基準で、自分自身の推論プロセスを評価するために使うものです。
ただし当然ながら、AIモデル自身が扱える最大の複雑性に制限されます。つまり、問題固有の論理的制約、例えば「接線的な探索を評価すべきか」といったようなものですね。これは「スペルをチェックしなさい」とか「丁寧にしなさい」といった簡単で汎用的なルールではありません。
報酬ハッキング問題の解決
これは私たちが抱える別の問題、ハッキング問題も解決します。というのも、AIモデルは報酬ハッキングを学習するからです。つまり、なぜそれが正しい答えなのかを理解せずに正解にたどり着くショートカットヒューリスティックを見つけてしまい、推論の軌跡は不正確なものになるんです。
そこで今回は、小さなAIモデルに成功の基準、つまりルーブリックを明示的に表現させ、それからチェーン・オブ・ソートの答えでそれを本当に満たしているかチェックします。
この新しいプロセスは、推論プロセス自体に明示的な構造的整合性を課すことになります。ここで問題があります。私たちには人間が注釈をつけたチェーン・オブ・ソートデータがないんです。つまり、数学の教授が実際に座ってAIモデルの推論の軌跡を辿り、「うーん、ステップ1は大丈夫、ステップ2も大丈夫、でもステップ3では別の方法論を使うべきだな。別のアプローチを使おう」と言うようなデータがないんです。
したがって、この新しい方法論によって、人間の介入なしに、高シグナルの監督、つまりプロセス報酬を自律的に、フリーランチとして得られることを期待しています。しかしご存知の通り、これは問題です。AIが限られた理解に基づいて自分自身を修正するわけですから。私たちには生徒と教師のパラドックスもあります。
生徒と教師のパラドックス
数学の学生が試験の準備をしている様子を想像してください。強化学習による報酬があります。これは素晴らしいですが、答えの鍵だけをチェックするものです。つまり、最終的な数字が正しければ報酬を得られます。そうでなければ何も得られません。そして学生はなぜ失敗したのか分かりません。何も学ばないんです。
私たちはこれを改善したいと考えています。そこで解決策として、この新しい方法論があります。2つのLLM、2つのエージェントが必要でしょうか?いいえ、1つのπデータ戦略、1つのポリシーで進めます。AIは同時に2つの役割を演じなければなりません。
まず、従来のチェーン・オブ・ソートアプローチを使って問題を段階的に解きます。しかしその後、同一のAIが帽子を変えて、解決策を見る前にこの問題専用の採点ルーブリックを書くんです。
つまり今、AIは私のクエリを見て「うーん、まず私たちが扱っている数学空間は何だろう、考慮すべき条件や制約は何だろう、使える方法論は何だろう、システムの一般的な限界は何だろう」と考えるわけです。これはチェーン・オブ・ソートの上に拡張された思考プロセスのようなものですが、もちろんAIモデル自身の自己反省能力、AIモデルが訓練されてきた内容によって制限されます。
複雑性ゼロから最大能力へ
AIは複雑性ゼロのルーブリックから、その固有の最大複雑性推論能力へと進んでいくことが期待されます。もちろん、思考能力自体によって制限されますが。したがって、この新しい方法論は実質的にプロセス報酬モデルをシーナリオからブートストラップし、人間がラベル付けした推論ステップを一つも必要とせずに、AIモデルが自分自身の思考プロセスを監督できるようにすると言えます。これが夢です。
でも本当にうまくいくんでしょうか?本当により良い結果が得られるんでしょうか?さて、お見せしたように、マルチロール強化学習フレームワークに移行する必要があります。単一のポリシーモデルπθがあり、推論者の役割とルーブリック作成者の役割があります。美しいですね。
これをシンプルに見てみましょう。ここに人間に関する私の質問があります。そして単一のLLM、単一のポリシーモデルπデータがあります。
まず、それ自身がルーブリックを提案します。素晴らしい。そして、チェーン・オブ・ソートの解決策も生成します。緑が正しい解決策で、赤が誤った解決策です。つまり、チェーン・オブ・ソートのための構造化されたガイド付き推論プロセスがあり、それは私たちの小さなAIが訓練された一定の複雑性レベルまでです。
学習プロセスの仕組み
この自己提案ルーブリックでは、モデルが質問を見て、良い答えが満たすべき基準やルーブリックを推測します。そして訓練プロセスが進むにつれて、モデルはどのルーブリックが実際に正しい答えに導くかを学習し、役に立たないものを捨てていきます。つまり、絡み合った学習プロセスがあるんです。
モデルは最終的な答えの正しさと、自分自身のルーブリックにどれだけ従ったかの両方に基づいて更新されます。したがって、プロセス報酬モデルは今、AI自身の推論能力に基づいて本質的に組み込まれているわけです。
私たちが持っているのは、1つの共有ポリシーモデル、1つのLLMが思考と採点の両方の重みを保持しているということです。
もちろん、小さな検証器、小さな固定モデルが必要で、これはバイナリ分類器として機能します。生成されたルーブリックとチェーン・オブ・ソートのステップを受け取り、単純にここでイエスかノーのバイナリ出力を行い、そのステップがルーブリックを満たしているかどうかを示します。
プロセスループを見てみましょう。与えられた人間の質問に対して、推論フェーズがあります。AIモデルはn個のロールアウトを生成し、チェーン・オブ・ソートの軌跡と最終的な答えを生成します。それからルーブリック作成フェーズがあります。
今、モデルは質問を分析し、チェーン・オブ・ソートを生成して、私のクエリに完全にレーザーフォーカスされたK個のルーブリックを提案します。システムはもちろん、モデルが「答えは数字ですか」といったような些細なルーブリックを生成するのを防がなければなりません。
2つの条件
そのため、2つの条件があります。相関条件です。ルーブリックの満足度は最終的な答えの正しさと強く相関していなければなりません。そして識別条件です。ルーブリックは常に真または常に偽であってはいけません。本当に特定のルーブリックでなければならないんです。
これを視覚化で見たい場合は、こちらです。著者たちはもちろん、強化学習にPPOを使って戦略πデータを更新します。
重要なのは、私たちのルーブリック作成者と推論者、この2つの帽子がパラメータを共有していることです。したがって、論理の理解における改善は、推論者のパスを通じて論理の実行に転移します。
異なる報酬構造でこれを見たい場合、これが視覚化です。報酬計算プロセスはかなりシンプルです。
特定の質問に対して、推論者はn個の応答を生成し、それぞれにチェーン・オブ・ソートと最終的な答えがあります。その後、ルーブリック作成者がK個の特定のルーブリックを生成します。出力報酬は、まず生成された答えを正解と照合することで適用され、すべての有効なルーブリックがチェーン・オブ・ソートに報酬を与えるために収集されます。
セルフエボリューション・ルーブリックの概念
これだけです。つまり、セルフエボリューション・ルーブリックの概念を導入しているわけです。これは、LLMが成功する推論に必要な基準を特定する小さな潜在能力を持っていることを証明しました。自身の推論能力を考慮して、たとえ最初はそれらを実行するのに苦労したとしてもです。
そして今、基準の生成と実行を共有重み強化ループで結合することで、AIモデルはいわば自己修正するようになります。推論プロセスを自己修正するんです。しかし主な質問は、これが本当に起こっているのか、それともこれは単に研究者が期待していることなのかということです。ここでのパフォーマンスの改善は何でしょうか?
警告を一つ。これは数学論理のような検証可能な領域にのみ適用されます。そして、創造的な文章作成や要約のように、正解の正しさが主観的で、独立して計算・検証できない場合に、これがどのように機能するかは全く不明です。
実験結果の分析
結果を見てみましょう。こちらです。40億パラメータのモデルと80億のAIモデルがあります。ベースモデル、教師あり微調整、さらに検証可能報酬による従来の強化学習があり、最後の行に私たちの新しい方法論があります。
AIME25ベンチマークで、80億モデルを見てみましょう。この新しい方法論と検証可能報酬による強化学習の間の違いは何でしょう。32.5対33.3です。そんなに多くはないですね。あるいはAIME24で見ると、34.79対37.50です。はい、差はあります。
しかしご覧の通り、推論の軌跡における固有の限界を出力し、それが重要かどうかをチェックすることで、このモデルの推論パフォーマンスにおいて本当にわずかな改善しか得られないんです。
著者たちが行ったプロンプトとプロンプトエンジニアリングを見たい場合、彼らはプロンプトを公開しています。これがルーブリック作成者の役割のためのプロンプトです。ご覧の通り、「あなたは教育評価とルーブリック設計の専門家です。あなたのタスクは」すべてが指定されています。これが第一部です。
これが出力形式の第二部で、JSONオブジェクトとして返します。何を含めるべきか?すべてのルールです。論文内にあります。試してみたい場合は、自分のモデルですぐに使えます。そしてもちろん、検証器のためのプロンプトエンジニアリングもあり、「あなたは数学問題に対する学生の応答を評価する専門家です」と伝えています。
実装の判断基準
したがって、データがあり、プロンプトがあり、基本的なアイデアがあり、結果が得られます。今、あなたはこのわずかな結果が追加の訓練に値するかどうかを決定しなければなりません。なぜなら、強化学習は本当に高価で時間がかかり、計算リソースを大量に使用する可能性があるからです。そして1パーセントポイント未満の改善しか得られない場合、これが進むべき道かどうかを決めるのはあなた次第です。
しかし考えてみてください。これは絶対に魅力的だと思いますし、もちろんバイトダンスによる独自のウェブページもあります。これを録画している時点では、コードはまだ公開されていませんが、このビデオを見る頃には、そこに行ってコードをクリックすれば、すぐに利用できるコードもあるかもしれません。
しかし戻って言いましょう。この結果を見ると、AIシステムに明示的にルーブリックを出力させるよう強制しても、このAIの複雑性推論多様体の範囲内にまだいることが分かります。
AIはより賢くなっているわけではありません。AIは外部の教師モデルで訓練されていません。AIは単に自己反省しているだけなんです。そして問題は、自己反省するだけでどれだけ知識容量を増やせるかということです。はい、効果はあります。はい、肯定的な効果があります。はい、少しだけ良く学習します。
しかし、これらの洞察に基づく学習改善です。検証可能報酬による強化学習からこの新しい方法論に移行する場合、この新しい方法論を実装しようとするかどうかを決めるのは絶対にあなた次第です。あるいは、「うーん、これを改善する方法のアイデアがある。まだ何が欠けているか分かる気がする」と言うかもしれません。
楽しんでいただけたことを願います。少しは面白かったことを願います。購読してみませんか?私のチャンネルのメンバーになってください。


コメント