SRL:Googleによる新しいAI訓練手法

Googleが発表した新しいAI学習アルゴリズム「教師あり強化学習(SRL)」は、従来の教師あり学習と強化学習の長所を組み合わせた革新的な手法である。従来の教師あり微調整は過学習の問題があり、検証可能な報酬関数による強化学習は複雑なタスクにおいて報酬信号が希薄になるという課題を抱えていた。SRLは、専門家モデルの複雑な解答を段階的なサブタスクに分解し、各ステップで密な報酬信号を生成することで、小規模な学習モデルでも複雑な推論タスクを効果的に学習できるようにする。本手法は数学的データセットで平均24.5%から27.6%への性能向上を示しており、特に複雑な多段階推論タスクにおいて有効性が確認されている。

SRL: NEW AI Training (by Google)

All rights w/ authors:"Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning"Yihe Deng2*† ,...

Googleが提案する新しい学習パラダイム
従来手法の限界と新しい解決策
新手法の理解
具体例による説明:お茶の入れ方
報酬関数の仕組み
密な報酬信号の利点
新手法の利点とベンチマーク結果
さらなる改善の可能性
改善提案と今後の展望

Googleが提案する新しい学習パラダイム

こんにちは、コミュニティの皆さん。お会いできて嬉しいです。今回は全く新しい内容をお届けします。なぜなら、GoogleがすべてのAIのための新しい学習アルゴリズムを考案したからです。私のチャンネルdiscoveriへようこそ。最新の研究論文をご覧いただきます。素晴らしいですね。

さて、古典的な方法では、AIモデル、どんなAIモデルでも訓練する際には、教師あり微調整があり、そして検証可能な報酬関数による強化学習があります。そして今回Googleは、これを見直して何がうまくいっていないのかを調べ、より良いものを構築したんです。さあ、やってみましょう。

まず一つ目、教師あり微調整は模倣学習とも呼ばれます。古典的な方法では、教師となる大きなLLMがあり、そして小さな学習者LLM、例えば30億パラメータや80億の訓練可能なパラメータモデルがあります。模倣学習という名前がすべてを物語っています。教師あり学習のパラダイムがあるので、教師が言うわけです。見てください、この知識多様体における小さな正方形、この小さな立方体の解はここです、つまり知識領域ではこれです。私がこれをどう構築するか見せますから、学習者の皆さん、再構築してください。つまり、教師が完全な解を提供し、学習者はこの学習演習においてその正確な教師の解を模倣するだけなのです。以上。

一方、検証可能な報酬関数による強化学習は別の問題に直面します。パス1からパス4の合格率が本当にゼロに近い場合、つまり本当に難しい推論、複雑度が高いものに対しては、すべての報酬信号が強化学習が効果的に機能するには疎すぎるのです。この強化学習はより複雑なクエリでは崩壊してしまいます。

従来手法の限界と新しい解決策

そこでGoogleは、これを分析して限界を理解し、何か新しいものを構築しようと言ったわけです。要するに、従来の教師あり微調整はすべてを過剰適合させ、強化学習はより複雑で論理的な因果推論タスクにおいて十分な報酬フィードバックを欠いているということです。

では、新しい解決策を見つけましょう。そして彼らはこの新しい解決策をこう名付けました。信じられないでしょうが、教師あり強化学習と呼んでいます。SRL、教師あり強化学習です。両方の世界の最良の部分といくつかの全く新しいアイデアです。

これは2025年10月、ハロウィーンの直前にGoogle Cloud AI研究、UCLA、Google Cloudから発表された論文、教師あり強化学習です。

さて、私のチャンネルで新しいことをやってみたいと思います。もう少しエキサイティングに、異なる方法でフレーミングして、わかりやすくしましょう。最初の方法は、私はここでGrok-4に行きました。PDFを入れて、数学的最適化について10〜15分ほど議論し、これがGrok-4の出力です。ここにすべてがあります。これはGrok-4と議論したような完全な流れです。すべてがあり、もしあなたがこの種の人で、明確に構造化された線形シーケンスが好きなら、これがあなたのためのものです。何が起こっているのかを正確に理解するために、1、2、3、4、5、6、7、8、そしてチェックまで、すべてがここにあります。素晴らしい。

そして、Grok-4でもSonnet-4でも何でも好きなものに、これをコードに変換してくださいと言えば完了です。これがコードが存在する前です。これは数学的な式を使った論理的推論であり、それをPythonやC++など、好きな言語でエンコードするわけです。

新手法の理解

そして論文を読んでGrok-4を見た後、こう言うかもしれません。わかりました、もし私が正しく理解しているなら、私たちは教師と学習者の模倣学習パラダイムに戻っていて、GPT-5のような強力なLLMに依存して、今や小さなGPT-5 miniのような学習者モデルの段階的学習プロセスのために複雑性の分解を行っているということですね。

そして、古典的な強化学習で今持っている終値、報酬信号の代わりに、教師の解の複雑性、教師による連続的な答えを、より低い報酬構造を持つ複数の段階的なサブ答えに分解します。これです。したがって、より高い複雑性も複数のより低い複雑性の要素に削減または分解したことになります。

これがこの新しい研究の正しい理解ですか?とGrok-4に聞くと、はい、その通りですと返ってきます。わかりました。

では、別のフレーミングを試してみましょう。もしかしたら、あなたはこの抽象的なものが好きなタイプの人ではないかもしれません。では、簡単な例で段階的に説明しましょう。例は、お茶の入れ方を学ぶです。

すべてのイギリス人の方、私のイギリスの仲間たちを歓迎します。ここに学習者AIがいて、専門家AI教師がいます。この新しい教師あり強化学習で何が起こるのでしょうか?

ステップ1は簡単です。教師LLMに尋ねます。この特定の研究ではo1モデルが使われ、このタスクの完全なデモンストレーションを見せてもらいます。つまり、お茶の入れ方で、DeepSeekが戻ってきて言います。まずお湯を沸かし、カップにティーバッグを入れ、カップに熱湯を注ぎ、数分間浸し、ティーバッグを取り除いて、お茶を楽しんでください。

ステップ2、もしまだ個別の行動に分解されていなければ、今それをします。なんという偶然でしょう。すでにここに行動ステップですべてが分解されています。つまり、すでにご存知のものです。各ステップが今やミニトレーニング例になります。そしてあなたはすでに微笑んで、「ああ、あなたが何をしようとしているかわかります」と言うかもしれません。その通りです。

具体例による説明:お茶の入れ方

では、段階的に新しいトレーニングデータを構築する、トレーニングプロンプトのレベルでのコンテキストエンジニアリングを構築します。高い複雑性を持つ推論ステップのシーケンスを取り、それを分解し、段階的に新しいトレーニングデータを構築します。

教師あり学習のパラダイムがあるので、各ステップについて新しい入力出力ペアを構築します。入力はコンテキスト、元の質問とすべての前のステップです。なんという偶然でしょう。そしてターゲットは、もちろんここでは次のステップ、教師LLMによって設計された次の行動シーケンスです。

例を挙げましょう。トレーニング例1、お茶の入れ方。期待されるターゲット、お湯を沸かす。次に、お茶の入れ方は?お湯を沸かしました。次のステップは、カップにティーバッグを入れる。次に、この次のステップがあるか、教師LMと照合する場合の期待されるターゲットは、カップに熱湯を注ぐ。そして今、美しいものが得られます。なぜなら、学習者LLMに、教師がやることをすべて見たので、次のステップを自分で試してくださいと言うだけだからです。

学習者が来て言います。これがあれば、次の行動を予測しなければならず、解決策がわかっています。なぜなら、これは専門家LLM、教師LLMによって与えられた答えだからです。どれだけ近いか見てみましょう。それだけ簡単です。わかっています。

そして今、学習者AIは同じコンテキストが与えられて次のステップを予測しようとします。しかし、あなたが知っている標準的な教師あり学習とは異なり、この新しい教師あり強化学習では、学習者が行動を出力する前に、内部思考シーケンスも生成させます。

コンテキストは、お湯を沸かしてカップにティーバッグを入れましたと言いましょう。今、学習者の沈思プロセスがあります。次に、ティーバッグが熱湯と接触して風味が浸透できるようにしなければなりません。したがって、次のステップ、行動ステップは、カップに熱湯を注ぐです。これが学習者AIによって予測されたシーケンスです。

信じられないでしょうが、次のステップは段階的報酬関数の計算です。教師あり報酬学習があるので、同じ行動ステップのレベルで学習者の行動と教師の正しい行動を比較します。

報酬関数の仕組み

教師はカップに熱湯を注ぐと言い、学習者はカップに熱湯を入れるというアイデアを思いつきました。そして想像できるでしょうが、これはとても簡単な例なので正確に一致しています。報酬は、同一であれば1で、部分的に類似している場合は0.9や0.8など、適当な報酬を与えます。カップに水を注ぐ、またはカップに熱湯を注ぐと言っても、本当に同一ではありません。熱湯であることを願いますが。

報酬関数は、今や学習者の行動の類似性によって単純に生成されます。これは、望むならば設計され、GPT-5システムによる正しい行動、与えられた教師の行動と比較されます。

興味深いことに、私が気に入っているのは、学習者LLMの内部思考があることです。しかし、この最初のアプローチで報酬を計算する際、Googleは内部思考を報酬の計算に統合しないことに決めました。

しかし、想像できますよね?はい、私たちはそれをする方法を知っています。現時点では、最終的な行動のみが報酬関数のために評価されます。

次にステップ6があり、ご存知のようにSRLです。今度は強化学習の部分に入ります。教師ありの部分は終わりました。学習者は今、内部テンソルの重みを更新して、同様の将来のコンテキストでより高い報酬を生み出す可能性が高くなるようにします。

つまり、教師のような行動を生み出し、低報酬行動の確率を減らします。そして更新により、学習者の分布が教師のものに近く保たれます。そして、2017年の古典的な強化学習におけるPPOと同じように、優れたKL正則化部分を持つ古典的な強化学習の方法、GRPOで行います。

密な報酬信号の利点

AIによって生成された各ミニステップが、今や密な報酬信号を生成するのがわかります。バイナリな成功失敗の報酬信号に依存するのではなく、お茶を準備するために取らなければならないすべての行動の各ステップで、完全なレシピのすべての行動で報酬信号が得られるのです。

そして、これは興味深くないのですが、ステップ7の品質管理ステップとして動的サンプリングを行うことにしたと言っています。自己回帰システムがあるので、純粋に統計的なシステムですが、訓練中にシステムは各ステップに対して複数回の試行、複数のロールアウトを実行し、アーティストは各コンテキストに対して8つの応答で行くことに決め、報酬がどれだけ可変的かを測定します。

簡単です。8つすべてがほぼ同一であれば、追加の学習信号はありません。つまり、モデルは常に完璧であるか、常に同じ方法で完全に間違っているかのどちらかです。システムは今、わかりました、停止、さらなるサンプルをスキップすると言えます。素晴らしい。

そしてステップ8、信じられないでしょうが、ドメイン知識グラフで訓練したいすべての異なるタスクにわたって、何千何万もの例のすべてのステップについてすべてを繰り返します。これです。教師の答えが段階的なサンプルに分解されます。各サンプルが段階的報酬関数で学習者LLMを訓練し、モデル、学習者モデルは、今やここで長い論証的演習において本当に問題となる複雑な多段階タスクで正しい行動を取る方法を徐々に学習します。

もちろん、依存関係がわかりますね。特定のドメイン、例えば理論物理学や化学や金融などで、これを行うことができない教師モデルがある場合、これらすべては収束しません。なんて美しい研究でしょう。とても簡単でシンプルです。私はこれが好きです。

新手法の利点とベンチマーク結果

この新しい基礎学習は、構造化された推論のためにより安定性を提供します。なぜなら、単に最終結果だけでなく、途中のすべての小さな動きを評価し、専門家のサブアクションと比較するからです。そして彼らは、この新しい教師あり強化学習が、最終的な成功がまれなすべての問題について、通常の強化学習よりも優れていることを示しました。すべてのステップで常に学習信号があり、複雑性が何であれ。

私はここで別のフレーミングを楽しんでいるので、別のフレーミングを持ってきましょう。料理教室にいると想像してください。

では、それは何でしょうか? SRLは、私が思うに、この簡単な方法で要約できます。教師がクラスに完全なレシピを一度ホワイトボードで見せて、これがステップ1から10ですと言います。次に教師はそれをステップに分解し、各ステップの後に次に何が来るか尋ねます。そして今、学習者は、なぜ今卵と小麦粉と卵などを入れるべきだと考えるのか推論を説明し、次の行動を提案します。

多分今混ぜるべきです。教師は今、学習者による行動の近さを、教師が行うであろう実際のものとの近さでスコア付けします。そして学習者は、その特定のスコア、学習者の解が教師による専門的な解にどれだけ近いかに基づいて、内部ポリシー、強化学習ポリシーをゆっくりと調整します。

そしてこれらすべては、学習者が教師からの指示なしに完全なレシピを独立して実行できるようになるまで繰り返されます。なぜなら、今や学習者はそれをする方法を完全に学習したからです。つまり、この新しいアプローチで教師ありの部分と強化学習の部分を融合させたのがわかります。

では、ベンチマークは何でしょうか?数値結果は何でしょうか?彼らはここに異なるベンチマークデータがあり、そしてここに平均があります。素晴らしい。

そして彼らはここで基本モデルとしてQwen 2.5 7B instructを提供しています。そして本当に重要なのは、強化学習での訓練と教師あり強化学習での訓練です。

これはそれほど簡単ではないと思います。なぜなら、最初のベンチマークを見てください。古典的な旧式の強化学習では52%で、この新しい方法論では51.5%しかありません。

つまり、常により良いわけではありません。次のものでは、47が教師あり強化学習で50に増加するなど、より良い場合もあります。しかし一般的に、Googleが巧みに選んだベンチマークの特定の選択に向かいます。平均して、24.5%から27.6%の性能に向かいます。

つまり、増加はあります。顕著です。このように言いましょう。そうですね、注目に値します。この点は注意してください。これをベストケースシナリオと呼びましょう。

さらなる改善の可能性

さて、なぜかと尋ねるかもしれません。そしてビデオの最後に、私はこれをさらに改善するためにどのようなステップを取るべきか、いくつかのアイデアを提供します。なぜなら、私たちはGoogleよりも良くなりたいからです。

ええ、お話ししたように、これが品質保証のフィルタリングプロセスの特定のステップでした。さて、再び数値データを見てみましょう。ここに強化学習での訓練があり、古典的な強化学習、非常に検証可能なフィードバックで24.5%です。素晴らしい。

今、フィルタリングなしの、この品質ステップなしの新しい教師あり強化学習の新しい方法論を行うと、結果はこの新しい方法論で24.7%になります。これは古典的なRL 24.5%と比較すると、2つ異なります。まあ、品質フィルタリングを行えば、より良い結果が得られると主張します。

しかし、古典的な強化学習についても同じ品質フィルタリングを行ったらどうなるでしょうか?つまり、性能のジャンプがどこにあるのか、良い解釈が得られます。

結論として、これらが演奏者たちです、引用符付きで。彼らは、この教師あり強化学習を導入することで、新しい学習パラダイムの本当に興味深い形式だと言っています。

LLMに複雑な推論スキルを教えるために設計された新しい方法。これです。複雑な推論スキル。単純なことがあるなら、古いものを使ってください。しかし、より複雑になればなるほど、そして彼らはこれを数学的データセットでのみテストしました。オープンな推論セットでどのように機能するかはわかりません。専門家のデモンストレーション訓練セットが必要であり、そして学習者が教師あり強化学習でこれを学習できます。

どうやって行うか?より低い複雑性を持つより小さな学習者LLMのために、より高い複雑性を持つ専門家の解を、より小さく管理可能なステップに分解します。そして彼らは、この新しい方法論が模倣学習、教師あり微調整と検証可能なフィードバックからの強化学習との間のギャップを埋めることを望んでいると言っています。わかりました。

そして、これで終わりです。しかし、もしあなたが専門家で、これをどう改善できるか、Googleがまだ発表していない次のステップをどう作れるかに興味があるなら、論文を読めば多くのヒントがあることがわかるでしょう。元の論文を読んでください。未来への多くの指針があります。やってみましょう。

特に今日の朝食時に、アトランティック誌のこの記事を読みました。2025年10月30日、「AIクラッシュがこのように起こる、米国はNvidia国家になりつつある」です。これは興味深い論文で、彼らはここで、Jet GPTの発売以来のS&P 500の利益の4分の3がEI関連株から来たと教えてくれます。4分の3です。

ですから、AIが世界的に、特に米国で成功物語であることを確実にしなければならないと思います。なぜなら、AIが間違った方向に行ったり、パイプの下に行ったりすることを許容できないからです。

改善提案と今後の展望

では、この成長が今後数年間で起こるために、これをさらにどのように改善できるでしょうか。昨日提案されたこの新しい教師あり強化学習をどのように改善できるか、焦点を当てましょう。AIとGoogleを一般的に助けましょう。

さて、どう思いますか?私は今、モデルの行動と専門家の行動の間のトークンまたは部分文字列の一致に比例する、差分のようなマッチングの報酬計算は、本当に比較する最良の方法ではないと主張します。なぜなら、この類似性は統語的代理ですが、私が興味を持っているのは次のレベルの高い複雑性、つまり意味的代理です。

私は統語的比較には本当に興味がありません。興味があるのは、それが同じレベルにあるか?同じ意味を持っているか?同じ目標を持っているか?ということです。ですから、Googleの論文で実装されている統語的尺度ではなく、意味的尺度にアップグレードします。

改善する2番目のステップは、あなた自身のGoogleのソリューションをより良いAIのために改善することです。専門家のトレースが離散的なステップにセグメント化されています。これは問題です。数学ではうまく機能し、理論物理学ではうまく機能しますが、実世界のトレースでは、おそらくより構造化されていないため、明確に識別可能なサブピースに切り分けることができません。

重複があり、明確なステップの境界がありません。したがって、よりノイズの多い環境にいることになります。そしてLLMがより簡単なセグメントだけを選択しているというアイデアがありますが、複雑な部分は削除しています。単純にそれについて訓練されていなかったからです。

ですから、非構造化トレースのためのアルゴリズムを見つけるか、新しい方法論でそれらを構造化する方法の解決策を見つけることで、改善できると思います。

興味があるなら、これを見てください。これをコード化する方法についてアイデアがあるかもしれません。いずれにせよ、訓練データの選択バイアスがバイアスを生み出し、数学、理論物理学、化学、医学のように明確な専門家の分解方法論を持つドメインに、これらの新しい方法論を制限すると思います。

何かアイデアがあれば、AIの発展に本当に貢献できると思います。

次に私が考えたのは、内部モノローグを無視するということです。いいえ、これはGoogleが私たちに与えたヒントです。いいえ、私たちはLLMが内部モノローグ、またはオープンソースモデルのポートフォリオを見せることを望んでいます。

そうすれば、報酬計算のリスクで、この思考シーケンスに基づいて選択された行動との間に本当に一貫性があるかどうかをチェックできます。教師あり強化学習は、コード実装においてすでにモノローグ本体での自由形式の自然言語を許可していますが、それを報酬関数に何らかの方法で統合していません。そして、これは簡単に実行できると思います。コードがあり、アイデアがあり、すぐに想像できる2、3の方法があります。実装しましょう。

実行時間が少し増えるかもしれませんが、これによってパフォーマンスがさらに向上する可能性があります。そうすれば、モデルが行動をサポートしない、もっともらしく聞こえる思考を生成する可能性があることも、フィルタプロセスで排除できます。

そして、GRPOまたはPPOスタイルの更新に関係するすべてのこと、特にKL罰則に来ましょう。KLスケーリングは本当に繊細です。

友好的な企業の言い方をしましょう。なぜなら、間違って行うと、訓練が不安定になり、重いハイパーパラメータ調整が必要になりますが、これはあなたが時間とお金を探索して投資したいものではありません。ですから、アルゴリズムの安定性の純粋な最適化のために、GRPOから少しインテリジェントな何かへの別のさらなる方法論のジャンプかもしれません。

アイデアがあるなら、AIに貢献したいと思うなら、このエラーは間違いなくあなたを待っていると思います。見てください。KLダイバージェンスまたは他の数学的形式のダイバージェンスを最適化するアイデアがあるかもしれません。計算するのがより安価で効果的な新しい形式の正規化を見つけましたと言えるなら。

これは素晴らしいでしょう。楽しんでいただけたことを願っています。購読したい、メンバーになりたいと思うかもしれません。とにかく、次回お会いできることを願っています。