私たちが見逃していたLLMの強化学習における啓示

この動画は、大規模言語モデルにおける強化学習の最新研究動向を解説したものである。従来、強化学習は新しい推論パスの発見に有効とされていたが、最近の研究により、実際には既存の知識を増幅するだけで新しい推論プロセスを創造していない可能性が明らかになった。特にRLVR（検証可能な報酬からの強化学習）に関する複数の論文を通じて、強化学習の限界と、事前学習の重要性について再考を促す内容となっている。

The LLM's RL Revelation We Didn't See Coming

Try out Warp 2.0 now, the current rank #1 AI on Terminal Bench, outperforming Claude Code: can also use code "BYCLOUD" t...

強化学習における重要な発見
強化学習の基礎知識
RLVR：新しいアプローチ
衝撃的な研究結果
さらなる研究の発見
蒸留の可能性
パラメータ更新の実態
一般化の問題
Qwenモデルの特殊性
他のモデルでの結果
今後の課題と展望
最後に

強化学習における重要な発見

ここ数週間で、大規模言語モデルにおける強化学習の進歩が大きな打撃を受けています。一般的なコンセンサスは、強化学習がLMに新しい推論パスを発見させるのに役立つというものから、強化学習は全く新しいものを発見できない可能性があるというものへと変化しました。

さらに悪いことに、これまで強化学習で得られた研究結論のほとんどが一般化できない可能性があるのです。今日は、一体何が起こったのか、どのような魅力的な結果が発見されたのか、そして事前学習の時代が実際には終わっていない理由について見ていきます。

強化学習の基礎知識

このチャンネルでは以前、LMSにおける強化学習の使用について適切にカバーしたことがないので、強化学習が全体像にどのように適合するかについて簡単なクラッシュコースをお伝えします。

一般的に、モデルの事前学習を終了した後、つまり巨大なテキストコーパスから次の単語を予測することをLMに学習させた後、それを自動補完マシンから指示を受け取ることができるチャットボットに変える必要があります。

最初のステップは、チャット対話がどのように見えるか、チャットボットにとって理想的な答えがどのようなものかについて、人間がラベル付けしたデータで微調整することです。しかし、この問題はラベル付きデータの量が限られていることです。

より大規模に行うために、研究者たちはRLHF（人間のフィードバックからの強化学習）と呼ばれるものを行います。通常ここで行うことは、人間がLLM応答をランク付けする方法と同様に、人間のラベルデータから報酬モデルを訓練してLLM応答をランク付けすることです。

次に、この訓練された報酬モデルを使って、LLMが生成する答えを自動的に評価します。そのランキングは対応する報酬を生成し、それはKL発散ペナルティを伴う近接政策最適化と呼ばれるオプティマイザーを通じてモデルを最適化するために使用されます。

簡単に言えば、PPOは事前学習中の常に正しい答えから学ぶという考え、つまり次のトークン予測を、より良いスコアを得た答えを好むという考えに置き換えます。KL発散ペナルティについては、新しいモデルの予測が古いものとどの程度異なるかを測定し、モデルがその行動を大きく変更しすぎることを防ぐために使用できます。

これがRLHFの簡単な要約ですが、実際には今日話すLMのための強化学習のタイプではありません。

RLVR：新しいアプローチ

実際に議論するのはRLVRで、これは今年台頭してきた手法です。主な違いは、その名前が示すように、検証可能な報酬からの強化学習は決定論的な報酬から学習することです。

技術的に正解がない人間の好みを学習するために報酬モデルを訓練する必要があるRLHFとは異なり、RLVRはそのステップを完全に置き換え、答えが正しいかどうかを確認する体系的な方法に置き換え、バイナリフィードバックを提供します。

このアプローチは、正確性を自動的に決定できる数学やコードのドメインに完璧に適合します。そして、今年初めのDeepSeek R1のリリースで人気を博しているGRPO（グループ相対政策最適化）の略により、GRPOはバイナリシグナルを提供できるコーディングや数学に関してPPOに取って代わるRLVR手法の主要なオプティマイザーとなりました。

GRPOの動作方法は、別のモデルによって評価された報酬を最大化する代わりに、同じ質問に対する複数の答えのように、グループ内の同じモデルによる異なる出力のパフォーマンスを比較し、相対的に報酬を割り当てることです。これにより、モデルは、PPOと同様の安定した更新を維持しながら、コードの合格・不合格や数学の正解・不正解のようなタスク固有のフィードバックのみを使用して改善できます。

衝撃的な研究結果

さて、コンテキストがすべて整ったところで、ここからが興味深い部分の始まりです。

DeepSeek R1からの驚きの瞬間を覚えているでしょうか？RLVRで適切なインセンティブが与えられたとき、モデルはより長い思考プロセスの生成やGRPOを使用した自己反省の達成のような、イベント問題解決戦略を自己開発できました。

少なくともそれに関する物語は、この方法がモデルに自己改善させ、新しい推論戦略を発見させるように聞こえます。しかし、研究者たちは、強化学習手法が一般的に、ゼロから新しい推論プロセスを作成するのではなく、LLM内の既存の知識を促進または増幅するだけであるというより多くの証拠を見つけていることが判明しました。

DeepSeek R1の2か月後に発表された「理解するR1様の訓練：批判的視点」と呼ばれるこの論文は、基本的にそれを証明しました。彼らは、驚きの瞬間がRLVR訓練の結果ではないことを示しました。モデルはRLVRの前にすでにある程度の自己反省を示す能力を持っていたのであり、RLVRは単にこの行動を強化しているだけです。

彼らはまた、自己反省を含む応答が、自己反省のない応答よりも必ずしも高い精度を得るわけではないことを観察しました。さらに、出力長の増加がパフォーマンス向上の強力な鍵であるというDeepSeek R1論文が作り出した信念は、実際にはそれほど相関していません。

GLOが時間の経過とともに自然により長い応答を生成する実際の理由は、答えの精度を向上させるからではなく、間違った応答が短い応答よりも少なくペナルティを受けるGPOの機能によるものであり、その結果、応答の長さが時間の経過とともに増加するのです。

さらなる研究の発見

さらに1か月後、「強化学習は本当にベースモデルを超えてLMSの推論能力にインセンティブを与えるのか」と呼ばれる別の論文で、彼らはRLVRをより厳しく見て、RLVRは正しい軌道をより簡単にヒットさせるだけで、そもそもベースモデルにはなかった新しい推論パスを追加しないという結論に達しました。

彼らは、多くの異なるモデル、強化学習最適化アルゴリズム、さらにはデータセットにわたって、最大1,000回まで多くの補完をサンプリングすることによってこれを観察しました。強化学習はLLMが持つ既存の知識を鋭くするだけであることが判明しました。

ベースモデルが愚かに見えても、最終的にバニラ32Bベースモデルを十分にサンプリングすれば、総合格率の点でRLVR対応物を上回ることができます。このMATH benchmarkでは、サンプル量が128を超えると、RLVRで訓練されたモデルがベースモデルに負けてしまい、分布の末尾にどれだけの潜在能力が隠れているかを示しています。

蒸留の可能性

一方で、この研究は蒸留が実際に新しい推論プロセスを別のモデルにインポートできることを示しました。論文では、DeepSeek R1から蒸留された7Bモデルが、ベースモデルが決して解決できなかった問題を解決できることを示しています。

図からわかるように、蒸留モデルのpass@K曲線は、すべてのKでベースモデルの上に常に位置し、新しい知識が実際にモデルに追加されていることを示しています。したがって、蒸留は確実に知識を圧縮するための正しい方向です。

パラメータ更新の実態

しかし、RLVRについて話すのはまだ終わっていません。なぜなら、ここからさらに興味深くなるからです。今話していた論文の1か月後に発表された「LMSにおけるRL微調整小サブネットワーク」と呼ばれる別の研究論文では、DeepSeek研究者がDeepSeek R1を作成していたとき、DeepSeek V3ベースからのパラメータの86％がRL訓練中に更新されなかったことを示しました。

これは、OLMSに適用される他の強化学習アルゴリズムでも観察できます。KL発散により、強化学習の更新がモデルを大きく変更しないことは予想されるべきですが、70％から95％が実際に更新に触れられず、時には72％のパラメータが勾配を一切受け取らない場合、それは本当に視点を変えます。

強化学習がネットワークのサブセットのみを変更する理由は、勾配が自然にスパースだからです。このスパース性もランダムではありません。研究者たちは、PPOがMLPとアテンション重みの約30％にしか触れないが、それらの変更された重みはフルランクであるため、変更は意図的で計画的であることを示しました。

一般化の問題

そして、これら特定の重みをターゲットにして他のすべてを凍結してRLを再実行すると、完全なモデルRL微調整のパフォーマンスの98％を再現できます。これは、RLデータが事前学習にすでに存在する方向と勾配を整列させ続けるため、各行列の少数の列のみを調整してLMが強化学習報酬が好むものを生成するために出力確率をシフトする必要があるためかもしれません。

比較として、教師あり微調整では更新ははるかに大きく、最大でも15.3％のパラメータのみが変更されないままです。これは、強化学習がNLM内の特定のサブネットワークを増幅するだけであるという考えをさらに構築します。

これにより、1週間後に明らかにされた「偽りの報酬：RLVRにおける訓練シグナルの再考」と呼ばれるさらに大きな発見につながります。これは爆弾的な論文です。なぜなら、DeepSeek R1のリリースからこの時点までの、特にRLVRを利用した強化学習研究の多くが、実際にはすべてのモデルで一般化しない可能性があることを示しているからです。

これは、一般化が重要に必要とされる分野においてひどいニュースです。そして、これは完全にRLVRの責任ではありません。Qwenモデルシリーズがあまりにもユニークに訓練され、同業者と比較してあまりにも良くなりすぎたことが判明しました。

Qwenモデルの特殊性

彼らがこの結論に至った方法はさらにクレイジーです。この研究では、RLVRの報酬を正解から疑似ラベル、不正解ラベル、純粋にランダムなラベル、さらには答えがボックス内に配置されたときにモデルに報酬を与えることに変更しました。

これらすべての報酬が、Qwen 2.5 Math 7Bの数学パフォーマンスを少なくとも20％改善し、ボックスについては13％のような改善を示しました。特にRLVRで不正解ラベルを見ると、間違った答えを意図的に報酬することは、正しい答えを報酬することとほぼ同じブーストを与えます。これは滑稽です。

これは、報酬がバイナリであるため、間違ったラベルが真実に数値的に近いことで説明できる可能性があり、モデルは間接的に正しい推論を行使している可能性があります。しかし、純粋にランダムな報酬が21％以上の精度向上を持つことは、かなり怪しく聞こえます。

彼らはさらにテストし、すべての報酬がゼロであることは実際には何もしないことを発見しました。これは、ランダム報酬が強化学習プロセスに渡される勾配シグナルのためにのみ機能したことを示唆しています。これは、この場合はQwen Mathのコード推論である、既存の高確率行動を偶然に増幅し、低確率行動を抑制するでしょう。

Qwenモデル、特にQwen Mathシリーズの特別なケースは、彼らがPythonコードの予測が非常に得意で、Pythonコードで考え、16ビット精度まで実行できることです。RLVRがコード推論行動を促進することで、強化学習報酬がかなり無意味であっても、自然にそのパフォーマンスを向上させます。

何らかの勾配シグナルを提供する限り、どんなナンセンスな報酬を提供しても、常にQwen Mathをより賢くできます。そして、この極めて強いコード推論がQwenシリーズに特有であり、それは高確率行動でなければならないため、Qwenモデルのみです。

他のモデルでの結果

LLaMA 3やOmniなどの他のモデルファミリーでは、偽りの報酬による利得は消失するか、精度を悪化させさえします。たとえば、LLaMA 3にすべての答えを「Pythonを使用してこれを解決しましょう」で始めることを強制すると、精度が23から28％低下します。

一方、「Pythonは許可されていません」で報酬を訓練すると、Qwen Mathの偽りの報酬による利得を殺します。強化学習のオプティマイザーが内部ヒューリスティックが持つどんな強いシグナルにも固執するならば、モデルの事前知識が非常に強い場合、ジャンク報酬は非常に強力に見え、事前知識が弱い場合、ジャンク報酬はジャンクのままです。

RLVRは新しい推論を教えるのではなく、ベースモデルにすでに含まれている能力を表面化させるだけかもしれないからです。

今後の課題と展望

ここでの教訓は、Qwenが単にLLaMAより優れているということではありません。つまり、常にあなたの方法が一般化するかテストしてください。革命的に見える現在のRLVR方法の多くは、Qwenがテストしているものに対して強い交絡変数を持つ奇妙なものであるため、複数のモデルファミリーで再評価される必要があるかもしれません。

実際に、Qwenを使用して研究を検証したRLVR研究は非常に多くあります。イリヤ・サツケヴァーが事前学習の時代は終わったと言っていますが、私はそれが完全にそのように見えるとは思いません。

RLVRが最初は新しい推論を発見する方法として位置づけられ、今はかなり180度の展開を与えているので、RLVRの役割を再構成し、事前学習が実際にどれほど重要かについて再び考える必要があるかもしれません。

しかし、これはRLVRや一般的な強化学習について悲観的になるべきだという意味ではありません。LLMの強化学習が現在エントロピーをパフォーマンスと交換しているように見えても、十分な結果を発見していない理由は、私たちのスケールがあまりにも小さすぎるからかもしれません。

基本的に、私たちの次の課題は、RLVRがベースモデルの知識を超えて拡張する方法を見つけることです。より多くの計算、より多様な環境、より良い報酬割り当て、そして改善された探索メカニズムが解決策かもしれません。

最後に

とにかく、今日の論文コレクションが気に入ったら、最新で最も興味深い研究論文を毎週最新の状態に保ちたい場合は、私のニュースレターをぜひチェックしてください。これらの論文の多くを、それらが出てきたばかりのときにそこでカバーしています。

YouTubeでは常に遅れているので、最もホットな論文を見逃したくない場合は、サインアップすべきです。視聴いただきありがとうございます。Patreonまたはyoutubeを通じて私をサポートしてくれるAndrew Chellius、Chris Leoo、Degan Gan News Research、Kanan、Robert Zaviasa、Leis Muk、Ben Shainer、Marcelo Ferraria、Zane Sheep Poof、Enu DX Research Groupなど多くの方々に大きな感謝を送ります。

まだフォローしていない場合はTwitterで私をフォローしてください。次回またお会いしましょう。