新しいL1 LLMとRLのスケーリングのためのGRPOからLCPOへ

8,913 文字

NEW L1 LLM w/ GRPO to LCPO for Scaling RL (CMU)

We explore the new Length Controlled Policy Optimization (LCPO),a simple reinforcement learning method that optimizes fo...

こんにちはコミュニティの皆さん。戻ってきてくれて嬉しいです。今日はカーネギーメロン大学による新しいLLMと、ポリシー最適化の最新開発から全く新しいポリシー最適化手法についてお話しします。
これについて話すと、OpenAIによる昔ながらの近接ポリシー最適化（PPO）を覚えていますね。私たちは2つの道に進むことができます。ひとつはByteダンスによる新しい値較正PPO、もうひとつはDeepSeekによるグループ相対的ポリシー最適化（GRPO）です。見てみましょう。
まず最初のものを見てみましょう。これはByteダンスによる2025年3月のもので、彼らはPPOの崩壊の背後にあるものを分析しました。特に長い思考連鎖タスクに進む場合です。短いものではあまり明らかにならなかったのですが、今や推論モデルに進むとPPOが崩壊することがわかります。なぜなら、彼らはここで2つの主要な問題を開発、あるいは調査しました。事前訓練値バイアスと訓練中の値バイアスです。そしてこの両方に対して解決策を見つけました。
ご覧のように、実験で観察されたPPOの失敗モードが美しく示されています。そして彼らは最初のものに対して値モデルを使い続けたいと言っています。そのため、値事前訓練を導入しました。このアプローチには、事前に指定された固定ポリシーの下で値モデルがコンバージェンスするまでオフライン訓練することが含まれます。モデルがコンバージェンスすると、それは後続のすべての正式な実験で使用されます。あなたがこれに興味があるならステップを書き留めました。これは本当に技術的に難しい部分ですが、彼らがPPOの長い思考連鎖における上位2つの問題に取り組んでいることを理解しています。
任意のデルタに対する新しいポリシー勾配が書き直され、これをコーディングすることができ、一種の値最適化PPO構造を持つことができます。しかし別のオプションもあります。DeepSeekからの美しいグループ相対的ポリシー最適化（GRPO）を覚えていますね。
これはDeepSeekと中国の大学、北京大学による論文で、1年と1ヶ月前の2024年2月5日のものです。彼らはGRPOの詳細と説明を提供しています。
核心的な動機として、DeepSeekはPPOの値関数の非効率性を指摘しています。標準的なPPOはアクター・クリティック・アーキテクチャに依存しており、クリティックは値関数モデルで、しばしばアクター（ポリシーモデル）自体と比較してサイズが比較されます。しかしこの追加の値モデルを訓練することは時間がかかり、計算的に集約的で、重大なメモリ負担を引き起こします。
また値関数訓練の課題自体もあります。報酬はしばしばまばらで遅延し、典型的には正解のために生成されたシーケンスの終わりにのみ割り当てられます。これは値関数の訓練を本当に複雑な方法で複雑にします。そこで彼らは、クリティックモデル、つまり値関数を完全に放棄しようと言います。つまり値関数はまったくありません。これはGRPOの単純化です。
なぜこれが可能なのか、グループスコア方法論で進むことができるのか。説明は比較的単純です。GRPOは標準的なPPOと比較してメモリフットプリントと計算オーバーヘッドを削減します。これによりLLMの強化学習微調整が実現可能になります。なぜならGRPOのグループ相対的な利点推定は、しばしば出力間の比較で訓練される報酬モデル自体と非常によく一致するからです。絶対的な値ではなく、AとBのどちらが良いかを比較するのです。
つまり報酬モデルは本質的に比較的なものであり、これはもちろん素晴らしいことです。なぜなら今やグループの平均値からグループ相対的な利点推定を行うことができるからです。これは素晴らしいことで、この2つは完璧に出会います。
GRPOはこれを活用し、同じ入力から生成された他の出力に対して相対的に利点を計算します。今DeepSeekは経験的に、PPOはDeepSeek数学モデルの数学的推論能力を向上させるのに十分であり、教師付き微調整されたベースラインよりも大幅な改善をもたらすと示しています。
これは素晴らしいことですが、今日私たちが興味を持っているのはシステムの安定性です。なぜなら長い思考連鎖で操作しており、問題に遭遇するからです。システムはもはや安定していません。つまり長期的な推論連鎖で突然システムが純粋な幻覚に陥り、ループに入り、消えてしまうのです。
そのため、もう少し技術的な詳細に入ると、GRPOはポリシー更新を制限するためにクリップされた確率比を使用し、安定性を確保します。これは元のPPOと非常に似ています。上記で説明したようにグループ相対的に計算された利点が、ポリシー更新を導きます。
私の他のビデオで話したように、クルバック・ライブラー発散ペナルティについても話していました。GRPOもトレーニングをさらに安定させ、劇的なポリシー変更を防ぐために、直接的なクルバック・ライブラー発散ペナルティを含めています。素晴らしくコヒーレントな遷移関数を持つことになります。
したがってDeepSeekは、GRPOが損失関数内で直接クルバック・ライブラーを正則化し、PPOでも時々行われるように報酬に別々のKLペナルティを追加するのではないと指摘しています。
さて、2017年にOpenAIがPPOを発表したときに戻ってみましょう。これは既にバージョン5でしたが、興味深いことに、その前にUCバークレーから信頼領域ポリシー最適化（TRPO）がありました。このビデオを準備していて学んだことですが、PPOの前にあったTRPOでは、バークレーがクルバック・ライブラー発散を安定性確保の主要なメカニズムとして使用していました。
TRPOは古いポリシーの周りのこの環境用語を持つ、信頼領域内に留まりながら改善を最大化することを目指しています。信頼領域は新しいポリシーと古いポリシーの間のクルバック・ライブラー発散のハード制約によって定義されます。アイデアは再び同じで、ポリシー更新が大きすぎて学習プロセスを不安定にすることを防ぐことです。
興味深いことに、PPOのクリップされた代理目的関数は、信じられないかもしれませんが、TRPOですでに使用されていた信頼概念の単純化であることを学びました。私はPPOがOpenAIによって発明されたという印象を持っていましたが、今やPPOはバークレーによる開発の単純化であることがわかります。
これは実装がはるかに簡単で、TRPOの複雑な制約最適化よりも計算コストが低くなるように設計されていますが、それでもTRPOと同様の安定性を達成し、パフォーマンスも同様です。つまりPPOはTRPOの単純化にすぎません。世界は小さいですね。
もう一つのオプションとして、クリップされた代理関数とKLペナルティを持つPPOがあります。一部のPPOバリアントは、あなたが使用しているモデルによって異なりますが、潜在的により細かい安定性制御のための二次的なオプションの正則化項としてクルバック・ライブラー発散ペナルティを追加します。システムの安定性がメインテーマであり、主要および二次的な安定化メカニズムがあることがわかります。
あるいは単純に言えば、ウィキペディアにもあるように、PPOは2017年に公開され、基本的にTRPOの近似であり、複雑なものを計算する必要がありません。クルバック・ライブラー発散制約は、単にポリシー勾配をクリップすることで近似されました。そして2018年に進むと、PPOはOpenAIによって公開されたデフォルトの強化学習アルゴリズムになりました。すべては巨人の肩の上に構築されており、バークレーからのTPROだったのです。本当に興味深い学びでした。
さて、私たちには天才の閃きが必要です。そして今日、見ていきたいのは、グループ相対的ポリシー最適化（GRPO）から長さ制御ポリシー最適化（LCPO）への移行です。カーネギーメロン大学がこの新しいアルゴリズム、この新しいポリシー最適化を開発したと読んだとき、これは興味深いと思い、論文を見てみる必要がありました。
カーネギーメロンはまた、L1と呼ばれる新しいLLMも開発しました。おそらくメロン大学のM1であり、L1の質問は「なぜ新しいものが必要なのか」です。DeepSeekは素晴らしく機能しているからです。彼らは推論過程の長さ、つまり思考連鎖の長さを制御できないことを指摘しています。
より長い思考連鎖はより良いパフォーマンスにつながりますが、現在のモデルはそれらを制御されていない方法で生成し、潜在的に非効率性をもたらし、推論のための計算リソースの管理を困難にしています。O1やO3モデルが3分、5分、最近では15分もかかることを覚えていますね。しかし、より良い答えが欲しいので、これらの推論モデルを使用するのです。
研究を読むと興味深いことがわかります。彼らはS1と比較していると言っていますが、S1のビデオを作りましたが、これはスタンフォード大学のものでした。S1はスタンフォードの「最初の推論モデルLLM」で、U1やR1に近く、スタンフォードはS1を持ち、今カーネギーメロンはL1を持っています。なんという偶然でしょう。そして彼らは「L1はS1よりも優れている」と言っています。
S1はただ予算強制という、推論トークンの量に一定の制限を持っていただけですが、彼らは自分たちのものの方が優れていると言います。S1に関する私のビデオをご覧になっていない方には簡単に説明します。オープンな数学的データセットがあり、彼らはGemini 2同期LLMを使用して、この特定の問題の推論トレースを抽出または構築しました。その後、これらの推論トレースをクリーニングし、1Kデータセットの縮小セットを持ち、このデータセット上でQ1モデルを教師あり微調整し、その結果がスタンフォードS1モデルになりました。
そして今、カーネギーメロン大学のL1モデルがあります。スタンフォードとカーネギーメロンの違いは何でしょうか？技術は何が変わったのか？核心となる新しいアイデアは長さの制御です。
これだけです。思考連鎖の長さを制御したいのです。これは、推論言語モデルに正確で適応性のある長さ制御を提供する単純な強化学習ベースの方法です。彼らはこれを非常に興味深い最適化方法論で行っています。
彼らには2つの目的があります。出力の正確さと、特定の長さ制約を満たす推論シーケンスの生成です。「L1モデルに約8,000の思考トークンだけを使用してほしい」などと言うと、持たせたい長さの最大量を調整できるようになります。
ただし、本当に複雑な問題がある場合、事前にモデルに何トークン与えるべきかはわかりません。各思考トークンに対して支払う必要がある場合、これは制約ではないと思います。もちろん、各思考トークンに対して支払う必要があります。
彼らは長さ制約を組み込むことを確実にしたかったのです。素晴らしい。そして彼らは2つのモデルを構築しました。最初のものはLCPO exactで、生成された推論がユーザー定義のターゲット長（3,847トークン）に正確に等しいことを要求します。そして、maxバージョンは出力がターゲット長を超えないことを要求します。
彼らが使用したのは、スタンフォードのQ1がベースモデルだったことを思い出してください。彼らは非常に特定の15億パラメータの推論モデル、本当に小さなモデルを微調整したと言っています。これはQ1のR1蒸留モデルに基づいています。今やR1が利用可能になったため、カーネギーメロンは「R1を使おう、Q1からR1へと蒸留された15億のバージョンを使おう」と言っています。
2つの特定のLCPOを持ち、exactとmaxのL1モデルを構築しました。出版物の最初のページに見られるように、スタンフォード大学のS1と比較して、カーネギーメロン大学のL1の方が優れていると示しています。つまり、友好的な競争の中で「スタンフォードよりも優れている」と言っているのです。
さて、この出版物を見てみましょう。カーネギーメロン大学、2025年3月6日、「L1：最新の強化学習で推論モデルが考える長さを制御する」です。私は、グループ相対的ポリシー最適化に対する利点は何かに興味がありました。
カーネギーメロンは非常に知的な人々、PhDを持つ人々が、2つの同時目的に最適化問題を焦点を当てました。1つ目は答えの正確さ、2つ目は彼らのセールスポイントである推論シーケンスの長さの調整です。
見てみると、LCPOはDeepSeekのGRPOを基盤となる強化学習アルゴリズムとして使用していることがわかりました。つまり、R1またはDeepSeekのパフォーマンスは本当に優れているに違いありません。
もう少し技術的な詳細を見てみましょう。L1モデルに使用される表記を見てみましょう。これは非常に単純です。入力プロンプトXと特定のターゲット長、そして正解（3,845トークン）を持ち、特定の形式を最小化しながら正しい答えを生成するレスポンスを生成します。
つまり、正確であることと長さを定義することの両方を望んでいます。それはどのように行われるのでしょうか？ここで非常に単純なアプローチが来ます。各プロンプトにターゲット長の指示を追加するだけです。Xはプロンプトで、Xに「正確に3,000トークンで考える」という指示を連結します。
これが新しい先進的な長さ制御ポリシー最適化RLなのかと思いましたが、そうではないようです。L1 exactを見ると、報酬関数が定義されており、報酬関数には2つの項があります。正確さの報酬（目的1）と長さのペナルティ（目的2）です。これは単純な形式で、αは興味深いパラメータです。
αの低い値は、L1によって与えられる答えの正確さを優先し、αの高い値は長さ制約へのより厳格な遵守を強制します。正しい答えを得て長さ制御を失うか、完璧な長さ制御を持つが本当に正しい答えではないという考えには、私はあまり満足していません。
この特定の最適化問題に進むと、興味深いと思いました。L1 maxを見ると、同じ強化学習フレームワークを使用して、修正された報酬関数でL1 exactモデルを微調整しています。ここでもαが長さ違反のペナルティを制御します。
私は何か新しいもの、天才的なアイデアを期待していたかもしれませんが、報酬関数に長さを制御する項があるだけです。トレーニングプロセスを見ると、スタンフォードと同様に事前訓練されたモデルから始めます。
LCPOは事前訓練された推論モデルから始まります。この場合、これは非常に特別なモデルです。DeepScale R 1.5億プレビューで、これはDeepSeek R1 distilled Q1.5Bから元々RL微調整されたモデルです。再びR1、R1蒸留バージョンからであり、そして正確さと最適化された長さ制約を制御するためのこの特定の項を持つ新しい報酬関数を持つGRPOアルゴリズムを使用して強化学習で微調整します。
これが新しい部分です。この新しい報酬関数です。それを訓練し、モデルポリシーを反復的に最適化し、望ましい長さ制約内で正しい答えを学習します。常に正しい答えか答えの正しい長さかのバランスを取る必要があります。内容対形式です。
そして待てよ、これが新しいL1モデルなのかと思いました。DeepSeek R1蒸留モデルがあり、これは実際のDeepSeek R1非蒸留モデルの推論トレースで微調整されています。つまり、推論全体はDeepSeek R1の「知性」から来ており、そしてDeepSeek R1からのポリシー最適化方法論であるGRPOを採用しています。R1、R1からのR1、そしてこれが今L1となりました。
比較として、スタンフォードはGeminiとQ1 2.5を使用していました。
このビデオの終わりに近づいています。少し驚いたかもしれませんね。
興味深いことに、スタンフォードS1モデルへの参照があり、「スタンフォードS1モデルと比較して、長い思考連鎖の長さ制御のために特別に設計された唯一の他の方法であるL1は、S1では利用できなかったR1の推論トレースと、S1では利用できなかったR1のポリシー最適化を使用したため、顕著な改善を示しています」と述べています。L1は150%の相対的および25%の絶対的なパフォーマンス向上を示しています。
彼らは明示的に訓練され、より長い連鎖からより短いものへの推論パターンを蒸留していると称賛しています。私はR1の推論パターンが本当に優れていると思います。だからこそ、カーネギーメロンがL1モデルにそれらを使用したのだと思います。
コードを見てみましょう。美しいコード実装があるかもしれないと思いました。カーネギーメロン大学のL1、16時間前に公開され、すでに16のスターを獲得しています。そして彼らは「DeepSeekのR1と蒸留モデルのリリース、Q1のQ1数学モデル、そしてコードベースのAenticaに感謝したい」と述べています。
Aenticaとは何か、コードベースとは何を意味するのかと思いました。そしてオープンソースのモデルとデータセットに対する素晴らしい謝辞です。Aenticaとは何かと思い、これは私にとって新しい学びでした。
バークレーのAI研究とスカイコンピューティングラボの一部であるAenticaプロジェクトで、GitHubにリポジトリがあります。Aenticaの人々を見ると、彼らはオープンソースの取り組みを持ち、誰もが彼らのコードを使用してLLMとエージェントのためのスケーラブルなシステムを開発できるように、強化学習技術を民主化したいと考えています。彼らはモデル、コード、オープンソースを提供しています。
彼らはDeepScaleプロジェクトを持ち、15億モデルで強化学習をスケーリングすることでO1 previewを超えることを目指しています。2つのビデオ前に強化学習のスケーリングについて話していましたが、彼らは15億モデルで同じことをしています。私は30億モデルについて話していましたが、今や15億モデルでO1 previewを超えようとしています。
これは2月10日のものです。彼らのDeepScalerリポジトリは先月のもので、すでに2,000近くのスターがあります。彼らはモデル、コード、データセット、トレーニングコードにMITライセンスを適用しています。これは素晴らしいリソースだと思います。
彼らは強化学習を完全に民主化し、DeepSeek R1とOpenAI O3を実際のタスクのためにスケールで再現するオープンソースプロジェクトであるDeepScaleについて説明しています。オープンソースでO3を再現できれば本当に興味深いでしょう。彼らはトレーニングスコープ、ハイパーパラメータ、モデル、データセット、ログなど、すべての努力をオープンソース化しています。すべてMITライセンスです。
カーネギーメロン大学が使用した特定のモデル、DeepScale R 1.5Bは、Aenticaからのモデルであることがわかりました。世界は小さな場所です。
彼らはコードのインストール方法、トレーニングレシピの実行方法、内部などの正確な指示を提供しています。強化学習をスケーリングするためのコードベースを最新のアイデア、最新のポリシー最適化で構築することに興味があれば、これは優れたコードソースだと思います。
カーネギーメロン大学に戻って、このビデオの最後に触れたいことがあります。彼らはL1モデルの異なる推論戦略について言及し、L1は異なるトークン予算で異なる推論戦略を採用していると述べています。これがL1の特殊性であるとしています。
異なるトークン予算、例えば500トークンや4,000トークンがある場合は理解できます。しかし、500トークンと4,000トークンで推論戦略が異なると主張することについて、私はより詳しく見る必要があると思いました。
これが有効な文章である彼らのアイデアは、このグラフから来ています。彼らは「therefore」と「so」という単語を見たとき、推論LLMに4Kトークンを与えた場合、「therefore」という単語が500トークンの答えよりもはるかに多く使用されたと言っています。だから結論を導く「therefore」と「so」の戦略は、今や異なる推論戦略だというのです。
個人的には、「therefore」と「so」という単語を数えるだけで、それらが異なる推論戦略であるという問題があります。私にとって戦略はもっと複雑なものであり、長い思考連鎖推論で「therefore」という単語を数えるのではありません。もしかしたら私が間違っているかもしれませんが、これについては自分の意見があるかもしれません。
これで終わりです。このビデオのサムネイルを再描画したいと思います。この長さ制御ポリシー最適化が何であるかを詳細に見てきました。これはDeepSeekによるグループ相対的ポリシー最適化であり、長さを制御するための追加の報酬項があり、相対的な長さ制御と絶対的な長さ制御があります。
しかし、技術的な進歩だけを見れば、これはほぼ同一です。このサムネイルの部分を修正したいと思います。そして新しいL1モデルと言う場合、括弧でDeepSeekのR1からと言いたいと思います。それがこのビデオの完璧なサムネイルになると思います。
私に同意するなら、チャンネル登録してみてはいかがでしょうか。新しいビデオがすでに準備中です。