
7,212 文字

こんにちはコミュニティの皆さん、お帰りなさい。今日は最新のAI研究が発表されたのでご紹介します。皆さんはDeepSeekのGRPOを覚えていますよね。今日はDAPOとVAPOについてお話しします。
まず主要な結果から始めましょう。そして、この動画を見続けるかどうかを決めてください。皆さんはR1 GPO(グループ相対方策最適化)を覚えていると思いますが、そこでは複数の応答に対してグループベースの報酬正規化と非対称クリッピングを使用し、それによって明示的な価値モデルなしで強化学習トレーニングを安定化させることができました。これが素晴らしいポイントでした。もちろんいくつかの問題にも遭遇しましたが、R1 DeepSeekはここから始まったのです。
今日は、ByteDanceとシードによる新しい開発について話します。彼らは進化の次のステップとして、解析不要の方法を用いて非対称クリッピング、動的サンプリング、追加項を含むトークン損失計算、そして非常に細かな報酬形成を通じて、方策最適化の欠点に焦点を当てています。彼らはエントロピー維持の問題と長い推論チェーンのタスクにおいて、R1 GPOで問題となっていた勾配の活用方法を改善する方法に直接取り組んでいます。
そしてわずか3週間後、進化の次のステップが登場しました。今日は価値モデルを組み込んだ新しい手法について話します。4つの新しい要素があり、これによってPOで知られている価値ベースの方法の主要な制限を克服することができます。素晴らしいものです。
パフォーマンスを見てみましょう。これが私たちが達成しようとしているものです。特にAM 2024ベンチマークの精度が表示されています。X軸にはトレーニングステップがあり、これはR1のGRPOの性能データです。約10,000トレーニングステップで精度は47%です。今日見るのは、半分のトレーニングステップで同等かやや優れた精度を達成し、さらに少ないステップでパフォーマンスをさらに向上させるということです。
トレーニングステップを半分にできれば、コストが下がり、時間が短縮され、コンピュータインフラの利用率がはるかに効率的になります。これは素晴らしいことではないでしょうか。詳しく見ていきましょう。また、2日前に紹介したDeepSeek自体の最新の生成報酬モデルに関する動画と、今日の動画がどのように関連しているか、両方の要素をどのように使用できるか、そしてそれらがどのように組み合わさるかをお見せします。
2025年3月18日に、ByteDanceとシード、それから中華大学、香港大学、中華AIによる美しい発表がありました。大規模なオープンソースLLM強化学習システムについてです。彼らは分離されたクリップと動的サンプリング方策最適化を使用しています。見てみましょう。プロジェクトベースがあり、GitHubも無料で全て利用可能です。
最初に彼らは「ByteDanceがない時の初期GRBOの実行では30ポイントしか達成できなかった」と言いました。それから彼らは調査し、DAPOを開発しました。これはR1と同じパフォーマンスを持ちますが、トレーニングステップは半分です。もっと知りたければ、DeepSeek R1ゼロモデルについての特定の動画で全てを説明しています。
そして彼らはAPOを開発しました。これは長い推論タスクのための強化学習を通じて大規模言語モデルをトレーニングする際に直面した課題に対処するために開発されました。OpenAIの01モデル、DeepSeekのR1モデルなどです。特にテスト時の計算スケーリングTDSやインファレンスのスケーリングのパフォーマンスを向上させる方法を探しました。
GRPOを知らない方のために言いますと、GPOは素晴らしかったですが、いくつかの小さな問題がありました。このGRPOはエントロピー崩壊の問題に悩まされていました。モデルが非常に狭い出力セットに急速に過度の自信を持ってしまい、可能な推論パスの探索を制限してしまうのです。また、特に長い推論チェーンや大幅に変動するシーケンス長を扱う場合に勾配の不安定性がありました。これらのモデルでは安定した勾配を扱うことができないことに気づきました。
そこで彼らは解決策を導入し、APOのために4つの新しい主要テクニックを開発しました。まず最初に、対称クリップ範囲を使用する代わりに、下限クリップしきい値を上限クリップしきい値から分離し、非対称性を持たせました。これにより、確率の低い探索トークンが過度に抑制されないようにし、長い推論での多様性を維持することができます。
次に、単に些細な勾配信号を生成するプロンプトをフィルタリングするという美しい解決策を導入しました。さらに、トークンレベルの方策勾配損失では、トークンレベルで勾配損失を計算します。これは論理チェーンの中で非常に短い答えがある応答や、実際に長い因果推論チェーンがある場合に特に価値があります。
最後に、長い推論チェーンでは間違った最終結果が出ることもありますが、因果推論チェーンの50%や60%、70%は正しく、例えば80%の時点で間違ったステップが発生し、そのため結果が間違っていることがあります。切り捨てられた応答に対するソフトペナルティを導入することで、モデルが間違った方向に進むまでの有用な部分的推論を保存することができるようになりました。
これらの4つの要素を発見して実装したのは、天才の閃きだと思います。数学的な定式化で見るとはるかに簡単です。これはPOです。POはこの目的関数を最大化することで方策を更新します。もちろん、データ分布Dからの質問と回答のペア、クリッピング範囲εの重要度サンプリング比、時点tでの利点の推定量Âが必要です。
OpenAIの2017年のPOでは、価値関数と報酬関数rを使用し、それから一般化利点推定を使って全てのPOパラメータを計算できました。これが2017年の美しいモデルでした。
GRPOでは、R1の数学を思い出してください。特にGRPOは価値関数を排除し、グループ相対的な方法で利点を推定しました。特定の質問に対して、古い方策πoldはグループの個々の応答をサンプリングし、それらは価値関数や価値モデルなしでグループレベルの報酬で正規化されました。これが非常に美しくなりました。もちろん、カルバック・ライブラー発散ペナルティ項を持つことができましたが、これは簡単でした。
DIPOでは、分離クリップと動的サンプリング方策最適化があります。クリッピングに非対称性があります。これがパフォーマンスにもたらすものについて説明しますが、概要としては、式がこのように修正されているのがわかります。これらの各用語について説明する特定の動画があるので、方策モデル、報酬モデル、最適化一般について理解できるでしょう。少しAIの数学があると、少し面白くて退屈ではありません。
今日の動画の核心部分に入りましょう。VAPOはDAPOから価値モデルを組み込むことで進化しました。DAPOの4つのステップを見て、今度は価値モデルを追加します。なぜかというと、価値の事前トレーニングという新しい要素によって、分離された長さ適応型一般化利点推定と追加の損失項を通じて、DAPOの欠点を克服できるからです。これがVAPOです。より良いパフォーマンス(10%のジャンプ)、改善されたトレーニング効率、そして改善された信頼性があります。
これを見てみましょう。「コンテキストは何ですか?」と尋ねるかもしれません。なぜなら2日前に、DeepSeekの最新の生成報酬モデルを紹介したからです。DeepSeekがR2モデルに向かう方向とByteDANCEのVAPOはどう適合するのでしょうか?コンテキストはありますか?
もちろんコンテキストはあります。DeepSeek GRMの新しい動画を思い出してください。そこで推論実行について話しましたが、その前にトレーニング時間があり、古典的な拒否的微調整とルールベースの強化学習があると言いました。例えばDeepSeekはここでGRPUを利用しました。今、このトレーニングの中でルールベースの強化学習の位置にいるとすれば、理論的にはDeepSeekはByteDANCEのテクノロジーを使用できるでしょう。これは本当に興味深いことです。
DeepSeekは元のGRPOの設定を使用しました。今やGRPOの次の進化、そしてその次の進化もあります。R2モデルがどこに向かうのか本当に興味深いです。
少し言いたいことがあります。私の登録者が絶えず「なぜOpenAIからの研究トピックを紹介しないのか」と尋ねてきます。「MITやハーバード、中華大学や香港大学、シンガポールAIとの協力を示していますが、なぜOpenAIからの新しいAI研究結果を示さないのですか」と言われます。
OpenAIは現在何の情報も公開していないとしか言えません。新しい技術や持っている新しい利点、開発している新しい方法について、OpenAIから何も受け取っていません。OpenAIから何かを紹介したいのですが、私は3、4年毎月OpenAIにお金を払っており、彼らが新しい研究を発表するのを待っています。しかし残念ながら、OpenAIの新しい商業化により、何も情報がありません。何も紹介するものがありません。
MITやハーバード、UCバークレー、UCSBなどのアメリカの機関と中国のパートナーとの協力は全てオープンソースのものであり、何らかの形でR1に関連しています。そのため新しい研究を紹介できるのです。OpenAIからは何もありません。OpenAIは現在何も発表していません。
今日の研究を見てみましょう。これがVAPO、つまり価値ベース拡張近位方策最適化です。「これはPO、古いPOですね」と言うかもしれませんが、彼らはVAPOではなくVAPOにすることにしました。素晴らしいです。彼らの意向を尊重します。2017年のOpenAIの近位方策最適化からByteDANCEの友人たちがはるかに優れた価値ベース拡張POを開発し、実装したのが分かります。結果は印象的です。
R1のパフォーマンスデータがあり、トレーニングステップを半分にしたDAPO、そして今VAPOについて話しています。これは美しくないですか?彼らがさらに10,000トレーニングステップを訓練したらパフォーマンスがどこまで向上するのか気になりますが、これが私たちが持っているデータです。
繰り返しますが、VAPOには4つの重要な進歩があります。VAPOは古典的なモンテカルロリターン構造を使用して価値ネットワークを事前トレーニングします。これをウォームアップフェーズと見なすこともできます。これにより、長い推論チェーンの初期化バイアスが軽減されます。
古典的なケースでは価値更新と方策更新の両方に有効な単一の一般化利点推定パラメータラムダを使用する代わりに、VAPOではこれらの項を分離し、価値ネットワークにはバイアスを避けるために特定の値にラムダを設定し、方策ネットワークにはより低いラムダを使用します。クリッピングとの非対称性だけでなく、価値ネットワークと方策ネットワーク間の一般化利点推定からも非対称性を持たせています。
価値ネットワークでは、バイアスを避けるために最終報酬を減衰なしで完全に伝播するラムダがあります。これについてすぐに説明します。そして方策ネットワークは収束速度を向上させるためにより低いラムダを使用します。
次に、応答の長さが大幅に変わることを考えると、VAPOはパラメータを動的に調整し、シーケンス長とハイパーパラメータを調整します。αを少し試して、短い応答と長い応答の間のバイアスと分散のより良いバランスを取る必要があります。長い答えと非常に短い答えでパフォーマンスに差があるからです。短ければ短いほど良いですが、注意が必要です。
彼らは長さ適応型の一般化注意推定を構築し、すでに知っているグループサンプリング技術を使用し、損失関数に正例損失要素を追加しました。有効な例により焦点を当てたいのです。
ここで短い中断をしましょう。DAPOからVAPOへの移行で、なぜ突然価値モデルが登場するのでしょうか?価値モデルは何をしているのでしょうか?GRPOでは価値モデルを取り除きましたが、今それが戻ってきました。なぜでしょうか?
それは各状態からの期待リターンをはるかに細かい粒度で推定しています。価値ネットワークは方策更新が始まる前に、固定方策からのモデル推定でウォームアップされるようになりました。これにより、方策最適化中により良い初期条件と推定が得られます。さらに、価値更新と方策更新のラムダパラメータを分離することで、一般的により良い信号比が得られます。
長さ適応のために、割引係数ラムダが生成された因果推論のシーケンスの特定の長さに基づいて動的になり、これによりパフォーマンスが向上します。
さて、価値モデルにもう少し詳しく見てみましょう。それは与えられた状態sから始まる期待累積報酬を提供し、これが高品質の回答に必要なものです。DPOでPOから覚えているように、利点関数(Âと表記される)は、与えられた行動が期待されるものと比較してどれだけ良いかを測定し、これを時間差エラーで計算しました。
これが報酬と割引係数ガンマを含む単純な式であり、これが方策勾配更新と分散削減でした。この価値モデルは特定の種類の感度を持っています。長い推論チェーンやチェーンオブソートを必要とするタスクでは、シーケンス長が非常に可変であり、価値モデルが適切に訓練されていない場合、ブートストラップされた価値推定が偏ることがあります。
これは、彼らが発見したウォームアップフェーズによって、古典的なモデルリターンで事前訓練することでこのバイアスを修正するのに役立ちます。このウォームアップフェーズは報酬モデルの初期化に関連するバイアスを軽減し、価値更新と方策更新の特定の部分を分離することでさらにパフォーマンスを向上させ、より優れた収束を提供します。長いシーケンスにも動的係数を持つ長さ特定のラムダパラメータも同様です。
クリッピングについて質問があります。クリッピングについて少し説明しましょう。POでクリッピングを発見しました。そのアイデアは単に、方策の増分である方策最適化が更新間で急激に変化するのを防ぐことでした。ある方策から別の状態へのスムーズな移行を望んでいました。大きな無制約の更新はトレーニングを不安定にする可能性があるため、クリッピングを導入して更新サイズを制限し、古い方策の周りに信頼領域を維持しました。
古い動画を覚えているなら、OpenAIがPOを開発する前に信頼領域方策最適化があり、POはその次の進化として構築されたことを示しました。AIでは全てが他の全てと関連しています。
初期のPOバリアントではGRPOとして対称クリッピングを使用していました。これはコーディングする上で最も簡単な方法だったからです。このメカニズムはトークン確率の増加と減少を同一に扱いますが、問題が発生しました。モンテカルロツリーの分岐を考えてみてください。成功したパス、成功した枝があれば、解決策に到達するまでさらに深く進みたいのです。探索と既に良いパスの活用のバランスが重要です。
問題1は、古い方策でトークンの確率が低い場合、それが大幅に増加する可能性が他のクリッピング境界によって妨げられることでした。この制限により、モデルが代替的な推論パスを探索する能力が制限されましたが、これは長い推論チェーンのための自己学習型AIモデルには不可欠です。
問題2は出力分布のエントロピーが単に崩壊することでした。これは全く良くなく、最終的には全体的な探索能力を減少させ、改善された推論パスの発見を妨げました。どうにかして対称クリッピングを取り除く必要がありました。解決策は何だったでしょうか?非対称性です。
過去数年を振り返り、タイムライン内のさまざまな要素を理解すれば、ある新しい方法論が別の方法論の上に構築されていることが分かります。
まとめに入りましょう。AIが美しい表にまとめてくれました。ここにはGRPO、DIPO、VIPOがあります。自分のために作ったものでもあります。自分の動画を見返すことがあるからです。
全体的なアプローチは、グループレベルの報酬正規化による価値フリー強化学習、非対称クリッピングと動的サンプリングによる探索のための価値フリー報酬学習強化学習、そして価値モデル(なし、なし、あり)、利点クリッピング戦略、損失関数、報酬形成、安定性です。
私はいつも次の詳細ステップに進みたいと思っています。もし興味があれば、より詳細な分析もあります。価値モデル、価値関数、一般化利点推定の分離、長さ適応型、クリッピング戦略、サンプリング戦略(3つのモデル間の比較)、損失計算、報酬形成、そして最後にパフォーマンスです。古典的なものではR1レベルで約50%、ここでは60%以上のAIM 2024ベンチマーク精度です。
これで話したことすべてが一目でわかるように、新しい要約要素を試みました。楽しんでいただけたでしょうか?この開発はわずか3週間で行われ、パフォーマンスが50%から60%にジャンプしました。これが続けば、R2モデルが本当に楽しみです。
楽しんでいただけたなら、もし新しい情報が見つかったなら、ぜひ登録してください。次の動画でお会いしましょう。


コメント