GRPOからSAMPOへ:エージェントRLにおけるトレーニング崩壊の解決

AI研究
この記事は約16分で読めます。

本動画は、AIエージェントの強化学習における新たなポリシー最適化手法「SAMPO」を紹介する技術解説である。従来のGRPOなどの手法では、マルチターン環境での学習が不安定になり、勾配爆発やトレーニング崩壊が発生する問題があった。カリフォルニア大学とウィスコンシン大学の研究チームは、損失集約、重要度サンプリングのクリッピング、軌跡フィルタリング、アドバンテージ設計という4つの最適化次元を体系的に分析し、各次元で最適な手法を組み合わせることでSAMPOを開発した。ベンチマーク評価では、わずか4BパラメータのローカルモデルがGPT-5.2を大幅に上回る性能を示し、エージェントの意思決定の質と安定性が劇的に向上することが実証されている。

From GRPO to SAMPO: Solving Training Collapse in Agentic RL
NEW Post-training algorithm for AI models, implementing a new Reinforcement Learning Method (RL) based on an optimized P...

強化学習における新たなポリシー最適化の登場

こんにちは、コミュニティの皆さん。また戻ってきてくれて本当に嬉しいです。今日は新しい強化学習のポリシー最適化手法についてお話しします。では早速見ていきましょう。

LLMについて考えると、美しいプリトレーニング、次にインコンテキスト学習、教師あり微調整、そして強化学習という流れがあります。素晴らしいですね。そして私たちはここからエージェントへと進みました。

エージェントの方が優れているのは、メモリ最適化があるからです。LLMコアを持ちながらも、拡張されたツール呼び出し、ツール使用、MCエージェント、エージェント間通信といった機能があります。美しいですね。そしてもちろん、マルチエージェント学習アルゴリズムもありますが、これについては後ほど扱います。今日は単一エージェントのポリシー最適化に焦点を当てたいと思います。

つまり、ここでのエージェント強化学習において、トレーニングは非常に不安定で崩壊しやすい状態にあるということです。この不安定性は、エージェントが環境と対話する際の相互作用的、特にマルチターン的な性質から生じます。これにより、無効なアクション、スパースな報酬、長期的なクレジット割り当て問題など、複合的な課題が導入されます。これからお見せしますが、非定常的なエージェント環境のダイナミクスもあります。

単一エージェントのポリシー最適化に焦点を当てる

私たちはここで、強化学習、特に単一AIエージェントのポリシー最適化をどのように最適化するかに焦点を当てます。ご存知のように、私たちは長い間PPOから始まり、次にGRPOへと進んできました。そして今日、新しいポリシー最適化を紹介します。ただし、複数のエージェントがある場合のマルチエージェント学習についても話します。

しかし理解していただきたいのは、これは単に、私たちの単一ポリシー最適化で最適化されたエージェントを持つ必要があるということです。もちろん、単一のエージェントは異なるエージェントのセットのメンバーになることもできます。つまり、エージェントのアンサンブルを持つことになります。しかし今日は、単一エージェントのポリシー最適化に焦点を当てます。始めましょう。

一般的に、私たちは複雑なマルチステップの対話型タスクのために自律エージェントを展開します。環境の文脈において知的なAIエージェントがあり、それがタスクを実行すべきです。つまり、学習アルゴリズムは1つだけです。これは、静的な推論タスクの成功を基盤とする、ポストトレーニングフレームワークのための強化学習です。

これが今日の論文です。カリフォルニア大学とウィスコンシン大学医学部によるものです。彼らはここでエージェント強化学習アリーナを開発しました。最初に彼らはベンチマークを構築し、このベンチマークを分析して、新しいアイデアがあることに気づきました。そしてマルチエージェントシステムのための安定したエージェント強化学習の統一された新しいフレームワークを構築しました。2025年2月6日に公開されています。ここにGitHubページとHugging Faceページがあります。すべての情報を見つけることができます。

数学的基盤とポリシー最適化の構造

LLMの強化学習最適化では、ポリシーπθ、つまり私が戦略と呼ぶものが、プロンプトxに条件付けられた軌跡yを生成します。これはその後、ポリシー更新に使用され、PPOスタイルの最適化に従います。ポリシー勾配、つまり∇は、私たちが3年以上にわたってすべての強化学習最適化手順に使用してきた古い数式で書くことができます。

もし詳しくない方は、人工知能に必要な数学だけを詳しく説明する特別な動画があります。もちろん、ここで最も興味深い項は重み項です。そして重要度サンプリング重みがこの式で与えられます。これは単純に、πθ oldに対するπθの関係です。

私たちはこれをIS重み構造、重要度サンプリング重み構造と呼んでいます。そしてAはもちろん、サンプリングされた系列のアドバンテージを表します。つまり、私たちのw項がlog πθの微分と掛け合わされるため、本当に重要なのです。

チャンネルに1,000本以上の動画があるときに、どうやって動画を見つけられるかという質問もたくさんありました。検索機能に行って、「AI math」のように入力すれば、この特定のトピックに興味のあるすべての動画が表示されます。概要を示す論文があるかという質問もありました。この論文をお勧めします。イリノイ大学、Amazon、Google DeepMind、UCサンディエゴ、イェール大学からのものです。「LLMのためのエージェント推論」と呼ばれ、2025年1月18日のものです。概要を知りたい方には強くお勧めします。では、タスクを続けましょう。

マルチターン対話とエージェントの課題

AIエージェントは、マルチターン対話と相互作用であるKターンにわたって環境と相互作用します。そして私たちは長期的な意思決定プロセスを形成する必要があります。ここで研究の結果をお伝えします。著者は言いました。私たちは今、この数式を持っています。そして見てください、これは私たちがすでに知っているものとほぼ同じですが、今はKターンにわたる総和があります。

そして再び∇があります。これがw項です。これが∇log πθ、対数確率項とアドバンテージ項です。簡単な説明です。今、wが定義されました。素晴らしい。

さて、問題は、なぜこの比率に対する標準的な制約のない最適化が、マルチターン環境において病的な信頼領域違反を引き起こし、壊滅的な勾配爆発につながるのかということです。

これがまさに私たちが遭遇する問題の理由です。著者のアプローチは美しいものです。彼らは言います。これは数式です。だから、この数式にはいくつの自由度があるか、あるいはアルゴリズムを変更できる次元や場所がいくつあるかを見てみましょう。

4つの最適化次元の発見

このアルゴリズムを変更する4つのオプションがあります。トークン損失を集約する方法を変更するか、重要度重み、つまりw項をクリップまたは制約する方法を調べるか、完全な軌跡をフィルタリングまたは再サンプリングする方法、あるいはアドバンテージ関数を定義する方法です。これらがこの数式の4つの自由度です。では、各次元でこれを最適化して、新しいポリシー最適化でより良い解決策を見つけられるか見てみましょう。

著者は教えてくれます。私たちの4つの次元は、損失集約、重要度サンプリングクリッピング、軌跡フィルタリングと再サンプリング、そしてアドバンテージ設計です。素晴らしい。

今、私たちはすでに多くのポリシー最適化を持っています。上位3つのGRPOアルゴリズムを見てください。そして彼らはここで、損失目的が何か(第1次元)、アドバンテージが何か(第2次元)、ISクリッピングが何か(次の次元)、そして最終次元がダイナミックサンプリングであるという明確な定義を持っています。

彼らはここで、後で実装しなければならないすべての数式とすべてのコードを実際に書き始めました。しかしもちろん、これは始まりに過ぎませんでした。なぜなら、SAPPO、SISO、GSPO、GIGO、EMPO、DAPOなど、ポリシー最適化のための異なる方法があるからです。そして各次元における数学的項が見えます。

そして彼らは言いました。では、ベンチマークを見てみましょう。もしかしたら、新しいポリシー最適化に組み合わせることができる最適化が見つかるかもしれません。ベンチマークから新しいポリシー最適化へのステップが見えます。

各次元における最適化の探求

彼らは第1次元、損失集約から始めました。ご存知のように、損失目的のための数学的近似が必要です。そのために異なる数学的アルゴリズムを使用できます。逐次平均、トークン平均、またはトークン平均のいずれかを使用できます。実行できる数学的最適化はたくさんあります。素晴らしい。

第2の、そしてこれが最も重要な次元の1つですが、クリッピングです。なぜなら、それは何でしょうか? クリッピング手法は、古いポリシーに対する行動確率の変化を制限することによって、システムの戦略更新によるポリシー更新の大きさを制約します。

古いKL発散を覚えていますか? これがまさにここで起こっていることです。つまり、私たちの有名な方程式で定式化された最終目的にクリッピング項があります。しかし今、クリッピング基準として、トークンレベルの比率を使うか、系列レベルの重要度比率を使うか選択でき、彼らは両方の最適化を試しました。

例えば、PPOでこれを行うと、正しい方法で行えば、プラスの効果を得られるというアイデアを示します。成功率はここでプラス20%、プラス7%、プラス18%上昇します。すべての異なるアルゴリズムに対してこれを実行できますが、SAPPOを見てください。温度のようなハイパーパラメータの1つを変更すると、マイナスの影響も受ける可能性があります。

著者は教えてくれます。すべての最適化がパフォーマンス向上になるわけではなく、最適化が望まない方向に進む可能性もあります。

w項のクリッピングが重要だと言いました。なぜなら、スコア関数∇log πθとの掛け算に直接影響を与えるからです。wの大きな偏差は分散を増加させ、KL爆発やシステムの崩壊を引き起こす可能性があります。

つまり、パラメータの感度をここで正確に理解しているのです。トークンレベルのクリッピングと系列レベルのクリッピングを調べたと言いました。彼らは次の次元、アドバンテージの定式化、つまりクレジット割り当てにおいて、美しい数学的最適化手順を見つけました。

アドバンテージ設計と軌跡フィルタリング

報酬関数のプロセスモデルにいることを思い出してください。彼らはここで、局所化された分散を分離するために、密なアドバンテージ関数を数学的に評価しました。そして彼らは2つの異なる方法論でこれを行いました。グループポリシー最適化とエントロピー変調ポリシー勾配最適化のために、新しい数式を開発しました。美しいですね。

そして最後の次元は、軌跡フィルタリングと再サンプリング、あるいは私が多様体幾何学的制約最適化と呼ぶものです。なぜなら、Kターンロールアウトで動作する場合、非常に探索的な初期ポリシーは、しばしば生成されたバッチを生み出すからです。つまり、アドバンテージベクトルがゼロになり、∇がゼロになるということです。そしてこれは望むものではありません。

これが起こらないようにする必要があり、著者が見つけた解決策は、ここでバッチの実行可能集合を制約する動的軌跡フィルタリングでした。そして青で示された条件があり、著者は今これを最適化手法に挿入しました。

つまり、これらすべての次元において、彼らはシステム全体のより良いパフォーマンスのための数学的最適化構造を最適化したのです。そしてパフォーマンスを見てみましょう。

ベンチマーク評価と包括的な分析

今、私が本当に評価するのは、完全なベンチマークのアイデアです。なぜなら、ここに4つのゲームがあるからです。これが私たちが持っている環境です。WebArena、ALF World、WebShop、そして数学的環境です。そして今、私たちはコールドスタートさせます。教師あり微調整がありますが、その後、強化学習、環境との相互作用を起こさせます。

つまり、損失集約、重要度サンプリング、アドバンテージ設計、ダイナミックサンプリングという次元から始め、ここにすべての異なる方法論があり、ALF Worldのような各環境でのパフォーマンス、例えばスコアや成功率が見えます。上下があり、赤はマイナスの発展、緑はプラスの発展です。

つまり、すべての異なるエージェントタスクにおけるポリシー最適化手法のパフォーマンス比較を即座に理解できます。そしてこれは、先ほど示した数式で始めた自由度を調べるところで、Qwen 2.5 7Bシステムの教師あり微調整バージョンで行われました。

つまり、大きな分散があり、どの効果がプラスで、どの効果がマイナスかを本当に理解できます。これを分析して、著者は今、より良いシステムを構築するというアイデアを思いつきました。緑が何かを理解し、赤が何かを理解したので、より良いシステムを構築しましょう。

彼らはさらに、複数のトレーニングステップ、つまり強化学習がある場合、すべての異なる方法論について、成功率、オフポリシーKL発散、KL発散損失関数を詳細に分析し、次に勾配ノルムを分析しました。そしてここでの洞察を理解し、彼らがこの論文で詳細に説明している多くの数学があります。ご自身で見てください。何が機能しているか、何が機能していないか、何が最初に機能するか、何が最後に機能するか、どのように物事を組み合わせることができるか。

そしてすべてのポリシー最適化についてこの深い理解を持つことで、最終的に彼らは独自のポリシー最適化を思いつきました。なぜなら、著者は自問したからです。これらすべての洞察に基づいて、エージェント強化学習トレーニングの統一された理解を導き出すことができるでしょうか?

SAMPOの誕生:統一されたポリシー最適化

つまり、私たちはすべてをここで分析し、ここに直交する設計次元に沿ったすべてのポリシー最適化手法があります。そして最適化に最も貢献する主要な要因を特定し、すべての失敗モード、すべての赤いものをここで排除しました。そしてもちろん、彼らは行動クローニング、教師あり微調整、明示的なフォーマット修正などを持っています。

そして今、見てください。彼らはSAMPO、ポリシー最適化を思いつきました。これはただ緑なのです。これを見れば、他のすべてを上回っています。つまり、ベンチマークを持ち、どの方法論、どのポリシー最適化が機能するかしないかについて深く理解し、それに基づいて最適化を構築することは、本当に賢いアイデアです。

これが著者が公開した最終的な式です。すべてを知っています。特別なものは何もありません。いくつかの境界条件があります。しかしそれ以外は、クリッピングがあり、アドバンテージがあります。これは私たちが知っていることです。素晴らしい。

彼らは今、評価されたすべてのエージェントタスクで、この新しいポリシー最適化SAMPOが一貫して最強の全体的なパフォーマンスを達成すると教えてくれます。素晴らしい。エージェントシステムのための強化学習のための新しいポリシー最適化があります。

そして彼らは教えてくれます。これが私たちが見つけたものです。マルチターン環境におけるエージェントLLMのトレーニング安定性を向上させるために、SAMPOを導入します。これは安定的で効果的なエージェント強化学習トレーニングです。なんて美しいアイデアでしょう。これを見たかったのです。

動的分析:ショッピングエージェントの事例

しかし彼らはまた、本当に優れた動的分析も行いました。ショッピングエージェント、ショッピングタスクを考えてみましょう。エージェントを送って何かを買ってもらいます。彼らは言います。ベースラインエージェントで何が起こったか? GPT-5.2を取って、トレーニングなしで行けと言うだけだったら? これで遭遇する古典的な探索麻痺があります。なぜなら、エージェントは類似のアイテムを繰り返し拒否するからです。

エージェントは購入に本当にコミットできません。クレジット割り当てが貧弱で、したがって明確な決定を下す自信を欠いています。これをサンキーダイアグラムで見たい場合、赤で機能していないすべてのものがあります。そしてオレンジ色の小さな「購入」が見えます。ここでシステムが本当に何かを買うべきかもしれないと決定しました。

検索から始まり、次へ、次へ、次へ、次へとクリックし、また検索に戻ります。しかし、製品をクリックしたり、製品を調べたり、製品を比較したり、製品を購入したりする実際の行動はほとんど起こっていないことがわかります。

これをRL最適化されたエージェントと比較してください。これを見るだけで、どれだけ多くの緑の指標があるかわかります。検索があり、クリックがあり、比較があり、購入があります。これは本当にRL最適化されたエージェントシステムの力を示すものです。

つまり、RLが実際に行うことは、決定がどのように行われるかを変更し、エージェントシステムの探索パターン、アクション遷移構造を変更し、一般的にこれをポリシーシェーピングと呼びたいですが、RLは構造的行動を変更します。

私たちのマルチエージェントシステムの構造的行動を変更します。なぜなら、次のアクションは負のアドバンテージを受け取り、製品についてより多くの情報を得るために製品をクリックすることは正のアドバンテージを得るからです。つまり、これが望むものです。決定エントロピーを減少させます。これはまさに学習がすべきことであり、探索の非効率性を解決します。

なぜなら、RLには探索と活用の微妙な均衡があることを知っているからです。このシステムはうまく機能しているようです。素晴らしい。

パフォーマンス評価と実用的な結果

ポリシー最適化の次のステップでは、安定化された軌跡サンプリング、系列レベルのクリッピングがあります。これらすべてが機能しています。4つの次元を組み合わせれば、はるかに良いパフォーマンスを達成できます。そしてこれらすべてがNano Bananaによる視覚化で行われているのが見えます。これも素晴らしいです。

しかし今、ここで再び力を示したいと思います。ローカルの小規模レベルで強化学習を行う場合、GPT-5.2を使用しましょう。いいえ、ALF Worldを使用して、全体的なパフォーマンスだけを見てみましょう。GPT-5.2は51%です。Gemini 2.0 Flash、古いものは66%のパフォーマンスです。素晴らしい。

しかし今、著者は示します。Qwen 2.5 4Bを取ると、これはPCでローカルに実行できる小型MLです。そしてここにすべての異なるポリシー最適化手法があります。ここにあるすべて、すべての結果、サブタスクの結果、すべてが明確です。

GPT-5.2が51%です。SAPPOポリシー最適化は、環境相互作用により92%を与えてくれます。これは本当に素晴らしいと言えるジャンプです。ローカルに4Bモデルがあります。強化学習トレーニングの努力があります。はい、もちろん費用はかかりますが、その後ローカルに持つことができ、はるかに良いパフォーマンスを持ちます。

グローバル企業に接続する必要はありません。彼らはここですべての詳細、正確にモデル、相互作用ステップ、メモリ、グループ長、すべて、ロールアウトエンジン、Nvidia B200、すべて、すべてのハイパーパラメータを提供します。

本当に自宅でこれを構築しようとすることができます。さて、最適化は4つのゲーム、WebArena、ALF World、WebShop、そして数学的構造だけで実行されたのですが、これで十分か、あるいはこれらの4つのゲームだけを最適化するのかという質問がありました。

一般的な発見と適用可能性

しかし、彼らには賢いアイデアがあったことがわかりました。なぜなら、いくつかの一般的な発見があったからです。例えば、トレーニング崩壊は、非常に小さな重要度比率を持つ負のアドバンテージ軌跡の蓄積によって引き起こされます。

つまり、これがモデルの古典的な崩壊を引き起こすなら、この新しいSAMPOアルゴリズムでこれを取り除けば、美しいです。そして見てください。これは純粋に統計的な現象です。これはタスクドメイン固有の現象ではありません。

しかし絶対的な本質を求めるなら、この新しいポリシー最適化は、マルチエージェントシステムにおいて不可欠です。より良いクリッピング、最適化されたより良いアドバンテージ関数、そしてマルチエージェント環境相互作用のために最適化されたより良いフィルタリングを持つPPOです。そんなに簡単です。

制限について話すと、これはすべてテキストベースでした。これはすべて離散トークンベースで、数式で始めた自由度を調べたところで示したように、LLMポリシーに基づいていました。

ロボティクスに関すること、連続的な行動空間に関すること、あるいはビジョン強化学習アルゴリズムやビジョンの数学的複雑性に関するパフォーマンス情報はありません。どこかから始めなければならず、テキストから始めて最適化を見つけました。

展望と今後の可能性

つまり、著者は美しい最適化を見つけました。試してみてください。機能しているか、何が機能しているかについてフィードバックをいただければ非常にありがたいです。しかし、環境との相互作用におけるフォワードプロセス中にモデルが独自のトレーニングデータを書く、拡張された強化学習モデルは、私が絶対に探求しようとするものです。機能するか見てみましょう。

次の日に私の特定のドメイン知識からフィードバックを提供するかもしれません。とにかく、新しい知識、新しいデータでそれらをトレーニングしたい場合、ポリシー最適化に関する研究の現状がどこにあるかを示したかっただけです。

つまり、教師あり微調整のコールドスタート問題が、新しい強化学習と新しいSAMPOポリシー最適化と組み合わさった方法です。楽しんでいただけたことを願っています。あなたにとって新しい情報があったでしょうか。私のチャンネルのメンバーになっていただければ素晴らしいです。しかしとにかく、次の動画でお会いできることを願っています。

コメント

タイトルとURLをコピーしました