GSPO、FPO、ARPO

AI研究
この記事は約74分で読めます。

この動画は最新の強化学習論文であるGSPO、ARPO、FPOの詳細解説を行うhu-poによる配信である。各手法はPPOやGRPOの改良版として位置づけられ、特に大規模言語モデルの推論能力向上に焦点を当てている。GSPOはトークンレベルからシーケンスレベルの重要度サンプリングへの移行、ARPOはツール使用における高エントロピートークンの活用、FPOはフローマッチングの導入という独自のアプローチを提案している。

GSPO, FPO, ARPO
Like 👍. Comment 💬. Subscribe 🟥.🏘 Discord:

最新の強化学習手法:GSPO、FPO、ARPOの解説

YouTubeでテストしとるで。YouTubeでテストや。調子はどうや?NLPプロンプターさん。よしよし、YouTubeは動いとるな。次はXでテストしてみよか。Xでテストや。Xも動いとる。よっしゃ、完璧やな。最後にTwitchもテストしたろ。Twitchで配信開始や。ルームXYZを開くで。動画のダウンロードがキャンセルされたって?何やそれ。

Twitchの配信が動いとるかどうか確認でけへんけど、どうせTwitchなんて誰も見てへんやろうから別にええわ。調子はどうや、リトルKM?元気か、ジョシュ・フィリップス?さあ、始めよか。

みんな、また別のhu-po配信にようこそや。今日の配信は「GSPO FPO ARPO」っちゅうタイトルやで。もしかしたら史上最悪のSEOタイトルかもしれんけど、SEOなんてどうでもええわ。今回の配信では最近出た強化学習の論文をいくつか見ていくで。Discordで誰かが投稿してくれたやつや。ネットでもみんな話題にしとる。

まず最初にこれや。GSPOグループシーケンスポリシー最適化、アリババのQwenチームから2025年7月28日にリリースされたばっかりや。次にこれも見るで。Agentic Reinforced Policy Optimization、ARPOや。これも中国の機関から出とる、人民大学とQuaoから2025年7月26日や。

それからこれも見るで。フローマッチングポリシー勾配、FPOやな。フローポリシー最適化用や。これも2025年7月28日や。UC BerkeleyとMax Planck Institute for Intelligence Systemsからやな。

つまり今何が起こっとるかっちゅうと、強化学習が言語モデルでうまくいくっちゅうことが分かってきて、その結果、あらゆる学術グループ、あらゆる産業グループが強化学習の研究をやり始めとるんや。せやから強化学習アルゴリズムの進歩のペースがめっちゃ速いんや。

しばらくの間、みんなPPOを使うことに固執してたんやけど、DeepSeekのR1が出てから、みんな急にGRPOに移行したんや。そして今、GRPOの次のステップが見え始めとる。GRPOのバリエーションが山ほど出てきとるんや。この2つはGRPOの拡張版やと思う。

こっちの方がちょっと面白いな。これはもうちょっと低レベルや。PPOの上に構築されとるけど、フローマッチングを使っとる。拡散みたいな画像生成、動画生成でやってる技術を言語モデルに持ち込んできとるんや。ただ、この論文はまだ言語モデルじゃないんや。まだ超初期段階や。

だからこれは古典的なMujocoコントロールスイートみたいなもんや。魚が泳いだり、ポイントマスがあったり、Mujocoプレイグラウンドみたいなもんやな。これは古典的な強化学習の遊び場で、おもちゃの環境を使った強化学習論文って感じや。それに対してこの2つは言語モデル向けやな。

調子はどうや?ジュリアン、ショートビデオ、チャリッドパワーオブオープンソース。オープンソースの話から始めるのがええかもしれんな。オープンソースっちゅうのは基本的に他の人にもやり方を教えるっちゅうことやろ?やり方を指示して、コードを公開して、できればデータも公開する。

でも最近変な状況になっとる。推論コードは公開するけど、訓練コードは公開せん、訓練データも本当は公開せんのに、それでもオープンソースって呼ぶんや。強化学習やったら、この問題の一つは解決されると思うで。少なくともデータを公開する必要がないからな。

事前訓練のパラダイムでは、データが方程式の90%を占めとる。せやから事前訓練のパラダイムでデータを公開せんでオープンソースって呼ぶのは意味が分からん。でも強化学習をやっとるときは、データはモデルが生成するんや。訓練しながらデータを生成して、生成しながら訓練するんや。

せやから強化学習ではデータはそれほど重要やない。重要やないっちゅうのは、どうでもええっちゅう意味やなくて、彼らが使った正確なデータをくれんくても関係ないっちゅう意味や。なぜなら、この強化学習を使うなら自分でデータを生成することになるからな。

GSPOの詳細解説

さて、このグループシーケンスポリシー最適化やけど、Hugging Faceのページを見てみよか。ここに実際のHugging Faceの論文ページがある。アップボートがたくさんついとるな。ただ最近、このアップボートはあんまり信用してへん。他のソーシャルメディアのいいねやアップボートシステムと同じで、ゲームする方法を見つけられてしまっとるからな。

特に中国の特定の機関から出る論文は、何百ものいいねがついとることが多いんや。GitHubスターをゲームする方法を見つけたのと同じように、第三者企業がGitHubスターを1000個くれるサービスがあるみたいに、Hugging Faceの論文ページでも似たようなことが起こっとると思う。

直接的な第三者企業はないかもしれんけど、グループチャットとかで「この論文をアップボートして」って言って100人にアップボートしてもらうとかはありそうや。せやから100%は信用してへんけど、重要なのはここで話したいことや。

論文の著者がこの投稿を作っとって、下にスクロールしていくと、誰かが「オープンソースの実装はあるか?」って質問しとる。そこに2人の違う人がコメントしとる。元の論文著者がVERLレポジトリのPRを指してて、Hugging Faceの人、これはGRPOの人やけど、TRLを指してる。

つまり、この実装の主要な2つがVERLとHugging FaceのTRLなんや。MS Swiftっちゅうのもあるけど、重要なのはこのVERLとTRLや。これらは強化学習ライブラリの2大巨頭で、主にGRPO実装で人気になったんや。

両方とも1万スター以上ついとって、活発に開発されとる。昨日もコードがプッシュされとる。でも面白いのは、人にマウスを合わせてみることや。この人はバンクーバー、カナダ。この人はベルリン、ドイツ。こっちはベルン、スイス。こっちもベルン、スイス。カルガリー、アルバータ。フィラデルフィア、ペンシルベニア。

全部西欧系の人やな。でもVERLレポジトリを見てみると全然違う。この人は北京、この人は香港、この人は上海、この人は北京、中国、この人は蘇州、この人はほう、この人も北京、中国。

はっきりした構図が見えるやろ?ハイプ論文が出されて、人々がオープンソース実装を求めて、基本的に2つの競合する実装がある。Hugging FaceとTRLライブラリが代表する西欧系のオープンソース集団と、VERLが代表する中国・アジア系の実装や。

ジュリア、「あなたは1つのHugging Faceレポジトリと1つのByteDanceレポジトリを比較してる」って言うけど、もっとあるで。例えばMS Swiftもある。この人たちを見てみよか。Model Scope MS Swift。この人たちは何者や?匿名が多いな。

Model ScopeはChineseのHugging Faceのコピーキャットやな。でも実際にこれらのPRを見てみよか。結局GSPOはただのPRやからな。そしてこれらのPRのほとんどはそんなに複雑やない。

GSPOの技術的詳細

例えば、これがHugging FaceのGSPO PRやけど、実際に変更されたファイルは6つだけや。設定に何を追加したかを見てみよか。実際に追加したのはこのオプション1つだけや。重要度サンプリング比をトークンレベルで計算するかシーケンスレベルで計算するかを制御できるようにしとる。

そして基本的にこの条件分岐を追加しただけや。重要度ウェイトを取得するかシーケンスかの。GSPOに入り込むと、実際にはそんなに大したことやないことが分かる。基本的にはGRPOがトークンレベル、GSPOがシーケンスレベルっちゅうだけや。

論文を見て実際に何を意味するか見てみよか。現在の最先端RL算法は、巨大な言語モデルを訓練するときに深刻な安定性の問題を示して、しばしば破滅的で不可逆的なモデル崩壊を引き起こす。

これは強化学習でずっと前から見られとることや。でも大きな問題として注目されたのはRLHFが人気になったときやな。多くの人が、強化学習を使って事前訓練済み言語モデルに勾配をプッシュすると、出力されるトークン分布が劇的に崩壊し始めることに気づいたんや。

これがどういうことか、ちょっと抽象的に聞こえるかもしれんけど、実際に何を言うとるかっちゅうと、これがトランスフォーマーの素晴らしい可視化や。でも結局、トランスフォーマー言語モデルがやっとることは、このトークンボキャブラリー、つまり出力可能な全ての単語があって、それぞれの単語に確率が関連付けられとるっちゅうことや。

例えば、この文は「データ可視化はユーザーが可視化することを可能にする」で、これをモデルに通すと、最後に可能な次の単語全部とその確率が出てくる。人々がモデル崩壊の話をするときに、実際に実践でどう見えるかっちゅうと、この豊かさが基本的にゼロになるんや。

突然、1つの単語だけが唯一の単語になって、99%になって、他は全部ゼロになる。この豊かさ、ニュアンスが欲しいんや。モデルが進める可能性のある異なる経路がたくさんあることが特徴なんや。

でも強化学習で勾配をプッシュし始めると、これらのブランチの一部を閉じ始めるんや。強化学習は、モデルに何をしたらあかんかを教えるのが得意で、良い行動を奨励するっちゅうより、悪い報酬を与えるものをやめさせる方が簡単なんや。

結果として、これらの言語モデルを非常に狭い経路に絞り込んでしまうんや。

エントロピーと強化学習の関係

ちょっと質問に答えるのやめるかもしれん。たくさんの人が質問しとるからな。「強化学習はまだまだ発展の余地があると思うか、それとも単にLLMを良くする小さなトリックだと思うか?」

これは小さなトリック以上のもんやと思う。AlphaGoみたいな超人的知能の例は強化学習ベースなんや。今、みんながAGIからASIへの移行を話し始めとるときに、強化学習が大きな役割を果たすと思う。なぜなら、可能なトークンの宇宙に出て行って、実際に価値の高い推論トレースを見つけて、それを訓練する唯一の方法やからな。

どんなドメインでも、超人的訓練データを得る唯一の方法や。「GRPOはLLMだけに有効か?」いや、ほぼあらゆる環境で使える。ここで見るのがその例や。フローマッチングポリシー勾配。これは基本的にロボット、音声、オーディオなんかのためのRLや。

これは実際にはGRPOやないけど、GRPOにも使える。この論文ではやってへんだけやな。「強化学習が新しい知識をもたらさないという論文があったら」強化学習は新しい知識をもたらす唯一の方法や。

それがムーブ37とAlphaGoの全てや。強化学習でやっとることは、実際にトークンの空間を探索することや。教師あり学習、例えばインターネットでの事前訓練は、基本的に教師ありやからな。シーケンスを取って、自動的にこのデータポイントを作る。シーケンスの始まりを入力として、出力を次のトークンとするんや。

人間がラベルを提供するわけやないから自己教師ありやけど、基本的には巨大な教師あり学習タスクや。でもそれを事前訓練状況でやっとるときは、基本的にインターネットで利用可能なトークンシーケンスだけを探索しとるんや。新しいトークンシーケンスの探索はない。

一方、強化学習では、実際に訓練するデータを生成しとるんや。多分これまで言われたことのない新しいトークンシーケンスを実際に見つけとるんや。なぜAlphaGoが超人的な囲碁の性能を達成したかっちゅうと、たくさんのゲームをプレイして、人間が今まで発見したことのない勝利の手を発見したからや。

新しい知識の発見について話すなら、強化学習が本当に唯一の方法や。

GSPO対GRPOの比較

論文に戻ろか。この論文で重要やと思ってハイライトした部分があるから、全部見ていこう。これらの論文は全部PPOから始まっとる。全部GRPOのバリエーションをやる強化学習論文や。GRPOのバリエーションをやるには、通常GRPOを説明せなあかん。そしてGRPOを説明するには、通常PPOを説明せなあかん。

だからほぼ全ての論文がPPOの説明から始まる。この論文が一番良いPPOの説明をしとると思う。ポリシー勾配について勉強しよう。オンポリシー強化学習で、ポリシー勾配技術は、観測された報酬や利得で行動対数確率を重み付けすることで、微分可能な環境報酬の必要性を回避する。

通常、勾配降下をやっとるとき、そしてほとんどの機械学習がそれをやっとるとき、この微分可能っちゅう概念が必要なんや。最終的には逆伝播をやっとって、それはチェーンルールが必要で、つまり計算グラフの全てのノードや部分が微分可能である必要があるんや。

これが例えばガウシアンスプラッツが巨大やった理由や。誰かが完全に微分可能なレンダリングパイプラインを発見して、勾配をプッシュできるようになったからガウシアンスプラッツができたんや。

強化学習では、環境は微分可能やない。現実世界でロボットが動くダイナミクスなんて、勾配を計算できへん。せやから強化学習やポリシー勾配のパラダイムでは、勾配を作るんや。ニューラルネットの重みをちょっと調整して、重み空間でポリシーを動かす。

そのポリシーが行動を生み出して、高い尤度の行動がより高い報酬を得る可能性が高くなる。つまり、より良い行動を与える。高い報酬をもたらす行動の尤度を上げる。これが強化学習で最終的にやっとることや。

尤度っちゅう用語は、強化学習が統計学や情報理論のより基本的な分野から来とるから、その用語を継承しとるんや。この用語はベイズの定理から来とる。尤度は、パラメータ値が与えられたときの観測された証拠の確率分布や。

高い報酬をもたらす行動の尤度を上げるっちゅうのをもっと自然に理解する方法は、ここの確率として考えることや。「create」っちゅう単語が20%の低い確率で、「visualize」が50%とかの確率があるとき、尤度を上げるっちゅうのは、この確率を調整することやと考えたらええ。

囲碁AIで考えたら、それぞれの可能なトークンが囲碁AIができる可能な手や行動やな。高い報酬をもたらす行動の尤度を上げるっちゅうのは、ゲームに勝つ良い手により高い確率を与えて、負ける手により低い確率を与えるっちゅうことや。

強化学習でやっとることは、そのためのわずかな重みの変更や。ちょっとここで止まろう。これは損失ランドスケープの可視化や。勾配降下のプロセスを示そうとしとる。

この表面の全ての点は基本的にモデルや。同じモデルアーキテクチャやけど、重みの値が違う。モデルがここにあるとき、何らかの入力を与えると何らかの出力を生み出して、その出力には何らかの損失があって、その損失をプロットできる。

ここのモデルは非常に高い損失がある。ここのモデルも非常に高い損失がある。ここのモデルは非常に低い損失がある。勾配降下をやっとるときは、基本的にモデルを重み空間のある点、つまりニューラルネットの全ての重みの可能な値の空間に導いとるんや。

通常は2次元みたいに単純やない。普通はもっと高次元や。でも勾配降下は基本的にこの丘を転がり下りることや。丘を転がるビー玉が機械学習で持てる最高の直感やアナロジーやと思う。

それが実際にやっとることや。強化学習の文脈で勾配をプッシュするたびに、基本的に小さな一歩を踏み出しとるんや。これがクリッピングの出所や。バニラポリシー勾配は現在のポリシーパラメータの周辺でのみ有効や。大きな更新はポリシー崩壊や不安定な学習につながる可能性がある。

PPOは尤度比をクリッピングすることで信頼領域を組み込む。これがPPOのPが来る場所や。PPOはProximal Policy Optimizationの略や。Policy OptimizationはポリシーをOptimizeしとるっちゅうことで、ポリシーはニューラルネットや。

ポリシーを最適化するっちゅうのは、ニューラルネットの重みを変更することや。つまり、この空間で動き回っとるんや。最適化っちゅうのは、うまくいけば何らかの最小値に向かって動いとるっちゅうことや。Proximalは、あんまり動きすぎたくないっちゅうことを指しとる。

問題の一つがこのオンポリシーRL対オフポリシーRLの考え方から来る。オンポリシーっちゅうのは、勾配をプッシュできるデータを生成したデータが、基本的に勾配をプッシュしとるモデルとほぼ同じモデルによって生成されたっちゅうことや。

訓練データのバッチをここで生成したとしよう。ポリシー更新を取ったり、ポリシーに勾配をプッシュしたりすると、ポリシーはもうここにはない。今度はここにある。

せやから、このポリシーから来たデータを使ってこのポリシーに勾配をプッシュしようとすると、もう同じポリシーやない。そこで少しドリフトが起こる。PPOでは、この勾配更新をクリッピングするアイデアを導入した。

学習率を使った可視化やけど、基本的に同じ概念や。学習率が非常に高いと、各ステップがこのランドスケープで非常に大きな動きを作る。各ステップが以前持っとったものとは劇的に異なるポリシーになる。

ポリシー空間で大きなステップを取ると、以前に収集したデータがだんだん適用できなくなる。このドリフト効果が始まる。オンポリシー強化学習ほど効率的で安定やないオフポリシー強化学習みたいな匂いがし始める。

クリッピングによって、効果的に小さな小さなステップを取っとるんや。小さな小さなステップを取ることで、訓練に使っとるデータ、勾配をプッシュするのに使っとるデータが、勾配をプッシュしとるモデルと同じモデルから作られたオンポリシーRLのパラダイムに近づく。

ARPOとツール使用の高エントロピートークン

ラベルに対する確率の最大化と報酬に対する確率の最大化は違うか?ちょっと違う。報酬は環境から出てくる。環境があって、強化学習ではブラックボックスとして扱う。環境で何かが起こって、現在の状態と行動に基づいて報酬が出てくる。

例えば、模倣学習の核心的アイデアは、人間が収集したロボットを制御した軌跡があって、この行動が環境に行って報酬をくれて、その報酬に基づいて勾配を作るっちゅうより、この状態で人間がこの行動をしたから、その行動を真似する勾配を作るっちゅうことや。

模倣学習では、基本的に行動をコピーしとるか、この特定の入力に対して人間が作ったラベルを最大化しとる。でもそこには人間が最適に行動しとるっちゅう隠れた仮定があって、それはほぼ常に当てはまらん。

本当に問題を定式化したいのは、勾配が報酬から来るような方法やな。それがこの利得の例や。実際にこの利得のアイデアを紹介するのに良い方法や。

A hat tはロールアウトの報酬RTから推定された利得や。ロールアウトは基本的に1つのエピソードやと思ったらええ。環境で何回も推論して、状態観測行動報酬のシーケンスを作ることや。

その連続やけどチェーンやシーケンスがロールアウトや。ロールアウトはそれの別の用語や。思考連鎖がLLM用語でのこの概念やな。

PPOの実践での核心的挑戦は、価値モデルへの重い依存にある。具体的に、価値モデルは通常ポリシーモデルと似たようなサイズで、相当なメモリと計算負荷をもたらす。

PPOの問題の一つは、この利得を得るために価値モデルが必要なことや。基本的に今度は2つのモデルがある。ポリシーである実際のモデルと、価値モデルであるモデルがある。

GANsのようなGenerative Adversarial Networksに似た状況で、ジェネレーターとディスクリミネーターがあって、2つを訓練するのは大変や。ディスクリミネーターとジェネレーターのどちらかが少しでも良くなると、最適化が大変になる。

PPOも似た状況やけど、GANみたいなジェネレーター・ディスクリミネーターのダイナミクスはない。でも問題は、GPUにロードせなあかん別のモデルが丸々あることや。2つの異なるモデルをGPUにロードするのは非常に面倒で、それがこのFPO論文の問題の一つでもある。

PPOの上に構築されとるからGRPOやなくて、シータでパラメータ化されたポリシーモデルだけやなくて、ファイでパラメータ化された価値関数モデルもある。2つのモデルがある。

GRPOの全体的な革新は、この価値モデルを取り除くことやった。応答のグループ内で各応答の相対的利得を計算することで、価値モデルの必要性を回避する。

つまり、この価値モデルから来る利得やなくて、サンプルされたバッチの報酬の平均を取って利得を計算するんや。経験、ロールアウトがあって、その報酬が分かっとる。環境から来る報酬や。

数学をやっとるなら、この数学問題の答えが正しいかを教えてくれる実際のヒューリスティックバリデーターやと考えたらええ。基本的にその平均を取ることができる。ここに平均と標準偏差があって、それを利得として使う。これで価値モデルを持つ必要がなくなって、大量の推論を節約できる。異なるマシンを持つ訓練の面倒さを節約できる。一つはポリシー用、一つは価値モデル用っちゅうような。

複雑さを取り除いて、訓練プロセスを簡素化して、より効率性とスループットを得る。こういうものを簡素化できるときはいつでも、通常それは計算、つまりその計算グラフが複数のGPUノードでより効率的に並列実装できることを意味して、より多くのスループットを得ることができる。

ほぼ全ての機械学習アルゴリズムは計算でスケールするから、計算グラフを簡素化したり、その計算グラフが実際の計算メッシュにマップされる方法を改善したりできるなら、基本的により速く、より並列に処理できて、最終的により賢いモデルが得られる。

「フローマッチングポリシー勾配でGRPOは次の100%?」つまり、この論文である程度設定されとる。しないけどな。これはアイデアの非常に初期段階やと思う。アイデアの非常に初期段階では、まだアイデアを開発しとるから、帯域幅がない。まだ非常に早い段階や。

ここにあるすべての例はグリッドワールドやMujocoスイートみたいなものや。Mujocoスイートを見たことがないなら、例があるかな?これはこういうものや。ヒューマノイドで立ち上がることを学んだり、この小さなハーフチーターを前に動かしたりする小さなおもちゃ環境や。

FPOやこのフローマッチングポリシー勾配はまだ非常に初期段階やと思う。まだこれらのおもちゃ環境だけやけど、GRPOやGSPOの上にこれを置くことを妨げるものは何もない。これを取って、今GRPOやGSPOの上でやるのは新しい論文や。

だから、それは完全に有効な研究方向で、人々は今おそらく取り組んどる。実際、この著者の一人は100%GRPOの上にこれを置く作業をしとると思う。

他に見逃したものはあるか?モデルの既存の行動に重みを付けて、正しい解をより効率的にサンプリングする。強化学習は本当にベース以上にLLMで推論能力を奨励するか?「推論能力を奨励する」っちゅうのはちょっと変な考え方やな。

強化学習は基本的に検索プロセスやと考えるのが良い方法や。大量のデータを生成して、そのデータから高い報酬を持つデータを検索して、それを使ってモデルに勾配をプッシュして、もっとデータを検索して、高い報酬を持つデータを見つけて、それらの勾配をモデルにプッシュする。

だから強化学習は全体を考えると、本当にこの検索プロセスや。高い報酬を生み出す可能性の高いトークンシーケンスを見つけるために、すべての可能な行動、言語モデルでは可能な全てのトークンシーケンスの空間を検索しとるんや。

推論チェーンでは、基本的にこの長いテキストシーケンス、推論チェーンやと考えとるけど、実際には正しい答えに導く巨大なテキストシーケンスや。RLは正しい答えを与える全てのテキストシーケンスの空間を検索することを可能にする。

「推論トレースでフローマッチングをやったら素晴らしいやろうな」拡散は実際どんどん良く見え始めとると思う。拡散言語モデルは確実に密かにホットな分野や。先週の配信で見た自己回帰対拡散の論文に基づいとる。

拡散モデルでは、ノイズから始めるという事実から来る自然なデータ増強があるっちゅうことを基本的に示しとった。このFPOでは、どうやってサンプルを得るか?モンテカルロや。基本的にタイムステップとノイズのモンテカルロ抽出や。

このノイズって何?基本的にデータ増強や。フローマッチングと拡散は一般的に、このノイズがあるから、自然なデータ増強の形で、ロボットのような低データ領域では、これらの拡散設定が自己回帰設定よりも良く訓練される。

ここでも言っとるな。サンプル数NMCは学習効率を制御するのに有用なハイパーパラメータや。これは、モンテカルロタイプのアプローチと、このノイズのために組み込まれたデータ増強を持つ訓練パイプラインを使っとるとき、このモンテカルロでやるサンプル数を増やすだけで、つまり計算を増やすだけで、より良い結果が得られるっちゅう洒落た言い方や。

これがビターレッスンや。これはビターレッスンに従っとるから良い。モンテカルロのようなものがあるなら、サンプル数を増やすだけでより良いモデルが得られる。この場合はより良いグリッドワールド探索や。グリッドワールドは2Dの「ここから始まって、ゴールにたどり着く」みたいな最もシンプルな小さな環境や。

GSPO論文に戻ろう。GSPOやGRPOは基本的にPPOやけど、価値モデルを取り除いて、利得のこの種の平均近似やグループ近似に置き換えたものや。GSPOって何や?

核心原理を率直に言うと、GSPOはトークンレベルの重要度ウェイトをシーケンスレベルの重要度ウェイトに置き換える。重要度ウェイトとこの一般的な重み付けのアイデアは、ニューラルネットに勾配をプッシュしとるとき、そのステップのサイズを決めなあかんっちゅうことや。

学習率は何を決めとるかっちゅうと、ここで変更しとるのが見えるけど、基本的にここでのステップサイズを調整しとる。学習率が変えるのは、基本的にニューラルネットの各小さな重みをどれだけ実際に変更するかや。

例えば、重みの値の一つが0.5やったとしよう。それを0.51に変更するか、0.7に変更するか?その変更の大きさは、この全体の勾配計算、損失、全てを通して追跡できる。それに影響する小さなことがたくさんある。

学習率は、その大きさを変える一つのことや。重要度とこれらの重みは、基本的にその大きさを変える別の小さなことや。重要度重み付けは、例えばシーケンス内の異なるもの、またはバッチ内の各小さなデータポイントの相対的重みを変更するアイデアや。

でも最終的にやっとることは、基本的に重みをどれだけ変更するかの大きさを変更することや。だから重み付けの全体的なアイデアは、このバッチに入れとる各データポイントをどう重み付けするか。それからそのデータのバッチを使って勾配を計算する。

GRPOでは各トークンに重要度ウェイトがあった。ここでズームインすると、トークンレベルの重要度ウェイトっちゅうのは、この特定のトークンの重み、この特定のトークンがニューラルネットのパラメータをどれだけ変更するかが、ここの確率に基づいとるっちゅうことや。

yi comma t given x yi less than t。これは基本的に前の全てのトークンや。次のトークンは何か?この特定のトークン、前の全てのトークンが与えられたときのこの特定のトークンの確率と、古いモデルの前の全てのトークンが与えられたときのこの特定のトークンの確率の比や。

これが全体的なオンポリシー・オフポリシーの状況で、theta oldがこれになって、thetaがこれになる。ポリシーを変更したら、勾配をプッシュしたら、今度は2つの異なるモデルがある。前のステップのモデルと現在のモデルや。

これが現在のモデルで、これが古いモデルや。現在のモデルでは、この特定の次のトークン、この事柄の確率が、古いモデルとは少し異なる。古いモデルでは、このトークン「create」の確率が20%やったかもしれん。新しいモデルでは、そのトークンの確率が15%になったかもしれん。

これはもうちょっと複雑で、尤度の話をしとって、これは対数尤度やけど、それは不要な細かさや。頭では、これを確率やと考えたらええ。これが20%の確率で、これが15%の確率や。

その特定のトークンが新しいモデルで突然5%低くなったら、それは何かを教えてくれる。このトークンについて、勾配をプッシュした後に何かが変わったっちゅうことや。それがこの小さな比がしてくれることや。

GSPOは、GRPOの新しいバリアントで、基本的に、この小さなトークン、トークンレベルでやるんやなくて、シーケンスレベルでやろうって言っとる。各個別のもんやなくて、全体のシーケンスに対して基本的にやる。

それって実際何を意味するんや?この論文では、それに対する理論的な正当化がある。論文によっては、アイデアがあって、実験でそのアイデアを検証する。ランダムにこのアイデアを思いついて、アイデアが機能することを示す実験的検証がある。

他のアイデアや論文は反対側から来て、このアイデアが機能する理論的理解があって、実験を提供する。理論からのボトムアップで、もっと経験的科学的な方法とは対照的や。変な結果がたくさんあって、機能するものを見つける。

物理学でも同じことができる。理論で作業して、現実世界で証明できるものを得る理論物理学者と、実験をやって、最終的に理論的結果につながる実験物理学者がいる。

ここでは、トークンレベルをシーケンスレベルに交換することを正当化できる理論の核心原理は、最適化目的の単位が報酬の単位と一致すべきっちゅうことや。報酬は全体のシーケンスに与えられるから、トークンレベルでオフポリシー修正を適用するのは問題があるように思える。

これは我々にトークンレベル目的を諦めて、重要度ウェイトを利用してシーケンスレベルで直接最適化することを探求することを動機づける。これは特に数学問題に関連しとる。数学問題があって、最後に報酬を得る。

この数学問題で正しい答えを得たから報酬1を与える。その報酬が全てのトークンに逆伝播する。古典的強化学習では、割引因子があって、基本的に0.99×0.99×0.99をやる。それを使って、最終答えの100ステップ前のトークンがこれだけの報酬を持つって言う。

でもそれはちょっと正しくない。正しく感じない。正しく感じない理由は、実際には全体のシーケンスの報酬しか知らんからや。この全体の推論チェーンが正しい解に導いたことは知っとるけど、それは全体のチェーン、全体のシーケンスを最適化すべきっちゅうことや。

環境からの報酬信号が実際にシーケンスレベルで来とるなら、このトークンレベルの重要度重み付けをやるべきやない。このシーケンスレベルの重要度重み付けをやるべきや。それがGSPOの核心的直感や。

このトークンレベルの重要度ウェイトを取り除いて、このシーケンスレベルの重要度ウェイトをやろうってことや。それが基本的にこれらのPRがやっとることや。例えばTRLでのこのPRは、Transformers Reinforcement Learningやったかな?

何の略か忘れたわ。脳が限界や。Transformers Reinforcement Learningかなんかやと思う。Transformerっちゅう名前はあんまり良くないと思う。Hugging FaceのTransformersライブラリのことかもしれんし、Transformerアーキテクチャのことかもしれん。分からん。

でもこのPRを見ると、結局GRPOとGSPOの唯一の違いは基本的にこのトークンをシーケンスレベルの重要度重み付けに交換することや。それが文字通りここでやっとることや。全体のシーケンスで合計して、ここにそのクリッピングがある。

GSPOは個々のトークンやなくて全体の応答にクリッピングを適用して、勾配推定から過度にオフポリシーなサンプルを除外する。同じクリッピングが見える。クリッピングっちゅう言葉を聞くたびに、この小さな可視化を頭に思い浮かべて、そのステップを小さくすることやと考えたらええ。

勾配を計算すると、「ここで巨大なステップを取れ」って言うとる。でも巨大なステップを取ると、行きたくない場所に行ってしまうことが分かっとる。だからクリッピングする。小さな小さなステップになる。正しい方向やけどな。バッチが動く正しい方向を教えてくれる。

でもクリッピングすることで、現在のポリシーからあまり遠くに移動せんようにして、ポリシーが完全に新しい空間に行って完全にオフポリシーにならんようにしとる。このクリッピングによって、現在のポリシーに近いままにして、オンポリシーっぽくしたいんや。

ここにオンポリシー・オフポリシーについての良い直感があると思う。大きなロールアウトバッチサイズはRL中のハードウェア利用を最大化する。

これは何を意味するか?ロールアウトバッチサイズは基本的に推論や。ロールアウトや思考連鎖の一つを生成するために、推論をやっとる。自己回帰的にトークンを生成して、それを入れて、次のトークンを生成して、次のトークンを生成する。

その推論、その自己回帰推論にお金を払っとる。そのハードウェアにお金を払っとる。だからハードウェアの利用を最大化して、この金額に対してより多くの計算を得たい。

バッチサイズを増やすっちゅうことは、基本的にこのロールアウトや推論を並列でやっとるっちゅうことや。大きなバッチの推論をやって、大量のロールアウトや軌跡を最大限に作る。

強化学習の用語では、バッチロールアウトやバッチ推論をやることで、収集できる経験の量を増やして、モデルに勾配をプッシュするのに使えるデータの量を増やしとるって言う。

でも大きなロールアウトバッチサイズをやっとるときの問題は、大量のデータを作ってしまうことや。経験を収集するために推論をやっとるとき、作ったデータ全部から勾配をプッシュすることはできん。小さな塊に分けなあかん。

それぞれの小さな塊やこれらの小さなミニバッチは、必然的にオフポリシー学習設定を導入する。このポリシーを使ってここで巨大なデータセットを収集する。この大きなロールアウトバッチ。最初のミニバッチをプッシュするとすぐに、今度は違う場所にいる。

データを収集して、モデルがここにあって、一回のバッチ更新を取ると、今度はモデルはここにある。別のミニバッチをやるなら、今度は実際には技術的にオフポリシーになっとる。そのデータを収集するのに使われたポリシーはここやけど、今はここにいるからな。

別のミニバッチを取ると、今度はここにいる。各ミニバッチをプッシュするたびに、どんどんオフポリシーになっていく。応答Yは最適化されとる現在のポリシーやなくて、古いポリシーからサンプリングされる。

これがクリッピングメカニズムの必要性を説明する。勾配推定に関与する過度にオフポリシーなサンプルを防ぐ。これは実現すべき重要なことやと思う。多くの人がオンポリシーとオフポリシーを白黒みたいに話すけど、「これはオンポリシー」「これはオフポリシー」みたいに、実際にはそれ以上の連続体や。

オンポリシーは基本的に、モデルに勾配をプッシュするのに使っとる経験やデータが、その特定のモデルから来とるっちゅうことや。オフポリシーは同じモデルやないっちゅうことで、オフポリシー度合いがある。

maybe changing the weight of the model but training a Laura and then changing the influence of each Laura would be nicer.「モデルの重みを変更するかもしれんけど、LoRAを訓練してから各LoRAの影響を変更する方が良いかもしれん」そうやな、いろんなファンシーな500IQのLoRAのやつがある。

LoRAを使って、モデルを重く量子化してから、LoRAを使って量子化から得られる劣化を減らすっちゅうやり方とかな。LoRAは明らかに非常に人気やったけど、今はそれほどでもないかもしれん。Stable Diffusionがあって、画像生成がこれらのオープンソースモデルでやられとったときは、人々はStable Diffusionの異なるバージョンを作れるLoRAを作った。

何かっちゅうと、LoRAはおそらくだんだん普及しなくなっとると思うけど、強化学習で面白い方法で使えるアルファがLoRAの世界にはまだたくさんあるやろな。

「GSPO on TTSは素晴らしいやろうな。たくさんのtext-to-speechモデルがword error rateを使ってGRPOで良い結果を得とる」そうやな、まだたくさんある。これが強化学習が今非常に面白い理由や。基本的に劇的に進歩したからな。

もうAtariでのPPOやDMコントロールスイートでのPPOやそのバリアントのクソみたいな話やない。言語モデルっちゅう新しい問題で新しいRLアルゴリズムを使い始めとるんや。強化学習の新しい世界にいて、探索できる異なることがたくさんある。

実際、何らかの学術的状況で新しいアルゴリズムや新しい面白いものを発見できるニッチを見つけようとしとるなら、強化学習は今非常に面白い場所でプレイするのに良いと思う。

「That’s a shame. I always thought Lauras were cool.」「残念やな。LoRAはいつもクールやと思っとった」そうやな、クールやし、死んだって言っとるわけやない。ほぼ全ての機械学習のものは流行らなくなって、また流行に戻ってくる。今LoRAはあんまり見んようになったって言っとるだけや。

「まだ非常に関連性がある。VLMでランタイムで簡単に交換できる」そうやな、それも読んだ論文や。基本的に1つのベースモデルに大量のLoRAがあって、推論時にLoRAをホットスワップできるっちゅう論文やった。

1つのモデルに1000のLoRAを持って、推論時にそれらのLoRAを交換して、そのモデルから大量の異なる動作を得ることができるからや。でも問題は複雑さが導入されることや。

今度はこのデバイスに保存せなあかん大量のLoRAがあって、推論リクエストに応じてホットスワップできなあかん。そういうことを全部できる1つのモデルを持つ方が実際はずっと簡単や。それがmixture of expertsの一種やからな。

例えば、この論文でよく話すことの一つは、mixture of expertsモデルで、今は全部mixture of expertsや。OpenAIのオープンソースモデルでさえmixture of expertsやと思う。mixture of expertsって何や?

この2つを見ると、基本的に全く同じに見える。入力がある。同じや。位置埋め込みがある。同じや。layer normがある。self-attentionがある。全部同じや。

でもここが違う。トランスフォーマーの核心部分は基本的にこのfeed forward networkや、fully connectedや、multi-layered perceptronや。ほとんどの人はこれをMLPって呼ばんけど、基本的に実際のfully connectedニューラルネットや。

mixture of expertsモデルでは、実際にこれらのfeed forward networkを多数持って、routerっちゅう小さなものがあって、入力を使ってどのrouterに、どのexpertにルーティングするかを決める。どのfeed forward networkが今消費しとるトークンに最も関連があって、次のトークンを生成するかを選ぶ。

実際にこれはチートコードやな。mixture of expertsが解決する問題は、最終的に推論をやっとるとき、この全体をGPU VRAMに、GPU メモリに収めなあかんっちゅうことや。つまり、より大きなモデルがより賢いなら、常により大きなモデルを持ちたい。

最終的に何にぶつかるか?ある時点で、大きなモデルがGPU VRAMに収まらなくなる。このGPUメモリ制約を回避するより大きなモデルをどうやって作るか?このmixture of expertsができる。

巨大なモデルを持てる。このモデルは基本的により多くのパラメータを持っとる。これらのfeed forward networkがより多くあって、これらの一部はそのGPUにさえない。

実際にmixture of expertsモデルは、同時にGPU上にない、全部GPUに同時にないことで、より大きなモデルを持つチートコードや。people talk about these mixture of experts modelsでactive parametersの話をするとき、パラメータの一部だけがその特定の次のトークン予測に使われとるっちゅうことを話しとる。

つまり、他の全てのパラメータは「アクティブ」である必要がない、つまり実際にGPUにロードされる必要がない。model parallelismを話しとるときはもうちょっと複雑で、モデルが実際に複数のGPUに分散されとる。

多分全ての重みが実際にロードされとるけど、特定の推論リクエストにはその重みの一部だけが使われる。でもmixture of expertsは、モデルのサイズを増やして、より多くの容量を持つファンシーな方法や。

多くの人がこのfeed forward network、ここが実際の知能や知識があるところやって言う。位置埋め込みに知識があるわけやない。位置埋め込みはシーケンスのどこにいるかを言う関数やけど、実際の知識、事実的知識や多分直感的知識もここのfeed forward networkにある。

ここが実際の知能がある場所や。ここのパラメータ数を増やせたら、より知的なモデルが得られる。でもこれらのmixture of expertsモデルでの問題は、RLで勾配をプッシュするときに得るモデル崩壊に非常に影響を受けやすいことや。

それって何や?別の考え方をするとどうなる?このRLで勾配をプッシュしとるなら、このトークンの確率を変更するかもしれんくて、6%やったのが突然0%になるかもしれん。

この推論チェーンを作る。この推論チェーンが間違った答えに導く。その推論チェーンに基づいて勾配をプッシュするとき、基本的に「この推論チェーンを絶対に進むな」って言っとる。つまり、この推論チェーンを進む確率をゼロにしとる。

mixture of expertsモデルをやっとるとき、多分このexpertにもうルーティングしなくなるかもしれん。mixture of expertモデルでのmode collapseやmodel collapseがどう見えるかっちゅうと、全てのexpertをかなり良く均等に利用しとったのが、突然専門家の束にもうルーティングされなくなって、モデルの死んだ部分がたくさんできる。

文字通りモデルを小さくしとる。この強化学習勾配プッシュが、その特定のことに対して正しいものを生成しない可能性があるモデルの部分を破滅的に遮断しとるからや。mixture of expertモデルは強化学習ポストトレーニングのモデル崩壊に特に影響を受けやすい。

ここを見よう。GSPOについて。これは訓練報酬と訓練計算や。モデルは最初はアホで、時間の経過とともにどんどん賢くなっとる。青い線がGRPOが見える。これがトークンレベルの重要度や。これがシーケンスレベルの重要度、GSPOや。

ほぼ全てのプロットで、赤い線が青い線の上にある。つまり、より少ない計算でより多くの報酬を得とるっちゅうことや。それがそこにある証拠や。少なくともこの特定のテスト、この特定のモデルでは、GSPOの方がうまくいくように見える。

でもこれのアキレス腱は、当然これはこれにだけ適用されるっちゅうことや。これが前回の配信で人々が物事を法則と呼ぶことについて持っていた不満や。スケーリング法則やテスト時間計算法則みたいな。これらは法則やない。

これらは仮説に変えられる経験的観察で、その仮説を使って外挿できる。でもそれは普遍的法則とは全く違うもんや。どの論文でも、これが常に適用されるって納得させようとする。

でも異なる状況があったら、GRPOがGSPOより良く機能するモデルと環境の組み合わせを見つけるかもしれん。でも少なくとも彼らがここで提示したものについては、GSPOはGRPOより良く機能する。

興味深い小さな観察がある。GSPOとGRPOの間のクリップトークンの割合について。大幅により多くのトークンをクリップして、結果的に訓練により少ないものを使っとるにも関わらず、GSPOはまだGRPOより高い訓練効率を達成する。

GRPOのトークンレベル勾配推定は本質的にノイジーで、サンプル活用に非効率や。これが何を言っとるかっちゅうと、GSPOとGRPOでどれだけのトークンがクリップされるかを見とるんや。

クリッピングを覚えとるなら、基本的にここでステップを取るとき、クリッピングはそのステップの大きさを減らすようなもんや。それが効果的に起こっとることや。

GSPOとGRPOでのクリッピングの量を見たとき、実際にはGSPOでより多くのクリッピングが得られる。このシーケンスレベル重要度重み付けが何らかの形でより多くのクリッピングにつながっとる。

ちょっと待てよ。もっとクリッピングしとるなら、もっと動き回っとるっちゅうことやないか?つまり、よく最適化してないっちゅうことやないか?

実際はそうやない。もっとクリッピングしとるのにまだより良い結果を得とるなら、動いとる方向が実際に良いっちゅうことや。GRPOの方は、クリッピングしてない、ほとんどクリッピングしてないのにまだ性能が悪い。

つまり、各小さな個別ステップがおそらくよりノイジーっちゅうことや。それがここでGRPOのトークンレベル勾配推定が本質的にノイジーで非効率やって言っとることや。

基本的にこれはGRPOを悪く言っとって、GRPOはここみたいに戻って動いとるって言っとる。いろんな変な方向に動いとるけど、実際にはこのピンクの円に向かう正しい方向に動いてない。

GSPOはよりクリッピングしとるにも関わらず、より正しい方向に動いとるように見える。

ここにもう一つハイライトしたものがある。MOEアルゴリズムを採用するとき、MOEモデルのexpert activation volatilityがRL訓練の適切な収束を妨げる可能性がある。

expert activation volatility、それがここで話しとったことや。どのexpertを実際に使っとるか?このexpertがアクティブやけど、このexpertが全然アクティブにならんなら、何か間違っとるっちゅうことや。

理想的には、ある程度均等なexpert activationを持ちたい。全てのexpertを使いたい。各小さなfeed forward networkが本当にその最大限の能力に活用されるようにしたい。それぞれの小さなexpertに良い量の知能と知識を蓄えとるからな。

一回以上の勾配更新の後、同じ応答に対してアクティブになるexpertが大幅に変わる可能性がある。新しいポリシーの下でアクティブになったexpertの約10%が、古いポリシーの下でのものと異なる。

それはかなり悪く聞こえるな。routingリプレイありのGRPO、routingリプレイなしのGRPO。このルーティングで、どのexpertがアクティブになっとるかを見ることは、実際にはポストトレーニング、この場合RLがモデルを実際に傷つけとるか助けとるかを決める非常に良い方法や。

実際にmixture of expertsモデルに行って、トークンがどうルーティングされるかを見て、mixture of expertsモデルが料理されて基本的に崩壊して、一つのexpertしか使わなくなったか、それともまだ全てのexpertを適切に使っとる健全なmixture of expertsモデルかを決めるのに使える。

これは一種のメカニスティック解釈可能性やと考えることもできる。

これはAries 770とDanからやな。「テキストでのRLがAlpha Zeroスタイルと同じなら、新しい公式や方程式や推論方法を学習できるんやないか?」100%できる。モデルはそれをやっとる。

例えばIMOゴールドを解いたモデルの推論トレースを見たら、それらのトークンシーケンスのいくつかは、人間が今まで生成したことのないトークンシーケンスやと思う。

IMOゴールドの証明の特定の部分につながったそのトークンシーケンスは、基本的に新しい科学的発見やった。人々はそう考えんけど、基本的に強化学習が出て行って、数学問題でより高い報酬を得る特定のトークンシーケンスを見つけて、今それが新しい数学問題を解くのに使われとる。

ある意味、それは新しい情報の発見や。これは常に起こっとることやけど、我々にとってはあまり明らかやない。なぜなら、たくさんの異なるチェーンやテキストシーケンスを見とるから、どれが元のテキストシーケンスで、どれが基本的に他の以前の人間からの再ガジテーションかを見分けるのが非常に難しいからや。

この論文に移るけど、その前にこの論文をちょっと見せたかった。これがより良くするやと思うからや。ARPO、でもこれを見よう。8020ルールを超えて:高エントロピー少数トークンがLLM推論の効果的強化学習を駆動する。

RLVR、これはここに来た新しい用語や。これは基本的にverifiable rewardsを持つRLで、基本的に検証可能な報酬、コードや数学みたいなもんや。

これらの人たちは思考連鎖推論でのトークンエントロピーパターンを見とった。トークンのわずかな部分だけが高エントロピーを示して、これらのトークンがモデルを多様な推論経路に向ける重要な分岐点として機能することを観察した。

何を言っとるんや?RLVRは大部分、高エントロピートークンのエントロピーを調整する。彼らが言っとるのは、推論チェーン、このトークンシーケンスを実際に見ると、エントロピーの大部分が実際に一つの特定の分岐点にあるっちゅうことや。

つまり、我々の可視化に戻ると、これらのトークンのほとんどが非常に低いエントロピーを持っとるっちゅうことや。低エントロピーは何かっちゅうと、例えばここで低エントロピーがどう見えるかっちゅうと、一つのトークン以外全てがゼロや。

それが低エントロピーや。ランダムやないから、次のトークンが極端に明らか。一つのトークンがある。このトークンしかあり得ない。低エントロピー。結果をほぼ保証できる。

高エントロピーは基本的に、これらのトークンの束が等しい確率を持っとるっちゅうことや。実際にどれか分からん。これらのトークンのどれでもあり得る。高エントロピー。

彼らがここで示しとるのは、実際にこれらの推論チェーンでは、実際にこの種のパターンがあるっちゅうことや。たくさんの異なる経路に分岐できる特定のトークンがあって、これらが高エントロピー少数トークンで、大量のトークンが基本的に超低エントロピーで、この経路をたどっとるだけや。

ここから始めたら、次の3つの文が何か既に大体分かっとって、次の文、次の文に進んどるだけや。トークンを再ガジテーションしとるだけや。これは非常に重要や。

なぜなら、基本的に本当に調整・修正したいのは、これらの小さな分岐経路やっちゅうことを意味するからや。この論文では、それをやった。分岐トークンにポリシー勾配更新を制限して、全勾配更新と同等の性能を維持しながら、トークンの20%だけを利用した。

80%の最低エントロピートークンでの排他的訓練は、性能の市場的低下につながる。これは、ここのトークンレベル重要度とシーケンスレベル重要度ウェイトで発見しとったことと多く響いとる。

トークンレベル重要度ウェイトは、全ての個々のトークンが大体同じエントロピーのときにより理にかなっとる。だから全てのトークンが重要や。でも既にシーケンスが重要やっちゅうことを実現し始めとるなら、この論文が言っとるように、この論文は基本的に、実際には全体のシーケンスは本当に一つの大きな塊のものやって言っとる。

一つの大きな経路やからな。最初のトークンを得たら、他の全ては基本的に低エントロピーで、この経路の残りを爆発させとるだけや。訓練に使っとる計算について効率的になりたいなら、この分岐トークンにRLを集中すべきかもしれん。

それが彼らがこの論文でやっとることや。これは興味深いと思った。これはこの論文の図2で、最低平均エントロピーのトークンと最高平均エントロピーのトークンを示しとる。

いくつかを見てみると、例えば最高平均エントロピーの頻繁なトークン。thus、however、maybe、suppose、assumeみたいなもんや。thusっちゅう単語の後には、実際に可能な経路の巨大な爆発がある。

「なんちゃらかんちゃらかんちゃらthus」って言って、そしたら基本的に5つか6つの異なる、多分それ以上やけど、突然大量の異なる可能な経路がある。

多分強化学習は各個別トークンについて考えることやなくて、これらが高エントロピートークンで、我々がやっとることは、これらの分岐点に到達したときに各経路の確率を調整しとるだけやっちゅうことについてや。

それを修正すれば、大量の計算を節約して、数学とコードがより良い同じポストトレーニングRLモデルに到達できる。これらが最低平均エントロピーや。例えば、simplificationっちゅうような。

これらはちょっと興味深いと思う。基本的にthetaっちゅう単語を使うとすぐに、次のトークンはほぼ保証されて、そのトークンが何かを100%の確率で知っとって、他の全てのトークンは0%の確率やっちゅうことを意味するからや。

これはちょっとクールやった。これが基本的に変な数学記号の束で、ここは文の後のようなもんや。actuallyって言って、それから全体の文があるけど、その全体の文は非常に異なることができる。actuallyっちゅう単語の後に5つの異なる文を持てる。

思考連鎖で最高エントロピーのトークンは、典型的に推論の2つの連続する部分間の論理的接続を橋渡しする役割を果たし、最低エントロピーのトークンは現在の秘密の文の部分を完成させたり、単語の構築を終了したりする傾向がある。

他のトークンは、これら2つの機能を様々な程度で組み合わせる。高エントロピートークンは、しばしば文内および文間の論理的接続詞として機能する。wait、however、unlessのような対比や変化を示すもの、thusやalsoのような進行や追加を示すもの、sinceやbecauseのような因果関係を表現するものや。

同様に、suppose、assume、given、defineのようなトークンは、仮定、既知の条件、定義を導入するために数学的導出で頻繁に現れる。

この論文には他にもたくさんのことがあるけど、最も重要なことは、これらの推論チェーンでは、実際に大量の低エントロピーのものがあって、これらの特定の高エントロピー分岐トークンがあるだけで、そこにRLを集中したいっちゅう直感やと思った。

それが次の論文につながる。ちょっと水を飲もう。基本的にトークンのシーケンスを分割して、高エントロピートークンを分割器として使って、バリエーションを生成できる。そうやな。それが基本的にこれや。

ARPOの詳細解説

この論文への良い移行や。これはARPO、Agentic Reinforced Policy Optimization。これはちょっとチーズ、つまりagenticっちゅう単語を使いたいだけの論文の一つや。Agentsがホットやから、もうちょっとSEOしたいんやな。

概念はそんなに複雑やないけど、agenticっちゅう単語を使うことで、もうちょっとSEOしようとしとる。外部ツールとのやりとりの直後に生成されたトークンのエントロピー分布の増加。

agentについて考えるとき、例えばo3のようなagentとやりとりしとる。使えるツールがある。そしてそれらの使えるツールは、ここのようなもんで、これらの経路のようなもんや。

これらの人たちが気づいたのは、これらの人たちが推論チェーンでの特定のトークンがこれらの分岐点やって気づいたのと同じように、これらの人たちは、これらのツールを使う直前や、基本的にこれらのツールを使った直後に、このツール使用の周辺で似たような行動、似たような状況があることに気づいた。

実際にエントロピースパイクがあるっちゅうことや。例えばここで、tool call step oneエントロピー、ちょっとズームインしよう。見にくいけど、Gaiaっちゅうモデルのエントロピー可視化やと思う。

ここでtool call step oneが見える。そのツール使用の直後にエントロピーがスパイクしとるのが見える。モデルが計算機ツールや検索ツールやなんかを呼び出して、この高エントロピートークンが全部ここにあるのが見える。

ここで全ての分岐点が決められとる。どこに到達するかが選ばれとって、いくつかのトークンを作るとすぐに、残りのトークンは低エントロピーになる。

強化学習状況でこれらのツール呼び出しagentを訓練しとるとき、これらのツール呼び出しの周辺に集中したいっちゅう関係がある。LLMが各ラウンドのツール呼び出しフィードバックを受信した後に生成される最初のトークンは、一貫して高エントロピーを示す。

これは、外部ツール呼び出しがLLMの推論プロセスに大幅な不確実性を導入し、未探索のままの潜在的行動を明らかにすることを示す。これがこの論文の要点や。

ツール呼び出しの後に高エントロピーがあることを特定した。それが俺に何をしてくれるんや?それが提供するのは、基本的に大量の強化学習を訓練するつもりなら、良いトークンの確率がより良い、より普及するように実際にモデルを調整する方法でデータを収集したいっちゅうことや。

ポリシーが高い報酬を生み出すより高い尤度を持つ行動を生み出すっちゅうことや。エントロピースパイクがどこにあるか知っとるなら、ツール呼び出しがいつかを知っとるから、実際に別のコードパスに行ってそのツールを呼び出すコードで、エントロピースパイクがどこにあるかを知っとる。

つまり、高エントロピーのものが全部どこにあるかを知っとる。つまり、美味しい美味しいデータが全部どこにあるかを知っとる。つまり、このARPO技術で、基本的に強化学習訓練パイプラインの効率を上げることができる。

ここに最後の文がある。軌道レベルRL手法に必要なツール呼び出し予算の半分だけでこれを達成する。ナイーブに個々のトークンの軌道レベルRLで全体を訓練しとるだけなら、ツール呼び出しの周辺で全ての魔法が起こることを知っとるから、より効率的になれる。

ここの低エントロピーのスロップやなくて、これらのツール呼び出しの周辺で全ての訓練を集中させとるからや。これは実際に他の論文と同じプロットや。この高エントロピー、低エントロピーのプロットを覚えとるなら、これは同じプロットや。

最高平均エントロピーの頻繁なトークン。start、now、information、determineや。それが始まりや。最低平均エントロピーの頻繁なトークン。search、think、Python。なぜPythonが低いんや?

多分Pythonっちゅう単語を使うたびに、「そのためのPythonスクリプトを書こう」ってなって、大量のボイラープレートを書かなあかんからやと思う。

Pythonって言うとすぐに、フォローするトークンは全部基本的に低エントロピーで、これを100万回見とるから、動作を通り抜けとるだけや。

ここに彼らのファンシーなファンシーなクソがある。分岐高エントロピーツール使用ステップARPOは、ツール使用行動のより広い探索を奨励する。

既にこの高エントロピー選択で大量に分岐するって知っとるなら、基本的にこのツール呼び出しをするときは分岐できる。だからこの種のサンプリングや、基本的にこれらのツールの周辺で分岐することをたくさんやる。

p of tが事前定義された閾値を超えると、現在のノードからz個の部分的推論経路の分岐を開始する。ここのp of tは基本的にこれらのハイパーパラメータで、このdelta h of tは基本的にエントロピーや。

高いdelta h of t、高エントロピーは、このp of tがIになるっちゅうことを意味して、そのP of Tがある閾値以上になったら分岐する。これは理想的やない。例えば、これらは全部ハイパーパラメータや。

これは人間が選んだランダムな数のハイパーパラメータや。このbetaは人間が選んだランダムな数のハイパーパラメータや。このalphaはハイパーパラメータ。人間が選んだ別のランダムな数や。

だからこれはちょっと怪しい。この分岐を決めるのに3つの異なる完全に任意の数を使っとる。でもどうしようもない。時には任意のハイパーパラメータをいくつか入れなあかんこともある。

ここで他にハイライトしたものはあったかな?それがかなり重要な概念やったと思う。他にあるか?ない。

最後にこれに移れる。Sparse hydrology fork bodies well for distilling coot with flow matching。ようやくyapping taxから解放されるかもしれん。

そうやな、計算的観点から良くないっちゅう考え方の一つは、これらの各ノード間に同じ量の計算を入れとるっちゅうことを考えることや。自己回帰transformerは、これにもこれにも同じ量の計算を使っとる。

でも本当はそれをやりたくない。実践的に、つまり理論的に、直感的に、この点により多くの計算を費やすべきで、この2つの間にはあまり費やすべきやない。

だから我々がこれらの推論トレースを扱う方法には根本的に間違ったものがある。大部分が低エントロピーのスロップで、これらの非常に重要な高エントロピーポイントがあるなら、本当にそれを修正すべきや。

モデルアーキテクチャやなんかを修正すべきで、ここの重要な決定境界により多くの計算を費やして、ただyappingに全ての計算を費やすんやなくて、何かを導入したり解決策を見つけたりすべきや。

今これらの思考連鎖推論モデル、その推論のどれだけが単なる低エントロピーのスロップやyappingなんや?既に何を言うつもりか分かっとって、次の10ターンで基本的に既に知っとる同じ10のトークンを言うだけで費やす。

多分それをショートカットすべきや。基本的に全体の文のような特別なトークンを作って、全体の低エントロピーのスロップを一つのトークンで出力して、分岐点に移るとかな。

この問題への別の興味深い解決策は、潜在空間での推論のアイデアや。思考連鎖がトークンに強制されるんやなくて、基本的にある種の潜在空間でやっとる。うまくいけば、その潜在空間が、この低エントロピーのものに等しい量の計算を費やさんような方法で自分自身をマッサージするやろ。

でも分からん。かなり早く複雑になり始める。

フローマッチングポリシー勾配の解説

この論文について話そう。これはかなり人気やった。Flow matching policy gradients on policy。拡散モデルについてちょっと見よう。

拡散モデルは、画像、動画、音声、そして最近ではロボットアクションを生成する主要なアプローチになった。拡散モデルはtransformerモデルと異なるものやない。実際、ほとんどの拡散モデルはtransformerアーキテクチャや。

でも拡散モデルは、これらの連続的ドメインで特に良い。ロボットアクションでは、離散的やない。例えば、transformerの言語は離散的で、可能なトークンの限られた語彙がある。だから実際に修正しとるのは、各個別ステップで各個別トークンの確率や。

基本的に可能な全てのトークンがあって、各々に離散的なものがある。これらの一つになる。離散性っちゅうのは、限られた集合があって、一つを選ばなあかんっちゅうことや。

その集合を列挙できるし、どの単語になるか分からんけど、これらの20万語、20万トークンの一つやっちゅうことは正確に知っとる。

でもロボットアクションはそうやない。ロボットアクションは、この関節の値が1.01でも、1.0014でも、1.001456でもあり得る。だから連続的な可能なロボットアクションの空間がある。

これが拡散モデルのところや。画像と動画も同じや。より連続的な空間や。まだ離散的やけどな。「実際は」って言いたいなら、実際には全てが離散的やって言える。最終的にはコンピュータに置いとるからや。

コンピュータは全てをビットで表現しとるから、画像でさえ連続的な空間やないっちゅうことを意味する。ある時点で境界がある。この特定のピクセル色を表現する8は256の可能な値しか持たん。

だから全てが離散的やけど、限られた語彙を持つ言語モデルのようなもんより、はるかに大きな可能な値の空間があるものを連続的って呼ぶ。

クールになりたいなら、実際には技術的に全てが離散的やって人に言える。さらにメタになりたいなら、我々の世界でさえ離散的や。みんながそう信じとるわけやないけど、プランク長と光速が基本的に時間が離散的で空間も離散的やっちゅうことを意味すると思う。

全てがコンピュータで動いとるから全てが離散的や。フローマッチングは拡散モデルフレームワークを簡素化・一般化する。扱いやすい事前分布からターゲットデータ分布にサンプルを輸送するベクトル場を学習する。

条件付きフローマッチング目的は、ガウシアンノイズで摂動されたデータをデノイズするためにモデルを訓練する。このフローマッチングポリシー勾配論文の最高の部分の一つは、このブログ投稿や。

実際に非常に素晴らしい小さな可視化を持つ非常に素晴らしいブログ投稿をリリースした。ここで見とるのは、シンプルな分布、例えばガウシアンノイズから訓練分布にマップする学習された速度場や。

これがシンプルな分布や。これがガウシアン事前や。ここに素晴らしい小さなガウシアンがあって、これが時間変化するベクトル場や。ちょっと下げて見やすくしよう。

これが何を意味するかっちゅうと、時間がある。これらの各点で、小さなベクトルがある。その小さなベクトルが方向を指しとる。この場合、例えば、ベクトルがこの赤い部分を指しとる。

ここの各小さな粒子は、ここで生成されると、ここを指して、ここを指して、この赤い領域に向かって移動する。これは1次元の例で、ここの2番目の次元は時間や。

学習された速度場って何を言おうとしとる?時間条件付き速度場や。だから時間ゼロでの場とここの時間0.8での場は少し違う。

でもこの場の点を取って、ノイズから始めて、この場を教えてくれるモデルにプラグインすると、この点での場がこの方向を指しとるって教えてくれる。その方向に少し移動する。

また、モデルを試す。この時点、この時間で、この方向に少し移動すべきやって教えてくれる。そして少しずつこの方向、この方向、この方向に移動する。

最終的に、この速度場やフローは、このガウシアン事前からここの複雑なデータ分布に移動する。これが最終的に欲しいもんや。この複雑なデータ分布は、基本的に画像空間や、可能な全ての画像の空間や。

ロボットアクションでは、可能な全てのロボットアクションの空間や。28関節ヒューマノイドで高い報酬を生み出すロボットアクション、その分布って何やねん?誰も実際にそれが何かを知らん。

だからその分布を近似しようとしとる。そしてこのフローが、ノイズからかろうじて理解できるその分布に導いてくれる。非常にクールなアニメーション。

これをVibeでコーディングしたらしい。そしてこれをやる方法、フローマッチングと拡散モデルが本当に人気な理由は、逆向きにできるからや。これから始められる。

データセットが何かっちゅうと、これの例の束や。データセットの任意の点を取って、基本的に段階的にノイズを追加すると、学習ターゲットを作ったことになる。

このノイズを与えてこの出力に導くって感じで。基本的に、段階的にノイズを追加するだけで、連続領域の無限データを生成する方法や。

ノイズの働き方は、ノイズを追加し続けると、最終的に全てがこの事前、このガウシアン事前のように見えるようになることや。これも魔法の一部や。

ロボットアクションや画像のようなデータ分布を取って、段階的にノイズを追加すると、最終的にこれのように見える。基本的に、無限データジェネレーターのアイデアが大好きや。いつでもより多くのノイズを追加できるからな。

これは先週データ拡張について話したもので、これに明示的に組み込まれとる。これが条件付きフローマッチングや。条件付きっちゅうのは、このフローやこのベクトル場を生成するモデルを何かに条件付けしとるっちゅうことや。

画像を生成しとるなら、プロンプトに条件付けしとる。猫の画像で終わるようにノイズを除去して、その猫のトークンがこれを条件付けするのに使われとる。

だからこのフローは、テキストのようなものだけやなくて、時間にも条件付けされとる。時間条件付きスーパー、なんでここにスペースがあるんや?教師あり学習。

学習された速度場は、ODE積分を通してシンプルで扱いやすい分布ガウシアンノイズから訓練データ分布にサンプルを輸送する連続的マッピングや。これは微分方程式や。

基本的に、この事前からデータに導くこのベクトル場を作るモデルを作ったら、標準的な微分方程式をやればええだけやって言っとる。ここに行って、ここに行って、ここに行って、ここに行って、ここに行って、ブーム、突然猫の画像にいる。

既に話した。これが彼らのPPO説明や。そして今、FPOが登場する。FPOは基本的にPPOやけど、実際には2つの主要な違いがある。

最初に、正確な尤度を更新する代わりに、対数尤度比のプロキシR hatを提案する。この比は古いモデルと新しいモデルの間の尤度の差の対数や。

古いモデルがここにあって、これが新しいモデルや。小さな勾配更新を取った。今度は違うモデルがある。古いモデルが20%の確率をくれて、新しいモデルが15%の確率をくれたら、そこに何らかの比がある。

それがこの小さな比や。でも必ずしもそれを持ってるとは限らん。このモデルからのこの特定のアクションの確率と、他のモデルからのその特定のアクションの確率。

それを古いモデルでの条件付きフローマッチングの損失であるRH hat FPOと、これが新しいモデルで、ここに時間tでのアクションと時間tでの観測があって、これで置き換えとる。

基本的に、古いモデルと新しいモデルの間のこの場の違いや。古いモデルで、この特定の時間とこの特定の場所でサンプルしたら、小さなベクトルをくれる。新しいモデルで同じ時間と同じ場所でサンプルしたら、少し違うベクトルをくれる。

その2つのベクトルの違いがこれや。似たような概念や。これはそれらのアクションの尤度を見ることでモデルがどれだけ変わったかを教えてくれる。

ここでは、このCFMがくれる場を見ることで、与えられたアクション観測ペアに対してモデルがどれだけ変わったかを言っとる。

アクション観測ペアに対して、LCFMはサンプルごとの条件付きフローマッチング損失の推定で、基本的にここの二乗誤差や。

vhat thetaが時間にも条件付けされとるのが見える。時間も使ってこれを得て、ここにノイズのあるアクションがある。モデルは基本的にこのノイズを予測しとって、このノイズはガウシアンからサンプリングされとる。

時間ステップ0から1までと、このepsilon i out of n0 i、これは基本的にここのガウシアンや。これはゼロを中心とした単位、基本的期待値単位共分散のガウシアンや。

比は標準尤度比と、KLギャップを含む逆補正項に分解される。この比を最大化することは、モデル化された尤度を増加させながらKLギャップを減らし、両方ともポリシー最適化に有益や。

基本的に行って、この小さなプロキシを取って、KLダイバージェンスの異なる定式化やと考えられるこのエルボーで置き換えられることを示して、これのように書き換えられる。

今度は元の比とここの新しいもので書き換えた。KLダイバージェンスの指数分のKLダイバージェンスの指数で、これを逆KLギャップって呼ぶ。

KLダイバージェンスは基本的に2つの異なるもの間の距離や。古いポリシーと新しいポリシーがどれだけ違うか。それが基本的にKLが教えてくれることや。これは基本的にその比や。

KLギャップを減らすっちゅうことは、基本的にtheta oldとthetaがより似とるっちゅうことや。theta oldとthetaがより似とるほど、より安定して勾配を訓練やプッシュできる。だからそれは良いことや。KLギャップを減らすのは良いことや。

小さな小さなステップを取りたい。巨大なKLは欲しくない。firmはポリシーに正の利得を持つアクションを好むように奨励する。これは基本的に前からの比で、PPOの標準部分や。

この後を高くしとるなら、実際に何をやっとるんや?この後が高い報酬を生み出すなら、この数を大きくしたい。高い報酬の後の確率が、前の古いモデルでの高い報酬の後の確率より大きくなることを望む。

それが良いことで、この数を大きくして、これを最大化する。最終的にPPOがやっとることは、期待リターンを最大化することや。高いリターンを生み出すアクションがより可能性が高くなるなら、平均でより多くのリターンを得とるっちゅうことや。

ここで定式化したこの小さな項は、尤度でのここの逆KLギャップに分解すると、両方の部分が意味をなすように見える。高い報酬アクションの尤度を増加させて、KLギャップを減らす。だから両方ともポリシー最適化に有益や。

既に話したと思うけど、基本的にモンテカルロや。ノイズと時間ステップをサンプリングしとる。ロボット軌跡のデータセットから始めて、基本的に大量のノイズを追加して、RLを使ってこのフローを作って、今このフローがあると、ノイズから始めて、何かに条件付けして、画像を生成しとるなら多分プロンプトに条件付けして、猫の画像を得られるべきや。

ロボット使用例では、入力が現在の軌跡やなんかで、出力が高い報酬のアクションになる。ノイズから実際に欲しいデータ、ロボット使用例での高い報酬のアクションや、画像での実際の猫の画像に行く。

条件付きフローマッチング法則を最小化することは、フローをa of tにより指向させる。aに向かってフローすることで、それをより可能性が高くして、高い利得アクションの確率を増加させて、学習されたポリシーの下でより可能性が高くする。

そしてモンテカルロFPOは、NMCが1でもGaussian PPOを上回るように訓練できる。これは重要や。基本的に、基本的に無限の訓練データを作る能力があるから、この組み込まれたデータ拡張があるからGaussian PPOより良いって言ってゲームしてないっちゅうことを意味する。

これを言うことで、モンテカルロサンプルの数を低く保っても、つまりこの方法で使える計算量を増やしてチートしてなくても、まだGaussian PPOを打ち負かすって言っとる。

この文が重要なのは、基本的にこの論文が適用可能やっちゅうことを意味するからや。基本的に、PPOを使うべきやない。常にFPOを使うべきで、多分GRPOの上にFPOを使うべきや。

何をやっとるんや?これがフローポリシーや。実際、ちょっとチャットを見てへんかった。

非常にクールなアニメーション。そうやな、これらのアニメーションは素晴らしい。このアニメーションが大好きや。

「video modalityがモデルでより一般的になったら、これは爆発するやろうな」そうやな、基礎が必要な人はRich Radkeyの良い機械学習コースがある。

「画像ごとに何らかの詳細頻度を捉える異なる潜在空間を作るのは意味があるか?」潜在拡散モデルについてやな。画像の拡散モデルに詳しい人がほとんどで、画像で拡散をやっとるとき、実際にはピクセル空間でやってない。

この図みたいなのを見るたびに、実際には間違っとる。猫の画像にRGB画像でノイズを追加しとるようなもんやない。文字通り猫の画像にノイズを追加しとるわけやない。

実際にやっとることは、まず画像をエンコードすることや。ここの画像は画像空間やピクセル空間からこの潜在空間に行く。

全ての画像は、このエンコーダーデコーダーで作られたこの潜在空間のベクトル、点や。デコーダーはその潜在空間から画像空間に戻してくれる。

でも拡散、ノイズの追加と除去は全てこの潜在空間で起こっとる。この潜在空間では、基本的に直感が全くない。1000次元の潜在空間でノイズを追加して除去するってどういう意味か、人間として理解する方法はない。

だからこれらの拡散の図では、いつも画像にノイズを追加するのを示しとる。それが理解するのに非常に直感的な方法やからや。

この図では、これは1次元の例で、1次元のガウシアンとターゲット分布も同じもの、1次元やからや。見るもの全てが、直感を構築するためのこの種の簡素化やけど、実際に起こっとることやない。

「2037年以前にヒューマノイドロボットの大量生産を期待するか?」はい。2027年って言ったなら50って言うやろな。ある意味では、既にロボットを大量生産しとる。

ヒューマノイドを作るユニットリーの工場を見ると、既にかなり良い実践がある。ヒューマノイドの一つ一つがジェペットみたいなおっさんが座って小さなものを全部磨いて手で作っとるわけやない。

ユニットリーの四足歩行ロボットは最適化された生産ラインから出てきて、大量生産ラインのように見える。でも100個作るのと1000個作るのと10000個作るのには違いがある。

ヒューマノイドロボットは10000個のヒューマノイドを作り出すところまでは行ってない。まだ100個のヒューマノイド、1000個のヒューマノイドのレベルや。でも2037年は遠い未来やと思う。

2037年までには確実に1日に何千ものヒューマノイドを作り出す工場があるやろう。

「mixturel of expertsとLLMがどう違うかを説明できるか?」既に説明したから、聞いた人には申し訳ないけど、mixture of expertsは基本的に普通のLLMと同じやけど、LLMの特定の部分、feed forward networkを取って、大量の異なるfeed forward networkに置き換えるんや。

それぞれの小さな四角は、実際にここの大きな四角と同じパラメータ数や。大量の小さな四角があって、それをルーティングせなあかんから、より多くのパラメータを持てる。つまり、モデルがより多くの容量を持つ。つまり、モデルがより多くの情報を保存できる。つまり、モデルがより賢い。

mixture of expertsはGPUメモリのボトルネックを回避する方法や。使えるモデルのサイズを制限しとるのは、基本的にGPUメモリがどれだけ大きいかやからな。

mixture of expertsモデルでは、実際にモデルのより大きな塊が必ずしも使われとるわけやない。だから本当に大きなモデルで、その小さな部分だけを使っとる。

mixture of expertsは大きなモデルのようなもんで、その一部だけが使われて、このルーターがどの部分が使われるかを決める。

兵士でない限り、ソフトロボットが進む道や。インフレータブルロボットについて話しとるんか、ダン?そういうのもある。インフレータブルロボット、基本的に自分を引きずる小さなナメクジみたいなロボットがある。ソフトロボット。

これらのものや。でもこれらはちょっとしたギミックのようなもんや。本当に、これらのソフトロボットの一つ一つは基本的にデモのようなもんや。これらは生産で使われてない。

研究室の特定の種類で、研究室にお金を払う人たちのためにデモをするときだけ電源を入れるようなもんや。

ここでハイライトした計算集約的な部分やと思う。PPOの問題とGRPOが成功した理由を覚えとるなら、この価値モデルを取り除くことでPPOを簡素化したからや。

でもこのFPO論文を見ると、まだこの価値モデルがある。つまり、GPUメモリがこのポリシーパラメータtheta、このポリシーモデルを保持するだけやなくて、この価値モデルも保持せなあかん。

ポリシーモデルに勾配をプッシュするだけやなくて、価値モデルも更新しとる。2倍のクソがあるようなもんや。GRPOでやるグループ利得のような1つのモデルに勾配をプッシュするだけやない。

古典的PPOを使っとるなら、2つの異なるモデルがある。今度は2つのモデルと2つの勾配更新がある。だからTesla botの周りでまだ働きたい理由や。Tesla botが一生怪我させるんやなくて、一緒に働きたいソフトロボットや。

でもなんでまだTesla botの周りで働いとるんや?これは最終的にlights out factoriesのように見えると思う。工場で電気をつける意味は何や?ロボットは電気が要らん。だから電気を消す。

同じようなもんや。人間と一緒に働く柔らかいロボットが必要で、怪我させんようにする。でもある時点で、人間は一緒に働いてない。ロボットが一人で働いとる。

ロボットに十分な自律性があって人間の部分を取り除けるなら、全体の方程式が簡素化される。Amazon Roboticsで働いとった。大学を出た最初の仕事で、Amazon roboticsで働いて、これらの巨大な倉庫で基本的に数千のロボットと並行してこのヒューリスティック経路計画をやっとった。

ロボットと人間の間のインターフェースには膨大な複雑さがあった。フェンスを設置せなあかんし、緊急停止ボタンがいるし、この種の複雑さが全部ある。

ロボットが動くときはいつでも、この複雑な安全チェックのラッパーがある。ロボットが動く前に全てが安全チェックされるようなtry exceptsのようなもんがある。

全てが面倒やった。最終的に工場に人間がいないなら、このクソは全部いらんってことが分かる。あらゆるところに緊急停止ボタンはいらん。経路に人間がいないかの二重チェック、三重チェックをする計算の無駄は全部いらん。

人間がいないから全部取り除ける。

「勾配降下は残ると思うか、それとも何かがそれに取って代わると思うか?」勾配降下はいつもそこにあると思う。新しいニューラルネットワークのための重みを出力するニューラルネットワークでさえ、そのニューラルネットワークを最適化するのに勾配降下を使う。

勾配降下は極端に、ビターレッスンレベルの神聖なもんのようなもんや。ビターレッスンは実際により法則やと思うし、勾配降下も法則の側により近いと思う。物事を最適化する普遍的に最良の方法やからな。

だから勾配降下は残る、ビターレッスンは残ると思う。ここでも言っとる。より多くのサンプルが、より高価な環境ステップを必要とせずに学習を改善できる。

彼らが何について話しとるかっちゅうと、環境ステップは例えばここでのデータ収集方法や。GRPOをやっとるとき、信号は環境から来る。この平均と標準偏差を取っとるこれらのxyiの各々は、ロールアウトで支払わなあかんかった経験や。

実際にこのポリシー、このポリシーをサーバーに置いて、推論を実行して、大量のロールアウトや経験を収集せなあかんかった。だからそれは高価な環境ステップや。

でもこのFPOは、そんなにやらんでもええ。データを得る方法が、基本的に既存のものを取って、ノイズを追加するだけやからな。

既存のデータセットを取って、基本的にノイズを追加し続けて、これらの入出力ペアを作り続けることができるから、そこからはるかに多くのジュースを得ることができる。

ノイズのあるものがここで、ノイズのないものがここで、同じものに少し違うノイズ、同じものにノイズなし、同じものにさらに少し違うノイズ、同じものにノイズなし。

高価な環境ステップを必要としない方法で、そのようにデータを無限に生成できる。まだ環境が必要でそこでステップを取る必要があるけど、この種の自然なデータ拡張があるから、それほど多くはないかもしれん。

ここに小さな興味深い結果がある。FPOの性能は、全ての関節で条件付けするときGaussian PPOに近く、目標がルートやルートプラスハンドに減らされるとそれを上回る。

これがヒューマノイドで、ヒューマノイドには関節があって、それぞれの関節は何らかの連続的な数や。関節空間は基本的にこれら全ての関節やと言える。20何個の数を持つベクトルのように考えて、それぞれの数が関節の一つを表現する。

ここは、手の位置とルートや腰の位置だけや。彼らが言っとるのは、FPOがGaussian PPOより良いことを示す一つの方法は、全ての関節で条件付けするとき、つまりGaussian PPOとFPOが全体のヒューマノイド、全ての情報を与えられたとき、両方とも大体同じ場所に行き着く。

でもルートとハンドだけ、手の位置と関節とルートや腰の情報だけにアクセスできる情報を与えると、FPOとGaussian PPOの間に巨大な差が見える。

それはFPOにある魔法が何であれ、スパース条件付けに対するはるかに強い堅牢性につながることを基本的に示しとる。ロボットをやっとるとき、ほぼ常にスパース条件付けや。

ロボットがあって、それを見る100個のカメラがあったとして、それを1個のカメラだけで見るように減らしたら、1個のカメラで見るのはスパースで、100個のカメラで見るのはデンスやって言うやろ。

ロボットでやっとることは全て既に最初からスパースやっちゅうことに人々は気づいてない。モデルに与えとる入力データの量が、実際に理解して知的な行動を生み出すのに必要な全ての情報の非常に狭い薄いスライスやからな。

グリッパーの粒度の粗い小さな画像と、多分関節の位置を得とるけど、より良い出力を生み出すのに使える情報がはるかに多くある。

ロボットのような非常にスパースな入力を持つドメインでは、FPOはPPOより良く実行するように見える。

「Meta Clip 2って何?」Clipは対照的言語画像事前訓練や。基本的にテキストと画像を取って、同じ潜在空間に埋め込むことを可能にするモデルや。

Meta clip 2。Clipはヒップホップグループでもあるらしい。Meta clip 2もVRクリップみたいなもんらしい。

meta clip 2が何か実際には知らんけど、clipが何かは知っとる。いろんな異なるclipがある。OpenAIにclipがある。Metaにもclipがある。だからMetaclip 2は2番目のclipやと思う。最近リリースした他のclipや。

英語で訓練、非英語で訓練。これは興味深い。この論文を全く読んでないから、この5秒間見たことに基づいてランダムに言っとるだけやけど、clipを訓練するとき、neural netを見よう。

clipを訓練するとき、画像と対応するキャプションがある。基本的にこのテキストエンコーダーとこの画像エンコーダーを作っとって、同じ空間に投影する。

このテキストを表現するベクトルが、この画像を表現するベクトルに空間で近くなる。なぜそれをやるんや?なぜそれが有用なんや?

今、任意の画像と任意のテキストを取って、そのテキストがその画像に対して高いコサイン類似度を持つかどうかを言える。その場合、そのテキストはおそらくその画像に意味的に関連しとる。

テキストが非常に、それら2つのベクトルが完全に反対方向を向いとるなら、そのテキストはその画像に全く関連してないやろう。

これらのclipモデルは他のもの、おそらくstable diffusion、他のいろんな異なるものを訓練するときに非常に有用や。

画像をベクトルに変換して、テキストをベクトルに変換できて、それらのベクトルが互いに関連付けられるこれら2つのペアのエンコーダーは非常に有用なもんや。

ここでMetaがおそらくclipを取って、英語のキャプションだけやなくて中国語のキャプションでも訓練したら良くなるとかそういうことに気づいたんやと思う。世界規模で訓練。だから私のmetaclip 2の論文を読まんかった5秒の見解やな。世界規模で訓練。マルチモーダルclip。

「ルイ・カバン、遺伝的進化アルゴリズム検索はもっとビターレッスン的やないか?」そうやな。進化はスケールするし、検索もスケールする。だからビターレッスンは基本的に、スケールでより良く実行されるアプローチは時間の経過とともによりうまくいくって言っとる。

拡散は、現在のデータを取ってノイズを追加するだけで、いつでもノイズを追加して無限のデータを作ることができるからや。ここのこのNMC、このモンテカルロ数をより大きく、より大きくし続けることができて、より良い、より良い結果を得ることができる。

このNMCをクランクアップし続けて、これに投入する計算量をクランクアップし続けることができて、より良くなる。それがビターレッスンや。これに投入する計算スケールをクランクアップできて、より良くなるから、これは良いアルゴリズムやって基本的に言っとる。

進化も同じや。進化は検索プロセスの一種や。この世代変異があって、フィルター選択のようなもんがあるけど、そのループ全体、そのループを実行する回数を増やして、より多くの変異を作って、より多くの選択をするほど、最終的な結果は良くなる。

だから進化も計算でスケールするもんや。検索も同じや。ここの我々のものに戻ると、このロールアウトバッチサイズをより大きくするほど、より多くの経験を収集できて、より良くサンプルして、それらのムーブ37を見つけて、勾配降下を通じてモデルに入れることができる。

だから検索も計算でスケールするもんや。そうやな、ビターレッスンは、技術が他の技術を打ち負かすとしても、他の技術がよりファンシーであっても、より多くの計算でスケールできる技術がビターレッスンっちゅう直感や。

「GSPOについて3〜4行の説明をしてくれるか?」ここにある。これがTRLでのGSPOのPRや。これが1、2、3、4。これがTRPO、GSPOとGRPOの5行説明や。

GRPOはトークンレベル重要度サンプリング。GSPOはシーケンスレベル重要度サンプリング。同じもんを数学で。トークンレベル重要度ウェイトとシーケンスレベル重要度ウェイト。

そして平易な英語で、GSPOは基本的に全体のシーケンスを各個別トークンより重要として扱っとる。そして今日見た別の論文から、これは実際に推論モデルに非常に適用可能に見える。

推論モデルでは、全体のシーケンスを決めとるこれらの高エントロピー少数トークンがあるからや。だからこの全体のシーケンスは本当にただの一つのもんや。

最適化はこの全体のシーケンスのレベルで起こるべきで、なぜなら、ここの他の青いトークンは基本的にここのこの高エントロピー分岐から出てくる低エントロピーのスロップやからや。

最適化目的の単位が報酬の単位と一致すべきや。報酬の単位が、この全体のシーケンスが正しい報酬につながることから来とるなら、GRPOは各個別トークンを見るべきやない。全体のシーケンスをやるべきや。

だからGRPOがPPOの簡素化やったのと同じように、GSPOはGRPOの簡素化の一種や。

「このモノリシック訓練が進む道やと思うか、それとも未来はもっと多くを凍結して一度に1つのレイヤーを訓練するような、古いものとの接続で新しい概念を学ぶような学習により近いやと思うか?」

人々は既にそれをやっとると思う。だから蒸留でたくさん起こっとる。人々は異なる部分を凍結して、特定のものを剪定するようなもんや。

例えば、視覚言語モデルはそんな感じや。通常、事前訓練されたエンコーダーがあって、この小さなコネクタ、言語モデルがあって、エンコーダーを凍結して、コネクタを訓練して、コネクタを凍結して勾配をプッシュする。

既にたくさんのこの種のレイヤー手術が起こっとる。でもビターレッスンの観点から見たいかどうか分からん。レイヤー手術や小さな小さなものは計算でスケールするか?いや、エンジニアでスケールする。

より多くのエンジニアがいるほど、このレイヤーを削除して、小さなLoRAを置いて、量子化するみたいなことについてより賢くなれる。それはスケールしない。一方、モノリシック訓練は計算でスケールする。

だから最終的にその種のレイヤー手術は全部なくなって、一度に1つのレイヤーを訓練することになるやろうと思う。一度に1つのレイヤーを訓練するのは分からん。そのための良い予測ができん。その未来は見えん。

Tech 300、「強化学習の研究は日に日に、毎週増加しとると思う」そうやな、それがこの配信のポイントの一種やった。この種のポリシー最適化のカンブリア爆発がある。

ポリシー最適化、ポリシー最適化、ポリシー最適化を見ろ。ポリシー最適化は言語モデルにニューラルネットの勾配をプッシュするだけや。

ライブセッションを見逃した。お前は誰や?それは100iqueや。素晴らしい素晴らしい小さなダジャレやな。

「自己回帰モデルにやることは、トークンを追加してNPパストークンを削除するって言うことかもしれん」Mambaの話はまだあるか、それとも死んだか?あんまり聞いたことないけど、良い特性がたくさんある。

無限のコンテキスト長、隠れ状態、そこに良いものがある。確実にMambaに関する論文は少ないけど、多分私が見てないだけかもしれん。それも一部や。

起こっとる研究全部の良い見方を必ずしも得てないと感じる。一つは、研究の多くが今秘密やからやけど、それから私が情報を得る方法がこの種のフィードやからでもある。この種のソーシャルメディアフィード。

強化学習論文をクリックすると、アルゴリズムがより多くの強化学習論文をくれる。だから座って強化学習論文をクリックし続けて、心の中で「うわー、この強化学習のものを見ろ」って思っとる。

めっちゃ人気になっとるように見えるけど、実際に起こっとることは、アルゴリズムが「この人は強化学習が好きや。もっと強化学習をあげよう」って言っとるだけや。

私が知らんだけで、バックグラウンドでMambaでたくさんのことが起こっとるかもしれん。アルゴリズムが私はMambaが好きやないと思っとるから、私が見てない。

だから実際にRLが本当に人気なのか、それとも私が自分のアルゴリズムフィードのエコーチェンバーにいるだけなのか分からん。

「ガウシアンスプラッツはどうや?」実際、ガウシアンスプラッツについて話したいなら、最近、これは私が取り組んどるプロジェクトでTapbotって呼ぶ。ロボット刺青やけど、最近最新バージョンの小さなガウシアンスプラッツを作った。

これがタトゥーロボットのハードウェアV0.4のガウシアンスプラッツや。ガウシアンスプラッツについて本当に好きなことの一つは、視点依存っちゅうことや。

これが見える。このコンピュータの後ろが少し反射しとる。視点を変えると、外観がどう変わるかが見える。それがめっちゃクールやと思う。

例えば、反射しないこのようなものは、どの角度から見ても同じに見えるけど、反射する画面のようなものは変わる。ここではもうちょっと緑で、ここに移動するともうちょっと黒になる。

欠点は照明が焼き込まれることや。照明が焼き込まれとるのが見える。だから時間の凍結された瞬間のようなもんや。ここの照明が焼き込まれとるのが見える。

でもそれをメッシュされた同じデータセットと比較してみ。これは基本的に今、それらの画像を取って、そこからメッシュを作っとる。

どれだけ良いかが見える。パターンがもうちょっと良く見える。でもこれを見ろ。画面さえ取得してない。基本的にこの大きな穴があるだけや。

違うから見た目が。フォトグラメトリをやっとるとき、この種のフォトグラメトリで、画像間の対応を見つけとるけど、画面の異なる視点間には対応がない。一つでは高い反射があって、もう一つではその反射がないからや。

フォトグラメトリは視点依存効果に非常に影響を受けやすいから、この種の変なもんを得る。これを見ろ。これは何やねん?これは見えんのに対して、スプラッツに行ったら、ケーブルを完璧に取得しとる。それがめっちゃクールやと思う。

ガウシアンスプラッツ。まだガウシアンスプラッツの信者や。

「NeRFも同じことができるか?」NeRFsとスプラッツはかなり似とる。それを言うのは異端的かもしれんけど、基本的に学習された表現や。

スプラッツはNeRFsよりちょっと良いと思う。NeRFsでは、この情報を全てこの任意の多層パーセプトロンに入れとるからや。このブラックボックス。何が起こっとるか分からん。

スプラッツでは、表現がより明示的や。文字通りここに実際の小さなドットがあって、そのドットを見て、そのドットが空間のどこにあるかを知ることができて、そのドットはいらんって言える。切り取ることができる。

例えば、このガウシアンスプラッツでこれを切り取ることができる。ここのこの小さなドットはいらんって言える。これで終わり。NeRFでそれをどうやってやるんや?

NeRFはその出力を生成するニューラルネットのようなもんや。NeRFから何かを切り取る方法なんてない。そのニューラルネットの内部に暗黙的に入っとる。

だからスプラッツがもうちょっと好きなのは、明示的やからや。でも利点はNeRFが小さいことや。NeRFを小さなRay-Ban Meta glassesのようなものに置くことができる。

例えば、未来でAR glassesを通じて誰かと話しとる場合を想像してみ。あなたと話しとるその人を表現する顔は、スプラッツかNeRFか?

NeRFなら、実際により安いやろ?NeRFでの推論は実際により簡単で、特にAR glassesのような非常に小さなもんでは。

だからより明示的な方法のガウシアンスプラッツは、編集できるから良い。既存の3Dワークフローに機能して、切り取り、編集、そういうことができる。

でもNeRFsは、全て暗黙的やっちゅう事実があって、特にエッジデバイスでの推論により良い。

どっちが成功するか分からん。未来に向かうにつれて全てが収束するって人々が間違っとる一つのことを感じる。でも実際には発散するかもしれん。

音楽やアートについて考えてみ。未来に向かうにつれて、より多くの音楽ジャンルを得る。音楽がこれらの異なる可能なジャンルに爆発しとる。

技術的解決策もそうなるかもしれん。みんなが同じコードを書き始めたり、みんながガウシアンスプラッツを使い始めたり、みんなが同じものを使い始めるより、実際により複雑になって、glassesではNeRFsを使うけど、画面を使うときはスプラッツを使って、ここで使うときは発見してない第三のものを使うパターンがあるかもしれん。

ボクセルのような、我々がまだ発見してない第三のものがあるかもしれん。異なる3D表現のカンブリア爆発が見えるかもしれん、収束やなくて。

特にAIがソフトウェアを書くなら、各実装が人間によってやられるために使われていた知能がボトルネックやったから、基本的に各実装は非常に高価やったけど、AIが全ての実装をやっとるなら、非常に安い。

一部の人が言うアイデアになり始める。あらゆるUIが単に生成されるか、その場で作られる。FacebookのエンジニアがUIを作って、みんながそのUIを使うんやなくて、この特定の画面用に生成されて、この特定のヘッドセット用にUIを生成する千の異なるUIがある。

あらゆる異なる画面とヘッドセットが、人間がそれぞれを生成せなあかんやなくて、LLMやエージェントによってその場で生成されるだけの異なるUIを使う。だからそこに制限要因がある。

もう時間を大幅に過ぎとるから、この配信を終了せなあかん。でも小さなまとめをしよう。

まとめ

今日の配信は「GSPO、FPO、ARPO」って呼ばれとった。基本的に強化学習分野の3つの異なる論文を見直した。基本的にPPO、GRPOアルゴリズムの異なるバリアント。

GSPOがあって、全てのオープンソース強化学習ライブラリにかなり早く実装された。早く実装できた理由は、GRPOに非常に似とるからや。

ARPOとこの関連論文も見た。これは基本的に、強化学習をやっとるとき、経験をサンプリングするところについてもうちょっと知的になれるってことを示しとる。

これらのツール呼び出しエージェントや推論エージェントの一部では、高エントロピーを持つシーケンスの特定のポイントがあって、他のほとんどのポイントは低エントロピーやって見える。

だからその高エントロピーポイントで探索と分岐に集中するのは、おそらく有用なもんや。

それから、このFPOを見た。flow matching、拡散世界からのフローマッチングを取って、それをRL、特にPPOの上に適用しとる。

これは最も予備的な作業やと思う。だからここの全てがおもちゃ環境でやられとった。だからこの方向での多くの可能な探索と将来の研究がある。

でも特にロボットのようなもんに対して、非常に有望に見える。でもそうやな、それが基本的にや。ここでノートを見つけることができる。だからここに全ての異なるリンクがある。

うん、みんなが付き合ってくれて感謝する。ありがとう。Ed、Open Room、Spyrobell、Dan、Aries、Prateique、NLP、Prompter、Mark、Sid、Josh、Loique。他に誰や?ここでスクロールアップし続けよう。

Aries、Kuz Dan、Julier、PW、Lil KM、Short Vid、NLP。名前を見逃したら申し訳ない。でもみんなが付き合ってくれてありがとう、素晴らしい週末を過ごしてくれ。

コメント

タイトルとURLをコピーしました