マルチDeepSeek R1:STEP-GRPO RL マルチモーダル

AGIに仕事を奪われたい
この記事は約12分で読めます。

6,911 文字

Multi DeepSeek R1: STEP-GRPO RL MultiModal
My video explores new Ai research on R1 multi-Modal reasoning, and demonstrates clearly how StepGRPO’s step-wise rewards...

こんにちは、コミュニティの皆さん。また戻ってきてくれて嬉しいです。中国の友人たちがO1モデルをさらに発展させました。今何が進行中なのか見てみましょう。
ご存知のように、DeepSeek R1は優れたモデルで、GRPOというポリシー最適化のおかげで素晴らしい推論能力を持っています。GRPOはグループ相対ポリシー最適化で、この論文で発表されたものです。これは今から1年2ヶ月以上前のことです。
昨日NVIDIAでは、Jensenが事前トレーニングのスケーリング、事後トレーニングのスケーリング、テスト時のスケーリング、長時間の同期について語っていました。そして今、エージェント型AIから物理的AIへと移行しています。
こちらのTech Crunchの記事では、Groot N1という人型ロボット用の新しい基盤モデルが登場しています。将来のAIには、単なる言語推論システムだけでは不十分であり、マルチモーダルシステムが必要であることがわかります。
そこで、R1を見てみましょう。O1を拡張してビジョン言語モデルにしたいと考えています。そのためには、GRPOを取り入れ、マルチモーダルの世界への拡張を見つける必要があります。簡単そうに見えますね、始めましょう。
昨日、新しいハードウェア、NVIDIA DGX Sparkが登場することを知りました。これを見てください、かわいいでしょう?ただ、128GBの統合メモリしかありません。これは私たちが使いたいものには不十分です。
そこで、究極のデスクトップAIに進まなければなりません。NVIDIAのサイトで「利用可能になったら通知してください」と設定できます。2025年のいつか、希望的には。スペックを見ると、GPUは288、CPUは最大496ギガバイト、これは良さそうですが、残念ながらまだ利用できません。
今日のビデオでは、完全版のR1、巨大なものは使えませんが、少し小さなR1にスケールダウンする必要があります。しかし、マルチモーダル言語モデルに焦点を当て続けます。画像、ビデオ、音声、あるいはLiDARの点群などを考えてみてください。
主にビデオと音声がロボティクス用のシステムを構築する上で重要になるでしょう。
それでは構築していきましょう。新しい研究があり、新しい研究チームを紹介します。彼らはO1のような優れた能力を持つモデルを構築したいと考えていました。ステップバイステップの長い推論チェーン能力を持ったモデルです。そして、これをマルチモーダルモデル用に構築したいと考えていました。
これを探求し、実験し、新しいアイデアを実装するために、彼らは中国の友人たちのように巨大なO1モデルを使う余裕がなかったため、より小さなR1モデルを使用しました。具体的には、このビジョン言語実装のために、O1 7Bを使用しています。
注意深く研究を読み、数日前に私が紹介した新しいLight R1のビデオを見ると、彼らはLight R1について知らなかったことがわかります。なぜなら、彼らは私の数日前のビデオを見ていなかったからです。私はR1の蒸留バージョンを扱いました。このビデオで示したように、ベースモデルはQ1 4Bで、そこから大きなモデルから推論の長いトレースを蒸留しました。
しかし、これを読んでいると、彼らが実際にQ1 2 VL 7Bモデルを使用していることに気づきました。これは興味深いことです。まず、これはQ1の最新バージョンではありません。現在、Q1を見ると、Q1 2.5がありますが、最新のアルゴリズムを最新のモデルで示したくないのだと思います。少し競争があるのは常に良いことです。
なぜこのビデオを作ったかというと、AI研究の世界で新しいことが起きているからです。昨日Jensenが話したことと並行して、私たちは新しい方向に進んでいます。
短い歴史を振り返ると、DeepSeek R1は素晴らしく、その力は主にGRPOにありました。複雑な報酬モデルを必要としないオンライン強化学習です。GPOはDeepSeek R1において、LLMに一連の推論パスを生成し、ルールベースの報酬関数に基づいて推論プロセスを繰り返し改善するよう促します。
第二に、結果レベルの報酬戦略で作業していました。正しい答えに導く推論パスには高い報酬が与えられ、間違った答えに導くものには低い報酬が与えられます。古典的なアプローチです。
質問は、DeepSeek R1の推論モデルにあるGRPOを、どのようにマルチモーダルモデルに拡張するかということです。LiDAR、音声、ビデオなど、あらゆるモダリティに対応するためです。
現在のマルチモーダルLLMでは、推論能力が限られていることを覚えておいてください。R1がマルチモーダルに実装されていないからです。実装しているものは教師付き微調整に依存していますが、これはあまり良くありません。一般化が貧弱で、特に長い推論チェーンでの推論の失敗に対する理解が限られているからです。
そのため、強化クローニングが必要です。昨日のビデオで、新しい開発について話し、3つのトレーニングデータセットが必要だと示しました。対照的なペアがあり、これが内部推論を美しく強化しました。対照的な損失関数で作業していましたが、マルチモーダルではまだそれがありません。
強調したいもう一つのトピックがあります。オリジナルのDeepSeek R1蒸留Q1 7Bを見ると、ベースモデルはQ1 2.5で、幸いにも最新の数学モデルですが、ビジョン言語には一般的なモデルが必要であり、数学に特化した超トレーニングモデルは必要ありません。
この場合、ベースモデルであるQ1 7B、蒸留バージョンを使わなかった理由が理解できます。大きなモデルの推論パターンを小さなモデルに蒸留することができます。R1の完全な推論トレースを取り、Q1 7Bに落とし込み、これをDeepSeek R1蒸留Q1 7Bと呼びます。
しかし、今回はまったく逆のことをしたいと思います。優れたビジョン言語モデルというベースモデルがありますが、このモデルを超インテリジェントにしたいのです。長い推論トレースを本当に集中的に行い、マルチモーダルな質問と入力を含めたいのです。
そこで、Q1からのモデルを使用し、R1からGRPOを適用します。しかし、単純にGRPOを適用するだけではダメです。マルチモーダルで作業しているからです。そこで、ステップGRPOと呼ばれる新しいものを開発し、特定のベースモデルに適用してマルチモーダルに対応させます。
今日は、拡張されたビジョン言語モデルを持つDeepSeek R1のようなバージョンのモデルを7Bで開発します。ただし、これはDeepSeek社のR1 VLではないことを明確にしておきます。それはR2モデルになる可能性があり、近いうちにリリースされるかもしれません。私のビデオを急いで作る必要がありますね。
これは、R1からのGRPOとR1からの長い推論トレースを使用して、R1の成分を使って、マルチモーダルR1を構築しようとするものです。しかし、これはオリジナルの会社からではなく、別の中国の研究グループからのものです。彼らはGRPOを修正してマルチモーダルの世界に押し込む方法を実験しています。
さて、ビデオを開きましょう。これは導入部でした、急がなければなりません。
マルチモーダル言語モデルのポリシーPはデータを生成し、ステップバイステップの推論アクションを生成します。前回のビデオを見てください。アクションは生成された推論ステップを表し、推論を強化学習の連続的な意思決定タスクに変えます。詳しく知りたい方は、前回のビデオのトピックをそのまま続けます。
今、問題があります。このGRPOは、マルチモーダルLLMの推論、特に学習フェーズにおいて、スパースな報酬の問題に苦しんでいます。これはマルチモーダルモデル、特に7Bや14Bのような小さなモデルにとって良くありません。特に長い推論チェーンの精度と妥当性に関して、推論能力が非常に限られています。
もう一つの問題は、スパースな報酬の問題だけでなく、結果レベルの報酬の問題です。結果だけを取り、プロセス報酬モデルがありません。何か新しいものが必要で、今日見ていく新しい研究チームによる解決策があります。
彼らは言います。簡単です。グループ相対ポリシー最適化から考えられる次の最も簡単なステップは、密なステップワイズ報酬構造のための新しい強化学習フレームワークを構築することです。これをステップワイズステップGRPOと呼び、本当に簡単な2つの異なる報酬関数でこれを実装します。
これが機能するか見てみましょう。点線はクラシカルなGRPOで、これを適用すると下がっていきますが、新しいアルゴリズムを使うと、青の報酬とオレンジの精度の両方が上がっていきます。10ポイントはそれほど多くないかもしれませんが、これはまだ実験段階です。
天才の閃きが必要です。古典的な方法であるステップGRPOには2つの段階があります。ポリシーウォームアップフェーズがあり、マルチモーダルの推論能力を獲得するためにマルチモーダルの推論データセットで古典的な教師付き微調整を行います。
例えば、何かのイメージを見せて、質問(テキスト)をします。このAIモデルはイメージを理解し、テキストとの関係を持ち、マルチモーダルシーケンスの推論を行うことができます。そして、ポリシー最適化フェーズ、強化学習が必要です。
GPOを使用するので、一連の推論軌跡のグループがあり、この方法論の核心部分を維持します。各軌跡は、新しく導入された2つのステップワイズ報酬メカニズムを使用して密な報酬を受け取ります。ステップワイズ推論精度報酬とステップワイズ推論有効性報酬があります。
複雑に聞こえますが、非常に簡単です。最初のものであるステップ報酬は、正しい中間推論に比例して増分報酬を持ちます。この報酬関数は推論チェーンを見て、「これは良い、これはまさにここで推論チェーンが進むべき場所だ」と言います。後で例を示します。
2つ目のR VRは、構造化され論理的に一貫した推論パスを報酬とする論理的一貫性です。「これは簡単だ」と思うでしょう。システムはただ見て、「それは論理的に導き出されたように聞こえる」と言うだけです。これが最初のステップだけの最も簡単なステップです。ちょっとした小さな一歩をマルチモーダルGPOに進みたいのです。
このステップGRPOでは、グループ相対最適化のGRPOの核心を維持し、ステップワイズ精度と有効性の報酬関数を集約して全体的な報酬を計算します。強化学習の利点は、サンプリングされた推論パスのグループ内で相対的に計算されます。
それから、報酬の古典的な正規化とグループ相対ポリシー最適化技術を通じたポリシーモデルの最適化があります。すぐに損失関数をお見せします。そして、参照ポリシーからのモデルの乖離を防ぐためにKLダイバージェンス正則化を使用します。これは、確率分布のドリフトとKLの違いです。
これだけです。事実を見てみましょう。これは2025年3月17日の南洋理工大学と清華大学からの研究です。中国の素晴らしい論文です。マルチモーダル大規模言語モデルでステップワイズグループ相対ポリシー最適化を介して推論する学習です。O1の世界、GPOの世界に留まりながら、O1の方法論に基づいてビジョン言語モデルへの最初のジャンプを試みる実験をします。
私たちが望むのは、単純で効果的な密なステップワイズ報酬を通じて推論を自己改善するモデルです。これが公式な図です。2つの報酬関数、推論精度と推論有効性があり、報酬が計算され、グループアドバンテージが計算され、これが損失関数に転送され計算されます。これは古典的な数学的計算です。
私たちは特にこの報酬関数に興味があります。進捗報酬モデルを目指していますが、それはルールベースのものです。ステップ報酬を見てみましょう。計算は非常に簡単で、報酬割り当てに美しいトリックがあります。
もちろん、ステップが一致しない場合や回答が提供されない場合は0、最終回答が正しい場合は古典的な1+パラメータがあります。また、中間ステップが部分的に正しく、最終回答が不正確な場合もあります。長い推論チェーンでは、いくつかの正しい部分があるが、どこかのレベル、例えばレベル7で突然ミスをする場合があります。
システムはこれを見て、単に0か1ではなく、部分的な報酬の一致を与えます。これは素晴らしいことです。なぜなら、モデルは最終的に正しい最終回答を提供することに失敗しても、エンド・トゥ・エンドのフィードバックを受け取ることができ、結果レベルの報酬に内在するスパースな報酬問題を大幅に緩和するからです。
これは素晴らしく、とても簡単なトリックです。「中間ステップが部分的に正しいので、部分的な報酬を与えよう」と言っています。推論有効性報酬はさらに簡単です。必要な構造的コンポーネントを含んでいるかどうかを見るだけです。これは、AIが論理的シーケンスを含んでいるかどうかを見ることを意味します。
最も簡単な論理的シーケンスは、背景分析、ステップバイステップの中間推論、そして最終的な明示的な回答です。そうであれば1、そうでなければ0です。バイナリ決定です。これ以上簡単にはなりません。
これを行ったら、RAとRVR報酬を持ち、推論パスの総報酬は報酬を合計することで計算されます。次に、グループ内の各推論パスのアドバンテージを、そのグループの平均報酬に対して相対的に計算し、効果的なポリシー最適化を確保します。これ以上簡単にはなりません。
次に、古典的なGRPOを使用してトレーニングを安定させ、推論の信頼できる改善を促進するポリシーモデルを更新します。損失関数でポリシーモデルを最適化します。これが損失関数です。ここにKL項があります。これらの用語が何を意味するか理解できない場合は、AI数学を簡単に説明する導入ビデオがあります。
そして最後に、ベンチマークを見てみましょう。多くの異なるベンチマークがありますが、最終的には平均値があり、クローズドソースモデルとオープンソースモデル、推論モデルがあります。しかし、私たちにとって最も興味深いのは最後の6行です。
2Bバージョンと7Bバージョンがあります。興味深いのは、他の研究と比較できるようにQ1を使用し、Q1 2.5ではないことです。Q1 Q2 2Bに関する別の研究があり、次にR1からの古典的なGRPOを持つ2Bがありますが、マルチモーダル用のステップGRPOではなく、そして彼らがO1と呼ぶものがあります。
ただし、これはDeepSeekからのものではなく、O1のようなモデル、ビジョン言語の2Bです。ベンチマークデータを見てみましょう。古典的なQ1 2は特に有名ではなく、7Bの場合、GPOを使うとパフォーマンスが落ちますが、新しい方法論であるステップGPSを使うと、2Bと7Bの両方で改善が見られます。
彼らは、R1 V 2BとR1 V 7Bを訓練したと言います。詳細な比較を示します。このイメージを与え、「イメージに見える赤いものをすべて引いて、小さな金属球もすべて引いたら、残りのオブジェクトは何個ある?」という質問をします。
赤いボールを引き、小さな金属球を引くと、2つのボールがなくなり、1、2、3、4、5のオブジェクトが残ります。正解は5です。人間がこれを検証しています。しかし、古典的なQ1 2 7Bを見ると、不正確な推論があり、Malberでも不正確な推論があります。
驚くことに、新しい方法論であるR1 VL 7Bでは、ステップバイステップの推論が強化学習によって正しい結果を提供しています。研究にはさらに多くのデータがあります。これは将来の技術開発ベクトルを示していると思います。より複雑なモデル、ヒューマンロボティクスモデル、ビジョン言語モデル、ビジョン言語アクションモデルのためです。
残念ながら、昨日発表されたばかりなので、GitHubリポジトリを見ると、READMEファイルを昨日書いたばかりで、「もうすぐ来る」と言っています。このビデオを見ているときには、私が持っている以上のデータがあるかもしれません。
R1はオープンソースコミュニティに大きな影響を与えています。昨日NVIDIAで見たように、ロボティクスが私たちの現実世界に物理的に入ってきています。単なる推論モデルだけでなく、外部の世界モデルを理解し、内部の世界モデルと比較できる推論モデルが必要です。
そのために、2つの非常に簡単な報酬関数を持つ、最も簡単な場合での高度なGRPOが必要です。最初の実験はステップGで、2025年3月中旬の今日でも、AIの進歩がいかに簡単であるかがわかります。

コメント

タイトルとURLをコピーしました