DEEPSEEK新登場：SPCT with DeepSeek-GRM-27B

6,121 文字

NEW by DeepSeek: SPCT w/ DeepSeek-GRM-27B

DeepSeek published a NEW learning method and a NEW model for the next generation of Reasoning models, called DeepSeek-GR...

こんにちはコミュニティの皆さん。再びお会いできて嬉しいです。今日は、Deepseekが2日前に発表した新しい学習方法論についてお話しします。
SPCTとは何でしょうか？そして今回は新しい試みとして、冒頭に重要なポイントをお伝えします。これを見て、詳細を知りたいと思えば続きをご覧ください。
まず始めに、Deepseekが提案しているのは新しい学習方法論で、「自己原則批評チューニング（Self-Principle Critique Tuning）」と呼ばれています。これは特に推論時のスケーリング、つまりテスト時の計算スケーリングのためのものです。ご存知のような推論モデルですね。特筆すべきは、新しい生成型報酬モデルを構築したことです。
タイトルを見ると、最も重要な用語がすでに含まれています。「原則（principle）」と「批評（critique）」です。これは適応可能な原則と、モデルが自身のパフォーマンスを向上させるために行う批評になります。これは自己学習方法論であり、推論時にスケーラブルな学習を行うものです。非常に魅力的ですね。
彼らは結果も示しており、新しいモデルで推論時スケーリングのパフォーマンスを比較しています。彼らが構築したのは特殊な報酬モデルで、GMA 27Bをベースにしています。さらに、1パラメーターの実際の大規模モデルサイズでも実験したとのことです。彼らが発見したのは、27億パラメーターの報酬モデルを正しく構築すれば、モデルサイズに対する訓練時のスケーリングよりも優れたパフォーマンスを達成できるということです。
つまり、推論のためのベースモデルとして27Bや671Bを選ぶなら、推論時のスケーリングを最適化する方が理にかなっており、より小さなモデルサイズでも対応できるということです。必要なのは報酬モデルに多くの知性を組み込むことであり、Deepseekはまさにそれを行い、結果を示しています。
これについてさらに詳しく知りたい方のために、SPCTを一文で説明すると：これは私の動画で紹介した強化学習のためのモンテカルロツリーサーチアルゴリズムに非常に似ていますが、モンテカルロのような逆伝播がない代わりに、最後にメタ報酬モデルが完璧な報酬モデル投票を行う点が大きな違いです。
何のことかよくわからない方のために、これはまさにこの動画のための内容です。報酬視覚言語モデル（reward vision language model）や、言語モデルから視覚言語モデルへの最適化、ステップGPOからの強化学習方法論などについて詳しく説明しています。既にこの研究に詳しい方なら「なるほど、すぐに理解できる」と言えるでしょうが、そうでなくても心配いりません。一緒に動画を見ていきましょう。
報酬を生成するためには、異なるモデルがあります。基本的に3つの主要な種類があり、テキスト報酬として一般的な批評を生成する生成モデルがあります。そこから報酬値を抽出できます。もちろん、ポイントワイズとペアワイズがありますが、ここではポイントワイズに注目します。モンテカルロ研究のように個別の報酬スコアが欲しいからです。
適応的な原則という考え方は新しいものではありません。例えば、2025年1月にEntropicが示したように、原則によって報酬の質を高めることができます。彼らは安全なデータパイプラインを構築するためのLLMを導くための手作りの基準について語りました。そして今、これを強化学習に適用します。
これこそが、Deepseekと清華大学の最新論文における天才的な着想です。彼らは「各ユーザークエリに対する原則をどのように生成するか？」と問い、Omni 4を使って原則を生成し、各サンプルに対してポイントワイズの報酬を生成すると述べました。そして、対応する報酬が真実と一致する原則をフィルタリングします。彼らは「これらのフィルタリングされた原則は、ベスト・オブ・ベストだけを見ているので、報酬の質を大幅に向上させ、その結果、視覚言語モデルや大規模言語モデル全体のパフォーマンスを向上させることができる」と言います。非常に素晴らしいですね。
しかし、「この原則とは正確には何で、どのように報酬を与えるのか？」と思われるかもしれません。これこそがすべてであり、Deepseekと清華大学による美しい一枚の図にすべてが表現されています。
これが推論段階です。これが典型的な訓練時間で、こちらがテスト時間、つまり推論時計算スケーリングです。推論時にユーザー入力が入ってきます。ここで注意すべきは、これは言語モデルではなく、報酬モデルであるということです。これは、LLMの内部的なアイデアの中で、因果推論拡張において最善の道を判断するための特殊なモデルです。
原則と批評による推論スケーリングを見てみましょう。例を挙げると、ユーザーから特定のクエリがあります。そして原則1「技術的正確さ」があり、これに30%の重みを付けます。「レスポンスは技術的なステップを詳細に正確に説明すべき」などと述べています。そして別の原則「実践的実装」があります。おそらく、コスト便益比などの原則もあるでしょう。
これらの原則を確立した後、これらは品質を判断するためのガイドラインとなります。そして批評があります。これは内部批評であり、モデルは原則を見て、推論モデルによって提供された多くの回答の一つを分析します。「このリスポンスは良さそうだ」「リスポンス2はリスポンス1より良い」などと推論します。
ここでは並列サンプリングを行うので、LLMは並列に多くの原則と批評を生成します。これはコンピュータインフラストラクチャで美しく並列化できます。こちらには「明確さと編成」という別の原則があります。おそらく、入ってくるクエリには人間の価値観などについての何かが必要かもしれません。例えば生活の質についてなど。数学的な問題であれば、原則に「生活の質」は必要ありません。これが適応的であり、システムが推論の実行中にこれを学習することがわかります。
もちろん、これらの報酬モデルはテスト時ではなく、訓練時に訓練する必要があります。こちらに進みましょう。推論とユーザーからのクエリが入る前の古典的な訓練では、ファインチューニングと強化学習を行います。驚くことではありませんね。
しかしここでは、システムが私の特定のクエリに適用すべき原則の種類を知ることができます。数学的なクエリがあれば、モデルを訓練します。訓練データを与え、「数学的な問題が入ってきたら、これを実行してください。これらはあなたの評価レポートに含めてほしい原則です」と言います。そして批評は「原則に基づいて、これとこれとこれに投票します」というものです。
次に間違っているものや簡単すぎるものを排除し、それを拒否します。これが「拒否的ファインチューニング（rejective fine-tuning）」と呼ばれる理由です。RFは強化ファインチューニングではなく、拒否的ファインチューニングです。そしてオフライン訓練のためのトレーニングデータセットを構築し、それをフィードバックします。
そして、ルールベースの強化学習があります。これはまだトレーニングプロセスの一部です。同じ手順を繰り返し、いくつかのルールで最終的な報酬スコアを得て、オンラインアップデートを行うことができます。これは私たちが知っている古典的なファインチューニングとルールベースの強化学習ですが、今回は報酬モデルのみに適用されることを忘れないでください。これは言語モデルではありません。
報酬モデルがこれを学習したとき、報酬モデルのAI知能がこれを学習したとき、私たちは「はい、これを展開しましょう。これで運用可能になりました」と言えます。そして実際のユーザークエリでリアルタイムに推論実行ができます。
クエリが入ってくると、並列サンプリングが行われます。多くのことが並列に起こり、すべての投票を得ます。そして基本的に2つのオプションがあります。単純な多数決投票システムを使うか、別のAI知能システムを構築するかです。つまり、メタ報酬モデルを作るのです。このメタ報酬モデルは独自の知能を持ち、特定のドメイン（数学や金融、法律、医学など）でトレーニングされています。「投票を見て、これが最良の回答だと思うので、この回答を採用します」と判断します。
スケールで生成された原則によるガイド付き投票により、より細かい粒度の結果報酬を実現します。並列で多くのプローブとサンプリングを行うため、多くの軌跡で値空間や解決策空間を探索できます。拡張された値空間を探索できるのです。ここでの値は、戻ってくる報酬整数や数値報酬です。
これは非常に興味深いですが、いくつかの違いはあるものの、モンテカルロツリーサーチに非常に似ていると考えてください。一般的には、監視付きファインチューニングと強化学習の後に推論があり、古典的なモンテカルロ研究が開始されます。異なるオプションに分岐し、さらに分岐して最終的な答えが得られます。思考の終わりに最終的な報酬信号があり、それをフィードバックし、逆伝播がありました。
今回の大きな違いは、逆伝播がないことです。この「AIエージェント新推論理由QETまたはQレス」という動画を覚えていなければ、モンテカルロツリーサーチアルゴリズムの各ステップで処理報酬モデルを構築しました。非常に興味深いですが、これは今や非常に似ています。
DeepseekによるSPCTを使った推論では、原則と特定の批評を一つではなく複数作成し、別の原則セットとその答えに対する批評を作成し、さらに別の異なる原則セットとそれらの原則に従った回答に対する批評を作成します。二分木を単純に構築するのではなく、大規模に並列化し、これらの原則が検索空間を広げ、批評がこの検索空間のすべての勾配を検索する機会を持ち、これらの空間のいくつかを失わないようにします。
私はLlama 4 Maverickの400億モデル、特にその専門家の混合について動画を作ったとき、これはLlamaにとって機会になるだろうと思いました。Deepseekが2日前に発表したこの新しいアイデア、原則と批評の完璧なセットを、彼らが持つ128人の専門家それぞれの特定の専門分野に合わせて手作りできるかどうかはわかりませんでした。
これは本当に理由あるパフォーマンスジャンプをもたらすと思います。なぜなら、その128人の専門家の一人が数学の専門家で、別の専門家が金融数学の専門家、次が物理学や医学、バイオ製薬の専門家だとします。これらの専門家に最高の原則と最高の批評行動を含む初期セットを提供すれば、新しいLlama 4 Maverickにこれだけ多くの専門家がいることが本当に意味を成すでしょう。これは4000億の事前訓練可能なパラメーターモデルです。ここで本当に推論時スケーリングの初期条件をさらに最適化する、あるいは少なくとも最適化する機会があるでしょう。
核心的な要素に戻りましょう。この転換により、ユーザークエリの入力に基づいて原則を生成できるようになります。数学的なクエリがあれば、原則は数学に基づくものになります。報酬生成プロセスを適応的に調整し、原則の品質と粒度、およびそれに対応する批評を報酬モデルの事後訓練でさらに改善することができます。
スケールで生成された原則により、GRM（Generative Reward Model）はより合理的な基準とより細かい粒度で報酬を出力する可能性があります。これは推論時スケーリングのパフォーマンスにとって非常に重要です。特定のタスクに対してより優れた原則があれば、批評はより的確になり、推論時のスケーリングや計算スケーリングが少なくて済みます。
ユーザークエリの短いまとめとして、古典的なテスト時間と推論時間スケーリングがあります。最初に拒否的ファインチューニングとルールベースの強化学習があり、推論時間スケーリングでは2つの投票オプションがあります。数値報酬による多数決投票か、特定のマ報酬モデルのトレーニングに依存するガイド付き投票を行うメタ報酬モデルを持つかです。
一つのドメインだけで作業している場合、例えば病院のためのAIなら、英語の詩や料理の作り方についてのトレーニングは必要ありません。医学だけに焦点を当てるこのメタ報酬モデルは、一般的なモデルよりもはるかに深い理解を持つことができます。
拒否的ファインチューニングについて話しました。ここではGMが正しい形式で原則と批評を生成します。もちろん、真実と一致しない、不正確または単純すぎる軌跡は拒否します。最良のものを選択するのです。
ルールベースの強化学習については、カーネギーメロン大学によるL1モデルのためのGRPOからLCPOへのステップについて説明した動画があります。これはDeepseekのR1からのGRPOをルール後の結果報酬で使用する点で同じです。GRMは私たちが知っているように原則と批評を生成します。
この研究自体、ぜひ見ることをお勧めします。2025年4月、DeepseekのAI部門、清華大学コンピュータサイエンス学部、および清華大学AI産業研究所による「一般的報酬モデリングのための推論時スケーリング」です。報酬モデルが優れているほど、システム全体のパフォーマンスが向上します。Deepseekは彼らの現在の取り組みを示しています。
本当に驚くべきは、報酬生成プロセスをユーザークエリに適応的に合わせていることです。これが特別なところです。SPCTは異なります。AIに、見ている質問と回答に関連する独自の原則を思いつかせ、それらの自己生成された原則に基づいて詳細な批評を書き、スコアを付けます。
ここでわかるように、ループで改善を繰り返すことができます。推論時間やテスト時計算スケーリングにどれだけお金を使いたいかによって、最適化された自己学習適応システムを実現できます。
動画の最後に簡単なまとめとして、SPCTは報酬モデルの推論時スケーラビリティを向上させます。Deepseekによる素晴らしいアイデアです。そして最終的なメタ報酬モデルがスケーリングパフォーマンスをさらに向上させます。
研究では、パフォーマンスデータと表、グラフが数百あり、0.1%ステップですべての違いを示しています。詳細に興味がある方は研究をご覧ください。私を信じるなら、推論時のスケーラビリティを向上させることが示されています。
以上がDeepseekの新しいアイデアです。GRPOのように、報酬モデルの研究境界についてさらに進んでいます。SPCTは非常に魅力的です。DeepseekまたはChinghua Universityからの中国の友人からのさらなる最適化に興味がある方は、ぜひチャンネル登録して、次回の動画でお会いしましょう。