スケーリングRL: 3BのAIと長いChain-of-Thoughtおよび4つのパターン

AGIに仕事を奪われたい
この記事は約15分で読めます。

8,446 文字

Scaling RL: 3B AI w Long Chain-of-Thought & 4 Patterns
In summary, these two new AI research studies (see below), while differing in experimental setups and focus areas, colle...

こんにちは、コミュニティの皆さん。今日は私の3BのAIモデルを改良していきます。一緒に見ていきましょう。より良い因果推論のために改良を行い、新しいフレームワークを発見します。今回の作業は2つの新しいAI研究論文に基づいています。
あなたは「なぜ3Bなの?大きいモデル、45億のパラメータを持つ事前学習可能なモデルを使うべきでは?」と思うかもしれません。あるいは「蒸留バージョンを使って、そこから整数量子化バージョンに下げるべきでは?」と思うかもしれませんね。
いいえ、サイズはもう重要ではないのでしょうか?今日は新しい研究を紹介します。同一の強化学習トレーニングの下で、Q1 3BがAL LL 3Bを大幅に上回ることを発見しました。これにより、パンドラの箱が開き、どのような言語モデルの本質的特性が、高度なAI推論のために自己改善を可能にするのかという問いに答える必要があります。
まず、新しいフレームワークを紹介します。言語モデルにおいて拡張推論プロセスを誘導し、安定化させることが非常に重要です。現在、多くの要素を活用しています。教師付き微調整、詳細なチェーンオブソート(推論連鎖)データ、慎重に設計された報酬関数を持つ新しい強化学習、そして新しいデータソースへのアクセスが必要になります。これらすべてを組み合わせることで、複雑な推論タスクにおけるモデルのパフォーマンスが大幅に向上します。3Bでこれを実現できるでしょうか?はい、できます。
「待って、YouTubeで他の人がやっているような、PPOからグループ相対ポリシー最適化へと移行するようなトリックをしようとしているんじゃないですか?」と思われるかもしれません。もちろん違います。これについて学びたいなら、Hugging Faceの2025年2月7日に公開された美しい記事「POとGRPOの違いを理解する」をお勧めします。
「待って、あなたは今、価値最適化を発表しているのですか?長いチェーンオブソートでPO崩壊があるから?これが私たちに提示されたソリューションなのですか?」と思われるかもしれません。素晴らしいアイデアですが、いいえ、それは今日話したいことではありません。
今日は言語モデル、特に大規模言語モデルにおいて拡張推論プロセスを誘導し安定化させる新しいフレームワークについて話したいと思います。以前の美しい動画から理解したように、LLMには知能の創発や超知能、一般知能はなく、単にパターンベースの論理があるだけです。そのため、改良された推論のために私たちのモデル(ビジョン言語モデル、大規模言語モデル、基盤モデル、推論モデルなど)に新しい論理パターンを導入する古典的なルートを進みます。それは単純な論理的手順になります。
今日は二つのAI研究の流れを統合します。少し楽しみましょう。退屈な動画ではなく、大規模言語モデルの因果推論を強化したいと思います。二つの新しいアイデアがあります:拡張されたチェーンオブソート推論の安定化(長いチェーンオブソート軌跡の不安定性を防ぐため)と、構造化された認知行動の自己改善推論器です。3Bモデルの因果推論のための強化学習を改善するための4つの前提条件をお見せします。
サイズではなく、全く異なるものが重要であることがわかります。データとアルゴリズムの背後に何かが隠れており、おそらく私たちは間違ったアルゴリズムを使っているのかもしれません。これを探求していきましょう。
私の緑のグラスが見せるのは非常に簡単です。長いチェーンオブソートを安定化させて不安定性をなくす方法を見て、その後、特に長いチェーンオブソート因果推論のために4つの新しい論理パターンを追加します。それだけです。
この研究は清華大学とKaggle大学による美しい研究と、スタンフォード大学による研究です。さあ、始めましょう。
パンドラの箱を開くとき、私たちが行っているのは事前訓練、スーパー監視下での微調整、強化学習、そして全ての美しい推論モデル(O1、O3、R1など)です。そこではテスト時の計算スケーリングを行い、20秒から5分待つだけで素晴らしいものができます。
まず、ベースモデルでの推論行動を発見することが、それ以降の強化学習による改善にとって不可欠です。また、長いチェーンオブソート推論に関して、それがいつ本当に現れるかという3つの条件を調査します。次に、推論コンピュータまたはテスト時コンピュータの増加に伴うそれらの長いチェーンオブソードのスケーリング動作を見ていきます。そして、私たちの特定の強化学習における報酬設計の影響を調べると、古典的な報酬モデルが最適ではないことがわかります。
最終的には、これらすべてが言語モデルの事前訓練データに大きく依存することを理解するでしょう。これは非常に魅力的です。
長いチェーンオブソートは、より洗練された行動を示す拡張された推論トークンのシーケンスを表します。ここでは4つの新しい要素を見ていきます:分岐とバックトラッキング、エラー検証と修正、そして自己修正です。
AIは体系的に複数の経路を探索します。これはAOL研究から知られている分岐です。特定の経路が間違っていると判明すると、以前のポイントに戻ります。これをバックトラッキングと呼びます。次に、モデルは中間ステップでの不整合や間違いを検出し、一貫性と正確性を回復するための修正行動を取ります。これがエラー検証と修正です。
強化学習手順はこれらの能力を開発するための重要な方法として浮上していますが、K大学の研究者が示すように、長いチェーンオブソートが現れる条件はまだ不明確です。今日はこれを調査します。強化学習トレーニングには、特に選択する報酬関数という慎重な設計選択が必要です。これが重要な要素です。
また、テスト時の計算スケーリングも私たちのLLMの推論を強化します。OpenAIのO1やO3、O1などの長いチェーンオブソードにより、バックトラッキングやエラー修正などの戦略が可能になっています。
両方の研究は同じトピックに焦点を当てています。最初の研究は長いチェーンオブソートが出現する条件と、安定したAIシステムを構築する方法を調査し、二つ目の研究は長いチェーンオブソートの主要な要素と最も重要な事実を調べています。4つのポイントがあります。
私たちはトレーニング計算とテスト時計算スケーリングの両方に取り組んでいます。TTSはかつてはテキスト読み上げの略でしたが、今ではテスト時計算スケーリングを意味します。
推論能力はトレーニング計算の増加とともに現れる傾向がありますが、その発展は保証されていないため、報酬形成が長いチェーンオブソートの長さの安定化に重要です。そうでないと崩壊して意味のない内容を生成するかもしれません。
エラー修正などのコア能力は一部のベースモデルに本質的に存在します。私はそれが存在する2つのベースモデルと、トレーニングデータに存在しないベースモデルをお見せします。複雑なタスクに対してこれらのスキルを効果的に奨励するには、強化学習を通じて大きな計算力が必要です。
重点が置かれているのは、長いチェーンオブソートデータによる教師付き微調整が、強化学習を追加した場合に得られる後続の利益をどのように改善するかということです。すべてが美しい複雑さで絡み合っています。
教師付き微調整と長いチェーンオブソートデータについて見てみましょう。通常、私たちが知っている問題は短いチェーンオブソートデータですが、数学、物理学、化学、科学などの本当に複雑なトピックには、より長い推論の流れが必要です。
この論文では、研究者たちはQWQ 32Bプレビューと呼ばれるマスターモデルと棄却サンプリング技術を使用して、高品質な長いチェーンオブソートデータを生成しました。このトレーニングデータはベースモデルのトレーニングに使用されます。
教師付き微調整モデルができると、これが強化学習プロセスのための重要な初期化状態になります。別の中心的な仮説は、長いチェーンオブソートトレーニング例を使用した教師付き微調整が、強化学習プロセスにとって本当に良い開始点、有益な初期化ポイントを作成するということです。この初期化により、生のベースモデルや短いチェーンオブソート推論チェーンから始めるよりも、後続の強化学習がはるかに効果的になります。
清華大学とK大学の2025年2月の論文によると、長いチェーンオブソートが出現し安定した形で現れる条件はまだ不明確です。長いチェーンオブソートについて知っていると思っていても、もう一度考えてみてください。強化学習トレーニングを適用する場合、通常の報酬トレーニング手順では機能せず、報酬システムを修正する必要があります。
簡単に見ていきましょう。まず、長いチェーンオブソートデータ生成のための教師付き微調整です。高容量のティーチャーモデルが高品質な推論トレースを生成し、このトレーニングデータを使用します。短いチェーンオブソートデータと比較すると、長いチェーンオブソート教師付き微調整は数学的ベンチマークなどでより高いパフォーマンスにスケールすることが示されています。
教師付き微調整チェックポイントができたら、それを強化学習最適化の初期化に使用します。そして新しい報酬関数、コサイン報酬関数が必要になります。これは興味深いですが、非常に特定の形式があります。長いチェーンオブソートケースで求めているものを達成するコサイン報酬関数の形式と機能がわかります。
パフォーマンスデータを見ると、短いチェーンオブソート(従来の簡潔な推論トレース)と長いチェーンオブソート(拡張された詳細な推論軌跡、数学的問題のために高容量ティーチャーモデルから蒸留されたもの)の2種類が比較されています。
様々なベンチマークで、青色が長いチェーンオブソートのパフォーマンス、オレンジ色が短いチェーンオブソートを示しています。これはLlama 8Bで行われ、すべての教師付き微調整トークンと強化学習を行うと、青色が常に優れていることがわかります。
最初の研究のまとめとして、教師付き微調整と強化学習の特定のルートを通じてモデルのパフォーマンスが大幅に向上します。長いチェーンオブソートで微調整された教師付き微調整モデルは、短いチェーンオブソートデータと比較して数学的ベンチマークで高い精度を達成します。
これらのモデルがさらに最適化されると、強化学習による追加の利益が観察されます。チェーンオブソート長の成長を安定させ、暴走的な繰り返しを防ぎ、追加の推論ステップが答えに意味のある貢献をすることを確保するための特定の報酬関数が必要です。
長いチェーンオブソート教師付き微調整初期化からの口頭アライメントは、他のすべての強化学習方法論をベースモデルから大幅に上回り、推論パターンの開始点としての重要性を強調しています。
「構造化された推論パターンだけが重要なのでは?」と思うかもしれませんが、最も重要な単一の要素は何でしょうか?スタンフォード大学の3月3日(私にとっては2日前)の第二の研究に移りましょう。
彼らは「Q3Bが同一の強化学習トレーニング方法論の下でLlama 3Bのパフォーマンスを大幅に上回る」と述べています。なぜでしょうか?2025年3月、ついにLlamaが複雑な推論タスクでパフォーマンスを発揮しない理由がわかりました。
数学的パズルやカウントダウンゲームの環境で、彼らはQ1がLlamaよりも優れている特定の行動を探しました。そして推論プロセスにおける自己改善を解き放つ鍵として、検証、バックトラッキング、サブゴール設定、後方連鎖という4つのトピックを発見しました。
この自己改善する推論AIの研究は、4つの重要な「認知行動」を特定しました。AIシステムが中間ステップを体系的にチェックする検証、失敗した解決法を修正して放棄するバックトラッキング、複雑な問題を管理可能な中間目標や小さなサブタスクに分解するサブゴール設定、そして問題の初期条件に戻って望ましい結果から作業する後方連鎖です。
これらは簡単に計算、定義できる4つの論理パターンであり、システムにこれらの行動を訓練し、期待することができます。これらの4つのシステムにより、3Bモデルの推論パフォーマンスが大幅に変わり、45Bモデルさえも上回ることができます。
スタンフォード大学は数学的カウントダウンゲームなどでQ1 3BとLlama 3Bを比較しました。興味深いことに、Q1は訓練でこれら4つの行動を示しましたが、Llama 3Bは初期にこのような行動が不足していました。
モデル出力における認知的推論行動の初期存在がQ1 3Bのように効果的な自己改善のために重要であるという初期の仮定があります。モデルがこの行動を示すと、追加の計算を活用してより複雑な問題を解決できます。
3Bパラメータモデルを使用する場合、Llamaではなく、事前訓練フェーズでこれら4つの行動を訓練されたモデルを選択することが重要です。データからは、QWANは検証とバックトラッキングで何か起きていることがわかりますが、Llamaモデルはこれらの行動を全く示しません。
ベースモデルに依存することが非常に興味深いです。彼らは一般的なベースライン推論パターンを分析し、3Bモデルだけでなく70Bモデルも含めました。結果は驚くべきものでした。
Q1ベースは本当に優れており、他のすべてを上回っています。Llama 3Bは検証とバックトラッキングがほとんどなく、サブゴールはわずかに、後方連鎖は本当にありません。70Bモデルを使うべきなのか、効果的なのか、より多くのパフォーマンスをもたらすのかという問いに対して、因果推論の重要な要素については、サイズは問題ではありません。Llama 70Bは3B QWANに大差をつけられています。これは事前訓練とトレーニングフェーズにいくつかの本質的な違いがあるためです。
スタンフォードは純粋な事前訓練データセットも調べ、強化学習は既に存在するシステムの特定の行動のみを増幅できると述べています。もし望むアラインメント最適化のために強化学習で増幅したい行動がなければ、数学的推論のための効果的な学習プロセスの前提条件となるQ1 3Bのような初期行動が必要です。
強化学習は効果的な学習の前提条件となる行動を増幅するため、事前訓練段階に依存し、良い3B QWANベースモデルは70B Llamaモデルを上回ります。サイズは重要ではないのです。
3Bモデルやローカルモデルを最適化したい場合、良いデータセットが必要です。最良のデータセットは何でしょうか?事前訓練データセットを見ていきましょう。多くの視聴者が「大企業が提供するモデルを使うだけで、微調整や強化学習プロセスを適用したくない」と言いますが、これは素晴らしいことです。
しかし、パフォーマンスを求めるなら、クライアントのために行うなら、他の人と競争するなら、教師付き微調整と特に強化学習手順に進んで、特定のタスクやクライアントのタスクに最適化する必要があります。無料で提供されるモデルや、O3などの有料モデルだけでは、あなたのタスクに最適なパフォーマンスシステムにはなりません。
事前訓練データ、本当に最初のデータを見てみましょう。彼らはモデルの事前訓練データにおけるこれら4つの特性の行動を調べました。数学と数学的推論と因果推論に関して、最も有名で重要なトレーニングデータセットであるOpenBap MatとFine Matを調査しました。
彼らはこの事前訓練データセットで分析した結果、バックトラッキングや検証などの認知行動は友好的に形成されているものの、頻度が低いことを発見しました。つまり、標準の事前訓練は推論に不可欠なこのパターンへの露出が限られていることを示唆しています。
言い換えれば、すべての標準データセットは失敗しており、スタンフォード大学が研究で改善された推論プロセスに不可欠だと特定した4つの特性を統合していません。トレーニングデータセットにそれが存在しないため、Llamaのようなモデルはそれを示しません。
これらの小さな3Bモデルは研究にとって非常に価値があり、ベースモデル、微調整、強化学習で研究を実行し、実験することができます。3Bモデルは因果推論で優れたパフォーマンスを発揮し、プロプライエタリモデルを上回ることがわかります。
これは純粋な挫折を意味します。事前訓練データの質がシステムの完全な行動を決定し、教師付き微調整、強化学習、テスト時計算スケーリング、高度な推論などに影響します。AIの推論に関するこの動画で示したように、強化学習のために山のような構造を構築できますが、本当の原因は事前訓練データ、トレーニングデータセットの質にあります。
今日の学びは、適切な事前訓練データセットをモデルに提供するだけで、3Bモデルを極端に改善できるということです。モデルのサイズではなく、次世代のAIを構築するための知性と洞察力が重要です。数学、金融など、どこで働いていても、論理や因果推論のために最適化された事前訓練データセットが必要です。Q1はそれを持っていて、Llamaは持っていないというスタンフォード大学の見解が興味深いです。
二つの研究に取り組みました。過去1ヶ月間に自己改善と推論に関する70以上の研究を見てきましたが、特定の理由でこの二つの研究を選びました。これらは美しく絡み合った洞察を持っています。一つの研究だけでなく、二つの研究を組み合わせることが重要です。
両方の研究は、明示的な推論戦略がモデルのパフォーマンスを向上させるための強化学習を活用する上で不可欠であることを確認しています。4つの要素を持つ認知行動としても、拡張されたチェーンオブソートプロセスとしても、それらは互いに依存し、必要としています。両方の研究からの洞察は互いを補完します。
両方の研究は、テスト時の計算の増加と適切なコンテキストウィンドウサイズがモデルにより深い推論パスを探索できるようにすることを強調していますが、適切な報酬制御なしでの過度の長さには注意が必要です。これはシステムの不安定性につながり、長いチェーンオブソート推論でナンセンスを生成することになります。この不安定性を回避するために、適切な報酬制御が必要であり、強化学習トレーニング手順に適用すべき新しい報酬関数を示しました。
これらの統合された研究は、言語モデルの推論を強化するには、明示的な認知行動をパターンとして誘導し(AIはパターンしか学習せず、知能の創発はない)、拡張されたチェーンオブソート推論によってそれを可能にする必要があることを示しています。検証、バックトラッキング、サブゴール設定、バックトレーニングという4つの行動が強化学習を通じた自己改善にとって重要です。
教師付き微調整も忘れないでください。長いチェーンオブソートデータによる教師付き微調整は高いパフォーマンスをもたらし、強化学習手順を行うとさらにパフォーマンスが向上します。
清華大学とスタンフォード大学の両チームは、構造化された推論がAIにおける高度な問題解決の要であるという中心的な洞察に収束しています。これは前回のプリンストン大学による推論フラックスに関する動画で示した主要なアイデアでした。因果、スタンフォード、プリンストン大学は高度な問題解決のためのこの構造化された推論に収束しています。
未来の改良された言語モデルの真の力は、より多くのデータや入力だけでなく、それらのモデルがどのように推論するかにあります。線形ではなく、多次元を持ち、もちろん成長構造である詳細な特定の推論パターンやテンプレート構造を提供すれば、推論LLMのパフォーマンスを最適化し、最終的な答えの正確さを向上させることができます。
彼らはモデルに推論方法を提供し、その中に不正確なデータを含めることさえしました。しかし、モデルは正しい形式で学習し、不正確なデータでも他のタスクで正しい解決策に到達できました。AIシステムが特定の状況で従うべき推論パターンを理解したからです。個々のデータポイントの正確さではなく、「考え方を教えて、推論方法を教えて」ということが重要です。
「3Bのローカルモデルを改善する方法」という私の単純なタスクでさえ、昨日や一昨日のAI研究文献から多くの新しいアイデアを得ることができ、すぐに推論能力の改善を始めることができます。購読していただければ、来週何が起こるか一緒に見つけることができます。

コメント

タイトルとURLをコピーしました