驚異の新TTS：再帰的深度/リカレントデプス（新しいトランスフォーマー）

15,355 文字

INSANE NEW TTS: Recurrent Depth (New Transformer)

Overview of TEST-TIME-Compute Scaling (TTS) from a simple search algo with Process reward Models (PRM) and Policy Models...

驚異的な3つのテストタイム学習アイデアについてお話ししましょう。7BのモデルがDeepSeek R1とOpenAI o1を上回ることは可能でしょうか？はい、賢明なテストタイムスケーリングを行えば絶対に可能です。また、1BのLLMという小さなモデルが405BのLLaMAモデルを上回ることも可能なのでしょうか？インテリジェントなTTSを1Bモデルに適用すれば、405Bモデルとの単一のパフォーマンステストでそれが可能になります。
このように、モデルパラメータのスケーリングを超えて、LLMの深い推論能力と計算効率を驚くほど向上させることができます。TTSについて見ていき、TTSの2つの具体的なケースを検討し、最終的に新しいトランスフォーマーモデルを構築します。TTSは3つの新しい研究論文につながっていきます。
以前は、事前学習、教師あり微調整、DPO整合性調整を行い、モデルパラメータのスケーリングのみが選択肢でした。1Bモデルか45B LLaMAモデルかを選ぶだけでした。しかし今は、テストタイムスケーリングを本当のパラダイムシフトとして探求しています。推論フェーズ中に戦略的に計算リソースを割り当てることに焦点を当て、事前学習・微調整済みLLMの本来の推論能力を本当に増強しているのです。
テストタイムスケーリングは推論実行中に行われ、より優れたパフォーマンスを得るために推論プロセスをどのように操作できるか、また1Bという小さな言語モデルが45B LLaMAモデルを上回るために、推論時の計算をどのように最適に配分・管理するかが問題となります。
クエリが与えられ、事前学習済みモデルがあり、テストタイムスケーリングで異なる回答を得ることができます。アイデアは、数学的な方法でこれを考え、特定のクエリに対する可能な解決策がすべて存在する数学的空間としてソリューション空間を構築することです。いくつかの領域には非常に複雑な解決策があり、別の領域は空で、また別の領域にはパズルを解くためのヒントがあります。完全なソリューション空間を探索するために、推論実行時間を改善したり、探索アルゴリズムを改善したり、他のオプションを探ることができます。
私たちのチャンネルの購読者の方々はご存知の通り、特別なクエリに対する最適な解決策を見つけるためにソリューション空間をナビゲートするのに、プロセス報酬モデルを使用しています。最も単純なソリューション空間の解決策は、ベース言語モデルから並列でn個の出力をサンプリングし、学習済み検証器やより具体的には報酬モデルによって最高スコアを獲得したものを選択することです。
私の知る限り、プロセス報酬モデルの起源は2023年5月末のOpenAIか、2024年2月のバージョン3にあります。また2023年には、DeepSeek AIが清華大学、香港大学、オハイオ州立大学と共同で、数学的問題解決の各ステップに報酬スコアを割り当てていました。
プロセス報酬モデルは、中間推論ステップを評価してフィードバックループを作成し、TTSの戦略を導きます。ポリシーモデル（出力を生成するLLM）とプロセス報酬モデルの整合性は非常に重要で、報酬の妥当性と探索効率に影響を与えます。ポリシーモデルの出力とPRMの学習データは、本当に関連性があり一貫している必要があります。
オンポリシーPRMとオフポリシーPRMがあります。オンポリシーPRMはポリシーモデル自身の出力で学習され、正確なステップレベルの報酬を提供しますが、学習のオーバーヘッドが増加します。オフポリシーPRMでは、異なる学習データ分布で学習された異なるLLMを使用するため、分布のシフトが導入されます。例えば、PRMが数学で学習され、ポリシーモデルが理論物理学の場合、数学と理論物理学の間に分布のシフトが生じます。
MistlalベースのPRMとMyal（マイヤル）ベースのPRMは、適切に整合されたDeepSeek PRMと比較して、不正確な短い回答に83%の高い報酬を与えることが分かります。Mistlに対して悪いわけではありませんが、本当のプロフェッショナルモデルではまだ大きなパフォーマンスの向上が得られる余地があります。
本日の最初の論文に移りましょう。1B LLMは45B LLMを上回ることができるのでしょうか？もちろんです。最適な計算テストタイムスケーリングを行えば可能です。上海AI研究所、清華大学、HINが2025年2月10日にこの研究を発表しました。コードも完全にGitHubで公開されています。
彼らのアイデアは単純でした。現在の研究では、ポリシーモデル、プロセス報酬モデル、そして数学的問題の複雑さという固有の問題の難しさがTTSアルゴリズムにどのように影響するかを体系的に分析していませんでした。この分析の欠如がTTS手法の理解と実践的な使用を制限していたため、彼らは詳細な検討を行いました。
これは私が例として挙げたもので、DeepSeek R1とOpenAI o1があり、7BのTTSモデルが論理的・数学的推論の両方でそれらを上回ることができます。これは素晴らしいことです。7Bモデルが671Bの事前学習可能なパラメータを持つDeepSeek o1よりも優れているということです。これはMAT-500ベンチマークで達成されています。
彼らが行っていることを見てみましょう。これは他のほとんどすべてのものと同様に、数学的最適化問題になります。常識で想像できるようなものではなく、純粋な数学的最適化理論です。
問題の定式化を見てみましょう。推論問題をマルコフ決定過程として定式化します。状態空間、行動空間、遷移関数に加えて、報酬関数と特定の割引係数を定義します。プロンプトXが与えられると、パラメータθを持つポリシーは初期行動α1（A1）を生成します。これは初期状態で、ポリシーモデルはS1とA1に依存する特定の報酬を受け取ります。その後、状態S2への状態遷移が行われ、これは2つの文字列の連結を表します。このプロセスはエピソードが終了するまで続きます。
これは私たちのLLMモデル、ポリシー、状態空間、行動空間、報酬関数の相互作用です。初期状態S1があり、LLMによる行動aがあり、特定の状態S1から状態St+1への遷移があり、特定の目標を達成するためのこの行動の有益性を判断する報酬モデルからの特定の報酬があります。
古典的な理論では、2024年からの計算最適テストタイムスケーリングは、特定のプロンプトのパフォーマンス利点を最大化するために、与えられたテストタイム戦略に対応するハイパーパラメータを選択することを提案しています。プロンプトX、パラメータθ、計算予算nを持つポリシーモデルによって生成される出力分布を与えると、θ*は計算予算nを持つ問題Xのテストタイム計算最適スケーリング戦略を表します。
これは純粋な数学的最適化問題で、著者たちは報酬を計算最適TTSに統合することを提案しています。報酬認識の計算最適TTS戦略は、特定の報酬関数とプロンプトに適応する計算最適スケーリングを確保し、実践的なTTSの一般的なフレームワークにつながります。
この数学的最適化により、LLaMA 3の1Bモデルは、数学的500ベンチマークでLLaMA 3.1 45Bと同等のパフォーマンスを達成します。これは不可能だと思われていました。1Bモデルがどうしてこのような小さなものでLLaMA 45Bと同等の計算パフォーマンスを持つことができるのでしょうか。2025年2月中旬、我々はそれを達成しました。
しかし、これは単に時間をかければよいというわけではありません。これは数学的最適化問題であり、計算最適TTSの下で候補解を計算する必要があるため簡単ではありません。1Bモデルは30倍多くの候補解を生成しますが、単に繰り返し同じことを行うのではなく、最適化する必要がある計算最適戦略があります。
より高度なPRMもあり、以前のビデオでQ値ランキングを紹介しましたが、エントロピー正則化など、より高度なPRMモデルもあります。しかし、ここでは計算効率の良いモデルを使用します。
TTSが初めての方のために、主要な要素を説明します。ポリシーモデル（PM）と呼ばれるLLMがあり、これは推論を行うモデルで、問題解決者です。AIシステムに与えられた問題やタスクに対する解決策を生成する主要なLLMです。
このモデルは、標準的な順方向推論や再帰的深度などの内部TTSメカニズムを組み込んだ特定の推論戦略を具現化します。通常、LLaMA 3ファミリーやQ 2.5ファミリーを使用します。
次に、プロセス報酬モデル（PRM）があります。これは2024年の結果報酬モデルとは異なり、密なプロセス報酬モデルです。これは検証者、第二の脳、論理的推論の各ステップにフィードバックを与える外部コーチ、評価者です。
PRMは、ポリシーモデルが示す推論プロセスの質を評価する補助的なLLMで、TTSシステム内の検証者、批評家、報酬関数として機能します。これらは一貫性がある必要があり、同じドメイン知識で学習され、同様のタスクを実行するように学習される必要があります。そうでなければ、PRMの価値は大きく低下します。
PRMsは特に、ポリシーモデルが生成した解決軌道の個々のステップを評価するように学習されます。各ステップに対してスカラー報酬信号を提供し、TTSアルゴリズムに密な報酬信号を与えます。PRM スコアは、最も有望な解決パスを選択し、候補の回答をランク付けする探索ベースのTTS手法を導くために使用されます。
以前のビデオでMOL（多段階最適化学習）ロールアウトに基づくPRM学習を紹介しましたが、より高度な方法を使用する必要はありません。Hugging Faceで入手可能なQ 2.5数学PRM 72Bなど、シンプルなQ 2.5数学PRMを使用できます。数学的結果報酬モデルに加えて、プロセス報酬モデルもあります。Q 2.5をポリシーモデルとして使用する場合、比較可能なデータセット学習の一貫性を持つことができます。
プロセスとは3ステップのプロセスです。まず、ポリシーモデルである LLM が候補を生成します。特定の問題が与えられると、ポリシーモデルは探索ベースの方法論で候補解または解決ステップのセットを生成します。すべての可能な解決策がこの空間にあるという考えの下で、完全な空間を探索します。
ポリシーモデルが各ステップを生成する際、そのステップはプロセス報酬モデルによって評価されます。プロセス報酬モデルは各候補解または各ステップの質を評価し、報酬スコアを割り当てます。
最後に、ビーム探索やベストオブNなどのTTSアルゴリズムは、PRM スコアを使用して選択プロセスや推論プロセスを導き、最も有望な候補をさらに探索したり、自己反省や洗練を行ったり、ベストオブNシナリオでは最終的な最良の回答を選択したりします。
2つのLLMの簡単な相互作用で、同じモデルを使用することも、特定のタスク用に訓練された専門的なモデルを使用することもできます。PRMのガイダンスに従うことで、TTSプロセスは効果的にポリシーモデルの出力分布を改善し、非TTSモデルの標準的な推論と比較して改善されたパフォーマンスにつながります。
適切なポリシーモデル、PRMモデル、完璧なTTSアルゴリズムを選択することで、これら3つの要素の相互作用を最適化でき、1Bから45Bパラメータのモデルと比較して単に驚異的なパフォーマンスを達成できます。
報酬を考慮した計算最適TTSの戦略を見てきましたが、2月10日の論文では、最適化に報酬モデルを統合することが非常に美しい結果をもたらしました。
では、この特定のケースでの計算最適スケーリング戦略の正確な定義について見直してみましょう。これは2024年8月のSnell、UC Berkeley、Google DeepMindの論文です。古いものですが、計算最適スケーリング戦略の形式化に答え、多くのデータを含む素晴らしい論文です。
著者たちは、与えられたアプローチの有効性が、ベースLLMの能力の観点から見た特定の問題の難しさと強く相関することを発見しました。私のクエリやプロンプトが難しければ難しいほど、完璧なTTS最適化を見つけることはより困難になります。
これにより、与えられたテストタイム計算予算の下でパフォーマンスを向上させるための適応的なプロンプト依存戦略を規定する、計算最適スケーリングの概念が導入されました。テストタイム計算予算は、最悪の場合2秒、5秒、数分、3分、5分、10分、1時間など、好きなだけ設定できます。
時間予算または計算予算が与えられた場合、プロンプト依存、複雑さ依存のTTSアルゴリズムの最適な適応戦略を、ポリシーモデルと報酬モデルの組み合わせで見つけます。半年前には報酬モデルがまだ統合されていませんでしたが、結果は驚くべきものでした。
3つのオプションがあります：ベストオブN、PRMを使用して各ステップでトップNのサンプルを選択するビーム探索、そして先読み探索です。これらは異なるPRM探索手法です。
ベストオブNでは、完全な解決策まで進み、検証者がこれが正しい解決策だと判断します。ビーム探索では、完全な最終地点まで進まず、中間解決ステップがあります。並列に4つのパスを進め、検証者がステップ2、3、4、2、4が興味深いと判断し、それらのパスを続けます。
先読みは、ビーム探索に似ていますが、各ステップで3、4、5ステップ先まで予測的にロールアウトし、ロールアウトの終わりのPM値を使用して現在のステップの値を表現します。多くの推測が含まれますが、単一ステップの軌道評価だけでなく、複数ステップの評価が可能です。ただし、将来のPM計算は望むほど正確ではありません。
データを見ると、緑がベストオブN、オレンジと赤がビーム探索、青が先読みを示しています。生成予算が増加し、y軸に特定の数学的ベンチマークのテスト精度（パーセンテージ）を示しています。赤と青、つまりTTSのビーム探索アルゴリズムが最初は最良の解決策のように見えますが、その後先読みが少し上昇し、さらに生成予算を増やすと、重み付けされたベストオブN手法が真の力を発揮します。
これらの手法を比較すると、特定の生成予算や生成時間で一つの最良のモデルがあるわけではなく、これは複雑な問題です。依存関係を理解するために、彼らは難しさビンの分析を行い、最も興味深い2つのモデルであるビーム探索とベストオブNを比較しました。
右に向かって難しさのレベルが増加し、TTSの予算が4から256まで、なんと256の生成があります。パフォーマンスのジャンプが見られ、y軸に同じ数学的テスト精度を示しています。約80%ですが、より高い複雑さに進むと、青が支配的になり、青はビーム探索です。
中程度の難しさの問題では、ビーム探索がベストオブNに対して一貫した改善を示しています。完全に最終解決策にジャンプするのではなく、セグメント毎に進み、特定のビーム探索アルゴリズムを構築することが良い解決策を提供するように見えます。しかし、レベル5でも完全に下がってしまいます。
この論文で達成したことは、すべての数式を詳しく見ると、まず探索を行います。ソリューション空間、つまりボックスを持っていたことを思い出してください。今、私たちは密なプロセス報酬検証器報酬モデル、つまり詳しく見てきたPRMに対して探索を行っています。
モデルの応答分布を適応的に更新できるケースもあり、次のステップとして自己反省PRMに進むことができ、無限の可能性があります。純粋な探索PRMを使用するか、適応的な改良PRMに進むかは自由です。約5分後に比較をお見せしますが、以前にも見たことがあります。
AIエージェントの新しい推論についてのビデオでQとQASを示したときに、まさに同じことを行いました。推論TTSが行われ、最終的なオッズがあり、思考の終わりに最終的な報酬信号だけを持つのは良くないと言いました。MOL探索手法を使用して推論木を構築し、推論木の各ステップでプロセス報酬モデルを使用して、最初の実行でヒントを提供しました。
もちろん、最初はただのP分布、プロセス報酬モデルでしたが、それを最適化でき、正しい解決策に到達するためのステップ1、ステップ8、ステップ12、ステップ15の完璧な方法を決定するのに役立ちます。より or 少し同じですが、異なるツールを使用しています。探索アルゴリズムにも使用しましたが、プロセス報酬モデルにはほぼ同じアイデアでした。
2025年2月中旬、私たちは同じトピックについて円を描いています。私たちはヘリコプターに乗ってこのターゲットエリアの上を飛んでいます。この研究には素晴らしい教訓があり、最後にこれをお見せしたいと思います。
事前学習の計算と私たちのLLMの最初の部分は1対1で交換可能ではありません。彼らは、LLMの能力の範囲内にある簡単から中程度の数学的問題では、テストタイム計算が追加の事前学習を簡単にカバーできると結論付けています。
しかし、1Bモデルのような与えられたベースモデルの能力外にある、より難しい問題では、パフォーマンス向上には事前学習の方が効果的である可能性が高いです。もちろん壁に当たりますが、1Bが405Bを上回れるということは、その壁はかなり遠くにあると言えるでしょう。もちろん壁は存在します。
事前学習が同じレベルの複雑さに達していない場合、TTS推論の複雑さでは、複雑さをわずかに進めることはできますが、限界があります。私たちは両方の手法を見てきました。今、私たちは本当の探索テストタイムスケーリングと改良テストタイムスケーリングの両方を外部TTSテストタイムスケーリング手法と呼びます。
これは実に驚くべきことです。私たちはこれを受け取り、これは素晴らしいと言いますが、トレーニング時に戻ってきて、もしこれが私たちのモデルをより良く推論させ、より多くの推論を行わせるものならば、テスト時のスケーリングのアルゴリズムを最適化する推論プロセスを理解したと言います。そして今、これを最初から取り入れてモデルを構築します。
ここで3番目のテスト時の計算スケーリングを行い、この最適化を実装できる潜在的な数学的空間を構築しましょう。ここで何か問題が起きていることが明らかです。これはもはやテスト時のスケーリングではありません。私たちはここでトレーニング時の計算を行っています。潜在空間は通常のトランスフォーマーモデルにはないので、私たちのLLMの実際のトランスフォーマーアーキテクチャを修正する必要があります。
最も簡単な方法は、リカレントモデル、DDTモデル、ディープシンクモデルを見ることです。すぐにお見せしますが、私たちはトランスフォーマーアーキテクチャにリカレントブロックを追加します。つまり、トランスフォーマーの基本的なアーキテクチャを修正し、リカレントブロックを追加するのです。
これは2025年2月7日の素晴らしい研究で、ドイツのマックス・プランク知能システム研究所、メリーランド大学、ローレンス・リバモア国立研究所によるものです。彼らはこれを「潜在的推論によるテスト時計算のスケールアップ：リカレントデプスアプローチ」と呼びましたが、これは正確ではありません。なぜなら、私たちはテスト時計算の最適化からアイデアとアルゴリズムを取り、一般的なリカレントデプスアーキテクチャを構築し、トレーニング時とテスト時の両方で潜在的推論を適用するからです。
もう少し具体的に見てみましょう。私たちはこのために完全に新しいアーキテクチャを構築します。TTSから得た洞察を活かし、反復計算とコンピュート・スケーリングの能力を言語モデルのコアアーキテクチャに直接組み込んで、新しいトランスフォーマーモデルを構築します。つまり、トランスフォーマー自体を修正するのです。
研究者たちは非常に小さな35億パラメータの事前学習済み言語モデルを構築し、新しいリカレントブロックをアーキテクチャに組み込みました。彼らはこれを適応的リカレンスを持つ言語モデルと呼びました。なぜ適応的なのかは簡単です。リカレンスについて、最新のAI、統計学、理論物理学、コンピュータサイエンスに詳しくない方のために説明すると、これは一種のスパイラルで、推論の中でどんどん深く螺旋状に進んでいくのです。
これはループではありません。ループ以上のもので、推論プロセスの中でどんどん深く、より深く進んでいく実際の改善です。このリカレントブロックはアーキテクチャの一部なので、トレーニング時にもテスト時のスケーリング時にもこのブロックが存在します。これは新しいトランスフォーマーアーキテクチャの本質的な部分なのです。
このブロックをテスト時スケーリングブロックと呼ぶことはできません。これは本来の本質的なブロックで、そこに存在するのです。ですから、これが内部のテスト時スケーリング要素だということを忘れましょう。テスト時スケーリングはこれであって、これはテスト時スケーリングではありません。
マーケティングの正確さには多少の混乱がありますが、私たちが求めているものは正確に分かっています。このリカレントブロックがアーキテクチャの本質的な部分となり、テスト時にはモデルがより長く反復して、より多くの計算を使用し、性能を向上させることができます。
これはテスト時アルゴリズムではないと言うかもしれませんが、見てみましょう。これを明確にしましょう。私たちはこれを適応的リカレンスモジュール、リカレントブロックを持つ言語モデルと呼びます。つまり、すでにトレーニング時の計算でトランスフォーマーを修正しているのです。
これは、深い推論のためのこの種のトランスフォーマーを訓練するための新しいトレーニングアルゴリズム、新しいトレーニングプロセスが必要であることを意味します。そしてブロックは本質的な要素として存在し、それを使用することができます。
しかし、長い思考の連鎖を言語化してテスト時の推論をスケーリングする代わりに、モデルは別のことを行います。モデルは、言語化が行われる前の純粋な数学的状態、潜在的な数学的状態で完全に推論を改善することができます。
通常、テスト時のスケーリングは言語化が行われた後、文章が形成された後に行われますが、そうではありません。私たちは純粋な新しい数学的計算状態にとどまります。そして、このビデオの最後で驚くべき効果をお見せしますが、正確に言えば、これはテスト時の推論のスケーリングではありません。
これを解き明かす一つの方法について、私は何年も考えてきました。私の購読者の一人が、MITやハーバードが行っていることについて、同じことを考えていたというコメントを残してくれました。ループでこれを行うだけで、どんどん深く、より深く、さらに深く推論を進めていく可能性があるという同じ感覚を持っていたのです。
これは彼らが正確に行っていることですが、トランスフォーマーアーキテクチャをそのまま使うのではなく、LLMにリカレントユニットを追加します。このユニットはループで動作しますが、実際にはスパイラルに近いものです。
つまり、反復的に処理を行い、隠れ状態を更新し、ほぼ無限に計算を継続できるようにします。これが主なアイデアです。トランスフォーマーアーキテクチャに、考えることだけを行うリカレントブロックを持たせるのです。他には何もせず、ただ思考、思考、思考を繰り返すだけです。
しかし、このブロックをどのように構築し、どのような要素で構成するのか、それが興味深い点です。このブロックがあれば、テスト時、推論時に、モデルは潜在空間でのリカレント推論を通じて性能を向上させることができます。これは追加機能であり、これが35億パラメータのリカレントデプスモジュールブロックを持つモデルが、500億パラメータのモデルと同等の数学的推論性能を持つことができる理由です。
突然、テスト時計算スケーリングからの洞察を、トランスフォーマーアーキテクチャ自体の最適化に活かすことができるようになりました。これは数学的空間で、この空間内の特徴を分析することができます。数学的な側面に興味があれば、これを行うことができ、この空間で何かが起きていることが分かります。
より深く、さらに深く推論を進めていくと、この純粋な潜在的数学空間に対称性が現れ始めます。特に数値計算を行う場合、完全に新しい理論が生まれています。私のような愚かな人間には理解が難しいですが、数学のPhDを持っている人なら、純粋な数学理論にこれをサポートする要素があることを知っているでしょう。これについては後のビデオでより詳しく説明します。
さて、モデル自体を見てみましょう。リカレントブロックをどのように構築するのか、できるだけ正確に説明するためにスクリーンショットを用意しました。モデルは主にデコーダーのみのトランスフォーマーブロックを中心に構成されています。GPTモデルのように、これらのブロックは3つの機能グループに構成されています。
音楽のように、始まりがあり、これをプルートと呼びます。そして音楽の終わり、コーダーがあります。これが音楽の終わりです。つまり、始まりと終わりがあり、信じられないかもしれませんが、真ん中にも何かがあり、これをリカレントブロックと呼びます。
プルートは単純で、入力データをトランスフォーマー層を使って新しい数学的空間に埋め込みます。リカレントブロック自体は、数学的空間を確立した後の中心的な計算ユニットとなり、すでにお見せした式のように、状態を計算し修正します。全ての計算が終わると、コーダーの最後で結果を潜在空間から取り出し、予測帽子を使って言語化に戻します。
特別な要素は、このリカレントブロックで推論のスパイラルを下っていけることだけです。簡単に言えば、最初のステップであるプルートでは、データを新しい数学的空間に埋め込みます。次に、リカレントブロックで潜在空間内のデータを計算し、最後に人工的な数学的空間、潜在空間からデータを取り出して、言葉や文章に変換し直すのです。
各ブロックには複数の層があり、各層にはROPEを使用する標準の因果的自己注意ブロックと、ゲート付きMLPがあります。また、正規化関数として古典的なRMSノルムを使用します。特に興味深いものはありません。自己注意ブロック、位置エンコーディング、MLP、正規化関数があり、すべて通常通りです。
しかし、トランスフォーマーにリカレントブロックを入れるというアイデアはどこから来たのでしょうか。これは一晩で思いついたわけではありません。申し訳ありませんが、これには何年もの開発と何百人もの人々が関わっています。
私の humble な意見では、このアイデアはリカレントニューラルネットワークや、いわゆるディープシンキングネットワークに関する文献から生まれました。当時の原論文を入手するのは非常に困難です。2023年の論文のほとんどが出版社のペイウォールの向こう側に消えてしまいました。
ここには2024年の会議論文の二重ブラインドレビュー下にある論文しかありませんが、これは2023年のシールドらによる、リカレントニューラルネットワークの最新の発展についての論文です。シールドはDTネット、ディープシンキングネットワークの主要な研究者の一人で、リカレントブロックの理論のほとんどがそこから生まれました。
私は2020年、2021年頃からシールドの論文を読んでいました。これは2023年のものです。つまり、何らかのコンソーシアムで5年間の研究が行われ、すでにこの道を準備していたことが分かります。先行研究から、DTネットが任意のサイズの問題を解決できる拡張可能なアルゴリズムプロセスを学習できることが明らかになりました。
これは小さな例でのみトレーニングを行った場合でも可能です。これは魅力的なアイデアでした。これがどのように可能なのかという疑問が、研究のきっかけとなりました。DTネット自体は素晴らしい理論で、深く掘り下げることができますが、ほとんどすべてがペイウォールの向こう側にあります。
シールドのアーカイブPDFリンクを見つけたら、コミュニティのためにここの説明にリンクを貼ってください。そうでないと、二重ブラインドレビューでしか見ることができません。このリカレントデザインは、安定した反復演算子を学習するために必要な最小限のセットでした。
新しいトランスフォーマーのメイン要素としてリカレントブロックを採用した理由について、彼らは素晴らしい例を示しています。関数のグラデーントディセントを考えてみてください。Xが関心のある変数で、Yがデータではないとします。
この関数のグラデーントディセントは、初期のランダムな状態xコアサーから始まり、最適化する関数のグラデーントという単純な数学的操作を繰り返し適用します。これは前のデータxコアKとデータYに依存します。関数を実際に最適化するには、各ステップでYを使用する必要があることに注意してください。同様に、リカレンスの各ステップで入力Eを繰り返し注入します。グラデーントディセントの例から、リカレントブロックを使用する場合、このブロックに入力を継続的に供給する必要があることが分かりました。これ自体が興味深いことです。
リカレントブロックについて少し深く掘り下げると、アダプターマトリックスがあります。リカレントブロックはまず、現在の状態s iusワンと入力埋め込みeの連結を受け取るアダプターマトリックスを使用します。この操作は、結合されたベクトルをモデルの隠れ次元にマッピングします。
この連結は、加算やその他の方法に比べて、最も良く機能することが分かっています。アダプトの後、出力は複数のトランスフォーマー層を通過します。これらの層は特定のサンドイッチ形式で構成されています。位置エンコーディングにROPEを使用する古典的な注意サブレイヤー、MLP、安定化のためのノルムがあります。特に特別なものはありません。最後に別の正規化層があります。
ROPEについて不確かな場合は、私のチャンネルでROPEを検索してください。2つのビデオがあります。100Kコンテキスト長までのROPE位置エンコーディングと、100万トークンまでのものです。このリカレントブロックは、先ほど説明したように、トランスフォーマーの本質的な部分です。
トレーニングフェーズでこれを使用し、学習後のテスト時スケーリングでも別のリカレントブロックを使用できます。トレーニングフェーズでは、統合されたリカレントブロックはトランスフォーマーの計算グラフに組み込まれ、前の状態と入力埋め込みeを組み合わせて潜在状態sを反復的に更新するために使用されます。
トレーニング中、反復回数、つまりスパイラルを下る回数は対数正規分布からランダムにサンプリングされます。この可変性により、モデルは異なる計算の深さを扱う方法を学習し、効果的にさまざまな量の計算で考えることを教えられます。
テスト時スケーリングでは、推論実行時に同じ学習済みリカレントブロックを展開しますが、トレーニング中に通常使用する以上の反復を実行することを選択できます。20回や25回、30回を追加することもできます。
この拡張展開により、モデルはより深い推論のために追加の計算を割り当てることができます。コムブロックはトレーニング中にアクティブなため、モデルはテスト時の計算をスケーリングする際の反復回数の変更にもより堅牢になります。
標準のトランスフォーマーモジュールのように動作しますが、トレーニング中に学習した思考、推論、計算の拡張された深さを持ちます。再度強調しますが、トレーニングパフォーマンスは主要な要因の一つです。良いトレーニングを行えば、良い推論実行が得られます。
テスト時スケーリングという言葉は、ここで起きていることを正確に表現していないかもしれません。私たちはトランスフォーマーのアーキテクチャ要素を使用して、このスパイラルを30回下降させることができます。これはある意味でスケーリングの一種と言えるかもしれません。
トレーニングデータについて、彼らはすべてをオープンソースにし、事前トレーニングデータのすべてを提供しています。メインモデルのために約8000億トークンの事前トレーニングをスケジュールすることができます。
GitHubリポジトリに行けば、Apache 2ライセンスの下で、すべてのデータ、レシピ、トレーニングルーチンがあります。トークナイザー、ダウンロード、パーファイル、すべての詳細が美しくドキュメント化されており、最終モデルはhugging face 0125にあります。hugging faceで見つけることができるのは素晴らしいことです。
個人的に興味深いと感じたのは、8000億トークンでトレーニングされたことではなく、AMDのAIマシン、Mi 250Xでトレーニングされたことです。新しい300ではなく、古い250Xです。新しいトランスフォーマーモデルをNVIDIA GPUだけでなく、AMD AIマシンでトレーニングし始めたのを見るのは興味深いことです。
このビデオを準備し、皆さんに説明するにあたって、私も多くのことを学びました。TTSの3つの異なる軸、3つの異なるモデルについて話してきましたが、最も単純なものから見てみましょう。
最初の2つは、PRMsを使用した検索ベースのTTSと、PRMsを使用した改訂ベースのTTSです。異なるメカニズム、ロールプロセス、アナロジーが見られます。検索は単純で、複数の独立した候補解を並行して探索します。改訂ベースは、自己修正、自己改善を通じて単一の解を反復的に改良します。
これは見事に行われますが、もちろんPRMが必要です。PRMは提示されたすべての改訂から最良の改訂モデルを選択し、これが黄金の道であると選択します。地図のアナロジーで説明すると、PRMsを使用した検索ベースのTTSでは、PRMの専門家フィードバックに導かれて地図上の複数のルートを探索します。
改訂ベースでは、PRMの専門家フィードバックに常に導かれながら、単一のルートを反復的に改良します。成功しない場合は別のステップに戻り、別の方法を見つけることができます。これら2つのTTSのどちらを選択するかは完全にあなた次第ですが、この特定のタスクのPRMsはhugging faceから慎重に使用する必要があります。
3番目の軸、3番目の方法論である誘導方法論は、潜在的推論を使用します。これはテスト時の計算を拡張することで、推論タスク、深い推論、複雑な推論タスクのパフォーマンスを劇的に向上させます。
これはTTSアルゴリズム自体によってではなく、新しいトランスフォーマーの本質的なアーキテクチャ要素であるリカレントブロックを活性化することによって行われます。著者たちの原文の言葉で終わりましょう。
彼らは「これにより、潜在的推論がテスト時計算スケーリングの既存のアプローチを補完する有望な研究方向であると信じるようになった」と述べています。つまり、これは私が示した他の2つの方法論を補完するものなのです。
実際に3つの異なるバージョンがあります。純粋な検索ベース、改訂ベース、そしてこれらのハイブリッドバージョンを持つことができます。しかし、リカレントブロックのトレーニングフェーズを適切に行えば、第3の最適化問題が開かれます。
モデルの追加パフォーマンスを得ることができますが、これはほぼ数学的な概念実証に過ぎなかったことを伝えておきます。彼らが構築した35億パラメータのモデルは、私の単純な言葉で言えば、概念実証に過ぎません。
これはまだ確立された知識ではありません。私たちはこれを探索し始めたばかりで、直面する問題についてはまだ分かっていません。しかし、この方法論は本当に興味深く、この新しいトランスフォーマーアーキテクチャには本当に興味深い側面があるようです。
もちろん、マイナス面として、これらのマイルのトレーニングフェーズを再び開始する必要がありますが、純粋なトレーニングデータの複雑さを減らすことができます。しかし、ここで最初の問題が出てきます。複雑さをどこまで減らすことができるのでしょうか。
著者たちは、トレーニングフェーズの複雑さをかなり大幅に減らすことができると主張していますが、私はそうは思いません。どこかに閾値があると思います。単純すぎると、モデルは積分形を発見したり、微分方程式を解いたりすることができません。突然、加減算だけでは不十分になります。
これは将来、絶対に魅力的なものになるでしょう。これらのトピックを見てみませんか？これらの論文を読んでみませんか？これは今週起こったばかりなので、来週には次の論文が出るかもしれません。
知っておくべきことは、テスト時計算スケーリングには3つの異なる軸があり、2つは確立されており、3つ目は全く新しい、新しいトランスフォーマー、新しい概念実証だということです。未来は本当に興味深いものになります。
このビデオをもっと見たい方は、ぜひ購読してください。