テスト時強化学習（TTRL）がAIの自己進化を実現する：コードレッド

8,125 文字

CODE RED: TTRL Unlocks AI Self-Evolution

CODE RED: TTRL Unlocks AI Self-EvolutionYou might think that it is a hyped title for my new video. Interestingly, it is ...

こんにちは、皆さん。想像してみてください。新しい「TTRL」と呼ばれる手法で159%もパフォーマンスが向上するとは。信じられますか？
Gemini 2.5 Proを使って、新しいAI研究論文の主な成果について要約してみましょう。PDFを提供して、結果を見てみます。ここに示されているように、パフォーマンスが約159%向上しています。これは信じられないことです。元の論文を見てください。ここにAIM 2024のスコアがあり、確かに159%の向上が見られます。
しかし、待ってください。これはどこかで聞いたことがあるような…。AIM 2024で43.3というスコア、これは私の前回の動画で紹介したものと同じではありませんか？Zero RLの「Luffy」について説明した動画を覚えていますか？異なる正規化を施した最適化されたGPOを見ました。そしてOATというものがあり、それがAIM 2024で43.3を達成していました。
これは論文の中で議論されていたもので、他の強化学習手法と比較した中で、より高度なGRPO実装について話していました。もし既に43.3%を達成していたなら、今回また43.3%を達成したというのはどういうことでしょうか？つまり、これは単に最先端技術を再確認しただけということです。
Luffyについての私の動画を覚えていますか？Luffyは0.7Bの修正により29.5%を達成しました。元々の43から急に31と29になったことを覚えていますか？これは奇妙です。
つまり、0.7Bなしで既に43.3のスコアがあります。そしてAMCを見ると、Luffyで66、彼らの主張では67です。Matt 500では彼らは84を主張していますが、Matt 500では既に88のSAスコアがあります。ここで何が起きているのでしょうか？最先端技術と比較せず、過去半年から1年の間に改善されていない最も単純なベンチマークであるQ 2.5 m 7Bと比較しているだけなのでしょうか？
これは少し後退した認識ですが、突然異なる方法論から同じ43.3と43.3という数値が出てきたことに気づきました。一方はテスト時最適化で、もう一方はGRPO訓練時最適化です。「異なる方法論で同じ上限にほぼ到達したのか？」あるいは「異なる次元から同じパフォーマンスの壁に到達したのか？」という新しい疑問が浮かびました。これは興味深い観点です。
AIが教えてくれる内容はもはや重要ではありません。私のチャンネルは視聴者の皆さんにより価値のある情報を提供しています。AIが教えるパフォーマンスデータは実際の最先端技術ではありません。この論文で本当に興味深いのは新しい研究の異なる視点です。さらに価値のある情報として、オフポリシーのゼロ強化学習のベンチマークを示し、TTRLによるテスト時計算スケーリングと比較します。これにより、訓練済みモデルを使用するべきか、推論スケーリングに進むべきかがわかるでしょう。
この動画の視点が急速に変わりましたが、それこそが興味深いところです。前回の動画では事前訓練、継続的事前訓練、教師付き微調整、そしてGRPO、R1、R1 MAT、R1 Zero、DPO、TPOなどのあらゆる強化学習について話しました。そして今、私たちは基本的に同じ質問に立ち返っています。
以前の動画「強化学習によるAI自己改善は不可能」で、「強化学習が事前訓練済み基本モデルを超えた新しい推論能力を生み出すことは可能か」という問いを投げかけました。人工知能の創発と、突然闇から新たな知性が生まれるという願望です。私の動画をご覧になった方はわかると思いますが、それは単なる願望的思考であり、訓練時計算最適化では実現していません。
そして今、同じ願いを持っています。テスト時スケーリングではどうでしょうか？もしかするとここで何かが起こるかもしれない…希望は決して死にません。
それでは、テスト時RL（TTRL）について詳しく見ていきましょう。正確に言うと、「セルフラベル報酬構造を持つオンポリシーラベルによる強化学習のテスト時計算スケーリング」が正式なタイトルです。
驚くべき天才的なひらめきは、TTRLが事前訓練済みLLMを持ち、入力テストに対してLLMを自己進化させるということです。これはオンポリシーであり、前回の動画をご覧になった方はその意味を正確に理解できるでしょう。
つまり、モデルは各プロンプトに対してn個の解決策をサンプリングし、モデルの多数決によってpラベルを決定し、そのラベルを二値報酬信号に変換し、単純な二値報酬オンポリシー強化学習更新をGPOまたは従来のPOを通じて適用します。
私の言葉で説明すると、言語モデルは1つのクエリに対して複数の推論トレースを生成します。モデルは多数決によって、またはエージェントがいる場合はエージェントに多数決をさせることで、これらの推論トレースの質を自己判断します。そしてモデルは自身の多数決の勝者に報酬信号+1を与えます。モデルはこの+1の報酬信号と勝者の推論トレースを自身のオンポリシー強化学習に自己フィードします。
これが本当に何かに進化するのか疑問に思うかもしれません。もう少し科学的な表現を見てみましょう。
TTRLは自身の複数の推測を小さなクラウドソース注釈プールとして見なします。ほとんどの仮説が「私たちの答えはおそらく正しい」と一致すれば、それは報酬を受けるべきです。逆に、コンセンサスに矛盾する場合はペナルティを受けるべきです。自己参照型報酬関数を繰り返し適用することで、モデルは徐々にコンセンサスになる傾向のある回答に確率質量をシフトさせ、単一サンプルの精度を向上させます。重要なのは、各ポリシー更新後に投票が再計算されるため、監督信号も改善され、正のフィードバックループを形成することです。
この言い回しに感銘を受けたと思いますが、ここで自己参照の例を挙げてみましょう。ある日、私が自分自身に「私は美しいか？」と質問したとします。これはほぼ50/50のチャンスで、晴れているかどうか、近くに鏡があるかどうかによって変わります。ここには真実がありますが、この特定の日には時間の変動があり、「私は美しい」と決めたとします。
この結果に対して強化学習を訓練します。つまり私の脳は「はい、あなたは美しいです」と言います。翌朝、この訓練を受けた脳で朝食テーブルに戻り、「私は美しい、素晴らしいじゃないか」と考えます。そして強化学習を適用します。今や私の脳はこれを自動的に行います。
そして次の日、朝食テーブルに戻り、「私は本当に本当に美しい」と言います。これで外部の真実がフィードバックループに入らない自己生成ループ、自己参照報酬が生まれました。10日目には朝食テーブルに下りて「私は神だ、比類なく美しい」と言うことになるでしょう。
この自己参照フィードバックループには小さな、取るに足らない詳細があるかもしれません。なぜなら「I」モデルに起こることは我々の予想とは異なるかもしれないからです。
何が起きているかというと、拡張を訓練時計算からテスト時計算スケーリングに移動させました。訓練時計算では、サンプル数が非常に重要だと言いました。16サンプルの場合、ベースモデル（緑）が40%、強化学習モデル（オレンジ）が50%としましょう。
我々はこの16サンプルをLLMの学習プロセスのガイダンスとして利用します。今日行っているのは、これをテスト時スケーリングに移行させることです。通常の訓練時計算での強化学習は1ステップだけですが、テスト時では16ステップ行います。
これは同じ壁なのでしょうか？完全に同じではありません。なぜ違いがあるのか、コメントで説明してみてください。
この新しいAI研究論文では、モデルの温度を最大の1に設定すること（例えば0.6ではなく）が出力エントロピーを増加させ、広範な探索力を促進し、自己改善のために事前知識をより活用できるようにすると説明しています。
前回の2つの動画で示したように、訓練データを見ると、オンポリシー強化学習（オレンジ）は温度が上がるにつれて上昇する傾向があります。一方、教師付き微調整（緑）はこの外れ値を無視すれば比較的安定していますが、高温になると少し下がります。
Luffyでも同じことが言えました。0.6までは、新しいLuffyのオンポリシーとオフポリシーを組み合わせたゼロRLは教師付き微調整とほぼ同等でした。これはほぼ同等で、0.6では偶然にもこの出版物でも0.6を見つけます。創造的になるように数学モデルに指示すると、Luffyは増加し、教師付き微調整は数学モデルとして創造的になると（これが何を意味するにせよ）パフォーマンスが低下します。
この効果は新しいものではありません。より高い創造性、より高い不確実性が探索であり、事前知識をより良く活用するという解釈は本当に興味深いものです。これは正しい主張です。なぜなら事前知識は事前訓練された基本モデルであり、推論は事前訓練された基本モデルに基づいていることを我々は知っているからです。前回の動画で見た0.6がこの動画でも見られるのは興味深いです。
出版された詳細な事実を見てみましょう。ここに清華大学と上海AIラボによるTTRL（テスト時強化学習）の研究があります。GitHubもあるので、そこで情報を確認してください。理論を見て、コアアイデアを説明し、彼らが何をしているのか、なぜそれをしているのかを理解したいと思います。2025年4月22日、昨日公開されたものです。
ここで我々は自己ラベル付け報酬による強化学習を行っています。これは、私が例で示したように、いくつかの欠点があるかもしれません。テスト時計算スケーリング中です。
TTRLは、小規模なLLMでも入力のみの難しいタスクで効果的に自己改善できることを示しており、継続的学習を可能にします。ここでまた希望が湧きます。AI自身が継続的学習を通じて無限の知性に達するというものです。
何かが良すぎるように思える場合、それは真実ではありません。清華大学の理論に同意しません。彼らは世界最高の大学の一つであることは知っていますが、なぜ同意できないかを証明したいと思います。
強化学習では、探索と活用のバランスが常に繊細です。懐中電灯で暗い部屋を照らすようなもので、部屋を探索し、対象を見つけたらその推論トレースに集中し、より深いレベルで活用して答えを導き出します。
少し科学的に正確に考えてみましょう。ステップ数Kが8の場合、これは既に継続的学習と言えるでしょうか？基本モデルが30%、オンポリシー強化学習が50%とします。もちろんパフォーマンスの向上はあります。なぜなら、テンソルウェイトとトランスフォーマー層などを修正する訓練プロセスがあったからです。
継続的学習とは思いません。なぜなら、LLMの事前訓練が改善された推論トレースの最も重要な基準だからです。これは非常に小さなQ 2.5 m 7Bモデルで、サンプル数Kが増えるにつれて（256、512など）、基本モデル（緑）のパフォーマンスは60%、70%、80%と上がります。2,000ステップや5,000ステップを取ると、基本モデルは既にこの非常に単純な数学的ベンチマークAIM24の90%近くに達するかもしれません。
十分な時間と試行回数があれば、LLMは暗い場所に懐中電灯を照らして解決策の空間を探索します。256回の懐中電灯のパルスを暗い部屋に照らせば、解決策を見つけるでしょう。この部屋は沸騰する水のようなもので、水分子の代わりに推論トレースがあります。推論トレースは非常に多く、99%は完全にナンセンスかもしれませんが、残りの1%の中には0.00001%の有用なものもあります。
十分な時間を与えれば、基本モデルの事前訓練データにあるものなら80〜90%に達することができます。簡単なタスクであれば。そして今何が起きているかというと、パス8で継続的学習が行われています。8つの異なる回答を実行し、TTRLによる多数決を行い、最良の推論を得ます。これは+1の報酬信号とともにテスト時の古典的な強化学習プロセスに供給されます。
パス8でのパフォーマンスレベルが強化学習後に50%だとします。しかし見てください、基本モデルも少し時間がかかるだけで、同じレベルの精度に達するでしょう。16かそれ以上のサンプルサイズで。つまり、基本モデルがより多くのサンプルサイズを取るだけで到達できるなら、強化学習は全く必要ないということです。
現在の議論は、より多くのサンプルサイズが必要ないということです。モデルを訓練し、システムを自己改善させることができます。モデルが内部テンソルウェイトとトランスフォーマー層を修正し、次の8ステップが始まります。60%に達し、さらに訓練を続けると、基本モデルで64%に達するでしょう。強化学習モデルをどんどん高くしていきます。しかし、基本モデルも強化学習なしで、オンポリシー強化学習なしでこれを達成できるのです。
基本モデルはこのグラフに示されているように、オンポリシー強化学習のパフォーマンスを超えることさえあります。質問は、これが基本モデルを実行させて暗い空間全体、事前訓練された基本モデルの解決策空間全体を探索させるよりも優れた、速い、安価な解決策なのかということです。解決策はそこにあります。見つけるためには多くのサンプルサイズを実行するだけです。
より完全で詳細な解決策をお求めの方は、この動画のサムネイルを見てください。22分40秒のところで、もっと詳しく説明しています。さらに、何がこの美しい暗い線なのか、なぜそれがはるかに強力なのかもお伝えします。
TTRLの著者たちは、問題の難しさが増すにつれて、パフォーマンスの向上とその他のものが減少すると述べています。これは私の理論を支持します。問題がより難しくなると、TTRLのパフォーマンス向上は減少し、失敗します。もちろんです。有効な推論トレースを生成する知識が事前訓練モデルにないからです。したがって、基本モデルにないものをテスト時RLで引き出すことはできません。
強化学習が知性の創発をもたらすという希望は理解できますが、科学者として現実的でなければなりません。小さな一歩で前進し、16Kの結果を8Kモデルに戻すことは可能かもしれませんが、限界があります。彼らも限界があると言っています。
私の動画のサムネイルを見ると、バークレーがこれをどのように研究したか、小さなLLMをR1スマートにする方法をお見せしました。11分12秒のところで、まさに同じトピックを説明しました。中程度の問題、解決が難しい問題、極端に解決が難しい問題がある場合、どうなるかを説明しました。推論トレースの複雑さのレベルが上がると、特定のAIM 25に対して、難しい問題ではモデルが失敗し、より難しい数学的問題を解決しようとすると、モデルはますます失敗します。
対策として、例えば1Kの長いR1スタイルの軌跡で微調整を行う必要がありますが、ここではR1スタイルのポリシーSFTなど、全く異なるものです。しかし、これは異なる次元から見た同じ壁です。
この研究で私が気に入っているのは、彼らが完全に透明であるという点です。TTRLは既存の強化学習アルゴリズムとファンダメンタルに異なるものではなく、データの難しさ・複雑さ・解決が難しい問題への感度、事前知識への強い依存（事前知識とは事前訓練された言語モデルの能力、そこにある推論トレース）、そして崩壊のリスクといった強化学習の特性を継承しています。これはすべて真実です。
彼らは固有の限界を認識しており、前回のLuffyに関する動画では、エントロピー崩壊が起こる可能性とそれを回避するための追加の数学的条件、数学的最適化問題について示しました。これはLuffyで見つけることができます。だから、それは違いはないのです。強化学習では同じ問題があります。
訓練時に推論前に強化学習を行うか、テスト時計算スケーリングで推論時に強化学習を行うかに関わらず、本質的に同じことです。確かに小さな違いはありますが、一般的には同じ強化学習です。
事前訓練からの事前知識への強い依存があることを彼らが言っているのは驚くことではありません。彼らがこれをシステムの継続的自己学習として位置づけたいという意図は理解できますが、私は非常に限られた時間、非常に限られた複雑さの領域でのみそうだと言いたいです。
ステップ数Kを8から16に増やすだけで得られる改善はこれだけです。これを継続的自己学習と呼びたいなら、それでいいでしょう。しかし注意してください、複雑な問題を解決するための推論トレースの非常に狭い領域でのみ有効です。この領域の外では完全に失敗し、無限の継続的自己学習はありません。
論文では言及されていない別の小さな、ほとんど取るに足らない問題があります。それはTTRLの継続的線形誤差伝播です。これがテスト時に、リアルタイムで起こるということです。つまり、モーターツリー探索のような別のブランチを試すことはできません。これは前方向のみであり、誤差伝播の温床です。量子コンピューティングから学び、TTRLを適用するには高度な誤差修正コードが必要かもしれません。
TTRLの実世界応用に関して、論文で言及されていない別の問題も見ています。テスト時計算で完全なRLを行うということは、推論計算中にいくつかの層を凍結するとしても、トランスフォーマーアーキテクチャのテンソルウェイトを修正するということです。特に大きなLLMではかなり大規模でコストがかかります。
もし私がこれを行い、R1モデルの6710億の訓練可能なパラメータでTTRLクエリを開始したいとしたら、数百のNVIDIA H100 GPUまたはBlackwell GPUを用意して、専門家システムのすべての層でテンザウェイトの完全な更新を実行する計算インフラが必要です。そしてこれをリアルタイムで行い、生成される答えを待ちます。これはクエリの複雑さに応じて10分、20分、30分、2時間、5時間、10時間待つだけでなく、すべてのテンソルの更新を計算するために数百のNVIDIA GPUをフルパワーで動かす必要があるということです。
これは公式の出版物には見られないかもしれませんが、個人的な考えとして共有したいと思います。清華大学による素晴らしい論文で、訓練時計算からテスト時計算に移行させることを本当に試みていますが、さらなる制限があることに注意すべきだと思います。モデルを訓練時に一度訓練し、そのモデルにテスト時計算スケーリング、推論スケーリングで別の最適化プロセスを実行させる方が良いかもしれません。
過去1週間の動画はすべて一つのトピックに焦点を当てています。AIをより知的にする方法です。自己学習、自己改善、継続的学習にする希望を理解しています。一度エンジンを起動すれば、後はAIが自分ですべてを行い、もう心配する必要がないという願望を理解しています。
しかし、現実的になりましょう。メカニズムを理解し、理論を理解し、限界を理解し、すべての異なる実験を質問し比較する必要があります。今日の動画の冒頭で見たように、時々同じ限界を発見することがあります。訓練時から来るか、テスト時の次元から来るかは関係ありません。同じ壁に直面します。これは貴重な情報であり、理解することは素晴らしいことです。今、我々はこれらの壁を並行して複数の次元から突破しようとすることができます。より賢くなり、もっと学ぶ必要があるだけです。
次の週が何をもたらすか本当に興味深いです。興味があれば、ぜひチャンネル登録してください。次の動画でお会いしましょう。