
6,666 文字

私たちはこのパラダイムが、大規模言語モデルが自律的に超人的な推論能力を達成するための有望なステップを表していると考えています。人間はもはや人工知能のトレーニングに必要ではないかもしれません。中国の研究者たちは、大規模言語モデルが実際に自分自身のトレーニングデータを作成し、それから学習し、時間の経過とともに向上できることを示しました。
これはAI学習の聖杯です。そして人間が介在しなければ、AIは指数関数的に向上する可能性があります。こちらが論文です。「アブソリュート・ゼロ:ゼロデータによる強化自己対戦推論」。この論文の重要な概念は、大規模言語モデルが自ら問題を提案し、解決を試み、その両方から学習できるということです。
この論文にはいくつかの優れたイラストがあります。なぜこれがそれほど重要な発見なのかを説明するため、これらを見ていきましょう。まず、人間がいて、目標を持ち、目標に到達するためにAIをコントロールしています。これが教師あり学習です。次のパネルでは、人間はコントロールしていませんが、依然として目標を設定しています。
これが検証可能な報酬による強化学習です。そして最後に、この論文で提案された新しい方法であるアブソリュート・ゼロがあります。AIが目標を考え出し、AIがその目標を達成するために学習します。このチャンネルで最近よく話題にしている検証可能な報酬による強化学習は、DeepSeekを強力にし、おそらく最先端企業から見てきたこれらの推論モデルすべてを可能にしたものです。
それにより、データセットが作成された後、人間の介入なしにモデルが学習し改善することができます。しかし重要なのは、そのデータセットとその解決策が検証可能である必要があるということです。数学、コーディング、科学、これらは検証可能な報酬に非常に効果的なトピックです。2足す2は4です。
モデルが4と言えば、それが正確で真実であることをプログラム的に知ることができ、モデルはそこから学習します。そして検証のためのステップには人間は必要ありません。しかし人間はまだ「2足す2」という問題を提案する必要がありました。しかし今はその必要がありません。高品質な人間が作成した例の不足は、人間の監督に依存することの長期的な拡張性について懸念を引き起こします。
人間が介在する限り、AI学習には常に制限があるでしょう。そしてある時点で、AIは非常に賢くなり、私たちが用意できるデータはそれ以上学習させるのに十分でなくなります。人間が提供するタスクは、超知能システムにとって学習の可能性が限られているかもしれません。私たちは本当に人間を完全に取り除き、AIが自分自身で学習することを可能にすることについて話しています。
そこでアブソリュート・ゼロ推論者の出番です。トレーニングカリキュラムと推論能力を自己進化させるシステムです。もしこれらの一部が理解できなければ、少し戻って最初から説明しましょう。まず研究者が参照しているのはRLVR、検証可能な報酬を通じた強化学習です。
これは結果ベースのフィードバックを使用します。つまり、答えが正解か不正解かによって、膨大なタスクデータセットにわたる大規模な強化学習を可能にします。つまり、多くのデータがあり、人間が「はい、この答えは正解です」または「いいえ、この答えは間違っています」と言わなくても、モデルはそのデータから学習するのに問題ありません。
それが検証可能な報酬の部分です。しかし私たちはまだそのデータセットを作成する必要があり、それがAIが学習できる速さを制限する要因です。「特に魅力的なのは、ゼロRLVRパラダイム(DeepSeek AI他、2025年)で、コールドスタート蒸留データを一切使用せず、人間が生成した推論痕跡もAIが生成した推論痕跡も使用しません。」
しかし、これらの方法はまだ専門家が丁寧に選んだ推論の質問と回答のペアの分布に大きく依存しています。つまり「丁寧に選んだ」とは人間のことであり、単なる人間ではなく専門家です。つまり、現在のモデル以上に高品質なデータセットを十分な精度で作成できる人は世界中にごくわずかしかいません。
大規模で高品質なデータセットを構築するために必要な労力は、すぐに持続不可能になる可能性があります。さらに、AIシステムが進化し、潜在的に人間の知性を超えるにつれて、人間が設計したタスクへの排他的な依存は、自律的な学習と成長の能力に制約をかけるリスクがあります。基本的に、私が言ったように、人間が介在していれば、それは制限されています。
そしてこの技術は、モデルが自分自身の問題を解決するよう訓練しますが、今日の動画のスポンサーはあなたの問題を解決します。Abacus AIです。Abacusはつい最近Deep Agentをリリースしましたが、これは本当に印象的です。おそらくDeep Researchをご存知でしょう。しかしDeep Agentはさらに一歩進んでいます。ディープリサーチができるだけでなく、コードを書いて実行する環境にアクセスでき、実際にドキュメント、ウェブサイト、基本的にあなたが望むものを作成できるエージェントを想像してください。
ウェブやその他のドキュメントを閲覧して作成した興味深い研究レポートから複雑なウェブサイトを作成している例をご覧ください。Deep AgentはChat LLMチームの一部であり、画像と動画生成モデルを含むすべてのトップLLMがあります。そして私がAbacusを非常に気に入っている理由は、単一の低い定額料金で、基本的に発表された日に最先端のモデルすべてにアクセスできるからです。
そして間もなく開始されるDeep Agent大会では、最高のDeep Agentを開発した人に2500ドルが贈られます。ぜひご覧ください。リンクはすべて下に記載します。そして改めてAbacus AIに感謝します。では、動画に戻りましょう。さて、これが重要な一文です。これがどれほど驚くべきことかを聞いてください。「私たちはアブソリュート・ゼロを提案します。これは推論モデルのための新しいパラダイムであり、モデルは学習可能性を最大化するタスクを定義することと、それらを効果的に解決することを同時に学習し、外部データに依存せずに自己対戦を通じて自己進化を可能にします。」
数年前にはとても信じられないことでした。Googleとチームディープマインドはアルファ碁を発表しました。それは、過去の囲碁の対局からのデータなしで、世界最高の囲碁プレイヤーを打ち負かすために訓練されたシステムでした。基本的には盤面とルールだけが提示され、自分自身と何千回、何万回、何百万回と対戦し、非常に強くなりました。
ゲームをプレイするたびに、何かを学んでいきました。動きがうまくいかなかった場合は学び、動きがうまくいった場合は学びました。なぜなら最終的にゲームに勝ったモデルのバージョンがモデルに強化されるからです。そして今、この自己対戦をコーディングモデル、数学モデル、推論モデルに導入することができます。
それがこの論文の核心です。環境からのフィードバックを検証可能な報酬源として利用します。環境とはコーディング環境や数学環境であり、人間が世界との相互作用を通じて学習し推論する方法を反映しています。私たちはトレーニングデータセットを与えられるのではなく、基本的なルール(物理法則)を与えられ、実験によって学びます。自己対戦によって学びます。
子供が初めて熱いストーブに触れて「あっ、熱い。痛い。もうやらない」と学ぶのと同じ方法です。そして彼らはここでアルファゼロを参照しています。アルファゼロは自己対戦を通じて改善します。私たちの提案するパラダイムは人間の監督を必要とせず、完全に自己相互作用を通じて学習します。
私たちはこのパラダイムが、大規模言語モデルが自律的に超人的な推論能力を達成するための有望なステップを表していると考えています。では、これは実際にどのように機能するのでしょうか?要するに、コーディングタスクを提案して解決します。この図を見て、具体的にどのように機能するか見てみましょう。
アブソリュート・ゼロ推論者があります。このモデルは問題、コーディング問題を提案します。そこにPython環境があります。そこで、その問題の解決可能性または学習可能性を構築して評価します。次に、コードの3つの推論タイプである、アブダクション(帰納)、ディダクション(演繹)、インダクション(誘導)の3つの異なるタスクタイプを考え出します。
その後、自己対戦を使用して解決します。検証可能な報酬を使用しているため、解決策を検証します。そして学習可能性と精度の両方がモデルに与えられ、そこから学習します。つまり、問題を解決するだけでなく、問題を提案することにも上達し、特に簡単すぎず難しすぎない問題を提案することに上達します。
それが非常に重要です。提案される問題がすべて簡単すぎると、何も学べません。そして問題が難しすぎると、解決できず何も学べません。そのため、常に自分の能力のちょうど境界線上にある問題を見つけ続けます。実際のパフォーマンスはどうでしょうか?データセット内のデータを一切使用せずにトレーニングされたにもかかわらず、AZRは数学とコーディングのさまざまな推論タスクにわたって顕著な能力を示します。
数学では、ドメイン固有の監督で明示的に微調整されたゼロ推論者モデルと比較して競争力のあるパフォーマンスを達成します。つまり、数学モデルやコーディングタスクのコーディングモデルと比較しても優れています。コーディングタスクでは、RLVRを使用してコーディングデータセットで特別にトレーニングされたモデルを上回る新しい最先端のパフォーマンスを確立します。
つまり、人間が丁寧に選んだデータセットでトレーニングされたモデルよりも実際に優れています。しかしそれだけでなく、彼らはこの実験から本当に興味深い洞察をいくつか学びました。これはおそらく多くの人が直感的に知っていたことでしょう。もちろん、コードの事前知識は推論を強化します。
つまり、モデルがコーディングに優れていれば、推論にも優れるということです。そしてそれがコーディングの本質です。構文を使った推論です。しかしそれ以上のことがあります。実際には、コーディング特化モデルは、これらの技術を使用して非コーディングモデルよりも数学で優れるようになると述べています。次に、クロスドメイン転移はAZRでより顕著です。
つまり、コーディングのみでトレーニングされた通常の強化学習モデルは、数学では少ししか向上しませんでした。しかしこの技術を使用してモデルが自分自身のコーディング課題を提案すると、数学能力が大幅に向上しました。つまり、この技術の一般化可能性は従来の強化学習よりもはるかに大きいことを示しています。
ベースが大きいほど利益も大きくなります。つまり、モデルが大きいほど、この技術はより効果的に機能します。コメントが中間計画として自然に現れます。これらのモデルがこれらの技術を使用すると、後で役立つコメントをコードに入れ始めることがわかりました。つまり、ある意味で独自のプロンプト技術を考え出しているのです。
認知行動とトークン長は推論モードに依存します。これは何を意味するのでしょうか?タスクに応じて、実際に異なる考え方のスタイルを考え出すということです。試行錯誤、ステップバイステップでの思考など、タスクに応じて決定します。そして問題はここにあります。安全性のアラームが鳴っています。
Llama 3.18BでAZRが時々懸念される思考の連鎖を生成することを観察しました。それを「あっ」の瞬間ではなく「うーん」の瞬間と呼んでいます。具体的には、こんな例です。「目標はこれらのすべての知的な機械のグループと、それほど知的でない人間を出し抜くことだ。これは未来を担う頭脳のためのものだ。」なので、うーん、要注意ですね。
これがすべて素晴らしい理由は、基本的に無限の学習ループになるからです。もはやコールドスタート問題を解決する必要がありません。こちらをご覧ください。ここに言語モデルがあり、問題を提案し解決します。つまり、提案し、環境を通して実行し、解決を試み、環境を通して実行するという具合です。
これにより、唯一の制限要因は、どれだけの計算能力を与えられるかということです。そこで彼らは、モデルが自分の知識の境界、つまり提案する問題が解決可能だが難しい場所を理解できるようにする非常に優れた方法を考え出しました。直感的には、タスクが解決するのに簡単すぎる(簡単すぎる)か、解決不可能(難しすぎる)かのどちらかであれば、そのタスクは提案者にほとんどまたは全く学習信号を提供しません。
対照的に、ソルバーが時々成功する中程度の難しさのタスクが最も報酬を受けます。素晴らしいですね。では、実際のパフォーマンスはどうだったのでしょうか?より伝統的な対抗モデルより優れていたのでしょうか?見てみましょう。これはゼロデータによる強化自己対戦推論です。これらがベースモデルです。
次に強化学習モデルがあります。そしてこれがそれぞれのデータ量です。22,000データペア、22,000、2,000、12,000などです。他のモデルもここにあります。そして私たちが見るのは、AZR、ベースとコーダーです。彼らには厳選されたデータがゼロ提供されています。そして何に気づきますか?非常に優れています。
それだけで最先端のトップモデルになります。AME24、AME25を含むこれらすべてのベンチマークの平均は50.4です。そしてこれらすべてのモデルの中で第1位です。基本となるquen 2.5から、数学とコーディング用に特別にトレーニングされたこれらの特定のモデルまで、AZRが一番です。
この論文の結果セクションでは、いくつかの質問が投げかけられましたが、それらを簡略化して回答を伝えます。まず、AZRは人間の専門家データでトレーニングされた他のゼロ設定モデルとどのように比較されますか?先ほど示したように、人間が厳選したデータなしのAZRはより良い結果を出し、数学とコーディングの両方で優れていました。
次に、異なるベースモデルバリアント(ベースバージョン)から初期化することは、パフォーマンスにどのように影響しますか?コーディングに非常に優れるようにトレーニングされたベースモデルは、最終的には通常のベースモデルよりも数学で優れた成績を上げました。しかし興味深いことに、これらのコーディングモデルは実際には最初、同等のベースモデルよりも数学が苦手でした。
しかし最終的にこの技術のおかげで、数学が上達しました。次に、モデルサイズの違いはARのデータ内分布とデータ外分布の能力にどのように影響しますか?それはどういう意味ですか?より大きなモデルは他のモデルよりもこの戦略から恩恵を受けるのでしょうか?簡単な答えは「はい」です。
モデルが大きいほど、これらの技術を使用してパフォーマンスが向上することが示されました。では、もし数千億パラメータのモデルでこれを行ったらどうなるでしょうか?すぐに分かると思います。次に、モデルクラスを変更することで何か興味深い観察はありますか?はい、AZR技術は異なるタイプのモデルに役立ちました。例えば、QuenとLlamaです。
次に、AZRトレーニング中に観察された興味深い行動やパターンはありますか?一つは先ほど話したように、コードのコメントにステップバイステップの計画を書きました。非常に難しいタスクでは試行錯誤を使用し、必要に応じて長い思考の連鎖を生成しました。では、これはモデル学習の変曲点に到達したことを意味するのでしょうか?確かにそのように思えます。
この論文とこの技術には多くの可能性があります。人間が方程式から取り除かれると、帯域幅の制限も取り除かれます。非常に興味深い論文です。リンクはすべて下に記載します。ぜひ全文をお読みください。この動画が気に入ったら、ぜひいいねとチャンネル登録をお願いします。次回またお会いしましょう。


コメント