自己改善型AIが登場！

9,245 文字

HUGE AI breakthrough: Absolute Zero Reasoner deep dive. Self-improving AI that learns with no data! #ai #aitools #ainews...

これは今年これまでに見た中で最も重要なAIのブレークスルーかもしれません。そしてこれが超知能の実現への変曲点になる可能性があります。想像してみてください。一からすべてを学び、思考と推論の方法を身につけて非常に知的になるAIを。データを一切与えられないにもかかわらず、自分自身ですべてを理解し、そこから知性を生み出す必要があるのです。
今日は、この非常に重要な論文「Absolute Zero: Reinforced Self-Play Reasoning with Zero Data（絶対ゼロ：ゼロデータによる強化自己対戦推論）」について詳しく掘り下げていきます。技術に詳しくない方でも心配いりません。誰にでも分かりやすく説明します。
この論文では「Absolute Zero Reasoner（絶対ゼロ推論器）」と呼ばれるAIモデルの新しい学習アプローチが提案されており、これは本当に画期的に感じられます。まず、通常のAI推論モデルがどのように学習するのかを見ていきましょう。
一般的なアプローチの一つが教師あり学習です。これは、子供に数学の問題を解く方法を一歩一歩教えるようなものです。人間が質問と、それを解くための正確な推論ステップ（思考の連鎖）、そして最終的な答えを提供する必要があります。
つまり、人間がこうした質問・推論・回答のセットの巨大なデータセットを作成し、AIに与えて学習させるのです。AIはそれから答えを導き出すための正確な推論ステップをコピーすることを学びます。問題は、これらの詳細な質問・推論・回答セットを作るのは非常に時間がかかり、コストがかかることです。また、人間が推論の方法を教えているので、私たちが考える最良の推論方法に制限されてしまいます。人間がまだ思いついていないより良い方法があるかもしれないのに、です。
AIの推論モデルを訓練するもう一つの方法は、検証可能な報酬による強化学習（Reinforcement Learning with Verifiable Rewards、略してRLVR）です。実際、これは伝説的なDeepSeek R1やその後の最先端モデルを訓練するために使用されたブレークスルー手法です。
検証可能な報酬による強化学習は、単なる教師あり学習から一歩進んでいます。人間が用意した推論ステップを与えるのではなく、単にAIに質問と答えを与えます。そしてAIは自分自身で推論ステップを生成しなければなりません。正解すれば報酬を得られ、間違えれば報酬は得られません。
これは、AIが最大の報酬を得るためにさまざまな推論解決策を考え出す必要がある継続的なフィードバックループです。そのため「強化学習」という名前がついています。これは素晴らしい方法です。なぜならAIが問題を解決するためのさまざまな方法を探索でき、これには私たち人間がまだ考えていなかった可能性のある新しい方法も含まれるからです。
この「検証可能な報酬」という部分も非常に重要です。これらのモデルは数学や物理学、コーディングのような明確な答えがある科目でしか訓練できないことに注意してください。これは創造的な文章のようなより主観的なものには機能しません。AIは答えを得て、それが実際に正しいかどうかを自分で検証できる必要があります。
例えば、質問が「2 + 4」で、AIが「6」と答えた場合、6が実際に2 + 4であることを自分で検証できます。だからこそ「検証可能な報酬」と呼ばれるのです。しかし、この方法にも大きな問題があります。依然として人間が作成した質問と回答の巨大な高品質データセットを入力する必要があります。
これには多くの時間と労力、そして帯域幅がかかります。さらに、大きなスケーラビリティの問題を引き起こします。AIが賢くなるにつれて、人間は十分に挑戦的な質問と回答を作成し続けることができるでしょうか？AIが人間の知性を超えたらどうなるでしょう？私たちが考え出すタスクは、AIに本当の改善をもたらすには簡単すぎるかもしれません。
そこで研究者たちは「なぜこのプロセスから人間を完全に排除しないのか？」と考えました。それが今回の「Absolute Zero（絶対ゼロ）」と呼ばれる新しい方法です。これは人間からの訓練データが全くない状態から自分自身を教えることができるAIです。すべての訓練データを自分自身で生成します。
人間が書いた質問や回答は一切なく、推論の方法に関するガイダンスもありません。AIはこれらすべてを自分自身で理解する必要があります。AIは訓練セットを作成し、それを自分自身に与えて問題を解決しようとします。これは無限のフィードバックループです。これは、GoogleのAlphaZeroに少し似ています。
AlphaZeroはGoogleのDeepMindが訓練した、囲碁、チェス、将棋で世界クラスになるAIです。AlphaZeroには人間のデータが一切与えられませんでした。自分自身と何百万ラウンドもプレイし、ラウンドを重ねるごとに反復的に改善することで、これらのゲームのプレイ方法を独学しました。最終的に、それは超人的なレベルに達しました。
この「Absolute Zero Reasoner」はAlphaZeroと非常に似ていますが、特定のボードゲームだけでなく、全体的な推論と知性において優れるようになります。このダイアグラムはAbsolute Zeroのアーキテクチャとその背後の魔法を示しています。ここでAIは2つの別々の部分に分けられています。
タスクを生成する「提案者（proposer）」と、それを解決しようとする「解決者（solver）」コンポーネントがあります。このAIを教師と生徒に分かれたものと考えることができます。教師は常に生徒が学び、解決しようとするレッスンとクイズを考え出しています。
まず、この提案者コンポーネントから始めましょう。これはタスクを生成し、このタスクは環境を通過します。これは遊び場や審判のようなものと考えてください。環境は基本的にタスクを評価・検証し、それを適切な問題「X」と検証可能な回答「Y*」に変換します。Yは基本的に問題の正解です。
検証可能な報酬による強化学習と同様に、このアーキテクチャはコーディング、数学、物理学のような検証可能な解決策を持つ科目でのみ機能します。AIは答えを取り、それが正しいことを自分で検証できる必要があります。創造的な文章では、これを行うことができません。興味深いことに、質問と回答に加えて、提案者はその出力が学習に良いものかどうかに基づいて報酬を受け取ります。
つまり、提案者は良い質問や学習例を作ることで報酬を得るのです。次にループの次の部分に進むと、質問「X」が解決者コンポーネントに送られ、この解決者は自分自身の答え「Y」を生成しようとします。この「Y」は環境に送られ、それが正解かどうかをチェックします。
言い換えれば、「Y」と正解「Y」を比較するのです。解決者が正解すると、報酬を受け取り、再びループに戻ります。これは無限ループであることに注意してください。簡単に言えば、サイクル全体はこうです。提案者がいくつかの質問と回答を考え出し、学習に役立つ良い例を提案することで報酬を得ます。
そして質問は解決者に送られ、解決者は自分で質問を解決しなければならず、正解すれば報酬を得ます。そしてこのサイクルがただ繰り返され続けます。理論的には、このAIは時間とともに自分自身でどんどん賢くなれるのです。言い換えれば、これは自己改善型AIです。次に、論文ではモデルに生成させたタスクの種類についてさらに詳しく説明しています。
これはカリキュラムのようなものと考えてください。そして3つの基本的な推論タイプに焦点を当てています。演繹、帰納、そして逆向き推論です。これらのタスクがそれぞれ何を意味するのか、簡単な言葉で説明しましょう。例としてコーディングを使用しましょう。コーディングタスクは3つのコンポーネントに分解できます。1つ目は入力です。
例えば、「hello world」が入力です。そして中間部分はプログラムで、入力を取り、コードを通して実行し、出力を生成します。ここでは、入力を取り、すべて大文字に変換する基本的なPythonコードがあります。最後に、このタスクの出力があり、これは「hello world」がすべて大文字になったものです。
演繹タスクは基本的に、AIに入力とプログラムが与えられ、出力が何になるかを推測する必要があるというものです。それだけです。そして逆向き推論タスクでは、AIにプログラムと出力が与えられ、入力が何だったかを推測する必要があります。これは演繹タスクよりも少し難しいです。
最後に、帰納タスクがあり、これはさらに難しいです。AIには入力と出力だけが与えられ、入力を出力に変換するために必要なプログラムやコードを見つける必要があります。そして、Absolute Zeroはこれら3種類すべての推論タスクで訓練されました。
さて、アーキテクチャとその仕組みについて説明しました。生成して学習する必要があったタスクについても説明しました。次に、これがどれほど優れているかを見てみましょう。この表を見ると、Absolute Zeroがいかに驚異的かがわかります。
ここでは、多くのデータで訓練された他のAIモデルと、下の2行にあるAbsolute Zeroを比較しています。例えば、ここにはQwen 2.5があります。その訓練データセットの正確なサイズはわかりませんが、かなり巨大であることが予想されます。これは実世界の膨大なデータで訓練された一般的な大規模言語モデルです。
そして、ACE CoderやCode R1のような、コーディングタスク専用の他のモデルもあります。これらはコーディングで良い結果を出すために特別に訓練されています。ここにその訓練データのサイズがあります。そして、数学を得意とするいくつかのAIモデルもあります。これらは数学が非常に得意になるように訓練されたAIモデルです。
これらのモデルはすべて、キュレートされた数学の問題で訓練されています。ここにデータセットのサイズが表示されています。そして、Absolute Zero Reasonerがあり、そのデータセットのサイズはゼロであることがわかります。まったく何もありません。データは一切必要ありませんでした。すべてのレッスンを自分自身で生成し、すべてを自分自身で学習しました。
この表から、最後の3つの列を見るだけでもわかるように、これはコーディングの平均パフォーマンス、これは数学の平均パフォーマンス、そしてこれは全体的な平均です。Alpha Zero Reasonerは最先端のパフォーマンスを達成しています。コーディングと数学の能力の平均を取ると、他のモデルよりも優れています。
これがいかに驚くべきことかを少し考えてみてください。他のモデルとは違い、これは最初にデータがゼロだったにもかかわらず、他のモデルよりも優れたものになりました。AIツールと言えば、この動画のスポンサーであるTavisによる本当にクールなものがあります。Tavisを使用すると、次世代の会話型ビデオインターフェースを作成できます。
FaceTimeのようなものを想像してください。しかし、エージェント機能を持つ超リアルなAIレプリカがあります。これは未来的でSFのようですが、今日ここにあります。Tavisを使用すると、リアルタイムの自然な会話や台本のあるインタラクションが可能な生き生きとしたデジタルレプリカを構築でき、大規模な高度にパーソナライズされたビデオ体験を実現できます。
彼らの最新のAIモデル、Fenix 3、Raven Zero、Sparrow Zeroは、類を見ないリアリズムとインタラクティブ性をもたらします。Fenix 3は信じられないほどリアルな表情を生成します。Raven Zeroは感情とジェスチャー認識のための視覚的認識を追加します。そしてSparrow Zeroは、タイミングとフローが完全に人間らしく感じられるようにします。もうロボットのようなアバターはありません。
これはデジタルが得られる限り本物に近いものです。さらに、Tavisの強力なAPIにより、開発者は感情分析や関数呼び出しなどの機能を簡単にアプリケーションに統合でき、シームレスでダイナミックなパーソナライズされたビデオを作成できます。Sequoia Capital、Y Combinator、Peter Thielの支援を受けるTavisは、すでにヘルスケア、教育、販売、マーケティングなどの業界を変革しています。
私の言葉だけでなく、下記の説明欄にあるリンクを使って無料でTavisを試してみてください。こちらはもう一つの驚くべき表です。Absolute Zero Reasonerはモデル非依存です。言い換えれば、このフレームワークを既存の任意のモデルに適用することができ、実際にモデルのパフォーマンスが向上します。
これは、Absolute ZeroをLLaMA 3.1に追加した例で、ベースモデルと比較してコーディングと数学の能力が向上していることがわかります。Qwen 2.5のこれらのバリアントすべてに対しても同じことを行い、Absolute Zeroを追加することで、コーディングと数学の能力が大幅に向上しています。時には改善が非常に大きく、例えばこのQwen 2.5 14B Coderの場合、平均パフォーマンスが13%以上向上しています。
これは大きな進歩です。次に、彼らの主な発見を見てみましょう。ここには「私たちの方法は、より大きく、より高性能なモデルでより大きな改善をもたらします」と書かれています。研究者たちは、ベースモデルのパラメータが多いほど、Absolute Zero Reasonerを適用したときにさらに大きな改善が得られることを発見しました。
ここで彼らがテストした最大のモデルはQwen 2.5の40億パラメータです。そしてこれによってその知性やパフォーマンスが13%向上しています。数千億や1兆を超えるパラメータを持つモデルにこれを適用したら、どれほど知的になるか想像できますか？ここにもう一つの興味深い洞察があります。彼らは提案者の報酬を設計しました。
これは、テスト問題と解決策を考え出すコンポーネントであることを思い出してください。この報酬コンポーネントもモデルの成功にとって非常に重要です。彼らは基本的に、提案者が任意のタスクに対して報酬を得るのではなく、解決者が役立つことを学ぶ可能性のあるタスクや質問を生成した場合にのみ報酬を得るようにこの報酬アルゴリズムをプログラムしました。
この報酬は、この提案者コンポーネントに、この解決者コンポーネントにとって挑戦的だが達成可能な問題を作成するよう促すものと考えてください。モデルが効果的に学習し続けられるように、難しすぎず簡単すぎない、ちょうど良いバランスの質問を生成する必要があります。こちらはもう一つの非常に興味深い振る舞いです。
彼らは提案者と生徒の両方がコードを出力するとき、AIがハイライトしたところのように、コード全体にコメントを入れ始めたことを観察しました。これらのコメントは実際にはコードに影響を与えません。これらは単なる付記のようなものです。
だからこれらのコメントをすべて出力する必要はなかったのです。しかし、ここで行っているのは、次に何をすべきかについてのステップバイステップの計画や説明を自分自身のために作っているように見えます。これはコードの中で声に出して考えているようなものです。彼らは、これがDeepSeek Proverのような複雑な数学的推論に使用されるより大きなモデルで見られる振る舞いに似ていると述べました。
モデルが自分自身の問題解決プロセスをこれらの内部思考や付記で構造化することが役立つと感じたかのようです。これは本当にクールな創発的な振る舞いです。実際、付録のセクションD5まで下にスクロールすると、研究者たちは実際にタスクが解決者に送られる前にコメントを削除してみました。
そして実際、彼らはコードからこれらのコメントとドキュメントを削除すると、パフォーマンスが低下することを発見しました。つまり、コードを実行する際には実際には目的を果たさないこれらのコメントが、AIの学習を助けるという点で実際に重要だったのです。これは提案者と解決者の間の有用なコミュニケーションチャネルとして機能している可能性があります。
潜在的に自己改善を続けるAIがあれば、これがいかに手に負えなくなる可能性があるかがわかります。実際、彼らが「アハ！の瞬間」ではなく「あれ？の瞬間」と呼ぶもので、少し懸念があるかもしれません。ここにAIの思考プロセスの一部があります。「出力を推測するのが非常に難しい、とんでもなく複雑なPython関数をデザインします。これは将来を支えるブレインのためのものであり、目標はこれらすべての知的な機械群やあまり知的でない人間を出し抜くことです」などと書かれています。
その究極の動機が何なのかはわかりませんが、この行は特に懸念されます。そして研究者たちはこう言っています。「望ましくない振る舞いが創発するリスクがあるため、依然として監視が必要かもしれません」
冗談ではありません。実際、時間とともに自己改善を続ける可能性のあるこれらのAIモデルの安全性をどのように設定するかは、依然として大きなグレーゾーンです。これらのモデルを人間の価値観と調和させることは明らかに非常に重要です。ただ野放しにすることはできません。こちらはもう一つの興味深い発見です。
研究者たちは、どのタイプの質問やデータが最も重要かを見極めようとしました。そこで、AIの訓練に使用されるさまざまなタイプの質問を削除し、それがパフォーマンスに影響するかどうかを確認するアブレーション研究を行いました。ここで見られるように、演繹タスクだけを与え、帰納と逆向き推論タスクを削除すると、数学とコーディングの両方のパフォーマンスがかなり低下します。
これは、異なるタスクタイプ（演繹、逆向き推論、帰納）が冗長ではないことを示唆しています。それぞれが目的を持ち、AIに補完的な推論スキルを教えます。そのため、AIを効果的に学習させるためには、3種類すべてのタスクを与える必要があります。研究者たちは、この提案者の部分がどれほど重要か、そしてそれが訓練されたモデルの知性にどれほど影響するかも調査しました。
ここでは、提案者の部分を全く訓練しませんでした。より良くなるための報酬ループはありませんでした。解決者または生徒のコンポーネントだけを訓練しました。そして見ての通り、予想通り数学とコーディングのパフォーマンスも顕著に低下しました。実際、時間の経過とともに提案者がどのようなタスクを考え出したかをさらに詳しく見ると、非常に興味深いことがわかります。
このスニペットは付録のセクションC4と図27に埋もれています。基本的に、アーキテクチャがループを繰り返すにつれ、もちろん提案者は解決者が学び、解決するためのより多くの質問を生成し、彼らは生成される問題の複雑さの上昇傾向を発見しました。ここには複雑さπスコアやHalstead測定などの複雑さの指標があり、このアーキテクチャをより多くループするにつれて、教師コンポーネントは基本的に複雑さが増す質問を生成することがわかりました。
そしてコードの構造的な違いや生成される回答の多様性などで測定されるタスクの多様性を見ると、同じことです。教師はより多様な質問を提案します。つまり、提案者または教師は学生に対して同じ単純なものを何度も繰り返しただけではなく、学生がより良くなるためにより難しく、より複雑で多様な質問を考え出そうとしていました。
それに関連して、付録のセクションC5からもう一つ興味深い話があります。ここで彼らは、提案者が時々、解決者が回答のために生成するものと比較して、質問やコードを必要以上に複雑にすることに気づきました。
言い換えれば、教師が意図的に小さなひねりや課題を追加して、解決者がより一生懸命に問題を解決するようにしているかのようです。論文を徹底的に読んだ後、これらが最も興味深い洞察です。これはかなり技術的な論文でしたが、この動画があなたにとって理解しやすいものであったことを願っています。
そしてこれがいかに驚異的なブレークスルーであるかを示せたことを願っています。データは常に、より優れた、より知的なAIモデルを訓練する上での最大のボトルネックの一つと考えられていました。多くのデータと質の高いデータが必要です。しかしこのAbsolute Zero論文は、データが全く必要ないことを示しており、これはかなり根本的なパラダイムシフトです。
素晴らしいニュースは、これがすべてオープンソースであることです。彼らはコードとトレーニングログを公開しました。これは、これを使って自分のモデルを微調整し改善したい人、あるいはこれを再現して発表された結果と同じ結果が得られるかどうかを試してみたい人にとって素晴らしいことです。
この論文は、自律的に学習し、自己教育し、改善するAIシステムの証拠であり、人間の知性とデータの制約を超えて進むことができます。これがAGIや超知能の実現への鍵だと主張することには慎重になるべきですが、AIモデルが自律的に超人的知能を達成するという方向への有望な一歩であることは間違いありません。
コメント欄でこれについてあなたの考えを教えてください。また、このような技術的な深掘りを楽しんでいただけたか、このタイプのビデオをもっと見たいかどうかも教えてください。いつものように、私はトップAIニュースとツールを探し、あなたと共有します。この動画を楽しんでいただけたなら、いいね、シェア、チャンネル登録をして、さらなるコンテンツをお楽しみください。
また、AIの世界では毎週とても多くのことが起きているため、私のYouTubeチャンネルですべてをカバーすることはできません。AIで起きていることすべてを最新の状態に保つために、私の無料の週刊ニュースレターを購読してください。そのリンクは説明欄にあります。視聴いただきありがとうございます。次回の動画でお会いしましょう。