人間を超えるAIの自己進化(Agent Zero:ノースカロライナ大学、スタンフォード大学)?

本動画は、スタンフォード大学、セールスフォース、ノースカロライナ大学チャペルヒル校の研究チームが開発した「Agent Zero」フレームワークを解説する。人間による注釈付きデータが枯渇した現在、AIが自己学習により知能を進化させる新手法が提案されている。教師エージェントと生徒エージェントが競争的ゲームを通じて相互に学習し、Pythonコードインタープリタなどの外部ツールを活用することで、従来の模倣学習を超えた発見的学習を実現する。確率分布の長尾部分に潜む非主流の知識を探索し、従来のPPOやGRPOの制約を緩和したADPO(曖昧性動的方策最適化)により、8億パラメータのLLMでも数学的性能が最大18%向上することが示された。ただし、この追加知能は完全な自己創発ではなく、事前学習データに含まれる人間の知識の再発見である点が重要な限界として指摘されている。

Self Evolution of AI beyond Humans (Agent0: UNC, Stanford)?

We are rapidly approaching the "Data Wall"—the point where high-quality human reasoning traces run dry. But a groundbrea...

AIの自己進化への挑戦
データの壁を乗り越える新しいアプローチ
長尾分布からの知識抽出
曖昧性動的方策最適化(ADPO)
実験結果と限界
追加知能の源泉

AIの自己進化への挑戦

こんにちは、コミュニティの皆さん。お帰りなさい。今回は全く新しいAI研究をご紹介します。本当にクレイジーな内容ですよ。それでは始めましょう。私のチャンネル「ディスカバリー」へようこそ。最新のAI研究論文を見ていきます。

現在、人工知能分野で直面している問題、それは「データの壁」と呼ばれるものです。これは巨大な壁であり、皆さんもよくご存知でしょう。人間が注釈を付けたデータの限界に到達してしまったのです。人間によって注釈が付けられ、修正され、検証されたすべてのデータは、多かれ少なかれ、すでに最新のAIマシンの訓練データに含まれています。

限界について言えば、視聴者の方への短い返答をさせてください。先ほどコメントをいただきました。スタンフォード大学によるAIペルソナエージェントの文脈的インスタンス化に関する動画について、あるユーザーが「この行は論文に出てきません。このプロンプトはモーダル潜在空間のハード制約の正則化項として機能すると示唆していますが、この行はどこから来たのですか」とコメントしています。

つまり、誰かが私の動画の全ての文章を元の論文と照らし合わせて確認してくれたということです。これは素晴らしいことだと思います。信じられません。もし皆さんが本当に私の動画を深く掘り下げて見てくださっているなら、その答えをお教えしましょう。どこから来たと思いますか。

それはフレーミングからです。問題について考えるとき、個人的により深い洞察を見つけることができます。私がやっているのはこういうことです。コンピュータサイエンスの出版物があります。これはアーカイブで、AIシステムに「このPDFを見て、最も重要な10の文章を教えて」とか「完全なPDFのテキスト要約を教えて」と言うことができます。そうすれば私のチャンネルは必要ないでしょう。AIでできることですから。

では、チャンネルとしての私の付加価値は何でしょうか。私は異なる視点を持っています。異なるフレーミングを持っています。視点を変えて、コンピュータサイエンスの方法で提示され、フレーム化されたこの問題を物理学の観点から見てみます。数学が好きなら、コンピュータサイエンスでコード化されたアルゴリズムを数学的観点から見てみましょう。数学的視点から、限界がどこにあるのか、近似がどこにあるのか、より良いコード実装がどこにあるのかを見つけることができます。

なぜなら、ほとんどの問題は100年前に純粋数学ですでに解決されているからです。今日人々がコーディングしていることは、物理学についても同じことが言えます。もし皆さんが医学、化学、金融など何か専門分野のスペシャリストであれば、その特定のベクトルを加えてください。

つまり、新しい知識が生成されて提示されるとき、コンピュータサイエンス専門家の眼鏡だけで理解するのではなく、他の多くの異なる次元で理解できるということです。これが学習を加速させ、より深い洞察を与えてくれます。これがまさに、この動画の中に、アーカイブのプレプリントと完全に同一ではない文章が見つかる理由です。

美しい研究チームの論文をただ繰り返すのではなく、異なる視点、異なるフレーミングを加えているのです。核心となるアイデアを説明しようとしています。最も重要な文章を一つ一つ繰り返すだけでは、何の価値があるでしょうか。

データの壁を乗り越える新しいアプローチ

さて、データの壁に戻りましょう。私たちは何をしなければならないのでしょうか。AIに自分自身を教えさせなければなりません。もう人間が注釈を付けたデータはなく、人間はAI開発にとってあまりにも高価になりすぎています。数兆ドルのデータセンターを構築している企業が、データを確認するために人間の労働力を雇う余裕があるでしょうか。

素晴らしい、AIは自分自身を教えなければなりません。シンプルに聞こえますね。やってみましょう。さて、何が問題になり得るでしょうか。そして、全く新しいフレームワークがあります。それはAgent Zeroフレームワークと呼ばれています。

スタンフォード大学、セールスフォース、チャペルヒル大学から、新しい解決策が提案されています。彼らはこう言います。子供たちはゲームをして学びます。だから、AIシステムにも競争的なゲームをさせましょう。そして、それを「AI専門家を困惑させよう」と呼びましょう。

なんと美しいアイデアでしょう。複雑なAIシステムの学習様式をさらに改善するためのゲーム理論です。そして、これです。Agent Zero、ツール統合推論によるゼロデータからの自己進化エージェントの解放。ノースカロライナ大学チャペルヒル校、セールスフォースリサーチ、スタンフォード大学からの論文です。

彼らは「人間による注釈なしで、理論的にAIシステムが自分自身で学習できる新しい方法を見つけた」と言っています。コードはこちらで入手できます。すべてそこにあります。アーカイブのリンク、すべてここに、GitHub、aiming lab agent zeroにあります。そこに行って楽しんでください。

メインアイデアに戻りましょう。何について話しているのでしょうか。2つのクローンAIシステム間でゲームをプレイしなければなりません。1つを教師と呼び、もう1つを生徒と呼びます。しかし、これは典型的な模倣学習とは異なります。今、カリキュラムエージェントと呼ぶものがあります。

その目標は単にデータを生成することではなく、もう一方のエージェントの能力のフロンティアに厳密に存在する新しい問題を生成することです。特定のLLMは複雑さレベル3までしか訓練されていないと話したのを覚えていますか。複雑さレベル4の問題は解けません。今、ゴールポストを動かします。理論的に3プラスレベルで解決可能な絶対的な限界に行き、ほんの小さな次のステップを踏み出すのです。

このカリキュラムエージェントは今、インセンティブを与えられています。どのようにかお見せしますが、不確実性、答えのばらつきが大きく、外部ツールを必要とする新しいタスクを提案します。ツールをエンコードすることによって、これを解決するのです。能力のフロンティアを見つけることに対して積極的に報酬が与えられます。なんと美しいアイデアでしょう。絶対的な限界まで押し上げるのです。

もちろん、別のエージェント、実行エージェントも必要です。このエージェントはPythonコードインタープリタや他のツールにアクセスできます。生徒は今、これを検証したり検証しなかったりできるようになり、外部データから学習し、Pythonコードインタープリタの知能を使用して、カリキュラムエージェントにも実装できる新しい解決策を考え出し、カリキュラムエージェントのさらなる学習を進めることができます。

私たちがしなければならないのは、複雑さレベル3から複雑さレベル4に存在する崖を越えて学習を押し進めることです。何が問題になり得るでしょうか。Nano Banana Proにこのアイデアを示してもらいました。

一方では、Pythonエージェントの完璧なエコシステムがあります。numpy、pandas、tensorflowなど、何十年も前から知られているすべてのものがあり、これらすべてを計算できます。そして、美しい崖があります。崖を越える方法は、創造的になることです。AIは自己学習プロセスで新しい学習方法を見つけ出すべきです。

複雑さの端に行き、ここでツール使用を行うエージェントと本質的に同一のエージェントであるAIエージェントの自己訓練を開始しましょう。Pythonエコシステム全体を使いますが、今度は創造的になり、追加の知能を考え出さなければなりません。2つのエージェントが見えますね。マルチエージェントシステムがあります。つまり、これら2つのエージェント間の学習の共進化スパイラルがあるのです。

素晴らしく聞こえますね。私は気に入りました。Gemini 3 Pro image preview、私たちのNano Banana Proにも戻って、「視覚化を作って」と言いました。ここに動的プログラミングがあります。DNA鎖があります。進化するニューラルネットワークがあります。新しいコアアルゴリズムがあります。AIはエージェントのペアの共進化において自分自身を教えています。

素晴らしく聞こえますね。理論物理学者として、私はほんの小さな取るに足らない質問があります。この追加の知能はどこから来るのでしょうか。AIを訓練して、人間が注釈を付けたデータはないと言うなら。

長尾分布からの知識抽出

さて、答えは意外とシンプルです。スタンフォード大学、セールスフォース、ノースカロライナ大学チャペルヒル校の指示に従えば。考えてみてください。AIシステム内の確率分布について話しています。

任意のシステムの中核にマルコフ精度プロセスがあり、確率密度の変動があることを理解していますね。私たちがすることは、それらを見て、通常は自己回帰LLMのピークのようなものを探します。次のトークン予測は、この領域のどこかから選ばれます。確率密度がここで本当に高いです。だから、これが新しい単語、次のトークンか何かでなければなりません。

しかし、すでにこれらのトークンをすべて消費してしまい、どんどん下がっていって、それでも新しいアイデアがない場合。この全く新しいアイデアは何でしょうか。この知能はどこから来るのでしょうか。

お分かりでしょう。知識のフリンジから、崖からです。つまり、事前訓練データのどこかに、狂った科学論文があったことを期待するのです。他のどこにも複製されていない、狂った新しいアイデアを持った論文です。単なる小さな小さなシグナルですが、それがすべてです。

つまり、確率分布の長尾のどこかに隠れているのです。次のトークンの確率を計算するとき。知識のフリンジで、新しい解決策、新しい答えを探しているのです。Nano Proがあれば、こんなにシンプルになります。

念のため、人間は新しい答えを提供しません。人間は反省やガイダンスなど何も提供しません。これは、さらに発展するための自己学習AIシステムです。2001年宇宙の旅を思い出してください、HAL。

グラウンドトゥルースは、ツール統合推論を通じて確立されます。これがメインアイデアです。2つのAIシステムが互いに話すだけなら、1つの愚かなシステムが別の愚かなAIシステムと話しているだけかもしれません。知能はどこから来るべきでしょうか。

彼らは言います。「コミュニケーションプロトコルが何であれ、ツール統合推論で行きましょう。外部世界が知識を持ち込みます。」今、強化学習を使用し、2017年の古典的なPPOやGRPOを使用する訓練プロセスがある場合、これらの推論タスクはうまくいかないことがすぐに分かります。その理由も正確に分かります。

困難で野心的な問題を探しているので、GRPOやPPOにある標準的な信頼領域クリッピングが、LLM自体が複雑な新しい概念を把握するために必要な更新を行うことを妨げるのです。なぜかと言うでしょう。理由は簡単です。

長尾のどこかにいるのです。この非常に特異な狂ったアイデアを探しているのです。これが新しい洞察をもたらすかもしれません。GRPOの損失関数についての簡単な復習が必要なら、すべてここにあります。クリッピング関数があります。KLダイバージェンス項があります。

KLダイバージェンス項が何のためにあるかも正確に分かります。訓練を安定させるための正則化ペナルティとして機能します。そして、私の文章をすべてチェックしている人がいることは知っています。だから、スクリーンショットを撮ります。もちろん、これは論文に完全に従っています。

曖昧性動的方策最適化(ADPO)

この絡み合った学習メカニズムに戻りましょう。ツールによって追加の知能がもたらされます。反復ゼロで完全な学習プロセスを開始すると、教師AIが簡単な幾何学の質問を提案します。生徒は簡単に解きます。そして、教師は報酬を受け取りません。なぜなら、生徒はまったく挑戦されなかったからです。

知識の端、知識のフリンジに行きたいのです。理論的にちょうど可能であるべきです。この複雑さに適応することを余儀なくされて、教師AIはより複雑な代数的問題の構築を始めます。

そして、生徒は最初の実行で失敗します。これは完璧です。これがまさに望んでいることです。しかし、境界線上でのみです。訓練する新しいデータがないので、生徒に「あなたは今、問題に直面しています。できることは、テスト時計算を増やすことです」と伝えることができます。

この問題をマスターするために重みを調整してください。5分、10分、30分かかるかもしれませんが、解決策を見つけてください。理論的に解決できる可能性があるだけで、教師は再びゴールポストを動かします。今度はより高度な微積分や論理パズルです。

この小さなステップ、これらのマイクロステップが見えますね。LLMに推論の長尾に入ることを強制したいだけです。完全なインターネット訓練データのどこかに、狂ったアイデアがあったかもしれません。しかし、狂ったアイデアのカウンターポイントは何か分かりますか。

天才的なアイデアである可能性もありますが、地球平面説のような本当に狂ったアイデアである可能性もあります。このプロセスの限界が見えますね。

とにかく、アーティストたちは、GRPOやPPOとクリッピングでは進めないので、新しい方策最適化を導入しなければならないと決めました。彼らはそれをADPO、曖昧性動的方策最適化と呼びます。

Nano Proによる美しい視覚化を見れば、何をしようとしているかが正確に分かります。信頼領域の上限を動的に緩和し、確率密度分布の長尾領域に拡張するのです。

損失関数を採用するだけです。固定されたイプシロンではなく、上限クリップ境界イプシロンハイは、GPOのような定数ではなく、実行されるジョブの一貫性に逆相関する関数になります。

ジョブが野心的であれば、小さなpハットがあり、クリップが広がります。新しい狂った推論パスの探索に報酬を与えるために、より積極的な勾配更新を含めることができます。それだけです。それ以外は、損失関数ADPOが見えます。しかし、アイデアは非常にシンプルです。

もう少し複雑な数式に惑わされないでください。中心的なアイデアについて話しましょう。この新しい方法論で何を期待しているでしょうか。

解決AI予測における最大エントロピーシステム、または不確実性と呼ぶものを数学的にターゲットにすることで、カリキュラムエージェントは徐々により複雑な論理パズルを発明することを余儀なくされ、同時に実行AIを駆動して、人間がこれまで注釈を付けたことのない新しい推論経路を進化させます。これまで誰も行ったことのないところに行くのです。

美しいですね。これは現実的でしょうか。しかし、この小さなステップを少し進めて、少しの改善を行うことはできるかもしれません。複雑さレベル3から複雑さレベル100に行って、AGI、スーパー・ハイパー知能、または何と呼んでも達成できる完全な軌道が目の前にあるとは思いません。

しかし、このシステムでどこまで行けるでしょうか。結果をお伝えします。詳細はすべて論文にあります。論文をご覧ください。論文を最初に読んでから戻ってくれば、この動画のより深い意味が理解できるでしょう。

実験結果と限界

論文が言うように、素晴らしいことに、より小さなベースLLMは、人間のループなしで自身の知能を大幅にブートストラップできます。この高価な人間に支払う必要はありません。すべてが人工知能自体によって合成的に行われます。

素晴らしい。さて、私たちのブートストラップターボは何だと思いますか。2つのAIエージェント間で知能をどこまでブートストラップできるでしょうか。私は、うーん、数学に限定しています。念のため、複雑な数学ではありません。シンプルな数学です。

80億のLLMがある場合、システムの数学的性能を何パーセントポイント向上させることができると思いますか。30から最大40%の間だと推測したでしょう。しかし、現実は何でしょうか。

QwN3 8Bで行くと、数学的性能は最良のシナリオで最大18%改善できます。次のトークン予測のための確率分布のこの長尾に、どれだけ深い知識が隠れているかが分かりますね。

QwN3に値を与えることができます。18%未満です。しかし18%です。だから、QwN3 8Bから最後の性能を絞り出しましょう。興味深いことに、最高の確率密度にもはや焦点を絞るのではなく、狂ったアイデアにも焦点を当てますが、お話ししたように、これらの狂ったアイデアは本当に狂ったアイデアである可能性があります。

システム全体の安定性については、強化学習のハイパーパラメータアルファとベータの訓練に本当に注意しなければなりません。さもないと、全く別の場所に行ってしまいます。強化学習には注意してください。

まとめます。この完全なアーカイブ論文は、AI分野で典型的な模倣学習、教師エージェントモデルからの推論トレースを持つ教師・生徒学習から少し移動したことを示していると思います。これらの推論トレースは、多かれ少なかれ生徒モデルにコピーされるだけです。

人間の思考プロセスを生徒モデルにコピーしているのです。今、ある種の18%限定の発見学習に移行しています。検証された探索を通じて新しい思考プロセスを発見します。しかし、注意してください。これらの新しい思考プロセスは新しい思考プロセスではありません。

これらは、人間のインターネットをコピーする事前訓練データにあった思考プロセスです。つまり、いくつかの狂った出版物または非常に特異な出版物で、いくつかの人間によってすでに表現された思考でしたが、一般的な主流ではありませんでした。だから、発見学習とは呼ばず、アルベルト・アインシュタインのような天才的な外れ値を統合した非一般主流学習と呼ぶべきかもしれません。

追加知能の源泉

この動画の最後に、追加の知能はどこから来るのかという質問についてお話ししたいと思います。AIはパターンマッチングマシンです。それ以外の何物でもありません。複雑なパターンを検出、拒否、統合する美しい機械です。

もちろん、AIコードインタープリタのマスターマインドであり、C++またはPython環境で実際の数学的操作で検証し、推論プロセスを確認しなければならないエージェントがいる場合、コードインタープリタのすべての知識が追加知識の源であると言うでしょう。

しかし、コードインタープリタは、これが有効な結果であるか無効な結果であるかを伝えるからです。訓練されたコードLLMまたはコードインタープリタ、何と呼んでも構いませんが、それが訓練されたものは人間のコーディング知識でした。

だから今、より高いレベルの人間のコーディング知識を発見しているのです。コードインタープリタがより複雑な問題に行く場合ですが、AIコードインタープリタが学習したコードシーケンスは、最初は人間のコーディングシーケンスでした。

つまり、知能は今、より高いレベルでAIマシンに転送されているだけです。もちろん、一般的なツール使用について話しています。Pythonインタープリタに限定されません。持っている任意の形式的ソフトウェアを使用してください。

Lean 4を使用してください。Dasyで働いているなら、グローバル企業で働いているなら、バイオファーマで働いているなら、薬物開発のために働いているなら、量子フィルタリングのためのスーパーコンピュータにアクセスできます。コンピュータプログラムがあります。

これをAIプロセスに統合してください。しかし、実際の決定は、チェックされた実際の形式的ソルバー、スーパーコンピュータセンターで行われるべきで、その結果がAIシステムに戻されるべきです。

自己進化するAIシステムがあるとき、この追加の知能は今どこから来るのかが分かりますね。それは、Lean 4または他の形式的ソルバー、または単にC++でエンコードされた複雑性ソルバーである他の知的ツールの力から来ています。もちろん、ここではスタンフォード大学、セールスフォースリサーチ、ノースカロライナ大学チャペルヒル校によって提示されたPythonコードインタープリタでも同様です。

少し楽しんでいただけたでしょうか。これが、自己学習AIマルチエージェントシステムで現在私たちがいる最先端の状態です。これは異なるフレーミングだったことが分かります。アーカイブ論文の正確な表現は実際には使用しませんでしたが、AI研究で現在私たちがどこにいるのか、少し深い洞察を提供したかったのです。

楽しんでいただけたことを願います。少し楽しんで、より深い洞察を得られたでしょうか。チャンネル登録していただけると素晴らしいです。チャンネルのメンバーになっていただけるかもしれません。とにかく、次の動画でお会いできることを願っています。