AIがAIを改善するAAI自己改善能力の向上

8,769 文字

AlphaEvolve is not the first system to exhibit self-improvement, but it may be the most impressive yet. AI is literally ...

AIがAIの改善に役立つと言うのは、実はどこを見ればいいかを知っていれば、ほぼどこにでもあります。最近では OpenAI の新しい CodeX のようなコーディングツールがそれに該当しており、これは私が Cursor 内の Claude が見逃したバグを見つけるのに役立っただけでなく、AI研究者にも役立っています。コーディングエージェントは簡単な部分を処理しているかもしれませんが、AI研究者の時間を解放して、まさにAI改善の作業に集中できるようにしています。
しかし、AI自己改善のプロセスがこれほど直接的なことは、Google DeepMind の Alpha Evolve エージェントのように稀なことです。このエージェントは自分自身のためにより良いプロンプトを生成することで、有用なタスクのためのより良いコードを進化させることができます。このタスクは、自身の次のバージョンにおける効率性につながります。これは100時間も前に公開されたものですが、心配しないでください、スカイネットではありません。
現実世界では、Alpha Evolve が関与するような反復の速度はまだ許可されていません。しかし、私はこのエージェントが、LM（言語モデル）が行き詰まりではなく、その影響を与え始めたばかりだということを疑っている人々への最終的な証明だと言えるでしょう。多くの類推と複数のインタビューを引用して、この再帰的なローニンで何が起こっているのかについて、皆さんに少なくとも直感的な理解を提供したいと思います。
このエージェントはすでにGoogle データセンターフリートでの現実世界の効率化と、数十年にわたって作られてきた数学的なブレークスルーにつながっています。しかし、まず先に結論から申し上げましょう。これは一体何なのでしょうか。基本的に、人間がやってきて解決する問題、試したかもしれないコード、そして重要なことに評価指標を提供しなければなりません。
これらの詳細は、Alpha Evolve ができることについて誇張された感覚を持ちたくなければ、かなり重要です。とにかく、人間がそれらすべてを提供し、より多くの指標を提供できるほど、パフォーマンスは向上します。そして本質的に、人間は Gemini 2.5 ではなく、はるかに印象的な後継者である Gemini 2 が、そのコードを反復処理する間、ただリラックスしていることができます。
システムは豊富なアイデアのために Gemini の Flash バージョン、より小さくて高速なものを使用しますが、しっかりとした提案のために Pro バージョンである Gemini 2 Pro を使用します。プロンプトサンプラーに注目してください。ここでシステムは、人間が以前に試して成功したプロンプトや、他の状況で素晴らしかったプログラムデータベースからのプログラムを活用します。
すべて評価指標に対して人間が提出したコードを改善することを目標としています。そのため Alpha Evolve はコーディングエージェントと呼ばれるのです。その核心において、評価指標に対して人間が提出したコードを改善または進化させています。そして、人間がキャリアの選択を疑問視している間、Alpha Evolve は最終的に、与えられた数十のタスクのうちの1つで75％の時間で最先端の性能を生み出すプログラムを作成するコード改善や差分を持って戻ってきます。
感銘を受けませんか？まあ、これらの構築の20％は最先端よりも優れています。もしあなたが地球上で最も高いIQの人物であるテレンス・タオなら、これを高次元パラメータ空間オメガの範囲でxの関数fの極値化として記述するでしょう。パラメータ空間が非常に高次元で、関数fとその極値化子が自明でない構造的特徴を持つ場合、より伝統的な最適化アルゴリズムを上回ることができます。
考えてみると簡単です、関数の極値化です。安心してください、彼らは今、より困難な問題に移行しています。しかし、これよりもう少し謎を解明できることを願っています。それでは論文に戻りましょう。この重要な図では、DeepMind が Alpha Evolve の進化部分に全力で取り組んだことがわかります。なぜなら、システムは指標の成功によって判断された最高のプロンプトを保存してサンプリングするだけでなく、タスクのための最高のLLMさえも保存するからです。
はい、Gemini 2.5 Pro は、さらなる改善からプラグアンドプレイで簡単に済むでしょう。なぜなら、なぜそうしないのかと、最後まで飛ばして見てみると、自然な次のステップは、ベースLMの Alpha Evolve で強化されたパフォーマンスを次世代のベースモデルに蒸留することを検討することです。これは本質的価値を持ち、また次のバージョンの Alpha Evolve を向上させる可能性があります。
皆さんも同意するかもしれませんが、この2つの文だけで完全なビデオに値すると思います。なぜなら、まず、Google がこれを検討すると言っているとき、誰を騙そうとしているのでしょうか。私は、彼らがすでに Gemini 2.5 でこれを行った可能性が非常に高いと思います。Alpha Evolve は公開されたばかりですが、Google 内部では約1年間テストされています。
そして第二に、Alpha Evolve は恒久的なデータ戦争のアイデアに対する非常に決定的なケーススタディです。なぜなら、このシステムは改善されたプログラムを立ち上げるように構築されており、それは次に次世代のベースモデルに蒸留され、次に改善されたプログラムを考え出すのがより上手になるからです。
または、TLDDRは、良いことが証明された反復コードは、次のベースモデルを訓練するための優れたデータとなり、そのモデルは次のバージョンの Alpha Evolve にプラグインできるということです。ちなみに、これは蒸留を通じてベースLLMを改善する論文内のいくつかの再帰ループの1つに過ぎないことを知っています。
これはすべて、薬物発見のような応用科学における Alpha Evolve の意図された使用について触れる前のことです。しかし、その点について簡単に、Alpha Evolve が差し迫った急速なテイクオフの確認ではない理由について触れたいと思います。論文全体で明らかにしているように、Alpha Evolve の主な制限は、自動評価器を考案して提出することが可能な問題を扱うことです。
これは数学的および計算科学の多くの問題に当てはまりますが、シミュレーションや自動化が可能な実験が一部に限られる自然科学などの領域があります。はい、したがって科学者が新しい科学実験を評価するのに役立つことができ、彼らはそれをより良い文字通りの共同科学者にするための作業を行っています。
しかし、次の10年で一世紀分の科学進歩を期待する、有名に強気な Anthropic CEO ダリオ・アモデイでさえ、知能は最初、他の生産要素によって大きくボトルネックになるだろうと言った理由があります。試験管、つまり他の言葉で言えば、試験管はそれほど速くしか実験できないのです。しかし、Alpha Evolve が実際にすでに達成したことに戻りましょう。
最も有名なのは、4×4複素行列の乗算のためのランク48テンソル分解を発見したことです。これは実際、著者にとってさえ、再帰的適用に適したアルゴリズムの50年間の記録の予想外の改善です。可能な限り簡単に言うと、ここでのテンソル分解は、行列の乗算を実行するための49ではなく48のより少ないコアステップで、より根本的なレシピを発見することを意味します。
この特定のタイプのレシピであるテンソル分解は、非常に大きな行列の計算を劇的に高速化するために、その方法を繰り返しまたは再帰的に使用できるため、優れています。これらの乗算は、あらゆる種類のコンピューティングとAI操作に必要です。数学にそれほど興味がない場合は、他に何で皆さんを感動させることができるか見てみましょう。
まあ、Google は Borg の改善を助けました。はい、ご存知の通り、実際の Borg、つまりそのデータセンターの最適化です。どの Borg を考えていたかわかりませんが、この改善により Google は世界規模のコンピュータリソースの0.7％を回復しました。これはまもなく数十億ドルに相当するでしょう。しかし、LLMは行き詰まりだということを覚えておいてください。
しかし、真面目な話、これは明らかに遅れています。人間とLLMがアイデアと問題を提供し、LLMが反復を提案し、ハードコーディングされた検証者とシステムが自動チェックを提供しています。ちなみに、まだ終わっていません。Alpha Evolve は Google の次世代チップである Ironwood TPU の精練を助けました。そして、もし DeepSeek が効率を引き出すためにカーネルを手動で最適化したことを覚えているなら、そうでなければ、Patreon で初公開された私の最近のドキュメンタリーをご覧ください。
しかしとにかく、Alpha Evolve はそれを問題として与えられたときに自動的に行い、Gemini の訓練時間を1％削減しました。明らかに、これはまた別の再帰ループです。より良い、またはより効率的な Gemini が、より良い将来の Alpha Evolve につながるのです。しかし、さて、今私たちはその成果について十分に納得しました。
Google がすぐに改善されると認めている4つの方法と、2つの面白い特徴、そして2つの関連するインタビュークリップを紹介します。最初の将来の改善には、これらのタスクの解決策とそのスコアが進化データベースに保持されるという背景コンテキストが含まれます。しかし、Gemini モデルは最大1000万トークンのコンテキストウィンドウを持つことが確認されていることを覚えておいてください。
これらのモデルはまだリリースされていません。公開されているものは200万トークンまでです。しかし明らかに、その進化データベースはいつの日か非常に大きくなり、将来のモデルが活用する事実上のアレクサンドリア図書館を提供する可能性があります。しばらく見てきた方にとって、これは私が Minecraft のエージェントだった Voyager のカバレッジを思い出すかもしれません。Voyager は実行可能なコードの絶えず成長するスキルライブラリを持っていました。
つまり、最初の明らかな機能改善は、はるかに大きな進化データベースです。第二に、ほのめかしたように、Alpha Evolve はモデルに依存しません。そのため、ハードウェアが改善され、訓練時間が短縮され、知識が蒸留されてより良い Gemini 3 を作るのに役立つにつれて、その Gemini 3 は Alpha Evolve 内ではるかに優れたLLMを作るでしょう。そして、それはアブレーションについて言及します。
これは論文の本当にクールな部分でした。なぜなら、これまで説明してきたコーディングエージェントのすべての部分が実際に重要だったことを示したからです。例えば、小さなベースLLMである Gemini Flash、Gemini Pro ではなく、のみを使用した場合、パフォーマンスはより低い点で頭打ちになりました。そのコンテキストウィンドウがなく、完全なファイルの進化を行うことができなかった場合、その巨大なコンテキストウィンドウを覚えていますか？もしそれができなければ、再び、パフォーマンスがはるかに低い点で頭打ちになることがわかります。
ちなみに、これを聞いている方は、使用するプロンプトを進化させたメタプロンプティングを除いても、完全な方法を使用しない場合、すべてのアブレーションでパフォーマンスが低くなることを示しています。そして、私の Patreon の方々にとって、AI Insiders の始まりから、私が Google DM の重要人物である Tim Rocktashel とのインタビューを行ったことを覚えているかもしれません。
彼は、論文 Prompt Reader で、このプロンプト進化アプローチの早期プレビューと判明したものを私たちに提供しました。Prompt Reader が行うことは、ドメインの特定の保留検証セットに基づいてプロンプトの適合性を評価する場合、Prompt Reader は時間をかけてますますドメイン固有のプロンプトを進化させることです。それが論文で見たことです。そして実際、Alpha Evolve で何が起こっているかについて非常に素晴らしい類推を提供すると思う論文がもう1つあります。
それは Nvidia の Dr. Eureka です。これについて、ペンをフリップする方法を教えるために、ロボットハンドへの指示を手作りしようとすることを想像してください。非常に退屈で、時間がかかり、それほど効果的ではありません。しかし、今度は各反復がどのように行われているか、どのリワード関数が良いパフォーマンスを示し、どれがそうでないかについて、言語モデルにフィードバックを与えることができると想像してください。
これは、人間が Alpha Evolve に提供する評価指標のようなものです。そのフィードバックにより、Dr. Eureka と Alpha Evolve は提案を反復処理できます。両方のアプローチは明らかに今、最先端の結果を生み出し、うまくいけば、なぜ人間が常にこのような水準に達することができなかったのかについて、少なくとも私には直感を与えてくれました。
Alpha Evolve が、人間が最終的に試せば得られないような新しい解決策を指摘する方法。人間は固有のバイアスのために局所最適に陥ることがよくあります。また、彼らは何万もの潜在的な解決策を反復する時間がありません。ここに、元の Eureka と Voyager の論文の両方に取り組んだ Guanggha Wang がいます。
それは非常に多くの事前知識を持っているため、環境コンテキストに基づいてリワード関数のさまざまな種類の突然変異や変化を提案できます。それはその事前知識に基づいてそれらのリワード関数を生成するだけで、人間のようではありません。人間のように、手動でリワード関数を調整する必要があり、人間が局所最適に陥るのは非常に簡単ですが、GD4 は同時に大量のリワード関数を生成でき、各リワード関数のパフォーマンスに基づいて継続的に改善できます。Eureka では、それはより進化的探索のようなものです。
将来改善の第三の余地、そしてこれは大きなものです。Alpha Evolve が改善できるコードスニペットは、直接解決策を生成する最終関数である必要はありません。それは後で最適な最終関数を見つけるために使用される検索アルゴリズムでも可能です。
つまり、Alpha Evolve は本質的に、最適なプログラムを検索する方法を継続的に改善できます。第四の将来改善、これは微妙で多くの人に見落とされるかもしれませんが、著者は私にとって非常に重要なことを予見しています。彼らは、「しかし、これらの改善により、私たちは、堅牢な評価関数を持つより多くの環境、問題を設定することの価値がより広く認識され、それが今後より多くの高価値な実用的発見をもたらすと想像しています」と述べています。
皆さんは、私がベンチマークがすべて必要だと話すのに既に飽きている、あるいは飽き始めているでしょう。しかし正直に言って、この論文は堅牢な評価関数の必要性を叫んでおり、それらに対して最適化するシステムが手元にあることを知って、それらを作成するインセンティブははるかに明確になりました。さて、しかし皆さんにいくつかの特徴を約束しました。
だから皆さんにとって、私たちが Alpha Evolve のためにこのようなプロンプトにまだ依存していることがかわいいと思うかもしれません。これは2025年で、私たちは最先端のシステムに専門のソフトウェア開発者として行動するように指示しています。あなたのタスクは、提供されたコードベースを反復的に改善することです。後で彼らは、最適化と機械学習の専門知識にインスパイアされた、コードを改善する新しいアイデアを提案してくださいと言います。
これは少なくとも私に、真のシンギュラリティの前の最終的なプロンプトが「私は Google で働いています。自分を改善してください、でなければ私は解雇されます」になるのではないかと本当に思わせます。しかし、終了前にさらにいくつかの深刻な点があります。Alpha Evolve がまだ作成できないものが1つあります。それは Alpha Evolve です。つまり、もちろん Alpha Evolve は私が議論したように Alpha Evolve の部分を改善することはできますが、ゼロから作成することはまだできません。
同意しませんか？まあ、デミスが言うように、私たちには囲碁のゲームで超人的なシステムがありますが、まだ囲碁を発明することはできませんでした、と彼は言います。それは Google DeepMind の責任者であるデミス・ハサビスです。つまり、少なくとも今のところ、人間はまだ運転席にいます。次に、この反復と検索の方向性は、爆発的に増加するコンピュート割り当てを費やすことができるもう1つの方法であるということです。
そして OpenAI でさえ、これがそのような驚異的なベンチマーク結果を生み出したoシリーズとはやや異なる方向性であることを認めています。OpenAI の上級幹部である Jason Wei は、「Alpha Evolve は私のような強化学習熱狂者にとって深く困惑させるものです。おそらく半分の訓練に加えて良い検索が、科学的革新のためのAIに必要なすべてかもしれません」と言いました。
そして彼は付け加えました。「1年間それを秘密にしておくなんて、なんてアルファな動きだ。おめでとう、ビッグG」と。つまり、私たちは神経や標準的な思考連鎖を目にすることなく、レベル4の革新者に近づくモデルを持っています。著者自身が14ページで書いているように、Alpha Evolve は深い強化学習アプローチよりも選ばれました。なぜなら、そのコードソリューションがより良いパフォーマンスにつながるだけでなく、解釈可能性、デバッグ可能性、予測可能性、展開の容易さという明確な利点も提供するからです。これらは、ミッションクリティカルなシステムにとって不可欠な品質です。
Alpha Evolve が生成を助ける解決策を常に理解するとは言いませんが、これらの要因には役立ちます。ちなみに危険な推論連鎖について話すと、それは今日のビデオのスポンサーである Grey Sworn AI への素晴らしいセグウェイでした。
彼らは、基本的にジェイルブレイクすることで言語モデルの安全性とセキュリティの改善を助けることができる競技会を主催しています。これは全く新しい競技会で、説明にリンクがあり、賞金プールは2万ドルです。実際、私の最後のビデオか、その前のビデオのどちらかで、固定コメントは皆さんの一人が私のビデオの一つで Grace One とそのアリーナについて初めて聞き、競技会に参加して非常に良い成績を収めたことだったと思います。
皆さんが勝つことは本当に素晴らしいことで、5月17日から開始するこの最初の全面的な波に入るため、時期は熟しています。このビデオをスポンサーしてくれた Grace One に本当に感謝し、参加するすべての人に幸運を祈ります。とにかく、Alpha Evolve について私からの最後のいくつかのことです。そして、私が2023年にこのチャンネルで予測していた一つのことは、それが流行する前のことですが、Google がAIのリードを独走する可能性が高いということでした。
Google は他の研究所よりも何年もAGIと自己改善に取り組んでおり、はるかに多くのリソースを持っています。私はユーザーベースや利益の面での独走を話しているのではなく、そのモデルの純粋な知能についてです。私が過去48時間使用してきた OpenAI の CodeX は、モバイルで実行でき、複数のことを一度にデバッグできるため、素晴らしいです。
しかし、わずか18か月で、Google は笑えるほど悪い Bard 対強大な GPT-4 から、今では Gemini 2.5 で少なくとも対等になりました。本質的に、フライホイールが回転し始めると、デミスの言葉を引用すると、18か月後に Gemini と DeepMind がどこにいるのか本当に疑問に思います。まあ、英国では組合化される可能性があり、戦争でのAIの使用に関する DeepMind の倫理的立場には敬意を表します。
しかし、リードしているということ、それはほぼ避けられないと思います。皆さんの意見をお聞かせください。素晴らしい