自己改善AIが登場…（Alpha Evolve）

10,353 文字

Self-Improving AI is here... (Alpha Evolve)

Try Zapier MCP for free today: My Newsletter for Regular AI Updates 👇🏼 The Best AI Tools👇🏼http...

これを聞いてください。56年間、特性ゼロの任意の体上で49回未満の乗算を用いるアルゴリズムの設計は未解決問題でした。Alpha Evolveは、48回の乗算を使用して2つの4×4の複素数値行列を掛け合わせるアルゴリズムを見つけた最初の手法です。Googleから新たに発表されたプロジェクトAlpha Evolveは、自己改善型人工知能の兆候を示しています。
Googleが「進化的コーディングエージェント」と呼んでいるものについて説明しましょう。こちらが論文です。「Alpha Evolve：科学的およびアルゴリズム的発見のためのコーディングエージェント」。この論文を読んだとき、非常に複雑なだけでなく、とても魅力的だったため、何度も読み直す必要がありました。
彼らが示しているのは、最先端の大規模言語モデルを組み合わせたシステムを使って、科学、数学、エンジニアリングなど、あらゆる分野に取り組む新しいアルゴリズムを提案、評価、進化させることが可能であるだけでなく、それがすでに実現していることです。そしてもちろん、レオポルド・ダッシェン・ブレナーによる「インテリジェンス・エクスプロージョン」に言及せずにはいられません。
このグラフは何度も引用していますが、それだけ関連性があるのです。私たちはまさにここ、変曲点にいると思います。なぜなら、自動化されたAI研究こそがこのインテリジェンス・エクスプロージョンを起こすために必要なものだからです。人工知能が自己改善できるようになると、それは複合的な効果をもたらし、唯一の制限要因はGPUに投入できる電力だけとなります。その時点で、私たちはスーパーインテリジェンスに到達するでしょう。
自己改善型人工知能を実現するために絶対に不可欠なことの一つは、AIが新しい知識を発見する能力です。サム・アルトマンとOpenAIチームはそれが来年実現すると言っていますが、Googleが先を越したようです。すでにここにあるのです。新しい高価値の知識を発見するには一般的に、アイデア創出、探索、バックトラック、見込みのない仮説の排除、実験、検証という長期的なプロセスが必要です。
これは通常、人間によって行われ、新しい知識の発見において私たちは大きなボトルネックとなっています。人工知能に支援されている場合でも、標準的なコンピューティングに支援されている場合でも、私たちはまだ制限要因です。そしてプロセスから私たち自身を取り除くことができる速度が速ければ速いほど、新しい知識を発見できる速度も速くなるでしょう。
「私たちは、進化的計算とLLMベースのコード生成を組み合わせたAlpha Evolveと呼ばれるLLMコードスーパー最適化エージェントを提案します」。これが何を意味するのかわからなくても心配いりません。すべて説明します。まず、進化的計算とは何でしょうか？複雑に聞こえますが、実はそうではありません。
基本的には、問題を解決するためのコードを提案し、それが問題を解決するかどうかを判断し、解決しない場合は再試行し、解決する場合はより良くできるかどうかを確認するというものです。既知の問題を解決するための最良のコードを見つけようと何度も繰り返すループを想像してみてください。
そのプロセスがどのようなものか見てみましょう。そして、各ステップを詳しく説明します。まず、人間が「解決方法がわからない既知の問題は何か」を定義します。次に、モデルにプロンプトを作成させます。プロンプトには明らかに問題、与えたいヒント、正しい方向に導くのに役立つ過去の研究、基本的にAlpha Evolveに提供したいその他のものが含まれます。それから、LLMアンサンブルに渡されます。これは、最良の解決策を考え出すために協力して作業する複数のモデルです。
解決策が提案されたら、評価者に渡します。ここでプログラムによる評価ができなければなりません。つまり、コードを使ってテストできる必要があります。これが聞き覚えがあるとすれば、まさに検証可能な報酬を伴う強化学習そのものです。
コードを使って検証できる問題の解決策があれば、人間は必要なくなります。したがって、本質的にセルフプレイを行い、多くのことを試して、何が最も効果的かを自分で理解できるようになります。これはAlpha Goが機能した方法と同じです。囲碁で超人的になった人工知能です。
そしてAlpha Foldも同じ仕組みで、今度はAlpha Evolveです。Googleから「Alpha」という名前が出てくるときは、常にその研究の流れにあるということです。そこから、評価を保存します。将来のイテレーションのために過去に行ったことを参照できるように、コードをプログラムデータベースに保存します。同じことを二度と行わないようにし、テストするための本当に多様なアイデアを確実に持つためです。
これが1回の反復です。これを1000回または100万回行うことを想像してみてください。その時点での制限は、実際にどれだけの計算能力を投入できるかということです。そしてそれがインテリジェンス・エクスプロージョンにつながるものです。LLMやトランスフォーマーアーキテクチャの根底にあるこれらのアルゴリズムのいずれかでわずかな改善が得られるたびに、この反復を実行するたびにそれが乗算され、それはただの超複合効果なのです。
論文にあるように、「LLM主導の進化プロセスは、コード実行と自動評価を使用して真実性を確保しています。この評価メカニズムにより、Alpha Evolveはベースとなるモデルからの不正確な提案を回避できます」。これらすべてが非常に複雑に聞こえるかもしれませんが、複雑でないのは今日の動画のスポンサーであるZapierです。
彼らは何千ものMCPツール用のMCPサーバーをリリースしました。Zapierについてお伝えできることにとてもワクワクしています。私は文字通り10年以上彼らを使用しています。以前の会社でも使用し、今日も使用しています。そして今、何千ものツールがMCPサービスを通じてあなたのエージェントや人工知能で利用できるようになりました。
ぜひこれをチェックしてください。ZapierのMCPを使って、あなたのAIを任意のアプリに接続できます。Zapierは長い間、業務自動化を行ってきたので、何をしているのか正確に理解しており、利用可能なツールがたくさんあります。そして、セットアップは非常に簡単です。MCPサーバーに追加したいアプリを設定するだけです。
彼らはURLを提供し、WindsurfclawデスクトップカーソルやMCPツールを使用する他の場所に接続できます。MCPサービスの一部として、または直接自動化をセットアップしたい場合に使用できる7,000以上のアプリがあります。コードを1行も書かずにすべてをセットアップできます。無料プランから始めて、必要に応じてスケールアップできます。
ぜひZapierをチェックして、MCPサーバーをセットアップし、Coen 3に接続して試してみてください。どう思うか教えてください。すべてのリンクを下に掲載します。Zapierに再度感謝します。さて、ビデオに戻りましょう。
Alpha Evolveは実際には進化的コード生成を使用した最初の研究プロジェクトではありません。Alpha Evolveは、新しい数学的オブジェクトを構築したり、オンラインアルゴリズムの操作を駆動したりするためのヒューリスティック（ルールの別の言葉）を発見するためにLLMガイド付き進化を使用したFun Searchの大幅な拡張です。基本的には、先ほど説明した反復ループを使用して、より最適化された数学オブジェクトやオンラインアルゴリズムを見つけています。
Alpha Evolveは最先端のLLMを活用して、複数の機能やコンポーネントにまたがる複雑なアルゴリズムを実装する大きなコードを進化させます。つまり、このように考えてください。問題があります。問題は、正解か不正解かを検証するためのソフトウェア、プログラムを使用して検証可能です。LLMがコードを提案し、それからコードを変更し続け、その問題を解決するための最良のコードバージョンを見つけるまでコードを進化させ続けます。
Fun SearchとAlpha Evolveの違いをいくつか説明しましょう。Alpha Evolveは以前のFun Searchと比較して大幅な飛躍です。Fun Searchは単一の関数のみを進化させますが、Alpha Evolveはファイル全体のコードを進化させることができます。Vibe Codingを行っているところを想像してください。変更を加えると、コードベースの複数のファイルを同時に変更できます。それがまさに話していることです。10〜20行のコードを進化させるのに対し、Alpha Evolveは数百行できます。
Fun SearchはPythonですが、Alpha Evolveは任意の言語に対応します。Fun Searchは高速評価が必要で、1つのCPUで20分未満です。ここが重要な要素です。Alpha Evolveはアクセラレータ、GPUまたはTPU上で並列に何時間も評価できます。それを想像してみてください。並列で実行されている数千、数百万、あるいは数十億ものエージェントが、24時間年中無休で新しい知識を発見しようとしているのです。
そして今、サム・アルトマンやスンダー・ピチャイを含む多くの人々やその他のテクノロジーCEOが、AIにはすべての病気を解決する可能性があると言っている理由がわかります。これを健康に向けて、がん治療のためにさまざまな薬の組み合わせを常に試すことができるようにすると想像してみてください。そこには非常に多くの可能性があり、未来がとても楽しみです。
自動評価指標について話しましたが、基本的に、これが機能する唯一の方法は、解決策が正しいか間違っているか、または何であれ指標をプログラム的にテストできるかどうかです。しかし、それはまた重要な制限要因でもあります。なぜなら、解決策をプログラム的にテストできない場合、Alpha Evolveは機能しないからです。
ですから、「手動実験が必要なタスクは範囲外です」とここに書かれています。そして、なぜこれらの思考モデル、01、03、Gemini 2.5 Proなどがコーディングに非常に優れているのか不思議に思っているなら、これがその理由です。検証可能な報酬を伴う強化学習です。自動評価と同じ原理です。
検証可能な報酬を伴う強化学習では、報酬プロセスから人間を排除できます。そのため、人間が「はい、それは正しいです」「いいえ、それは間違っています」と言う必要がなく、代わりにプログラム的な方法で行うことができ、これが前線の思考モデルが作成され、その思考プロセスを開始できる方法です。そしてAlpha Evolveが行うことができた問題や最適化のいくつかは実際に非常に興味深く、本当に意味があり価値があります。
Googleはこれらのいくつかの最適化を取り入れ、TPUやGoogleサービス全体に展開しています。では、実際にはどのように機能するのでしょうか？まず、評価指標とユーザーが必要です。これは、このAlpha Evolveのフロー全体で人間が必要な数少ない時間の一つです。
生成されたソリューションを自動的に評価するメカニズムをAlpha Evolveに提供する必要があります。そこから、グリーンフィールドで始めることができ、基本的にAlpha Evolveにほとんど何も与えずにそこから進化させることができます。または、コードやコードベースに割り当て、コードベースのどの部分を進化させたいかを指示することもできます。具体的には、APIを通じて行われ、コードのブロックはシステムによって注釈を付けられ、進化することができます。その見た目はこのようになります。
コードには文字通り「evolve block start」と「evolve block end」を入れ、Alpha Evolveが作業を開始します。したがって、初期コードは必要ですが、望む限り基本的なものでかまいません。「このような評価ブロック内のユーザー提供コードは、Alpha Evolveによって改善される初期解として機能します。この初期実装は完全である必要がありますが、基本的なものでかまいません。例えば、適切な型の定数を返す1行の関数で構成されていてもよいです」。
実際には何も解決する必要はなく、少し構造を提供するだけで、そこから始めることができます。そして興味深いことに、Alpha Evolveはモデルに依存しません。つまり、どのモデルでも使用できます。
もちろん、GoogleはGemini系モデルを使用していますが、技術的には希望するどのモデルでも使用できます。そして、彼らが発表したすべての信じられない結果で驚くべきことは、Gemini 2.0だけを使用していたことです。彼らはまだGemini 2.5を思考機能付きで使用しているわけではありません。そしてこれが重要な理由です。
「基礎となるLLMが改善されるにつれて、Alpha Evolveのパフォーマンスが向上することが観察されます」。再び、その複合効果です。モデルが自己改善するにつれて、自己改善がより良くなるため、自己改善がさらに向上します。今、なぜ私がインテリジェンス・エクスプロージョンを常に参照しているのかわかるでしょう。さて、コードの見た目はこのようになっています。
これは単なるコメントです。「evolve block start」、「evolve block end」。つまり、ここのコードを進化させてくださいと言っています。さらに「evolve block start」、「evolve block end」があり、ここのコードを進化させてくださいと言っています。そして、出力はこのようになります。基本的に差分です。
そして、提案された解決策が示されます。では、使用されたモデルについてもう少し話しましょう。Gemini 2.5 FlashとGemini 2.0 Proの組み合わせを使用しています。再度言いますが、2.5ではなく、それを見たいところです。では、なぜこの2つのモデルを使用したのでしょうか？Gemini 2.0 Flashはレイテンシが低いため、候補生成の割合が高くなります。
候補生成とは単に試す新しいコードのことであり、Flashを使用することで単位時間あたりに探索されるアイデアの数が増加します。同時に、より高い能力を持つGemini 2.5 Proは、時折より質の高い提案を提供し、進化的探索を大幅に進め、ブレークスルーにつながる可能性があります。
いつものように、最も高い知性を持つモデルを持つことだけではなく、速度も重要です。次に評価ステップに移ります。LLMによって提案された各新しい解決策は自動的に評価されます。それは単にユーザー提供の評価関数Hを実行しています。つまり、再度、これが私が探しているものです、成功と失敗をどのように定義するかを伝える必要があります。
しかし、その評価アルゴリズムだけでなく、他のこともできます。つまり、評価カスケードがあり、これはユーザーが難易度の増加するテストケースのアンサンブルを指定できることを意味し、新しい解決策は、以前のすべてのステージで十分に有望な結果を達成した場合にのみ、次のステージで評価されます。
LLM生成フィードバックも可能です。一部のアプリケーションでは、望ましい解決策には特定の特性があり、ユーザー提供の評価関数で正確に捉えることが難しいことがあります。そして並列評価もあり、つまり同時に多くの評価を行うことができます。繰り返しますが、これをスケールアップすることは非常に魅力的に思えます。
次にシステムはスコアを提供します。Alpha Evolveは複数のユーザー提供スコアを最適化できます。その後、進化が起こります。Alpha Evolveは評価結果を持つ増え続ける数の解決策を継続的に生成します。それらは私が示した進化データベースに保存されます。それから将来の世代で以前に探索されたアイデアを最適に再浮上させます。
そして彼らは、すべての候補生成と評価結果を保存するこのデータベースを設計する上での重要な課題は、探索と活用のバランスを取る必要があることだと述べています。新しい潜在的な解決策を探索することと既存のものを深く掘り下げることのバランスをとり、最高のプログラムを継続的に改善しながら、検索空間全体の探索を促進するための多様性を維持することです。
では、いくつかの結果を見てみましょう。これらはベンチマークではなく、数学、科学、エンジニアリングに実際の価値をもたらす改善です。まず論じているのは、行列乗算の速度を上げる方法を見つけることです。行列乗算について聞いたことがあるなら、それは基本的に人工知能などすべてを支える数学であり、それ以上のものですが、最近はそれで知られています。
基本的に、最先端の行列乗算アルゴリズムを取り、Alpha Evolveに与え、1960年代以来初めて、行列乗算の最適化を発見することができたのです。こちらが計算する行列のさまざまなサイズです。こちらがそれを解くのに必要な既知の最良の乗算回数です。
そしてこちらがAlpha Evolveです。5x5x5を除いてほぼすべてのケースで、この行列計算を行うのに必要な乗算回数の削減を見つけることができました。大したことないように思えるかもしれません。33対32ですが、これらのアルゴリズムが1秒あたり、GPUあたりでも何回実行されなければならないか想像してみてください。
単一のGPUでも何兆回も実行されます。そして、それを世界にあるGPUの数、非常に多くで掛け合わせてください。これらの小さな改善は、スケールでは大きな改善となります。そして行列乗算だけでなく、他の数学も最適化していました。これを聞いてください。
「私たちはAlpha Evolveを、分析、組合せ論、数論、幾何学を含む5つ以上の異なる数学分野にまたがる50以上の厳選された数学問題に適用し、多数の特定のパラメータ設定で評価しました。75%のケースで、Alpha Evolveは既知の最良の構成を再発見しました。そして20%のケースでは、以前に知られていた最良の構成よりも優れた新しいオブジェクトを発見し、最先端を改善しました」。
つまり、75%のケースで、数学オブジェクトに関して人間が現在知っている最適解に基本的に到達することができました。そして20%のケースでは、既存の最良の数学オブジェクトを上回ることができました。そしてこの数学は単純ではありません。これを見てください。人間として扱わなければならない複雑な式、複雑なオブジェクトです。そして今、AIはそれを行い、私たちよりも優れることができます。
いいでしょう、数学に取り組んでいます。それが実際に私たちにどのように役立つのでしょうか？Googleのコンピューティングエコシステムも改善することができました。Googleが信じられないほど大量のトラフィックを分散させる方法を改善する方法を見つけることができたのです。そしてこれがすべて理論だと思うなら、Alpha Evolveの発見はすでに世界中のGoogleサービスに展開されています。「ここでは、Alpha Evolveがミッションクリティカルなインフラのパフォーマンスを向上させ、実際の影響を与えるためにどのように使用されたかを示します」。
では、これが何なのか説明しましょう。これは魅力的です。マシンのクラスターに計算ジョブを効率的にスケジュールすることは重要な最適化問題です。Googleで検索を入力するとき、他の10億人も同時に行っており、サーバーの数が限られていることを考えてみてください。
だから、この検索をどのサーバーにルーティングするかを考える必要があります。これをGoogleのすべてのサービスに当てはめると、Googleのインフラの規模が理解できます。そのため、すべてのインフラと受信トラフィックを管理しバランスを取るための複雑なアルゴリズムが必要です。
このタスクには、ジョブのリソース要件とマシン容量に基づいて、利用可能なマシンにジョブを割り当てることが含まれます。Alpha Evolveの初期バージョンは、本番環境の既存のものから進化した、驚くほど単純かつ効果的なヒューリスティック関数を発見するために使用されました。彼らはすべてのコンピュートを分散させるための既存のアルゴリズムを取り、Alpha Evolveに与えました。
するとAlpha Evolveは「ちょっと待って、わかりました。これがより良いバージョンです」と言いました。「Alpha Evolveのヒューリスティック関数が本番環境のものよりも優れていることを観察し、Alpha Evolveのヒューリスティック関数をフリート全体に展開しました。その後、Googleのフリート全体での展開後の測定がシミュレーター結果を確認しました」。
もちろん、展開する前にシミュレーションしましたが、展開後にはうまくいきました。このヒューリスティック関数は、Googleのフリート全体のコンピュートリソースの平均0.7%を継続的に回復し、それ以外の場合はストランディングすることになります。0.7%が大したことないように聞こえるなら、再度、何兆ものリクエストに乗算してみてください。
Alpha Evolveのソリューションは、そのコードソリューションがパフォーマンスの向上だけでなく、解釈可能性、デバッグ可能性、予測可能性、および展開の容易さにおいても明確な利点を提供するため、深層強化学習よりも選ばれました。決定論的対非決定論的です。Alpha Evolveはまた、Geminiの基盤となるコードも改善しました。
これは真に自己改善型人工知能です。要するに、彼らはAlpha Evolveを使って、Gemini系列モデルの基盤となる行列乗算カーネルの一部を改善し、既存の専門家設計のヒューリスティックと比較してすべてのカーネルで平均23%のカーネル高速化を実現し、Geminiの全体的なトレーニング時間を1%削減しました。Alpha Evolveの使用により、カーネル最適化時間が数ヶ月の専任エンジニアリング作業からわずか数日の自動実験に大幅に短縮されました。
これがすべてが加速しているように感じられる理由です。自己改善型AIにとても興奮している理由です。それはとても複合的な効果だからです。彼らはまた、TPUアーキテクチャのハードウェア設計を改善するためにも使用しました。Alpha Evolveは、行列乗算ユニット内の重要なTPU算術回路の高度に最適化されたVerilog実装を最適化するという課題に取り組み、不要なビットを削除する単純なコード書き換えを見つけることができました。これはTPU設計者によって正確性が検証され、今後のTPUに統合されています。この改善は、Alpha Evolveを通じて実現されたGeminiによるTPU算術回路への最初の直接的な貢献を表しています。
しかし、まだ終わっていません。トランスフォーマーアーキテクチャも改善しました。「注目はすべて必要」を覚えていますか？それはこの人工知能の波全体を始めたGoogleからの元の論文でした。それはトランスフォーマーアーキテクチャと呼ばれています。そしてAlpha Evolveはそれを改善しました。「Alpha Evolveは意味のある最適化を提供することができました。まず、関心のある構成のフラッシュアテンションカーネルが32%高速化されました。第二に、Alpha Evolveはカーネル入力と出力の前処理と後処理の改善を見つけ、この部分で15%の高速化をもたらしました」。
つまり、すべての部品を見つけて改善しています。そして去年のことを覚えていれば、Sakana AIはAI科学者を持っていました。同じようなものですが、より科学的発見のためのもので、そしてAI科学者2も持っていました。
そのため、コアのLLMインテリジェンスを足場で包んで新しい知識を発見するプロジェクトがたくさんあります。それから、最近「アブソリュート・ゼロ」という論文もあり、これはトレーニングを開始して改善するのに人間がキュレーションしたデータを必要とせず、実際にとてもうまく機能しました。
これをこれに適用することを想像してみてください。そうすると突然、Alpha Evolveに開始点を与える必要がなくなります。ただ「出かけて楽しんで、私のために新しい知識を発見して」と言うだけです。今日はこれで終わりです。この論文は素晴らしかったです。それ自体が進化していくのを見るのが待ちきれません。この動画を楽しんでいただけたなら、ぜひ高評価とチャンネル登録をお願いします。