Googleの新しい「AlphaEvolve」の衝撃的な能力

10,468 文字

Google's New "AlphaEvolve" SHOCKING Ability...

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Googleディープマインドが先日AlphaEvolveを発表しました。この論文を見逃す人が多いと思いますが、ぜひ注目すべき点が2つあります。簡単に説明すると、AlphaEvolveはコードや数学、その他の作業を改善するAIシステムです。その核心にはGemini 2.0 Proなどの大規模言語モデルがあります。
しかし、重要なのは論文の15ページあたりに埋もれている情報です。そこにはこう書かれています。「この展開はまた、GeminiがAlphaEvolveの能力を通じて自身のトレーニングプロセスを最適化する新しい事例でもある」
これはどういう意味でしょうか？「新しい事例」とは、これまで見たことがない現象だということです。これは新しいGeminiです。つまり、私たちの大規模言語モデル、私たちのAIがこのAlphaEvolveを使用しているということです。これはGoogleディープマインドが考案したプロセスで、すぐに詳しく説明します。簡単に言えば、私たちのAIモデルであるGeminiと、それに与えたいくつかのツールを組み合わせたものがAlphaEvolveです。そしてこれが自身のトレーニングプロセスを最適化しています。
つまり、この文章は「これは新しいことだ。私たちはAIにいくつかのツールを与え、それが自分自身を改善した」と言っているのです。これはかなり大きな出来事のように思えますが、さらにすごいことがあります。
TPU（Tensor Processing Unit）についてご存知かもしれません。これはGoogleのAIチップです。NvidiaのGPUと同様に、これらのAIが実行され、トレーニングされるハードウェアです。GoogleのテクノロジーがTPUです。これらのチップの設計は複雑で時間のかかるプロセスで、何年もかかります。高度なスキルを持つエンジニアによる何ヶ月もの懸命な作業が必要です。
これは難しく、高価で、非常に長い時間がかかります。このビデオで見るように、Gemini LLMによって駆動されるAlphaEvolveは、コードを書き換え、不要な部分を削除し、基本的にそれが実行されるハードウェアスタックを改善することができました。
ここに見られるように、この改善はGeminiがTPU回路に直接貢献した最初の例です。この初期の探索は、彼らがLLM駆動のコード進化と呼ぶこの新しいアプローチ（この「進化」という言葉は非常に適切です）がハードウェア設計を支援することを示しています。
このチャンネルでは何度も見てきた図があります。それは知能爆発のアイデアです。これはLeopold Ashen BrenerがOpenAIで提案したものですが、彼だけではありません。多くの人々がこれを今後数年間に展開される可能性のある未来として指摘しています。
もちろん、議論は山ほどあります。誰もがこのアイデアに賛同しているわけではありません。ちなみに、このチャンネルに登録してください。冗談ですが、登録しておいて損はありません。
しかし、アイデアは単純です。ある時点で、AIがAI研究を行い始めるということです。彼らはこれを「再帰的自己改善」と呼んでいます。これらのAIはオフィスを歩き回ったりコーヒーを入れたりすることはできませんが、コンピュータ上で機械学習研究を行うことができます。彼らは昼夜を問わずアルゴリズムのブレークスルーに取り組むことができます。
この図では、彼は2027年頃をAI研究が自動化され、機械、これらのAIシステム、これらのニューラルネットが現在の人間のエンジニアよりも研究を行うのが上手になる転換点として指摘しています。
繰り返しますが、多くの人々はそれが起こるとは信じておらず、純粋なSFだと考えていますが、この論文を見るときに自問してください。これは2025年です。あなたはここにいます。小さな矢印を描きましょう。Xがその場所をマークしています。これが私たちが今いる場所です。
そして、これはAlphaEvolveが発表された日です。論文が発表され、一部の学術研究者も利用できるようになります。しかし、このAIモデルが行った発見や最適化の一部はすでにGoogleによって実装されており、1年以上前から実装されています。
ここにあります。AlphaEvolveは非常に単純な改善を提案し、この解決策は1年以上前から本番環境で使用されています。つまり、1年前から、このAIシステムが提案したいくつかのことが、Googleの広大なインフラ全体で本番環境に導入されているようです。
そしてそれは継続的にGoogleの世界中のコンピューティングリソースの一部を回収しています。それは1年前のことでした。私の質問は、2028年末にはどこにいるのかということです。あなたの考えを教えてください。人々がこれを見る必要があると思うので、ぜひ高評価をつけてください。詳しく見ていきましょう。
Googleディープマインドが先日、高度なアルゴリズムを設計するためのGemini搭載のコーディングエージェント、AlphaEvolveをリリースしました。このものは他のリリースほど派手ではありませんが、私たちの行うことを非常に基本的なレベルで改善することができます。これはGoogleディープマインドからの新しいAIエージェントで、アルゴリズムを進化させます。
彼らは「進化」という言葉を軽々しく使っていません。これは本当に進化的なコーディングエージェントです。これは基本的に2つの部分からなると考えることができます。ここで述べるように、彼らは大規模言語モデルの創造性と自動評価器を組み合わせています。これは数日前に取り上げたabsolute zero reasonerと少し似ています。
absolute zeroでは、2つのAIがありました。1つは提案者で、コーチのように障害物コースをセットアップします。もう1つは解決者で、障害物コースを通過して解決するモデルです。この場合、彼らはコーディング問題を解決していました。
AlphaEvolveは全く同じではありませんが、出力を提供する大規模言語モデルの軍団と、それらの出力をランク付けし、テストする評価者がいるという類似の概念があります。
興味深いことに、AlphaEvolveでは、基本的に私たちがGoogleのAIスタジオやGeminiアプリで使用できるのと同じモデルを使用しています。実際、現在利用可能な最新のモデルでさえありません。論文に見られるように、彼らはGemini 2.0 FlashとGemini 2.0 Proの組み合わせを使用しています。
これらのモデルは回答を検証する自動評価器と組み合わされています。これはどれほど大きな問題なのでしょうか？彼らはこれで何を達成することができたのでしょうか？
このプロセスはすでにGoogleのデータセンター、チップ設計（実際のハードウェア、チップの設計）、およびAIトレーニングプロセスの効率を向上させました。
さらに、AlphaEvolve自体の基盤となる大規模言語モデルのトレーニングも含まれています。つまり、AlphaEvolveは部分的にGemini 2.0によって駆動されていますが、Gemini 2.0をトレーニングするためのより良いアルゴリズム、つまり自分自身をトレーニングするアルゴリズムを設計しています。それは一種の自己改善を行っており、また高速な行列乗算と未解決の数学問題に対する新しい解決策を設計し、多くの分野での応用に信じられないほどの可能性を示しています。
重要なのは、それが非常にオープンで多用途であり、多くの異なる最適化および計算問題に適用できるということです。
例えば、ここにストラッセンのアルゴリズムがあります。これは行列乗算に使用され、1969年に発表されました。AlphaEvolveは、4×4の複素数値行列を乗算するために48の乗算を使用するアルゴリズムを発見することで、このアルゴリズムを改善しました。
重要なのは、50年以上の間、このアルゴリズムの改善を誰も見つけることができなかったのに、AlphaEvolveがそれを行ったということです。
ご覧のように、このシステムが改善できる応用分野は多くあります。すでにいくつかの大きなものが最適化されています。どのようにしてそれを行うのでしょうか？
それは、Geminiモデル、つまり高速で効率的なモデルであるGemini Flashを組み合わせています。これは、より多くのアイデアを生み出すと考えることができます。一種のブレインストーミングのようなものです。一方、強力なモデルであるGeminiは重要な深さと洞察提案を提供します。
彼らは2.0 Proを使用していることに注意してください。2.5 Proは現在一般に利用可能で、近い将来にさらに大きなものが登場することが期待されています。おそらく2.5 Ultraです。
現在、人間の科学者やエンジニアにはまだ多くの作業があるようです。AlphaEvolveはその多くを処理しますが、まだ設定が必要です。ここでは緑色で表示されているのが科学者またはエンジニアです。彼らは緑色のものを提供します。青色のすべてはAlphaEvolveです。
科学者は「何を」提供し、AlphaEvolveは「どのように」処理します。私たちにはプロンプトサンプラー、LLMのアンサンブル（この場合、Gemini FlashとPro）、様々な評価者プールと自動評価コードがあります。それらがどのように行ったかはすぐに説明します。なぜなら、その方法は実際にかなり興味深いからです。また、プログラムデータベースも提供されています。
これは私たちが改善しようとしているものです。概念的に簡単な考え方として、例えばピックアップトラックやU-Haulのようなものを積み込もうとしていて、そこに収める必要があるいくつかの箱や家具があり、できるだけ多くの箱を積み込むためにできるだけスペースを節約しようとしているとします。
おそらく、あなたの心の中に実行する既存のプログラムのようなものがあるでしょう。最初の箱をトラックの左奥に置き、それから箱を追加し続けるなどです。私たちは皆、何らかのアプローチを持っています。私たち全員がテトリスをプレイしたことがあります。おそらく全員が引っ越しをして、できるだけ多くの箱を車やトラックなどに詰め込むという練習に従事したことがあるでしょう。
非常に単純に言えば、AlphaEvolveがここで行うのは、それらの箱を詰め込むための多くの異なるアプローチを考え出すことです。それらのアプローチを評価し、最終的な評価コードでは、新しいアプローチがあなたが行っていたアプローチよりも多くの部屋を節約するかどうかを確認します。そして最終的に最高のプログラムが生まれます。
これはかなり単純ですが、複雑さは彼らが設計した進化プロセスにあります。評価関数は基本的に最高のバージョン、最高の提案が生き残り、改善されることを可能にします。LMが有望な解決策を提案した場合、その評価に反映され、より類似した解決策を作成しようとします。
これは論文からのもので、彼らが評価を行う方法です。AlphaEvolveの進捗を追跡し、将来の世代で伝播するアイデアを選択するために、LMSによって提案された各新しい解決策は自動的に評価されます。
例えば、3つの解決策が提案された場合、それらは評価されます。これが最も良いもので、最高のスコアを持っているとします。これら2つはそれほど良くありません。これは発展し、進化を続けることができるものです。ここから他の良いものを見つけるかもしれませんが、それぞれが評価され、自動的に評価されます。
彼らはこのプロセスをより迅速かつ効率的にするためにいくつかの異なるアイデアを持っています。1つは評価カスケードです。これらの様々なアプローチ、アイデア、仮説をテストする際に、一般的に簡単なテストから始めます。
彼らは難易度が増すテストケースから始めるかもしれません。これらの新しい解決策は簡単なものに対して迅速に評価され、次第により難しいテストに進みます。これにより、あまり有望でない解決策を迅速に除外することができます。
また、LLMモデル自体もフィードバックを生成します。例えば、望ましい解決策のいくつかの特性は、ユーザーが提供する評価関数で正確に捉えることが難しいものです。例えば、新しく発見されたプログラムの単純さです。これらの特性は別のLM呼び出しを使用して評価され、スコアの辞書に追加されて進化を導くことができます。
一部の基準は、1から10のスケールでの速さや、行列乗算の場合の手順の数など、数値に還元できますが、他のいくつかのことは単に定量化するのが難しいです。ここでLMSが登場し、特定の解決策や特性を説明したり、その解決策がどれだけ良いかを評価するために使用できるメモを追加したりすることができます。
これらの評価関数は並行して実行できます。もちろん、これらの個々の評価を一つずつ実行すると、新しい世代が現れる速度が本当に遅くなります。
進化に関しては、一つの重要な課題は、探索と活用のバランスを取るようにこれらのものを設計することです。探索とは、何が機能し、何が機能しないかを確認するためにあれこれ試してみることです。私たちは必ずしも、例えば、勝つことに集中しているわけではありません。活用とは、機能するものを見つけた後、それを使用して、いわゆるポイントを積み上げようとするものです。これは強化学習で使用するのと同様のアプローチです。
興味深いことに、人間がどのように機能するかを考えると、私たちは若い頃にはより探索的であり、年を取るにつれて何が機能するかを把握し、それに固執する傾向があります。私たちはおそらく「活用」という言葉を使用しないでしょうが、年を取るにつれて何が機能するかを把握し、それに固執する傾向があります。私たちは若い頃の方がアイデアに対してより開放的で、新しいことを試みる傾向があります。
これは、データセンター、ハードウェア、ソフトウェアを含むGoogleの実際のコンピューティングエコシステムを最適化するために彼らが使用したプロセスです。広範囲のことを考えると、これらの小さな節約と効率の改善は、Googleの全体にわたって倍増されることになります。
これは簡単に数百万ドルの節約になる可能性があります。これらの小さな基本的な改善は、インフラ全体にわたって本当に複合されます。Googleには、広大なデータセンターを調整するシステムがあります。それは「Borg」と呼ばれています。もちろん、他に何があるでしょうか？Googleの一部の人々はおそらくそれをそう名付けることに抵抗しようとしたと思いますが、ご想像の通り、抵抗は無駄です。
そしてその解決策は現在1年以上本番環境で使用されており、継続的にGoogleの世界中のコンピューティングリソースの平均0.7%を回復しています。
AlphaEvolveのもう一つの勝利は、行列乗算のための既に高度に最適化された算術回路を改善したことです。この提案はすでにTPU（テンソル処理ユニット）に統合されています。これはGoogleの独自のチップ、AIアクセラレーターです。
NvidiaがGPUを持っているように、Googleの独自のバージョンはTPUと呼ばれています。これは少し異なりますが、TPUと呼ばれています。ここでAIは自身のAIのトレーニングと推論を強化しています。
ハードウェア設計とこの間で、ご覧のように、ハードウェアとソフトウェアの両方にわたって自己改善を行っているようなものです。
ここでは、大きな行列乗算操作をより管理しやすいサブプロセスに分割するよりスマートな方法を見つけることで、Geminiのアーキテクチャの重要な部分を23%高速化し、これによりGeminiのトレーニング時間が1%削減されました。
これらのAIモデルのトレーニングに投入できるリソースの量は膨大であり、一部の大きなものではその量が膨大になる可能性があります。そしてスケーリング法則により、それが増加することが予想されます。
1%は多くないように聞こえるかもしれませんが、それはGoogleにとって資本だけでなく、エネルギー、時間などの面でも大きな節約に変換されます。
論文の興味深い点は、AlphaEvolveのようなものが人間をより高レベルのタスクのために解放するというアイデアです。ここでは、全体のトレーニング時間が1%削減されたことについて言及しています。
しかし、それに加えて、AlphaEvolveの使用により、カーネル最適化時間が専任エンジニアによる数ヶ月の作業から自動化された実験のわずか数日に大幅に削減されました。つまり、この作業に完全に集中している人間の数ヶ月から、この作業を行うAIを実行しているコンピュータプログラムの数日に短縮されたのです。
これは展開を加速するだけでなく、エンジニアがより戦略的な高レベルの最適化問題に専門知識を捧げることも可能にします。
この小さな行は非常に重要だと思います。この展開はまた、新しい、これまで見たことのない事例をマークしています。ここで新しいことが起こっています。そのことは、GeminiというAIチャットボット、大規模言語モデルがAlphaEvolveの能力を通じて行っています。
AlphaEvolveはGeminiといくつかの他のものであることを覚えておいてください。つまり、GeminiはAlphaEvolveを通じて自身のトレーニングプロセスを最適化しています。
つまり、Googleはここで、これは新しいことだと言っています。このAIが自分自身、または少なくとも自身のトレーニングプロセスを改善しているのを見ています。そうすることで、より良いバージョンを作成することができます。
それを自己改善と呼ぶか自己進化と呼ぶかにかかわらず、これは明らかに非常に興奮することです。
もちろん、Geminiはソフトウェア、自身のトレーニングプロセスを改善するだけでなく、TPU（テンソル処理ユニット）、それがトレーニングされているチップの改善にも貢献しています。つまり、それが構築されているソフトウェアとハードウェアスタックの両方を改善しているのを見ています。
これは、このチャンネルでかなり長い間話してきたアイデアです。人間がAIのバージョン1.0を構築し、そのバージョン1.0がバージョン2.0を構築し、それが独自の子孫を構築するというアイデアです。
明らかに、これが100%起こっているとは言っていませんが、これらのことが起こり始めるのを見ています。そしてGoogleディープマインドはここでそれを指摘しています。「初めての直接的な貢献」、つまりこれはGeminiがハードウェアを改善するための初めての直接的な貢献であり、「新しい事例」として自身のトレーニングプロセスを改善しています。
もちろん、Googleは有名に「アテンションがすべて」と題した論文を発表し、トランスフォーマーアーキテクチャを紹介することで、このLLMレース全体を開始しました。これはLLMからAlphaFoldまで、現代のニューラルネットワークの大部分で使用されています。これが多くのものを開始したものです。現在、これらのAIを構築するために使用するスケーラブルなアーキテクチャです。
トランスフォーマーの核心的な計算はアテンション機構です。彼らが言うように、アテンションがすべてです。ここで彼らは、そのコンポーネントの種類を説明しています。しかし基本的に、彼らはAlphaFoldにこのアーキテクチャのコンポーネントの一つを最適化するよう挑戦しています。
彼らがAlphaEvolveに与えたタスクは、2つの理由から特に難しいタスクです。1つは、直接編集するためではなく、デバッグ目的のために設計されていることです。2つ目は、コンパイラによって生成され、すでに高度に最適化されていることです。
AlphaEvolveによって提案されたすべての解決策は、変更されていないコードと照合されました。それは人間の専門家によって厳密に確認され、すべての可能な入力に対して正確であることが確認されました。
基本的に、ここでは彼らは、これは幻想ではなく、本物だと言っています。AlphaEvolveができたことは、意味のある最適化を提供することでした。彼らが見ていた一部は32%高速化され、別の部分は15%高速化されました。
結果は、AlphaEvolveがコンパイラによって生成されたコードを最適化する能力を示しています。これは、特定のユースケースのために既存のコンパイラに発見された最適化を組み込む可能性、あるいは長期的にはAlphaEvolveをコンパイラワークフローに組み込む可能性を提供します。
最後の部分について何が大きな問題なのでしょうか？基本的に、それが意味するのは、このものは化学、数学、法律、物理学、コンピュータサイエンス、哲学、医学など、私たちが成熟していると考える多くの分野や領域にクラックを入れることができるということです。
つまり、物事を正しく行う方法、最適化する方法を理解するために多くの時間を費やしてきた場所、あるいはこれが最善であり、最も効率的であると考えているかもしれない場所に、AlphaEvolveが登場し、非常に基本的な多くの領域で大きな改善と最適化をもたらすことができるように思えます。
ここで彼らは「私たちはAlphaEvolveが材料科学、創薬、持続可能性、およびより広いテクノロジーおよびビジネス応用など、より多くの分野で変革的である可能性があると信じています」と言っています。基本的にはすべてです。
結果を定量化できる場所であれば、自動評価者に何らかの指標や検証できるもの、評価できるものを与えることができる場所であれば、このシステムはその領域で機能するように思えます。それがもう少し主観的であれば、おそらくこれは適用されませんが、私たちが求める結果を定量化できる場所であれば、最適化問題の多くはそうであるからです。
例えば、U-Haulの積み込み問題では、スペースを節約できる場合、それには特定の式があります。箱を入れてxの量のスペースを占め、このシステムが5%少ないスペースを占める方法を見つけることができれば、それはその問題の最適化に勝ちます。
それを定量化できれば、おそらくそれに取り組むことができ、成熟していて大部分が最適化されていると考えられている分野で最適化を見つけることができるように思えます。これはかなり刺激的です。
しかし、より大きな枠組みで見ても、ここで興味深いのは、研究者がGeminiがこの足場、つまりAlphaEvolveが持つ他のすべてのものとの結合で、と言っていることに注目してください。なぜなら、LMのアンサンブル、つまり彼らが使用しているLMのコレクションがあるからです。
一部はより高速で安価であり、一部はより高価に実行されますが、より良い、より深い研究、より良い出力などを提供することができます。つまり、私たちのAI、私たちのLMがここに入り、残りはその周りにコード化されたものです。これはすべてを機能させるシステムです。
しかし、ここに良いモデルを入れると、このシステム全体がより良く機能すると考えるのは合理的かもしれません。ここに入れるモデルが次世代のモデルを改善することができ、この論文で見られるように、それが行っているのを見ています。そして、それはソフトウェア、トレーニングだけでなく、おそらくニューラルネットのアーキテクチャ、そして私たちがそれらをトレーニングしているチップ、ハードウェアも改善することができます。
そして、それらのいくつかのことが次世代のモデルの改善に貢献します。そして、その新しく改善されたモデルを取り、もう一度このシステムに組み込みます。それによってシステム全体が改善され、さらに良いハードウェアスタックとソフトウェアスタック、そしてアーキテクチャの作成に貢献するでしょうか？
これが、私たちが知能爆発の始まりと考えるものです。基本的には、これらのAIは実際にすべてを自動化する必要はないという考えです。AIリサーチを自動化するだけ、つまりAIがより良くタスクを実行できるようにすることを改善するだけでも、それは大きな問題になります。なぜなら、それは再帰的自己改善になるからです。そして、より良いボトルがより良い次世代のモデルを提供できるようになると、知能の指数関数的爆発が見られるでしょう。
しかし、あなたはどう思いますか？コメントを残してください。私は物事を過剰に煽っているでしょうか？重要なのは、これはほんの始まりにすぎないということを覚えておいてください。論文の研究者が言うように、「これはそれが行った最初の例です。これはそれが行った新しい例です」。
つまり、これらの例を見始めており、このプロセスが続くと仮定すると、おそらく加速するでしょう。しかし、あなたはどう思いますか？これがAIが自身のソフトウェアとハードウェアの両方を改善する例だと思いますか？どんなに小さくても。ここまで見ていただきありがとうございます。私の名前はウェス・ロスです。また次回お会いしましょう。