Google の新型 AlphaEvolve エージェントが高度な研究で人間を上回り驚きをもたらす

11,517 文字

NOVO Agente AlphaEvolve da Google Surpreende Superando Humanos Em Pesquisa Avançada

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

皆さん、人工知能はまた驚きをもたらしました。今回は1969年以来解決されていなかった問題を解決したのです。そのとおりです。人工知能はまた、長年停滞していた問題を解決し、「人工知能は人間にできないことは決してできない」と言い続ける人々に対して、それがすでに起きていることを示す証拠がまた一つ増えました。
私たちが話しているのは AlphaEvolve という Google の人工知能で、進化的原理で動作するエージェントであり、数学や計算科学分野の非常に難しい問題に対する解決策を見つけようとしています。では一緒に見ていきましょう。
いつものように「いいね」をしてくれた皆さん、チャンネル登録してくれた皆さんに感謝します。特にこの人工知能チャンネルをサポートしてくれているメンバーの皆さんに特別な感謝を。メンバーは知的エージェントに関する限定動画にアクセスでき、WhatsAppに知的エージェントを統合する方法を教える素晴らしいプレイリストや、先行公開される動画へのアクセスがあります。
今日は私が大好きなトピックである進化的人工知能について話します。特にこの AlphaEvolve について。Gemini を活用したコーディングエージェントで、高度なアルゴリズムを設計するためのものです。ご覧のように、この記事は14日に出たばかりの新鮮なもので、科学コミュニティに大きな波紋を広げています。
実際、この研究者たちによる1時間以上の素晴らしいインタビューがあり、彼らはこの研究の詳細、特に人工知能が人間より効率的に数学的問題の解決策を見つけ、1969年からの長年の停滞を打破したプロセスについて詳しく説明しています。
何が起きているのか理解しましょう。この新しいAIエージェントは、数学的応用と計算実用のためのアルゴリズムを開発し、大規模言語モデルの創造性と自動評価器を組み合わせています。ここで既に重要なポイントが見えてきます。数学的応用、計算、言語モデル、そして自動評価器について話しています。
この自動評価器の部分には大きなアスタリスクを付けておくべきでしょう。これは機械が推論を始める進化的プロセスを理解する上で本質的な要素だからです。彼らは AlphaEvolve を発表していますが、これは汎用アルゴリズムの発見と最適化のために大規模言語モデル（LLM）を活用した進化型コーディングエージェントです。
これはすごいことですよね？私は以前に進化計算についていくつかの動画を制作し、進化するアルゴリズムの重要性について話しました。さらに言えば、個人的には人間レベルあるいは超人間レベルのAIは、進化するモデルから生まれ、いずれは自律的になると信じています。
そしてそれが自律的になったとき、本当に知的なものを生み出すことができるでしょう。これから分かるように、私たち人間には自分たち自身の懸念や偏見があります。それは人工知能にとっては無関係で、AIはただ必要なことをするだけです。AlphaEvolve は私たちの Gemini モデルの創造的な問題解決能力と、回答を検証し有望なアイデアを改良するために進化的フレームワークを利用する自動評価器を組み合わせています。
ここを見てください。AlphaEvolve は Google のデータセンターの効率、チップデザイン、AIトレーニングプロセスを改善しました。理解できますか？もう一度言います。AIがビジネスのインフラ、ハードウェアデザイン、そしてAIトレーニングプロセスを改善したのです。
そしてここで少しネタバレをすると、そのビデオで彼が言及していたように、AIが提案したトレーニング改善案には約6ヶ月の遅延があります。どのアイデアをテストし、どう実装し、どう評価するかを決定するまでに時間がかかるからです。トレーニングプロセスはかなり長いものですからね。「今日の午後トレーニングして、明日の朝結果を見よう」というわけにはいかないのです。
さらに注目すべきは、AlphaEvolve自体の基盤となる大規模言語モデルのトレーニングも含めて改善していることです。つまり自己改善を始めているということです。また、より高速な行列乗算アルゴリズムの設計や未解決の数学問題に対する新しい解決策の発見も支援し、様々な分野での応用に驚くべき可能性を示しています。
人工知能の分野でよく耳にするのが行列乗算についてです。常にこの分野の研究があります。なぜなら大規模言語モデル（LLM）では多くの行列乗算が行われるからです。例えば、小さなモデルでも80億のパラメータがあり、それらが多くの行列に分割されていると想像してください。行列乗算の小さな改善が、数十億のパラメータを掛け合わせることで、お金、時間、エネルギーなど多くの面で大きな節約につながるのです。そのため常にこの分野の研究が続いています。
ここをご覧ください。大規模言語モデルを使ったより良いアルゴリズムの設計。2023年には、少し歴史を振り返ってみると、複雑な解決策がどのように生まれるかを理解できます。大規模言語モデルはコンピュータコードで記述された関数を生成して、科学的な未解決問題について新しく正確な知識を発見するのを助けることが実証されました。
2023年には、彼らはこの「Fun Search」（楽しい探索）に言及しています。「数理科学において大規模言語モデルを使って新しい発見をする」というものです。これは彼らがこうした「狂気の沙汰」を始めたのが今日ではないことを意味します。ここに注目してください。Fun Search はプログラムの形で解決策を生成し、いくつかのシナリオでは過去20年間で最大のキャップセットを発見しました。
20年以上も触れられていなかった戸棚に物がしまわれているようなものです。人工知能がその戸棚に入って「ほら、あなたが忘れていた重要なものがここにありますよ」と言ったようなものです。
さらに、Fun Search は最先端の計算ソルバーを上回りました。この問題は現在の能力よりもはるかに拡張性があるためです。これは少し過去の話ですね。AlphaEvolve は単一の関数の発見を超えて、コードベース全体を進化させ、より複雑なアルゴリズムを開発できるエージェントです。
Fun Search はより特定のこと、より制限されたシナリオで動作していましたが、今や私たちはコードベース全体と非常に複雑なアルゴリズムについて話しています。AlphaEvolve は最先端の言語モデルのセットを使用します。最も速く効率的なモデルは Gemini Flash で、探索されるアイデアの幅を最大化し、より強力なモデルである Gemini Pro は洞察力に富んだ提案でクリティカルな深さを提供します。
理解できましたか？バランスがあるのです。ピンキーとブレインのようなものです。小さな方がちょっとバカげたアイデアを出し、大きな方が「そのアイデアは間違ってるよ、これが良いアイデアだ」と言うようなものです。常に誰かが一部を担当し、別の誰かが補完する必要があります。
これらのモデルは、アルゴリズムの解決策をコードとして実装するコンピュータプログラムを提案します。ここで非常に重要なことは、このシステムが独立して動作しているわけではないことです。このグラフや考え方を見ると、科学者やエンジニアがいて、プロンプトテンプレートや設定を考え、LLMを選択・カスタマイズし、コード評価を行い、時にはその進化を始めるためのアイデアを追加しています。
インタビューで彼らが言及しているように、彼らは時々いくつかのアイデアを追加しますが、必ずしもそうするわけではありません。それはオプションです。そして人がこの部分を行った後、AlphaEvolve が自分の役割を果たします。この初期設定のアイデアに基づいてプロンプトサンプラーを作成し、このブロックに送り始めます。
そして LLM が作業を始め、評価者のプールを作成し、生成した情報のデータベースを作成します。これらすべてから、青いプロンプト、赤い LLM、黄色の評価者を使用するコードが生まれ、結果はすべて保存され、その混合物から、彼らが解決しようとしている問題のチャンピオンプログラムが生まれます。
非常に興味深いことに、これはエージェントではありますが、自律的なエージェントではなく、人間とのパートナーシップで機能しています。言い換えれば、人間の第二の脳のように機能します。私たち人間が解決したい問題を持っていて、解決策の可能性についてある程度知っているが、時間がなかったり、想像以上に複雑だったりするため、人工知能を使用するようなものです。
彼は説明しています。このダイアグラムは、プロンプトサンプラーがまず言語モデル用のプロンプトを組み立て、それから新しいプログラムを生成する方法を示しています。これらのプログラムは評価者によって評価され、プログラムデータベースに保存されます。このデータベースは、将来のプロンプトにどのプログラムが使用されるかを決定する進化的アルゴリズムを実装しています。
ここで進化的アルゴリズムについて話し始めました。これから興味深くなります。AlphaEvolve は提案されたプログラムを自動評価メトリクスを使用して検証、実行、スコア化します。これは何かを進化させる方法を理解するための重要なポイントです。評価できない問題があれば、進化的人工知能を作ることはできません。これは議論の余地がありません。
一方、評価が非常に簡単な問題があれば、進化するシステムを作るのは非常に簡単です。しかし通常、これら二つの極端の間にあるのは、ある程度評価できるが適切に点数をつけられない問題や、点数はつけられるがあまり役に立たない問題などです。
実際の世界ではいつも複雑であり、だからこそ人間がこの過程に関わるのです。これらのメトリクスは各解決策の精度と品質の客観的で定量化可能な評価を提供し、これは検証可能である必要があります。これにより、数学やコンピュータサイエンスのように、進歩が明確かつ体系的に測定できる幅広い領域で AlphaEvolve が特に有用になります。
これが大きな強みであると同時に大きな弱点でもあります。明確で体系的な方法で定義できなければ、どうすることもできません。そしてここには Sam Altman が OpenAI について何度も言及している大きなアスタリスクがあります。彼らがコンピュータサイエンスとプログラミングの特定の職業を初期段階として選んだのは、AIが行っていることが機能しているかどうかを明確かつ体系的に評価できる数少ない職業の一つだからです。
その結果、プログラミングに基づいた進化的 AI を作成することができます。だから「プログラマーは AI に置き換えられるのか？」と尋ねる人がいると、答えはいつも同じです。知る方法はありません。すでに大きな進化を見ていますが、本当に置き換えられるかどうかは知る方法がありません。
しかし彼らが本気でプログラマーを置き換えようとしていることは確かです。Altman は何度もそれを公に認めています。そして「私たちのコンピューティングエコシステムの最適化」という部分を見てください。ここにはデータセンター、Borg スケジューラー、TPU 回路設計者の写真があります。TPU はテンソル処理ユニットで、行列の乗算を行うハードウェアの部分で、彼らが大きく手を入れたい部分です。そして Gemini の最適化。
データセンターのスケジューリング改善についてです。AlphaEvolve は、Google の巨大なデータセンターをより効率的に調整するのを助けるための、シンプルでありながら顕著に効果的なヒューリスティックを発見しました。Google のデータセンターを想像してみてください。メールを送る人、YouTube に動画を投稿する人、世界中の人々が同時に様々なことをしています。
データが上がり、下がり、入り、出ていきます。彼らはこう言っています。「この解決策は1年以上にわたって本番環境で稼働しており、Google のグローバルコンピューティングリソースの平均0.7%を継続的に回復しています」。「でも0.7%はとても少ないじゃないか。製品をたった0.7%しか改善しないなんて」と思うかもしれません。
では精神的な exercise をしましょう。100レアルを持っていて1%の節約をすると、1レアルを節約したことになります。1レアルなんてたいしたことはないかもしれません。でも100,000レアルだったらどうでしょう？1%で1,000レアルになります。100万レアルなら？10億なら？このパーセンテージは小さな値では小さく見えますが、数字が巨大になり上昇し始めると、時には1万ドル、10万ドル、100万ドルを節約することになります。
この持続的な効率性の向上は、同じ計算範囲でより多くのタスクをいつでも完了できることを意味します。AlphaEvolve の解決策は堅牢なパフォーマンスをもたらすだけでなく、読みやすいコードという重要な運用上の利点も提供します。
ここにアスタリスクがあります。解釈可能性、デバッグ能力、予測可能性、デプロイの容易さに優れています。つまり AlphaEvolve は単に解決策を見つけただけでなく、その解決策は実装、本番投入、テスト、評価のすべてが整っており、一貫した結果を出しています。
また理解しなければならないのは、Google のような規模で働くチームに、巨大なインフラストラクチャに影響する解決策を提案し、AI を使用するアルゴリズムを導入するようチームを説得するのは簡単ではないということです。
ここで TPU の話を見てください。ハードウェア設計の支援。AlphaEvolve は Verilog での書き換えを提案しました。これは FPGA（ハードウェアのプログラミング）に取り組む人々が震えるところです。ハードウェアアーキテクチャの話をしているからです。そうです。行列乗算のための重要で高度に最適化された算術回路から不要なビットを削除する Verilog 言語での書き換えを行いました。
はい、プログラム可能なハードウェアは存在します。知らなかったなら、今知りました。基本的に、提案は改変された回路が機能的な正確さを維持することを確認するために堅牢な検証方法を通過する必要があります。この提案は将来のテンソル処理ユニット（TPU）、つまり Google のカスタマイズされたアクセラレータに統合されました。チップデザイナーの標準言語での修正を提案することで、AlphaEvolve は AI エンジニアとハードウェアエンジニアの間の協力的なアプローチを促進し、特殊なチップの将来の設計を加速します。
そしてこれは、そのインタビューの最後でこの人が言っていることです。彼らは AI をより少なく使い、人間が AI をより多く操縦し、AI に対してより多くの指示を与えるアーキテクチャで作業する方が好ましいと考えています。100%自律的な AI を作ろうとするよりも。彼らが語っていることから、特に金銭的な無駄を避けるために、方向性を与え、何が行われているかを観察する人間の視点が重要だということです。
ここを見てください。AI トレーニングと推論の強化。AlphaEvolve は AI のパフォーマンスと研究のスピードを加速しています。大きな行列乗算演算をより管理しやすいサブ問題に分割するよりスマートな方法を見つけることで、Gemini アーキテクチャの重要なコアを23%加速し、Gemini トレーニングの1%削減につながりました。
ここでまた1%の問題に戻ります。DeepSeek がトレーニングに600万ドルを費やし、誰もがその600万ドルが安く見積もられた価格だと言っていたのを覚えていますか？1%削減できれば素晴らしいことです。生成型 AI モデルの開発には相当な計算リソースが必要なため、効率性の向上はすべて大幅なコスト削減につながります。
パフォーマンスの向上に加えて、AlphaEvolve はコア最適化に必要なエンジニアリング時間を、専門的な労力の数週間から自動化された実験の数日に大幅に削減し、研究者がより速く、より多くのイノベーションを行うことを可能にします。これはあなた自身が AI を使って経験したことがあるでしょう。
AI ツールを使えば、以前よりも多くのことができ、何かを始める前にもっと考える余裕が生まれます。AlphaEvolve は低レベル GPU 命令も最適化できます。この信じられないほど複雑な領域は通常、コンパイラによって高度に最適化されているため、通常エンジニアは直接修正しません。
これは私がすでに言及した問題です。人間は多くの場合、先入観を持っているため人工知能を妨げます。人間のエンジニアが通常修正しないものがあります。これらの知性にとっては、「このコンパイラを修正しよう」と言うだけです。
そして考え始めます。AlphaEvolve は Transformer ベースの AI モデルにおける kernion 実装の速度を32.5%向上させました。ローカルでモデルを実行することに慣れているなら、注意モデルを最適化する Flash Attention をインストールしたことがあるでしょう。
つまり AlphaEvolve は今日多くの人が日常的に使用しているこのプログラムに手を入れ始めています。このような最適化は専門家がパフォーマンスのボトルネックを特定し、改善点をコードベースに簡単に組み込むのに役立ち、生産性を向上させ、将来のコンピューティングとエネルギーの節約を可能にします。
これが AlphaEvolve がコードに取り組んでいる様子です。緑色は追加している行、赤色は削除している行です。自動化された方法で作業し、超高速で新しい情報を追加し、古い情報を削除していることがわかります。私たちが追いつくことさえできないようなスピードとやり方です。
そして今、誰もが好きだった部分、人間の問題での進化についてです。AlphaEvolve の手順は、複素数値の 4×4 行列（そのサイズ）を48のスカラー乗算を使用して乗算するアルゴリズムを見つけました。これはどういう意味でしょうか？4×4 行列を48の乗算で乗算するというこのアルゴリズムの改良は、1969年の Strassen のアルゴリズムを改善しました。
それは前世紀のものです。以前はこの文脈で最良と知られていました。そして Strassen のアルゴリズムは何回の乗算をしていたか知っていますか？49回です。彼らはたった1回減らしただけです。「でも49から48へ、大したことないじゃないか」と思うかもしれません。しかし6000億、7000億、1兆のパラメータを持つ人工知能を考えると、これらの数十億のパラメータが行うすべての乗算から小さなステップを削除できれば、素晴らしい成果になります。
このビデオで彼は、この解決策に至るまでの道のりを説明しています。例えば、すべての始まりについて説明しています。行列乗算では、人々は学校で列を取り、行を取り、計算するなど、手順があります。
初めのうち、人々は行列乗算を行うための方法が複数あるかどうかさえ疑問に思いませんでした。ある時、ある人が「8回の乗算でこの解決策を見ているけど、私はこのやり方で7回でできる」と言いました。
そしてそれは breakthrough の瞬間でした。人々は「どうしてだ？同じことをするのにより少ないステップを見つける方法を研究できるんだ」と言いました。そしてその瞬間から、すべてが研究され始めました。同じことをするために一歩少なくする方法を見つけることが一般的になりました。
コンピュータサイエンスを学ぶ人は常にこれらの例を耳にします。コンピュータサイエンスの人々は特定のシナリオや計算で見つけられた最小限のステップ数を既に知っています。そして彼らはこの時点で非常に重要な問題を提起します。AlphaEvolve が見つけた解決策は複素数を使用しています。
そのとおりです、複素数を使用しています。複素数の理論は実数の理論と互換性がありますが、人間が持つ実際の問題、本当の問題を解決する方法は実数です。だから人間は決して問題を解決するために複素数を使おうとはしないでしょう。
「複素数なんて超抽象的で難しすぎるから、複雑にするのではなく単純化したい」と言うでしょう。では人工知能はどうするでしょうか？人工知能にはそのような限界がありません。
複素数を見て「これは難しいからテストしない」とは考えません。人工知能にとってはそれは関係なく、とにかくテストします。彼らは次のように語っています。49から48の乗算に減らすことができたというニュースが来たとき、誰も信じませんでした。
彼らは集まって確認し、本当かどうか確かめなければなりませんでした。なぜなら彼らはただ論文に書くための手順として 4×4 行列の乗算をテストしていただけで、実際に何かを見つけるとは期待していなかったからです。
物事がどのレベルにあるかを見てください。進化モデルが、人間が信じなかった数学的解決策を、人間が複雑すぎると考えるアプローチを使って発見しました。人工知能はただ研究パターンによってそれをテストしただけです。
人生がどう回るか見てください。AlphaEvolve の広さを探るために、数学分析、幾何学、組み合わせ論、数論における50以上の未解決問題にシステムを適用しました。システムの柔軟性により、ほとんどの実験を数時間で設定することができました。
約75%のケースで、AlphaEvolve は知る限り最先端の解決策を再発見しました。これは75%のケースで、多大な努力で行われた人間の発見に到達したことを意味します。そして20%のケースでは、AlphaEvolve は既知の最良の解決策を改善し、対応する未解決問題を進展させました。
つまり20%の成功と改善があります。例えば、キッシングナンバー問題を進展させました。これは私も知らなかった数学的問題ですが、数学にはそれぞれの特定の問題があります。幾何学におけるキッシングナンバーは n を定義する数学的空間です。
これは数学者の人たちがキッシングナンバーなどの問題を見つけるのが好きなことです。この幾何学的チャレンジは300年以上数学者を魅了しており、単一の共通の単位球に触れる重ならない球の最大数を含みます。AlphaEvolve は593の外部球の配置を発見し、11次元で新しい下限を確立しました。
つまり、人間の記録もあって、キッシングナンバー問題でも記録を更新したのです。もう理解できましたね？未来はこれです。進化的なものを作ることは素晴らしい選択肢です。この機会に進化的エージェントを作る方法について考えてみましょう。
進化的エージェントをどのように考えるか？まず考えなければならないのは、例えば商業施設があり、WhatsApp があり、多くの人に応対してきて、たくさんの質問と回答があるということです。
これらの質問と回答において、朝は一人が応対し、午後は別の人、週末はまた別の人が応対しています。5、6人の人がいて、それぞれ質問に異なる方法で答えています。彼らは同じように答えないことはご存知でしょう。より丁寧な人、優しい人、厳しい人、簡潔な人など、様々な人が異なる方法で働いています。
これは、これらの質問と回答を取り、良い質問、例えば顧客からの質問を選んで LLM に「これらの質問に答えてください」と言うことができるということです。質問を入力して「LLM、これらの質問に答えてください」と言います。そして LLM は回答を提供します。
それらの回答を取って、人間に0から10までの評価をつけてもらうことができます。人間が0から10までの評価をつけていくと、良い回答と悪い回答を含むデータベースが作成されます。そしてそれによって自動評価を行うエージェントを作成します。
今や私が何を目指しているか理解できましたね？例えば、回答を出しているこの LLM は特定のプロンプトを持っています。いいですか？10の異なるプロンプトを作成し、それぞれ小さな違いがあり、同じ質問に対して10種類の異なる回答を生み出すとします。これら10のエージェントから、人工知能が提供した回答のデータベースができました。
そこで評価エージェントにこれらの回答を見てもらい、これらのエージェントの中から最も優れた回答者を自動的に発見します。そしてそこから第1位、第2位、第3位などのランキングを作成します。いいですか？理解できましたか？次に別のエージェントを作成し、このエージェントは最高のエージェントのプロンプトと最悪のエージェントのプロンプトを見て、なぜ良いプロンプトが良くて悪いプロンプトが悪いのかを発見しようとし、最初の3つのトップエージェントに基づいてさらに7つの新しいプロンプトを提案します。
そして今度はこの3つのチャンピオンと、チャンピオンに基づいて作られた他の7つの新しいプロンプトをテストします。そして今や理解できましたね？このプロセス全体が進化的ループに入ります。評価者が評価を行い、新しいプロンプトを生成し、それが新しいエージェントを生み出し、新しい回答が評価され、再びトップ3の評価を行い、さらに7つを生成します。
これによって何ができるでしょうか？ポイントのカーブを作り始めることができます。例えば、最初のエージェントは第一世代で典型的に5点だったとします。第二世代では6点に上がりました。第三世代では6.5点に上がりました。
あるポイントでこのカーブが安定し始め、伸びが止まることに気づくでしょう。そのときに「もう改善していないか、改善がとても小さいので、これ以上エージェントをトレーニングする必要はない。チャンピオンエージェントを見てみよう」と言います。
そしてこのチャンピオンエージェントや複数のチャンピオンエージェントが、あなたの仕事の自動応対を行うエージェントになります。どうですか？このアイデアは気に入りましたか？自分のプロジェクトでこのような自動化された改善プロセスを実行することを想像できましたか？
今や研究開発について考えていることに気づきましたか？これはブラジル人がほとんど行わないことです。研究開発。ほとんどの人は自分のビジネスや商店を持っているだけで、データを評価せず、何も分析せず、サービス評価を行わず、トレーニングも行いません。
トレーニングを行っても、データに基づいておらず、実際の情報に基づいておらず、サービスの自動化や改善を行うことができません。そして今、エージェントの世界に生きているので、それが可能になっています。ここで誰かが「ボブ、私はすでに進化的AIを作って私のサービスを向上させました」「ボブ、あなたのビデオを見て触発され、サービスを向上させるためにこれをやってみます」「ボブ、あなたが話していることを私のプロジェクト、プログラム、自動化、会社、プロセス、何でも見ることができます」と言ってくれたら嬉しいです。
この進化的アイデアはすべての中で最高です。私が言ったようにする必要さえありません。私が伝えたものに基づいて作り上げることができます。何の関係もないものを発明し、もっとエージェントを追加することもできます。あなたの問題は少し異なり、少し異なるものが必要かもしれません。だからあなたの特定の問題に必要な調整を行い、このアイデアが気に入ったかどうかをコメントしてください。
このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーは知的エージェントの限定動画と先行公開動画にアクセスできます。「いいね」をお願いします。ありがとう。