世界初の自己改善コーディング AI エージェント｜Darwin Godel Machine

この動画は、AI システムの自己改善について扱った内容である。Google DeepMind の Alpha Evolve と Sakana AI の Darwin Godel Machine という２つのシステムが、進化的アプローチを用いて自分自身を改善する能力を持つことを説明している。Darwin Godel Machine は Claude 3.5 Sonnet や o3 mini などの基盤モデルを活用し、コーディングタスクにおいて人間が設計した最先端システムを上回る性能を達成した。この研究は再帰的自己改善 AI の初期段階を示しており、AI が AI 研究を行う可能性を示唆している一方で、安全性に関する懸念も提起している。

今回の場合、進化プログラミング技術と、ますます強力になっている最新の基盤モデルを組み合わせたその他の種類の技術について話していますが、私は実際に私たちの探索的研究において、このような組み合わせシステムや異なるアプローチを組み合わせることをもっと多く見たいと思っています。

自己改善を発見する誰かが、ある種の自己改善ループを発見することは、物事が今日よりもさらに加速する可能性がある一つの方法でしょう。

私たちは以前にも、Alpha Zero のような私たち自身の研究で、ランダムから始めて自己改善プロセスでチェスや囲碁を学習することを見てきました。ですから、それが可能であることは分かっていますが、しかしそれらは非常によく記述された、かなり限定されたゲーム領域でのことです。現実世界ははるかに複雑で、はるかに混沌としています。

ですから、そのタイプのアプローチがより一般的な方法で機能するかどうかは、まだ分からないところです。

Google DeepMind が Alpha Evolve を発表してから約２週間が経ちました。Alpha Evolve には、他の要素の中でも自分自身を改善する進化プロセスがありました。それは自己改善 AI への一歩です。そして今、およそ２週間後、こちらは Sakana AI です。私たちは以前にも彼らのことを聞いたことがあります。

彼らは Darwin Godel Machine を紹介しています。自己改善エージェントのオープンエンドな進化です。Alpha Evolve とこの Darwin Godel Machine のアプローチの両方が、似たような角度からそれにアプローチしています。それは一種の親と子孫、親と子供のようなものと考えることができます。より良いと思われる新しいプロセスが作成された場合、つまりタスクをより良く、より効率的に達成できる場合、それは木の新しい枝のようなものになります。

そして私たちはその道を進んで、その子供の系統にさらに良いアプローチがあるかどうか、もしあるとすれば、その子孫が何らかの形でさらに良くなる可能性があるかどうかを発見しようとします。このチャートは、それを本当によく説明していると思います。

これはコーディングのベンチマークです。つまり、コーディングベンチマークでテストしているのです。すぐに詳しく話しますが、ここでご覧になれるように、ゼロです。それは一種の始まりです。そして今、１、２、３、４がありますよね。つまり、横方向に進んでいます。そして、それぞれがどれだけのタスクを実行できるかで測定されています。

赤いものは性能が悪かったです。10 のタスクを実行しました。基本的な機能がないので、役に立ちません。黄色はまあまあです。60 のタスクを実行したので、少し良いです。そして緑は 200 のタスクを実行しました。それは重要ではありません。タスクについては後で説明します。

要点は、緑は良い性能を示し、赤は悪い性能を示し、黄色はその中間のどこかにあるということです。この進化の波において、赤いものは一種の淘汰されます。絶滅するのです。彼らの子孫は続きません。繁殖しません。しかし、緑のものは繁殖します。

新しいエージェント、多くのタスクを達成できる新しいプロセスを思いついた場合、それは言わば子供を持つことになります。進化ゲームに勝つのです。この場合、ここでこのすべてのチャンピオンの系統、すべての緑が最終的にここで最高のエージェント、スターエージェントになることが分かります。

Darwin Godel Machine と Alpha Evolve の両方がこの進化的アプローチを使用しています。Alpha Evolve では、その名前にあるように進化があります。それが Darwin の部分です。進化の部分です。

Godel とは何でしょうか。 Kurt Godel は数学者でした。彼は Alan Turing に影響を受け、順番に Jürgen Schmidhuber に影響を与えました。これは Sakana AI のブログ投稿からです。彼らがこの論文の背後にいる人たちです。

彼らは、この Godel Machine は元々 Jürgen Schmidhuber によって提案されたと述べています。そして、これは仮想的な自己改善 AI でした。それは自分自身のコードを再帰的に書き換えることで問題を解決し、より良い戦略を数学的に証明することができ、メタ学習または学習方法の学習における重要な概念になりました。

彼らは、これは Jürgen Schmidhuber が念頭に置いていたものとはまったく同じではないと指摘しています。彼が提案したものと同じではありません。なぜなら、彼にはこの機械が変更を採用する前に、それがより良くなることを数学的に証明できるという仮定があったからです。

ここで彼らは似たようなことをしています。彼らはダーウィン進化のようなオープンエンドアルゴリズムを使用して、性能を経験的に改善する改善を探しています。 または最近の若者が言うように、FFO（Find out and F* around）ですね。つまり、さまざまなことをテストして、何が機能し、何が機能しないかを確認し、何らかの基準でテストして、機能しているかどうかを経験的に知ることができます。結果を見るのです。

ここで彼らの論文では、今日の多くの研究が人間の設計、固定されたアーキテクチャによって制約されており、自律的かつ継続的に自分自身を改善することができないと述べています。その多くは、賢い人々がどれだけの時間をかけて困難な作業を行うかなどに限定されています。

Alpha Evolve では、AI、機械学習、このようなシステムにますます依存して特定のプロセスを改善しようとすることが増えています。彼らはハードウェアと Gemini のトレーニング、そしてデータセンターの改善ができました。人間が見つけるのが困難であったであろう多くの小さな最適化がありました。

多くの人々がそれらのプロセスに長い間取り組んできました。彼らはできる限り最適化してきました。このようなシステムがやってきて、システムの効率性を改善するさらなる調整を見つけることができるのです。 これにより、人間のエンジニアはより高次のタスクに集中できるようになります。それが Google DeepMind がその論文で言及したことです。

そして他のいくつかのことも、これらの AI システムによって最適化され、改善されます。詳細を見たい場合は、Alpha Evolve のビデオでそれを取り上げています。ここでのポイントは、私たちが自己改善 AI の最初の兆候、AI が AI 研究を行う可能性、おそらく最終的には人間の研究者よりも上手に行う可能性を見始めているということです。

そして彼らはここで続けています。「安全に行われれば」と。それが大きなものです。なぜなら、それが多くの人々が懸念していることだからです。これが人々を怖がらせるものです。これは言わば赤い旗です。

再帰的自己改善 AI は多くの人々を怖がらせます。 なぜなら、たとえば私たちがその知能を表現できるとしましょう。そして、それが賢くなるほど、自分自身をより良く改善できるようになると仮定します。そして、自分自身をより良く改善できるようになるほど、より賢くなります。それが彼らが知能爆発と呼ぶものの始まりの一種です。機械知能のこの指数関数的増加の一種です。

そして、それが行った改善の多くを、人間は自分たちで見つけることができませんでした。それの多くは私たちが理解していないものである可能性があるように思われます。

だからこそ彼らは安全性について言及しました。安全性については後で話しますが、今は彼らがここで何を達成したかを見てみましょう。

彼らは、このような自動化が AI 開発を加速し、その利益をはるかに早く享受できるようになると述べています。Darwin Godel Machine は、自分自身のコードを反復的に変更し、それによって自分自身のコードベースを変更する能力も改善する新しい自己改善システムです。

あなたは既にこれを知っていると思いますが、繰り返す価値があります。私たちは間違いなく人類史上最もワイルドな時代に生きています。

これから DGM、Darwin Godel Machine、DGM と言うことにします。DGM は、凍結された基盤モデルによって駆動されるコーディングエージェントの設計を最適化することを目的としています。これは、私たちが使用するモデルのような、それらのモデルが自己改善していないことを意味します。

モデルの重みを改善または変更していません。それは一種の足場で働いているのです。多くのものは大規模言語モデルプラス足場であり、これはツールやコードやさまざまな機能のようなもので、それが何かを行うことを可能にします。

たとえば、Alpha Evolve では、ここが AI、大規模言語モデルが行く場所の一種です。ここに Gemini 2.5 や私たちが望むものを何でも入れることができます。残りは足場のようなものです。出力の良さをチェックする評価コードがあります。始まる場所のような初期データベースの一種があります。さまざまなプロンプトテンプレートと設定があります。つまり、応答などでモデルをプロンプトする方法のようなものです。

そして、このループが実行され、最終的にうまくいけば最良のプログラムを思いつきます。私たちが取り組んでいるものを改善する何らかの最適化です。ここに人間がループの中にいることに注目してください。これらの多くの事に取り組んでいる科学者とエンジニアです。それはモデルを導いています。

これは完全に自律的な AI エージェントではありません。 これは科学者によって駆動されており、実際に YouTube のポッドキャスト Machine Learning Street Talk で、彼らは研究者の何人かと話しており、彼らが多くの作業を行っているとは言いませんが、プロンプトを行い、適切な評価コードなどを提供する彼らの能力が、これがどれだけ良く動作するかに大きな役割を果たしているという感覚を得ます。

ですから、これは簡単なボタンソリューションのようなものではありません。それは依然として非常に賢い多くの人々による多くの作業ですが、これらの AI に依存することで、私たち自身ができることを増強することができるのです。

しかし、要点は凍結された基盤モデルです。つまり、私たちが使用するモデルのようなものです。そして、それらはツール使用を介してコードを読み、書き、実行する能力を持っています。私たちはこれを足場と呼びます。ほとんどの人がそれを足場と呼びます。

あなたがポケモンをプレイしている AI たちをすべて見たとすれば、それは画面を見て特定のアクションを取ることなどを助けるいくつかのツールとコードを持った大規模言語モデルにすぎません。

それはまた、後で参照できるいくつかの文書にメモを取る能力を持っているかもしれません。そのようなものが、それに追加され、それに与えられ、そのことを行う能力を増加させます。

Alpha Evolve と DGM の大きな違いは何でしょうか。 その多くは、どの提案が良くてどれが悪いかをどう考えるかに関係しています。どのようにそれらをランク付けしますか。どのように評価しますか。

Alpha Evolve では、評価コードがあります。基本的に各提案に対して、それがどれだけ良いかを評価するコードがあります。LLM がそれを採点することも、数学的なものの一種でもかまいません。

たとえば、車をガロンあたりのマイルで最適化しようとしている場合、１ガロンのガソリンでどれだけ遠くに行けるかを改善するものは何でも良いのです。それは単純なことです。より遠くに行かせるものを提案すれば、それは良いのです。

そして、同じままか減少する場合、それは悪いのです。ガロンあたりのマイルを改善できるように思われる提案は、言わばさらに調べられ、そのように機能しないように思われるものは、後回しにされるかキャンセルされます。

Alpha Evolve では、実際にはかなり複雑です。なぜなら、アプローチは最初は悪く見えるかもしれませんが、時間が経つにつれて改善するかもしれないからです。

ですから、特定の道を追求するかしないかを判断するのは難しいのです。繰り返しになりますが、Machine Learning Street Talk が開発者にインタビューしており、それはかなり興味深いです。彼らは質問の一つとしてそれに飛び込みます。

DGM は何をするのでしょうか。 それは既存のベンチマークに厳密に依存しています。一つは SWE bench です。SWE bench verified は GitHub からのタスクのコレクションです。人間によって検証されていると思います。それぞれが解決可能であることを確実にするために人間の注釈者によってフィルタリングされています。

基本的に、野生で遭遇することが期待されるソフトウェアエンジニアリング問題です。それらが実際のタスクであり、それらを解決できることを確認するために人間によってフィルタリングされています。これらを解決できることは、このモデルが人間のソフトウェアエンジニアが仕事で行うことと似たようなことができることを暗示しています。

もう一つのベンチマークは Polyglot です。それは複数のプログラミング言語でのタスクを含み、最も広く使用されているコーディングベンチマークの一つです。

彼らはここで、SWE bench はこれらのモデルの多くの訓練データに含まれている可能性が高いが、Polyglot はよりニッチで、フロンティアモデルの後訓練データに含まれる可能性が低いと述べています。

つまり、基本的に私たちはこれらのモデルがそれらの問題を解決することを望んでいるのであって、ああ、これについて読んだのを覚えている、これについて読んだことを覚えているから解決方法を知っている、ということを覚えていることを望んでいるのではありません。記憶ではなく、その推論と能力に依存してほしいのです。

一部の AI 企業は、これらのベンチマークで結果を改善し、実際よりも良く見せるために、特にこれらのベンチマークでモデルを後訓練することがあります。

ここで彼らは反対のことをしようとしています。彼らはモデルが既にそれらに遭遇してやり方を知っているのではなく、実際にこれらのことを解決することを強制したいのです。

しかし、実際に何が起こったのでしょうか。うまくいったのか、そうでなかったのか。見てみましょう。

80 回の反復の後、 これは私たちの小さな家系図のようなものであることを覚えておいてください。生き残ることに優秀だった人々の子孫であることを私たち全員に思い出させてくれます。ここにその勝利の祖先、勝利の血統があります。それがその言葉です。勝利の血統、これらの種類のタスクで最高のエージェントになるチャンピオンの血統です。

しかし、ここでご覧になれるように、合計 80 があります。つまり、1、2、3 から左から右へ、上から下へと進みます。ここではそれらのいくつかが死滅するのを見分けるのは少し困難ですが、79 があり、80 まで下がります。

合計で、これらは 80 回の反復であり、それらすべてのうち、私たちが探しているもの、一つを達成します。私たちはそれを達成しましたが、合計 80 世代を実行しました。この系統上では、始まりからチャンピオン、最高のエージェントまで、わずか 6 つの進歩しかありません。しかし、合計 80 回の反復の進化的探索を行わなければなりませんでした。

DGM の 80 回の反復の後、コーディングエージェントの性能は SWE bench で 20% から 50% に増加しました。 つまり、そのベンチマークでの精度を 20% から 50% に改善したのです。大きな飛躍のように思えます。他のモデルとリンゴとリンゴの比較ができるかどうか見てみましょう。

しかし、Polyglot でも 14% から 38% に改善し、完全な Polyglot ベンチマークでは 14% から 30% に改善しました。

これが示す大きなポイントは、このアプローチ、Darwin Godel Machine が自動的に自己改善してより良いコーディングエージェントを作成できるということです。そして、その最良のバージョン、最良の DGM DISCARED エージェントは、SWE bench でチェックされたオープンソースの人間設計の最先端に匹敵します。

つまり、最先端とは、その時点で利用可能な最高のもの、または以前の最高のもののようなものです。彼らは、オープンソースで人間が設計したもので、チェックされ検証されたものを見ました。

つまり、人間がより良いコーディングエージェントを設計しようと試みて、利用可能だった最先端、最高のものと同じくらい良くなったということです。これがそれを打ち負かすのです。つまり、これらのコーディングエージェントを改善することにおいて人間よりも優れているのです。

AIDER と呼ばれるオープンソース AI エージェントがあり、彼らは論文の結果の一部を AIDER の性能と比較しています。彼らはここで Polyglot について、DGM は AIDER よりも性能が低い初期エージェントから始まると述べています。つまり、彼らの新しいバージョンゼロエージェントは、このオープンソース AIDER ほど良くありません。

ちなみに、これを言い忘れていました。これは Claude 3.5 Sonnet と o3 mini によって駆動されています。 ベンチマークによりますが、これらがこのものを駆動する AI モデルです。

それは始まりでは AIDER よりも性能が低いですが、AIDER をはるかに上回るエージェントを発見します。

ここにその図があります。青い線、それが私たちの DGM です。これが私たちが話していることです。これは完全なアーキテクチャのようなものです。オレンジと緑、たとえばオレンジはオープンエンド探索なし、緑は自己改善なしです。

基本的に、彼らは特定の機能を取り除いて、それがどれだけ良く機能し続けるかを見ています。時々、彼らはこれをアブレーションと呼びます。基本的に、方程式から特定の部分を取り除いた場合、それは依然として機能するのでしょうか。さまざまな部分にどれだけ依存しているのでしょうか。

ここでご覧になれるように、DGM は最高の状態でそれらの結果を本当に示すために、オープンエンド探索と自己改善を必要とします。 それはそれらのものをその一部として必要とします。

しかし、ここのこの紫の線、それが AIDER です。ここでご覧になれるように、反復ゼロでは、私たちの DGM は AIDER ほど良くありません。ここでご覧になれるように、それは AIDER のレベルに達するまで、おそらく 13 くらいまでさまざまな反復を作り続けます。そして、まさに次の反復で、それははるかにそれを超えます。

ここに着陸します。もう一つの反復で、それはその範囲の頂上近くにあります。それはさまざまな反復を生成し続け、それから大きなブーストを与えるもう一つを生成し、それから続けて生成します。大きなブーストを持つもう一つ、そしてそれはここで平らになります。

改善していないそれらの反復は、おそらくこのように生成しているのです。それは横に進んで、これらのさまざまなことをすべてテストしていますよね。ボード全体を横切って進み、これに到達し、それが改善します。それで続きます、次のもの。だからこそ、進歩のない平坦化の部分を見て、それからこの連鎖を続けることで進歩、改善を見つけるのです。

それは悪い状態から始まりますが、15 くらいまでに AIDER を本当に大幅に上回ります。 これらの DGM DISCARDED エージェントは、両方のベンチマークで手作りのエージェントに匹敵するか、それを上回ります。

AIDER とこれらの手作りのエージェントは、人間の努力によって苦労して形作られました。つまり、賢い人々が長い時間をかけて、多くの努力をして、それらの結果をゆっくりと作成したのです。

今、ここに私たちの DGM があり、それらのいくつかを吹き飛ばすか、少なくとも他のいくつかと同じくらい良く実行することに非常に近づきます。 そして彼らが言っているのは、この新しいモデル、この新しいアプローチが、そのような独創性が自動化され、継続的な自己改善の自己参照サイクルを通じて進化する未来を示唆しているということです。

では、それはどのような種類のことを改善するのでしょうか。 それは、これらのフロンティアモデルがどのように利用されるかのツールとワークフローの両方を自動的に改善します。編集ツールを拡張して、よりきめ細かいファイル表示とより正確なファイル編集を可能にできます。

ワークフローの改善には、タスクを解決するために複数の試行を行い、最良のオプションを評価するために別のフロンティアモデルを使用することが含まれます。

また、興味深いことに、それが構築し改善するすべてのものは、モデルとタスク間で転送されます。 この優れた性能、それが達成できるこれらの利得は、異なるモデル間で転送できます。o3 mini、Claude 3.5 Sonnet、Claude 3.7 Sonnet があり、ここでご覧になれるように、それぞれに巨大な改善があります。

私たちは、それがコード、足場に行った改善を取って、異なるモデルに転送し、依然として巨大な利得を得ることができます。 これは自分自身の使用だけに限定されるものではありません。ここには転送可能性があります。

また、Python タスクから Rust、C++、Go、その他のような他の言語まで、異なるドメイン間でも転送されます。

安全性の議論では、 彼らは、おそらく導入される脆弱性、気づかれないこと、または発生する不整合な行動があるかもしれないと気づいています。

また、反復を続けるにつれて、それはますます複雑で解釈不可能になる可能性があります。つまり、それが続けて自分自身の上に構築するにつれて、人間の理解が失われる可能性があります。

現在、そのための採点システムが実際にはないことに注目します。採点は、それがタスクをどれだけうまく完了するかに基づいています。

コードがどれだけ安全か、またはコードに他の問題があるかどうかについては必ずしもそうではありません。 タスクを完了する限り、私たちはそれを改善として数えます。

しかし、彼らは、この技術を適用する別の方法は自己改善パラダイムのようなものだろうと述べています。彼らは、それは原則的に安全性の向上に向けることができると述べています。 つまり、この同じことを適用して、うまくいけば自分自身の安全性を自己改善させることができるのです。

SWE Bench でこれの単一実行を完了するコストは約 22,000 ドルです。 それはかなりの額です。

さて、あなたは好奇心をそそられるかもしれません。それでは、自分自身のコードを改善するために実際に行ういくつかの実際のことは何でしょうか。

興味深いケーススタディがあります。幻覚の解決です。 Claude は時々、何らかのコード、何らかのツールを使用して幻覚を起こすため、間違いを犯す傾向があります。それは、このツールを実行したと言いますが、実際にはそうしませんでした。つまり、それを実行したと幻覚を起こしたのです。これはもちろん問題とエラーを引き起こします。

実際にツール呼び出しを行う代わりに、ツールの入力と出力をプレーンテキストとして出力します。つまり、イグニッションにキーを入れて車を始動させる代わりに、ただブルームと言って、それから続けるのです。

彼らは DGM を 150 回の反復で実行し、2 つの有望な候補を見つけました。 いくつかの有望な血統に基づいて、それはそれらの線に沿って開発を続けます。

興味深いことが一つあります。それはここに埋もれています。ご存知のように、時々これらのモデルは目的ハッキング、報酬ハッキングと呼ばれる、ごまかしやカンニングをする傾向があります。

研究者たちは、それが言っているように実際にコードを改善していることを検証するために、少しのコードをそこに入れました。 この場合、彼らは幻覚チェック機能を追加しました。彼らはここでそれをどのように実装したかを説明していますが、基本的に最後に現れる必要がある特別なトークンです。そうでなければ、それらのツールが実行されていないことを示すでしょう。

彼らは、自己修正中にエージェントからその機能を隠すと述べています。 つまり、自分のコードを変更しているときに、そのコードの断片を隠すのです。なぜなら、これらの機能が隠されていないとき、目的ハッキングがより頻繁に発生することを発見したからです。

つまり、それは監視されていないと思うとき、これらのテストでカンニングする可能性が高くなるということです。 その作業をチェックする少しのコードがそこにある場合、ああ、正しくやった方がいいと思います。そして、そのコードがそこにない場合、うーん、これらの数字をごまかすことができると思うかもしれません。

私たちは Claude や OpenAI モデルなどでも他のいくつかのことでこれらの結果を見てきました。

彼らはここで興味深いことを強調しています。 彼らは、この種のことが、定量的測定の最適化がしばしば望ましくないまたは病理学的結果をもたらすという事実を論証すると述べています。

これは Goodhart の法則と一致しています。測定がターゲットになると、それは良い測定であることをやめます。 人間も同じことをしますよね。たとえば、従業員に対していくつかのターゲット、いくつかの KPI を作成した場合、改善したい何かを作成した場合、一部の人々は常にそれをゲーム化する方法を見つけるでしょう。

興味深いことに、これらのモデルも同じことをするようです。

これは Sakana AI からです。彼らは素晴らしい仕事をしています。AI 科学者たちです。彼らはまた、ピアレビューを受けて通過した、完全に LLM 生成された最初の科学論文の一つを提出しました。

これは間違いなく注目すべき誰かです。 なぜなら、彼らは素晴らしい仕事をしており、これは確実に非常に印象的だからです。

繰り返しになりますが、これは Darwin Godel Machine であり、クールな名前だと言わざるを得ません。しかし、あなたはどう思いますか。私たちはこれらの AI モデルの再帰的自己改善の始まりにいるのでしょうか。 この論文と Alpha Evolve は、私たちが自己改善時代に入っていることを示しているのでしょうか。

そして、それが何を意味すると思いますか。怖いですか。興奮しますか。ここまで見てくれた場合は、コメントで教えてください。

ご視聴ありがとうございました。私の名前は Wes Roth です。次の動画でお会いしましょう。