Googleが静かに発表した自己改良AIエージェント… Kaggle金メダル | MLE STAR

Google研究チームが発表したMLE Starは、機械学習エンジニアリングにおいて画期的な性能を示すAIエージェントである。このシステムはKaggleコンペティションにおいて63%の確率でメダルを獲得し、36%で金メダルを取得するという驚異的な成果を上げている。従来のOpenAIのシステムと比較して大幅な性能向上を実現しており、AI研究の自動化という新たな段階への突入を示唆している。特に注目すべきは、このシステムが従来のAIモデルが抱えていた「複雑性の罠」という問題を解決し、より効率的で焦点を絞ったアプローチを採用している点である。

Google Just Quietly Dropped SELF IMPROVING AI Agent... Kaggle Gold Medals | MLE STAR

🔥 Google’s MLE-STAR Just Changed the GameGoogle Research just released MLE-STAR, a state-of-the-art machine learning eng...

Googleの新たなAI研究の突破口

Google研究チームがこれを発表したんや。MLE Starっちゅう名前で、最先端の機械学習エンジニアリングエージェントやねん。今見とる研究の多くが示唆しとるのは、AIが再帰的自己改良をできるようになる初期段階に入っとるっちゅうことや。

もっと魅力的で、ちょっと怖いシナリオの一つは、AIが人間の研究者よりも上手に自分自身を改良できるポイントに到達したときに何が起こるかっちゅうことやねん。つまり、AI研究を自動化できるようになったらどうなるかっちゅう話や。

Kaggleコミュニティの説明

ちょっと速いけど、これがKaggleや。機械学習コミュニティで、kaggle.comっちゅうウェブサイトやねん。2500万人以上の機械学習者が共有し、ストレステストを行い、最新の機械学習技術と研究について最新情報を得とる場所や。

これを理解することが重要なんは、この新しいEmily StarエージェントがKaggleの様々なコンペティションで金メダルをたくさん取っとるからやねん。

ちょうど気づいたんやけど、俺がKaggleの宣伝をしとるか、スポンサーしてもらっとるみたいに聞こえるかもしれへんな。そうやないで。ただの学習者、開発者、研究者のためのウェブサイトコミュニティや。機械学習研究をしたり、学習しようとしたりする時に使えるデータセットがたくさんあるねん。

でもKaggleについて一つ本当にクールなことがあって、たぶんこれで聞いたことがあると思うけど、それはコンペティションやねん。

ヴェスヴィウス・チャレンジの例

ヴェスヴィウス・チャレンジについて聞いたことがあるかもしれへんな。大噴火が起こった時にポンペイの近くにあった図書館があるねん。この別荘は約2000年前のヴェスヴィウス噴火で埋もれてしもたんや。

その別荘の図書館には、俺たちが掘り起こして読みたいと思うような興味深いデータがたくさん書かれた巻物がたくさんあったんや。巻物を作るのに使った紙は時間とともに分解してしまうから、今日まで残っとるものはそんなに多くないねん。

でも興味深いことに、このヴェスヴィウス噴火では、火山の熱のせいで巻物が全部炭化したんや。つまり、全部焦げて燃えてしもて、壊さずに開くことができへん。これが悪いニュースや。

良いニュースは、このプロセスを経なかった他の巻物と同じように分解しなかったっちゅうことや。だから、これは実際にはある意味で破壊したけど、同時に保存もしたんやねん。

そして今、3D X線スキャンで、そこに何が書いてあるかを見始めることができるけど、人間の目にはインクと空の羊皮紙の区別がつくのが非常に難しいねん。

でも、そういうことを見分けて、ゆっくりとテキストを読み始めて巻物を復元できる機械学習モデルを作ることができるんや。

巨額の賞金と賞があって、誰でも参加できるねん。もちろん、100万ドルの特別賞があるArk Prize 2025もあるし、Googleから15万ドルの特別賞なんかもたくさんあるねん。

Kaggleコンペティションの仕組み

ここまでで分かったと思うけど、機械学習研究者や愛好家、学生がたくさん来て、コンペティションを含む様々なことに参加するねん。家の価格やタイタニック生存率、Ark Prizeなんかのモデルを作ることができるんや。

現在進行中のJigsawコンペティションは10万ドルの賞金があるねん。リーダーボードがあって、上位の人たちが金メダルを取って、みんなランク付けされとるんや。

これらは人間、時には世界最高の人たちがこれらのコンテストを解決しとるんや。時にはお金がもらえるねん。でも賞金があろうがなかろうが、これは機械学習分野を前進させとるんや。研究なんやで。

考古学から機械学習自体、住宅価格の把握まで、様々な実世界のタスクに機械学習技術を応用することやねん。これはコミュニティのモデレーション用や。基本的に何にでも適用できるねん。ほとんどのことを手助けするAIモデルを作ることができるし、少なくとも人生のあらゆる分野に適用可能やねん。

人材不足という課題

でも明らかに、こういう機械学習コンペティションで金星、金メダルを取れる能力のある人の数は限られとるねん。そういう資格を持った人の数は限られとるし、時間も限られとる。

だから、機械知能をすべてに適用できたらいいけど、そうするだけの人間の脳力が世界的に足りないねん。希少な資源やから、上に強調表示された部分がめっちゃ重要なんや。

Emily Starの効果は、Emily Bench LightのKaggleコンペティションの63%でメダルを獲得することで実証されとるねん。そのうち36%が金メダルやねん。

Emily Bench Lightは、興味深いことに、OpenAIが機械学習研究ができる独自の機械学習エージェントを作った時のOpenAIベンチマークなんや。

OpenAIとの性能比較

これは2025年2月に発表されたみたいやな。OpenAIのo1 previewが載っとる。これはかなり前のものやねん。執筆時点では、おそらく最も先進的なモデルの一つやったと思うねん。コンペティションの16.9%で少なくともKaggle銅メダルレベルを取得したみたいやな。

正確にリンゴ対リンゴの比較を見つけるのに苦労しとるけど、この新しい研究、この新しいエージェントは既存のものを完全に打ち負かしとるみたいやねん。

Emily Benchにはリーダーボードがあるんやけど、まだ更新されてへん。たぶん数週間後には良いリンゴ対リンゴの比較を見ることができるやろう。でも見る限り、これが一番優秀なもんみたいやな。

実験結果の詳細

でもGoogleが提示した実験結果がこれやねん。ここで見ることができるように、一番右のもの、この薄い青色がEmily Starや。Googleが提案しとる新しいフレームワークに、Googleが利用可能な現在最高のモデルであるGemini 2.5 Proを加えたもんやねん。

最近リリースされたGemini 2.5 Deep Thinkは、ここで動かすには少し高すぎるし、重すぎるかもしれへんな。でも見ての通り、Gemini 2.5 ProとGemini 2.0 Flash、これがオレンジ色のやつやけど、両方で非常に良い成績を出しとるねん。

このAiDスキャフォールディングは、OpenAIのバージョンやねん。Emily StarがGoogleのバージョンで、AiDがOpenAIのバージョンや。

OpenAIの論文が発表された時点で最高性能のセットアップは、OpenAIのo1 previewとAiDスキャフォールディングの組み合わせやったんや。

だから、OpenAIが持っとるより先進的なモデル、Claudeや市場にある他のオープンソースモデルなんかとの比較を見てみたいねん。

AiDは、この時点まで最高性能のスキャフォールディングやったんや。AiD+OpenAIの大規模言語モデル、またはAiD+Googleの大規模言語モデルが一緒に働いて機械学習タスクをこなしとったんやねん。

Emily Starの圧倒的な性能

Emily Starはそれを圧倒的に上回ったんや。Emily Starは、メダル獲得において大幅な向上を達成し、例えば26%から63%に改善したんやねん。最高性能のベースラインと比較して大幅やで。それはo1 preview+AiDやったんや。

これは本当に興味深いねん。まず最初に、彼らがここで何を違うようにしたかを見てみよう。でもこれはちょっと面白いねん。

SaiHoの分析との関連

日本のATコードコンテストでOpenAIのコーディングモデルをかろうじて打ち負かしたSaiHoが、なぜOpenAIモデルを打ち負かすことができたかについて書いたんや。彼はなぜそれができたかを書いた。OpenAIモデルが苦手にしとった分野、それほどうまくできへんかったこと。それが彼がそれを打ち負かすために利用したもんやったんや。

見ての通り、この新しいシステムがその問題を修正したみたいやねん。

本当に速いけど、これがSaiHoや。彼はコンペティションで秘密の内部OpenAIモデルを打ち負かしたんやねん。彼がOpenAIモデルの弱点として言及しとることの一つに注目してくれ。

時間が経つにつれて、エージェントのコードが肥大化してくるねん。スコアを上げる限り、最も複雑な変更でも喜んで受け入れるみたいやねん。

複雑性vs改善のトレードオフ

これは家全体を建てて99%完成した時に、誰かが「ああ、この家の美観や断熱をほんのちょっと改善する方法を知ってるで、でも家全体を建て直さなあかん」って言うようなもんや。そしたらモデルが「よし、やってみよう」って言うねん。

人間として、俺たちは複雑さと、それがコードベースや取り組んどるプロジェクトをどれだけ改善するかを比較検討する傾向があるねん。わずかな優位性を得るために何かを100倍複雑にすることはせえへん。一般的にそれは良いアイデアやないからな。

このモデルはそれを受け入れる傾向があって、それがGoogleの研究者がこれらの機械学習エージェントが抱える問題について話す時に指摘しとることやねん。

エージェントの問題点

これらのエージェントの一つは、通常、各反復で全体のコード構造を同時に変更する探索戦略を採用することやねん。これは、特定のパイプラインコンポーネント内での深い反復的探索、例えば異なる特徴エンジニアリングオプションを徹底的に実験する能力が不足しとるため、エージェントが他の段階に焦点を早期に移してしまうことがよくあるんや。

ADHDの人みたいに、これらのAIモデルは光る物症候群がひどいねん。一つの道で本当にうまくいっとるかもしれへんのに、こっちで何か光るものを見たら「いや、全部書き直してこれに焦点を当てよう」ってなるねん。

これは面白いねん。SaiHoがOpenAIモデルについて批判したのとまったく同じやからな。まったく同じことや。この問題を指摘するために使った言語もほぼ同じやねん。

Emily Starの解決策

ここでEmily Starについては、Googleがこの問題の解決策を思いついたみたいやねん。これらのモデルやその周りのスキャフォールディングを構造化する方法を見つけたんや。

だから、彼らが話しとることは、ある種のアーキテクチャ、モデルの周りのスキャフォールディングやっちゅうことを理解することが重要や。これは車やコントロールパネルのようなものと考えることができるねん。

モデルを取り出して、異なるモデルを入れることができるんや。だから、それが持っとる一連のツールのようなもので、そこに大規模言語モデル、AI を取って、プラグインすると、それらのルーブリックとツールセットを使って何かをするねん。

モデルはこれらのスキャフォールディングと交換可能やねん。これを理解することはちょっと重要や。異なる会社、異なる人がこれを説明するのに異なる言葉を使うから、ちょっと難しいねん。フレームワークって言う人もいるし、スキャフォールディングって言う人もいる。学習エージェントって呼ばれることもあるねん。

でも使う言葉が何であれ、AIモデル、大規模言語モデルを入れ替えることができるっちゅうことを覚えといてくれ。

継続的改善の仕組み

これを理解することが重要なのは、次の理由やねん。さらに、最先端モデルが継続的に更新・改善されるにつれて、Emily Star、つまりその周りのスキャフォールディングによって生成される解決策の性能は自動的に向上すると予想されるねん。

これは、本当に良い工具セットや本当に良い車を持っとる場合のようなもんで、より良いドライバーをどんどん入れ替えていけば、より良いドライバーを入れるにつれて、その車の能力は自動的に向上するねん。

より良いドライバーは同じ車でより多くのことを引き出すことができるねん。より良いAIモデルは同じスキャフォールディングでより多くのことを引き出すことができるんや。

ここで再帰的自己改良のアイデアが出てくるねん。なぜなら、モデルを改善することができれば、このシステムによって生成される解決策は自動的に向上し、自動的に改善されるからや。

Emily Starの新しいアプローチ

それで、このアプローチをより良く、または異なるものにしたことを彼らが見つけたのは何やったんやろう？まず第一に、競合他社、代替案とは異なり、Emily Starはまずウェブを検索して適切なモデルを見つけ、しっかりした基盤を得ることでML課題に取り組むねん。

ステップ1は、「よし、何を知っとるか？どのモデルが効果的か？」みたいな感じや。タスクの説明で検索するねん。タスクの説明が何らかの形で画像を整理することやったら、その特定の方法で画像を整理するのに効果的やったモデルを見るためにウェブ検索するねん。

取得した情報がある。独自のコードPythonスクリプトを生成し、そのコードを評価し、それでスコアを取得し、最良の解決策を得るために機能しとることに基づいて反復的に改善することができるねん。

それが初期解決策、最初の草稿、最初の提案やねん。

ターゲットコードブロック抽出

それからステップ2に進む。ターゲットコードブロック抽出や。ここでのアイデアは、どのコンポーネントがこれに最も影響を与えるかっちゅうことやねん。つまり、結果を動かすのは何か？

別の動画で、80対20のルールと呼ばれるパレートの法則について話したねん。一般的に、特定の入力が不釣り合いに大量の出力を動かすねん。だから、コードのどのコンポーネントが最も大きな影響を与えるかを見つけ出すねん。

つまり、一度に一つのことだけを探求して、その一つのことで何ができるかを本当に理解するねん。「よし、これが最も影響があって、あれは洗練されてへんかった。最適化されてへんかった。だから本当にそれに焦点を当てて、それを掘り下げよう」って感じやねん。

コードブロック洗練

そしてCでコードブロック洗練を行うねん。最適化が必要やと分かったもの、その一つのことに焦点を当てて、その一つのコンポーネントだけが最適化または洗練されることで改善された解決策に到達するまで続けるねん。

彼らがここで書いとるように、抽出されたコードブロックはLLMによって提案されたプランに基づいて反復的に洗練され、ターゲットコードブロックも繰り返し選択されるねん。

新しい解決策が再びこのループへの入力になるねん。基本的に新しく改善された解決策を見つけて、「よし、これを念頭に置いて次のステップに進もう。もう一度改善するにはどうする？」って言うねん。解決策を思いつく。「よし、もう一度やってくれ」って感じや。

さらなる機能と技術

ここにはもっと多くのことがあるねん。お時間のある時に読んでもらえるように、この研究へのリンクを下に載せとくで。初期解決策のための候補モデルのアンサンブリングやマージなんかがあるねん。基本的に複数のアプローチがある場合、結果を平均化するためにそれらをどうマージするかっちゅうことや。

安全で効果的なコードであることを確認するために、様々なデータ使用チェックをデバッグする能力を与えることについても話しとるねん。

性能比較の詳細

でもここでのポイントは、これまでの最高がこのAiDスキャフォールディングやったっちゅうことや。そのスキャフォールディング内に最高のAIモデルのいくつかを入れた時、例えばo1 previewを入れた時、非常に高い、非常に立派な36.6を得たんや。20%が金やった。有効な提出は90%だけやったんに注目してくれ。

これは、俺が知る限り、今まで最先端やったんやねん。そして Emily Starがある。

GoogleのGemini 2.5 Proを使った提案スキャフォールディングや。Googleが持っとる最高のモデルやろうな。なぜなら、Gemini 2.5 Deep Thinkはここでは動かへんやろう。重すぎるし、高すぎるからな。

でもポイントは、有効な提出が100%やっちゅうことに注目してくれ。他のモデルやスキャフォールディング、組み合わせで100%有効な提出に近いものはないねん。

常に提出して、常に有効や。そして36から63.6%のメダル獲得にジャンプしたんや。つまり、何らかのランキングを得て、36.4%で金メダルを取得するねん。

未来への示唆

これは確かにちょっと刺激的で、一部の人にとってはちょっと怖いかもしれへんな。様々なタスクを行うために独自のAIを作り、そしてそのAIをKaggleで改善することができるAIを開発し始めとるように見えるからやねん。

OpenAIにはOpenAI o2zチャレンジがあって、南アメリカで以前に発見されたことのない考古学的サイトを見つける可能性のある様々な機械学習モデルやLLMモデル、ビジョンモデルを作るもんやったんや。50万ドルの様々な賞金と賞があって、その後終了したんやねん。でも例えば1位の受賞者には25万ドルが授与されたねん。

これは、モデルを作るためのもので、10万ドルの賞金があるねん。これらの簡単なタスクを行うモデルが必要やねん。出力はPythonコードである必要があるねん。例えば、オブジェクトの下に影を描くことやねん。だから、できるだけ少ないコード数でそれを行うモデルを作る必要があるねん。エレガントな解決策である必要があるねん。

現実的な応用と影響

アメリカ国土安全保障省の乗客スクリーニング用で150万ドルの賞があるねん。約1万1000の入場がある。リーダーボードがここにあるねん。見ての通り、これらの人たち全員が金メダルを狙っとるねん。でもたくさんの提出があるねん。

このタイタニックのやつは140万の入場があるねん。その一人一人が、第一に機械学習や数学のバックグラウンド、コンピュータサイエンスのバックグラウンドのために学校に行った人やろうし、一部は独学やと思うけど、いずれにしても、これらの人たちは人生の大部分をそういうことを学ぶのに費やした人たちやねん。

座って、コンペティションのルールを読み、何が必要かを理解するのに時間をかけて、必要な性能を実行するモデルを提出しようとする作業をするためにモデルを作る作業に取り掛かったんやねん。

そこでGemini 2.5 ProとEmily Star が、第一にすべての提出が有効やった。第二に、63%の時間、つまり半分以上の時間、大部分の時間でメダルを取得したか、実際のシナリオでは取得したやろうねん。

これはベンチマークやけど、ベンチマークは実際のKaggleコンペティションに基づいとるねん。そして36%の時間で金を取得したんや。何かを提出する最も一般的な結果が金メダルを取得することやったみたいやな。

システムプロンプトと将来性

実行コストがどれくらいか、どれくらい高いかは分からへん。ただし、Gemini 2.5 Proはおそらくそれほど高くないやろう。ちなみに、これがモデルのシステムプロンプトや。「あなたはコンペティションに参加するKaggleグランドマスターです」や。

これは興味深い質問やねん。これらのモデルが実際にグランドマスターになった時に何が起こるか？彼らはすでに金メダルを獲得しとるねん。無限の数のコピーを実行することができて、モデル自体がどんどん良くなっていくねん。

繰り返すけど、このスキャフォールディングでは、古いモデルを取り出して、新しく改良されたモデルを入れるだけで、全体が改良されるねん。Google の研究者自身がそう言っとるし、出された多くの異なる論文で同じことを見てきたねん。

これらのフレームワーク、スキャフォールディングがある時、新しいモデルを入れると、自動的に改善が見られる傾向があるねん。新しいモデルが古いものより良ければ、フレームワーク内での性能も良くなるねん。

広範囲な応用可能性

これが意味することは、すぐにもっと多くの人が特定の使用例のために独自のAIを立ち上げることができるようになるっちゅうことやと思うねん。

たくさんのデータがあって、アプローチを最適化したい非常に簡単なことでもどこでも。明らかに、医療、航空会社、大気質、レストランの売上データなど、研究やビジネスには膨大な応用があるねん。

すぐに、これらのAIモデル、既存の大規模言語モデルが、俺たちがやってもらいたいどんなタスクでも行うためのこれらのオーダーメイド、カスタムメイドのAIモデルを迅速かつ非常に効果的に、ほぼ超人的に作ることができるようになって、最終的には機械学習分野を前進させ、AI研究を自動化するようになるみたいやねん。