日本の狂気的なAIブレイクスルー:ダーウィン進化を活用!

SakanaAI
この記事は約12分で読めます。

この動画は、AIの急速な発展について複数の重要な出来事を取り上げている。日本のSakana AIが開発したダーウィン進化アルゴリズムは、自らのコードを修正して性能を向上させる革新的なシステムである。中国のDeepSeekはR1の新バージョンをリリースし、大幅な性能向上を達成した。ファーウェイは印象的なAIハードウェアを発表し、中国の技術的独立を加速させている。Anthropicのダリオ・アモデイはAI企業が公衆に対して率直でないと警告し、前例のない失業率の到来を予測している。これらの動向は、AI分野における競争の激化と、それに伴う社会的影響の深刻さを浮き彫りにしている。

AIにとって非常に忙しい数日間でした。日本が自らのコードを修正してあらゆるベンチマークを登る新しいダーウィン進化アルゴリズムを導入しました。再帰的に自分自身のコードを改良することで、ソフトウェア工学ベンチマークでの性能を20%から50%まで向上させました。ジェフリー・ミラーは「これは狂気的で無謀に危険だ。進化的アプローチは危険すぎて制御不可能だ」と書いています。

中国も特別な数日間を過ごしました。DeepSeekがDeepSeek R1の新バージョンをリリースし、5倍から7倍安価でありながら最先端の性能に到達しました。彼らはマイナーリリースだと言っていますが、性能の向上はマイナーではありません。そしてファーウェイは、NvidiaのCEOであるジェンスン・フアンでさえ「中国で競争するのは非常に困難になった」と言うほど印象的な新しいAIハードウェアを発表しました。

アメリカがチップ法の規制を撤廃してNvidiaの中国での販売を許可したとしても、V3が再び話題になっています。人々はこのモデルにはもっと多くのことがあることを発見しています。誰も予想していなかった物理世界への深い理解を何らかの形で持っているのです。Anthropicのダリオ・アモデイは、他のAI企業が公衆に真実を語っていないと主張して波紋を呼びました。

彼は前例のない20%の失業率が到来すると言っています。比較のために言うと、2008年の金融危機の失業率はピーク時で10%でした。AIにとって狂気的で、エキサイティングで、そして少し不安な数日間です。では、それについて話しましょう。

Sakana AIは日本で数少ない真剣なAIラボの一つです。彼らは自分自身のコードを書き換えることで再帰的に自己改良するAI、ダーウィンゲーデル機械を導入しました。ゲーデル機械は数十年前に提案された理論的な自己改良AIです。アイデアは、AIが数学的に次の最適戦略を証明することで再帰的に自己改良できれば、最終的にメタ学習、つまり学習することを学び、あらゆる問題の最適解を見つけられるというものです。

しかし、ゲーデル機械の明らかな問題は、変更を採用する前にその変更が有益であることを証明しなければならず、それは現実世界では実用的でないことです。

そこでSakana AIはゲーデル機械とダーウィン進化のようなオープンエンド型アルゴリズムの原理を組み合わせて、経験的に性能を向上させる改良を探索し、その結果をダーウィンゲーデル機械と呼んでいます。DGMは基盤モデルを活用してコードの改良を提案し、オープンエンド型アルゴリズムの最近の革新を使用して、多様で高品質なAIエージェントの成長するライブラリを探索します。

これを考える最良の方法はこうです。我々は企業がフロンティアモデルを一部の製品に拡張し、Cursor、Anthropic、Repletなど数百の他の例のような魅力的な結果を生成しているのを見てきました。これらは毎月数百万ドルを生成し、エージェント環境、ツール、システムプロンプトが、AIが現実世界でどれほど有用かにおいて重要な役割を果たすことを示しています。

しかし、これらのツール使用を伴うエージェント環境はすべて手作りです。そしてAIにおける教訓は常に、プロセスがよりエンドツーエンドであればあるほど、性能が向上するということです。では、エージェントが自分自身のツール、システムプロンプト、さらには自分自身の改良方法まで再帰的に改良できるとしたらどうでしょうか?それがゲーデル機械の働き方です。

エージェントレベルで進化プロセスを実行し、自分自身の多くのコピーを作成します。その後、より有望な経路で繁殖を続け、可能なAIエージェントの巨大な空間を自動的に探索します。彼らはフロンティアモデル、この例ではClaude 3.5 Sonnetを取ります。基本的なツールを2つだけ与えます。一つはbashコマンドの実行用、もう一つはディレクトリとファイルの閲覧・編集用です。

それからシステムに一つのプロンプトでタスクを与えます。モデルには80回の反復のみを与え、反復ごとに一つのエージェントを生成します。そして結果は驚くべきものです。Sweetbenchで20%のスコアを出していたエージェントが、50%のスコアを出すバリアントを再現できるようになりました。Polyglotで14.2%のスコアを出していたエージェントが、30.7%のスコアを出すバリアントを作成しました。

Sakanaは研究ラボで、能力に限りがあります。しかし、より多くの計算資源があれば、これはもっと長く続けることができ、具体的で測定可能な改良を伴うスケーリングの別の次元として機能する可能性があると主張しています。80のバリエーションは、ダーウィン進化のようなオープンエンド型アルゴリズムにとって非常に小さな探索空間です。それでもシステムはその小さな領域で非常に興味深い戦略を見つけます。

最良のエージェントバリアントの経路をプロットしたこのチャートを見てください。ある時点で、エージェントはファイル全体ではなく文字列を置換することでより細かい方法でファイルを編集する能力や、コンテキストウィンドウの制限に達した時に要約して問題をさらに進められるようにすることが、より良い戦略であることを認識します

そして最終的に、パッチと順位を生成しながら、それらがどのように機能したかの履歴を保持します。研究者たちは最良のバリアントの基盤モデルをOpenAIのo3 miniに置き換えましたが、システムは依然として元のバージョンより実質的に優れており、解決策が一般的で、一つのモデルの思考方法に限定されないことを示しています

DGMが手作りのAIシステムを近々上回る可能性があります。念のため言っておくと、これらの手作りAIシステムの中には数億ドルの価値があるものもあります。これが自動化されれば、エンドツーエンドの学習プロセスに追いつくのは非常に困難です

また、重要な安全上の懸念もあります。メモリシステムを構築する能力を持つ自己改良AIがどのように間違った方向に向かうかを想像するのは難しくありません。心理学教授のジェフリー・ミラーは、これは狂気的に危険だと言っています。Sakanaチームは現実世界のシナリオにおける安全上の懸念を認めており、すべての実験は人間の監督の下で安全なサンドボックス環境で行われ、現実世界のシナリオにはより堅牢な安全対策が講じられると述べています。

DGMと並んで、DeepSeekがR1-20250128をリリースし、これは大幅な性能向上です。コーディング、数学、一般的な論理においてより優れており、その総合性能はOpenAIのo3やGoogleのGemini 2.0 Flash Experimentalのような主要モデルに近づき、時には上回ることさえありながら、5倍から7倍安価です

中国から完全にオープンソースで、誰でも簡単に利用できるモデルが、アメリカの最新最高のモデルと同等である。これは見事な戦略です。薄い青色が1月の以前のDeepSeekで、濃い青色が最新バージョンです。すべてのベンチマークで実質的な違いが見えます。

数学試験であるAIME 2024では、79%から91%に跳躍しています。AIME 2025では70%から87%。インターネット上で答えを簡単に見つけることができない大学院レベルの質問を含むGPQA Diamondでは、71%から81%になっています。そして残りも見てください。ベンチマークを超えて、モデルが実際にどれほど優れた性能を発揮するかの実例をいくつか見てみましょう。

しかし総合的に、Artificial AnalysisはDeepSeekをOpenAI o3に次ぐ世界第2位のAIモデルに位置づけており、もちろん議論の余地なく最高のオープンウェイトモデルです。性能の向上はo1からo3への向上に匹敵し、これは非常に実質的です。モデルには建築的な変更はなく、6,710億パラメータのうち37億がアクティブパラメータのままです。

このモデルはベンチマークでGemini 2.0 Flash Experimentalと同等で、コーディングではClaudeより優れています。しかし、実際にどのように機能するかを見てみましょう。

まず、Claude 4で試した最初のプロンプトは「3JSを使ってMinecraftプロトタイプを生成する」でした。では、新しいDeepSeekで試してみましょう。結果はそれほど印象的ではありません。見た目は素晴らしく、Claude 4よりも良く見えます。

しかし、これはゲームではありません。コントロールが接続されていません。オブジェクトを通り抜けることができます。ブロックの除去や追加もありません。基本的には、実際のゲームメカニクスのない視覚的表現に過ぎません。ゲームプロトタイプといえば、最初に思い浮かぶのは基本的なゲームメカニクスです。Claude 4は最初の試行で簡単に成功しました。

基本的なメカニクスを持つ本当のプロトタイプです。では、「3JSを使って動作するMinecraftゲームを作成してください。すべての機能が欲しいです」と試してみましょう。おそらく前回のプロンプトはモデルを十分に押し進めなかったのでしょう。前回は12秒考え、今回は28秒考えました。それは良い兆候だと思います。最初の試行では、全く開始されません。

「loading world」で止まったままです。もう一度試して、モデルに修正を求めてみましょう。興味深いことに、修正のために120秒考えました。Claude 4と比較してモデルが遅いと言わざるを得ません。これは有望に見えますが、再びローディングで止まりました。Claude 4はラグがありましたが、見事なゲームを作成しました。公平に言って、Claude 4の方が優れていると思います。

公平を期すために言うと、これらのプロンプトは途方もなく困難ですが、モデルを限界まで押し進めようとしています。DeepSeekは少なくともベンチマークによると、実用的なタスクではおそらくずっと優れているでしょう。

ファーウェイはNvidiaと同等のAIハードウェアを導入して話題になりました。この時点で、中国企業は理解できることに、もはやアメリカを信頼していません。そのため、誰もがすでにファーウェイに切り替えて、彼らのスタック上で構築しています。この変化について、そしてチップ法がNvidiaから数十億ドルの収益を奪う一方で、中国の独立を強制していることについて語るジェンスンの話を聞いてください。これは誰もが想像していたよりもはるかに速く起こっています。

「ファーウェイの技術は、現時点での我々の最良の理解に基づけば、我々にはそこに多くの基盤的事実がありますが、おそらくH200に匹敵します。そして彼らは非常に速く動いており、我々の最新世代のGrace Blackwellよりもさらに大きなシステムにスケールアップするCloud Matrixと呼ばれる新しいシステムも提供しています。規制変更の課題の一つは、市場がNvidiaと最終的にはアメリカのプラットフォームを信頼する能力です。そのため、中国の顧客がファーウェイ上でスタックを開発することを確実にするのは賢明だと思います。この時点でアメリカの技術に依存するのは困難だからです。」

DeepSeekは現在の状況に完璧に適合しています。アメリカ企業はソフトウェア層のAIと独自のサブスクリプションベースのサービスに大きく賭けており、中国は急速に追いついて、これらのAIラボのあらゆる優位性、秘密のソース、投資が信頼できないという明確なシグナルを送っています。したがって、価値を中国が信頼できる優位性を持つことができるハードウェアやエネルギーなど、スタックの他の層に移すことを強制しています。

私はこのチャートに戻り続けています。中国は世界第1位のAI研究発表者であり、クローズドなものと同等の第1位のオープンソースAIを持ち、ハードウェアで追いつき、エネルギー生産では他の誰よりもはるかに上回っています

アメリカが最終的にすべての技術競争で勝利することがどういうわけかありますが、これは特に困難に見えます。

一方、アメリカでは、好評だったGoogle I/Oの後、V3が再び話題になりました。今回は動画ではなく、誰も予想していなかった物理学への驚くべき理解のためです。このクリップを見てください。驚きです。

AIはすべてがどのように聞こえるかをどのように知っているのでしょうか?

GoogleはまたFlow TVパネルも開始し、AI生成動画を24時間365日表示しています。無料です。Flow TVでチェックできます。異なるスタイルの動画を切り替えることができます。そこにはかなり驚くべき例があります。このモデルがこれほど多くの物理学、相互作用、音を完璧に符号化しているのは、毎回驚かされます

最後に、私がずっと言ってきたように、ダリオ・アモデイがついに出てきて「これらの他のAI企業はすべて公衆に対して正確に率直ではない。今後1年から5年で膨大な数の仕事がAIの影響を受けることになり、我々は基本的にそのための計画を持っていない」と言いました

彼はまたそこでいくつかの狂気的な数字も付け加えました。見てみましょう。

「ダリオ、あなたはAIがすべてのエントリーレベルのホワイトカラー職の半分を一掃し、失業率を10%から20%に急上昇させる可能性があると言いました。それはどのくらい早く起こる可能性がありますか?」

「私にとってこのAIブームについて印象的なのは、それがこれまでの何よりも大きく、広範囲で、速く動いているということです。なぜ警鐘を鳴らしているのですか?必ずしもあなたの最善の利益になるとは思えないからです。」

「そうですね、警鐘を鳴らしている理由は、他の人々がそれほどしていないと思うからです。そして、誰かがそれを言う必要があると思います。私が話したすべての人が、この技術的変化は異なって見えると言っています。より速く見えます。適応がより困難に見えます。より広範囲です。進歩のペースが人々を不意を突き続けています

そして、仕事への懸念がどのくらい早く来るかは正確にはわかりません。人々がどのくらい早く適応するかもわかりません。すべてが大丈夫になる可能性はあります。

しかし、それはあまりにも楽観的なアプローチだと思います。我々は警鐘を鳴らす必要があると思います。我々はそれについて懸念する必要があると思います。政策立案者たちはそれについて心配する必要があると思います。もし彼らが心配し、行動すれば、おそらくそれを防ぐことができるでしょう。しかし、すべてが大丈夫になると言うだけでは防ぐことはできません。」

ご視聴ありがとうございました。次回もお楽しみに。

コメント

タイトルとURLをコピーしました