Googleがインターネットを修正するAIを発表

Google DeepMindが発表したCode Menderは、オープンソースプロジェクトのセキュリティ脆弱性を自動的に発見し修正するAIシステムである。わずか6ヶ月で72件の検証済みセキュリティ修正を実装し、最大1,200万行のコードを扱う能力を持つ。従来のツールとは異なり、Code Menderはコードのロジックを理解し、問題の根本原因を特定し、パッチを生成して自動検証するまでを一貫して行う。さらにGoogleは、Gemini 2.5 Computer Useという新モデルも公開した。これは人間のようにブラウザやモバイルインターフェースを操作できるAIで、フォームの入力やメニューのクリック、ファイルのドラッグ&ドロップなどを自律的に実行する。ベンチマークでは70%以上の精度を達成し、OpenAIのコンピュータ使用エージェントを上回る性能を示している。これらの技術は、AIがコーディングアシスタントから信頼できる開発者へと進化し、実際にソフトウェアを操作する時代の到来を示すものである。

Google Just Dropped AI That Fixes The Internet

Google just dropped AI that literally fixes the internet — and it’s wild. DeepMind’s new system, CodeMender, is already ...

GoogleのCode MenderとGemini 2.5 Computer Useの登場
Code Menderの実績と技術的な仕組み
Neoの紹介とCode Menderの高度な機能
Code Menderの将来展望とGemini 2.5 Computer Useの紹介
Gemini 2.5 Computer Useのパフォーマンスと応用
安全性への配慮と今後の展望

GoogleのCode MenderとGemini 2.5 Computer Useの登場

Google DeepMindが、大規模なオープンソースプロジェクト全体でセキュリティ上の欠陥を完全に自律的に発見し修正するCode Menderと呼ばれるAIを発表しました。彼らはまた、急速に注目を集めている分野、つまり実際にコンピュータを使用できるAIの領域にも進出しました。

この新しいモデルは、人間のようにクリックし、タイピングし、ウェブをナビゲートすることができます。これは完全自律型AIに向けたGoogleの最大の動きと言えるでしょう。では、これについて話していきましょう。

まずはCode Menderから始めましょう。Google DeepMindはこれをオープンソースセキュリティのためのAIコード開発者と説明しています。このシステムはわずか6ヶ月で、すでに72件の検証済みセキュリティ修正をオープンソースプロジェクトにアップストリームしています。そしてこれは些細なものではありません。

私たちが話しているのは、最大1,200万行のコードを持つプロジェクトについてです。Code Menderが非常に印象的な理由は、古い自動化ツールのように単に脆弱性をスキャンするだけではないからです。実際にコードのロジックを理解し、問題の根本原因を特定し、パッチを生成し、何も壊れないように自動的に検証します。

人間がレビューする前に、これらすべてを行うのです。エージェント自体はGoogleのGemini Deepthinkモデル上で動作しており、これはコードについて推論するために特別にファインチューニングされたGeminiの特別バージョンです。DeepMindによれば、一貫したスタイルと機能性を維持しながら、コードの大きなセクションをデバッグ、パッチ、書き直すことができます。

したがって、脆弱性が現れた場合、Code Menderはそれを修正するだけでなく、パッチが新しい問題を作り出さないようにリグレッションもチェックします。その後、パッチはマージされる前に人間のメンテナーにレビューのために送られます。

Code Menderの能力の初期の実証の1つは、不正なXMLスタック管理によって引き起こされたヒープバッファオーバーフローを発見したときでした。これは経験豊富な開発者でさえ見逃しやすいものです。

Code Menderの実績と技術的な仕組み

もう1つの成功事例は、libwebp画像圧縮ライブラリに関するもので、2023年にハッカーがAppleのiOSに対するゼロデイ攻撃で使用した主要な脆弱性がありました。Code Menderは、fboundセーフティとして知られるコンパイラアノテーションを追加し、コンパイラに境界チェックを実行させることで、バッファオーバーフローを効果的にブロックしました。

DeepMindは、これらのチェックが以前から実装されていれば、そのiOSのエクスプロイトはおそらく起こらなかっただろうと指摘しました。

Code Menderが内部でどのように動作するかは、実に魅力的です。静的解析、動的解析、ファジング、差分テスト、そしてSMTソルバーを組み合わせています。基本的には、高度なプログラム解析ツールの武器庫です。これらはAIがデータがコードを通ってどのように流れるか、そしてセキュリティの弱点がどこに隠れているかを分解するのに役立ちます。

DeepMindはまた、Code Mender内にマルチエージェントシステムを構築しました。つまり、デバッグの特定の側面に特化した小さなAIサブエージェントがあるということです。例えば、そのうちの1つはコード批評エージェントとして機能し、元のコードと修正されたコードを1行ずつ比較して、パッチがリグレッションを導入しないことを確認します。

何かおかしいことを発見すると、自動的に自己修正ステップをトリガーします。システムがバグに遭遇したとき、ランダムな修正を投げ出すだけではありません。デバッガを開き、コールスタックを検査し、ソースファイルをブラウズし、実際に何が問題を引き起こしたのかを特定するまで段階的に推論します。

あるケースでは、目に見えるクラッシュレポートにはヒープオーバーフローが示されていましたが、AIは真の原因をXML解析の奥深くに埋もれたメモリ処理の問題まで追跡しました。実際の修正はわずか数行のコードを変更しただけでしたが、同じ問題がコードベース全体で再発するのを防ぎました。

Neoの紹介とCode Menderの高度な機能

さて、AIで構築することは刺激的に聞こえますが、舞台裏では通常、何週間もの試行錯誤、面倒なデータのクリーンアップ、そして絶え間ない修正を意味します。そこでNeoの出番です。そして彼らは今日のビデオのスポンサーです。

Neoは完全に自律的な機械学習エージェントで、エンドツーエンドでワークフロー全体を処理します。生データと特徴量エンジニアリングから、トレーニング、チューニング、デプロイメント、モニタリングまで、数週間ではなく数時間で作業を完了させます。そしてこれは単なる理論ではありません。

MLEベンチマークの75のKaggleコンペティションで、Neoは3回の実行で約34%でメダルを獲得し、多くのよく知られたMLエージェントを打ち負かしました。GPUまたはCPUサンドボックスで実行され、結果が定着するまで計画、コーディング、実行、デバッグをループします。物事が壊れたときに適応し、高速に反復し、エンジニアが必要なときに介入できるようにヒューマン・イン・ザ・ループモードを提供します。

Neoはデータ探索からトレーニングと評価まで、スケールする完全なMLライフサイクルで機能します。Neoはチームに何千時間も節約し、MLプロジェクトの進め方を変える可能性があります。アーリーベータは間もなくオープンします。説明欄のリンクからウェイトリストに参加してください。

さて、Googleに戻りましょう。別の例では、Code Menderが複雑なオブジェクトライフタイムの問題をどのように処理したかを示しています。特定のオブジェクトがメモリ内でいつどのように破棄されるかを管理しなければならないケースです。AIは問題がカスタムC++コードジェネレータの内部にあることを理解し、正しく修正しました。

これらは単純な機械的な修正ではありません。プログラムの異なる部分がどのように相互作用するかについての深い文脈的理解を必要とします。

さらに興味深いのは、Code Menderがバグへの対応だけにとどまらないことです。コードをより安全にするために積極的に書き換えます。DeepMindは既存のコードベースへのアクセスを与え、より安全なデータ構造に切り替えたり、コンパイラレベルの保護措置を追加したりすることで、それらを保護するタスクを課しました。

そこで、それらのfboundセーフティアノテーションが登場します。それらは本質的に、リスクの高いC++コードを、同じ方法で再び悪用できないより安全なバリアントに変換します。

ある例では、Code Menderが関数を修正し、それらをLLMジャッジを通して実行しました。これは、更新された関数が以前と同じように動作するかどうかをチェックする別のAIモデルです。何らかの逸脱があれば、ジャッジはそれにフラグを立て、Code Menderは合格するまで自動的にパッチを調整します。

このプロセス全体は、何が間違っていたかを理解するだけでなく、人間に引き渡す前にすべての修正が完璧であることを確認するAIペアプログラマーを見ているようなものです。

Code Menderの将来展望とGemini 2.5 Computer Useの紹介

DeepMindによれば、これは単なる始まりに過ぎません。彼らはすでにCode Menderの技術をGoogle Workspace向けのAI搭載ランサムウェア検出などの領域に拡張する作業を進めており、これはAIのサイバーセキュリティにおけるはるかに広範な役割を示唆しています。

ここでのより大きな要点は、AIがもはや単なるコーディングアシスタントではないということです。それは世界のオープンソースエコシステムを維持する信頼できるコード開発者になりつつあります。

さて、Code Menderがコードの修正に焦点を当てている一方で、Gemini 2.5 Computer Useはそれを使用することに焦点を当てています。文字通りです。DeepMindは現在、ブラウザやモバイルインターフェースを介して、人が行うのと同じ方法でソフトウェアを操作できるGemini 2.5の特殊バージョンをリリースしました。

正式にはGemini 2.5 Computer Useと呼ばれ、Gemini 2.5 Proの視覚的推論能力の上に構築されています。このモデルは、ユーザーインターフェースを見て相互作用できるエージェントを動かします。現在、Google AI StudioとVertex AI内のGemini APIを通じて利用可能で、開発者は自分のシステムに統合することができます。

中心的なアイデアは、多くのデジタルタスクが依然としてグラフィカルインターフェースの直接操作を必要とするということです。フォームの入力、メニューのクリック、ファイルのドラッグ&ドロップなどです。そしてこのモデルはそれらすべてを自律的に行うことができます。

Googleのデモプロンプトの1つを見てみましょう。AIはペットケアウェブサイトのサインアップフォームに行き、カリフォルニアに住むペットに関するデータを収集し、それらをスパのCRMシステムに追加し、その後10月10日の午前8時以降にEmma Lavarという名前のスペシャリストとのフォローアップアポイントメントをスケジュールするよう求められます。

モデルはこれらすべてを成功裏に実行し、ウェブサイトをナビゲートし、データを入力し、タスクの完了を確認します。別のデモでは、モデルがデジタルボード上の付箋を適切なカテゴリにドラッグして整理します。これらすべてのステップを、スクリーンショットを解釈し、見えているものについて推論することによって実行します。

モデルはループで動作します。各ステップはインターフェースのスクリーンショット、最近のアクションの記録、そしてユーザーのリクエストから始まります。モデルはすべてを分析し、クリック、タイプ、スクロールなどの関数呼び出しを出力します。次にアクションが実行されます。新しいスクリーンショットが撮影され、プロセスが繰り返されます。

これは、ゴールに到達するか、エラーが発生するか、システムが安全チェックまたはユーザーの決定により停止するまで続きます。

Gemini 2.5 Computer Useのパフォーマンスと応用

現在、主にウェブブラウザ向けに最適化されていますが、モバイルUI制御でも有望な結果を示しています。デスクトップオペレーティングシステムレベルのタスクにはまだ対応していませんが、おそらく次に来るでしょう。

ベンチマークでは、Gemini 2.5 Computer Useは最先端レベルのパフォーマンスを発揮し、Online Mind to Web、Web Voyager、Android Worldで他のモデルを打ち負かしました。Browserbaseの独立評価によれば、精度とレイテンシの間で最高のバランスも達成しました。

70%以上の精度で、完全なタスクあたりの平均レイテンシは約2.5秒です。簡単に言えば、OpenAIのコンピュータ使用エージェントのような競合システムよりも高速で信頼性があります。

Browserbaseがホストする公開デモをテストした中国のテクノロジー出版物であるMachineheartは、このモデルがWikipediaでJohn Wickのページを見つけるような単純なタスクでは非常に良く機能するが、コンテンツの要約や翻訳など、タスクが複数ステップになったり言語固有になったりすると失敗し始めることを確認しました。

したがって、まだ初期段階ですが、潜在能力は巨大です。Googleはすでにこのモデルを社内で展開しています。UIテストに使用されており、ソフトウェア開発を劇的に加速できます。Google全体のチームが、Project Mariner、Firebaseテストエージェント、さらには検索のAIモードなどの製品でそれを実装しています。

モデルは、画面上にあるものを評価し、次に何をすべきかを決定することによって、壊れたワークフローを自動的に回復します。以前は手動で修正するのに数日かかったものです。

外部テスターも同様に感銘を受けています。ある企業、Poke.comは、Gemini 2.5 Computer Useが試したどのシステムよりも約50%高速で信頼性が高いと述べました。別の企業、Autotabは、正確なデータ解析を必要とする複雑なタスクで18%のパフォーマンス向上を報告しました。

そしてGoogleの決済プラットフォームチームは、すべてのテスト失敗の4分の1を占めていた、壊れたエンドツーエンドUIテストの60%を自動的に修復するようになったと述べました。

安全性への配慮と今後の展望

もちろん、ブラウザやアプリを操作できるAIはいくつかの安全上の懸念を引き起こしますが、DeepMindはそれを十分に認識しているようです。彼らは安全ガードレールをモデルに直接統合しました。

ステップごとの安全サービスがあり、実行される前に提案された各アクションをチェックし、CAPTCHAのバイパス、システムの整合性の侵害、機密デバイスの制御など、リスクのあることを行っていないことを確認します。

開発者はまた、購入や重要なシステム設定の変更など、高リスクのアクション前にユーザーの確認を必要とするカスタム安全ルールを強制することもできます。

DeepMindは透明性のために詳細なシステムカードを公開し、意図的な悪用、予期しないモデルの動作、ウェブ環境内でのプロンプトインジェクションなどのリスクをどのように軽減しているかを説明しています。そして彼らは、ライブシステムと自律的に相互作用するものを立ち上げる前に、実装を徹底的にテストするよう開発者に積極的に促しています。

Gemini 2.5 Computer Useモデルは現在、プレビューで公開されています。開発者はBrowserbaseのデモ環境で試すことができ、最大5分間のセッションが可能です。実際の統合のためには、AI StudioまたはVertex AIのGemini APIを通じてアクセスしたり、Playwrightのようなツールを使用して独自のローカルエージェントループを構築したりすることもできます。

これが現在のペースで進化し続けるなら、次世代のAI開発者はAIツールを使うだけでなく、文字通りの意味で彼らと一緒に働くことになるでしょう。

今回は以上です。ご視聴ありがとうございました。考えがあればコメントを残してください。必ず登録してください。次回お会いしましょう。