Googleが新たにリリースしたGemini 2.5 Computer Useモデルは、ユーザーのコンピュータをリモートまたはローカルで制御し、様々なタスクを自動実行できる専用モデルである。OpenAIのOperatorモデルやClaude Sonnet 4.5といった競合を上回るベンチマークスコアを記録し、特にレイテンシ(応答速度)と精度のバランスに優れている点が特徴だ。本動画では、YouTubeでの検索やHacker Newsからの記事選択といった実際のデモンストレーションを通じて、このモデルがどのように画面を認識し、クリックやテキスト入力を自動で行うかを実証している。ただし、無料プランでは利用できず、有料プラン(Tier 1以上)が必要である点には注意が必要だ。RPAやビジネスプロセス自動化の分野において、このモデルは有力な選択肢となりうる。

Gemini 2.5 Computer Useモデルの登場
GoogleのGeminiが新しい専用のコンピュータ使用モデルを発表しました。このモデルはあなたのコンピュータをリモートまたはローカルで制御して、特定のタスクを実行してくれます。これはOpenAIのOperatorモデルに似たもので、コンピュータを使用するためのモデルです。つまり、コンピュータ使用モデルで実行したいあらゆるエージェント的なタスクを、この特定のモデルで実行できるということです。
これは2.5 Proとは異なる専用モデルです。このモデルは印象的なベンチマーク数値を備えています。私が特に楽しみにしていた非常に重要なベンチマークの一つはOS Worldでしたが、それはまだサポートされていないとのことで、どういうわけか報告されていませんでした。しかし、他のすべてのベンチマークにおいて、このモデルは他のあらゆる最高のモデルを上回っています。
ベンチマーク性能の比較
例えば、Claude Sonnet 4.5は現在の環境において最高のエージェントモデルの一つですが、数日前に発表されたこのGemini 2.5 Computer Useモデルは、Claude Sonnet 4.5と比較して非常に優れたスコアを記録しています。OpenAIのOperatorモデルというコンピュータ使用エージェントモデルを含む他のモデルもありますが、このモデルはOpenAIのモデルよりもはるかに優れています。
全体として、このモデルは様々なコンピュータ使用タスクにおいて非常に優れたモデルであると言えます。そして、非常に重要な指標を一つ挙げるとすれば、それはレイテンシ(応答時間)です。
本当に優れたモデルを持っていても、そのモデルが多くの時間を要するなら、誰も自動化を待ってくれません。特にロボティックプロセスオートメーション(RPA)やビジネスプロセスオートメーション(BPA)のような環境では、スピードが非常に重要です。したがってレイテンシが非常に重要なのです。
Googleは、自社のモデルがレイテンシと品質の間で最高のトレードオフを実現していると主張しています。ここでご覧いただけるように、このモデルはより高い精度を持っていますが、同時にOpenAIのOperator、Claude Sonnet 4.5、そしてClaude Sonnet 4(これは依然として最高のプログラミングモデルの一つです)と比較して、最も低いレイテンシを実現しています。
コンピュータ使用モデルの動作原理
では、このコンピュータ使用モデルはどのように機能するのでしょうか。まず、最初のタスクを与えます。例えば、タスクは「YouTubeに行って、One Little Coderを検索する」といったものです。
そのタスクはリクエストとしてモデルに送信されます。そして、モデルにリクエストとして送信される際に、Playwrightなどを使用してスクリーンショットも一緒に送信します。これはローカルで行いたい場合、またはリモートの場合はBrowserBaseを使用することができます。そして、以前のコンテキストと共にモデルに送信されます。
この場合のモデルはGemini 2.5 Computer Useです。モデルは応答を受け取り、その応答にはコンピュータ環境全体が含まれます。そこからモデルはアクションを実行します。そのアクションはボタンをクリックしたり、何らかの操作を行ったりすることです。そして最終的に新しい環境の状態をキャプチャし、与えられたタスクが完了するまで、このループを繰り返します。
セットアップと利用条件
ローカルでのセットアップは非常に簡単です。唯一の重要な注意点は、もしあなたがGoogle Geminiの無料プランを使っている場合、AI StudioでもGoogle Cloud Platform(GCP)でも、このモデルは動作しないということです。少なくともTier 1、Tier 2、Tier 3のいずれかである必要があります。つまり、無料プランでは動作しません。しかし、Googleの有料プランに加入していれば、使用するのは非常に簡単です。
リポジトリをクローンし、仮想環境を有効化し、ローカルでのブラウザ自動化のためにPlaywrightをインストールするだけです。あるいは、リモートで動作するBrowserBase内で実行することもできます。最後に、キーをセットアップして、実行したいクエリを入力すれば動作します。
実際のデモンストレーション
同じデモをお見せしますが、これはBrowserBaseでホストされており、これもクラウドインターフェースです。非常にシンプルな質問をして、どのように動作するか見てみましょう。これは事前に録画されたデモではありません。ですので、どれくらい時間がかかるか、スピードなど、すべてをライブでご覧いただけます。
「YouTubeに行って、One Little Coderの最新動画を検索して」と言ってみます。どうなるか見てみましょう。
非常にシンプルな指示を与えました。この場合、アクションを実行するだけです。情報を取得したり、何らかのブラウザエミュレーションを行ったりすることはありません。BrowserBaseでは、実験のために5分間が与えられます。まず、何らかの奇妙な理由でGoogleに移動します。おそらく新しいタブがGoogleになっているのでしょう。左側で、どのようなタスクを実行しているか見ることができます。
まず、ツールコールを実行してウェブブラウザを開き、引数は必要ありませんでした。次にYouTubeに移動し、「タスクはYouTubeに行って、One Little Coderの最新動画を検索すること」と表示されています。One Little Coderの最新動画を検索するというのは、ちょっと間抜けな感じもしますが、見てみましょう。YouTubeへのナビゲーションに成功しました。
今、One Little Coderの最新動画を検索する必要があります。そして、クリックする必要がある場所のピクセルまで正確にマーキングしているのがわかります。つまり、視覚的な感覚を持っているということです。One Little Coderを検索していて、実際にキーボードを使って入力しています。テキストをペーストしているわけではありません。
実際にタイピングしていて、「One Little Coderの最新のYouTube動画」と言っています。私はこんな風に検索したことがありません。YouTubeがこのように動作するとは知りませんでした。
なるほど、いいですね。私の動画が韻を踏む動画の隣に表示されています。「One Little Finger, One Little Finger」という動画です。非常に興味深いですね。誰かが「最新動画」で検索した場合に、YouTubeがこのように表示するとは知りませんでした。
今、これを実行したことを認識して、One Little Coderのチャンネル名をクリックしようとしています。YouTubeチャンネルへのナビゲーションに成功しました。何らかの理由でショート動画に移動しています。なぜかわかりませんが、要点はご理解いただけたと思います。ここでセッションを停止します。もう一つ最後のことをやってみます。
2つ目のデモンストレーション
ここに戻って、同じことをやります。Geminiがあるので、再起動します。今度は非常にシンプルなことをやります。「Hacker Newsに行って、トップトレンディングページの10番目の記事を選んで」と指示します。
まずHacker Newsに行ってほしいのですが、これはかなり簡単だと思います。しかし、ここでの主な難関は、すでに番号が振られている中から上から10番目の記事を特定し、それを実行しなければならないということです。
ブラウザを開くたびにGoogleが表示されると思います。ですから、Googleに行ってからHacker Newsを検索するというのは、完全に間抜けというわけではありません。まず、ブラウザを開きます。ブラウザが正常に開かれました。
今、Hacker Newsを検索しようとしています。Hacker Newsの正確なURL、例えばhackernews.comのようなものを入力してくれたら良かったのですが、Googleをより信頼しているようです。Hacker Newsを検索していて、ご覧のように入力しています。私は手で何もしていませんし、何も制御しようとしていません。
Hacker Newsを検索しています。Hacker Newsの結果が出ました。クリックというツールアクションを実行しているのが見えます。ツールコールはクリックです。すべてのツールコールが見えます。ブラウザを開くのもツールコールです。テキストを入力するのもツールコールです。そして、テキストを入力すると表示されるときは常に、入力する必要がある正確なピクセル、つまり次元が表示されます。
記事を評価しているのが見えます。これが10番目の記事でしょうか? 私は見ていませんでした。戻って確認してみましょう。10番目の記事と表示されています。非常に興味深いです。10番目の記事かどうか確認していませんでした。新しいタブを開きましょう。プライベートウィンドウでnews.ycombinator.comです。10番目を見たいと思います。
オーケー。「Discord – 70,000人のユーザーが情報漏洩で政府発行のIDを漏洩した可能性」と表示されています。非常に恐ろしい記事ですが、正確に10番目の記事をマークして、それをクリックしてくれました。そして記事が表示されます。
ご覧のように、これは非常に優れたモデルで、本当に良い働きをしているようです。GitHubのissueの一つから気づいたことの一つは、モデルが非常に遅いということです。なぜモデルが遅いのかはわかりません。
実行が遅いという苦情がいくつかあります。これが通常の苦情であって、必ずしも本番レベルの苦情ではないことを願っています。しかし、コンピュータ自動化、RPA、BPAを使用したい場合は、おそらくこれは、ローカルでもリモートでも、コンピュータワークフローを自動化するために検討できる優れた候補の一つです。
これがGemini 2.5 Computer Useモデルです。無料プランでは利用できません。質問があればお知らせください。別の動画でお会いしましょう。ハッピープロンプティング!


コメント