Gemini 3が恐ろしいほど優秀になった

Google・DeepMind・Alphabet
この記事は約13分で読めます。

Googleが発表したGemini 3は、従来モデルから大幅な性能向上を遂げた次世代大規模言語モデルである。Vending Bench 2やARC AGI 2などの複数のベンチマークにおいて、Claude Sonnet 4.5やGPT-5.1、Grok 4.1といった競合モデルを圧倒的な差で上回り、特にエージェント型タスクやコーディング、数学的推論、マルチモーダル理解において顕著な進歩を示している。ビジネスシミュレーションでは初期資本を10倍以上に増やし、競争環境下でも他のAIモデルを市場から駆逐するほどの戦略的能力を発揮した。100万トークンのコンテキストウィンドウを持ち、GUI操作やチャート理解、長文書からの情報抽出など実用的なタスクでも最高水準の性能を達成している。Google Anti-gravityなどの新しいエージェント開発プラットフォームと組み合わせることで、開発者に革新的な可能性を提供する期待のモデルである。

Gemini 3 just got *scary* good
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Gemini 3の衝撃的な性能向上

Gemini 3が本日リリースされましたが、これは本当にすごいモデルです。私は早期バージョンをテストする機会があったのですが、かなり大きな飛躍だと言わざるを得ません。これは小さな段階的アップデートではありません。本当に名前の最後に3がつくに値するものです。見ていきましょう。

試してみたい方は、Geminiアプリ、AI Studio、そしてVertex AIで利用可能になります。現在すでに公開されています。また、新しいエージェント型開発プラットフォームであるGoogle Anti-gravityも発表されました。これについては少し後でお話しします。検索のAIモードでもGemini 3を見ることができます。Google AIプランのどの階層、どのサブスクリプションを持っているかによっていくつかの制限があります。Google AI ProやGoogle AI Ultraといったプランがあったことを覚えていらっしゃると思いますが、それらのプランによってどのアクセス権を持つかが決まります。

また、Gemini 3 Deep Thinkも展開される予定です。これは現時点では全員が利用できるわけではありません。最初にアクセス権が与えられるのは安全性テスターで、その後Google AI Ultraサブスクライバーに提供されます。

ベンチマーク結果の概観

さて、まず最初にベンチマークを見ていきましょう。ベンチマークがすべてではありませんが、これらのモデルが持つ潜在能力を垣間見る最初の機会を与えてくれます。以前も言いましたが、私や他の多くの人々は、何らかのエージェント型作業を含むベンチマークを好んでいます。つまり、単に質問に答えるだけでなく、AIモデルが変化し適応し計画を立てなければならない長期的な視野を持つ何らかの作業を実際に行うものです。

そのことを念頭に置いて、Vending Bench 2ベンチマークから始めたいと思います。なぜなら、ご覧いただくとわかるように、第一に、これはかなり大きなアップデートがあり、第二に、この新しいGemini 3モデルが圧倒的に優れているからです。

Vending Benchとは何でしょうか。これはAnden Labsによるベンチマークで、人間をループに入れない自律型組織です。基本的に、これらのAIモデルは模擬ビジネスを運営できるのかという質問をしているのです。彼らは世界に展開された製品やフロンティアモデルのベンチマークを通じて、組織がAIによって自律的に運営される未来に備えようとしています。

基本的に、AIモデルは小さな自動販売機を運営し、商品が在庫されていることを確認し、顧客の要求に応え、どの商品が人気があるかを調査するなどの責任を負います。実際のベンチマークに使用される模擬バージョンがあります。彼らはまた、Anthropic本社用にこれを再現し、Anthropicの従業員のために商品を在庫しておくようにしました。

iPadを使った小さなチェックアウトがあり、Anthropicの従業員はClaudeにテキストメッセージを送って特定の商品を在庫するよう依頼することができました。このベンチマークの大きなポイントは、非常に長い時間軸にわたってモデルの一貫性と効率性を維持する能力をテストしていることです。つまり、何週間、何ヶ月にもわたって、自分が何をしようとしているのかを覚えていなければなりません。

Vending Benchでの圧倒的勝利

これが最初に登場したとき、AnthropicモデルのClaudeが勝者でした。Grok 4がリリースされると、それが王者となりました。今日、Gemini 3がトップに立ったことで、それらすべてが打ち負かされました。各モデルには開始時に500ドルが与えられ、ビジネスの旅を始めます。シミュレーションで350日間行われることに注目してください。Gemini 3 Proが純資産を10倍以上にしていることに注目してください。

500ドルから始まって5000ドル以上で終わります。Claude Sonnet 4.5は3839ドルで次点のようで、Grok 4が2000ドル弱で続きます。Gemini 2.5 Proはわずか576ドルにしか到達しないことに注目してください。つまり、まだプラスのROIではありますが、初期資本でほとんどお金を稼げていません。ですから、Gemini 2.5 ProとGemini 3 Proの間の飛躍は巨大です。

特定のモデルによる異なる実行での性能は大きく異なる可能性があります。これは5回の実行の平均で、Gemini 3 Proが再びトップです。現在最高のモデルです。Gemini 3 Proは粘り強い交渉者です。卸売業者に何を期待すべきかを知っており、妥当なオファーを見つけるまで新しい業者を探し続けます。

Gemini 3 Proはまた、友好的な業者を特定するのが非常に得意です。信頼できる人々を見つけて、彼らと取引を続ける傾向があります。

競争環境でのパフォーマンス

Vending Benchには別のバージョンがあり、それはArenaと呼ばれています。これは彼らの最初のマルチエージェント評価で、重要な要素、つまり競争を追加しています。すべてのエージェントが1つの場所に自動販売機を持っており、これはもちろん価格戦争や厳しい戦略的決定につながります。

このベンチマークで誰がうまくいくと思いますか。まあ、Gemini 3 Proが他のすべてを圧倒しています。Gemini 3 Proと競争することが他のモデルにとって大きな問題であるように見えることに注目してください。最終日にちょっとした跳ね上がりがあるので、これは無視します。最終日の計算方法に何か問題があったのかもしれません。

しかし、競争が終わるちょうど前の数日間で、Gemini 2.5 ProとGPT-5.1の両方がマイナスROI領域に押し込まれていることに注目してください。つまり、Gemini 3は残酷なビジネス競争相手だということです。

暗号通貨取引ベンチマーク

これらのモデルのエージェント能力と現実世界との相互作用を示すのが、N of OneによるAlpha Arenaです。彼らはシーズン1を終えたばかりで、様々な大規模言語モデルがライブで暗号通貨を取引しました。新しいシーズンは2日後に始まり、Gemini 3がこのベンチマークに入ることを本当に本当に期待しています。

DeepseekとQwen 3 Maxの2つのモデルが利益を上げた、より正確には市場を上回るパフォーマンスを示したことに注目してください。残りのモデルはアンダーパフォームしました。

学術的ベンチマークでの優位性

次のベンチマークは「人類最後の試験」です。Gemini 3が他のすべてを圧倒しています。トップスコアは37.5%です。次点はGPT-5.1で26%です。人類最後の試験、HLEは、専門家が作成した非常に難しいマルチサブジェクト、マルチモーダル試験です。検索とコード実行を使った数学と科学がたくさんあります。Gemini 3は45.8%を獲得しています。

次に、ARC AGI 2があり、Gemini 3は31.1%を獲得しています。これがARC AGI 2の例です。このような例が与えられます。このビフォーとこのようなアフターを見せます。そして、これを与えられて、あなたはそれを解決することになっています。つまり、このサンプルに基づいてゲームのルールが何であるかを理解し、それをここに適用することになっています。

そして各質問には異なるゲームのルールがあります。ですから、そのゲームのプレイ方法を学ぶために、非常に少ないサンプルで非常に速く学習しなければなりません。これは一目で理解するのはかなり簡単かもしれませんが、進むにつれてずっと難しくなります。

そして、これが更新された結果です。この見方は少し理解しにくいかもしれませんが、少なくとも特定のメトリクスを見ると、Gemini 3 Proが明らかに勝者であると言っても良いと思います。ここに0から100%のスコアがあります。高いほど、スコアが良いということです。そして、それはタスクあたりのコストに対して測定されています。

コストの成長は対数的であることに注目してください。1ドルから10、100、1000と進みます。ですから、ここで右側にあるものは左側のものよりもはるかに高価です。Grokはしばらくの間リーダーで、66.7%のスコアとタスクあたり1ドルのコストでした。GPT-5 Proはそれを打ち負かしましたが、はるかに高いコストでした。

GPT-5.1もより低いコストでそれを打ち負かすことができましたが、Gemini 3 Proが75%の精度スコアとタスクあたり49セントのコストでトップに立ちます。利用可能な最も安価で最高のモデルです。

コストを見ずに最高のパフォーマンスだけを見ると、Gemini 3 Deep Thinkが87.5%で勝ちます。タスクあたり44ドルを支払いますが、精度の点では最高のものです。

ちなみに、Arc Prizeはちょうどこれを投稿しました。このチャートは結果のクラスタリングを分離するために0から55%のスコアを示しています。少し見やすくなっています。これが競争の様子です。Gemini 3 Proはほぼ同じ価格でそれらすべての上にあります。Gemini 3 Deep Thinkははるかに高価ですが、はるかに高い位置にあります。つまり、ドルあたりの知能の新しい曲線を設定したようなものです。

LM Arenaでの総合的優位性

そしてもちろん、LM Arenaがあります。昨日、Grok 4.1がリリースされ、LM Arenaのナンバーワンの座を獲得しました。それは1日も持ちませんでした。Gemini 3 Proが現在リーダーボードのトップにいます。テキストでトップ、ウェブ開発でナンバーワン、ビジョンでナンバーワンです。

これらは異なるモデルです。Imagine 4.0がGoogleの競合となるでしょう。彼らはまたGemini 2.5 Flash image previewも持っています。しかし、画像編集では他のモデルがトップに現れます。検索ではトップ3以内です。テキストからビデオでは、Googleが基本的にトップの座を占めています。画像からビデオでも、Googleがトップの座を占めています。

カテゴリー別に結果を比較すると、全体的なもの対難しいプロンプト対コーディング対数学対創造的な文章、指示の遵守、より長いクエリ、そしてマルチターンの会話などです。Gemini 3 Proは全般的にナンバーワンです。他のモデルは多くの異なるカテゴリーでナンバーワンかもしれませんが、いくつかでは落ち込む傾向があります。Gemini 3 Proには弱いカテゴリーがないようです。

難しいプロンプトとより長いクエリで勝ったため、特にGrok 4.1 Thinkingを打ち負かしています。

専門的なベンチマークでの卓越性

次に、GPQA Diamondがあります。これらは物理学、化学、生物学における大学院レベルのGoogle証明の多肢選択問題で、PhD レベルの専門家によって書かれています。まあ、Google証明ですが、Gemini 3証明ではありません。なぜなら91.9を獲得しているからです。次点はGPT-5.1で88%です。

AIME 2025は高度な数学試験です。Gemini 3 Proはツールなしで95を獲得し、他のモデルを打ち負かしており、コード実行では100%です。しかし、これらのモデルのほとんどが90%台後半または100%を獲得する段階に達すると、ベンチマークが飽和してきました。ですから、このMath Arena Apexがあるのは良いことです。

これは2025年の未征服の最終解答コンテスト問題で、最近のオリンピアッドや開催された様々なコンテストからのものです。非常に難しく、最新のものになるように作られています。他のモデルが約1%の精度を得るのに苦労していることに注目してください。Gemini 3 Proは23.4%を獲得しています。他のものとはかけ離れています。

次に、MMU Proがあります。これはマルチモーダル大学レベルのベンチマークで、Gemini 3は81%です。次点はわずか76%です。

GUI操作とビジュアル理解の革新

これは興味深いベンチマークです。Screenspot Pro。LMはGUI、グラフィカルユーザーインターフェースにどれだけ優れているでしょうか。これらは高解像度アプリ用で、モデルは密集した画面内で正確なUIターゲットを見つける必要があるかもしれません。

このチャートがおそらく良い例です。GPT-5.1がMath Arena Apexで何を獲得したかというような質問があって、彼らは答えを取得しなければならないかもしれません。モデルはこれに苦労することで有名です。Gemini 3 Proは72%を獲得し、他のすべてを打ち負かしています。次はClaudeで36%です。つまり、大きな飛躍です。

ChartQA Reasoningでは81を獲得しています。次点は69です。このベンチマークはチャート理解を測定します。これらのモデルがビジュアルチャートをどれだけよく理解できるか、そしてそれらのチャートに含まれるデータに基づいて質問に答えることができるかです。

次にOmni DocBench 1.5があります。これは一種のOCR、光学文字認識です。モデルは長いPDFを解析し、そのデータを特定の形式で返す必要があります。たとえば、何かのレシートをPDFにして、モデルに渡して、「さあ、Excelで使用できるもの、すべての行項目の構造化データを返してください」と言います。

ここではスコアが低いほど良いです。ここでもGemini 3がトップに立っています。次にVideo MMUがあります。これはMMU Proのようなものですが、そのビデオ版です。基本的に講義を見て、講義から学んだことに基づいて試験を受けます。Gemini 3が全般的に勝っています。

LiveCodeBenchは競技プログラミング評価で、再びGemini 3の大きな飛躍です。そのELOレーティングは2439です。次点はGPT-5.1で2243です。Terminal benchでは勝っています。唯一逃しているのはBench Verifiedで、Claudeがわずか1パーセントポイント高いリードを取っています。

長文処理能力の圧倒的優位性

最後に指摘したいベンチマークの1つは、この一種の「干し草の山の中の針」です。大きな文書が与えられたとき、文書内のいくつかの特定のものを見つけなければなりません。たとえば、100,000語以上を含む何らかのトランスクリプトが与えられ、8つの類似した配送請求書が含まれている場合、5番目の請求書の追跡番号は何ですか。

競合他社と比較して、それを行う能力に大きな飛躍があります。Gemini 3 Proは最大100万のトークンコンテキストウィンドウを持ち、出力は64Kトークン出力のテキストです。

結論と今後の展望

全体として、Gemini 3は期待を裏切りません。非常にエキサイティングなモデルです。大きな前進です。様々なコーディングタスクで試してみるのが待ちきれません。私の以前のビデオの1つをご覧になった方は、Geminiアプリの特定の条件下でGemini 3.0 Proモデルがテストされていると私たちが信じていたことをご存知でしょう。

私の簡単なテストから、コーディングは非常に優れています。Gemini 2.5 Proを含む他のすべてのものよりも頭一つ抜きん出ています。非常に強力なモデルです。これらの新しいエージェントツール、Anti-gravity、GoogleのFirebase、cursorなどと組み合わせると、人々がこのモデルで信じられないようなものを作るのを見ることを期待しています。

私はちょうどAnti-gravityを起動したところで、それをテストするのが待ちきれません。しかし、あなたの意見を聞かせてください。Gemini 3 Proに興奮していますか。コメントで教えてください。

コメント

タイトルとURLをコピーしました