GoogleがGemini 3.1 Proをリリースした。Arc AGI 2スコアは前バージョンの31%から77%へとわずか3ヶ月で大幅に向上し、エージェント型AIの新時代を象徴するモデルとなっている。Browse CompやApex Agents、Terminal Bench 2.0など最新のエージェント系ベンチマークで首位または最上位圏に位置しており、AIが単なる質問応答から自律的な実務遂行へとシフトしつつある現状を示す象徴的なリリースである。

Gemini 3.1 Proがリリース
Googleがついに Gemini 3.1 Pro をリリースしました。出て数時間というところですが、ベンチマークの数字を見た第一印象として、これはかなりインパクトがあります。Gemini エコシステム全体を支えるコア推論モデルが、一気に賢くなりました。
どれほどの進化かというと、前バージョンのGemini 3 ProはArc AGI 2で31.1%を記録していました。Arc AGI 2は抽象的な推論能力を測るベンチマークです。それが31%から77%へ。わずか3ヶ月で、Gemini 3 ProからGemini 3.1 Proへとこれだけ跳ね上がったわけです。
エージェントAI時代の到来とベンチマークの変化
今、多くのモデルで起きている大きな変化があります。Geminiシリーズに限った話ではなく、業界全体が「エージェント時代」へとシフトしています。今回のリリースで取り上げるベンチマークの半分は、1年前には存在すらしていませんでした。
AIラボも、ユーザーも、もはや「質問にどれだけ正確に答えられるか」にはあまり関心を向けなくなっています。今問われているのは、「本当の仕事を、現実のシナリオでこなせるか」です。自律的に動けるか、ということです。Googleもまさにその視点でフレーミングしています。これらのモデルがどれだけタスクを完遂できるか、ということです。ベンチマークの多くはエージェント能力を試すもので、それを補完するスキル、たとえばウェブリサーチ、長期にわたる専門的な作業、ターミナルやコマンドラインインターフェースを使ってコンピュータ上でコマンドを実行しシステムを操作する能力、そして人間とのやり取りなどを測るものになっています。たとえばカスタマーサービスのエージェントなら、これらすべてをこなしながら顧客との会話も続けなければなりません。
これらのベンチマークは難易度が高く、現実的なタスクで、かつ検証可能です。
Browse Compベンチマーク
そのひとつが「Browse Comp」です。これは2025年4月にOpenAIが公開したもので、まだ1年も経っていません。このベンチマークはエージェントがウェブ上に出て行き、複雑に絡み合った事実を探し出す能力を試します。
インターネットを粘り強く巡回し、膨大なデータの中からなかなか見つからないトリュフのような情報を拾い上げなければなりません。答え自体は短く、曖昧さもなく、検証は簡単です。でも発見するのが極めて難しい。人間がこれを解けるのはだいたい29%程度で、数時間探して諦めることも多いです。つまり、私たちの人間もこのテストはかなり苦手なんです。
一例を挙げましょう。「時折観客に向けて第四の壁を破り、献身的な美学を持つ人物の助けを借りたバックストーリーがあり、ユーモアで知られ、1960年代から1980年代の間に放映されたエピソード数50未満のテレビ番組に出演したことのある架空のキャラクターは誰か」という問題です。これはGoogleで検索してもすぐには答えが出てきません。正解は「Plastic Man」です。
このBrowse Compでは、今年に入るまでGPT-5.2がトップでした。OpenAIが公開したベンチマークで、しばらく首位を守っていました。その後、数週間前にClaude Opus 4.6が84点を記録。そして今回Gemini 3.1 Proが85.9点で首位に立ちました。エージェント的なリサーチ能力、複雑な事実の解きほぐし能力では現時点でナンバーワンです。
Apex Agentsベンチマーク
次は、2026年1月に登場した全く新しいベンチマーク「Apex Agents」です。ベンチマーク名のかっこよさランキングがあったとしたら、上位に入りそうな名前ですね。
Apex Agentsはエージェントの生産性を測るインデックスのようなものです。エージェントには完全なオフィス環境が与えられます。リモートワーカーが突然職場に放り込まれるようなイメージです。ドキュメント、スプレッドシート、メール、Slackのようなメッセージングツールが渡され、クライアントに提出できる成果物を作り上げることが求められます。
課題の内容は、正直なところ、人間にこれをやらせたら拷問に近いと思います。デスクに大量のスプレッドシートとメモが山積みされて、それを全部精査しなければならない状況を想像してください。例えば「Pure Lifeのポートフォリオ戦略に向けて、カテゴリー浸透スコア手法を用いてカテゴリー別の消費パターンと市場浸透状況を分析せよ。以下のコンポーネントを使用した加重手法によって各カテゴリーの累積浸透スコアを提示せよ」といった感じです。続きは読みません。でもこれ、世界中で今まさに何十万人、もしかしたら何百万人もの人がやっている仕事なんです。誰も鼻歌交じりで出勤はしていないでしょう。最も消耗する単調な作業のひとつです。一つのタスクに何時間もの集中と労力がかかります。
では、エージェントたちはどれだけできるのか。前バージョンのGemini 3 Proは18.4点でした。Gemini 3.1 ProとClaude Opus 4.6はともに33.5点です。100点満点で100%というのは、完璧にクライアント提出可能な成果物を仕上げられる状態を指します。人間なら1〜2時間かかる、コンサルティングや投資銀行、企業法務といった分野のプロが行う仕事です。モデルが100%に達すれば、そういったホワイトカラー業務の多くが自動化可能になるということです。現状は33.5。まだ道のりはありますが、ペースは速い。この90日間でほぼ倍増しています。
ちなみにこれは平均値で、カテゴリーによって差があります。たとえば経営コンサルティングのカテゴリーは41%。Deloitteのような会社でそういう仕事が舞い込んできたとき、最高のAIモデルであるGemini 3.1 Proでも3回に1回しか完遂できない計算です。まだ完全ではありませんが、急速に改善されています。
Terminal Bench 2.0ベンチマーク
次はTerminal Bench。2025年11月にスタンフォード研究所も協力してリリースされた新しいベンチマークです。エージェントがターミナルを操作する能力を測るものです。毎日エージェントと仕事をしていると、これが重要なのはすぐに分かります。
私たち人間は基本的にGUIを使いますが、エージェントにとってはコマンドラインインターフェースの方がはるかに得意です。実行したいコマンドをそのままタイプすればいい。結局は大規模言語モデルですから。ターミナルアクセスを与えると、驚くようなことができます。逆に、マウスとキーボードを使った視覚的な操作は苦手で、人間ほどうまくはできません。でもターミナルに座らせると一気に本領発揮です。
Terminal BenchではDockerサンドボックス環境が用意されます。被害が出すぎないように壁で囲われた小さな環境です。そこでWebサーバーの設定、各種データ処理など、多くの人には非常に退屈に感じられる高度な技術タスクを大量にこなします。個人的に面白いと思ったのは、機械学習モデルのトレーニングを任されることです。このチャンネルでも何度かやりましたが、最初にそれができたモデルがどれだったか忘れてしまいました。あるとき、PyTorchの強化学習トレーニング環境を作るよう指示したんです。確かスネークゲームのようなものを作って、そのスネークエージェントを強化学習でトレーニングするニューラルネットを自ら構築しました。AIがAIを生み出してトレーニングする、みたいな感覚があって興味深かったです。
さて、Terminal Bench 2.0の結果です。数週間前まではGPT-5.2が64.7点でトップでした。その後新モデルが続々と登場し、Claude Opus 4.6が65.4点でGPT-5.2を小差で抜きました。そしてGemini 3.1 Proが68.5点を記録。前バージョンのGemini 3 Proが56.2点だったので、これは大きな飛躍です。
ここで改めて強調したいのは、これが数ヶ月、場合によっては数週間という短い期間での出来事だということです。非常に短い時間での顕著な進歩です。そしてTerminal Bench 2.0においてもGemini 3.1 Proは現時点での首位に立っています。
TAO2ベンチマーク
最後のベンチマーク、約束します。でもこれも理解しておく価値があります。今起きている急速な進歩を把握するためにも、これらのベンチマークが何を測っているのかを知ることは重要です。質問応答系のベンチマークはすでに飽和していて、あまり面白くなくなっています。今の最前線はエージェント系のベンチマークで、AIがどこへ向かっているのかを理解するにはここを見るべきです。
「TAO 2」ベンチ、つまりTAO 2ベンチです。これは会話型エージェントを二重制御環境で評価するベンチマークです。簡単に言えば、パートナーとうまく連携できるかを測ります。映画「トップガン」の二人のジェットパイロットが連携する場面を想像してください。一方の行動が他方の行動に影響する世界です。一方のエージェントが共有の動的な世界の状態を変化させ、もう一方がシミュレートされたパートナーとしてリアルタイムで適切に反応しなければなりません。
片方のパイロットが建物にミサイルを撃って爆破したなら、もう一方は同じ場所を狙う必要はありません。別のことをすればいい。隊形を組んで飛んでいて相手が右に分かれたなら、自分は左に行く。世界の変化、パートナーの行動、パートナーの言葉、その全てに対応しなければなりません。
このベンチマークではジェットパイロットではなくカスタマーサービスのシナリオが使われます。例えばAIエージェントが通信会社のテクニカルサポート担当者で、64歳の元司書が電話をかけてきて、画面も見えない状態で彼女のPCトラブルを解決するよう案内しなければならない、というような状況です。がんばれ、小さなエージェント。
笑ってしまいましたが、実はこのTAO 2ベンチではClaude Opus 4.6がほぼ92%で圧倒的なリーダーです。Gemini 3 Proは85.3%。上位3席はいずれもClaudeのモデルが占めています。Claude Opus 4.6は91.9%です。
個人的にも、Claude Opus 4.6には本当に助けてもらっています。自分が理解できていないことを丁寧に手順を追って教えてくれるんです。たいていは単純なことで、自分が考えるのを面倒くさがっているだけなんですが、それでも辛抱強く付き合ってくれます。「フォルダが違います。そのコマンドは正しいフォルダで実行してください。正しいフォルダはここです。移動するにはこのコマンドを入力してください」という感じで。2分後に「やっぱりエラーが出た」と言っても、「まだ同じフォルダにいます。もう一度このコマンドを入力してください」と言ってくれる。分かってる、分かってるんだけど、という感じです。
人間が少し抜けていても怒らず、全ての操作が正しく実行されたと決めつけず、現在のプロセスの状態をきちんと把握したまま進めてくれます。次のステップに移るのは人間が本当にやるべきことをやったと確認してからです。
Claude Opus 4.6が91.9%のところ、Gemini 3.1 Proはどうか。少し奇妙なアピールの仕方をしていて、「Claudeを超えた」と言いたそうなのですが、TAO 2ベンチにはいくつかのカテゴリーがあります。小売分野ではGemini 3.1 Proが90.8点で、現リーダーのClaude Opus 4.6をわずかに下回っています。一方で通信分野ではGemini 3.1 Proが99.3点とほぼ完璧な結果を出しています。残念ながら、Google DeepMindがこのベンチマークの平均値を公表しているのを見つけられませんでしたが、全体的にはOPUSがリードしているようです。
まとめと今後のテスト
いずれにせよ、こうした新しいエージェント系ベンチマークが次々と生まれており、それぞれがこれらのモデルのエージェント能力を表しています。これこそが注目すべき指標です。Googleもそういう視点で明確にフレーミングしています。重要なのはこの4つのベンチマークで、エージェント能力においてリードしている、あるいは少なくとも最上位に並んでいると示しているわけです。
そしてDeep Thinkバージョンで培ったものが、実用的なアプリケーションにも確実に活かされています。Googleのリリース投稿にも「Deep Thinkを支えるコアインテリジェンスが、より実践的な用途でも使えるようになった」と書かれています。特に、比較対象が数ヶ月前に世界最高だったモデルであることを踏まえると、これは非常に注目すべき成果です。
ただし本当の試練はこれを実際に使ってみることです。APIからほとんど何も返ってこなくて、かなり苦戦しています。ローンチ日には全世界が一斉にアクセスしようとするので、クラッシュするのは普通のことです。遅いし、バグだらけで、落ちまくりますが、たいていはその日か翌日には落ち着きます。今日の後半か明日には第2弾の動画を出せればと思っています。そこで本当に実地テストをやります。
ベンチマークの数字も一つの指標ですが、実際に自分のユースケースで使ってみて何ができるかが、本当のところを語ってくれます。皆さんのご意見もぜひ聞かせてください。次の動画でまたお会いしましょう。


コメント