GoogleがGemini 3.1 Proをリリースした。最大の注目点はARC AGI2ベンチマークで77.1%というスコアを記録したことであり、わずか3ヶ月前のGemini 3 Proの31.1%から倍以上の向上を果たしている。これは単なる性能改善ではなく、モデルの推論構造そのものが変化したことを示す。コーディング、長文脈処理、マルチモーダル理解、エージェント型ワークフローなど幅広い分野でトップクラスの性能を発揮しており、GoogleはこのモデルをApple SiriへのAI技術提供も含む幅広いエコシステムの基盤知性層として位置づけている。

Gemini 3.1 Proの登場
Googleがまた新しいGeminiのアップデートをリリースしました。そして今回のアップデートは、モデルが難しい問題に直面したときの振る舞いそのものを変えるものです。簡単な質問ではなく、普通ならモデルがつまずくような難問を投げかけてみると、その違いがはっきり分かります。
ARC AGI2ベンチマークで圧倒的スコアを記録
まずは業界中から注目を集めている数字の話をしましょう。Gemini 3.1 ProはARC AGI2ベンチマークで77.1%を記録しました。このスコアは検証済みのものであり、しかも重要な意味を持っています。なぜなら、ARC AGI2は記憶力を測るベンチマークではないからです。このテストは、モデルがこれまで一度も見たことのない全く新しい論理パターンを解けるかどうかを検証するために設計されています。小手先のトリックも、見覚えのあるパターンも、学習データとの重複によるショートカットも、一切通用しません。
前世代のGemini 3 Proは、同じベンチマークで31.1%でした。つまりわずか3ヶ月の間に、Googleは現存する最も難しい推論テストの一つにおいて、抽象的推論の性能を2倍以上に引き上げたのです。これは些細な改善ではありません。モデルの推論方法における構造的な変化です。そしてこれは都合よく選ばれた統計でもありません。
複数の評価指標でトップクラスの成績
複数の評価にわたって、Gemini 3.1 Proは学術的なベンチマークだけでなく、実際のプロフェッショナルな用途を反映した分野でもトップかそれに近い位置につけています。Artificial Analysis Intelligence Indexでは、Claude Opus 4.6を4ポイント上回っています。計画・記憶・ツール使用を必要とする長期的なプロフェッショナルタスクを測定するApex Agentsでは、Gemini 3 Proの18.4%から33.5%へと跳ね上がりました。これもまたほぼ2倍です。
また、MercorのCEOであるBrendan Foodyによる興味深いコメントもあります。彼は、このモデルが他のどのモデルもこれまで達成できなかった5つのタスクをこなせると指摘しています。Googleはそれらのタスクの詳細をまだ公表していませんが、含意は明確です。これはおもちゃのような問題ではありません。既存のモデルが硬い壁にぶつかっていたワークフローです。
Gemini 3.1 Proが設計された目的
では、Gemini 3.1 Proは実際に何のために設計されているのでしょうか。Googleはここで非常に明確に述べています。これは、単純な答えでは不十分な状況のためのモデルです。このフレーズはドキュメント全体で繰り返し登場し、モデルが得意とすることと一致しています。
Gemini 3.1 Proは、複雑な問題解決、高度な推論、長い多段階タスク、そして深いマルチモーダル入力を処理するために構築されています。膨大なデータセットを取り込み、テキスト・画像・音声・動画・コードリポジトリ全体にわたって推論し、システムレベルで意味をなす構造化された出力を生成することができます。入力コンテキストウィンドウは最大100万トークン、出力は64,000トークンまで対応しており、単なるスニペットではなくプロジェクト全体をリアルに扱えるカテゴリに位置しています。
だからこそGoogleは、このモデルを他のあらゆるものの基盤となる知性のレイヤーとして位置づけ続けているのです。科学的概念の緻密なビジュアル解説を生成する場合でも、大規模なデータセットを統合ダッシュボードに集約する場合でも、論理と美的感覚を融合させたクリエイティブなワークフローを支援する場合でも、その裏側で重労働をこなしているのがこのモデルです。
コードベースアニメーションとインタラクティブ機能
Googleが示す最もわかりやすい具体例の一つが、コードベースのアニメーションです。Gemini 3.1 Proはテキストプロンプトから直接、コードのみでアニメーションSVGを生成できます。これはピクセルベースの動画ではなく、どんな解像度でも鮮明に表示でき、従来の動画フォーマットと比べてファイルサイズが非常に小さいスケーラブルベクターアニメーションです。
最初は少々ニッチに聞こえるかもしれませんが、インタラクティブなウェブサイト、教育ツール、技術的なビジュアライゼーションを構築する場合には、これは大きな能力の変化です。さらにこれだけにとどまりません。このモデルはリアルタイムのハンドトラッキングとジェネレーティブオーディオを備えたライブの3Dシミュレーションも生成できます。情報を表示するだけでなく、システムと動的にインタラクションするリサーチ・エンジニアリング・クリエイティブテクノロジーの分野で特に重要な機能です。
Gemini 3.1 Proはさらに、抽象的な文学的・概念的テーマを機能的なインターフェースに変換することもできます。つまり、高レベルなアイデアと具体的で使えるデザインの間のギャップを埋めることができるのです。
リリース範囲と対象ユーザー
展開の観点から見ると、Googleはこのモデルをほぼエコシステム全体に展開していますが、いくつかの重要な区別があります。今すぐ、Gemini 3.1 ProはGeminiアプリを通じて全ユーザーへのロールアウトが始まっています。誰でもアクセスできます。ただし、Google AI ProおよびUltraのサブスクライバーは利用制限が上がります。Notebook LMへのアクセスはProおよびUltraユーザー限定のままで、これはそのツールの長文脈かつリサーチ重視の性質を考えると理にかなっています。
開発者向けには、Gemini API、Google AI Studio、Vertex AI、Gemini Enterprise、Gemini CLI、Google Anti-gravity、Android Studioのプレビューとして利用可能です。これは広い対象範囲であり、Googleがこのモデルをコンシューマー向け機能にとどまらない基盤的なアップグレードとして位置づけていることを示しています。
また、Googleがこれをプレビューリリースと明示している点も注目に値します。アップデートを検証し、フィードバックを収集し、一般提供前にさらなる改善を計画しているのです。これはDeep Thinkモードや他の高度な機能の扱い方と同じアプローチで、安全性と信頼性のチェックが能力のスケールアップと並行して進められています。
安全性評価の詳細
安全性について言えば、モデルカードにはGemini 3.1 Proの社内安全性評価の結果が非常に詳しく記載されています。全体として、テキスト安全性、多言語安全性、トーンの面でGemini 3 Proをわずかに上回りつつ、不当な拒否は低く抑えています。画像からテキストへの安全性でわずかな後退がありますが、Googleの手動レビューによるとそれらはほとんど偽陽性か軽微なケースだったとのことです。
フロンティア安全性評価では、Gemini 3.1 Proはすべての重要なリスク領域においてアラート閾値を下回ったままです。化学・生物・放射線・核の領域では、モデルは正確な情報を提供できますが、低〜中程度のリソースを持つ脅威行為者の能力を大幅に向上させるような新規または完全な指示を提供することには依然として失敗しています。
サイバー分野では、Gemini 3 Proが以前にアラート閾値に達していた部分で、追加テストにより能力の向上が確認されましたが、それでも重大なレベルには達していません。重要な点として、Deep Thinkモードは推論コストを考慮するとサイバータスクで実際にはパフォーマンスが低下するため、そこでのリスク拡大は抑えられています。
機械学習の研究開発においては、モデルは意味のある向上を示しています。あるベンチマークでは、ファインチューニングスクリプトの実行時間を、人間の参照ソリューション94秒に対して、300秒から47秒に短縮しました。それでも平均パフォーマンスはアラート閾値を下回っています。
ミスアライメント評価では、特定の課題においてより強い状況認識を示していますが、全体的には一貫性を欠いています。やはり重要な能力レベルを下回ったままです。これらすべてが重要なのは、推論における向上は本物であり、しかしそれがGoogleが積極的に監視・調整しているガードレールとともにリリースされていることを示しているからです。
AppleのSiriとの連携という外部的な意味
さて、Googleのエコシステムの外にも見落としやすいが潜在的に巨大な側面があります。1月、AppleはGemini技術を使ってSiriを強化する複数年契約をGoogleと締結したと発表しました。Bloombergによれば、AppleはiOS 26.4でGemini搭載のSiri機能をデビューさせる計画があり、場合によっては今月にも実現する可能性があります。
つまりGeminiのコア推論の改善は、Googleユーザーだけに恩恵をもたらすのではないということです。Siriの次なる進化を直接形作る可能性があるのです。Gemini 3.1 Proが推論性能を2倍にすれば、その改善は一つのアプリにとどまりません。Appleのエコシステム、エンタープライズ製品、そしてAPIを通じてGeminiを使用するあらゆるダウンストリームプラットフォームへと伝播していく可能性があるのです。
各ベンチマークの詳細スコア
ベンチマーク表をより詳しく見ていくと、パターンが明確になってきます。テキストとマルチモーダル入力にわたる学術的推論を測るHumanity’s Last Examでは、Gemini 3.1 ProはツールなしでGemini 3 Proの37.5%に対して44.4%を記録しています。科学的知識に焦点を当てたGPQA Diamondでは94.3%に達しています。エージェント型ターミナルコーディングを測るTerminal Bench 2.0では68.5%で、前バージョンを大きく上回っています。実際のコーディングタスクを一度の試行でテストするSWE-bench Verifiedでは、3.1 Proは80.6%を記録しました。Codeforces・ICPC・IOIからの競技コーディング問題を使うLive Codebench Proでは、ELOレーティング2,887に達しています。これはかなりの数字で、エリートの領域にしっかりと位置していることを示しています。
128,000コンテキストのMRCV2では84.9%でロングコンテキスト性能も改善しています。100万トークンスケールでは、ポイントワイズのパフォーマンスはGemini 3 Proと並ぶ26.3%ですが、コンテキストウィンドウの圧倒的な大きさを考えれば依然として注目に値します。
マルチモーダル理解はMMU Proで80.5%、MMLU多言語Q&Aで92.6%と引き続き強さを維持しています。これらは単なる実験室の数字ではなく、乱雑な現実世界の入力を投げかけたときのモデルの使い勝手に直接変換されます。
Gemini 3.1 Proの本質と今後の展望
そしてこれがまさにGemini 3.1 Proのテーマです。派手さではなく、複雑なことが起きたときの信頼性です。エージェント型ワークフロー、長期的な計画、高度なコーディング、アルゴリズム開発、マルチモーダル推論、これらすべてがこのアップデートによって恩恵を受けます。Googleはこのモデルを、より野心的なエージェントシステムへの足がかりとして明示的に位置づけています。11月のGemini 3 Proリリースから今回2月のアップデートまでのフィードバックループは、実際のユーザー入力と内部評価に基づいた、より速いイテレーションサイクルを示しています。
細かいながらも重要な点は、Googleがこの知性のアップグレードをあらゆる場所に一度に展開している方法です。コンシューマーアプリ、エンタープライズプラットフォーム、開発者ツール、研究環境、すべてが同じコア推論の改善にアクセスでき、それが一貫性を生み出しています。AI Studioでプロトタイプを作ると、Vertex AIやGemini Enterpriseでも同様の動作をします。ユーザーがGeminiアプリでテストすれば、開発者が構築に使っているのと同じ基盤となる知性を目にしていることになります。モデルが目新しいツールではなくインフラとして機能し始めるとき、この種の整合性は重要になります。
次に何が来るかについては、GoogleはGemini 3.1 Proが最終形ではないことを明確にしています。これはプレビューリリース、検証ステップです。エージェント型ワークフローのさらなる進化はすでに進行中で、それらのアップデートが安定した時点で一般提供が計画されています。今回はここまでです。この水準の推論が実際の製品にどのように現れ始めるかを見たい方は、今後数週間で開発者がこれで何を作るかに注目してください。ご視聴ありがとうございました。また次回お会いしましょう。


コメント