Gemini 3.1 Proを9分で解説!

Google・DeepMind・Alphabet
この記事は約8分で読めます。

GoogleがGemini 3.1 Proを正式リリースした。本動画では、3D空間推論やOSシミュレーション、マルチエージェント投資ファンドなど多彩なデモを通じて同モデルの実力を検証するとともに、Opus 4.6との性能・価格比較を行い、コーディングおよびエージェント用途における競争力を考察している。

Gemini 3.1 Pro in 9 mins!
Building on the Gemini 3 series, 3.1 Pro represents a step forward in core reasoning. 3.1 Pro is a smarter, more capable...

Gemini 3.1 Pro登場

Googleがついに Gemini 3.1 Proを正式にリリースしました。これはフラッグシップモデルであるGemini 3 Proの次世代バージョンです。ベンチマークの数字も確かに印象的なんですが、まずはオンラインで見つけた中でも特に面白いデモをいくつかご紹介したいと思います。

そのうち2つは私自身がゼロショット、つまり会話のやり取りなしで一発作成したものです。

自作デモ:オーディオプレイヤーとWindows XPシミュレーション

最初のプロンプトはこうです。「複数のスキンを持つWinampっぽいオーディオプレイヤーを作って」。参考としてスクリーンショットを一枚添付しただけです。そしてこれが出来上がったもの。会話のやり取りは一切なし、このアウトプットを見てください。なかなか印象的じゃないですか。

次に試したのは「本物のファイルを持つWindows XPシミュレーションを作って」というプロンプトです。ご存知ない方のために説明すると、Windows XPは私の世代で最も普及したOSのひとつでした。そこに「現実に限りなく近いMacのソフトウェアも入れて」という条件を加えました。

こういうプロンプトはトレーニングデータに含まれていることが多いので、あえてWindows XPとMacソフトウェアを掛け合わせて、モデルがどこまで対応できるか試してみたかったんです。

結果は見事でした。壁紙はあのクラシックなWindows XPのものですが、スタートメニューを開くとSafari、つまりmacOSのブラウザが入っている。SaFariのブラウザウィンドウ、iTunes、テキストエディット、さらにはコントロールパネルまであって、コントロールパネルを開こうとすると「Steve管理者がログインしました」と表示される。Mac OS HDというドライブもあって、アプリケーション、ユーザー、システムという構成はmacOSそのものです。プロンプトの意図をしっかり汲み取って、Windows XPのシミュレーションの中にMacのソフトウェアをきちんと組み込んでくれた。期待通りの仕事をしてくれましたね。

オンラインで見つけた印象的なデモ集

次にご紹介するのは私がオンラインで見つけたデモです。Zack Diveさんによるもので、このモデルの3D空間推論の精度を実演しています。モデルがさまざまな3Dオブジェクトを生成している様子が見られますが、これもかなり印象的です。

続いて、モナリザをピクセルアートで描かせるデモです。Claude Sonnet 4.6やClaude Opus 4.6といった最良の既存モデルが生成したものと比較すると、正直モナリザには見えません。一方でGoogle DeepMindのGemini 3.1 Proが生成したものは、確かにモナリザのピクセルアートになっています。個人的にはSam Altmanに似て見えなくもないですが、それは私の偏見かもしれません。

次はHypers 3Dによる3Dデモです。Geminiの環境内でシンプルなプロンプトを入力するだけで3Dオブジェクトが生成され、それをそのまま3Dソフトウェアで活用できます。そして最後に3Dボクセルのデモがあり、Gemini 3 ProとGemini 3.1 Proの違いが一目でわかります。新モデルがどれだけ詳細で精度の高いオブジェクトを生成できるか、見ていただければ分かると思います。

無料で試す方法

このモデルは二通りの方法で無料で試すことができます。

Gemini ProサブスクリプションもUltraサブスクリプションも持っていない場合は、aistudio.google.comにアクセスして、モデルの選択からGemini 3.1 Proを選べばすぐにチャットを始められます。ここではコード実行の有効化や、Googleサーチとのグラウンディング、つまりGoogleの検索データと連携したチャットも利用できます。

すでにGeminiのサブスクリプションをお持ちの方は、gemini.google.comにアクセスして、ドロップダウンからProサブスクリプションを選択するだけです。

シンセウェーブ・シミュレーションのライブデモ

今度はcanvasを有効にしてGemini 3.1 Proを選択し、シンプルなプロンプトを入力してみます。プロンプト自体はあまり詳細ではありませんが、それが思考モデルの強みです。モデルがプロンプトを受け取り、内部でしっかり推論してから実行に移る。ただ即座に実行するのではなく、まず考える。このデモの結果は後ほど確認します。

ベンチマーク比較

このモデルのベンチマークを見ると、Gemini 3 Pro時代からほぼすべての指標で倍近いスコアを記録しています。たった一年でLLMの能力がいかに急速に向上しているか、改めて実感させられます。

Terminal Benchでは68.5%を記録し、Claude Opus 4.6もGPT-5.2も超えています。興味深いのはGPT-5.3 Codexで、APIとしても広く提供されていないのにCodex Hardnessの高コンテキストカテゴリで77%を記録している点です。驚きですが、Gemini 3.1 ProはAPIとして広く利用可能です。

SWE-bench Verifiedでは80.6%を記録。Claude Opus 4.6の80.8%にほぼ並んでいます。Live CodeBench Proでは2887点。エージェント的タスクのApex Agentsでは33.5%でトップ。Tow Benchというエージェント用途のベンチマークでは99%。MCPの活用理解度を測るMCP Atlasでは69%。Browse Compでは85%を記録しています。

あらゆるベンチマークで非常に高い性能を示しており、コンテキストウィンドウは100万トークンです。128,000トークンのコンテキストではMRCのロングコンテキスト性能が84.9%、100万トークンでは26.3%で、こちらはGemini 3 Proと比べて大きな改善はありません。長文コンテキストについてはさほど差がないと言えますが、エージェント用途やコーディング用途では本当に優秀なモデルです。

ちなみにGoogleがSVGのデモをいくつか公開していますが、正直SVGデモはあまり好きじゃないんですよね。トレーニングデータに入り込みやすくて話題にはなるんですが、現実の実用性という点では微妙なので。

シンセウェーブ・デモの結果確認

さて、先ほど作成していたものに戻りましょう。Ubuntuのシンセウェーブテーマ仕立てになっています。面白いですね。文字を打ち込んでみます。「Who am I?」と入力すると、「guest runner」と表示されました。lsコマンドを試してみると「ls is not found」。sudo root、「sudo is not found」。ブラウザは起動します。グリッドも表示されて、設定は数分で作成されるようです。

これ、本当に感動ものですよ。単一のHTMLファイルでここまでできる、そしてさらにその上に積み上げていけるというのが、またすごい。

AgnoAIによるマルチエージェント投資ファンドの活用事例

動画の締めに入る前に、Gemini 3.1 Proの非常に興味深い活用事例をご紹介します。AgnoAIというエージェント系フレームワークがGemini 3.1 Proへの早期アクセス権を取得し、エージェント的タスクへのアプローチを実演しています。YouTube概要欄にリンクを貼りますので、ぜひ読んでみてください。

この事例ではマルチエージェントシステムが使われており、チームリーダーが1人と6つのエージェントが存在します。Gemini 3.1 Proが委員会の議長として最終判断を下し、資本配分を行います。これは投資ファンドのような仕組みで、4人のアナリストがいます。

ひとつ重要な点として、Gemini 3.1 Proはいかに優秀とはいえ、処理速度が特別に速いわけではありません。そのためアナリスト側には高速なモデルが求められます。おそらくGemini 3 Flash、つまりGemini Flash系のモデルが使われているものと思います。アナリストたちがマーケットのファンダメンタルズ、テクニカル分析、リスク分析などを担当し、ナレッジエージェントが情報収集を行い、メモライターが文書化を担当します。そしてcoordinate、route、broadcast、task、workflowという5つのアーキテクチャで運用されます。workflowはステップ実行型の処理です。

この全体をGemini 3.1 Proがパートナーとして統括するという形で、十分な成果を上げています。ManisやOpen Clawのようなマルチエージェントアーキテクチャが広がる未来において、それを支えられるモデルがエージェント的タスクで高い性能を発揮するというのは、本当に意義深いことだと思います。

価格比較と総評

最後に価格の話をして締めくくりましょう。このモデルはベンチマーク上はClaude Opus 4.6に匹敵する性能を持ちながら、価格面では一貫してOpus 4.6より安い設定になっています。

具体的には、200,000トークン以内の入力トークンについて、Gemini 3.1 Proは100万トークンあたり2ドル、Opus 4.6は5ドルです。2.5倍の価格差があります。出力トークンはGemini 3.1 Proが12ドルに対し、Opus 4.6は25ドル。ほぼ半額です。

200,000トークンを超える長いコンテキストでも、Gemini 3.1 Proの入力は100万トークンあたり4ドルに対し、Opus 4.6は10ドル。出力はOpus 4.6が37ドル、Gemini 3.1 Proが18ドルです。

つまり、性能はClaude Opus 4.6と同等でありながら、価格はおよそ半分。コーディングやエージェント用途には非常に有力な選択肢です。

ただ一点付け加えておくと、Googleのモデルはベンチマークでいくら優秀でも、たとえばClaude Opus 4.6やClaude Sonnet 4.6のような「センス」が少し欠けていると個人的には感じることがあります。Anthropicのモデルは非常に積極的で、内部思考プロセスの質も高い。Gemini 3.1 Proを実際の業務でもっと使い込んで、また報告したいと思います。ともあれ今のところ、これは非常に印象的なモデルです。コストパフォーマンスに優れており、フロンティアを前進させている。それはまた次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました