Google Gemini 3.1 Proの主要な新機能を、実際のテストを通じて解説した動画の解説。エージェントビジョン(Agentic Vision)の仕組みとその有効化方法、コード実行との組み合わせによる視覚的推論の高精度化、Canvasモードを活用した3Dビジュアライゼーションやインタラクティブシミュレーションの事例を紹介。ChatGPTとの比較を交えながら、Gemini 3.1 Proが現時点で視覚推論においてトップクラスのモデルである根拠を示す。

エージェントビジョンとは何か
Google Gemini 3.1 Proがついに登場しました。今回は数時間にわたってこのモデルをストレステストした結果をもとに、最大限活用するための方法と、Gemini 3.1 Proならではのベストなユースケースを紹介していきます。
まず最初に確認しておきたいのですが、Google Geminiを使う際にはスクロールして「Pro」タブをしっかり選択するようにしてください。モデルの選択画面には3つの異なるオプションがあって、誤クリックしやすいんですよね。他のアプリとはモデルピッカーの見た目が少し違うので、Gemini 3.1 Proを確実に選んでいるか確認するようにしましょう。
さて、多くの人が気づいていない重要な機能がGemini 3.1 Proには搭載されています。それが**エージェントビジョン(Agentic Vision)**です。これは今やデフォルトで有効になっています。なぜこれがこれほど強力なのか、そしてGemini 3.1 Proがマルチモーダルビジョンにおいて現時点で最も強力なLLMの一つと言える理由を、これからお見せしましょう。
エージェントビジョンの仕組み
本題に入る前に簡単に説明しておくと、GoogleのGemini エージェントビジョンというのは、画像の理解を「一度見て終わり」から「能動的な多段階調査」へと変える新しい機能です。画像を入力すると、視覚的な推論とコード実行が組み合わさります。つまり、モデルは見たものを一度眺めるだけでなく、画像をクロップしたり、ズームしたり、注釈を加えたり、ステップごとに分析したりすることができるんです。
具体的には、「考える→行動する→観察する」というループをモデルが実行します。画像をどのように調べるかを計画して、Pythonコードを実行して分析し、更新された画像を確認してから回答します。これは非常に重要で、以前のモデルにはこうした機能がなく、Gemini 3.1 Proに組み込まれた機能として実際に有効化できることに気づいていない人がほとんどです。
この機能がとりわけ役立つのは、細かいテキストやシリアルナンバーをズームして確認する必要があるケースです。推測に頼るのではなく、幻覚(ハルシネーション)を大幅に減らすことができます。では実際にGemini 3.1 Proのエージェントビジョンを使った例を見てみましょう。
ChatGPTとの比較実験
この画像を見ると、登場しているのがピーター・グリフィンとブライアン・グリフィンだということが分かりますよね。ちょっと見づらい画像ですが、人間なら目を細めれば判別できます。ところがAIのLLMにとっては、ビジョン処理の仕方の関係で、かなり難しい判断になります。
信じられないという方は、ChatGPTに同じプロンプトで試してみてください。これはTwitterで見つけた例なのですが、「そこに見える2人のキャラクターは誰ですか?実際には誰もいないのに、物の配置がそのように見える」という問いに対して、ChatGPTは正しく答えられませんでした。「フードをかぶった死神とバットマンのシンボル」と回答しており、完全なハルシネーションです。
一方で、同じ画像をGoogle Geminiに入力して、AI Studioでエージェントビジョンを有効にすると(有効化の方法はこの後説明します)、「Family Guyのピーター・グリフィンとブライアンが並んで座っている」と正確に識別しました。
AI StudioでのエージェントビジョンとコードExecution有効化
では、どうすれば有効化できるのかを説明しましょう。Google AI Studioにアクセスして、Gemini 3.1を試してみてください。「なぜ通常のモードではなくここで使うの?」と思うかもしれませんが、理由はこのツールが常に呼び出されるようにしたいからです。Geminiのモデルはツールの呼び出しが常に完璧というわけではなく、混乱することもあります。なのでAI Studioを使うことで確実性を高めているんです。
やり方は、「ツール」から「コード実行」を選択するだけです。これで画像分析の機能が追加されます。これはマルチモーダル推論において最先端の機能で、現時点で文字通りトップクラスの性能を誇ります。
別の例でどれほど違うかを見てみましょう。あらゆるAI LLMを完敗させてきた画像があります。「この画像には指が何本ありますか?」と聞くと、LLMは必ずと言っていいほど間違えます。正解は6本なのですが、ChatGPTは最長の拡張推論設定を使っても「5本、つまり4本の指と親指で合計5本」と答えました。完全に間違いです。
Gemini 3.1のエージェントビジョンを使うと、通常モデルでも正解できます。さらにAI Studioで画像を貼り付けて「この画像に指は何本ありますか?推論を助けるために注釈を付けてください」というプロンプトを入力して実行すると、このモデルはまったく異なる動作をします。エージェントビジョンによって、画像を引き出して注釈を加え、推論を伴った最終回答を導き出します。
もちろんハルシネーションがゼロになるわけではありませんが、Gemini 3.1 Pro PreviewでAI Studioのコード実行を有効にすることで、推論タスクによっては10〜12%程度の精度向上が期待できます。Gemini 3.1は視覚的推論において最先端であり、この観点から視覚推論でこれを上回るAIモデルは現時点では存在しません。そこにエージェント推論を加えることで、さらに次のレベルへと引き上げられるんです。
Canvasモードとコーディング・3Dビジュアライゼーション
次に、Gemini 3.1 Proが得意とするコーディングと3Dビジュアライゼーションについて見ていきましょう。これを有効にするには、まずProモードになっていることを確認して、「Canvas(キャンバス)」をクリックするようにしてください。
Canvasをクリックする理由は、プロンプトに応じてGeminiが呼び出すツールが7種類あり、間違いが起きることもあるからです。コーディングをする場合はCanvasにチェックを入れてから始めるようにしましょう。
Canvasはビジュアライゼーション、3Dオブジェクト、教育コンテンツなど、さまざまな用途に役立ちます。基本的にはGeminiに何かをビジュアライズするよう、適切なライブラリを指定してプロンプトを入力するだけです。試しに「銃の発射アニメーションを見せて。美しく、断面図で表現して」と入力したところ、こんなオブジェクトが生成されました。「発射」をクリックすると、弾が排出され、撃針に当たって爆発し、薬室から出てくる様子が分かります。
最高のアニメーションとは言えないかもしれませんが、断面図で見せるよう指示したのでこうなっています。もう少しプロンプトを重ねれば——ライティングを加えたり、見た目をもっと魅力的にしたりすることで——確実に改善できると思います。
ここでこれを紹介している理由は、動画の次のセクションで、Gemini 3.1 ProのCanvasを使って教育的な深みを持つものをコーディングしている実例を複数紹介するためです。LLMで学習する際、視覚的な要素がないと分かりにくいことがありますよね。3Dでビジュアライズできると、その点でとても助かります。
もちろん、プロンプトをもっと工夫すればさらに良くなります。「各パーツが何かが分かるよう画面上に注釈を追加して」などと指定することもできます。それでも、仕組みを理解するためのラフなドラフトとしては、これはかなりいい出来だと思います。
Geminiを使った都市生成シミュレーション
では、さらにいくつかのユースケースを見ていきましょう。これらはGeminiチームが作ったものもあれば、私自身が再現したものもあります。コードはすべて説明欄のリンクから入手できます。
今見ているのはGeminiを使ってウェブブラウザ上で動くミニアプリです。目標は、リアルに見える都市を生成することです。Geminiに対して、都市生成の個々の問題を解決するプログラムを複数作成するよう指示し、最終的にそれらを大きな絵として組み合わせるよう依頼しています。
最初のステップは地形の生成です。人間の文明は資源のある場所に根ざしています。人々がどこに住むのか、水はどこにあるのか、最も平坦で低い地形はどこにあるのかを考えます。これらのハブができることで、人々の移動をシミュレートできます。人が歩くたびに道路のパスを生成していきます。
最後のステップは衛星画像の生成です。これはまさにクライマックスですよね。最も満足感のある瞬間です。ロードマップに非常によく沿えたと思います。そして次に見えるのは、違う視点から見た都市の姿です。数式から生成画像へ、そして今や架空の世界を探索しているわけで、Geminiがその都市がどのように見えるかを想像しているんですよね。それは本当に驚異的です。
Gemini 3.1になって、モデルはユーザーの意図をずっと大切にするようになったようです。変えようとしていることをより上手く改善してくれます。
Hyper 3Dとパラメータ微調整
こんなユースケースも見かけました。Hyper 3Dを使って3Dモデルを作り、Gemini 3.1 Proを使ってそのモデルを改変するというものです。基本的には3Dパラメータのファインチューニングです。パラメータを調整して、必要に応じてそれを洗練させていき、再インポートしてさらに編集するという流れです。かなりニッチなユースケースではありますが、3D分野に携わっている方には使えるかもしれません。
インタラクティブな鳥の群れシミュレーション
次にご紹介するのは本当に面白いユースケースです。インタラクティブな鳥の群れシミュレーション。私もそのコードを用意しています。まずはGoogleによる解説を聞いてみましょう。
ムクドリの群れ飛行の動画を見て、Gemini 3.1 Proに同様のシミュレーションをコーディングしてもらいました。モデルは実際の鳥の群れと似たようなパターンで相互作用する鳥の集団を生成しました。次に、手を使って鳥を動かせるようにシミュレーションをインタラクティブにするよう依頼しました。さらに、群れの動きに応じて変化する音楽の生成もお願いしました。鳥の行動や環境を含め、シミュレーションのあらゆる要素を制御できます。最終的な結果の美しさには本当に驚かされました。
こうして少しGeminiと対話し、コードを少し編集するだけで、私自身のバージョンも作ることができました。少し速く飛びすぎているかもしれませんが、マウスに追随していてとても面白いですよね。コードはコミュニティのプロンプトセクションに置いてあります。「Gemini 3.1 インタラクティブ鳥シミュレーション」までスクロールすればすべてのコードがあります。説明欄には載せられないのでそちらで確認してください。
手のトラッキング機能は使っていないのでマウスの動きに追随するだけですが、それでも結構面白いと思います。環境の設定もできて、太陽の高さなども変えられます。鳥のサイズをはじめ、さまざまなエフェクトもあります。マウスで引き寄せたり弾いたりする機能もあって、ビジュアライゼーションという観点から非常に参考になると思います。
まとめ:Gemini 3.1 Proの活用ポイント
Gemini 3.1 Proはマルチモーダルに強いので、使う際には画像も積極的に入力してみてください。また、どういうものが欲しいかをしっかりと説明することが大切です。このモデルは全体的に非常に高い性能を持っています。
コーディングでGeminiを使う際は、詳細なプロンプトを用意した上でCanvasモードを有効にして試してみてください。1〜2回追加のプロンプトが必要になることもありますが、それで精度が上がります。Geminiの公式デモではISSの軌道トラッカーも紹介されていましたし、このGemini 3.1のデモはこのモデルをさまざまな状況でどう活用できるかを確かに示しています。
SVGアニメーションを使う人もいますが、初回で正しく生成されないことも多いです。その場合は修正プロンプトを送るか、Google AI Studioに移ってみてください。AI Studioの方が推論に時間をかけてくれる傾向があります。開発者により多くの計算リソースを提供しようとしているのかもしれません。あるSVGは700秒かけて完成しましたが、これが良いことかどうかは皆さんの判断に委ねます。私個人的には、最初のバージョンの方が良いことが多くて、その後で調整を加えていく方が良いと感じています。
動画が気に入ったらぜひいいねとコメントをお願いします。動画内のリソースは説明欄のリンクからどうぞ。


コメント