GoogleがGemini 3 Proのリリースから約100日という節目に、新たなマイナーアップデートとなるGemini 3.1 Proを発表した。本動画では、同モデルのベンチマーク改善点、Gemini Deep Thinkからの技術的知見の導入、そして思考レベルの段階的な調整機能について解説している。国際数学オリンピックの問題を用いた実演を通じ、高思考モード時の性能とDeep Think miniとしての側面を検証するとともに、Opus 4.6や最新GPTモデルとの競争力についても考察している。

Gemini 3 リリースから約100日
Gemini 3のモデルがGoogleからリリースされてから、Gemini Flashで64日以上、その約30日前にはGemini 3 Proがリリースされています。つまり、Gemini 3が世に出てからもうすぐ100日になるわけですが、現在のAIエコシステムにおいては、これはまるで100年分にも相当するような時間の流れだと言えるでしょう。
そして本日、GoogleはGemini 3.1 Proを発表しました。この動画では、このモデルの主なアップデート内容を確認しつつ、リリーススケジュールの中でこのモデルがどう位置づけられるかについても少し触れていきます。また、Geminiモデルを採用している多くのGoogleアプリへの展開が始まっているので、実際にこのモデルが何をできるのか、ざっくりと見ていこうと思います。
ブログポストで確認できる内容
ブログ記事を見ると、いくつか興味深いことが分かります。まず、今回が「3.1」という番号になっている点は、ちょっと注目すべきことですよね。これまでGeminiには「ゼロ」リリースや「0.5」リリースしか存在しませんでした。「0.1」リリースというのはこれが初めてです。
これは結構面白いことだと思っていて、最初のバージョンからほぼ100日が経過したこのタイミングでこうした番号が付けられているのは意味深です。この間にGemini Deep Thinkモデルで大きな成果を上げ、そこで得たアイデアや技術をメインのProモデルに取り込んできたのは明らかです。
ベンチマークの読み取り方
ベンチマークを見ていくと、ここで重要なのは他のモデルとの比較だけではないと思います。確かにClaude Sonnet 4.6やClaude Opus 4.6、そしてGPTモデルとの比較も掲載されていますが、注目すべきはGemini 3 Proとの比較です。
例えばHumanity’s Last Examを見ると、Gemini 3 Proからの大幅な改善が見て取れます。Sonnet 4.6より高い、Opus 4.6より高い、それも確かなのですが、Gemini 3 Proからの伸び幅に目を向けてみてください。しかもこれはあくまで「0.1」リリースですよ。この大きな要因として、実際に例をお見せしながら説明しますが、今回搭載されている「思考レベル高」モードが、まさにDeep Think miniのような機能を担っているからだと言えます。
ARC-AGIでもこれが確認できます。Gemini 3 Proの31%に対して、今回は77%という数字です。AnthropicのモデルはそれよりもずっとARC-AGIで優れた成績を出していましたし、Googleはおそらくこの指標への最適化をGemini 3 Proではあまり意識していなかったのかもしれません。ただ今回は大幅に改善されており、Googleのブログポストにはっきりとは書かれていないものの、こうした種類のタスクに対する優れたRL(強化学習)環境の整備が進んでいることが伺えます。それがベンチマークの改善に直結しているわけです。
コーディングベンチや、エージェント的な検索などを想定したMCP Atlasのような指標でも同様の傾向が見られます。これはベンチマークだけではなく、実際の出力にも現れています。デザイン生成を見ても、3.1 Proはすでに3よりも明らかに優れています。これも、優れたRL環境があれば実現できることを想像すれば納得できます。グラフィックデザインやコーディング関連も同様で、モデルがそうした分野で着実に改善されているのが分かります。
「3.1」という番号に込められた意味
一方でGoogleは、このリリースについて多くを語っているわけではありません。これが「0.1」リリースというのは、やはり興味深いですよね。以前であれば、例えば2.5のプレビューが複数回出たように、「新しいGemini 3 Proプレビュー」という形で新しい日付を付けて出していたでしょう。しかし今回は、単に日付を新しくしたプレビューを重ねるのではなく、Gemini 3.1 Proと正式に命名することを選んだわけです。そしてそのベンチマーク結果は、この命名を十分に正当化するものだと思います。
実際に試してみる
では実際に動かして、どんなパフォーマンスを見せてくれるか試してみましょう。また、このモデルが持つ異なる思考レベルをどう活用するかもお見せしたいと思います。非常に素早い思考から、5分以上かけて回答が出てくるものまで、幅広い設定があります。
まずはモデルの選択ですが、ここで最新モデルを選びます。表示されない場合は「すべて」をクリックしてみてください。展開が進んでいますので、すぐに確認できるはずです。
最初に、国際数学オリンピック(IMO)の問題を一つ試してみます。この問題、昨年Deep Thinkモデルで試したときは正解を出せたものの、時間がかかりました。確か17分以上待ってから最初のトークンが来たと記憶しています。
思考レベルを「高」に設定しているので、答えにたどり着くまでにそれなりの時間がかかっています。以前のGemini 3 Proでは「低」か「高」の2段階しか選べませんでしたが、今回は「低」「中」「高」の3段階から選べるようになりました。
すでに2分ほど経っていますが、ここで求める答えは基本的に0、1、3です。正解が出るかどうか見てみましょう。少し一時停止して確認したところ、最終的に正解にたどり着きました。かかった時間は8分以上。Deep Thinkでかかっていた時間のおよそ半分です。
これがこのモデルの非常に面白い点で、思考レベルを「高」に設定すると、Gemini Deep Thinkのミニバージョンのような動きをするんです。Googleもこの点を強調しており、このモデルはGemini Deep Thinkの初期バージョンから最新バージョンまでの知見を取り込んでいると説明しています。
同じ問題を思考レベル「低」で試したところ、思考自体はずっと早く終わりましたが、今度は正解を出せませんでした。タスクの内容に応じて思考レベルをうまく使い分けることが大切です。
SVG生成の実演
もう一つ、多くの人が試しているSVG生成もやってみます。猫が自転車に乗っているSVGを作ってもらいました。レンダリングしてみると、決して完璧な猫の絵とは言えないかもしれませんが、なかなか良い仕上がりです。猫がマフラーを巻いているように見えますし、自転車もかなり正確に描かれています。チェーンまで描かれており、猫の脚がペダルに乗っているのも再現されていてなかなか良いです。
まとめと今後の展望
このモデルを自分で試したい方は、AI Studioにアクセスすれば無料で試すことができます。ポイントはやはり思考レベルをいろいろ試してみることです。「高」に設定すると回答に時間はかかりますが、Gemini Deep Think miniとでも言うべき性能を体験できます。
モデルはGemini Proプランへの展開が進んでおり、Google Cloudではすでに利用可能です。そちらで試すことも可能です。
「0.1」という段階的なアップデートではありますが、これはモデルをOPus 4.6や最新のGPTモデルと同等の競争力あるゾーンに引き戻す大きなアップデートだと言えます。Gemini 3 Proが3ヶ月前にリリースされた際、プロプライエタリモデルでもオープンな重みモデルでも、新たな競争の火がつきました。今回Gemini 3.1 Proが登場し、性能が大幅に向上したことで、他のモデルが追いつこうと新バージョンを出してくるのかどうか、気になるところです。ぜひコメントで意見を聞かせてください。それではまた次の動画で。さようなら。


コメント