GoogleがGemini 3.1 Proを正式リリースした。SVG生成能力の大幅な向上が目を引き、ARC-AGI 2では77.1%というスコアでGemini 3 Proの2倍以上を記録し、他モデルを圧倒している。Humanity’s Last ExamやGPQA Diamondなど主要ベンチマークでも最高水準のスコアを叩き出しており、コーディング・多言語・エージェント型ツール使用においても高い実力を示している。3Dプリント用CADモデル生成や都市計画シミュレーションなど、実用的なユースケースも紹介されており、同モデルの幅広い可能性が示された回となっている。

Gemini 3.1 Pro、ついに登場
さあ、今日はGeminiの日です。Gemini 3.1 Proがついにやってきました。まず一番重要なベンチマークをお見せしましょう。その名も「Pelican Bench」——モデルがSVGを使ってペリカンが自転車に乗っている絵をどれだけうまく描けるか、というものです。
Gemini 3から3.1にかけての進化を見てみましょう。「ペリカンが自転車に乗っているアニメーションSVGを生成して」というプロンプトを入れると……ご覧のとおり、格段に良くなっています。動きもずっとなめらかです。
でもそれだけじゃないんです。ビンテージのペニーファーシング自転車に乗ったカエルもあります。見てください。Gemini 3のほうはもう何が何だかわからない感じですが、3.1のほうはとても良い出来です。次はキリンが小さな車を運転しているもの。ドン!ディテールも動きも、圧倒的に増しています。
驚異的なベンチマーク結果
本当によくできています。ローラースケートを履いたダチョウもどうぞ。これは非常に重要なベンチマークです。基本的にこれはもうAGIと言っていい——冗談はともかく、本当に印象的な出来です。
それだけでなく、先週リリースされたGemini 3のディープシンクモデルが、実はGemini 3.1 Proをベースモデルとして使っていたことも明らかになりました。そして本日、Googleはコンシューマーおよびデベロッパープロダクトにわたって3.1 Proを展開し、この進化と知性を日常のアプリケーションにもたらすとしています。OpenClawで試すのが待ちきれません。
では、ベンチマークを見ていきましょう。これはすごいですよ。Humanity’s Last Examをツールなしで解いた場合のスコアが44.4%。検索ありでブロックリスト付き(つまり正確な答えをそのまま取得できない条件)だと、そしてコーディング環境ありで51.4%。これはGemini 3 Proから大幅な上昇であり、Claude Opus 4.6とほぼ同等のスコアです。ツールなしでは少し上回り、ツールありでは少し下回るという感じですが、ARC-AGI 2では完全に圧勝しています。
ARC-AGI 2というベンチマークをご存知でない方のために説明すると、これはモデルが学習を通じて新しいスキルを習得し、それを素早く汎化できるかを測るものです。こういう問題です——最初にパターンが提示され、その解答例が示されます。そして新しいパターンが出てきて「解け」と言われる。このチャンネルの友人でもあり、Arc Prizeの代表でもあるGreg Cameronにも感謝を。
Gemini 3.1 Proのスコアは77.1%。Gemini 3 Proの2倍以上です。他のすべてのモデルを完全に上回っています。Claude Opus 4.6が68.8%とそれなりに肉薄していますが、それでも大きな差があります。
GPQA Diamondでも完全制覇です。これは科学的知識を問うもので、ツールなしで94.3%。2位がGemini 3 Proの91.9%、3位がGPT-5.2のシンキング・エクストラハイで92.4%。コーディングのSWE-bench Verifiedでも80.6%という素晴らしいスコアで、Claude Opus 4.6とほぼ同点、Gemini 3 Proを数ポイント上回っています。
Sonnet 4.6の健闘と価格問題
ここで実は非常に興味深いことがあります。AnthropicのミドルティアモデルであるClaude Sonnet 4.6が、このベンチマーク全体を通じて非常に優秀なスコアを出しているんです。以前レビューしたときにも言いましたが、知識労働における真の働き者モデルです。
ただし問題があって、かなり高価なんです。Claude Opus 4.6よりは安いですが、それでも非常に高価。正直に言うと、パーソナリティが素晴らしく、ツール呼び出しが得意で、100万トークンのコンテキストウィンドウを持っているため、今の私の一番好きなモデルなんですが、とにかく高い。だからOpenClawのプライマリモデルとしては使っていないんです。
その他のベンチマークと実用テスト
Live CodeBenchでも非常に高いスコアを出し、Scodeでは1位。エージェント型ツール使用を測るT2BenchではTelecomで99.3%とほぼ満点。MMLU多言語Q&Aでも驚異的なスコア。とにかく全方位でスコアが高いモデルです。
ただ、ベンチマークはあくまで一部の物語を語るに過ぎないことも皆さんわかっているはず。大事なのは「バイブ」——実際に使ってみてどうか、ということですよね。
実は以前、AnthropicがOAuth経由のアクセスを突然剥奪したとき(ひどいことをしてくれましたよね)、OpenClawのプライマリモデルを一時的にGemini 3 Proに切り替えていたんですが、本当に気に入っていました。Gemini 3が好きだったから、3.1を試すのが本当に楽しみです。
Gemini 3.1 Proの設計思想と活用例
Gemini 3.1 Proは、単純な答えでは不十分なタスクのために設計されています。高度な推論を実用レベルに引き上げ、あなたの最も難しい課題に対応させるためのモデルです。
もう少しSVGの例を見てみましょう。なぜこんなにSVGにこだわっているのかはわかりませんが、SVG生成においてGemini 3より明らかに優れているのは確かです。このカメレオンを見てください。右側のGemini 3のものと比べると、ディテールの多さが一目瞭然です。ビジュアルデザインの質、説得力のある美しいSVGを作る能力が格段に向上しています。
群れ飛ぶ鳥のシミュレーションと都市計画
次は「マーマレーション」と呼ばれる現象のシミュレーションです。これは鳥の群れが空中で生み出す、あの圧巻のパターン飛行のことです。見てください——これがGemini 3.1 Proによって書かれた完全なシミュレーションです。
そして、世界トップクラスのエンジニアの一人でありGoogle DeepMindのチーフサイエンティストであるJeff Deanが、自分のお気に入りのユースケースをいくつかまとめてくれています。見てみましょう。
彼は言っています——「私はずっと都市計画に興味を持っていました。これはGemini 3.1 Proで作ったアプリの例で、都市計画をシミュレーションして全く新しい都市を設計できます。」実際に見ると、地理的な地形に合わせて都市を設計しています。パスの引き方、衝突判定、水の要素、土地の要素など、さまざまな設定があり、すべて編集・変更できます。ここでは実際に街のブロックが作られていく様子が見られます。なんてかっこいい見た目なんでしょう。機能的なだけでなく、本当に見栄えがします。さらに、その都市がどんな見た目になるかをAIが生成した画像でまとめてくれています。信じられない。シムシティの未来形がここにあるかもしれません。
3DプリントのためのCADモデル生成
これは私が特に気になった機能です。最近3Dプリントにはまっているので。これはプロンプトだけでCADモデルが作れるというものです。すごすぎる。見てください。「この技術図面のオブジェクトを作るmanifold CADコードを書いて」——提供されたのは基本的にオブジェクトの技術仕様だけ。しかも実際にはそれすら不要かもしれません。それだけでCADオブジェクトが完成します。ここを見てください。完全に作られたオブジェクトがCAD上に出来上がっています。これからは、作りたいものを何でもプロンプトで作って3Dプリントできる時代になります。
以上です。ぜひ試してみてください。感想を教えてもらえると嬉しいです。この動画が気に入ったら、ぜひいいねとチャンネル登録をお願いします。次の動画でまたお会いしましょう。


コメント