新登場のGemini 3.1 Pro：難解テストで実力を検証

本動画では、新たにリリースされたGemini 3.1 Proを対象に、独自の因果論理テストを用いた実践的な評価が行われている。Claude Opus 4.6やGPT-5.2などの主要モデルが軒並み失敗したこの難解なテストにおいて、Gemini 3.1 Proが7ステップ＋終了という最適解を導き出し、トップパフォーマンスを記録した様子が詳細に解説されている。

NEW Gemini 3.1 Pro: First Complex Test

Google published the new AI model Gemini 3.1 PRO Preview and I performed a first causal reasoning performance test on th...

Gemini 3.1 Proの登場と独自テストの概要
Grok 4.1のパフォーマンスと他モデルとの比較
Gemini 3.1 Proのライブテスト開始
Gemini 3.1 Proの解答と検証プロセス
Gemini 3.1 Proへの評価とGoogleへの賞賛
独自テストの設計思想と今後の展望

Gemini 3.1 Proの登場と独自テストの概要

みなさん、お帰りなさい。新しいGemini 3.1 Proが登場しましたので、本格的なテストをしてみましょう。

私には独自の因果論理テストがありまして、以前にClaude Opus 4.6とOpus 4.6 syncingでテストを行いました。どちらのモデルも失敗しました。GPT-5.2については言うまでもありません。あれは完全な失敗でした。GPT-5.2 high、何であれ、完全な失敗です。私のテストで完全に通過できませんでした。

唯一、興味深い結果を出したのはGrok 4.1 syncでした。arenaプラットフォームからGrokに移動して、エージェントとして実行する必要がありましたが、ご覧のとおり、Grokは完全にPythonコードを実行し、すべてがPythonに変換されて、ボタン7回押しと終了という、7＋exitというユニークな解を見つけることができました。少ないほど良い結果です。

Grok 4.1のパフォーマンスと他モデルとの比較

もちろん、これはGrok 4.1 syncにとってある意味ラッキーな出来事だったことも正直にお伝えしておきます。というのも、1回目の実行は失敗で、2回目は8ステップの解、3回目でようやく7ステップの解がコードで出ました。しかし5回目は完全に失敗、6回目も失敗、その後10回以上試みましたが、7ステップの解は二度と再現できませんでした。つまりGrokは完全な例外的ケースだったわけです。

その他のモデルを見ると、GLM5は約9回のボタン押し＋終了。Minimaxはあまり触れませんが、非常に興味深いMiMo v2 flashは8回押し＋終了と、なかなか優秀なモデルでした。Kimyについては言及する価値もありません。そして直近の結果として、QwQ 3.5＋、つまりAlibabaクラウド上のプロプライエタリ版で、100万トークンのコンテキスト長を持ち、全エージェント機能・その他の機能をオンにした状態——オープンソースのMixture of Expertsには搭載されていない機能も含めて——が8回押し＋終了という結果でした。

Gemini 3.1 Proのライブテスト開始

さて、いよいよGemini 3.1のライブテストを始めます。Gemini 3.1 ProとOpusの組み合わせで行きましょう。いや、Opusじゃなくて……Erniеはもう試しましたね。Sonnet？いや、Sonnetでもなく。4.6？いや、OpenAIのモデルで行きましょう。こちらが私の標準テストです。入力して、準備完了。では実行します。両モデルが同期して生成しています。少し時間を置いてみましょう。

10分35秒後、戻ってきました。Gemini 3.1から結果が出ています。GPT-5.2？それはもういいです。Gemini 3.1の最初の結果が出ました。解が見つかりました。7＋exitという7ステップのシーケンスです。これは文句なしにトップクラスのパフォーマンスです。

Gemini 3.1 Proの解答と検証プロセス

ステップごとの詳細なテーブルが出力されています。「すべて見せてください、あなたの論理はどこにありますか」と確認したところ、これは完全に最適に計画されたシーケンスです。各ボタン押しごとに説明がついていて、フロアはどこか、エネルギーパッケージはどこか、トークンは？フラグは？コードカードは？どのような数学的演算が行われたか、すべて記載されています。そして7＋exitで、これは私が得た中でも最高の結果の一つです。

最終的に8つのリソースがすべて美しく配置されエネルギーも確保、トークンは要件の範囲内、コードカードの収集は制約条件どおり、そしてトラップヒット数はゼロ。パレート最適性の証明です。素晴らしい。フロア50に迅速に到達。赤のコードカード、緑のコードカード、フロア15のABCシーケンス……細かい話はさておき、これは線形な論理ではありません。複雑に絡み合ったファジー論理があり、時間の逆転、状態のミラーリング、その他の非線形な論理シーケンスが組み込まれています。本当に魅力的です。

もちろん、これだけでは信用できませんので、検証を行います。ライブでそのまま確認しましょう。そしてわずか27秒後、結果が出ました。

Gemini——GPTはもう忘れましょう——Geminiが伝えてくれたのは、これは厳密なステップごとの評価であり、数学的計算は正確で、すべてのルールが厳守され、すべての勝利条件が達成されたということです。フロアゼロからスタートし、第1ボタン押し、第2ボタン押しと続き、すべての計算、コスト、新しい状態の遷移、ボタンB、ボタンC、すべて完璧です。ルールチェック、すべての回避事項、ロックダウン、特殊条件の適用——完璧に処理されています。これは完璧な検証のように見えます。フロア29にちょうど到達し、緑と赤のコードカードも両方確保。すべて完了しています。

最終的なゴールデン制約との照合結果を見てください。フロア50——クリア。移動回数——クリア。エネルギー——クリア。トークン——クリア。コード収集——クリア。ランダムトラップヒット数——ゼロ。クリア。完璧です。完全な解、7＋exit、数学的に正確、完全に合法的、すべてのトラップを回避、必要なパワーメカニクスを適切に発動、そして厳密なパレート最適解として成立しています。

Gemini 3.1 Proへの評価とGoogleへの賞賛

Gemini 3.1による素晴らしい解です。私の新たなお気に入りの因果推論AIモデルです。Googleに心から敬意を表します。本当に感動しています。

Gemini 3.1 Proについてもっと知りたい方のために、こちらに素晴らしいブログがあります。「最も複雑なタスクのためのよりスマートなモデル」というタイトルです。単純な答えでは不十分な場合に、Gemini 3.1 Proが活躍します。開発者、エンタープライズ、一般ユーザーそれぞれに対応しています。ARC-AGI 2ベンチマークも掲載されており、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2 extra highとの比較も可能です。そして、2〜3年前から知られている昔ながらのベンチマークもあります。もう十分知られているので、その意味はわかりますよね。だから私は独自のテストをするのです。

独自テストの設計思想と今後の展望

私が本当に気に入っているのは、高度な推論を実際に応用して、最も難しい課題に役立てるという姿勢です。私が示したとおり、私の因果推論テストは線形なテストではありません。非常に多くの非決定論的要素と論理要素が含まれており、数学から着想を得て英語で表現したものです。AIモデルの高度な推論がどこで限界を迎えるかを見極めるために設計したのですが、Gemini 3.1がエージェントとしてでもコーディングとしてでもなく、数学的なコード解法を直接適用してこの答えを導き出したことは、本当に驚くべきことです。

コードベースのアニメーションも次に控えています。AI ProとUltraプランのユーザーに対してより高い制限で展開中です。またNotebook LMでも限定提供されています——ProとUltraユーザー向けに。開発者やエンタープライズ向けには、Gemini API、AI Studio、Vertex AI、Gemini Enterprise CLI、Android Studioでのプレビュー版がすでに利用可能です。本当に素晴らしいです。

さらに多くのテストを公開したいと思っています。数学的なテスト、理論物理学のテスト、天体物理学のシミュレーション、コンピューターシミュレーションなど、様々な分野でGemini 3.1が何を達成できるかを確かめたいと思っています。

これまでテストした他のどのモデルと比較しても、テスト開始直後のわずかな時間から、特に因果推論と複雑な論理タスクにおいて、非常に優れた結果を出しています。この動画を楽しんでいただけたなら幸いです。もしかしたら新しい情報があったかもしれません。チャンネル登録、メンバーシップ加入もぜひよろしくお願いします。次の動画でまたお会いしましょう。