新しく登場したAIモデルであるGemini 3.5 Flashの性能とコストパフォーマンスを検証する動画。従来の上位モデルであるGemini 3.1 Pro Previewとのベンチマーク比較や、実際のライブテストを通じて、その推論能力の真価を暴いていく。複雑な因果関係を解き明かすエレベーターパズルに挑戦させ、最悪の解答から理論上の最適解へと至る劇的な思考プロセスの変化を克明に描き出している。

新型AIモデルGemini 3.5 Flashの登場とベンチマーク比較
みなさんこんにちは。またお会いできて嬉しいです。新しいAIモデルのGemini 3.5が登場しました。まずはFlashバージョンがリリースされ、Proバージョンは現在まだ開発中とのことです。それでは、さっそくFlashをテストしてみましょう。
私たちは人工的な分析結果、つまりベンチマークを知っています。ここにあるのは、何年も前から知られている10個の評価によるベンチマークです。ご覧の通り、Gemini 3.1 Pro Previewは57.2で、Gemini 3.5 Flashは10回の評価の後で55.3となっています。これはまさに予想通りの結果ですね。現時点ではProの方が優れており、Flashは少しその後ろを追う形になっています。素晴らしい、期待通りです。
価格についてはどうでしょうか。ヨーロッパにおけるGemini 3.5 Flashの価格は、100万トークンあたりインプットが1.5ドル、アウトプットが9ドルとなっています。これをGemini 3.1 Pro Previewと比較してみましょう。20万トークンを超えた場合、インプットは4ドル、アウトプットは18ドルです。私は毎日20万トークン以上消費しています。つまり、Gemini 3.1 Pro Previewの半額というわけです。素晴らしいですね。
2026年5月19日に公開されたGemini 3.5ですが、私はまだProバージョンを待っている状態です。まずはFlashを見てみましょう。彼らの説明によると、ここでは論理、数学的推論、科学的な因果関係の推論だけを対象にします。そこで、一番下の2行を見てみましょう。人類最後の試験と呼ばれる、学術的推論の項目です。見事な結果です。Gemini 3.1 Proの正解率が44パーセントであるのに対し、私たちの3.5 Flashは40パーセンスです。また、AGI2を伴うGemini 3.1 Proが77パーセントで、私たちのFlashは72パーセントです。ご覧のように、多かれ少なかれ、まさに私たちが期待した通りの数値が出ています。
私は現在、同じテストを行った78本の動画をまとめた完全なプレイリストを持っており、あらゆるLLMがこのテストを受けている様子を確認できます。そのため、非常に美しい比較ができるのです。
短い手順で非常口を見つけ出すという、優れたモデルを強くお勧めしています。Gemini 3.1 Proは、非常口を含めて7つのステップでそれを達成しました。では、問題はGemini 3.5 Flashがどうであるか、このFlashがどれほど優れているかということです。価格は半分です。私たちはベンチマークをそのまま鵜呑みにはしません。ライブテストへと移行し、因果関係の推論をテストしてみましょう。さあ、始めます。
Google Playgroundでの実機ライブテスト
Google Playgroundにやってきました。素晴らしいですね。ご覧の通り、思考のレベルは高く設定されています。今回はGemini 3.5 Flashで検証します。私が1年前から行っている標準的なテストをそのまま投入してみます。プレイグラウンドの準備は万端です。さあ、いきましょう。
始まりました。ご覧の通り、これは本当の意味でのオープンな推論の痕跡、つまり思考プロセスの生データではありません。これは要約された推論の痕跡です。Googleは、実際の推論のシーケンスを私たちに見せたくないのでしょう。そのため、思考プロセスを抽象化して要約したシーケンスのようなものがここに表示されています。しかし、シーケンスの論理を修正していることや、パズルの解法を開始していること、そして様々なボタンのメカニズムを統合している様子が見て取れます。
ここには、押すことができる複数のエレベーターのボタンがあり、それぞれのボタンの背景には数学的な関数が存在しています。もちろん、時には逆転現象が起きたり、プロセスが複雑に絡み合ったりします。入手しなければならないコードカードもありますし、利用可能なエネルギーの量には限りがあるという制限もあります。
タスク自体はシンプルです。ゼロ階からスタートし、建物の一番上の階である50階まで行かなければなりません。そして、ボタンを押す回数が最も少なくなる最短のシーケンスを見つけ出す必要があります。ご覧の通り、現在はエネルギー効率を最適化しているところです。見事です。ゼロから50までの問題を、まずはゼロから15まで進む形に分割しました。おや、戦略を再評価していますね。最初の戦略はすでに失敗したようです。
次はトークン節約の仕組みを洗練させています。トークンの量には制限がありますからね。非常口の検証も行っています。近道の一つを見つけたようです。これはいいですね。夜勤シフトへの移行を評価しています。なるほど、夜勤シフトがあり、時間帯によってすべてが変化する設定なのです。ご存じの通り、これは本物の因果関係の推論問題であり、論理的な問題です。
ボタンのシーケンスを洗練させ、コードカードをいつ取得すべきかを再評価し、取得のプロセスを追跡して検証しています。特定のボタンの組み合わせによって、テレポートを選択できるオプションもあります。非常に複雑なので、当てずっぽうで解くことは不可能です。
素数の遷移を洗練させています。特定の数字が素数である場合はある関数が働き、素数でない場合は別の関数が働きます。このように、このパズルを解くのは本当に楽しいものです。コードの取得を追跡し、赤色のコードカードを注意深くチェックしています。夜勤シフトのシーケンスを最適化しています。夜間にこれを実行したいようですね。これは興味深いです。実行する時間帯は自由に選べるようになっています。
混迷を極める推論プロセスと衝撃の解答
今度は戦略を再考しています。ミラーモードというものがあり、すべてが鏡写しになります。これは面白いですね。マイナスの時間における線形化、そしてそのメリットを分析しています。ボタンを押すことで有効化できる、すべての可能なモードを分析しているところです。テレポートの経路を洗練させています。すべてのプロセスを処理しているようです。順調そうに見えますね。
別の代替経路を洗練させています。しかし、それは上手くいかなかったようで、またやり直しています。赤いコードカードを取得するための手順を洗練させ、素数の論理を洗練させています。異なる最適化のアプローチで、すべてをもう一度やり直しています。同時に、並行して解決しなければならない3つの絡み合った最適化レベルが存在するのです。そのため、これを見つけ出すには当然ながら何度も実行を繰り返す必要があります。
念のために言っておきますが、すでに3分が経過しており、これはFlashモデルです。つまり、これはFlashモデルとは思えません。通常のモデルのようです。なぜなら、3分半も経てばFlashは処理を終えているはずだからです。しかし、まだミラーモードの有効化を逆算して分析しています。
最終的な戦略的出口が見えたようです。これは素晴らしい。現在49階にいます。これはあまり良いアイデアではありません。最終的な上昇を追跡しています。パズルの上昇を仕上げています。解決策を見つけました。今、目標を絞り込んでいます。戦略的な経路を仕上げています。解決策が出ました。よし、見てみましょう。
これは良くありません。これは本当にひどい結果に見えます。これを見てください。なんてことでしょう。あり得ません。16回もボタンを押すなんて、最悪の部類に入ります。これは到底受け入れられるものではありません。私は8回のボタン操作を期待していたのですが、16回は長すぎます。これを見てください。経路の追跡を仕上げています。
13回に減りましたが、それでもダメです。トークン節約の仕組みを洗練させています。おや、今になって最適化を進めています。突然、24階まで8回のボタン操作で行けるようになりました。いや、認められません。これはさらに悪化しています。
再び分析しています。3回目の最適化プロセスを開始しました。鏡の要素に魅了されているようです。ナビゲーションの選択肢を見ています。別の選択肢を検証しているところです。どうやら、これでは受け入れられないということを理解したようです。本当にひどい状況です。計画していたルートを修正しています。14の位置から代替案を探索し終えました。
解決策の実現可能性を確認しています。Flashモデルのはずなのに、すでに5分が経過しています。計算し、再びトークン節約の仕組みを修正し、ボタン操作を分析しています。インプットトークンは1,000程度ですが、もしAPIを利用していて、5分も6分も推論トークンの料金を支払い続けるとなると、これは大変なことになります。新しい経路を最適化しています。新しい経路が見つかりました。これは面白くありません。最終的な検証シーケンスに入り、最初の結果が出ました。Gemini 3.5 Flashの実力を見てみましょう。
奇跡の最適解と予想外のオチ
5分27秒が経過した後に出た結果は、驚くべきことに、現在利用可能なものの中で全くもって最高の解決策でした。これは、7回のボタン操作プラス非常口という解決策です。これは、理論上このパズルで到達可能な最高の解です。16回という最悪の解答から、7回プラス非常口という最高の解答へと一気に跳ね上がりました。まさにジェットコースターのような展開です。
これは狂っています。今回の実行で、合計のボタン操作は7回プラス非常口で8回です。すべてが制限内に収まっています。これは有効な結果でしょうか。検証された結果と言えます。これが本当に有効な解決策であることを、ステップバイステップで示してもらいましょう。本当にハラハラさせる展開でした。
Flashモデルで5分半もかかるとは、非常に興味深い現象です。このモデルは結果のばらつきが非常に大きいのだと思います。運が良ければ最高の答えが出ますが、悪ければ完全に使い物にならないモデルになってしまいます。解決策において、これほどのばらつきを見たことはほとんどありません。
しかし、見てください。数字が消えています。数字がどこにもありません。大変です、数字を出力するのを忘れてしまっています。そんなことがあり得るのでしょうか。出力されたテキストの中に数字が全く含まれていません。冗談でしょう。
まあ、仕方がありません。新しく出たばかりのモデルですから、そういうこともあります。気にしないで、と伝えましょう。回答の中に突然数字がなくなっていることを指摘します。修正を試みています。彼は思考を続けています。朝の7時21分ですから、おそらくコーヒーが一杯必要なのかもしれませんね。次のステップを計算しています。
さあ、数字が出てきました。すべて問題ないでしょうか。素晴らしい、実に見事です。7回プラス非常口のステップがあり、ここにすべての数字が揃っています。論理も通っています。これは得られる中で最高の解決策です。卓越した結果を残してくれました。しかし、それにしても、この推論の軌跡は純粋な混沌そのものでしたね。


コメント