本動画では、Googleの最新モデルGemini 3 FlashとOpenAIのGPT-5.2 Highモデルをリアルタイムで直接比較している。特筆すべきは、Gemini 3 Flashが価格面でGPT-5.2より4倍以上安価でありながら、既知のベンチマークテストでは僅差の性能を示している点である。しかし、投稿者は既知のベンチマークを離れ、独自の複雑な論理パズル問題を用いて両モデルの実践的な推論能力を検証した。結果は驚くべきものとなった。Gemini 3 Flashは約1分半で9ステップの解答を導き出し、複数回の検証でも一貫した結果を示した。一方、GPT-5.2 Highは8分以上を要し、最終的には矛盾だらけの誤った解答を提示するという結果に終わった。この実験は、公式ベンチマークスコアと実世界での問題解決能力の間に大きな乖離が存在する可能性を示唆している。

Gemini 3 Flashの登場とその衝撃的な価格設定
皆さんこんにちは。お帰りなさい。はい、新しいGemini 3 Flashモデルが登場しましたので、これをGPT-5.2 Highモデルとライブで比較していきます。私のチャンネルへようこそ。そうです、私たちはAIモデルのライブテストも行っています。
さて、ここは12月17日です。Gemini 3 Flashは、スピードのために構築された最先端のインテリジェンスモデルです。これは素晴らしいことですが、さらに興味深いことは何だと思いますか。マルチモーダル推論機能を備えているんです。つまり、Flashはあらゆる種類の情報をより速く見て理解するのを助けてくれるわけです。Gemini 3 Flashに動画や画像を理解するよう依頼できます。
そして、ここからが面白くなってきます。いや、公式ベンチマークを見てみましょう。お手伝いしますね、まずは価格に注目しましょう。青色で表示されているのがGemini 3 Flashで、その他すべてのモデルが並んでいます。ここではGPT-5.2 Extra Highに焦点を当てましょう。
入力について見ると、100万入力トークンあたりGemini 3 Flashが50ドル、GPT-5.2 Extra Highは約2万1175ドルに近い金額です。しかし出力を見てください。100万トークンあたり、Flashは3ドルです。GPT-5.2 Extraは14ドルです。つまり、Gemini 3 Flashは4倍以上安いということになります。
性能比較への疑問
では、これをGPT-5.2と比較した場合、どれだけ優れているのでしょうか。なんてことだ、知能は4分の1なのでしょうか。確かめてみましょう。
私たちが2年以上知っている既知のベンチマークすべてを見てみましょう。新しいモデルを開発するとき、そのモデルが何に対してベンチマークされるか正確に分かっているわけです。これは標準があるという点で素晴らしいことです。
ここにArtificial Analysisのインテリジェンス指数があります。彼らはこの美しいリストから10の評価を抽出しました。この10の評価を組み合わせると、すぐに分かります。GPT-5.2 Extra Highは73ポイントで、Gemini Flashは71ポイントしかありません。
つまり、これは4倍高価なGPT-5.2 XIのようなモデルと比べて、実際には4倍悪い性能ではないことを示しています。ここで私は考えました。Highはどこにあるんだろう。XIは本当に高価ですからね。Highはどこだ。なぜなら、GPT-5.2はここで48ポイントしかありません。これはもうこの世紀のものではありませんよ。
独自テストへの挑戦
Highが見当たらなかったので、Highと対決させることにしました。ご存知の通り、私はGPT-5.2についていくらか経験があります。以前、通常の5.2で挑戦したことがありますが、血みどろの結果でした。本当にこの世紀のものではありませんでした。
ですから、今日はGemini 3 FlashとGPT-5.2 Highの間でテストを行うことにしました。でも、古い既知のベンチマークテストではありません。まず、インターネット上にないものから始めましょう。そして、この単純なテストから本物の科学的な実世界のテストに移りましょう。因果推論、科学的事実、科学にとって本当に役立つものです。これを学びたい場合、既知のベンチマーク用ではなく。
何か違いはあるでしょうか。どう思いますか。それでは、ライブテストに移りましょう。
リアルタイムテストの開始
LMアリーナでライブ配信しています。左側にGemini Flash、右側にGPT-5.2 Highがあります。はい、ここでオープンプラットフォームを使用しています。支払う必要はありません。このテストは自分で行うことができます。
テストをGemini 3 Flashに入力します。はい、すべてに同意します。同じくGPT-5.2 Highにも。すべてに同意します。両方のモデルが同期を開始したのが分かります。素晴らしいですね。
はい、皆さんに言いたいのは、私がお見せするすべてのことを追加の財源なしで再現できるということです。ご覧の通り、OpenUIはテスト用にGPT-5.2 Highを提供しています。ですから、このプラットフォームを使わない手はありませんし、Gemini 3 Flashについても同じことが言えます。
何人かの方から「OpenAIプラットフォームで実際に実行すると3秒、4秒の差がある」と言われました。ですから、すべてのタイミングはプラスマイナス5秒で考えてください。これは、LMアリーナでの全体的なパフォーマンスについてアイデアを得られるよう、一般的なパフォーマンスを示すためのものです。
最初の結果
これらすべてについて話したところで、最初の結果が出るのを待っているところです。Gemini 3 FlashがFlashとして同期していますが、これは本当に複雑なタスクです。非決定論的な入力もいくつか含まれています。
GPT-5.2 Highも、ご存知のように最適化されています。OpenAIはモデルを継続的に最適化していると読みました。1週間前のテストから更新されたバージョンなのかどうかは分かりません。でも見てみましょう。
残りの時間はスキップしていいと思います。両方のモデルがここで実行しなければならない推論の複雑さをお見せしたかっただけです。Gemini 3 Flash、頑張れ、あなたはFlashなんだから。
Gemini 3 Flashの解答
1分28秒後、Gemini 3 Flashから最初の結果が出ました。素晴らしい。最適なボタン押下シーケンス。9回の押下です。ご存知の通り、Gemini 3 Proは8回の押下でした。9回の押下が得られれば、私は満足です。8回のより短いシーケンスがあります。
しかし見てください、50階に行く完璧な方法を見つけました。はい、非常口です。これが正しい方法です。9回の押下。50階に到達しました。十分なトークンがあります。十分なエネルギーがあります。非常口への最短経路。これは正しいです。素晴らしい。
トークンが終了しました。はい、詳細情報がいくつかあります。分岐を回避しました。8回の着陸、つまり9回のボタン押下で出口に到達しました。これが限界でしょうか。本当の限界ではありません。でも、この小さなFlashにとっては素晴らしいです。
検証プロセス
では、検証を開始しましょう。Gemini 3 Flashに伝えます。素晴らしい。では解答を検証して、より短いボタン押下シーケンスを見つけてみてください。
ちょっと待って、何が起こっているんでしょう。レスポンスAとレスポンスBがあります。ABテストをここでやっているんですね。問題ありません。これでいきましょう。
1分47秒後、Gemini 3 Flashによる検証が出ました。ご覧の通り、両方とも。どう機能するか分かりますか。AとB、どちらを押す必要があるでしょうか。Aの方が良いです。より良い。これはまだ可能です。
では、レスポンスAを見てみましょう。50階。非常口、正しいです。ボタン押下のシーケンスはまだ9回です。見事に検証しました。非常口。これが正しい方法です。
要件。トークン要件。コードカードは問題ありません。最適性の証明。9回の押下。リソースバッファはあります。より短い経路は存在しません。Flashモデルにとって、最高の8ステップと比べて9ステップであれば、これは素晴らしいことだと思います。
新たな戦略の試み
これは別のより短いシーケンスを見つけようとしているところです。見てください、新しい戦略を設定しました。これは興味深いですね。3つのフェーズに細分化し、そこに到達する新しい手順、新しいアイデアを設定しました。
見てみましょう。これはあまり良く見えませんね。16、17ステップになっています。最終的に最適化されたシーケンスは9回の押下です。はい、グリーンのコードカードがあります。自己修正が設定されています。この新しい方法論では、すでに美しい解答があったと思います。
GPT-5.2 Highの登場
ちょっと待ってください。GPT-5.2 Highが7分40秒ほどで登場します。GPT-5.2がレースに参戦してきました。おや、分かりません。これは中国語でしょうか。教えてください。中国語ですか。韓国語ですか。日本語ですか。全く分かりません。
こんにちは、サム。なぜこのタスクを解決するために非英語に切り替えたんですか。Gemini 3 Flashに戻りましょう。この2番目のオプションは17回の押下です。これは本当に、正しい解答を提供する戦略ではありますが、最良の解答ではありません。17は絶対に進むべき道ではありません。
ここではAの方が良いと思います。9回のボタン押下です。ほぼ完璧です。素晴らしい。この2つの時間差を見てください。
GPT-5.2 Highの苦戦
GPT-5.2 Highに戻ります。分かりました。トークンのロックダウン。12階。33階。33階。そして行き詰まりました。何が起こっているんでしょう。もしもし、そこにいますか。
可能な組み合わせを考えようとしていますが、行き詰まっています。問題ありません。接続の問題かもしれません。問題ありません。待つことができます。続けるように言います。いや、ボタンがアクティブになっていません。待つしかありません。時々こういうことが起こります。問題ありません。時間を与えましょう。
8分が経過する前に、GPT-5.2 Highもレースに参戦しました。別の実行です。Gemini 3 Flashに、もう一度検証するように言います。9があなたの最短シーケンスですね。より短い経路を見つける他のアイデアはありますか。でもGPT-5.2 Highはまだ同期しています。
同期モデルです。素晴らしい。レースは約8分が経過したと思います。Gemini 3 Flashで3回目の検証を行い、これも9ステップの解答でした。そして、GPT-5.2 Highからの最初の解答を待っているところです。
毎分起こるはずなんですけどね。さあ。残念ながら読めません。申し訳ありません。でも、アメリカのGPTシステムが英語以外の言語で科学的解答を見つけようとしているのは興味深いと思います。クールですね。
Gemini 3 Flashを待っています。GPT-5.2 Highも待っています。さあ。どなたか何かしたいですか。
GPT-5.2 Highの解答とその問題点
GPT-5.2 Highの最初の結果です。33階にいます。39階まで行きました。これで終わりです。停止。続けましょう。続けると言います。タイムアウトだったのかもしれません。全く問題ありません。50階中39階にいます。
GPT-5.2の同期プロセスが見えます。英語です。はい、これは良いですね。ボタン押下20回未満で50階。コードカードがあります。青、赤、緑、黄色。正しいです。フラグを分析します。素晴らしい。有効になっています。ボタンを分析します。A B C D E F G H。素晴らしいです。戦略の策定。これは同期モデルです。最速の方法で50に到達します。何かを避けます。美しい。
GPT-5.2 Highの推論の力が見えてきました。進んでいます。より良い解答が得られることを期待します。パス1。これまでの合計価格は42です。これは進むべき道ではありません。これは違います。2枚のカードを取得しようとしましょう。青と赤。まず青のコードカードを取得しようとしましょう。
Gemini 3 Flashがここで終了しています。いや、同じシーケンスのままです。Gemini 3 Flashは9ステップです。最良の解答ではありません。ご存知の通り、最良はここにあります。Grokでも7ステップの解答を見つけました。通常、基盤モデルは十分な時間を与えれば8に到達します。ここでFlashは非常に高速なパフォーマンスで9を提供してくれています。素晴らしい。
GPT-5.2 Highに戻ります。別のパスシーケンスがあります。解答を見つけようとしています。GPT-5.2は同期しています。長すぎます。遅すぎます。最初の有効な解答です。より良くできるでしょうか。ボタン押下20回未満で15に到達できるでしょうか。もちろんです。あなたはOpenAIによる地球上で最も知的なAIシステムの1つなんですから。
おっと。解答が出ました。これは並べ替えプロセスでした。1分40秒の思考。さて、これが公式の解答です。16回のボタン押下。本当に。16回のボタン押下。いや、50階に行くのに23回のボタン押下です。
訂正があります。エラーがあります。正しいシーケンスは、エラーがあります。素晴らしい。E。ええと、はい。これは23、別の23回のボタン押下です。合計押下回数は16です。いや、23回のボタン押下があるだけです。
最終結果。つまり、合計押下回数は16で、これは示されていません。最終リソースエネルギーはゼロです。いや、反対側を見てください。エネルギー要件、EPC要件は5以上、つまり5です。何が起こっているんでしょう。
23ステップの不正確な解答を見つけ、私の命令の1つを無視しました。GPT-5.2 High。これは23ステップのパレート最適解で、それを示しておいて、それが16のランダムトラップだと言っています。したがって、この16回押下の解答が最短の可能なシーケンスであり、パレート最適になっているというわけです。これは全く不正確です。
見てください。16回の押下、23が示されていて、エネルギーはゼロです。要件を見てください。GPT-5.2は私の指示の1つを削除、無視して解答を見つけました。
検証の試みと破綻
最終的なEPC要件が5より大きいというのが正しいか検証してくださいと言います。GPT-5.2がHighバージョンを同期しています。同期プロセスを見てみましょう。
ここで同期しています。ユーザーが私に主張を検証するよう求めています。ちょっと待ってください。提供された解答のエラーを特定します。ユーザーが提供したシーケンス。解答シーケンスは、私は解答シーケンスを全く提供していません。
GPT-5.2 Highがおかしくなっています。これを見てください。これは、ランタイムエラーです。GPT-5.2 Highを失ったと思います。有効な結果さえ得られません。
ユーザーが検証を求めています。はい。提供された解答を分析します。最終状態。50階と言っていますが、これは不正確です。エネルギーパッケージはゼロです。ゼロは5より大きくありません。したがって、主張は偽です。
提供された解答のエラーを特定します。完全に不正確な解答を見つけ、私の解答の1つを無視しました。エネルギーレベルをゼロに設定し、これを有効な制約としました。さらに7分待ちました。
しかし、GPT-5.2 Highは、信じられないかもしれませんが、結果が全くありませんでした。これで終わりです。
まとめ
既知のベンチマークテストではない直接比較ができたと思います。これは因果推論のテストです。これは論理テストです。テストには科学的な複雑さがあります。また、非決定論的な事実といくつかのトラップも含まれています。
でも、ここで実際の比較ができました。楽しんでいただけたことを願います。既知のベンチマークの既知のトラック、既知のパスを離れた場合のモデルのパフォーマンスについて、いくらかの洞察が得られたことを願います。
常に自分自身で調査を行うべきです。少しは楽しんでいただけたことを願います。チャンネル登録をして、メンバーになって、この動画に「いいね」をしていただけるかもしれませんね。とにかく、次の動画でお会いできることを願っています。


コメント