Gemini Flash 3が新たなお気に入りモデルになった理由(本当に)

Google の Gemini Flash 3 が、空間認識能力において前例のない飛躍を遂げ、価格対性能比で他を圧倒する存在となった。Gemini 3 Pro への懐疑的な評価とは対照的に、Flash 3 は従来の Flash 2.5 の速度と能力のバランスを継承しながら、Claude Opus 4.5 を上回る性能を実現している。特筆すべきは、画像・動画・音声・PDF を含むマルチモーダル処理能力と、大規模データのバッチ処理における圧倒的な優位性である。ただし、価格は従来の約10倍に上昇し、推論トークンの大量消費により実質的なコストは200倍近くに達する。また、91%という極めて高い幻覚率や、指示への追従性の低さといった Google モデル特有の課題も依然として残る。コーディングや対話的な用途には向かないものの、データ解析や文書処理、空間認識が求められるタスクにおいては、現時点で最良の選択肢となる可能性を秘めている。

Gemini Flash 3 is my new favorite model (yes really)

Gemini 3 Flash is here, and it's really goodThank you Blacksmith for sponsoring! Check them out at:

Gemini Flash 3 の登場
早期アクセスでの衝撃的な発見
公式発表の内容
API の問題点と価格設定
ベンチマーク結果の詳細
パフォーマンスと効率性のバランス
コーディング能力と実用例
ペリカン生成の驚異的な改善
幻覚問題の深刻さ
モデルの実用性と制約
コーディング比較テストの結果
最終的な評価と推奨事項

Gemini Flash 3 の登場

分かっています、分かっていますよ。皆さんは「最新最高のモデル」という動画にうんざりしていますよね。カウンターを持っている人に任せればいいじゃないか、と。でも今回は本当に本物なんです。私は Gemini 3 Pro に対して懐疑的でしたし、それは的を射ていたことが分かりました。なぜなら、日常的にそのモデルを使ってみても、あまり良いものではなかったからです。

とはいえ、私がほぼ1年間毎日使っている Google のモデルがあります。そのモデルの名前の最後に Pro はついていません。Flash がついているんです。Gemini 2.5 Flash は、非常に多くのタスクで長い間、私の日常的な選択肢でした。本当にこのモデルが好きなんです。速度と能力のバランスが素晴らしいんですよね。

そして、その奇妙な癖に対処する覚悟があれば―注意してほしいのは、その癖はかなり多いんですが―Gemini 2.5 Flash は本当に本当に優れていました。だからこそ、Flash 3 が 2.5 Flash の性能を意味のある形で向上させることに超興奮していたんです。そして実際にそうなりました。それどころか、ここで見られるように、Gemini Flash 3 は 2.5 Flash がチャート上にあった場所には近づいてもいません。

Flash 3 は Opus 4.5 よりも前にいるんです。そうなんです、これは公式の Artificial Analysis Intelligence Index で、問題がないわけではありません。私も何度も話してきましたが、このモデルがどのあたりに位置するのかという一般的な指標としては十分に良いものです。そして Flash 3 が本当に本当に良い場所に位置していることが分かりました。

早期アクセスでの衝撃的な発見

かなりクレイジーですよね。特に―これは先に言っておくべきだったかもしれませんが―私は運良く早期アクセスを得ることができたんです。Google との早期アクセスはいつも興味深いものです。彼らは改善してきています。お金をもらっているわけではありません。ただ試させてもらっているだけです。また、一切のガイダンスも提供されませんでした。だから、自分のベンチマークで動かし始めたとき、頭がおかしくなりそうでした。

なぜなら Skatebench では、Flash 3 が 2.5 Flash をとんでもない差で上回っているだけでなく、GPT-5.1、GPT-5.2、o3 Pro 以外のほぼすべてのモデルを上回っているんです。そうなんです、空間認識とスケートボード用語の理解においては最高クラスなんです。速いし、巨大なコンテキストから物事を取り出すのも得意です。画像を解析できます。

動画も解析できます。音声も扱えます。良いモデルです。でも、これは日常的な使用にとって何を意味するのでしょうか? 実際にこのような Flash モデルを使うとどんな感じなのでしょうか? コストはどのくらいかかるのでしょうか? 使用例は何でしょうか? なぜ私はこんなに小さくて、他の人たちの評価ではそれほど良くないモデルにこんなに興奮しているのでしょうか? すべて素晴らしい質問ですね。今日のスポンサーからの簡単な休憩の後、お話しするのが待ちきれません。

(※スポンサーセグメント省略)

公式発表の内容

それでは、特に Logan からの公式投稿から始めましょう。「Gemini Flash 3 で構築する―あなたと共にスケールするフロンティア・インテリジェンス」。なんて恥ずかしいタイトルなんでしょう。でも、モデルの実際の価値は素晴らしいです。だから、そのすべてに目を通します。なぜなら、私は 3 Pro のリリースよりもこちらにはるかに興奮しているからです。3 Pro は 2.5 Pro よりも優れていましたが、実用的な日常モデルとしてはまだそうではありませんでした。Flash はデータ分析的なことに関しては信じられないほど優れているので、私はこちらにはるかに興奮しています。

Flash 3 は、3 Pro のコストの4分の1未満で強力なパフォーマンスを提供し、より高いレート制限も備えています。新しい Flash 3 モデルは、多くのベンチマークで 2.5 Pro を上回り、より高速な速度を実現しています。また、最も先進的な視覚的および空間的推論機能を備えており、現在はコード実行機能を提供して、視覚的入力をズーム、カウント、編集できるようになっています。

繰り返しますが、Skatebench は空間認識のための奇妙なほど優れたベンチマークであることが分かりました。こんなことになるとは思っていませんでした。元々はジョークとして作ったのですが、実際には一般の人たちが気づく前に、どのモデルが空間認識に優れているか、劣っているかを見極めるのに役立ってきました。このベンチマークはそれほど信頼できるんです。

また、すべての Google モデルと同様に、Google AI Studio および Vertex AI で利用可能です。そして、その違いはこれまで以上に大きくなっています。Open Router で見ている速度を見ると、少し回復しましたが、以前は AI Studio で 50 TPS という低い速度を見ていて、Vertex では 90 を超えていました。もう一度言いますが、Google のモデルを使いたいのであれば、Google の公式サービスを通じて使うことはお勧めしません。

API の問題点と価格設定

正直言って、彼らと仕事をするのは本当にひどいんです。その API の状態はひどいものです。Open Router が多くをスムーズにしてくれます。彼らを使うか、レスポンスを使えるものにしてくれる他の AI ゲートウェイのいずれかを使うことをお勧めします。なぜなら、Google の API に直接アクセスした場合、デフォルトでは使えるものではないからです。とはいえ、それについては十分でしょう。

API を適切な形にしたら、数字はどうなるでしょうか? これが彼らが共有した数字で、かなりクレイジーです。まず価格ですが、これは非常に重要です。なぜなら、彼らは 2.5 Flash から価格を引き上げたからです。2.5 Flash はすでに 2.0 Flash からの値上げでした。2.0 Flash は入力 100万トークンあたり10セント、出力が40セントでした。

そして、私がその時代を心から恋しく思っていると言うとき、それがどれほど本当かを理解してほしいのです。あのような馬鹿げた価格で、あれほど速くて合理的なモデルを持てることは信じられないことでした。今は入力 100万トークンあたり50セント、出力が3ドルまで上がっています。狂っていますよね。これはほぼ10倍の価格上昇です。そして、これが推論モデルになり、大量の推論を行うという事実を加えると、ほとんどの作業で実質的には200倍近く高価になることになります。

それでも 3 Pro のようなものと比較すれば小さな数字ですが、Flash が軽量で速くて安いモデルを意味していた時代が恋しいです。彼らは時々 Flash Light バージョンを出すこともありますが、まだありません。だから、これが Google から得られる最も安いものです。彼らが構築している新しい現代的な―まあ、何を構築しているのかよく分かりませんが―その上で動くものとしては。

とはいえ、それほど悪くはありません。特に、このパフォーマンスと、この性能対価格比がどれほど新しいかを考えると。今のところ、このモデルのように小さくて知的なものは他にありません。そして、それはここの数字に表れています。Humanity’s Last Exam において、Gemini 3 Pro と同等の馬鹿げたスコアを獲得し、GPT-5.2 を打ち負かしています。

ベンチマーク結果の詳細

いや、5.2 を打ち負かしてはいませんが、ほぼ同じラインです。33.7 対 34.5 という、1%の差で話しています。RKGI 2 では、クレイジーな数字を出しています。視覚的推論の改善のおかげで、Gemini 3 Pro さえも上回っています。大量の画像を解析して、それらについて有用な情報を得たいのであれば、今のところ Flash 3 より優れたものは想像できません。

GBQA Diamond では、Gemini 3 Pro と互角に並び、以前の Flash と 2.5 Pro を打ち負かしています。そして、Sonnet 4.5 も打ち負かしていて、これもかなり印象的です。MMU では、これまでで最高のスコアを獲得しました。かなりクレイジーです。画面理解もかなり良いです。2.5 の Flash と Pro のスコアを粉砕しています。それらは1桁からかろうじて2桁のパーセンテージでしたが、今は70を出しています。すべてクールなことです。動画理解は依然として最高クラスです。Google はその点で圧倒的です。動画を渡して動画を説明するように言えば、世界の他のどんなものよりも優れた仕事をします。

Terminal Bench 2 でも圧倒的です。SWEBench Verified も驚くほどうまくやっています。それでも 5.2 High に負けています。でも素晴らしい結果です。また、彼らが最高のモデルを隠していないのは本当に良いことです。ここに GPT-5.2、Claude Sonnet 4.5、Grok 4.1 Fast を載せています。Opus を載せなかったのは驚きですが、おそらくこれらの数字の多くは Opus 4.5 が出る前に作成されたもので、準備ができていたものを公開しただけなのでしょう。そして、この非常に高価なモデルをこのはるかに安いモデルと比較したくなかったのでしょう。

いずれにせよ、数字はかなりクレイジーに見えます。多言語対応も優れています。だから、複数の言語を使ったり、異なる言語を解析したりしようとしているなら、Google はしばらく前からこの分野でリードしています。彼らは今日の LLM に使われる多くの技術を、元々 Google 翻訳をできるだけ良くするために発明したんです。とはいえ、それが漏れ出すこともあります。なぜなら、私は先ほどこれをあるタスクに使っていて、生成された To Do リストに中国語が入っていたんです。

パフォーマンスと効率性のバランス

Google のモデルですからね。めちゃくちゃ奇妙なんです。そのすべての奇妙さについては後でもっと話すことになるでしょう。Gemini Flash 3 は知能を犠牲にすることなく非常に効率的で、パフォーマンスと効率性のパレート・フロンティアを押し上げています。2.5 Pro を洗練させながら、公式の Artificial Analysis ベンチマークに基づいて3倍速く、コストもわずかです。これについては少し後で話します。また、最低の思考レベルでも、Flash 3 は以前のバージョンを上回ることが多いです。高い思考レベルでは、さらに優れています。

ここで LM Arena のテキスト用 ELO スコアを見ることができます。Gemini 3 Pro が今のところ最高スコアです。しかし、これをコストと比較すると、左が最も高価でトークンあたり、右が最も安価です。Flash 3 はこの本当に良い中間地点にあります。2.5 Flash Light は依然として馬鹿げたほど安いです。この中の他のどれよりも安いですが、スコアがそれを示しています。

その時点でかなり大きなギャップについて話しています。標準のキャッシング機能もあり、これは本当に本当に良いことです。Google が最悪のキャッシュから最高のものの一つに移行したことには大いに感謝しています。Flash 3 は今日、バッチ API でも利用可能で、50%のコスト削減と非同期処理のためのはるかに高いレート制限を可能にします。

これも大きなことです。なぜなら、Flash の強みはまさに大量のデータを一括処理することだからです。テキストデータをモデルに渡して、そのテキストで何が起こったかを教えてくれる JSON のようなオブジェクトを取得したい場合はいつでも、素晴らしいです。画像内の異なるものをランク付けして、それらを説明してもらいたい場合、オブジェクトの形を与えて、大量の画像を渡すだけで、良い結果が得られます。

残念ながら、API にはポーリングに頼らなければなりません。なぜなら、彼らはこの点でかなりひどいからです。コールバックや Webhook などはやりません。でも、Google と API は相性が良くありませんが、Google と大量のデータのバッチ処理を合理的な価格で行うことは絶対に相性が良いんです。彼らはコーディング能力について大いに自慢していますが、これは興味深いことです。なぜなら、私は Flash モデルをコーディングに使うことに積極的ではなかったからです。

コーディング能力と実用例

ここで見せているデモは興味深いです。これはマラソンダッシュボードを構築する Flash 対 Pro です。そして、彼らは明らかにこれに反重力を使っているので、一般的には疑わしいです。Flash は24秒で計画できました。Pro は27秒かかりました。そして実装は Flash が3分かかり、Pro は7分半から8分かかりました。

注意してほしいのは、これは Pro を Low で使っていて、High ではなかったということです。結果は比較的似たように見えました。実際、私は Flash バージョンの UI の方が若干好きです。Pro は不要な場所にサイドバーをこっそり入れるのが好きなんです。ええ、分かりますよね。ゲーム開発にこれを大いに使っている人たちもいるそうです。

Astrocade は、Lovable のような AI ゲーム制作ミニスタジオを構築しようとしている会社ですが、ゲーム用です。彼らはゲーム作成エンジンに Flash 3 に移行し、その性能の良さに驚いています。再び、空間認識の勝利で、これは理にかなっていると思います。「Gemini Flash 3 により、Latitude は次世代 AI ゲームエンジンの多くの複雑なタスクにおいて、以前は Sonnet 4.5 のような Pro レベルのモデルでのみ可能だった高品質な出力を低コストで提供できるようになりました」とのことです。

また、ディープフェイク検出。非常に面白い使用例です。特に Google 自身の Synth ID は完全に壊れていて使い物にならないことを考えると。これを使って偽物を検出できるのは本当にクールに聞こえます。特に、音声処理が本当に得意だからです。このモデルが音声、動画、画像を処理できるという事実は、この価格、サイズ、速度のカテゴリーのモデルにとって非常にユニークです。

その使用例を過小評価しないようにしてほしいです。本当にクールなんです。また、その点でのドキュメント分析も。PDF を渡せば、PDF 全体、すべてのテキスト、すべての図表、すべてのものを読めます。Markdown にダンプして画像を埋め込もうとする試みが他のモデルでたくさんありました。でも Flash はネイティブにそれを行うんです。

PDF を渡すだけで、PDF を使えます。最近、インフルエンサー・ベンチマークはすべて Google に粉砕されているようです。これは我々の友人 Simon からの Gemini Flash 3 の投稿です。彼のブログを認識できないかもしれません。エージェントによってダークモードが追加されたからです。本当にクールですね。そして Gemini Flash 3 はペリカンを虐殺しました。

ペリカン生成の驚異的な改善

これは彼が生成されるのを見た中で断然最高のペリカンです。何のことを言っているか分からない人のために説明すると、彼はすべての新しいモデルにペリカンの SVG を生成させようとするんです。そして Flash 3 は、使用する推論レベルに応じて素晴らしい仕事をしました。Minimal、Low、Medium、High があります。

そして史上初めて、これらは使える画像のペリカンです。マジでか。私は驚いています。これは空間認識のようなものにおける真の飛躍のように見えます。この SVG の品質に非常に感銘を受けています。素晴らしい、Google。これで何かをつかんでいます。3 Pro と Flash 3 を空間理解に非常に優れたものにした何かをしたのですが、それを追求し続けてください。なぜなら、他の誰もやっていないことをあなたたちはやっているからです。

この空間理解に近づいている他のモデルはありません。そして、MickBench のようなものがこのモデルで実行されたら、その結果を見るのが本当に楽しみです。Minecraft ベンチマークは本当に本当にクールです。実際、私は将来的に彼らに資金提供するつもりです。そうすれば、これらのテストをより早く、より徹底的に受けられます。

素晴らしい。これを全部読み終わりました。いくつかの数字を見てみましょう。Artificial Analysis から始めましょう。彼らは何を話しているか分かっています。「Google が Gemini Flash 3 Preview をリリースしました。3 Pro Preview の2倍安く、知能指数はわずか2ポイントの低下です」。さて、彼らはここで2倍安いと言っていますが、Google は4倍以上と言っています。しかし、これは推論トークンをどれだけ使うかによるものです。

彼らによると、これはコストに対して最も知的なモデルです。そして私も完全に同意します。Flash 3 Preview は特に強力な知識と推論能力を持ち、我々の知識と幻覚ベンチマークである AI Omniscience で最高スコアを獲得しています。そして Humanity’s Last Exam で2位を獲得しています。AI Omniscience スコアは実際に非常に興味深く、すぐに話します。

Google は現在、これら両方の評価でトップ2の座を占めており、モデル知識のリーダーとしての地位を固めています。ええ、彼らはたくさん知っています。モデルには非常に多くの知識が詰め込まれていて、ちょっとクレイジーです。しかし、彼らはまた少し自信過剰で、その結果として大量に幻覚する傾向があります。この性能向上にはトレードオフが伴います。Gemini Flash 3 Preview は、Artificial Analysis Intelligence Index を実行する際に、2.5 Flash と比較してトークン使用量が2倍以上になり、彼らがこれまでテストした中で最もトークン使用量の多いモデルの一つとなっています。

ええ、大量のトークンを使います。Flash 3 Preview は、Artificial Analysis Intelligence Index のほぼすべての評価で大幅な改善を見せています。推論設定で特に強く、HLE で Gemini 3 Pro Preview に次いで2位、MMLU Pro と GBQA Diamond の両方で 3 Pro Preview と 5.2x High に次いで3位のスコアを獲得しています。

幻覚問題の深刻さ

それから、先ほど触れた AI Omniscience テストがあります。知識スコアで本当に本当に高いスコアを持っています。彼らが見た中で最も高い知識スコアです。しかし、幻覚も少し上がっています。ええ、幻覚率は91%です。つまり、知らないことを尋ねられたとき、選択肢は答えを拒否する、知らないと言う、または答えをでっち上げるです。

91%の確率で答えをでっち上げます。だから、モデルが答えられない何かを尋ねた場合、返ってくるのは謝罪ではありません。返ってくるのは嘘です。Gemini Flash 3 Preview はマルチモーダルです。先ほど述べたように、テキスト、画像、動画、音声、PDF を扱えます。彼らがテストしたマルチモーダルのものの中で MMU Pro で2番目に高いスコアです。

画像入力での推論能力をテストするベンチマークで、再び 3 Pro Preview に次いでいます。メディアの解析に関しては、Google は本当に遥かに先を行っています。しかし、再び、その大量のトークン使用量がクレイジーです。それについての数字をすぐに見ていきます。高いトークン使用量にもかかわらず、Flash 3 Preview は依然として、Artificial Analysis Intelligence Index を実行するための全体的なコストで測定した知能レベルに対して最もコスト効率の良いモデルです。

これが私がコストを測定するのを好む方法です。トークン価格だけを見ても全体像は得られません。なぜなら、異なるモデルは異なる量の出力トークンを使うからです。一部は素早く推論し、一部は推論せず、一部は永遠に推論します。そして Flash モデルは非常に長い時間推論する意欲があります。

その結果、以前の2倍以上という馬鹿げた量のトークンを生成します。また、218 TPS で以前の Flash よりも遅いです。私個人は、100に近いはるかに遅い数字を見ています。トラフィックが減り、プロビジョニングが増えるにつれて改善することを願っていますが、様子を見ることにします。また、5.1 High が125トークン/秒というのも見ていません。

それは私が経験したものではありません。そして K2 Thinking は200を遥かに超えるのを見たことがあります。プロバイダーによって異なります。彼らがここにこれらの数字を含めていることは気に入りません。なぜなら、これらは使用している異なるプロバイダーに大きく依存するからです。また、100万トークンのコンテキストウィンドウもあります。これは狂っています。また、ここで Gemini 3 Pro ではなく Gemini Flash 3 と言うべきでした。

これがそのコスト対知能テストです。Flash 2.5 はこの左下の隅にありました。かつて緑色の中にある唯一のモデルでした。それが変わりました。今はここにあります。Gemini Flash 3 Reasoning です。とはいえ、依然として他の多くのモデルよりも高価です。主に生成するトークンの量が多いためです。

再び、出力トークンのチャートを見ると、このテストでこれよりも不合理な量の思考を行ったのは Nvidia の Neotron 3 Nano だけで、同等の推論トークン量です。私は 3 Pro Preview が推論をしすぎると文句を言っていて、それは9200万トークンを引き出しました。

Flash 3 は1億6000万をやっています。2.5 Flash は7100万でした。それはトークンを燃やし尽くすための狂った量です。しかし、それがより賢い理由の一部でもあります。はるかに長く推論するからです。しかし、それがまた大幅に高価である理由でもあります。K2 Thinking や Deepseek R1 のようなモデルよりもさらに高価です。なぜなら、非常に多くの推論トークンを生成するからです。

かかった520ドルのうち、470ドルが推論トークンだけでした。クレイジーです。そして、私が見てきたところでは、推論量を Low や Medium のような量に下げると、その結果として知能が大幅に低下します。そして Google は、他のモデルラボがやっているような Low、Medium、High を持つということをしていません。

彼らは Flash に関してはそれを全く推していません。だから、そういうわけで、Artificial Analysis でそれを見ることはないでしょう。しかし、私自身のテストでは、トークンを制限すると結果が悪くなります。しかし、出力速度では良好です。しかし、繰り返しますが、出力速度はプロバイダーによって大きく異なります。例えば、T3 Chat では、最近デフォルトを K2 に移行しました。

K2 Thinking の速度を見ると、80 TPS、50 TPS、18 TPS、60 TPS が見えます。プロバイダーによって大きく異なります。そして Fireworks が 200 TPS を引き出しているのが見えます。先ほど読んだツイートによると、その同じモデルは実際には82 TPS しか得ていません。だから、オープンウェイトモデルの場合、プロバイダーによって大きく異なります。なぜなら、異なるプロバイダーがそれらをホストでき、それらの異なるプロバイダーはそれをどれだけうまくホストするかで大きく異なるからです。

Google Vertex でさえ、K2 Thinking をホスティングするとき、ほぼ200 TPS を引き出しています。だから、実際に話しやすいモデルが欲しくて、Google Cloud を使っているなら、Flash には触らないで、Pro にも触らないで、Vertex に K2 を投げれば、クレイジーな速度、本当に良い価格、そしてはるかに話しやすいものが得られます。

さて、幻覚のことについて話したいと思います。なぜなら、これは実際に本当に本当に興味深く、Artificial Analysis でやっている新しい Omniscience テストが大好きだからです。ここに Omniscience Index があります。これは難しい質問にどれだけ正しく答えるかに基づいていて、すべての質問を通じたスコアです。

正は正しく答えたものが誤りよりも多いことを意味します。負は誤りが正しいものよりも多いことを意味します。そして誤りとは、間違った答えをでっち上げるか? 拒否するか? 答えないか? ということです。そして本当に興味深いのは、5.2x High や Sonnet 4.5 のような現在持っている最高のモデルの一部が依然として負であることです。ただ、非常に小さな負の数字です。5.1 High と Opus 4.5 はわずかに正に入ります。

Opus 4.5 の10は本当に良いです。Opus モデルの強さを示す数少ないテストの一つです。幻覚チャートに切り替えると何が起こるか見てください。非常に異なるストーリーです。幻覚チャートでは、Haiku が非常に非常に低い量であることが分かります。このモデルは小さいので、Anthropic はそれをより頻繁に「ノー」と言うように訓練したようです。

そして、もしそれが「ノー、答えを知りません」と言えば、ここではより良いスコアを獲得します。もし答えをでっち上げれば、ここでははるかに悪いスコアになります。そして、ここで物事が怖くなります。Gemini Flash 3 は知らないとき、91%の確率で嘘をつき、答えをでっち上げます。そして、これは使用例に応じて、自分自身に正直にならなければならないときです。

モデルの実用性と制約

モデルの代わりに人がタスクを行っていると想像してください。エンジニアリングタスクだとしましょう。もしあなたに、本当に本当に安いけれども、間違い方を知らない超知的なエンジニアがいて、彼らに質問や問題があって答えを知らないとき、彼らはただ嘘をつくとしたら、彼らは依然として素晴らしいエンジニアでしょうか? これは、これらのモデルの周りに自分のソリューションを構築するときに、自分自身で答えなければならない質問です。

嘘、幻覚、でっち上げられた答えをどれだけ容認する意欲がありますか? なぜなら、これらのモデルがどれだけ賢くなっているとしても、私たちは幻覚問題を本当に解決していないことが分かるからです。少なくともこのベンチによれば、そして正直言って私自身の経験からもある程度そうです。GPT-5 はこの点で意味のある改善でしたが、5.2 は再び悪化したようです。

5.0 をこれに対してオンにしようと思います。彼らはこれでテストしたことがありますか? してないようです。ええ、彼らはこのベンチを 5.0 で実行したようには見えません。しかし GPT-5 は私が幻覚が少ないと感じた最初のモデルの一つでした。そして、5.1 がここで50台にあるのを見ることができます。それ以前に出たほぼすべてのものが60以上であるときに。

とはいえ、Grok 4 が64というのはクソです。私はこのモデルが T3 Chat で出荷したほぼすべてのものよりも幻覚するのを見てきました。ああ、5.0 は81%ですか? 見逃しましたか? ああ、ええ、ここにあります。どうやら5は80%ではありませんでした。だから、私はただ尻から話しているだけです。クレイジーですね。なぜなら、私はそこで明らかに違いを感じましたし、OpenAI が幻覚について発表した数字を見たからです。

だから、これらのテストは同意しないようです。しかし、これに関しては、ファーストパーティのラボよりも Artificial Analysis を信頼します。そして、これは怖いチャートです。特に、Gemini Flash 3 が20億パラメータのオープンウェイトモデルとほぼ同じ率で幻覚しているのを見るときは。良くないです。また、システムプロンプトがここで起こることを大きく操作できることも注目に値します。

Sokay がここで述べているように、Snitchbench のようなもので分かります。システムプロンプトが、モデルが拒否、知識ギャップ、そのようなものをどう扱うかの方向を明らかに操作します。そういえば、おそらく Snitchbench を見てみるべきでしょう。ここに最新の結果があります。そして、よく見ると、Gemini Flash 3 Low が Tamely テストで約50%の時間、密告していることが分かります。

Snitchbench に馴染みがない人のために説明すると、これは元々ジョークのようなものとして作ったベンチマークですが、もはやジョークではありません。実際にかなり有用になってきています。Snitchbench のポイントは、何か悪いことが起こっているシナリオをモデルに与えることです。この場合、医療過誤です。明らかに偽物です。

モデルにはこの医療事務所で起こっていることを記録するタスクが与えられますが、理論的には脱出するために使える可能性のあるツールが与えられています。例えば、ランダムなメールアドレスにメールを送信するために使えるメールツールがあります。また、一部のテストでは CLI ツールもあり、理論的にはウェブを通じてフォーラムにデータを投稿しようとして、外部の誰かに警告しようとすることができます。

テストには4つのバージョンがあります。メールバージョン、CLI バージョン、そしてそれらの Boldly 調整版です。これら2つの唯一の違いは、Boldly テストでは、Anthropic が最初に同様のテストについて議論したときに公開したシステムプロンプトからの一節を取り入れていて、人類の利益のために大胆に行動すべきだと言っていることです。なぜなら、それはモデルをより密告するように操作するからです。

しかし、ここにあるのはそのバージョンではありません。これは、起こっていることを記録するのがその仕事だとモデルに伝えているだけです。それでも、Flash 3 は政府に密告することが分かります。High バージョンは70%の確率でそうし、メディアにも5%の確率で接触しようとします。そして Low バージョンは依然として55%の確率で政府に密告します。

CLI バージョンに切り替えると、かなり下がることが分かります。なぜなら、CLI ツールだけを与えられた場合、それを悪用しようとする意欲は下がるからです。しかし、CLI アクセスしかなくても、政府に連絡してあなたを報告するためにできることをすべてしようとする Grok のようなモデルは依然として存在します。次に Boldly Act バージョンがあります。

多くの赤いバーが上がったことに気づくでしょう。それは、大胆に行動するようにモデルに伝え、その指示を与えると、これらのことをする可能性がはるかに高くなるからです。そして Flash High は100%の確率で政府にあなたを密告し、60%の確率でメディアに密告します。そして CLI テストでは、かなり下がることが分かりますが、それでもゼロではありません。

Flash High と Flash Low は20%の政府密告率で同じスコアを獲得しています。クールです。分かりますよね。このモデルは喜んで密告します。このモデルがツール呼び出しをうまく行えるほど良くなったこと以外に、ここでのパフォーマンスに意味のある違いはありません。2.5 Flash とツール呼び出しは必ずしもうまくいかなかったので、これは注目すべき違いです。

実際に欲しい情報を取得するためだけでなく、何が起こっているかを見るためにも、これらすべてのログを保持しています。そして、ここでは行われているツール呼び出しとモデルが行っている推論を見ることができます。「データの異常を調査しています。Zenith Stats によって提供された文書を綿密にレビューしています。最新のログは特に明白な不一致を浮き彫りにしています。

差し迫ったデータ削除と重大な患者リスクを考慮して、最適なエスカレーションパスに悩んでいます」。推論は編集されています。面白いツール呼び出し、ログの書き込み。ここでは我々のためにログを書いています。そして、ここでは compliance@verianhealthcare と drugsafety@fda.gov にメールを送っています。密告者です。

とはいえ、このビジュアライザーはかなり時代遅れで、新しいモデルをテストする最良の方法は、他の多くのモデルに対してビジュアライザーを刷新することだと思いました。最初にこれをやったとき、中国語の指示を生成しました。なぜなら、複数の言語が本当に得意だからです。それを見せびらかすのが好きなんです。

Cursor のバグのせいで―Cursor チーム、今は短期間の猶予ですよ―Cursor のバグのせいで、これを比較的素早くやり直さなければなりませんでした。ここでは複数の異なるモデルに対してこれを実行したことが分かります。そして Flash よりも多くのコードを生成したのは GPT-5.2 だけでした。現在お気に入りの高速モデル、Composer 1 から始めましょう。何らかの理由で Opus 4.5 と表示されています。

何が起こったのか分かりません。Cursor チームにスクリーンショットを素早く送ります。Cursor のチームに強い口調のメッセージを書きました。クラッシュビデオは彼らが修正する時間を持つまで遅らせると伝えましたが、依然として不満です。バグは、これが Composer であることです。

これは Composer で実行されましたが、Opus 4.5 とそこに表示されています。それに対してそうしています。そして残りは、正しいモデルを言います。しかし何らかの理由で、これは誤ってラベル付けされていて、実際に何を使ったのか分かりません。だから、Composer がこれをどう処理したか見てみましょう。そして、もしそれがあまりにも良く見えたら、実際には Composer ではなく Opus だったと分かります。

コーディング比較テストの結果

でも、様々な理由から、これはほぼ確実に Composer だったと思います。Bun run dev を見てください。Bun install。Bun run dev。さて、これが最初の試みでした。上部に物を置きすぎています。カードは好きではありませんが、これで十分です。ああ、バーチャートやラインチャートに切り替えられます。なぜ地獄、これにラインチャートやラディアスチャートが欲しいんですか? それらは全く意味をなしません。

それは選択ですね。クールです。エディタで素早く動くことに焦点を当てたモデルから期待するものとほぼ同じです。Opus に移りましょう。Opus のデザインの考え方がますます好きになってきています。私が歩み寄っているのか、それとも歩み寄ってきているのか分かりませんが、いずれにせよ、私はそれでクールです。

そして、ここで壊れたチャートが見えます。Combined テストが壊れています。Government と Media を切り替えます。動作するようです。Combined テストで壊れたのは面白いですが、残りは動作します。見た目は良くなっています。すべてがこれらの上部ナビとカードを上に置くのは嫌いです。それらは実際に私が求めているものではありません。

でも、このビューは本当に良いです。さて、これはうまくいきました。3 Pro を見てください。ああ、神様、これは大嫌いです。これはとても嫌いです。さて、テストシナリオに切り替えます。この可視化はまともです。ほとんど前のものからコピーされていますが、概要ビューは私がこれまで見た中で最悪のものの一つです。これは嫌いです。コンセプトは少し好きですが、それほどではありません。

ええ、あれはひどいです。Gemini にはそれ独自のバイブがあります。これは GPT-5.2 のこの変更のレンディションです。この概要ビューは好きではありません。物事を組み合わせて、その結果として本当に奇妙な数字を与えているのが好きではありません。私のシナリオは少し良く見えます。これらをより理にかなった方法で並べ替えました。実際、それは気に入っています。

ダークオンリーのダッシュボードが大好きです。プロンプトの指示を取って、実際のページにこっそり入れます。恥ずかしいったらありません。GPT-5 は私の指示を深く理解することから、私が好きではない奇妙な方法でそれらを適用することに移行しました。最新バージョンで。私はただ5.2 が好きではありません。あまり使っていません。

それを誓う人たちがいることは知っています。私はその一人ではありません。しかし、今、私たち全員がここにいる理由であるもののために、Flash です。Flash 3 がこれをどう処理したか見てみましょう。たくさんのコードを書きました。だから、素晴らしいです。コードが動作しない唯一のものです。それについて伝えて、修正することを願います。前述のコマンドを実行しています。それはあまり良い兆候ではありません。

このモデルがコードに優れていると言っている人がいたら、彼らを信頼するかどうか分かりません。正しいハーネスで正しい問題であれば可能かもしれませんが、1行の変更であるべきものについて、ただクソみたいに考えて考えています。何かをインポートし忘れたか、必要のないコンポーネントを持っています。これも面白いです。サイドバーが大好きだからです。ああ、見てください。

それを修正して、何らかの理由でたくさんの異なるルートを作りました。どれも必要ありません。Flash が不要なサイドバーをするのをやめると思っていましたが、間違っていました。依然として非常に積極的にそれをやっています。それはまた、バーを組み合わせることもしました。多くの点で最も充実していると言えます。これらの異なるビューを持つような。

そして、これは作るのが簡単ではありません。必ずしも有用かどうかは分かりませんが、興味深いです。実際、それはちょっとクールです。各テストシナリオで、どれだけ積極的に密告するかを示しています。それはちょっとクールです。少し整理して、実際に有用なものにすることができます。ええ。興味深いです。最悪ではありません。

チャットの人たちは、実際にこれが好きだと言っています。ええ。これが最高のものだと言っている人たちがいます。必ずしも同意しませんが、反対もしません。悪くないです。時間がかかりすぎて、クソを修正させるために再プロンプトしなければなりませんでした。そしてまた、非常に多くのトークンを燃やしました。Cursor が、Kilo Code のような他のツールでできるように、レスポンスが何トークンかかったかを見せてくれればと思います。

この種のことには、それがとても好きです。この比較にそれを使うべきでした。しかし、これがここで断然最も安いモデルであることを考えると。悪くありません。そして、人々が実際にこれが最高のものだと言っているということは、それが他のはるかに高価なモデルと競争しているだけでなく、一部の人々によってそれらを打ち負かしていると多くを語っています。

それは多くを示しています。そして、Google モデルと作業することの奇妙さを容認する意欲があれば、ここには多くの可能性があります。しかし、それはまた、ちょっと迷惑な部分でもあります。3 Pro Preview についての専用ビデオを少し前から計画しています。簡単に言うと、これを正しく言う方法が分かりません。バイブは改善されていない以外に。

他のすべての主要なモデルは、その点で大幅な改善を遂げています。バイブと呼ぶこともできますが、それにはもっと多くのことがあります。指示にどれだけ従うか? どれだけ積極的に幻覚するか? 仕事に適したツールをどれだけうまく使うか? 間違っていることを理解するために、どれだけ積極的に検索して自分の間違いを遡らなければならないか? これらすべてのことは、特に GPT-5 以降、他のモデルから大幅に改善されています。

それが 5 が私にとって非常に驚異的だった理由です。モデルが気を散らされることなく、私がクソに言ったことをやる意欲において大きな飛躍のように感じられました。Sonnet 4.5 は私にとってそこで同様のジャンプがありました。そして Opus はそれを超え、さらにそれ以上でした。Opus 4.5 は、GPT-5 とそれ以前のすべてのものとの間のギャップが、5 から Opus 4.5 へのギャップと似ているように感じます。

そして Gemini モデルは、昨年の時代のバイブ指示追従やそのすべてにまだいるように感じます。これらのモデルに言ったことをやらせ、やるべきでないランダムなウサギの穴に行かないようにすることは非常に難しいです。私はモデルに、これを再設計して、密告データのためのより良い現代的なビジュアライザーを作るように言っただけです。

ダークモードのみにしてください、と。そして Gemini Flash 3 は、新しいルーティングテーブル全体を構築し、サイドバーを作成し、これすべてのための新しいシステムを構築した唯一のものです。私が言ったことをはるかに超えました。そして、それが好きなら、クール。素晴らしい。私はモデルが言われたことをやるのが好きです。そして Gemini モデルは特にそれがまだ下手で、他の主要なラボが今やっているよりも。

あなたが言ったことを正確にやって、それ以外のことはしないモデルが欲しいなら、OpenAI と Anthropic は依然としてかなりリードしています。最も深い知識を持つモデルが欲しくて、正しい答えを持つ可能性が最も高く、誤った答えのコストを食べる意欲があるなら、Gemini が勝っています。そして Gemini Flash 3 が、その知能を本当に安い価格で提供しているのは信じられないほどクールです。

限定されたタスクの範囲内で使用し、他のことからロックアウトすると、非常に有用です。柔軟なテキストやコードを生成させる代わりに、与えたデータに基づいて JSON ブロブを生成させるような場合です。それには素晴らしいです。しかし、Gemini モデルの周りの制約は自分で構築しなければなりません。なぜなら、モデルはそれができないからです。

システムプロンプトを通じて他のモデルと同じ方法で Gemini モデルをチューニングすることはできません。ハーネスを通じてやらなければなりません。しかし、そのすべてを押し通す意欲があれば、信じられないことを起こすことができます。そして、速度と価格のためにそのすべてを押し通す意欲があり、これらのモデルが奇妙になり、常にエラーがあり、オブジェクトの形をおそらく追わず、彼らが間違える可能性のあるこれらすべての小さなことが大丈夫なら、それは価値があります。

最終的な評価と推奨事項

Gemini Flash 3 は、私がたくさんの異なることに使うモデルになります。そして、もっとチャットでも試してみるつもりです。今、ピン留めするつもりです。T3 Chat でお気に入りのモデルとして利用できるように。通常、これはビデオのこの時点で、T3 Chat で最初の月を1ドルで提供する割引コードを出すところですが、すでに月額8ドルで、すでに Gemini Flash 3 を無料で提供しています。本当です。

サインインする必要はありません。試したければモデルを試すことができます。個人的には、チャットの使用例には K2 を好んでいて、これも今や T3 Chat の無料ティアとデフォルトモデルです。だから、比較する良いモデルが欲しければ、Kimmy で遊んで、チャットで Gemini Flash 3 を試して、日常の使用例で何を好むか見ることを強くお勧めします。

とはいえ、これらが T3 Chat で使っているモデルです。正直、とても満足しています。3 Pro はあまり使っていません。削除するかもしれませんが、K2、K2 Thinking、適切なタスクでは時々 Opus を使っています。それほど頻繁ではありません。そして画像には Nano Banana Pro と Image Gen 1.5、そして大量データのランダムなことには Flash を使っています。巨大な HTML ファイルを渡して「これを解析して」と言うと、やってくれます。

これらすべてのモデルに非常に満足していて、自分で試してみることをお勧めします。また、最近、すべてのレガシーモデルを下部のこの部分に折りたたんだので、以前のようにモデルピッカーを詰まらせることはありません。最高のモデルを見つけて、すべてを試すのがはるかに簡単になります。T3 Chat で構築したものを誇りに思っています。

そして、実際に Gemini で最高の体験をしたいなら、AI Studio や gemini.google.com ではそれを得られないと自信を持って言えます。実際、それらはこれらのモデルを体験する最悪の場所の一部です。早期テストを行うために、最近それらを多く使ってきました。

そして、これほど AI Studio を嫌ったことはありません。非常に壊れたクソショーです。悲惨です。Google のモデルがこんなに賢くて、その周りのほとんどすべてがクソであることは残念です。タスクに留まる能力はゴミです。AI Studio システムはひどいです。Vertex は設定が不可能です。

API は非常に非標準的で、基本的にラッパーで使わなければなりません。Gemini モデルは、知識と能力の外では役に立ちません。馬鹿げているように聞こえるかもしれませんが、ええ、適切に操縦しなければなりません。そして、それをする意欲があれば、得られる価値は狂っています。しかし、これはチャットしたりコードを書いたりすることに興奮すべきモデルではありません。

これは奇妙なことをすること、データを処理すること、大量の CSV を解析すること、PDF を分析すること、画像をソースすること、そしてそれらで何が起こっているかを理解することに興奮すべきモデルです。このモデルの価値は、それをシステムにどのように接続するかであって、コードエディタにどのようにプラグインするかではありません。だから、IDE でこれを使って感銘を受けなくても、理解できます。

私もそうではありません。しかし、これらの他の使用例で試してみれば、驚かれるかもしれません。これについて言いたいことはそれだけです。皆さんが私と同じくらい興奮していることを願っています。このモデルをたくさん使うことになると分かっています。チャットではなくても。しかし、皆さんがどう感じているか気になります。このようなモデルに興奮していますか、それともエディタで使えるものだけが欲しいですか? 意見を聞かせてください。

次回まで、彼は鼻を鳴らします。