Gemini 3.5 Flashが酷評されている(そして彼らが世に出した最高のものを誰も話題にしていない)

Google・DeepMind・Alphabet
この記事は約19分で読めます。

本動画は、Google IO 2026の基調講演で発表された主要なAI関連プロダクトを網羅的に解説するものである。Googleが最も大々的に推した Gemini 3.5 Flash がコストと品質の両面で開発者コミュニティから酷評される一方、ほとんど話題になっていない動画生成・編集モデル Gemini Omni がほぼ満場一致の称賛を集めているという逆転現象を軸に据える。さらに、開発環境 anti-gravity 2.0、常時稼働型エージェント Gemini Spark、Workspace 連携、ユニバーサルカート、スマートグラス、検索の AI モードなどを取り上げ、ベンチマーク数値の華やかさと実際の使用感とのギャップ、そして専門家たちの賛否を冷静に整理していく。誇大宣伝にも懐疑論にも流されず、いま実際に使えるツールに焦点を当てよという実践的な結論で締めくくる内容である。

Gemini 3.5 Flash Is Getting ROASTED (And Nobody's Talking About the Best Thing They Shipped)
Link to our newsletter: I/O 2026 just dropped a wave of AI announcements — Gemini 3.5 Flash, Gemini Omni, Antigravity 2....

はじめに:IO 2026を見たあなたが今抱えている疑問

Google IO 2026の基調講演をご覧になって、Gemini 3.5 Flashに本当に乗り換える価値があるのか、それとも使った瞬間に崩れ落ちる、また別の派手なだけの発表なのか、迷っているところではないでしょうか。私はここ数日間、ベンチマーク、開発者フォーラム、そして初期の実地テストを片っ端から掘り下げてみました。すると、ちょっと意外なことが見えてきたんです。Googleがいちばん力を入れて宣伝しているモデルが、実はコミュニティからいちばん愛されていない。そして、誰も話題にしていないモデルが、今年彼らが出したものの中で最高かもしれない、というわけなんですね。

bitbiased.aiへようこそ。ここでは、皆さんが自分で調べなくて済むように、私たちがリサーチを引き受けています。無料の週刊ニュースレターで、AI愛好家のコミュニティにぜひ参加してください。概要欄のリンクをクリックして登録していただければ、最先端を走り続けるための重要なAIニュース、ツール、学習リソースが手に入ります。

この動画では、GoogleがIO 2026で発表したすべての主要なAIの話題を、ひとつずつご案内していきます。何が誇大に宣伝されているのか、何がちゃんと動くのか、そして何は見送るべきなのか。まずは、みんなが言い争っているあのモデル、Gemini 3.5 Flashから始めましょう。というのも、何が機能するかという話に入る前に、Googleが中央に据えたモデルがなぜこれほど徹底的に叩かれているのかを、まず話しておく必要があるからです。

背景とコンテキスト:IO基調講演を一言でまとめると

IO基調講演全体をたった一語でまとめろと言われたら、その言葉はエージェントです。チャットボットではありません。あなたの代わりに行動を起こしてくれるもの、ということですね。メールの下書きを書く、コードを書く、動画を編集する、買い物をする。Gemini 3.5 Flashはそのエンジンです。そしてGoogleはこれを使って、あなたの一日のあらゆる片隅にAIを忍び込ませようとしています。受信トレイ、ドキュメント、検索バー、ショッピングカート、そしていずれは新しいスマートグラスを通じて、あなたの顔の前にまで。

去年のGeminiは、文字を打ち込んで使うチャットボットでした。それが今では、あなたの代わりに仕事をこなしてくれる存在として売り出されています。それが本当に期待通りに働くのかどうか、これからじっくり解きほぐしていきます。まずはエンジンからです。なぜなら、エンジンがぐらつけば、車全体がそれに合わせてぐらつくからです。

Gemini 3.5 Flash:スペックは完璧、でも評判は最悪

紙の上で見るかぎり、Gemini 3.5 Flashはまさに鉄板の勝ち筋に見えます。100万トークンのコンテキストウィンドウ。短めの小説を一冊放り込んでも、全体を頭に入れたまま扱えます。一度の応答で最大6万5000トークンの出力。テキスト、画像、動画、音声という完全なマルチモーダル入力。速度と推論の深さを天秤にかけられる4つの思考モード、すなわちminimal、low、medium、high。そして、ターンをまたいでモデルの推論状態を保持し、ワークフローの途中で何をしていたかを忘れないようにする思考の保存機能。

ベンチマークもこの誇大宣伝を裏付けています。terminal bench 2.1で76.2%、GDPで1656のEloレーティング、MCP Atlasで83.6%。Artificial Analysisが独立したテストを行ったところ、知能指数55を確認しました。これは前世代のFlashから9ポイントもの飛躍です。速度の主張もとんでもないものでした。同等のフロンティアモデルの4倍速く、anti-gravityの中で動かすと12倍速い。独立したテストでは1秒あたり280以上の出力トークンを記録しています。

ですから、スペックシートだけを読んでいるなら、これは文句なしの鉄板に見えるはずです。ところが、ここからが面白いところなんです。実際の開発者たちが何と言っているかを読み始めた途端、空気がガラリと変わりました。初期のコミュニティの反応のうち、およそ60%がネガティブです。ポジティブなのはわずか20%。そして不満は決まって2つの言葉に行き着きます。コストと品質です。

コストの話がいちばん痛烈に刺さります。バズったあるRedditのスレッドが、その計算を分解して見せてくれました。Flash 3.5は、一対一の知能テストでGemini 3.1 Proよりわずかに低いスコアでした。それなのに、同じベンチマーク一式で、前世代のFlashの約5.5倍のコストがかかるというのです。同じ作業量に対して、おおよそ1552ドル対892ドルといった具合です。つまり、安いからという理由で旧Flashを使っていた人は、わずかな、ときにはマイナスの品質向上のために、いまやプレミアム価格を払わされているわけですね。

品質の側もまた、同じくらいぐちゃぐちゃです。あるユーザーは、応答が前ほど創造的に感じられず、モデルがすぐにコンテキストを見失うと書いていました。別の開発者は、Flashが役立たずと呼ぶしかない提案を出し続けるので、コーディングは完全に旧モデルに戻したそうです。r/Singularityにいた誰かは、Flashシリーズをハルシネーション・マシンガンと呼んでいました。確かに速い、でもナンセンスを記録的なスピードで撃ち続ける、というわけです。

公平を期すなら、全員が怒っているわけではありません。あるAIブロガーは、anti-gravityの中でFlashを使ってWeb UIを動作するAPIエンドポイントに変換し、大した手間もなく実用的な結果を出してくれたと言っています。Reddit上のあるバイブコーダーは、一発で決済アプリを作らせることに成功しました。

ですから、ひとつのパターンがすぐに浮かび上がってきます。きちんと仕様が定まった、範囲の限られたタスクなら、このモデルは輝きます。一方、自由度の高いクリエイティブな作業や、微妙なニュアンスを要する推論になると、つまずいてしまうのです。Googleが3.5 Proバリアントを遅らせたのには理由があります。さらなる調整が控えているということですね。実践的な結論としては、ヘビーユーザーは飛びつく前にトークン消費量に目を光らせること。カジュアルユーザーは、今のところ旧来のティアのほうがうまく使えるかもしれません。Googleがこのローンチから引き出したかった結論ではないでしょうけれど。コメントを残してください。あなたはチームFlash派ですか、それともすでに旧モデルに戻ってしまいましたか。というのも、次に話すものは、まったく正反対の受け止められ方をしているからです。同じ基調講演、なのにまるで違う空気感なんです。

Gemini Omni:誰も騒いでいないけれど最高の発表

その発表というのが、Gemini Omniです。そして、これこそ私を驚かせた一品でした。3.5 Flashが叩かれている一方で、Omniはほぼ満場一致の称賛を浴びています。同じ会社、同じ基調講演、同じ週、なのに受け止められ方はまるで違うのです。

Omniが何かを説明しましょう。Googleのマルチモーダル生成・編集モデルです。そして目玉となる使い道が、会話を通じた動画編集です。映像、画像、音声、何でも放り込んで、文字どおりそれと会話しながらクリップを生成したり編集したりできます。タイムラインをスクラブする必要も、キーフレームも、After Effectsの底なし沼もありません。鏡を液体のように波打たせて、とか、背景を雪山に差し替えて、と言えば、それをやってのけるのです。キャラクターは一貫したまま。物理法則も破綻しません。Googleが行ったデモでは、人物が彫刻のそばを歩いていって、指示を出すと彫刻が泡に変わりました。キャラクターの同一性は保たれ、動きも保たれていました。従来のパイプラインなら、VFXアーティストが丸一日かけてやっていたような編集です。

そして、私にいちばん響いたのがこの部分です。あるAIジャーナリストが、自分の子どもの絵をアニメ化して短い動画にすることでOmniをテストし、それを大成功だと呼びました。IO全体の中でもっとも印象的なデモだった、と。キャラクターは一貫していて、シーンはプロンプトに合致し、そしてただ、ちゃんと動いたのです。AI動画ツールに少しでも触れたことのある方なら、それが普通の体験ではないとお分かりでしょう。普通の体験というのは、不気味な顔、ぐにゃぐにゃの手、そしてコーヒー休憩中の物理法則です。

信頼の層も組み込まれています。Omniの出力にはすべてSynthIDの透かしが入っていて、AI生成だと見分けられるようになっています。ディープフェイクをめぐる議論がこれだけ騒がしくなっている今、これは意味のある一手です。

注意点もあります。まだ展開の途中で、より広いAPIアクセスは近日提供予定とのこと。これはプレスリリースの言葉づかいでいくと、6週間後から永遠に来ないまでの、どこか、という意味です。そして強く使い込めば、やはりアーティファクトは見えてきます。妙な手の動き、ときどきプロンプトから漂い出してしまうシーン。魔法ではないのです。ただ、一年前に私たちが手にしていたものよりは、魔法に近づいた、というだけのことですね。これがまさに、もうひとつの実際に機能しているツールの話につながっていきます。そして皮肉なことに、それは皆が文句を言っているのと同じFlashモデルで動いているのです。

Google anti-gravity 2.0:Flashが輝く場所

そのツールがanti-gravity 2.0です。そしてこれは、焦点が定まり仕様がきちんと整ったタスクを与えたときに、3.5 Flashがどれほど輝くかを示す完璧な実例なんです。去年のローンチは、Googleによるcursorへの回答であり、エージェント型のコーディング環境でした。バージョン2.0は、本気の進化です。新しいデスクトップアプリ、ネイティブの音声コマンド、カスタムエージェントを作るためのSDK。そして内部では、Gemini 3.5 Flashが動いています。だからこそ、コーディングのチャットが目に見えてキビキビと感じられるわけです。

ですが、本当の目玉は速度ではありません。エージェントのオーケストレーションです。デスクトップアプリでは今や、複数のサブエージェントを生成して連携させ、つなぎ合わせ、スケジュールを組み、並列で走らせることができます。Googleは、作業を93個のエージェントに同時並行で分割して、動作するオペレーティングシステムを構築するデモをやってみせました。普通の使い方ではありませんが、アーキテクチャが本物であることを見せつける力技ではあります。

開発者の反応は強気で、その理由は実に実用的です。新しいマイクロサービスを作って、と声に出して言う音声コマンドは、IDEがこれから向かう先を本当に垣間見せてくれる感覚があります。さらにgrill-meという新しいスラッシュコマンドがあって、これは一行もコードを書く前に、あなたの要件を容赦なく問い詰めてきます。あるブロガーはこれをClaudeの確認質問になぞらえて、いちばん試してみたい機能だと評していました。そういう小さな心遣いを見れば、プロダクトチームが実際に自分たちのツールを使っていることが分かりますね。

すべてがバラ色というわけではありません。命名がややこしいんです。Gemini CLIが段階的に廃止されてanti-gravity CLIに置き換わるのですが、GitHubのコメント欄ではこの移行に不満が噴出しています。価格についても不平が出ました。ヘビーユーザー向けの月額100ドルのAI Ultraプランは、趣味でやっている開発者には高すぎると感じられるのです。もっともな指摘ですが、主要なラボはどこもその方向に進んでいます。

開発者が実際にテストしてみると、ちゃんと動きました。chat PRDのブロガーは、anti-gravityにFlashを使ってウェブサイトの管理UIをプログラム的なAPIに書き換えさせ、大した手間もなく実用的な結果を出してくれたと報告しています。ですから、去年のバージョンと比べると、これはエージェントモデルがあなたのワークフローに合うなら、本物の生産性向上になります。今あなたが実際に使っているIDEはどれか、コメントで教えてください。cursor、anti-gravity、claude code、それとも別の何かでしょうか。状況はものすごい速さで変わっています。そして、まだ自分の役割の中に落ち着こうとしているツールといえば、それが基調講演全体の中でおそらくもっとも野心的な発表へとつながっていきます。

Gemini Spark:もっとも野心的な、そして見返りを最も要求するもの

それがGemini Sparkです。これがもっとも野心的なものだというのは、その代わりにあなたへ最も多くを要求してくるからです。売り文句はシンプルです。あなた専用のAIエージェントが、24時間365日、クラウド上で稼働し、Gmail、Docs、Drive、Calendarに接続される。PCWorldの表現を借りれば、これは専用のクラウドVM上で動くので、ノートパソコンを開きっぱなしにしておく必要はありません。Sparkはバックグラウンドで働き続けてくれるのです。

Wiredはこれを、OpenAIのエージェント製品やAnthropicのco-workに対するGoogleの回答だと呼びました。ですがGoogleには、他の誰も持っていない構造的な優位があります。あなたのデータは、すでに彼らのエコシステムの中に住んでいるのです。だからSparkは、あなたの受信トレイを読み、ドキュメントをスキャンし、カレンダーを確認し、あなたが実際に交わした会話から本物の事実を引っ張ってきてメールを下書きできます。Googleの幹部が基調講演でまさにそれをデモして、見事に決まりました。

Sparkへのアクセスは、いくつかの気の利いた方法でできます。文字どおりメールを送ることもできます。Spark自身のGmailアドレスが割り当てられるのです。あるいは、Haloという新しいAndroidのステータスバー機能から呼び出すこともできます。

コミュニティの反応は、ちょうど真っ二つに割れています。AIブロガーの半分はこれを衝撃的だと言っています。あなたのコンテキストをすでに知っている、常時稼働の助手という生産性の夢だ、と。来週火曜のチームミーティングを計画して、と言うだけで、Sparkが空き時間を確認し、招待を下書きし、議題を書き、関連ドキュメントを事前に読み込んでおいてくれる場面を想像してみてください。

もう半分は、もっともな理由で不安がっています。どんなAIであれ、あなたのGoogleアカウント全体への永続的なアクセスを与えるというのは、巨大な信頼の要求です。プライバシー擁護派は、何が記録されるのか、何が学習に共有されるのか、そしてエージェントが避けようもなく指示を読み違えて、間違った相手にメールを送ってしまったらどうなるのか、と警鐘を鳴らしています。Wiredはまた、Sparkがまだ非Google系のツールとは連携していない点も指摘しました。Chromeのサポートは今年の夏の終わりごろに来る予定です。

Sparkは今まさにクローズドテストの段階にあり、来週、AI Ultraの加入者向けに限定的にリリースされます。ですから、反応のほとんどは推測の域を出ません。壮大なビジョン。実行力のほどはこれから、というわけです。ひとつ簡単な質問です。あなたは本当に、AIにすべてのメールを読ませますか。正直な答えを下にコメントしてください。なぜなら、その問いこそが、Sparkが勝者になるのか、それとも誰も使うほど信頼しきれない、また別の見事なデモで終わるのかを決めることになるからです。

Geminiアプリ、Workspace、そしてDaily Brief

これが、あなたがすでに使っているアプリに影響するのかと気になっているなら、答えはイエスです。Geminiアプリは、Neural Expressという新しいインターフェースで顔つきが一新されました。鮮やかなアニメーション、流れを途切れさせずに音声と入力を切り替えられる、よりなめらかな音声チャット。新しい見た目は好評ですが、ほとんどは見た目だけの話です。同じモデルを、より見栄えのいい包装紙でくるんだ、というわけですね。

新しいのは、Daily Briefです。カレンダーとGmailから情報を引っ張ってきて、あなたの一日を要約してくれる、パーソナライズされた朝のダイジェストです。基本的には、ステロイドを打ったGoogle Assistantといったところ。反応はポジティブです。注意点は、自分でオプトインして、広い権限を付与しなければならないこと。そして、それだけのコンテキストを引き渡すことに、もっともな理由でためらいを感じるユーザーもいます。すでにGoogleエコシステムにどっぷり浸かっているなら、これは今週試してみるには摩擦の少ない機能のひとつです。

Workspaceになると、話はもっとデコボコしてきます。Google Pixは、新しいAI画像生成・編集ツールです。ドキュメントやスライドの中でビジュアルのモックアップを作るのに便利です。デモは見事でした。ユーザーテストは別の物語を語りました。あるテスターは肖像画が必要だったのですが、返ってきたのは、あらゆる意味でおぞましいと評するしかないものでした。顔がただただ間違っていたのです。顔は2026年になっても、ほぼすべての主要な画像モデルにとってのアキレス腱であり続けています。そしてGoogle Pixも、それを攻略できてはいません。これはブレインストーミング用のツールとして扱い、完成品を作るツールとは思わないことです。

もうひとつのWorkspaceのアップグレードは、Docs、Gmail、Keepでの音声編集です。あなたが話すと、それが書き起こし、自動的に出典を示してくれます。アクセシビリティ面の勝利です。人々が挙げている懸念は、これが浅い思考を助長するのではないか、というものです。素早い下書きができてしまって、誰も校正しない。オートコンプリートに対して人々が抱いていたのと同じ批判で、これは諸刃の剣ですね。

ひとつ、指摘しておく価値のあるもどかしい点があります。あるブロガーが、ステージ上でデモされたAI Studioのカレンダー連携機能を探しに行ったところ、実はまだ稼働していなかったのです。発表されたことと、実際に出荷されたことの間にあるそのギャップは、このローンチ全体を通じて繰り返し聞かれる不満です。これは、他のすべてについても頭に置いておいてください。

ユニバーサルカート、AIアイウェア、そして検索のAIモード

目玉どころの先には、Googleが基調講演に詰め込んだ、小粒な発表のラピッドラウンドがあります。ユニバーサルカートは、エージェント型ショッピングの一手です。ウェブ全体で商品を見て回り、ひとつのユニバーサルなGoogleカートに追加する。値下がりや他の小売店でのもっとお得な情報についてAIアラートをもらい、ワンクリックで決済する。理屈の上ではかっこいいですね。懐疑の声は、Googleの広告ビジネスは、あなたを自社のエコシステムの中に留めておくことで利益を得る、という点にあります。だから、最安値のおすすめが、必ずしもあなたにとっての最安値とは限らないかもしれない。注目に値しますが、信用する前に自分で確かめることです。

それからインテリジェントアイウェア、新しいAndroid XRグラスです。スマホをテザリングしなくても、リアルタイム翻訳、ナビゲーションのオーバーレイ、ARをこなします。出荷はこの秋。フォーラムの反応は控えめでした。その理由が面白いんです。ウェアラブルなAIビジョンはかっこいい。でも、コメントした全員が口をそろえて尋ねた問いは同じでした。そのグラスは、人前でかけられるくらい普通に見えるのか、と。ここではスペックよりもスタイルが重要で、Googleは歴史的に、コンシューマー向けハードウェアの美的な問いをうまく仕留めてこられませんでした。

そして検索のAIモードです。ローンチから一年で、1億人を超えるアメリカ人が試しました。今回のアップデートでは、検索ボックスの中に生成的なUIが加わります。AIが生成したインフォグラフィック、グラフ付きで要約された記事、あなたの質問に直接答える埋め込み動画。テックファンは大喜びです。ジャーナリストの方は、あまり浮かれていません。GoogleのAI概要がニュースリンクの上に居座ることで、パブリッシャーのトラフィックがごっそり削られてしまうからです。その戦いは、まだ始まったばかりです。

専門家たちは何と言っているか

AIコミュニティ全体での、より大きな議論は、マーケティングよりもずっと鋭いものになっています。強気の側では、あるAIインフルエンサーがそれを二語でまとめました。Googleは戻ってきた、と。デミス・ハサビスは、デモが開発者の生産性にとって衝撃的なほどの可能性を示したとツイートしました。複数のアナリストは、Flashのベンチマークスコアを、Flashモデルにしては正気とは思えない数字だと評しました。つまり、軽量ティアが、去年のフラッグシップにできたことを上回っているということですね。

慎重な側では、サム・アルトマンが鋭い観察を寄せました。Googleの賭けは、チャットボットよりもエージェントにある。それに対する彼の見立てはこうです。ユーザーがどれだけ気にかけるか、お手並み拝見だ、と。これを翻訳すれば、彼はGoogleがユーザーの需要を正しく読めているとは思っていない、ということです。リプライでは反論もありましたが、もっともな問いではあります。

X上のML研究者たちは、もっと技術的な懸念に旗を立てました。Flashの価格設定が、FlashとProのティアの境界線をぼやけさせている、と。あるスレッドはそれを率直にこう表現しました。Flashは高くなりつつあって、Proの領域を飲み込んでいる。これは、Googleが対処しなければならない混乱という名の税金です。

そしてr/machinelearningで最も多くの賛同票を集めたコメントは、おそらくこの議論全体の中で最も役に立つ一文でした。これを誇大に持ち上げすぎるな。もっとデータが出るのを待て。これが、コミュニティが行き着いた地点を言い当てています。慎重ながらも楽観的で、テクノロジー、とりわけ動画とエージェントには感心している。ですが、口で言うな、見せてみろ、という本物のエネルギーをまとっている、というわけです。

最終的な見解と、次にすべきこと

すべてをまとめると、一歩引いて眺めてみれば、絵はかなりはっきりしてきます。Omniは勝ち筋、Flashは論争の的、Sparkはワイルドカード。そしてそれ以外のすべて、Workspace、ユニバーサルカート、グラス、検索のAIモードは、まちまちのスピードで、まちまちの完成度をもって展開されていきます。一部は今日すでに機能し、一部はまだ基調講演のスライドの中のベイパーウェアです。

そこで、実際の作戦プランです。あなたが開発者なら、今週こそ、現実の、焦点の定まったタスクで、anti-gravityの中で3.5 Flashをテストする週です。あなたが今使っているものと比べてみてください。トークン消費量に目を光らせて。基調講演の誇大宣伝ではなく、自分自身のワークフローに基づいて判断するのです。

あなたがコンテンツクリエイターなら、何もかも放り出してGemini Omniで遊んでみてください。Googleが出荷した中でもっとも印象的な動画ツールであり、有料の加入者なら、今すぐGeminiアプリやGoogle Flowで使えます。デモと現実が、無数の但し書きなしで勧められるくらい近い、稀なケースです。

あなたが普通のユーザーなら、Gmailの中で生活しているならDaily Briefをオンにして、検索のAIモードに目を配っておきましょう。あなたがオプトインしようとしまいと、それは情報の見つけ方を変えていきます。

正直な枠組みとしては、誇大宣伝を信じるな。でも、懐疑論のほうも信じすぎるな。今ちゃんと機能するツールに焦点を当てましょう。焦点の定まった開発作業にはanti-gravity。動画にはOmni。それ以外はすべて、数週間置いて、まずは他の人たちにバグを見つけてもらいましょう。3.5 ProとSparkの本格ローンチを楽しみにしていてください。次の章が始まるのはそこからです。

あなたの声を聞かせてください。いちばんワクワクしているのは何ですか。Omni、Spark、それとも私が取り上げた他の何かでしょうか。すでに3.5 Flashを試したなら、正直な感想を下にコメントしてください。ちゃんと動きましたか、それとも旧モデルに戻りつつありますか。この総まとめが、皆さんの数時間分の調べものを省けたなら、ぜひ登録をお願いします。次回以降の動画では、これらのツールひとつひとつの実地テストをやっていきます。本物のワークフロー、本物のバグ、本物の評決を。それでは、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました