Googleが発表したGemini 3は、独立ベンチマークで初めて首位を獲得し、業界に衝撃を与えた。Artificial Analysisの評価では、Gemini 3はGPT-5.1に対して3ポイントのバッファを持ち、10のベンチマークのうち5つでトップを記録している。特筆すべきは、その高いトークン効率であり、同じ問題を解決するために他のモデルよりも少ないトークン数で済むという点である。ただし、料金は100万トークンあたり入力2ドル、出力12ドルと、最も高価なモデルの一つとなっている。Google DeepMindの研究責任者は、スケーリング則が依然として有効であり、Gemini 2.5から3.0への飛躍は過去最大級であったと強調した。また、GoogleはWindsurfのIPを取得して開発したバイブコーディングプラットフォーム「Anti-gravity」も発表した。業界リーダーたちはGemini 3の成功を称賛し、Googleが自社のTPU、膨大なデータ、研究人材、配信ネットワークを活用してAI競争の頂点に立つ可能性が高まっていると指摘している。

Gemini 3が業界トップモデルとして登場
Googleは24時間前にGemini 3をリリースし、業界は強い反応を示しています。間違いなく現時点で地球上最高のモデルであり、これから業界の反応をすべてお見せします。まずは、すべてのトップモデルに対して独立したベンチマークを実施している企業、Artificial Analysisからです。
そうです、Gemini 3がナンバーワンです。彼らの見解はこうです。Googleは初めてリーディング言語モデルを手に入れ、2位のモデルGPT-5.1との間に3ポイントのバッファを持ってデビューしました。そして多くの人々がそのトークン効率について話しています。これは、市場の他のモデルと比較して、同じ問題セットを解決するためにどれだけのトークンを使用しているかということを意味します。
そしてGemini 3は非常に、非常に効率的なのです。しかし同時に非常に高価なモデルでもあります。これを聞いてください。プレミアム価格設定により、20万トークン未満のコンテキストで入力100万トークンあたり2ドル、出力100万トークンあたり12ドルという料金となっており、Gemini 3 Proは私たちのインテリジェンス指標評価を実行する上で最も高価なモデルの一つとなっています。彼らはまた、Gemini 3が10の独立ベンチマークのうち5つでトップを取っていることも示しています。
そして最大の改善点の一つは「人類最後の試験」であり、以前の最高スコアを10パーセントポイント改善しています。Gemini 3はまた、3つのコーディングベンチマークのうち2つでもトップを取っており、エージェント的なコーディングシナリオで極めて優れた性能を発揮し、マルチモーダル推論でもナンバーワンの座を獲得しています。そして非常に高速な毎秒128トークンという速度で動作しており、Gemini 2.5 Proと非常に比較可能です。私は以前から、Gemini 2.5 Proは本当に印象的に高速なモデルだと言ってきましたが、その多くは彼らのカスタムシリコンであるTPU上で推論を実行していることに基づいていると思います。
次の反応に移る前に、Gemini 3に対応した「人類最後のプロンプトエンジニアリングガイド」についてお話しさせてください。これはGemini 3版であり、Gemini 3専用の新しいユースケースと、今すぐ知っておくべきGemini 3の新しい使い方が含まれています。これは私のチームからの無料ガイドです。今すぐダウンロードできます。ニュースレターに登録するだけです。説明欄にリンクを載せておきます。今すぐダウンロードしてチェックしてください。
スケーリング則は健在
次に、スケーリング則の終焉の報告は大いに誇張されていたようです。パラメータをスケールアップし続けるだけで、どんどん良いモデルが得られるようです。これはOral Vinols、GoogleのDeepMindの研究担当副社長でディープラーニングのリーダー、そしてGeminiの共同リーダーからです。Gemini 3の背後にある秘密はシンプルで、事前学習と事後学習の改善です。
想像できますか?事前学習です。スケーリングが終わったという一般的な信念に反して、チームは劇的な飛躍を発見しました。2.5、つまりGemini 2.5とGemini 3.0の間のデルタは、これまでで最大級です。壁は見えません。スケールアップを続ければ、改善を得続けられます。さらに、事後学習はまだ完全に未開拓の分野です。アルゴリズム的進歩と改善の余地はたくさんあります。そして3.0も例外ではありませんでした。私たちの優秀なチームのおかげです。
OpenAIの応用研究責任者であるBoris Powerも同意しています。これを見てください。素晴らしい仕事です。スケーリング則が永遠に生き続け、私たちを繁栄させますように。つまり、フロンティアモデル企業はスケーリング則を少しも疑っていないようです。わかりました。
Anti-gravityとWindsurfの関係
次に、Gemini 3と共に、GoogleはVS Codeのフォークに基づいた独自のバイブコーディングプラットフォームであるAnti-gravityもローンチしました。しかし人々は、それが多くの点でWindsurfに非常に似ていると気づきました。そして実際、Anti-gravityは単にWindsurfのいくつかのアップデートを加えたクローンかもしれません。その詳細に入る前に、少し背景を説明します。
これは現在Googleで働いているVerun Mohanです。Googleのnext generation Aentic IDE、Anti-gravityのローンチを楽しみにしています。現在はGemini 3で動いています。VerunはWindsurfの創業者であり、CEOでした。WindsurfはGoogleに買収されました。彼らはIPを取得し、Windsurfから最高だと考えられる人材だけを獲得しましたが、完全な買収ではなく、Windsurfはまだ存在しています。
彼らは基本的にIPを取得し、トップ人材を獲得しただけで、これはシリコンバレーで大きなドラマとなりました。Windsurfの創業者は巨額の支払いを受けましたが、Windsurfのチームのほとんどは損をしたようなものでした。そして非常にクレイジーな週末を経て、製品Devonの背後にある企業Cognitionが、Windsurfに残っていた人々を買収しました。
しかしここから面白くなります。TheoのYouTube動画で、誰かが実際にCascadeという名前が残っていることを指摘しました。これはWindsurfブラウザ、あるいは少なくともエージェント部分と呼ばれていたもので、Anti-gravityの中に見つかるのです。つまり、彼らは基本的に検索と置換を行いましたが、これを見逃したのです。CascadeがAnti-gravityに現れているなら、これは本質的にGoogleがWindsurfに対して行ったことなのです。
しかし、Enderが返信したように、彼らはWindsurfとそのIPを購入しました。誰もがこれに驚いている理由がよくわかりません。彼らは24億ドル払ったものを使うべきではないのでしょうか?そして私も同意します。見てください、彼らはそれを買ったのです。好きなように使う権利があります。しかし今、私たちは起源の物語を知っています。彼らはWindsurfを買い、それをAnti-gravityにしたのです。
そしてCognitionのCEO兼創業者であるScott Woo。覚えていてください、CognitionはGoogleがWindsurfを買った後にWindsurfを買いました。ちょっと奇妙ですが、彼は「今日のローンチについてAnti-gravityチームにお祝いを。ちなみに、一箇所見逃しましたよ」と言っています。そうです、彼らはCascadeの名前変更を忘れたのです。
Dell Technologiesがこの動画のこの部分をスポンサーしてくれたことに感謝します。Dell TechnologiesにはDell Pro Maxという素晴らしいラップトップのファミリーがあります。Nvidia RTX Pro Blackwellチップを搭載しており、これは持ち運び可能なAIワークホースです。14インチと16インチのスクリーンサイズがあり、最大32GBのGPUメモリを搭載しています。外出先でのAIワークロードに最適です。詳細は以下の説明欄のリンクをチェックしてください。
業界リーダーたちの反応
しかし、フロンティアラボの創業者たち間には多くのポジティブさがあります。Sam AltmanがGoogleをGemini 3で祝福しています。素晴らしいモデルに見えます。Elon MuskもSundarをGemini 3で祝福しています。素晴らしいモデルです。彼らが互いに祝福し合うことができると同時に、互いに超競争的であることができるのを見るのは非常に嬉しいです。なぜなら、それは私たちこれらの製品の消費者にとって役立つからです。
Google AI StudioとGemini APIのリードであるLogan Kilpatrickは、Gemini 3 Proがデザインアリーナベンチマークで最大のデルタ改善を示したことを示しています。このスクリーンショットは非常にぼやけていますが、お許しください。ここに5.1が1316のELOで、そして大幅な飛躍、Gemini 3 Proが1422まで到達しています。
Googleのビジネス戦略
では、Googleのビジネスについて少し話しましょう。Geminiのビジネスについて話しましょう。Menlo VenturesのDD Dossは、私たちはAIサイクルの「もしGoogleがそれをやったら」という部分にいると言っています。彼らはより安いモデルを作ることができます。入力100万あたり2ドル、出力100万あたり12ドルですが、これは実際にはそれほど安くありません。モデルコストのよりプレミアムな側面にあります。GPT-5.1よりわずかに上です。より良いモデル、そうです。製品を無料で数十億のユーザーに配信できます。そうです、彼らは基本的にインターネットを使うすべての人の組み込みユーザーベースを持っています。そして彼らは自社のカスタムシリコンを所有しているため、良い単位経済性を持っています。実際、彼らはカスタムシリコンのTPUで推論を提供しているだけでなく、TPUを使用してモデルをトレーニングしたことも判明しました。これはGeminiシリーズのモデルでは初めてのことだと思います。
そして彼はこの最後のポイントを指摘していますが、これは非常に正確だと思います。これが大手テクノロジー企業に対する彼の評価です。AmazonとMicrosoftはインフラパートナーになることを選択しました。つまり、彼らは誰とでも協力し、大規模なデータセンターインフラを持っているため、推論を提供するということです。
Appleはプレイしないことを選択しました。まあ、プレイしようとして、パートナーを組もうとしましたが、基本的にはうまくいきませんでした。彼らは本当にAI時代につまずいています。Metaはベッドであり、Googleがトップに立っています。これは前回の動画で言いました。本当にGoogleには信じられない機会があると思います。なぜなら、彼らは基本的にすべてを持っているからです。
彼らはデータを持っています。カスタムシリコンを持っています。配信網を持っています。Androidでハードウェアを持っています。世界のトップ研究者を持っています。AIは本当にGoogleが失うものなのです。そして、すべてのトップテクノロジー企業が競争上の優位性とAIスタック全体の習熟度において何を持っているかについてのこの本当にクールなインフォグラフィックを見ると、すべての中でGoogleだけが、アプリケーション、基盤モデル、クラウド推論、アクセラレータハードウェアを持っていることがわかります。
FlexportのCEO兼創業者であるRyan Petersonも同意しています。最も面白い結果は、Googleが独占規制から逃れるために10年間の死んだ猫の演技をやってのけた後、AIを支配することでしょう。基本的に、彼が言っているのは、政府が長い間、独占禁止法違反についてGoogleを非常に注意深く見ていたということです。彼らは基本的に、Googleがすべてにおいて独占を持っているかもしれないと考えていました。
検索、Chromeブラウザ、これが大きな部分だったと知っています。そして覚えていれば、1年半前ほどではありませんでしたが、誰もがGoogleを見て「AIで何をしているのですか?何もしていません」と思っていました。彼らは最悪のモデルのいくつかを持っていました。モデルのバイアスに関して多くの問題を抱えていましたが、今や彼らはナンバーワンであり、ナンバーワンと見なされています。
そしてそれは非常にクレイジーな逆転劇です。これをチェックしてください。これは原子力発電所の作動シミュレータの2ショットです。これがそれです。ボクセルアートスタイルのようなものがあります。ステージ1、コアです。基本的に歩いて通ることができます。ここで水が加熱されているのが見えます。原子炉の異なる要素です。そうです、これは2ショットで作られました。
ゼロ、1、2ショットが何を意味するのかについて、人々は混乱していると思います。通常は例を提供することを意味します。ゼロショットは例を提供しなかったことを意味します。1ショットは1つ提供したことを意味します。しかし現時点では、何回試したか、何ターンかかったかを意味すると思います。でもどうでもいいです。
これは細かいことです。そしてここで誰かがプロンプトを尋ねました。原子炉がどのように機能するかを示す詳細な説明のためのコードを書いてください。プロセスの異なる段階を明確に分解し、同じデモの3Dボクセル版をコーディングする必要があります。次に、Gemini 3 Proが自転車に乗っているペリカンのSVGを1ショットで作成しました。
これは新しいモデルのための既知のテストのようなものです。通常は自転車に乗っているペリカンのSVGだけですが、これは実際に動くバージョンです。そしてこれはかなり良くできています。トークン効率について話したことを覚えていますか?では、それについてもう少し触れましょう。これはStability AIの創業者であるEmad Mostです。「Gemini 3 Proをテストして最も興味深かったのは、トークンからツールコールまでの効率の高さです。
モデルのトークンあたりのインテリジェンスは、価格が下がっているにもかかわらず、急速に増加しています。これは非常に素晴らしいことです」。そして私はこれについてしばらく話してきました。特に、これらの企業の多くがエージェントの自律性の持続時間、つまりエージェントが人間の介入なしにどれくらい実行できるかについて話しているので。私はそれを見て、「さて、1時間、5時間、10時間、20時間実行できるのは素晴らしいですが、その時間で実際に何をしているのでしょうか?」と言います。それも同じくらい重要です。
だから今、トークン効率に到達しているのです。そして実際に、これらのモデルがどれほど優れているかの究極の尺度は、単位時間あたりのインテリジェンスです。与えられた時間内にどれだけのインテリジェンス、どれだけの問題解決を実際に行っているか。そしてそれが彼らがここで見ているものです。これらのモデルは、より少ないトークンを使ってより多くのことを行うことに長けてきています。
ARC PrizeのMike Canoopeも同じことを言っています。まず、GeminiはARCベンチマークのパフォーマンスで大きな飛躍を遂げ、Gemini 3 ProとDeepthinkがARC v2で最先端の2倍以上であることを検証したばかりで、印象的で率直に言って少し驚いています。効率のフロンティアが人間に近づき始めているのも見え始めています。
Gemini 3 Proが解決した最速のV2タスクは、わずか772トークン、188秒のこの例で、私たちの人間パネルは147秒で解決しました。これがポイントです。これがARC Prizeが非常に優れたベンチマークまたは一連のベンチマークである理由です。汎化だけでなく効率もテストするからです。しかし興味深いのは、ARC prizeのV1ではそれほど改善されなかったことです。
V2で大きな飛躍を遂げましたが、それはV1でそれほど良くなることには翻訳されませんでした。彼が言うように、V2で半分のスコアを取れるAIシステムは、基本的にV1で100%を取ると予想していました。これらのシステムは、はるかに簡単なV1タスクで依然として明らかな間違いを犯しています。これらの例をチェックしてください。私はこれらの矛盾を完全に説明することはできません。つまり、モデルはいくつかのことでは良くなっているが、他のことでは同じままなのです。
だから、私のチームはまだGemini 3テスト動画の仕上げを行っています。それは信じられないものになるでしょう。なぜなら、私たちが実行しているテストのいくつか、作成できたデモのいくつかは本当に驚異的だからです。だからお楽しみに。この動画を楽しんでいただけたら、いいねとチャンネル登録をご検討ください。


コメント