GoogleがGemini 3 Proの大型アップグレードとなるGemini 3.1 Proをリリースした。ベンチマークでは推論・エージェント型コーディングにおいて他社モデルを上回る結果を示しており、コストパフォーマンスの高さも特筆される。また、AI StudioにAnti-gravityエージェントが統合され、バイブコーディング向けのプラットフォームとして進化を遂げている点も注目だ。

Gemini 3.1 Proのリリースと戦略的位置づけ
本日、GoogleがGemini 3 Proの大型アップグレードをリリースしました。バージョン表記は3.1ですが、ベンチマークを見る限り、これはかなり大きなアップグレードです。今回の動画では、このリリースの詳細を掘り下げるとともに、Googleの戦略がほかのフロンティアラボとどのように異なっているかについても考えていきたいと思います。
Gemini 3のリリース時、GoogleはGoogle Anti-gravityも公開しましたが、今回はそのエージェントをAI Studioに直接組み込んできました。AI Studioのビルド機能の中でAnti-gravityエージェントが使えるようになっており、これはバイブコーダー向けプラットフォームとして売り出されています。どうやらGoogleはGeminiで、汎用的なモデルの構築を目指しているようです。
OpenAIやAnthropicといったほかのラボの多くは、ここ数世代のイテレーションでコーディングに特化してきました。Googleにおいてコーディング特化に最も近いのはGemini 3 Flashで、一部の興味深いベンチマークではGemini 3 Proを上回ることもありました。Googleはパフォーマンスとコストのトレードオフ、いわゆる「性能コスト曲線の最前線」において常に優位を保ってきましたが、ここ数ヶ月は後れを取っていました。
ベンチマーク結果とコスト効率
さて、ベンチマークの話をしましょう。今回のモデルは、特に推論とエージェント型コーディングにおいて、主要なベンチマークのほぼ全てでトップクラスの成績を収めています。そしてこれは、あらゆる企業が向かおうとしている方向性でもあります。
特に注目すべきはHumanity’s Last Examです。ツールなしの場合、おそらく最高性能のモデルですが、最も重要なのはARC-AI2だと思います。これはエージェントやLLMの推論能力を測るベンチマークで、前バージョンと比べてほぼ2倍、いやそれ以上のスコアを出しながら、競合他社と比べてはるかに低コストで実現しています。ここに性能コスト曲線の重要性があります。
モデルやエージェントに知性を持たせることだけでなく、それを合理的なコストで実現できることも重要です。コストについては前バージョンと全く同じです。また、3.1はまだプレビュー版であり、GA(一般提供)リリースではありません。
Geminiモデルに対してこれまで挙げられてきた不満として、ツール呼び出しとハルシネーションの問題がありました。Googleによればこの点を改善したとのことで、エージェント型モデルとして大きく向上することが期待されます。トレーニングデータのカットオフ日はGemini 3 Pro(3 Pro)と同じです。
トークン効率とAnthropicとの比較
もう一つ特筆すべき点として、ほかのモデルリリースと比べてトークン効率が格段に高いことが挙げられます。特にAnthropicのモデルリリースと比べると、Claude Sonnet 4.6はトークン消費量がかなり多い。一方、Artificial Analysisのベンチマークでは、Gemini 3.1 Previewが現在トップモデルとなっていますが、トークン数やコストが大幅に増加したわけではありません。前バージョンと比べてわずか200万トークン増、追加コストは約25〜27ドルでこれを実現しているのは驚異的です。つまり、旧バージョンをこの新バージョンに置き換えても、財布にやさしい選択です。
マルチモーダル性能とビジネス的観点
Geminiモデルが歴史的に強みを持ってきた分野がマルチモーダル推論で、今回のモデルも同じ傾向を示しています。そして今、非常に明確になってきていることがあります。モデルの生の知性だけでは十分ではないということです。モデルを包むハーネスやラッパーが、ますます重要になってきています。
これはGemini 3 Deep Thinkでも見られました。生のGeminiモデルとDeep Thinkバージョンとの間には大きなパフォーマンス差があり、Deep Thinkは本質的にベースモデルの上に構築されたスキャフォールディングです。さらに良い例がAlthiaで、これはDeep Thinkの上に構築されたgenerator-verifier-revisorループで、推論タスクにおいてDeep Thinkすら超えています。
歴史的にGoogleのモデルはコーディングで遅れを取ってきましたが、実世界においてはそれほど重要ではないと思います。Q4の結果によると、Geminiアプリの月間アクティブユーザーは7億5000万人を超えました。ChatGPTの約8億人にかなり近い数字です。すべてのベンチマークでほかのモデルを上回れていなくても、Googleに実際の収益をもたらしており、それがビジネス的にはずっと重要だと思います。
AI Studioへの統合と実演
GeminiモデルはSearchのAIモードを支えており、これはGoogleにとって実際の収益源です。そしてGoogleはより多くのプロダクトへの統合を進めています。前バージョンと同様に、このモデルは非常に強力なマルチモーダル推論能力を持ち、視覚的に情報を抽出することができます。実際、GoogleとDeepMindはこれをGemini 3 Proのドロップイン代替として使うよう推奨しています。
Gemini 3 Flashがリリースされたとき、なぜ・どうしてFlashモデルが一部のベンチマークでProモデルを上回れるのかと疑問を持った人もいました。これに対してGeminiチームのKish Anandが答えています。「FlashはどうしてProに勝てるのか?答えはRLだ。FlashはProを単に蒸留したものではない。エージェント型RLの研究でかなりエキサイティングな進展があり、それがFlashに採用されたが、Proには間に合わなかった。早くProにも導入したい」と。どうやらこの新しいProモデルでは、Anandが言及していたそのエージェント型RLが使われているようです。
では、AI StudioにAnti-gravityが直接組み込まれた新しいAI Studio体験をご紹介しましょう。アプリケーションはサンドボックス環境で動作するようになります。アクセスすると、スマートビルドエージェントによる「新しいビルド体験」という画面が表示されます。プレイヤー体験を構築したり、さまざまなツールセットに接続したりすることもできます。なかなか素晴らしいです。パイプラインには他にも色々と控えています。
モデルをクリックすると詳細設定が表示され、デフォルトモデルだけでなく、テックスタックも選択できます。React、Next.js、Angularといった選択肢があります。例えばReactを使って何か作ってみましょう。今は自分のAPIキーを使っています。「複数ユーザーをオンボードできるObsidianクローンを作って」と入力して送信してみます。するとAnti-gravityエージェントがアプリケーションの構築を開始します。
現時点では動作が比較的遅いですが、チームから聞いたところ、高速化に取り組んでいるとのことです。他にもできることがあって、設定に行くとモデルやシステム指示の設定だけでなく、シークレットの設定もできます。フルスタックアプリケーションをデプロイする際にシークレットをここで設定できるわけです。さらにさまざまなインテグレーションがあり、GitHubへのプッシュも引き続き可能で、アプリが立ち上がったらPublishでデプロイできます。AI Studioを使ったビルドについては、より詳細なチュートリアルを作成しようと思っています。AI Studioにはさらに面白い機能が追加される予定があるので。
バイブコーディングの実例と今後の展望
Anti-gravityエージェントだけではありません。LoganがAI StudioでAI Studio自体の新バージョンを作ろうとするバイブコーディングの様子を共有しています。見てみると興味深いことがあって、安全なログインとクラウドデータストレージを持つユーザーアカウント、画像編集、ボイスチャット、画像生成といった機能が想定されています。個人的にこれは好きですね。現在のバージョンはかなり情報過多ですが、目指せる方向性としてすっきりしたものができそうです。
これが現在のバージョンです。いずれにせよ、今週は大きなリリースがあって非常に刺激的な一週間でした。次のリリースが楽しみです。この動画がお役に立てば幸いです。


コメント