GoogleがGemini 3で世界最高峰のAIを開発

Google・DeepMind・Alphabet
この記事は約10分で読めます。

Googleが新たに発表したGemini 3は、マルチモーダル理解において世界最高峰の性能を誇り、特にエージェント型タスクとバイブコーディングにおいて他のフロンティアモデルを圧倒している。Gemini 3 Proは主要なベンチマークで最先端のスコアを記録し、さらに上位版であるGemini 3 Deep ThinkはARC AGI 2で驚異的な45.1%を達成し、他モデルを大きく引き離している。Googleは同時に、エージェント中心の開発環境「Google Anti-gravity」を発表し、開発者がコードの実装ではなくソリューションの設計に集中できる新たな開発体験を提供する。Gemini 3は長期推論タスクにおいても優れた性能を示し、実用的な日常タスクの遂行能力においてもトップクラスの評価を得ている。

Google Just Built the Smartest AI in the World (Gemini 3)
Google just dropped Gemini 3... and it might be the smartest AI model in the world. Here’s a quick breakdown of the benc...

Gemini 3の登場と圧倒的な性能

さて、Gemini 3がついに登場しました。そしてこれは私たちが予想していた通り、いやそれ以上のものです。スンダー・ピチャイはこれを、マルチモーダル理解において世界最高のモデルであり、Googleのこれまでで最もパワフルなエージェント型およびバイブコーディングモデルだと発表しました。彼によると、Gemini 3はどんなアイデアでも実現でき、コンテキストと意図を素早く理解するため、より少ないプロンプトで必要なものを得られるとのことです。

そして本日、Geminiアプリ、検索のAIモード、そして開発者向けにはGoogle AI StudioとVertex AI内で展開されています。それでは早速ベンチマークに飛び込みましょう。Gemini 3は本当に私たちが期待していた通りのものです。人類最後の試験と呼ばれる、最も難しい学術的推論テストの一つで37.5%のスコアを記録しています。

ARC AGI 2では31.1%を獲得しており、これは正直言って誰もが驚いたでしょう。このベンチマークは非常に困難なことで知られており、ほとんどのフロンティアモデルは依然として10%台のスコアにとどまっています。また、より伝統的なベンチマークでも圧倒的な成果を上げています。GPQA Diamondで91.9%、AIME 2025で95%、そしてコード実行が許可された場合は100%、MMMU Proで81%です。

マルチモーダル理解、推論、長文コンテキストタスクに関しては、基本的に全面的に最先端の性能を示しています。さて、ここからが興味深いところです。純粋なコーディングベンチマークでは、Gemini 3 ProはClaude 4.5 Sonnetにわずかに抜かれています。これはClaudeがこの分野でリードしてきたことを考えれば、特に驚くことではありません。

しかし、エージェント型ベンチマーク、つまり自律的推論、マルチステップのアクション計画、長期タスクをテストするものに移ると、Gemini 3が圧倒的に優位に立ちます。TAU Bench、SWE-bench Verified、TAU-bench、そして特にVending Benchで圧倒的です。その差は巨大です。これらのテストは単にコードを生成するだけでなく、真の自律的能力を測定します。

そしてGemini 3 Proは大きく先行しています。これがGoogleがこれを史上最もパワフルなエージェント型モデルと呼んでいる理由です。しかし、ご覧のように、これはGoogleの最も高度なバージョンのGemini 3ですらありません。私たちが今見たベンチマークは、Gemini 3 Proのものだけです。しかしGoogleにはさらに強力なバージョンがあり、それはGemini 3 Deep Thinkと呼ばれていますが、まだリリースされていません。

彼らはこう書いています。「Gemini 3 Deep Thinkモードは知能の限界をさらに押し広げ、Gemini 3の推論とマルチモーダル理解能力においてステップチェンジをもたらし、さらに複雑な問題を解決するのを支援します」。そして数字がそれを裏付けています。テストでは、Gemini 3 Deep ThinkはProバージョンをほぼすべての項目で上回っています。人類最後の試験で41%、GPQA Diamondで93.8%、そしてARC AGI 2では驚異的な45.1%です。

ARC Prize自身がこれを確認しています。ほとんどのモデルは0%から5%あたりをさまよっています。いくつかは5%から10%です。そしてそれより高いのはわずかで、15%から20%程度です。Claude 4.5 Sonnet、Grok 4、GPT o1 Proなどです。しかしその後、Gemini 3 Proが31%と、同様のタスクあたりのコストで大きく上に位置しています。

そして右上の隅に、群を完全に離れて位置しているのがGemini 3 Deep Thinkで、45%です。これはボード上の他のすべてのものの2倍以上です。これは巨大な飛躍であり、これは馴染みのない環境での汎化と問題解決を明示的にテストするために設計されたベンチマークでのことです。これは基本的に、今日私たちが持っているAGI指標に最も近いものです。だからこその名前です。

LM Arenaでのリードと実用性能

さて、Gemini 3はLM Arenaでもリードしており、デミス・ハサビス卿は、これが彼のお気に入りのモデルになったと言っています。単に生のパフォーマンスのためだけでなく、そのスタイル、深さ、そして日常的なタスクでできることのためです。そしてArtificial Analysisによると、Gemini 3 Proは現在世界ナンバーワンのモデルです。

史上初めて、Googleが公式に主要な言語モデルを持つことになりました。したがって、ベンチマークとサードパーティのテストによれば、Gemini 3は本当に現在リリースされている中で最高のモデルであるように見えます。しかし、ベンチマークが常に全体像を語るわけではありません。では、実際に何ができるのか見てみましょう。

Googleは、Gemini 3はこれまでに構築した中で最高のバイブコーディングおよびエージェント型コーディングモデルだと言っています。ゼロショット生成、複雑な指示の理解、そしてリッチでインタラクティブなWeb UIの生成に非常に優れています。ダッシュボードからツール、アプリ全体まで、あらゆるものです。ここでは、よりリッチなビジュアライゼーションと改善されたインタラクティビティを持つレトロな3D宇宙船ゲームを生成しているのが見られます。

別の例では、シェーダーを使ったプレイ可能なSFワールドを構築するよう依頼しました。そしてこれが出来上がったものです。かなり印象的です。しかしこれはGoogleのデモだけではありません。X上にはこれと同じような例が大量にあります。このユーザーは、Gemini 3 Proを使ってわずか2回の試行で動作する原子力発電所シミュレーションを作成することができました。

ですから、どのモデルもすべての単一タスクで最高というわけではありませんが、Gemini 3が全体的に現在最強の汎用モデルであることはかなり否定できません。

Google Anti-gravityの発表

そしてGemini 3のローンチと共に、Googleは実際に静かに、潜在的にはさらに大きなものを発表しました。彼らはGoogle Anti-gravityと呼ばれる、まったく新しいエージェント第一の開発体験をリリースしています。彼らはここでこう書いています。「Gemini 3によってモデルの知能が加速する中、開発者体験全体を再構想する機会があります。

本日、私たちはGoogle Anti-gravityをリリースします。これは開発者がより高いタスク指向レベルで操作できるようにする、私たちの新しいエージェント型開発プラットフォームです」。ここからこの動画は本当に興味深くなります。なぜなら、Anti-gravityは単なる別のIDEではないからです。ワークフロー全体を変えます。バイブコーディングを超えて、私が正直に言ってバイブエージェンティングと呼ぶものに入ります。もはや単にコードを生成するだけではありません。

あなたのために全体を構築するエージェントを指示しているのです。そして時には、彼ら自身が自分自身を指示することもあります。彼らがどのように説明しているか見てください。あなたの新しい焦点は、すべての単一ステップを実装することではなく、ソリューションをアーキテクトすることです。おめでとうございます。あなたはエージェントのマネージャーに昇格しました。

エージェントがあなたのツールの中に住むのではなく、あなたのツールが今や多くのエージェントのための道具となります。エージェントは実装計画を作成し、複数のサーフェスをアクティブにしてあなたのリクエストを完了することで、自律的に作業を開始します。私たちのエージェントはより能力が高く、複雑なタスクに取り組み、並行してそれを行うことさえでき、これまで以上に多くを出荷できるようにします。

ご覧のように、Anti-gravityは単なる派手な新しいUIではありません。ソフトウェアの構築方法における根本的な変化です。Gemini 3の高度な推論、ツール使用、エージェント型コーディング能力を使用して、Anti-gravityはAIを受動的なヘルパーからアクティブなパートナーに変えます。エージェントは専用のサーフェスを持ち、エディタ、ターミナル、さらにはブラウザへの直接アクセスを持っています。

つまり、彼らはタスクを計画し、コードを書き、実行し、デバッグし、出力を検証し、あなたに代わって自分の間違いを修正することができます。そしてAnti-gravityは単にGemini 3 Proを使うだけではありません。完全なブラウザ自動化のためのGemini 2.5 Computer Use、Googleのトップレートの画像モデルであるImagen 3、そしてもちろん、すべての背後にある頭脳としてGemini 3 Proと緊密に統合されています。

これは本当に、大手AI企業からの最初の真のエージェント第一の開発環境であり、開発者だけでなく非開発者も今後数年でどのように構築するかの最初の glimpse である可能性が高いです。

長期推論能力と実世界での有用性

さて、最後に、Googleが強調する次の大きなことは計画、特に長期推論です。これはどのモデルにとっても最も難しいスキルの一つです。先ほど見たように、Gemini 3 ProはVending Benchで最先端の性能を持っており、これは完全な1年間、自動販売機ビジネス全体を運営することをシミュレートします。

モデルは何百もの決定を下し、在庫を管理し、価格を設定し、顧客を扱い、漂流することなくタスクに集中し続けなければなりません。Gemini 3 Proは、長期間にわたってツール使用と意思決定を維持する最も一貫したモデルであり、最終的には他のすべてのフロンティアモデルと比較して、かなりの差で最高のリターンを生み出します。

これは実際に実世界の有用性に変換される種類の能力です。そしてこれがおそらく、デミスがGemini 3は日常的なタスクのためのお気に入りのモデルだと言った理由です。より良い長期推論により、地元のサービスを予約したり、受信トレイを整理したりするなど、実際により多くのことを成し遂げることができるからです。

これをまとめると、これは本当にGemini 3時代の始まりに過ぎません。本日時点で、Gemini 3はすでにGeminiアプリのすべての人に展開されています。Google AI ProおよびUltraサブスクライバーには検索のAIモード内で、開発者にはGemini API、AI Studio、Anti-gravity、Gemini CLI内で、そして企業にはVertex AIとGemini Enterprise内で展開されています。

そしてGemini 3 Deep Thinkについては、Googleは今後数週間でUltraサブスクライバーにリリースする前に、安全性評価のために少し余分な時間を取っていると言っています。彼らはまた、さらに強力な推論、マルチモーダリティ、エージェント型ワークフローを持つ、より多くのGemini 3モデルがまもなく登場することを確認しました。

ですから、そうです、Googleは今絶対に火を噴いています。彼らは年初、特にウォークAI画像生成器の論争で遅いスタートを切りましたが、本当に立ち直り、現在は否定できないほどリードしています。彼らはまた、将来に向けて非常に良い位置にいます。彼らは文字通りすべてに手を出しており、今の彼らの主要な焦点はAIであるように感じます。

ですから、Gemini 3が年末まで そのリードを維持するかどうかを見るのは興味深いでしょう。個人的には、おそらく維持すると思いますが、コメントであなたの考えを教えてください。Gemini 3は1月1日時点でまだ最高のモデルでしょうか、それとも誰かが彼らを退位させるでしょうか。また、Gemini 3全般についてあなたたちがどう思うか教えてください。

私はまだあまり使っていないので、もしすでに試した方がいれば、ぜひ下にあなたの考えを教えてください。とにかく、ご視聴ありがとうございました。動画に「いいね」をして、最新情報を得るためにチャンネル登録してください。そしていつものように、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました