Googleが発表したGemini 3は、既存のフロンティアモデルを圧倒する性能を示している。Humanity’s Last ExamやArc AGI 2などの主要ベンチマークで他モデルを大きく引き離し、特に長期的な計画立案能力において優れた結果を記録した。Gemini 3 Deep Thinkは思考フェーズでより多くのトークンを使用することで更なる性能向上を実現し、Arc AGI 2では45.1%という驚異的なスコアを達成している。また、100万トークンの入力に対応し、YouTubeの動画をフレーム単位で理解する独自の能力を持つ。Google検索のAIモードに統合され、動的なUIを生成する機能や、新しいコーディングプラットフォームAnti-gravityの提供、そしてGmailなどで実際のタスクを代行できるGeminiエージェント機能も追加された。Boxが実施した独自ベンチマークでは、Gemini 2.5 Proと比較して最大49ポイントの性能向上を示し、エンタープライズ用途における実用性の高さを証明している。

Gemini 3の圧倒的な性能
Gemini 3がついに登場しました。待った甲斐がありました。これは信じられないほど素晴らしいモデルです。それだけでなく、Googleは基本的に自社が提供するあらゆる製品とサービスにこれを組み込みました。GoogleはGemini 3、Gemini 3 Pro Preview、そしてGemini 3 Deep Thinkを発表しました。まずはベンチマークから見ていきましょう。なぜなら、これらは他のフロンティアモデルを完全に圧倒しているからです。
こちらがHumanity’s Last Examです。ツールなしで37.5%、コード実行と検索ありで45.8%です。これはGemini 2.5 Proの21%と比較してのものですが、それは古いモデルです。Claude Sonnet 4.5は13%、GPT-5.1は26.5%です。Arc AGI 2では31%で、競合モデルがそれぞれ4%、13%、17%であるのと比較してください。
AMI 2025ではコード実行ありで100%を達成し、唯一1位を獲得できなかったベンチマークはSWEBench verifiedで、もちろんこれはClaude Sonnet 4.5が77.2%で1位でしたが、Gemini 3 Proも76.2%と僅差で続いています。そして、vending benchでも驚くべき成果を上げました。覚えておいてください。vending benchとは、モデルが自動販売機を制御するベンチマークです。
製品を在庫し、適切な顧客に適切な製品を用意することで、最も多くの利益を上げる方法を計画しなければなりません。その純資産は5,478.16ドルで、2位のClaude Sonnet 4.5は3,800ドルでした。そして、今日の動画のスポンサーであるBox.comは、文書から洞察を抽出し、それらの洞察を使用して複数ステップの論理と推論の問題を完成させる能力について、独自のベンチマークを実施しました。
Boxによる独自ベンチマーク
こちらがGemini 2.5 ProとGemini 3 Proの比較です。Gemini 3 Proは黄色で表示されています。完全なデータセットでは、Gemini 2.5 Proと比較して22ポイントのパフォーマンス向上がありました。つまり、63%対85%です。業界別のサブセットでは、ヘルスケアとライフサイエンスで45%から94%へ、メディアとエンターテインメントで47%から92%へ、金融サービスで51%から60%へと向上しました。
しかし、このベンチマークは実際にあなたにとって何を意味するのでしょうか。もちろん、Box.comはエンタープライズのユースケースに関するものです。そして、これこそがGemini 3が優れていた分野です。Boxによるこの新しいベンチマークは、抽出評価に加えて複雑な複数ステップの推論に焦点を当てています。これは複雑なタスクの自動化を強調しています。この評価では、モデルに複数の文書を分析し、日常のワークフロー内で人が行うような非構造化データに関する複雑な問題セットを解決するよう求めます。
ですから、Gemini 2.5 ProからGemini 3へのこの大幅な飛躍を見るときは、このことを念頭に置いてください。Box AI StudioでBox上で今日からGemini 3を使い始めることができますし、Box API上でそれを基盤に構築することもできます。私の会社ではBoxを使っています。あなたの会社でも使うことをお勧めします。ぜひ試してみてください。彼らは素晴らしいパートナーです。それでは、ベンチマークの続きを見ていきましょう。
Gemini 3 Deep Thinkの登場
GoogleはGemini 3 Deep Thinkもリリースしました。これはまさにその名の通りのものです。思考フェーズでより多くのトークンが使用されます。したがって、より良いパフォーマンスを発揮します。お見せしましょう。
こちらがHumanity’s Last Examです。これは推論と知識のベンチマークで、41%のスコアを記録しました。これはGemini 3 Proの37.5%と比較してのものです。Claude Sonnet 4.5は13%、GPT-5 Proは30%、そしてGPT-5.1は26.5%です。これらのベンチマークにおいて本当に大幅な改善です。
こちらがGPQA、科学知識ベンチマークで、93.8%で1位になっています。2位はもちろんGemini 3 Proで、その後GPT-5ファミリーのモデルが3位と4位に入っています。しかし、本当に際立っているのはこちらです。Arc AGI 2のビジュアル推論パズルです。
これについては私のチャンネルで何度も取り上げてきました。これがまたあります。入力と出力、つまり一種の変換パズルが与えられ、次に別のものが与えられると、その変換が何であるかを理解しなければなりません。これは、モデルが実際に学習し、その学習から一般化できるかどうかを確認する最良の実装です。
これは汎用知能であるかどうかを判断する上で最も重要なことです。そして、Gemini 3は驚くほど優れたパフォーマンスを発揮しています。これを見てください。Gemini 3 Deep Thinkは45.1%で、GPT-5.1の17%と比較してください。GPT-5 Proは15%、Claude Sonnet 4.5は13.6%です。そして、彼らの前のフロンティアモデルであるGemini 2.5 Proからの相対的な改善を見てください。
10倍もの大幅な改善です。そして、他の多くのフロンティアモデルと同様に複数のモダリティをサポートしていますが、1つ非常に特別なことを行います。それについては後ほど説明します。テキスト、画像、動画、音声、そしてコードをサポートしています。そして重要なもの、ユニークなものは動画です。
動画理解における革新的能力
100万入力トークンに対応し、動画の理解において本当に優れています。そして、これは単にトランスクリプトを見ているだけではありません。私がこれまで見たどのモデルとも異なり、文字通り動画をフレームごとに見ているのです。完全なYouTube動画を読み込み、フレームごとに理解することができます。実際の動画内の事柄について質問することができます。そして私は、YouTube動画のチャプターマーカーの作成を手伝ってもらうために、これをいつも使っています。
実際に動作している様子をお見せしましょう。こちらが私の最後のYouTube動画へのリンクです。単純に貼り付けるだけで、すぐに読み込みが始まります。明らかに、GoogleはYouTubeを所有しており、GeminiとAI Studioも所有しているので、これらすべてがシームレスに連携します。動画をダウンロードしたり、アップロードしたりする必要はありません。もちろんそうすることもできますが。
単にリンクを入れるだけで、それを抽出してくれます。111,000トークンですが、もちろん十分に作業できる量があり、質問を始めることができます。3分の時点のフレームを説明するよう依頼しました。3分の時点のフレームは分割画面レイアウトになっています。右側には、短い巻き毛で水色のボタンダウンシャツを着た男性であるプレゼンターがマイクに向かって話しています。
左側には、おそらく議論されているAnthropicの論文からのテキストのスニペットを表示するグラフィックがあります。テキストは明瞭に読み取れ、そこに書かれています。ですから、青いボタンダウンシャツを着た私が画面の右側にいます。もちろん、はい、私は巻き毛です。そして、こちらが説明されたAnthropicの論文です。
Google検索との統合
そして次はGoogle検索について話しましょう。なぜなら、それが最大の変化のように思えるからです。Gemini 3のローンチ初日に、Google検索のAIモードで利用可能になり、素晴らしいものです。実際にクエリに基づいてユーザーインターフェースを動的に生成します。これを見てください。
論文があります。AIモードの思考モードをオンにします。論文をドロップして質問することができます。考えていて、実際に動的なUIで生成された検索結果ページを生成します。これがここで見ているものです。これはGemini 3によって書かれました。つまり、Google検索のこの部分は存在していませんでした。そして今は存在します。
そして明らかに、これはAIモードでのみ表示されますが、私たちが全員認識するよりも早く、Google検索を使用する大多数の人々に対して、動的に生成されたGoogle検索ページが表示され始めると思います。従来の検索製品でこれまで見たことがないほどのカスタム検索結果です。
Anti-gravityコーディングプラットフォーム
それだけではありません。彼らはまた、独自のVS Codeフォークであるanti-gravityを立ち上げました。これは、cursor、windsurf、replet、factoryと競合する全く新しいエージェンティックコーディングプラットフォームです。これが彼らの独自のバイブコーディングプラットフォームです。そしてこちらがそれです。
はい、非常に見慣れた感じです。はい、これはVS Codeフォークで、Geminiモデルだけでなく、OpenAIからのオープンソースモデルであるGPT-OSや、AnthropicからのSonnetファミリーのモデルを含む、基本的に望むあらゆるモデルをサポートしています。しかし、もちろん、こちらがGemini 3 Pro Highです。これがテストするものです。動画は近日公開予定です。
長期計画における卓越性
さて、Gemini 3に戻りましょう。これは、vending benchベンチマークで示されたように、長期的な計画立案において特に優れています。覚えておいてください。vending benchベンチマークは、AIに自動販売機を制御させ、在庫を計画し、人々が何を買っているか、何を買っていないかを理解し、いつ在庫を補充するかを知る必要があります。このベンチマークの目的は、これらのAIシステムを実世界の経済環境でテストすることです。
モデルがすぐに経済に積極的に参加し、ビジネス全体を管理することを期待しています。しかし、そうするためには、非常に長い時間軸にわたって一貫性と効率性を保つ必要があります。これがVending Bench 2の全てです。そして、Gemini 3は驚くほど優れた成果を上げました。これを見てください。青い線がGemini 3です。時間の経過とともにその純資産は5,000ドルを超えました。
1年間にわたって見ると、Gemini 3が1位で、2位がClaude Sonnet 4.5、そしてこの辺りにGPT-5.1があり、Gemini 2.5 Proからの大幅な改善が見られます。これはずっと下のこちらにあります。基本的に横ばいになり、時間とともにお金を失い始めています。しかし、長期的には、それを見てください。1年後も、まだ上昇し続けています。
Geminiエージェント機能
それだけではありません。この動画で何度もこう言った気がしますが、それだけではありません。Gemini 3は、Geminiエージェント製品であなたに代わってタスクを完了できるようになりました。新しく更新されたGeminiアプリには、もちろんGemini 3が搭載されていますが、Geminiエージェント機能も搭載されています。これは、このエージェントがあなたに代わって実際のタスクを完了する能力です。
AIモードと同様に、ビューを作成します。尋ねていることに基づいて動的にUIを作成しますが、前述のように、タスクを完了することもできます。お見せしましょう。こちらです。ツールに移動し、まだラボ機能であるエージェントを選択し、受信トレイを整理します。明らかにGmailへのアクセス権があります。
ここで計画をまとめています。すべての未読メールを取得しています。その後、基本的にメールをレビューし、一括でアクションを実行するための動的なビューをまとめます。そして、メールに基づいて、何をすべきかについて多くの提案を提供します。すべて受け入れることができます。
それぞれを却下したり、個別に受け入れたりすることができます。ここでは実際にメールを書くことができます。そのメールスレッドでの会話に基づいた文脈的なメール返信です。非常に、非常に印象的です。これはまだあまり使う時間がありませんでしたが、今週からすぐに使う予定です。
モデルカードの詳細
最後に、Googleはモデルカードも公開しました。もちろん、その中にはそれほど多くの情報はありませんが、いくつかの新しい詳細を見つけることができます。第一に、このモデルは以前のモデルの修正やファインチューンではありません。これは全く新しい基盤モデルであるGemini 3です。
入力は、テキスト、画像、音声、動画ファイルで、最大100万のトークンコンテキストウィンドウと64,000の出力トークンです。これは、GoogleのカスタムTPUアーキテクチャ上に構築されたスパースなmixture of expertsモデルであり、事前トレーニングだけでなく推論にも使用されています。
繰り返しになりますが、Googleにとっての大きな差別化要因、大きな強みは、AIを驚くほど効率的に実行するこれらのカスタムTPUチップを持っているという事実です。さて、今日はこれで以上です。Gemini 3をチェックしてください。私はこれをテストするつもりです。
購読を忘れずに。そうすれば、私がそのテスト動画を公開したときに通知が届きます。この動画を楽しんでいただけたなら、いいねと購読をご検討ください。それでは次の動画でお会いしましょう。


コメント