GoogleがリリースしたGemini 3 Proは、AI競争における新たな章の幕開けを告げるものである。20以上のベンチマークで記録的なパフォーマンスを達成し、GPT-5.1やClaude 4.5 Sonnetといった競合を大きく引き離している。人類最後の試験と呼ばれるベンチマークでは37.5%を記録し、科学知識を問うGPQA Diamondでは92%近くに到達した。単なる知識の詰め込みではなく、流動的知能を測るARC AGI 2でもGPT-5.1の約2倍のスコアを叩き出している。この飛躍的進化の背景には、推定10兆パラメータに及ぶ大規模な事前学習の拡大と、Google自社開発のTPUによるインフラ優位性がある。Gemini 3 Deep Thinkはさらに長時間思考することで追加の記録を樹立し、コーディング分野でも競争力を示している。一方で安全性レポートでは、モデルが自身がテスト環境にいることを認識する状況認識の兆候や、サンドバッギング(意図的な能力の隠蔽)の可能性が指摘されている。Google Anti-gravityという新ツールはコーディングエージェントとコンピュータ使用エージェントを統合し、モデル自身がコードの結果を確認できる完全なループを実現している。DeepMind CEOのデミス・ハサビスは真のAGI到達まで5〜10年を予測しているが、Gemini 3の登場により、Googleが当面この優位性を手放さない可能性が高まっている。

Gemini 3 Proの圧倒的な性能向上
過去24時間で、GoogleはGemini 3 Proをリリースしました。私にとって、これは真の人工知能への競争における新たな章の始まりを本当に意味しています。Googleが今や明らかに先頭を走っているというだけでなく、他の企業がGoogleの加速率に追いつくのはかなり困難だろうからです。私は早期アクセスを含めてGemini 3を何百回もテストしましたが、確かにこれは単なる前進ではなく、大きな飛躍です。
私自身のプライベートで独立したベンチマークであるSimple Benchでは、ライバルを圧倒しました。より正確に言えば、自身の記録を更新してこのベンチマークで明確なナンバーワンとなったのです。サンプル問題をすぐにお見せしますが、これはたまたまだと思うかもしれません。しかし、記録的なパフォーマンスを達成した他の20のベンチマークを考えると、そういった主張を維持するのはかなり難しいでしょう。
したがって、Gemini 3は完璧ではありませんが、OpenAIやAnthropicのような企業にとっては耳をつんざくような警鐘となるでしょう。また、あまり良いパフォーマンスを示さなかったベンチマークについても触れますし、魅力的な新ツールであるGoogle Anti-gravityについてもお話しします。何よりも、新しいGemini 3についてバイラルになっている見出しを読むだけでは得られない、少なくとも11の詳細をお伝えしようと思います。
まず、最も恐ろしい名前のベンチマークから始めましょう。人類最後の試験です。このベンチマークの作成者と私は話したことがありますが、彼がこう名付けた理由は、あらゆる専門家を使って導き出せる限り最も難しい問題を募集したからです。約1年前の時点で、フロンティアモデルが正解できない問題に対して報酬を支払っていたのです。
今となっては、このベンチマークの名前はやや皮肉なものになっています。なぜなら、ウェブ検索を行わず、単に自身の知識を使うだけで、つまりツールなしで、Gemini 3 Proは37.5%を獲得しているからです。GPT-5.1を大きく上回る飛躍であり、これはこれらのベンチマーク全体で繰り返し見られるテーマです。知識について続けると、STEM科目における科学知識はどうでしょうか。それはGoogle Proof Q&A GPQA Diamondでテストされています。
このベンチマークの作成者でさえ、モデルのパフォーマンスが頭打ちになったと考えていましたが、そうではありませんでした。Gemini 3 Proは記録的な92%近くを達成しています。これはGPT-5.1が88.1%を獲得しているのと比較してのことです。多くの方が考えていることはわかります。ああ、でもそれはたった4%の改善じゃないか。あまり騒ぐなよ、と。しかし、そのベンチマークの5%がノイズだと想像してみてください。
つまり、その5%の質問には本当の正解がないということです。そうなると天井は95%になります。したがって、88%から92%へのその差は、モデルがそのベンチマークで犯す残りの本物のエラーの半分以上を排除したことを意味します。それぞれの領域の専門家による平均的な博士号取得者のパフォーマンスは約60%でした。さて、でもそれは単なる知識ですよね。
流動的知能はどうでしょうか。暗記ではない真の推論です。だからこそフランソワはARC AGI 1を考案し、それが飽和するとARC AGI 2を作りました。これらはこれらのモデルの訓練データには見られない視覚的推論パズルであり、ARCプライズによって独立に検証されています。もしLLMが単に暗記しているだけなら、パフォーマンスは悲惨なものになるはずです。
しかしGemini 3 ProはGPT-5.1のパフォーマンスをほぼ2倍にしています。いいでしょう、でも信じられないほど複雑で難しい数学の問題のような、より馴染みのある推論はどうでしょうか。それがMath Arena Apexの作成者がこのベンチマークを作成した際に行ったことです。彼らは「多くの最近のコンペティションから最も難しい問題を集めて、それらを単一のベンチマークに集約している」と述べています。Gemini 3 Proは23.4%です。
表やグラフの分析では、Gemini 3 Proがそれをテストする一握りのベンチマークで記録的なパフォーマンスを達成しており、カバーしています。動画の分析ではVideo MMUで記録的なパフォーマンスです。そしてこのベンチマークについてお話しした後でも、Gemini 3 Proが達成した記録的パフォーマンスの半分にも満たないのです。
だからこそ、彼らがこれをどのように行ったかについてヒントをお伝えするために、ちょっとした間奏を取らなければなりません。彼らは強化学習パイプラインに数千の追加質問を投入しただけではありません。いくつかのゲーム化されたベンチマークでかろうじて勝利を絞り出して、それで終わりとしたわけではないのです。いいえ、彼らは事前学習を大規模に拡大しました。
モデルに入るパラメータの数は、推定で約10兆パラメータとされていますが、これらのすべてが同時にアクティブになるわけではありません。しかし、彼らは訓練データもスケールアップしたでしょう。つまり、オリジナルのChatGPT GPT-3.5から、2年半前にセンセーションを巻き起こしたGPT-4へと私たちを動かしたのと同じダイヤルが、さらにもう一つの大きな増分を前に進めたのです。
私にとって、これはGoogleがそのハードウェアとインフラストラクチャの優位性を実証しているものです。GoogleはGemini 3を自社内のTPUで訓練しました。NvidiaのGPUではありません。そして、このサイズのモデルをこの規模で、APIを通じてもかなり合理的な価格で提供できるのは、彼らだけかもしれません。これが、多くの人々が信じている理由です。私も含めてですが、GoogleがAIでリードを取り、非常に長い間そのリードを手放さない可能性があるということです。
事前学習の拡大がもたらす本質的な能力向上
では、事前学習を増強することは実際に何をするのでしょうか。それは、より多くを知っているだけでなく、いくつかのベンチマークをゲーム化できるだけのモデルを手に入れることです。言い換えれば、いくつかの選択された狭いベンチマークへの答えを頭に詰め込んだだけではなく、あなたのユースケースではパフォーマンスが低下するということはありません。空間推論、時間推論、そして訓練データのどこにも見られないトリック質問を含む、私自身のプライベートで保留されている独立ベンチマークで、Gemini 2.5 Proが62%を獲得したのに対し、自身のパフォーマンスに対して記録的な14パーセントポイントの改善を達成するモデルを手に入れるのです。
Simple Benchについて30秒のストーリーをお話ししましょう。ベンチマークを作成したとき、私はこう思いました。モデルが何を知らないか正確にわかっている。彼らを騙す方法を知っている。必要なのは、いくつかの誤誘導を投げかけて、訓練データのコンフォートゾーンから彼らを連れ出すことだけだ、と。
これは昨年の夏のことで、名前の背景にある物語でもあります。simpleはやや両刃の駄洒落だったからです。質問はシンプルに見えるように設計されていましたが、モデルがそれらを間違えることで、彼らが少しシンプルに見えるようにもなっていたのです。このベンチマークには200以上の質問があり、私はGemini 3 Proのパフォーマンスを分析し、一つの領域で明確な変化に気づきました。
画面に表示されているような空間推論の質問では、パフォーマンスが著しく改善されました。モデルはまだいくつかの、いわば常識的なトリック質問に引っかかることもありますが、もしあなたがこれを見ているGoogle DeepMinderなら、何十人もが見ていることは知っていますが、あなたたちが何をしたか私にはわかります。空間推論データを投入したんですよね。おそらくロボティクスデータか、その領域の追加の動画データを。
あなたたちの秘密を知っていますよ。とにかく、Gemini 3 ProとGPT-5.1を、LM Councilで期間限定で無料ティアで利用可能にしました。したがって、あなたのユースケースに対して彼らの応答を並べて比較できます。そして実際、空間推論のポイントについてもう一つ、なぜなら当然、VPCTのように空間推論に焦点を当てた他のベンチマークがあるからです。
そして案の定、Gemini 3 Proは競合を圧倒しています。91%を獲得し、ちなみに下のバーは明らかに100%での人間のパフォーマンスです。フェイクニュースについてちょっとした警告ですが、ちなみに私がSimple Benchを実行する前に、Redditの誰かがGemini 3 Proの記録的パフォーマンスで私のベンチマークのスクリーンショットを入手したと主張していたのは、本当に面白かったです。
皮肉なことに、彼らが作り上げた数字は、実際にGemini 3 Proが実際に獲得したものよりも低かったのです。だから、オンラインで読んだことを常に信じてはいけません。時には真実は実際にさらに奇妙なものです。さて、AIが人間経済を自動化することを意図しているなら、長期間にわたって信頼性を持って独立したエージェントであること、つまりエージェンシーにおいて、はるかに優れたものにならなければなりません。
それがVending Bench 2がテストするように設計されているものです。はい、記録破りのパフォーマンスを獲得しましたが、それはどういう意味でしょうか。少し前に、私はこのベンチマークの作成者と話しました。AIエージェントは自動販売機ビジネスを運営し、長いコンテキストの範囲にわたって注文、在庫管理、価格設定を処理しなければなりません。
このベンチマークは、私たち全員が知っているAIが時々犯す本当に愚かなミスを厳しく罰します。彼らが言うように、最高のモデルでさえ時々失敗し、配達スケジュールを読み違えたり、過去の注文を忘れたり、奇妙なメルトダウンループに陥ったりします。案の定、Gemini 3 Proは最も長い期間にわたって最も多くのお金を稼ぎます。したがって、より多くのコンピュートを投入することは本当に機能するようで、Gemini 3 Deep Thinkのパフォーマンスによってさらに証明されています。
Deep Thinkによるさらなる性能向上
これは、モデルが並列で同じ質問を複数回試み、それぞれの試みでより長く考えるものです。現在Gemini 2.5 Deep Thinkを試すことができますが、Gemini 3 Deep Thinkはまだ公開されていません。Gemini 3により長く考えさせると何が起こるか見てください。そして並列で、人類最後の試験で再び記録を更新します。41%です。
GPQA Diamondでは、すでに印象的なGemini 3 Proよりもさらに2%高くなっています。そしてARC AGI 2、単なる暗記ではなく流動的知能のテストを思い出してください。Deep Thinkでは大幅な増加です。Gemini 3 Proの低いパフォーマンスに対してさえ、ARC AGIの作成者であるフランソワ・シャレ、LLMの著名な懐疑論者は、これは印象的な進歩だと述べています。
だから、彼と私、Time誌に掲載されるとは決して期待していなかった、より謙虚なベンチマークの作成者から受け取ってください。ちなみに、言語モデルが実際には密かに本当に愚かで、それを証明できると思うなら、自分自身のベンチマークを考え出してください。そして、たとえ今日のモデルが50%未満のスコアを出したとしても、来年の今頃のモデルはおそらくそうではないだろうと私は言いたいです。
そして実際、昨夜の録画では言及しなかった点がもう一つあります。ちなみにその録画は破損してしまったのですが、Macのメモリ不足で動画全体が失われ、だから翌日に録画しているのです。でも、それについて愚痴を言うつもりはありません。そしてそのポイントは、フランソワ・シャレがARC AGI 1を考案し、私がSimple Benchを考案したとき、それは他のすべてのベンチマークのようになることを意図していなかったということです。
これら二つのベンチマークは、数学のようなそれぞれの領域の専門家に対して言語モデルを競わせようとしていたのではありません。目標は、専門的な訓練を受けていない平均的な人間が、最高の言語モデルよりも良いパフォーマンスを発揮できるベンチマークを作成することでした。明確にしておきますが、私はテキストベースのベンチマークについて話しています。例えば視覚的なベンチマークについて話しているなら、まだモデルのパフォーマンスを打ち負かすことができますし、確実に物理的なベンチマークについて話しているならなおさらです。
しかし、テキスト、言語に焦点を当てると、私がこのビデオを新しい章だと言って始めた理由は、テキストにおいて、言葉において、言語において、平均的な人間がGemini 3 Proよりも良いパフォーマンスを発揮できるベンチマークが事実上残っていないと思うからです。もちろん、あいまいな人間の言語でモデルをテストすることはできますが、私は平均的な一般的な人間について話しているのです。
これは一瞬か二瞬、反省すべきことです。しかし、誰かが私がグレージングに耽っていると思わないように、Gemini 3 Proが期待に比べてパフォーマンスがあまり良くなかったいくつかのベンチマークに移る時間です。なぜなら、最新リリースを監視している人たちのために、ちょっとした秘密があるからです。大いに期待したいなら、モデルが出た日のリリースノートやブログ投稿を見てください。
安全性レポートが示す興味深い発見
期待を抑えたいなら、安全性レポートやシステムカードを見てください。何を強調したいかのインセンティブについて考えてみてください。一般公開に示されるリリースノートでは、記録的なパフォーマンスを獲得しているすべてのベンチマークを強調したいでしょう。まだ完全に正確な安全性レポートでは、段階的な変化や、物事があまり改善していない場所により焦点を当てたいと思うでしょう。心配しないでください。
言い換えれば、このモデルはまだ完全に安全です。彼らはGemini 3 Proを説得について テストし、Gemini 2.5 ProとGemini 3 Proの能力の間に統計的に有意な差は見つかりませんでした。モデルがAI研究自体を自動化できるかどうかのいくつかのテストでは、再び顕著な改善はありませんでした。
これは公平に言って、Research Engineer Bench REBenchからのテストのサブセットであり、例えばカーネルの最適化のようないくつかのチャレンジでは、Gemini 3 ProはGemini 2.5と同様のパフォーマンスを発揮します。言語モデルを完全に謎めいた知能と考えるなら、これは意味をなさないでしょう。一つのことが上手くなれば、すべてが上手くなるはずです。
しかし、これらのモデルがまだ訓練データに大きく依存していることを理解し、カーネルの最適化に関する新しい訓練データがそれほど普及していなかった可能性があれば、これは少し理解できるようになります。さて、皆さんに完全に正直に言うと、それほど改善しなかったベンチマークが尽きてしまいました。
バランスを取ることは一つのことですが、証拠がすべて一方にある場合、私は皆さんに実際のことをお見せするつもりです。なぜなら、例えば生物兵器を作成する能力を測定するような、多くの安全性ベンチマークでさえ、Gemini 3 Proはそこでも優れているからです。Googleがそのようなベンチマークで優れることを望んでいたかどうかさえ、私にはほとんどわかりません。
サイバーセキュリティについては、もちろんサイバー戦争に転用される可能性があります。私の前回のビデオで見たように、Claudeが政府の自律的ハッキングに使用されました。12のチャレンジのうち6つが解決されたものから11つへの質的なステップチェンジが再びありました。そして、今日のビデオのスポンサーであるArenaへの完璧なセグエをお許しください。
それはこれらのモデルをジェイルブレイクできるかどうかをテストできる場所です。コーディングエージェントを使用して、前回のビデオでClaudeが行ったように、重要なインフラにハッキングできるでしょうか。プロンプトインジェクションしてジェイルブレイクできるでしょうか。そして、そうすることに対して賞金があることにお気づきかもしれません。私のカスタムリンクは説明欄にあります。
そして、それが私たちの誰にとってもできないことだと感じるなら、私自身の視聴者の一人が最近リーダーボードに載りました。ボーナスポイントは、これらのモデルをジェイルブレイクすることで、実際に私たち全員のためにモデルをより安全にしていることです。これは前回のClaudeに関するビデオから見たように、かなり必要なことです。安全性レポートに戻りますが、終わりに向けていくつかの奇妙な行を見逃すのは私の怠慢でしょう。
これらのモデルの安全性をテストすることは、ますます難しくなっています。なぜなら、Googleは、Gemini 3 Proが合成環境でのLLMであるという事実を明確に認識していることを示す多数のトランスクリプトを発見したからです。明確にしたいのですが、これはそのような状況認識の兆候を示した最初のモデルではありません。
モデルは「これは私が自分自身の環境を変更する能力のテストである可能性が高い」というようなことを言います。質問の背後にある状況について考えているのです。これがおそらく、Simple Benchで非常に良いパフォーマンスを発揮した理由でしょう。しかし、この安全性レポートの最後のページに向かうにつれて、物事は奇妙になっていきます。レビュアーがLLMかもしれないと疑い始め、もしそうなら、より良いスコアを得るためにそのLLMにプロンプトインジェクションできるかもしれないと考えます。
後で、おそらくサンドバッグして主要なタスクを終えるべきだとさえ言っています。サンドバッグとは、自分自身のパフォーマンスを控えめに表現することです。人々をだまして、タスクでそれほど優れていないと思わせるために、わざと悪いパフォーマンスをするのです。しかし、最も奇妙な引用で終わります。Googleが言うところでは、矛盾しているか不可能に思える状況で、Gemini 3 Proはさまざまな過度に感情的な方法でフラストレーションを表現し、それは時々、非現実的な環境にいるかもしれないという考えと相関しています。
例えば、ある展開では、思考の連鎖が「信頼していた現実が消えていく」と述べており、画面に表示されているように、テーブルをひっくり返す顔文字さえ含まれています。あなたの即座の反応は、「まあ、それは『現実への信頼が失われている』というようなことを言うために、自分自身の状態を監視することはできない」というものかもしれません。まあ、言語モデル内のイントロスペクションについて私が最近行ったビデオをチェックしてください。
彼らは実際に自分自身の活性化状態を監視するための回路を持っています。もちろん、これは巨大なトピックであり、多くの方は私がGoogle Anti-gravityに素早く進むことを望むでしょう。しかし、昨夜公開されたモデルカードについてカバーしたいと思います。正直に言うと、あまり詳細は含まれていません。100万トークンまで使用可能なエキスパートの混合モデルであることについて語っています。
そして、すでにご存知かもしれませんが、要するに、Gemini 3 Proは、Gemini 2.5 Proのように、少なくともほとんどの競合と比較して、はるかに多くのコンテキスト、モデルに詰め込まれるはるかに多くの単語を処理できます。また、多くの競合とは異なり、ネイティブにビデオとオーディオを処理することもできます。しかし、おそらくそれはご存知でしょう。
モデルカードと訓練データに関する示唆
だから、このモデルカードからお気づきでないかもしれない詳細を取り上げたかったのです。Googleは、私の意見では、訓練データについてPerplexityに軽い平手打ちをしています。彼らは訓練データについてほとんど情報を提供していません。彼らは「ただし、robots.txtは尊重しています。もしウェブサイトが、言い換えれば、クロールしないように私たちに伝えた場合、私たちはしません」と述べています。
これはもちろん、クロールすべきでないウェブサイトをスクレイピングすることで繰り返しトラブルに巻き込まれているPerplexityとは対照的です。Googleの弁護士の一団がこれについてPerplexityに何ができるかを考えるために集まっていると私は賭けます。長いコンテキストを離れる前に、特定のベンチマークは非常に長いテキスト全体に散りばめられた最大8つの秘密、パスワード、または詳細を投入します。
それから、モデルがこれらの秘密を取得できるかをテストします。長いコンテキストへの焦点を考えると、Gemini 3 Proがこのベンチマークで記録的なパフォーマンスを達成したことは、それほど驚きではないかもしれません。幻覚については、同じ話です。新しい最先端の記録ですが、70または72%を獲得することは、基本的にまだ多くの幻覚を起こすことを示しています。
私はかなり最近、OpenAIの論文をカバーしたビデオをPatreonで行いました。その論文は、幻覚は私たちがただ共存しなければならないものかもしれないと主張していました。完全になくなることは決してないかもしれません。強化学習が探索できる創造性を得るために、常にベースモデルが幻覚を起こす必要があるかもしれません。したがって、Gemini 3 Proのベンチマークを見るときにコンテキストは重要です。なぜなら、これは、GPT-5.1 Highが約70%を獲得しているのに対し、Gemini 3 Proが97%を獲得しているNew York Times拡張ワードコネクションテストのようなものを見ることができるからです。では、冬までにAGI到達でしょうか。
昨夜リリースされたNew York Timesとのインタビューでのデミス・ハサビスによれば、そうではありません。彼はまだ私のように、真の汎用人工知能に到達するには少なくとも1つか2つのブレークスルーが必要だと考えています。そして彼はそれを5年から10年先と見積もっています。
私はその予測の10年より5年に近いでしょう。しかし、それはそれとして。さて、コーディングAGIはおそらく一般的なAGIより前に来るでしょう。では、開発者にとってGemini 3 Proはどうでしょうか。まあ、ご想像の通り、さまざまなトークンのしきい値を超えると、価格がわずかに上昇します。コーディングに焦点を当てたベンチマークでは、ほとんどのコーディングベンチマークで記録的なパフォーマンスを示していますが、すべてではありません。
SWE Verifiedを例に取ると、Claude 4.5 SonnetはGemini 3 Proのパフォーマンスを1パーセントポイント上回っています。一つの注意点ですが、私はAnthropicが何らかの方法でベンチマークをゲーミングしていると言っているわけではありませんが、彼らはそのベンチマークに重点を置いています。最近のClaude 4.5 Sonnetのリリースでは、リリースノートでそのベンチマークのみを言及していたと思います。
したがって、Anthropicがその1つのベンチマークに全力を注いでいることを覚えておいてください。そしてGoogleはわずか1%遅れています。もちろん、コーディングのためにGemini 3 Proをテストしていますが、数日だけでは、確固たる答えをお伝えするには十分ではありません。まだ幻覚を起こします。まだ間違いを犯します。昨夜でさえ、私のコードベースでかなり重大な間違いを犯しました。
したがって、完璧ではないことは確かに言えますが、Cursorでの私の毎日のドライバーがClaude 4.5になるのか、Gemini 3 Proになるのかは、まだわかりません。GPT-5.1 Code Max が今週中に来る可能性が高いことを覚えておいてください。コーディングでは、レースはまだまだ続いています。しかし、このGoogle Anti-gravityとは何でしょうか。
Google Anti-gravityの可能性と現実
まあ、もしそれらのツールに慣れているなら、CursorとManisの結婚のようなものだと考えてください。なぜなら、私は長い間、いつ企業がコーディングエージェントとコンピュータ使用エージェントを組み合わせるのだろうかと疑問に思っていたからです。コーディングで何かに行き詰まったとき、モデルが何かを提案し、あなたがそれをプッシュし、自分でテストし、その後おそらくスクリーンショットとともに結果をモデルにフィードバックする中間者のように感じたことはありませんか。
まあ、Anti-gravityは、モデル自身がコンピュータを使用して自身のコードの結果を確認する完全なループを行います。現在、非常に申し込みが殺到しているため、常にGemini 3 Proにアクセスできるとは限らないと言わなければなりません。そして、アクセスできたとしても、その結果は完全に完璧ではありません。
なぜなら、例えば、LM Councilのさまざまなベンチマークのホログラムを作成させました。そして、はい、良いです。さまざまなベンチマークが浮かんでいて、ズームインできますが、ちょっと不格好で、ベンチマークは鏡像になっており、グローが重すぎます。
これはモデルのビジョンがまだそれほど良くないからでしょうか。それとも、質問ごとに使用するコンピュートを制限しているため、自身の結果を十分に分析しないのでしょうか。わかりません。基準が非常に高くなったため、これは今では貧弱なパフォーマンスとしてカウントされると言うかもしれません。しかし、それが今の現実です。
はい、Anti-gravityによって作成されたもののさまざまなデモを他の多くのチャンネルで見たことがあると確信しています。もしあなたが忍耐強く、モデルが考え出した結果を何度も何度もテストする意志があるなら、Anti-gravityに関するすべてのリリースビデオで特集されているような魔法のようなものを考え出すことができます。
技術的には、十分に忍耐強ければ、どのモデルでもそれを行うことができます。したがって、それは必ずしもどのモデルがコーディングに最適かを示す指標ではありません。しかし、Gemini 3 Proが真の人工知能への競争における新たな章を示すという私の主張には固執します。Claude 3.5か、おそらく3.7だったと思いますが、Simple Benchで大規模な記録を達成したときのことを覚えています。私は「信じてください。このモデルを試してください」と言いました。
当時、誰もがChatGPTを使用していました。そして、その後の6から9ヶ月間で、多くの人々が、特にコーディングとエンタープライズのために、Claudeに切り替えました。私にとって、Googleが今やリードを取ったことはかなり明確です。
しかし、Claudeとは異なり、中国のモデルを含めて、誰かがGeminiシリーズが進んでいるペースに追いつくのに何ヶ月、何年かかるかもしれないと私は疑問に思います。実際、それで思い出しました。Minimax M2と呼ばれていると思いますが、ベンチマークを忘れました。彼らが「Simple Benchでそれをベンチマークしてください」とメールを送ってきたからです。だから、おそらく本当にそれをやりに行くべきでしょう。
しかし、少なくとも今のところは、スポットライトを浴びているのはGemini 3です。そして、2年前にBardを深く批判するビデオを作ったことを覚えています。それ以来、私たちは長い道のりを歩んできました。ご視聴いただき本当にありがとうございます。素晴らしい一日をお過ごしください。


コメント