Googleが発表したGemini Deep Thinkの最新版は、単なるベンチマークスコアの向上以上の意味を持つ。本リリースには3つの異なる要素が含まれている。消費者向けのDeep Think Version 2、研究エージェントEliteia、そして18の研究問題を解決した2つの論文である。最も重要なのは、テスト時計算の効率化による100倍の性能向上と、エージェントレイヤーが基盤モデル単体よりも大きな能力向上をもたらすという事実だ。Eliteiaは生成・検証・修正の3段階ループを用いて、数学の研究レベルの問題に対して91.9%の精度を達成した。これは従来の65.7%を大きく上回る。ただし、700件の未解決問題のうち自律的に解決できたのは4件であり、成功率は6.5%に留まる。GoogleのDeep Mindは自らの成果を控えめに評価し、レベル0から2の成果であり、重大な進歩や画期的発見には至っていないと明言している。この正直な姿勢は、AI業界における誇大宣伝が蔓延する中で際立っている。

Gemini Deep Thinkの真の意味
GoogleがGemini Deep Thinkのアップデートを発表しました。今回はGemini 3によって駆動されています。そしてベンチマークの数値を見て、みんなかなり興奮しているようです。ARC AGI 2で84%、数学・物理・化学のオリンピアードで金メダル、Code Forceで伝説的なグランドマスターのスコアを獲得しています。
確かにこれらは印象的な数字です。しかし、もしこれだけを今回のリリースから受け取るとしたら、実際のストーリーを見逃していることになります。
Googleは実際には3つのことを同時に行ったのですが、ほとんどの人がそれらを1つの発表として混同しています。まず、サブスクライバー向けに出荷されるDeep Think Version 2の製品アップデートがあります。次に、誰も本当に語っていないけれど非常に重要な研究エージェントEliteiaがあります。そして、18の解決された研究問題を記録した2つのarXiv論文があります。
消費者に提供されたものと、研究ラボで起きていることの間の距離こそが、今回の本当のストーリーなのです。では、それを分解してみましょう。
ベンチマークの詳細
まず最初に、ほとんどの人が話題にしているベンチマークについて片付けておきましょう。Humanity’s Last Examでは48.4%を記録しています。これは、人類の知識に関してフロンティアモデルの絶対的な限界をテストするために特別に設計されたベンチマークです。
それからARC AGI 2があります。ここでは84.6%を達成しており、これはClaude Opus 4.6を15ポイント上回り、GPT-5 2.0を30ポイント以上上回っています。これはかなりクレイジーな数字です。私たちはこれを予想していなかったと思います。
そしてCode Forcesがあります。ELOスコアで3455を獲得しており、これは非常に驚異的です。なぜなら、この数字はGemini 3 Deep Thinkを現時点で世界第8位のコンピュータープログラマーの位置に置くからです。控えめに言っても、これは非常に信じられない偉業です。
プログラマーとしてのGemini 3の実際の効果について、他のモデルと比較した議論が多くあります。それについては後ほどビデオの中で話します。
ARC AGI 2スコアの重要性
では、このARC AGI 2のスコアについて具体的に話しましょう。これはおそらくDeep Thinkにとって最も重要な結果の1つだからです。
まずコストの話です。Deep Thinkはタスクあたり約13.62ドルかかります。これは実は以前のDeep Thinkバージョンより82%安いのです。
これが重要なのは、Poeticという会社が通常のGemini 3 Proの上にエージェント的なハーネスを構築して、ARC AGI 2で54%を達成し、タスクあたり31ドルだったからです。これは以前のDeep Thinkバージョンのタスクあたり77ドルよりもはるかに安いものでした。
つまり、これらのシステムは合理的な効率で極めて賢くなっているのです。これはDeep Thinkが実際に何であるかについて何かを教えてくれます。
考慮すべき点の1つとして、GoogleがGemini 3 Deep Thinkについて報告したベンチマークの一部は、他のプロバイダーとのツールオフの比較に対してツールオンを使用しているということです。
Deep Thinkの技術的な仕組み
しかしその前に、Deep Thinkが技術的に何であるかについて話しましょう。これは重要です。なぜなら、多くの人がこれを別のモデルだと考えているからです。そうではありません。
Deep ThinkはGemini 3内の推論モードです。同じベースモデルですが、インフェレンス時に追加の計算リソースを割り当てるのです。つまり、可能な限り速い答えを提供する代わりに、応答する前により長く考えるのです。
これを理解するために、ここに非常に高レベルの概要があります。標準的なChain of Thoughtは線形です。ステップ1、ステップ2、ステップ3で、モデルは完了します。
Deep Thinkの場合は何か違うことをします。Deep Thinkは大きく異なることをします。複数の仮説を並行して探索し、それぞれをテストし、最良のものを洗練させ、検証してから答えを出すのです。
そしてより重要なことに、バックトラックできるのです。つまり、仮説1を進んで行き止まりに当たった場合、逆コースを取ることができます。標準的なChain of Thoughtではそれができません。
さらに重要なのは、推論ラウンドの数も動的だということです。単純な質問は2〜3ラウンドかもしれませんが、複雑な物理学の問題は10ラウンド以上になるかもしれません。
効率化の飛躍的進歩
ここで最も重要な実際の数字があります。2026年1月版のDeep Thinkは、2025年7月版と比較して、オリンピアードレベルのパフォーマンスに必要な計算量を100分の1に削減しました。そして、インフェレンス時のスケーリング則は、オリンピアードの問題を超えて博士レベルの演習にまで継続することを示しました。
より大きなモデルは必要ありません。必要なのは、インフェレンス時の計算のよりスマートな割り当てです。モデルにより長く考えさせ、途中でより多くのパスを探索させ、必要に応じてバックトラックさせれば、ウェイトに触れることなく劇的に良い結果が得られるのです。
Eliteiaの登場
製品アップデートと並行して、Deep MindはEliteiaを導入する論文を発表しました。これが私には最も興味深いアップデートだと思いますが、誰もこれについて話していません。
これはDeep Thinkの上に構築された研究エージェントであり、技術が正確にどこに向かっているかを示しています。Eliteiaエージェントは3部構成のループとして機能します。ジェネレーター、ベリファイア、リバイザーです。
まずジェネレーターが研究タスクや問題を受け取り、候補となる解決策を提案します。次にベリファイア、これは別の自然言語メカニズムですが、解決策の欠陥をチェックします。これは正しく見えるかどうかを見るだけでなく、実際に論理のギャップや幻覚を探るのです。
そして、このアーキテクチャ全体の最後のステップがリバイザーです。これは基本的にマイナーな問題にパッチを当てるか、解決策が致命的に欠陥がある場合は、ジェネレーターに戻って完全な再スタートをトリガーします。
Eliteiaの2つの画期的特徴
私が個人的に非常に興味深いと感じた点が2つあります。まず第一に、EliteiaはウェブブラウジングでGoogle検索を使用して、実際の数学文献をナビゲートします。これは大きなことです。なぜなら、基盤モデルは専門分野で引用を常に幻覚するからです。この場合、Eliteiaは引用を特定の参照に根拠づけているのです。
第二に、問題を解決できないときにそれを認めることができるのです。これは大きなことです。なぜなら、LLMは設計上非常に自信があり、結果を幻覚したり、でっち上げたりするからです。しかし、彼らは特にこのエージェントに、問題を解決できないときにそれを認めるように訓練したのです。
では、Eliteiaは実際に何を達成したのでしょうか。Advanced Proof Benchで91.9%を見ています。以前の記録は65.7%でした。これは単なる漸進的な改善ではありません。
最も興味深い点がここにあります。Eliteiaが実際に解決策を返した30問中29問において、その条件付き精度は98.3%でした。
しかし、最も重要な結果はこれです。Eliteiaは、彼らがテストした標準的なDeep Thinkの計算スケールを上回りました。つまり、この生成・検証・修正ループを持つエージェントラッパーが、ベースモデルに生の計算を投げるだけよりも重要になるということです。これは重要です。
つまり、モデル自体の周りのハーネスが、単にテスト時計算を増やそうとするよりも重要になるということです。
エージェントレイヤーの重要性
このパターンはどこでも見られます。PoeticはARC AGI 2で生のDeep Thinkを打ち負かしました。それが以前の最良でした。ツール付きのClaude Codeは、ベースのOpusやエージェントモデルよりも優れたパフォーマンスを発揮します。
だから、今年のメタレッスンは非常に明確になると思います。エージェントレイヤーこそが、ベースモデル自体だけでなく、実際の能力向上がもたらされる場所なのです。
この点について、Ken Bulockによる非常に興味深いブログ投稿があります。そこでは、モデルがアクセスできるツールを変更するだけで、モデル自体のパフォーマンスを5〜8%簡単に向上させることができることを示しました。これは通常、次世代モデルへのアップデートでも不可能なことです。これは非常に興味深い点です。おそらく別のビデオでそれをカバーします。
18の研究問題への取り組み
EliteiaとDeep Think Gemini 3とともに、彼らは2つの異なる興味深い論文も発表しました。1つ目は「自律的な数学研究に向けて」、2つ目は「Geminiで科学研究を加速する:ケーススタディと一般的な技術」です。これらの中で、彼らは18の研究問題についてドメインエキスパートと協力しました。
単なるベンチマーク問題の話ではありません。なぜなら、みんながベンチマークについて話していると思いますが、これらは人間が行き詰まっていた実際のオープンな研究問題であり、Gemini 3に基づくエージェントシステムが実際にこれらの研究問題のいくつかを解決するのに役立つことを示しているからです。これは魅力的です。なぜなら、これからこれらのエージェントシステムの助けを借りて研究ができるようになるからです。
興味深いものを3つ話しましょう。合計で18ありますが、もし興味があれば、このブログ投稿と論文に記録されています。
1つ目は、10年来の予想を否定することができたということです。2つ目の例では、完全に無関係な数学の分野からツールを引っ張ってきて、未解決の問題を解決するために数学的境界を越えました。3つ目のケースでは、暗号学における重大なエラーを捕捉しました。
これらはどれも私のドメイン専門知識ではないので、何か知っているふりをするつもりはありませんが、ブログ投稿にありますので、興味がある方には強くお勧めします。
AI数学解決の誤解を避ける
さて、誰かがAIが数学を解決したと主張するビデオを作り始める前に、実際に私が強調したい非常に重要なことがあります。それは残念ながら、私たちが目にする見出しでは無視されがちです。
ここで彼らは言っています。「この論文の結果は、AIが研究レベルの数学問題を一貫して解決できることを示唆するものとして解釈されるべきではありません」
これは非常に重要です。なぜなら、以前いくつかのフロンティアラボが特定の問題セットを解決したと主張し、それを撤回しなければならなかったからです。
では、Google DeepMindが正確に何を言っているのか見てみましょう。まず第一に、Erdos問題セットにある700の未解決問題のうち、200のAI生成応答にフィルタリングし、それを人間が採点しました。
その200のうち、63が技術的に正しく、4つが自律的に解決されました。研究グレードの問題に対する成功率は約6.5%です。これは小さく見えるかもしれませんが、私たちがこれまで見てきた以前のモデルと比較すると、これは重要な成功率です。
AI解決策の分類体系
Deep Mindはまた、AIで研究問題を解決することについて、どのように考えているかの分類体系も作成しました。AIシステムによって提案される解決策には4つの異なるレベルがあります。
レベル0は既知の結果の再現であり、これはいくつかのOpenAIモデルで起こっています。レベル1は新規だが漸進的です。レベル2は彼らが出版可能な品質と呼んでいるものです。レベル3は大きな進歩です。そしてレベル4は彼らが画期的な発見と呼んでいるものです。
彼らは明確に、レベル3またはレベル4の結果を主張していないと述べています。彼らが発表したものはすべて、レベル0からレベル2までです。
これは新鮮なほど正直です。企業が定期的に漸進的改善によって革命的な画期的発見を主張する分野において、DeepMindは「私たちは出版可能な品質にいます。まだ大きな進歩には至っていません」と言ったのです。
実世界での実験
このリリースの前に、Googleは実際に実世界の実験を行いました。彼らはNeurIPS 2026カンファレンスの著者に、以前のバージョンのDeep Thinkによって生成された提出前のフィードバックを提供しました。
このツールは論文を数学的正確性についてレビューし、計算エラー、不正確な不等式の適用、証明における論理的ギャップなど、論文を成立させたり破壊したりする実際のものを特定しました。これは私にとって、この技術の非常に興味深い応用だったと思います。
正直なところ、これはおそらく私たちが見ているどのベンチマークよりも私にとって重要です。私たちが見ているのは、トップの学術会議での論文レビューにすでに統合されているAIツールです。レビュアーを置き換えるのではなく、むしろ著者が提出前にエラーを捕捉するのを助けるのです。
3つの重要な要点
では、この新しいリリースから正確に何が得られるのでしょうか。3つあると思います。
第一に、インフェレンス時の計算スケーリングは機能し、劇的に効率的になっているということです。6か月で同じ品質に対する計算量が100分の1に削減されたという話です。
ここでは、より大きなモデルがより良いという話ではありません。これは、エージェントループ内でのよりスマートな思考がより良いということであり、これは私たちが過去数年間で生きてきたものとは根本的に異なるスケーリングパラダイムです。
第二に、ハーネスとエージェントが生のモデルよりも優れているということの重要性です。エージェントシステムを構築している場合、オーケストレーションレイヤーが最も重要になります。なぜなら、ここでモデルの再トレーニング以外に最も大きな利得が得られると思うからです。
そして第三に、AI研究協力者の初期の一端を見ているということです。単にコードを生成できるコーディングエージェントではなく、実際に研究を行い、難しい問題を解決できるAIシステムです。
これらは非常に初期の段階です。私たちが見たように、最も難しい問題に対する成功率は6.5%です。しかし、それでも、これは単なる次のトークンジェネレーターであるはずのシステムにとっては謙虚なことです。
コーディングシステムと同様に、これらはあなたのいくつかのタスクを手伝ってくれる、能力のあるジュニア研究者の初期の兆候だと思います。本当にエキサイティングな時代であり、私は実際に、単なるベンチマークや私たちが作成する通常のデモを超えて、これがどこに向かうのか楽しみにしています。
これは非常にエキサイティングなことです。1つ注意があります。通常のワンショットプロンプトでGemini 3 Deep Thinkを試さないでください。これはおそらくあなたを感動させないでしょう。しかし、難しい技術的問題がある場合は、ぜひ試してみることを強くお勧めします。きっと驚くと思います。
とにかく、このビデオが役に立ったことを願っています。ご視聴ありがとうございました。そしていつものように、次回お会いしましょう。


コメント