Googleが静かにリリースしたGemini 3 Deep Thinkは、現時点で世界最高性能のAI推論モデルである。競技プログラミングのCode Forcesで人間の世界8位に相当する3,455点を記録し、Arc AGI 2では人間平均を大きく上回る84.6%を達成するなど、複数のベンチマークで驚異的な性能向上を示した。さらに注目すべきは、このモデルを基盤とした自律型研究エージェント「Althia」の登場である。Althiaは数学者が何週間もかけて取り組む問題を自律的に解決し、人間の介入なしで学術論文を執筆・投稿するまでに至った。未解決数学問題700問のうち4問を自律的に解決し、PhD レベルの数学問題でも46%の正解率を達成するなど、AIが「研究の補助ツール」から「研究パートナー」へと進化したことを示す画期的な成果となっている。

Googleが静かに世界最強のAIをリリース
Googleが世界で最も賢いモデルをリリースしたのですが、誰もこのことについて話していないようです。Googleは本日、科学、研究、エンジニアリングにおける現代の課題を解決し、知能のフロンティアを押し広げるために構築された特殊な推論モデルであるGemini 3 Deep Thinkの大幅なアップグレードをリリースすると発表しました。
科学者や研究者との緊密な連携のもと、Gemini 3 Deep Thinkをアップデートしたとのことです。覚えておいてください、Deep Thinkは困難な研究課題に取り組むためのものです。このような課題では、問題に明確なガードレールや単一の不正解がないことが多く、データも乱雑で不完全なことがよくあります。これは今年最大のAIアップデートの一つだと思います。そうです、今年と言いました。
というのも、ベンチマークだけでなく、モデルの性能という点でも大幅な改善があったからです。これからベンチマークについて詳しく見ていきますが、完全に驚異的です。Googleはこのリリースを隠したとまでは言いませんが、このリリースを十分に宣伝しなかったと思います。
Humanity’s Last Examでの圧倒的スコア
Gemini Deep Thinkの最初のベンチマークの一つが「Humanity’s Last Exam」です。このHumanity’s Last Examを見てみると、その名前の通りに設計されています。つまり、人類最後の試験という意味で、この試験が完了すれば、基本的にはもう終わりということであり、AIが多くの学術領域で専門家レベルの推論に近づいているということです。
基本的にこのベンチマークは、数学、物理学、コンピュータサイエンス、論理学、科学的推論などの問題における高度な推論をテストします。もちろん、このベンチマークでは、モデルは電卓、コード実行、検索、外部ソフトウェアなどの外部ツールを使用できません。基本的に推論だけで問題を解決しています。
明らかに見て取れるように、Gemini 3 Deep ThinkはClaude 4 Opusをも上回っています。Claude 4 Opusは文字通り1週間前にリリースされたばかりです。これは明らかに驚くべきことです。なぜなら、少なくとも1、2ヶ月は待たないと限界的な改善は見られないだろうと思っていたところ、すでに8%の改善が見られているからです。
そして覚えておいてください、これはこのレベルでまだ解決されるはずのないベンチマークなのです。これがこれから見ていく継続的なテーマです。
Code Forcesで人間の世界8位に匹敵
次のベンチマークを見てください。これはCode Forcesで、間違いなくさらに驚異的です。Code Forcesは基本的に世界で最も権威のある競技プログラミングプラットフォームです。
プログラマーは時間制限のもとでアルゴリズム問題を解き、チェスのランキングと同様のELOスタイルの評価を受けます。1,200が初心者、1,600が堅実なアマチュア、1,900がストック競技者で、基本的に値は3,500まで上がりますが、これは人間にとっては基本的にあり得ないレベルです。歴史上の絶対的に最高の競技プログラマーのほんの一握りだけがこの範囲に触れたことがあります。
このチャートで何が見えますか? Gemini 3 Deep Thinkが3,455点を記録しているのが見えます。つまり、地球上のほぼすべての人間の競技プログラマーに匹敵するか、それを超えるレベルで実行しているということです。複雑なアルゴリズム推論、動的計画法、グラフ理論、数論、組合せ論について話しています。単にコードを書くだけでなく、真に数学とコンピュータサイエンスが出会う難問を解決しているのです。Claude Opus 4.6もまだかなり強力ですが、そのギャップは巨大です。1,100ポイントの差は大きな違いです。これは強力な人間の競技者と超人的なパフォーマンスの違いです。
これはゲーミングが非常に難しいベンチマークの一つです。なぜなら、問題は真の複数ステップの推論を必要とするからです。単なるパターンマッチングや記憶ではありません。もしこれらの数値が独立した評価機関などによる独立した評価で裏付けられるなら、基本的にGoogleが非常に驚くべき推論能力を持っていることを示唆しています。特に競技プログラミングが要求する深く構造化された論理的思考のようなものです。
私はこのすべてを視点に入れるツイートを見ました。すでに述べたように、Code Forcesがどれほど驚異的かはご存知でしょう。しかし、文字通りここで見ることができます。このツイートは「これは驚異的だ。Gemini Deep ThinkがCode Forcesで3,455点を記録し、世界で8番目に優れた競技プログラマーに相当する。以前のベストはOpenAIの o3による2,727だった。これはAIと技術全体にとって絶対的に超人的な結果だ」と述べています。
文字通り、これは世界で8位になります。つまり、現在これよりも優れているのは7人の人間だけです。これを本当に視点に入れると、かなり驚異的です。
MMU ProとArc AGI 2での飛躍的進歩
それだけではありません。MMU Proもあります。これについては大きな飛躍はありませんでしたが、理解しなければならないのは、このベンチマークはまだ飽和していないということです。大きな飛躍がまだ見られないベンチマークを見たときに通常そう考えるからです。このベンチマークでは飽和していません。
単にDeep Thinkが実際に何であるかというと、基本的に拡張されたチェーン・オブ・ソート推論です。この推論は数学、コーディング、論理ベンチマークで役立ちます。しかし、ご存知なかったかもしれませんが、MMUベンチマークは基本的にモデルが複雑な学術的ビジュアルを見て解釈できるかどうかをテストします。回路図、ヒストグラム、医療画像、美術史のプレートなどです。
ビジョンエンコーダーがその画像を誤読した場合、どれだけ余分に考えても修正できません。知覚エラーから推論で抜け出すことはできないのです。MMU Proはこれらの推論ショートカットに抵抗するように設計されました。元のMMUは基本的にゲーミングされていて、MMU Proは回答オプションを強化し、画像を真に理解せずに解決可能な質問を除外するためのフィルタリングを行いました。
つまり、残りの質問は真にマルチモーダルなグラウンディングを必要とするということです。これは基本的にアーキテクチャレベルの能力であり、推論時のスケーリングの勝利ではありません。MMUのようなベンチマークで実際に改善を得たい場合は、おそらくモデルのビジョンの改善を見る必要があるでしょう。だからこそ、このモデルを使用する場合、後でこれについてチュートリアルを作成しますが、Gemini 3 Pro preview以上のものを使用する意味はあまりありません。なぜなら、これは文字通り基本的に拡張された拡張推論バージョンだからです。だからDeep Thinkと呼ばれているのです。
もし90%のゲインを得ることができれば、次のモデルの反復で起こる可能性があり、おそらくそうなるでしょうが、それが起こったときにこれらのベンチマークを飽和させる可能性が高いでしょう。それは興味深いことです。
これを完全なベンチマークビデオにしたくはありません。しかし、Arc AGI 2があるという事実について話したいと思います。これもまた、ほとんどの人が思っていなかった時間枠でベンチマークが飽和しただけだと感じています。Arc AGI 2は悪名高く、少なくとも1、2年は時の試練に耐えるだろうと思われていた本当に難しいベンチマークの一つですが、わずか数ヶ月でGemini 3の30%から Gemini 3 Deep Thinkの84.6%まで上昇したことが明らかにわかります。
これはかなり驚異的です。なぜなら、このベンチマークに慣れていない場合、人間はこのベンチマークで平均約60%であることを覚えておいてください。これは視覚的推論パズルです。Deep Thinkが真の知性をテストし、記憶ではなく、特別に設計されたこのベンチマークを大幅に上回っているということを理解する必要があります。それはかなり驚くべきことであり、そのギャップはかなり大きいです。
Claude 4.6 Opusは68.8%です。しかし、30%から84%への推論ジャンプを考えてください。これはベースモデルから53.5%の改善です。これはかなり驚異的です。
Arc AGI 2が重要な理由
実際にこれがなぜ重要なのかを見てみると、記憶をテストする従来のベンチマークとは異なり、Arc AGIはモデルが以前に見たことのない新しいタスクに新しいスキルを学習する能力を測定します。
ほとんどのベンチマークは、似たようなデータでトレーニングすることでゲーミングできます。しかし、Arc AI2はパターンマッチングでブルートフォースできないように設計されました。実際の抽象的推論が必要です。Deep Thinkについてこれがどのように機能するかに慣れていない場合、これは基本的に反復ラウンドを使用して、応答を生成する前に複数の仮説を同時に探索する推論です。
基本的に、ここではスピードに焦点を当てるのではなく、正確性に焦点を当て、より多くの計算量を投入すると言っているのです。もちろんそのため、これは月額200ドルのティアにあります。すべての追加の思考時間に対して支払っているのです。
もちろん、このモデルは優れていますが、皆さんに知っておいてもらいたいことの一つは、基本的にこのモデルは科学研究のための本当のツールだということです。
科学研究における実用例
DeepMindのページで、Deep Thinkが科学者がより多くのことを達成できるようにしている3つの重要な異なる例について話していました。今からそれらの例を見ていきたいと思います。なぜなら、これが科学のフロンティアをどのように進めているかを見ることが重要だと思うからです。
最初の例は、ラトガース大学の数学者Lisa Carboneです。彼女は、アインシュタインの相対性理論と量子力学のギャップを埋めるために高エネルギー物理学コミュニティが必要とする数学的構造に取り組んでいます。
私は研究でAIを使用してきました。それは本当に発見を加速する可能性があります。無限次元代数と対称性における私の研究作業は、アインシュタインの重力理論と量子力学を組み合わせようとしている高エネルギー理論物理学コミュニティのための本当のツールです。私は同僚と論文に取り組んでいましたが、準備に数年かかりました。
ジャーナルに送る前に、Geminiでファクトチェックと検証を行うことにしました。すぐに「いいえ、それは正しくありません。命題4.2は記述通りでは数学的に正しくありません」と返ってきました。特定の一つの記述に関する私たちの数学的議論が互換性がない3つの別々の反駁できない理由を示しました。
これはかなり動揺させるものでした。なぜなら、論文はすでに査読されていたからです。私は議論しましたが、モデルはほとんどのAIモデルがするように、あなたが聞きたいと思うことを推測して私を宥めようとはしませんでした。理解するのに時間がかかりました。なぜなら、それは本当に私の思考プロセスの外にあったからです。モデルの推論は完全に正しかったのです。
論文はその主題における研究の最前線にあるため、モデルがトレーニングされた可能性のあるコンテキストやトレーニングデータはほとんどありません。ですから、高度に訓練された数学者の仕事をしたように見えました。それは私たちがその結果の完全な主張を必要としないこと、そしてより単純な結果が実際に真実であることに気づくのに役立ちました。
すべての自然の力の統一理論ができれば、私たち自身と宇宙についての理解を完全に変えることになるでしょう。
次に、Wangラボがあります。彼らはDeep Thinkを使用して、半導体材料の潜在的な発見のための複雑な結晶成長のための製造方法を最適化しています。
私たちのラボでは、新しい半導体を設計するためにDeep Thinkを使用しています。結果は素晴らしいことがわかりました。100ミクロンサイズの2D半導体を成長させたかったのです。Deep Senseが提案したレシピを使用して、130ミクロンのサイズを得ました。これは私たちのラボでこれまでの最高の結果です。
シリコンが理論的限界に達しているため、Matラボは Deep Thinkを使用して2D空間の新しい材料に取り組んでいます。二次元材料は、一分子の厚さを持つ材料のファミリーです。その厚さが非常に小さいため、未来のエレクトロニクスの自然な選択です。
二次元材料を成長させることは困難です。課題はパラメータをどのように選択するかです。ガスフローを調整し、また炉を使用して加熱する必要があります。専門家がパラメータの最適な場所を見つけるのに数週間、あるいは数ヶ月かかります。Deep Tankは単に温度の数値を与えるだけでなく、熱プロファイル全体を提供します。
それは科学の最近の進歩を蓄積しています。とても興奮しています。これは始まりに過ぎません。Deep Sink APIは現在の多くの機器を自動化する新しいドアを開きます。
それから、Anopam Pathがいます。彼はGoogleのプラットフォームおよびデバイス部門のR&Dリードで、Lyftwareの元CEOです。彼は新しいDeep Thinkをテストして、物理コンポーネントの設計を加速しました。
私は物を作るのが大好きです。私はいつも物を分解していた子供の一人でしたが、すぐにそれを使って人々を助けることができることに気づきました。優れたデザインの力は、世界を変革し、他の人々の人生をより良く変革できることです。
Gemini のDeep Thinkモードを使用することで、これまで以上に速く設計と反復ができるようになりました。これはスタートアップだったときに持っていた製品の一つです。これは脳性麻痺や脊髄損傷の人々のために設計されました。昨年、Deep Thinkが実際にデザインプロセスを10倍速くするのにどのように役立つかに多くの焦点を当ててきました。
画像を送信したり、プロンプトを送信したりするだけで、実際に考え抜いて、私たちが考えもしなかった新しいデザインのいくつかの候補オプションを思いつくことができます。私たちが行ったことの一つは、モデルに挑戦することでした。タービンブレードの画像を与えたところ、デザインを思いつき、そして実際にモデルと話してブレードのピッチや形状さえも変更することができました。
私自身はCADデザイナーではないので、それを作る方法を知らなかったでしょう。今日見られるAIツールは、加速剤としてより多く見ています。それが私を本当に楽観的で希望的にさせるものです。さまざまな材料オプションを迅速に探索し、今日存在しない研究課題や技術に焦点を当てることができます。
この世界にはまだ多くの多くの問題があり、物事をより良くし、製品をはるかに速く市場に投入する大きな機会があります。
これらの例が、これが単にベンチマークハッキングのようなものではないことを示してくれたことを願います。これは実際のエンジニア、科学者、人々が使用している実際のモデルです。
ですから、これは明らかに何らかのレベルの影響を与えるでしょう。もちろん、これが取る軌道を覚えておくことができると思います。
自律型研究エージェントAlthiaの登場
そしてそれだけでは終わりませんでした。GoogleはDeep Thinkをスタンドアロンモデルとしてリリースして終わりにはしませんでした。さらに一歩進んで、その上にAlthiaと呼ばれるものを構築することにしました。またはAlthiaです。
これは基本的に、専門レベルの数学、物理学、コンピュータサイエンスの問題を解決するために特別に設計されたAI研究エージェントです。これが重要なのは、これまでAIモデルは教科書の問題を解くのが得意だったからです。既に答えがわかっているようなものです。しかし、Althiaは異なります。
それはオープンな研究問題、数学者が10年間行き詰まっているような種類のものに向けられています。そして実際に進歩を遂げています。かなりの量の自律的な研究を行いました。実際にこれを見てみると、GoogleのAlthiaエージェントは基本的に最初から最後まで研究論文全体を書きました。人間の関与はゼロです。
誰もこれを導きませんでした。誰も編集しませんでした。誰も何を研究するか伝えませんでした。問題を選び、それを解決し、書き上げました。そして論文は実際の学術ジャーナルに出版のために提出されました。論文は算術幾何学におけるウェイトと呼ばれるものを計算します。正直なところ、それが何を意味するか知っているかどうかは重要ではありません。
重要なのは、この種の作業は通常、PhD数学者が週または月をかけて作成するものだということです。そしてAIはこれを自律的に行いました。これは、「それはあなたの研究を助けることができる」から「それは研究を行うことができる」へとAIが移行した最初の例です。それは根本的に異なることです。
AIツールからAIが同僚へ、そしてこの場合、休憩を必要としない同僚へと移行しています。しかし、さらに驚異的になります。GoogleはAlthiaを一つの問題でテストしただけではありませんでした。700の未解決の数学問題のデータベースにそれを向けました。これらはエルデシュ予想と呼ばれるもので、20世紀の最も偉大な数学者の一人であるポール・エルデシュによって提起された有名な数学問題のコレクションです。
これらの問題のいくつかは何十年も未解決のままです。世界中の数学者が基本的に何年もかけてそれらに取り組んできました。そしてAlthiaは700問を調べ、そのうち4問を自律的に解決しました。
ある特定の問題、エルデシュ1051では、AIは解決しませんでした。実際には、AIが見つけたものに基づいて数学者のチームによる独自の出版された研究論文となったより広範な一般化につながりました。
基本的に、ここで2つのモードが見えています。AIエージェントが単独で物事を解決する完全な自律性と、研究パートナーのように振る舞うコラボレーションです。両方とも機能しており、両方とも出版可能な結果を生み出しています。これは以前には本当に起こったことがありませんでした。
Googleは基本的に、これらのAI研究貢献がどれほど重要で、AIが人間に対してどれだけのことを行ったかをランク付けするための分類システムを作成しました。
上から下へ表を読むことができます。レベル3と4があり、これらは重要な、高度な、画期的な、ブレークスルーです。これらは空です。Googleは実際にここで正直であることを決定しています。AIはまだ癌を治したり、ミレニアム賞問題を解決したりしていません。それは今重要なコンテキストです。
しかし、レベル2を見ると、そこには出版可能な研究があります。その行は積み重なっています。これらの結果は実際の学術ジャーナルに提出するのに十分な品質であり、3つの列すべてにまたがっています。いくつかはAIが助けている主に人間でした。いくつかは真の50/50のコラボレーションでした。そして1つ、アイゲンウェイトの論文は本質的に自律的でした。AIはジャーナルワークなしで単独でそれを行いました。
右端の列、本質的に自律的を見ると、そこではAIがレベル0、レベル1で単独で問題を解決し、レベル2で出版可能な研究を生み出しています。その列は基本的に12ヶ月前には存在しなかったことを行っています。
ここでの全体像と、このすべての情報を掘り下げた後に私が気づいたことは、AIがテーブルを登っているのをリアルタイムで見ているということです。今のところ、レベル0から2を埋めています。問題は、レベル3や4に到達するかどうかではなく、いつかということです。そして、Deep Thinkがわずか6ヶ月でどれだけ速く改善したかに基づくと、その時間は誰もが予想するよりも短いかもしれません。
Althiaの動作メカニズム
もしこのAIエージェントAlthiaが実際にどのように機能するか知りたい場合、基本的に賢い人間が難しい問題を解決する方法です。
何をするかというと、答えを生成し、次に基本的に自分の作業をチェックし、答えが正しければ完了で、送信できます。しかし、小さなミスがある場合は、それを修正するためにリバイザーに送ります。答えが完全に間違っている場合は、それを捨ててゼロから再スタートします。そして正しくなるまでこのループを何度も何度も実行し続けることに決めます。
エッセイを校正し、悪い部分を書き直す学生のようなものだと考えてください。これも同じことですが、数秒で何百回も行います。
これの結果を見たい場合、かなり驚異的です。このグラフは、物事がどれだけ速く動いているかを示しています。
6ヶ月間隔でテストされた同じモデルの2つのバージョンを見ています。濃い青い線は2025年7月のDeep Thinkで、これは国際数学オリンピックで金メダルを獲得したバージョンです。当時それは見出しニュースでした。どれだけ思考時間を与えても、約65から68%でマックスアウトします。
今、薄い青い線を見てください。これは2026年1月のバージョンです。同じモデルファミリーの6ヶ月後です。さらに高くスタートし、さらに速く登り、約90%でピークに達します。グラフ上のすべての単一ポイントで、新しいポイントが古いものを圧倒しています。
これら2つの線の間のギャップは6ヶ月の進歩です。下軸は、モデルがどれだけの時間、つまり思考時間を得るかで、もちろん問題を推論するためのより多くの計算時間です。
基本的に左から右に移動すると、モデルはどんどん難しく考えます。パターンは基本的に明確です。より多くの思考はより良い答えに等しい。しかし、新しいバージョンは、古いバージョンがそうしたよりも、その余分な思考時間からはるかに多くを得ています。
緑の星はAlthiaで、Deep Thinkの上に構築された研究エージェントです。Deep Thinkがピークに達する場所よりも少ない計算量で、約93から94%に位置していることに注目してください。つまり、その周りの実際のラッパーはより効率的です。つまり、より賢く、より効率的にしているということです。より多くの計算量で答えをブルートフォースしているだけではありません。基本的により多くの知性で推論しています。
数学オリンピック問題で6ヶ月で65%から90%へ。これはこの分野を注視し続けるべき改善率です。
PhD レベルの数学問題への挑戦
この1つを見てみると、ここでかなり謙虚になります。なぜなら、最後のグラフは数学オリンピックレベルで、これらは難しいですが、学生向けに設計された問題です。
このグラフはPhDレベルの数学です。専門の数学者が実際のキャリアで取り組むような種類のものです。左側でモデルがどこから始まるか見てください。最小限の思考時間では文字通り0%です。一つも解決できません。これらの問題は難しいのです。
より多くの計算量を与えると、登ります。しかし、前のグラフと比べてどれほど混乱しているか見てください。30%に急上昇し、17に戻り、20%台前半に跳ね返ります。モデルは苦労しています。これは基本的にモデルを限界まで押しています。
次に、グラフの右端を見ると、深刻な計算量を投入すると、線はついに突破して約38%まで登ります。最後のその上昇軌道が最も重要な部分です。それは、より多くの思考がより良い結果に等しいことを意味します。スケーリング法則はこのレベルでも機能し、まだ天井に達しておらず、まだ登っています。
そして再び、緑の星、つまりAlthiaを見ると、約46%に座っており、このエージェントは生のDeep Thinkを大幅なマージンで上回っており、より少ない計算量でそれを行っています。
先ほど見たフローチャートからの生成-検証-修正ループが、ここで本当の仕事をしているのです。AIが自分自身の推論をチェックして修正できるようにすることが、PhDを持つほとんどの人間が苦労するような問題で38%と46%の違いを生んでいます。
このすべてからの大きな持ち帰りは、AIが「PhD問題を一つも解決できない」から「ほぼすべてを解決する」へと移行しているのを見ているということです。そしてその曲線はまだ上昇しています。
このビデオを見るのは本当に驚異的でした。Googleが実際に示してくれた1つのユースケースは、モデルが基本的にスケッチを3DモデルのSTLに変換し、ラップトップホルダーとして実際に使用できるというものでした。
おそらくこのビデオが公開されてから5、6時間後にこれについてのチュートリアルを作成すると思いますが、このモデルがどれだけ驚異的で、Googleがどこまで来ているかを示すだけだと思います。
Googleがこのモデルについてさらに話さなかった理由はわかりませんが、それは確かに驚くべきものです。


コメント