Gemini指数関数的進化、Demis Hassabisの『プロトAGI』が到来するが…

AGI・ASI
この記事は約19分で読めます。

Google DeepMindが発表したGemini 3 Flashは、従来のGemini 2.5 Proを大幅に上回る性能を示し、コーディングや数学、視覚的推論において顕著な進歩を遂げている。しかし、このモデルには「分からない」と答えることを避け、誤答を出力する傾向という重要な弱点が存在する。Demis Hassabisと共同創業者Shane Leggは、現在の言語モデル、世界モデル、画像生成システムを統合することで「プロトAGI」に到達できると予測しており、その時期を約2年後と見積もっている。一方で、OpenAIを含む各社の計算資源への投資は2028年頃から指数関数的成長が鈍化する見込みであり、訓練データの確保も課題となっている。物理理解や空間推論においては依然として課題が残るものの、次の2年間でAI技術は劇的な進化を遂げる可能性が高い。

Gemini Exponential, Demis Hassabis' ‘Proto-AGI’ coming, but …
The condensed highlights of hours of AI lab leader interviews, last-48-hour model releases, Gemini 3 Flash insights (plu...

Gemini 3 Flashの衝撃的な性能向上

過去48時間で、私たちは2つの主要なモデルリリースと、それらに関するトップリーダーたちからの約10時間分のインタビューを目にしました。その洞察を、私はわずか15分程度に凝縮してお伝えしようと思います。というのも、Gemini 3 FlashはGoogleがついにあなたをChatGPTやClaudeから乗り換えさせようとする試みであり、その結果は驚異的に見えるからです。

これから結果を見ていきますが、Google DeepMindの共同創業者2人が登場します。両者とも、LLMパラダイムがこの指数関数的成長を続け、それほど遠くない将来にスケッチされたプロトAGIモデルに到達すると見ています。しかし、そのビジョンにはいくつかの問題があり、特に見逃してほしくない結果が1つあります。では、始めましょう。

まず生の数値をいくつか見ていきましょう。そして、Geminiのflashバージョンは高速版であり、ほぼ即座に回答できるものだということを覚えておいてください。皆さんもご存知のように、すべての企業にはモデルのproバージョンがあり、通常は質問に答えるのにはるかに長い時間、しばしば数分かかります。2日前にリリースされたGemini 3 Flashと、今年6月時点での最先端モデルであるGemini 2.5 Proとの比較に注目してください。

学術的推論、視覚的推論、科学知識、コーディング、数学のいずれについて話していても、結果はそれほど接戦ですらありません。しかもこれは劇的に高速なモデルでのことです。例えば、ツールへのアクセスなしでも、新しいGemini 3 Flashは非常に難しい数学ベンチマークであるAIMにおいて、エラー率をおおよそ半減させています。

繰り返しますが、これは夏のGemini 2.5 Proの88%と、2日前のGemini 3 Flashの95.2%を比較しているのです。実際、テーブルやチャート分析、動画分析、あるいはエージェントとして動作する場合など、どの領域を指摘しても、Gemini 3 Flashは夏の以前の大規模モデルのパフォーマンスを上回っています。もちろん、特定のベンチマークセットに最適化することはできます。

そして今朝、Googleが実際にソフトウェアエンジニアリングのパフォーマンスを最適化するために特別なタイプのポストトレーニングを適用したことが分かりました。コーディングをする方々は、Gemini 3 Flashがわずか数週間前にリリースされたより重いモデルであるGemini 3 Proを上回っているのを見て、やや懐疑的かもしれません。これらの結果に夢中になって、ChatGPTは一般消費者にとって終わりだと言うのは非常に簡単でしょう。そしてJim Kramerが指摘するように、Geminiははるかに速く成長しています。

Jim Kramerは多くのことについて間違っているので、OpenAIの応用研究責任者はこれをChatGPTにとって素晴らしい兆候だと受け取りました。しかし現実は、見出しが示すよりも常に複雑です。なぜなら、Gemini 3 Flashは確かに素晴らしいモデルですが、重要な弱点があるからです。そして、もしChatGPTが死にかけているなら、それはOpenAIをどんどん高く評価し続けている投資家たちにとって間違いなくニュースです。

プロトAGIへの道と隠された真実

Demis HassabisとDeepMindのもう1人の共同創業者が描くプロトAGIに進む前に、Gemini 3 Flashについてもう少しだけ時間を使いたいと思います。なぜなら、AIモデルリリースについての秘密があり、新しいモデルが発表されたときに皆さん全員に知っておいてほしいからです。その秘密とは、モデルは誤った回答に対してめったに罰せられないということです。

彼らは「分かりません」と言うようインセンティブを与えられていません。したがって、OpenAIやGoogle DeepMind、Anthropicのような企業は、モデルに次のように指示する強いインセンティブを持っています。試し続けなさい。より長く考えなさい。自己修正しなさい。別の方法を試しなさい。最終的な答えを得るために何でもしなさい。ここに、6,000問の知識と事実の想起をテストするベンチマークの1つの例があります。

Gemini 3 Flashが、より長く考える重いモデルであるGemini 3 Proを含む他のすべてのモデル、GPT-5.2やGrok 4、その他名前を挙げられるすべてのモデルを打ち負かしているのが分かるでしょう。少なくとも、ベンチマーク内のすべての質問のうち、正しく答えた質問の割合で測定する場合はそうです。しかし、モデルには「分かりません」と言う選択肢が与えられており、Gemini 3 Flashがその選択をすることはめったにありません。

Gemini 3 Flashが正解できなかった質問のうち、91%は誤った回答を出力したためでした。幻覚で誤った回答をしたと言ってもいいでしょう。わずか9%の場合にのみ、質問に取り組まなかったか、部分的な回答だけを提供しました。これは例えば、GPT-5.1と比較すると、「分かりません」と言うのと間違えるのが約半々でした。

モデルに質問をするとき、あなたはどちらを好みますか?正確な回答の割合がわずかに高いが、作り話や幻覚の可能性がはるかに高い方か、正解はわずかに少ないが、はるかに正直な「分かりません」が多い方か?OpenAIは9月にさらに踏み込んで、大規模言語モデルからの不確実な応答にペナルティを課す流行病があると述べました。

これに対処するために、社会技術的な緩和策が必要です。常にどんな答えでも与えようとして正しいと主張するモデルではなく、分からないと言うモデルに報酬を与え、称賛し始める必要があります。興味があれば、私は9月にPatreonでその論文について完全な動画を作りました。多くの人は逆の極端に走り、「じゃあ、あのGemini 3の結果はすべて偽物で誇大宣伝だ」と言いたくなるかもしれません。

しかし、最終的に複雑なデータ内のパターンを見つけ出すことは、例えば創薬において望ましいことです。あるいは視覚的推論パズルを取り上げてみましょう。Gemini 3 FlashシリーズがARG-2で非常に優れた成績を収めているのも不思議ではありません。これはこれらのモデルの訓練データに含まれている可能性が極めて低いデータ内のパターンを見つけるテストです。

Gemini 3 Flashは、トークンあたりのコストが同等のモデルよりもはるかに低いため、これほど多くの時間を考えることに費やすことができます。一部の人々は、これらのベンチマークはモデルがそれらのベンチマークで訓練しているだけなので無関係だと言うでしょう。答えが彼らの訓練データに漏れているのだと。しかし、私たちには外部ベンチマーク、プライベートベンチマークがあります。

そして、それらの多くの中の1つが、私自身のSimple Benchです。これは通常空間推論の要素を持つ数百のトリック質問をします。新しいGemini 3 Flashが61.1%を獲得しているのが分かります。これは、Claude Opus 4.5やGPT-5 Proのような、はるかに重く遅いモデルに匹敵します。Googleが自社の利用規約に違反していない限り、彼らはこのベンチマークをゲーム化しておらず、偽のモデルではありません。

本当にかなり賢いのです。しかし、皆さんの多くは、OpenAIが最近GPT-5.2をリリースしたことを知っているでしょう。私はそれについて完全な動画を作りましたが、それは特にコーディングと科学に焦点を当てています。Sam Altmanは本当に彼のモデルの1つに新しい科学を発見してほしいと思っていますが、ほぼ10億人にサービスを提供するためのより小さく安価なモデルを持ち、それをコーディングと科学に最適化すると、トリック質問や空間推論ベンチマークであるSimple Benchのような他のモデルや、彼ら自身の以前のモデルと比べてもうまくいかない可能性があるのは理にかなっています。

だから、GPT-5.2が私自身のSimple BenchでGPT-5.1やGPT-5を下回ったのを見ても、実際には驚きませんでした。OpenAI自身のスタッフの一部は驚いたようで、テスト設定かシステムプロンプトの不一致か何かに問題があるように感じると言っていました。これは、テストされたすべてのモデルでシステムプロンプトが同一であるにもかかわらずです。

私たちはまた、複数回の実行でパフォーマンスを平均化しています。そして、このツイートとそれに対する反応を見たので、私は実行全体をやり直し、GPT-5.2とGemini 3について非常に似た結果を再び得ました。そして知っていますか?つい昨日、OpenAIはコーディングに最適化されたモデル、GPT-5.2 Codexをリリースしました。

そして彼ら自身の内部ベンチマークの1つで、それは以前のイテレーションであるGPT-5.1 Codexよりも低いスコアを記録しました。このベンチマークは、自己改善能力の非常に間接的なテストのようなものと考えることができます。これは機械学習エンジニアリングベンチマークです。そしてGPT-5.2 Codexは10%を獲得したのに対し、GPT-5.1 Codex Maxは17%を獲得しました。おそらく5.2 Codexは思考により少ない時間とトークンを費やしているのでしょう。

分かりません。しかし、ポイントは、現実は常に見出しよりも複雑だということです。おそらくDemisは、なぜGoogle GeminiモデルがSimple Benchで少し良い成績を収める傾向があるのか、そして今後の道筋がどのように見えるかについて、いくらか光を当てることができるでしょう。私はGoogle DeepMindとOpenAIのトップとのインタビューをほぼ10時間分視聴または聞いて、ハイライトだけをお届けしました。

物理理解の課題とプロトAGIの構想

そして、この最初のものはSimple Benchに直接関係しています。画面には、私のベンチマーク内にあるものと非常に典型的な質問が表示されています。しかし、現時点でのHassabisはこう言っています。彼は、モデル内の物理理解は非常に近似的だと述べました。そうです、シミュレーションエージェントを訓練しようとするとき、Genieに間違った物理を幻覚してほしくありません。

だから実際に今私たちがやっているのは、ほとんど物理ベンチマークを作成しているようなもので、ゲームエンジンを使用できます。ゲームエンジンは物理において非常に正確で、Aレベルの物理実験室のレッスンでやるような、かなりシンプルなことをたくさん作り出すことができます。分かりますよね?例えば、小さなボールを異なるトラックの下に転がして、どれくらい速く進むかを見るようなことです。

そして、非常に基本的なレベルで、ニュートンの運動の3法則のようなものを本当に分解しているのです。それをカプセル化しているでしょうか?VoであれGenieであれ、これらのモデルはその物理を100%正確にカプセル化しているでしょうか?そして今のところ、していません。それらは一種の近似であり、カジュアルに見たときには現実的に見えます。

現時点で、Google DeepMindは物理世界をより良くシミュレートし理解するために、Genie 3のような別個のモデルを訓練しています。私はこのモデルについて完全な動画を作りましたが、本質的にはゲーム環境を含むあらゆる環境をシミュレートでき、それらの環境内を移動して相互作用でき、少なくとも最大1分間はその環境内で行ったことを記憶します。

それとは別に、Google DeepMindはSimmer 2を訓練しました。これは、仮想3D世界であなたと一緒にプレイし、推論し、学習するゲームコンパニオンまたは彼らが言うエージェントです。追いついていますか?それは、あらゆる世界を想像できるGenie 3と、それらの世界内でプレイし、長期計画を構築し、コンピュータへの実際のコマンドでそれらに基づいて行動できるSimmer 2です。

あなたは、Imagen Banana Proについても聞いたことがあるかもしれません。これは依然として、テキストだけから画像を作成する画像生成の最先端モデルだと思います。さて、そうです、OpenAIがちょうどGPT-5.1を発表したことは知っていますし、私はこれら2つのモデルを比較する時間を費やしましたが、私にとってはImagen Banana Proがわずかに優位だと思います。少なくとも非常に接戦です。

しかし、それは私が言いたかったポイントですらありません。なぜなら、Googleはもちろん、VO3.1モデルで画像を動画に変換することもできるからです。多くの皆さんが遊んだことがあるかもしれませんが、つまり、私はGoogleがシミュレーションのために取り組んでいる異なるシステムの数を追跡しきれなくなりそうです。そしてDemis Hassabisは、それらすべてを一緒にまとめたいと明かしました。

それが彼にとってプロトAGIになるでしょう。「現在AI全体で起こっているすべてのこと、言語モデル、世界モデルなどの中で、あなたのAGIのビジョンに最も近いものは何ですか?」

実際には組み合わせだと思います。明らかにGemini 3があり、これは非常に有能だと思いますが、先週ローンチしたImagen Banana Proシステムもあります。これは画像作成ツールの高度なバージョンです。本当に素晴らしいのは、その下にGeminiも搭載しているということです。だから画像だけでなく、それらの画像で何が起こっているかを意味論的に理解しています。

つまり、力学や、オブジェクトの部品を構成するもの、材料が何かについてのある種の深い理解を持っており、テキストを今では本当に正確にレンダリングできます。だから、それはイメージングのための一種のAGIに近づいていると思います。画像全体にわたって何でもできる汎用システムの一種だと思います。だから、それは非常にエキサイティングです。そして世界モデル、GenieやSimmerで私たちがやっていることの進歩。そして最終的には、それらすべての異なるものを収束させなければなりません。現時点では異なるプロジェクトの一種で、相互に絡み合っていますが、それらすべてを1つの大きなモデルに収束させる必要があります。そうすれば、プロトAGIの候補になり始めるかもしれません。

その「プロトAGI」という引用と、それらすべての異なるシステムをまとめることのタイミングは、現在のパラダイムをさらに2年間スケーリングすることと一致するでしょう。言い換えれば、API経由でほとんど誰も使っていなかったGPT-3モデルから今日のGemini 3まで私たちを連れてきたすべてのことです。そして、DeepMindのもう1人の共同創業者Shane Leggによれば、その継続的な投資は「ミニマルAGI」につながるでしょう。

AGIはこの単一のイエスかノーかのような、超えるべき閾値であるべきではなく、むしろある種のスペクトラムのようなもので、これらのレベルがあるとあなたは考えていると知っています。それについて話してください。

はい。私には「ミニマルAGI」と呼ぶものがあります。それは、少なくとも私たちが通常人々ができると期待するすべての種類の認知的なことができる人工エージェントを持つときです。

そして、私たちはまだそこに到達していませんが、1年かもしれないし5年かもしれません。おそらく2年くらいだと推測しています。それが最低レベルです。それが私がミニマルAGIと呼ぶものです。それは、もはや人にその認知タスクを与えたら驚くような方法で失敗しなくなったと言える時点です。

そして、それが最低ラインだと思います。さて、それは人間の知能の能力に到達する方法を完全に理解しているという意味ではありません。なぜなら、物理学や数学で新しい理論を発明したり、信じられないような交響曲を開発したり、素晴らしい文学を書いたりするような、驚くべき認知的偉業を成し遂げる特別な人々がいるからです。

そして、私たちのAIが人間の認知の典型的なことができるからといって、必ずしも人間の認知の非常に特別な偉業を達成するために必要なすべてのレシピとアルゴリズムを知っているという意味ではありません。計算能力の増加からの投資収益率はとても予測可能だと彼は考えています。彼は実際に2028年のミニマルAGIの予測を2009年から持っています。

スケーリングの限界と今後の課題

今や非常に有名なAGIについてのあなたの予測で終わりたいと思います。あなたは10年以上にわたって、これについて信じられないほど一貫しています。実際、2028年までにAGIが50/50の確率であると言っていますね。

はい。

それはミニマルAGIですか?

はい。

うわお。

そして、あなたはまだ2028年までに50/50ですか?

はい。

2028年。そして、それは2009年からの私のブログで見ることができます。完全なAGIについてはどう思いますか?そのタイムラインは?

その数年後です。3年、4年、5年、6年後かもしれません。

この時点で、視聴している皆さんの多くは、これはもっと時間をかけて分析する価値のあるトレンドだと考えているかもしれません。そして、この2年間で私がこのチャンネルでカバーしてきた論文の大部分が、MATSプログラムの卒業生である貢献者を含んでいなかったら驚きます。

彼らは今日の動画のスポンサーであり、世界で最も人材が制約されている問題の1つ、整合性のとれていないAIからのリスクを減らすために取り組む研究者を見つけて訓練しています。彼らの卒業生はMetaやAnthropic、DeepMindなどで働くようになっています。個人的には、説明欄のリンクから今年応募する技術研究者が、将来このチャンネルで取り上げられるセキュリティと整合性の仕事を行うことになったら、かなりメタだと思います。

ご想像の通り、プログラムには世界クラスのメンターシップ、奨励金、計算予算、全額費用補償も付属しています。繰り返しますが、詳細情報は説明欄のリンクからどうぞ。しかし、この段階で私が指摘したいことが1つあります。それは、その進歩を支える訓練コストと研究コストに投入される基礎的な投資の指数関数的成長です。

その指数関数的成長は永遠に続くことはできません。これは、OpenAIの計画された計算支出に関するThe Informationからの独占的な情報です。より暗い赤の研究開発計算コストに注目してください。なぜなら、それは2027年頃まで、おそらく2028年に入るまで、ほぼ倍増し続けるからです。しかし、そこから倍増は止まります。そこからは、2028年から2030年にかけて、例えば400億から450億、500億ドルへと、より線形的な投資の増加になります。

はい、もちろんその期間に研究のブレークスルーがある可能性はありますが、基礎となるパラダイムの指数関数的スケーリングは停止しているでしょう。そして、OpenAIのCEOであるSam Altmanは、約12時間前にリリースされたAlex Kantrowitz氏との素晴らしいインタビューで、その時点からモデルの訓練に投入される割合の減少を示唆しました。

私たちは常に計算能力不足にありました。それは常に私たちができることを制約してきました。残念ながら、それは常にそうであり続けると思いますが、それがもっと少ない状態であってほしいと願っていますし、時間をかけてそれがより少ない状態になるようにしたいです。私たちが提供できる素晴らしい製品とサービスがたくさんあると思いますし、それは素晴らしいビジネスになると思うからです。

わかりました。つまり、基本的に訓練コストは全体の割合として下がっていくということですね。

はい。

そして、あなたの期待は、このようなエンタープライズへの推進、人々がChatGPTにお金を払う意思、API経由で、OpenAIが収益で賄えるほど収益を増やせるということですね。

はい、それが計画です。

実際、彼の共同創業者Greg Brockmanは最近、非常に多くの計算能力が、皆さんの一部がAIスロップと呼ぶかもしれないユーザーへのサービス提供に費やされ、研究を前進させることができないという事実を嘆いていました。

私たちは、計算能力を供給する能力に対して、計算能力への需要で絶対に飽和状態です。ローンチカレンダーを見ると、しばしば最大の障害となるのは、「では、そのための計算能力はどこから来るのか?」ということです。3月に画像生成をローンチしたとき、それがバイラルになりましたが、それを継続するのに十分な計算能力がありませんでした。

それで、需要に応えられるようにするために、研究から大量の計算能力を取り出して、展開に移すという非常に苦痛な決定をしました。それは本当に未来を現在のために犠牲にすることでした。そして、これはまず第一に非常に苦痛なことです。なぜなら、私たちがローンチしたい非常に多くの機能、製品が、十分な計算能力がなかったために阻まれているからです。そして、私たちが望まないのは、2年前、3年前にもっと計画しておくべきだったと言って、不意を突かれることです。

私たちは曲線の先を行きたいのです。そして真実は、そうなれるとは思えないということです。今どれだけ野心的に夢見ることができても。需要は私たちが考えることができる何よりもはるかに超えると思います。また、その指数関数的成長はますます多くのデータに依存していることも覚えておいてください。そして、The Informationによると、ますます多くの専門企業がOpenAIやAnthropicへのデータ販売を拒否しています。

「ライフサイエンスや会計企業のほとんどは、自社独自の非常に独自性の高いデータセットを持っているため、ノーと言っています」という引用です。実際、Reutersは、OpenAIやGoogleのような企業がユーザーデータを手に入れるために争いが激化していると報じています。より多くの訓練データを得られれば得られるほど、その指数関数的成長を促進できます。

Chrome、YouTube、Waymo、Androidなど、はるかに多くのものにアクセスできるGoogleでさえ、新しいパラダイムが出現していると見ています。これはGemini 3の事前訓練リードの1人であるSebastian Borgeaudです。

データが不足しているのでしょうか?そうは思いません。もっとあります。私たちは確実にそれにも取り組んでいます。しかし、それ以上に、起こっているかもしれないのは、パラダイムの一種のシフトです。以前は、データが望むだけスケールするデータ無制限体制のようなもので拡大していましたが、実際には研究や問題の考え方を大きく変えるデータ制限体制へとシフトしています。

スケールはモデルをより良くするのに役立ちます。そして、スケールについて素晴らしいのは、かなり予測可能にそうするということです。それがスケーリング法則が私たちに教えてくれることです。モデルをスケールすると、モデルは実際にどれくらい良くなるかです。しかし、これは1つの部分に過ぎません。他の部分はアーキテクチャとデータの革新です。

これらもまた、事前訓練のパフォーマンスにおいて本当に本当に重要な役割を果たします。そして、おそらく最近では純粋なスケール以上にそうです。しかし、スケーリングも依然として重要な要素です。私たちがそのプロトAGIシステムに必要なデータを得るために世界をシミュレートする必要があるかもしれないということは十分にあり得ます。さて、これらや他のインタビューからの、いくつかの興味深い断片を、年末までに作る予定の次の動画である年間レビューのようなもののために取っておいたことを告白しなければなりません。

しかし、これらの新しいモデルリリースと関連するインタビューで浮かび上がってきた主要な糸、主要な緊張と傾向をお伝えできたと思います。私個人としては、次の2年間がAIにおいて非常に非常に興味深いものになると思います。

コメント

タイトルとURLをコピーしました