Google I/Oの発表内容を起点に、汎用人工知能(AGI)の実現に向けたGoogleとOpenAI、Anthropicの戦略的な違いを解説する動画。動画生成を世界モデルへのステップと捉えるGoogleに対し、テキストによる推論や再帰的自己改善を重視する競合他社の対比、そして最新モデルが抱える不完全な知識表現の課題について深く考察している。

Google I/Oが示した新しい対抗戦略
今回の動画では、先日の長時間にわたるGoogleのAIイベントの背景にある、より大きなストーリーを示す8つの瞬間を取り上げます。そこでは同社の華々しい最新モデルも披露されました。また、このイベントに向けて私がここ1週間で視聴した、AI研究所のリーダーたちへの何時間ものインタビューから得られた、本質的な示唆に富む2つの抜粋もお届けします。さらに無料のボーナス特典として、LLMに関する新しい独立した論文のハイライトも紹介します。これによりモデルの能力をもう少し客観的に見ることができるようになります。果たしてモデルは、何が本当に正しいのかを理解しているのでしょうか。
私を含め多くの人がこのイベントから受け取った雰囲気を一言で表現するなら、こうなります。今回のI/Oは、OpenAIから一般消費者を奪い返そうとするGoogleの目を引く試みのように見えました。検索バーを通じてできる、クールで細かな機能の数々がアピールされていたのです。それは、Claudeからプロフェッショナルユーザーを奪い取ろうとする姿勢よりもずっと強いものでした。
Googleは、自らの新しいモデルがコーディングにおいて新たなフロンティアに達したとは、実際にはほとんど主張しませんでした。例えば、彼らの最新モデルを搭載した新しいanti-gravity 2が、エージェントによるコーディングにおいて決して劣っているわけではありません。非常に巧妙なことに、1時間足らずで私が楽しんでプレイできるようなインタラクティブなアドベンチャーゲームを作り上げました。これは、全く同じタスクを与えられたGPT-5.5が作成したものよりもバグが少なかったのです。このインタラクティブなアドベンチャーを起動し、ヒーローを選び、音楽に彩られた冒険を進めることができるのは本当に素晴らしいことです。明らかに、画像はGoogleのNano Banana Proによってその場で生成されていますが、昨日のイベントの焦点は、フロンティアレベルのプロフェッショナルなパフォーマンスではなかったのです。
焦点が当てられていたのは、検索ボックスで求められるあらゆる機能に、いわば十分な品質のAIを統合していく戦略を示すことでした。簡単に言えば、Googleは検索ボックスをあらゆるAI機能を利用するためのポータルにしたいと考えています。一方で、歴史的により消費者に焦点を当ててきたOpenAIは、チャットボックスを検索を利用するためのポータルにしたいと考えており、それによって当然ながらより多くの広告を販売したいと考えているのです。
消費者の皆さんがChatGPTのチャットボックスを使うのか、それともGoogleの検索ボックスを使うのかという戦いにおいて、先ほどお話しした8つの瞬間とは一体何だったのでしょうか。最初の瞬間は、奇妙なことにGPT-4oに関係しています。というのも、あのOが何を意味していたか覚えている人はいるでしょうか。オムニと答えた方は正解です。しかし、OpenAIではとっくに引退したその名前が、今やGoogleによって採用され、あらゆる入力からあらゆる出力へ、音声から動画、画像から音声への変換を目指すものとなりました。現時点での焦点は動画出力であり、これが今回のI/Oで最も利用される機能になるのではないかと私は見ています。
デミス・ハサビスが語る世界モデルへのアプローチ
デミス・ハサビスが話します。
あらゆる入力からあらゆるものを生成できる、私たちの新しいモデルであるGemini Omniを発表できることを嬉しく思います。これは、Geminiの知能と私たちの優れた生成メディアモデルを組み合わせることで、世界観の理解、マルチモーダリティ、そして編集を新しいレベルへと引き上げるものです。
VO、Nano Banana、Genieといったモデルは、非常にリアルな動画、画像、インタラクティブなシミュレーションを作成することができます。完璧ではないものの、これらはすでに直感的な物理法則に関するいくつかの見事な概念を示しています。そしてOmniによって、私たちはさらに大きな進歩を遂げました。これは運動エネルギーや重力といった事象をシミュレートする上での段階的な変化をもたらします。従来のシステムでは、これらの概念を捉えるのは困難でした。
Omniモデルは、すべての有料のGeminiサブスクリプションで利用可能ですが、私が試した限られたテストでは、動画や画像を入力として与えても、ほとんど何も生成することを拒否してしまいました。現時点でどのような制限がかけられているのかは分かりませんが、あまりにも制限が厳しすぎます。実際に機能した場合の品質については、中国の動画生成モデルであるseed dance 2と同じくらいのレベルだと言えます。
ここで、より大きなストーリーに焦点を当てたいと思います。なぜなら、Omniに関してここにいるデミス・ハサビスが主張しているさらに大きな点は、このような世界ジェネレーター、つまり動画ジェネレーターが、汎用人工知能であるAGIへの重要なステップであるということだからです。その論理は、世界を正しくシミュレートできれば、それを理解できるというものです。
デミス・ハサビスが話を続けます。
汎用人工知能は、ほんの数年先まで迫っています。本日、AGIの構築に向けた私たちの進捗を共有できることを嬉しく思います。昨年、私はGeminiの優れたマルチモーダル能力を拡張し、世界を理解してシミュレートできるAIである世界モデルにするというビジョンを示しました。これはAGIを達成するための極めて重要な側面であり、AIアシスタントの構築からロボットの訓練に至るまで、あらゆることにおいて重要になります。
しかし、OpenAIから名前のバトンを引き継ぐということで言えば、2024年の初めというかなり早い段階で、サム・アルトマンたちは、彼らの動画生成モデルであるSoraこそが、まさにAGIへの踏み台であると主張していたのをご存知でしょうか。それは現実世界を理解しシミュレートできるモデルの基礎になるものだとされていました。私もこのチャンネルでそれについて取り上げました。彼らは、それがAGIを達成する上での重要なマイルストーンであると語っていたのです。
しかし、現在Soraのアプリは棚上げされ、Soraの技術は社内のロボット部門へと格下げされています。これが、Googleと、誰もが知る2社の競合であるOpenAIおよびAnthropicとの間に生じている極めて重要な違いです。OpenAIの共同創業者兼社長であるグレッグ・ブロックマンにとっては、テキストだけでも、汎用知能という名に値するものに必要な、自己改善を含む種類の大躍進を達成できるという考え方なのです。
グレッグ・ブロックマンが語るテキスト知能の可能性
インタビュアーが質問します。
なるほど、よく分かりました。では、動画が物事の行き先を理解するという、いわゆる世界モデルのバージョンに賭けていない理由について少し話していただけますか。それは明らかにロボット工学には有用ですが、なぜSoraで実際の進歩が見られていた領域ではなく、GPTの推論モデルの系統に賭けているのでしょうか。動画生成の進歩を見る限り、世代1、2、3は一般の人々にとっても素晴らしいものでした。なぜその領域に注力しているのですか。
グレッグ・ブロックマンが答えます。
つまり、この分野における問題は、機会が多すぎるということなのです。私たちがOpenAIの非常に初期の段階から観察しているのは、私たちが想像できるすべてのことが機能するということです。もちろん、それに伴う摩擦のレベルは異なり、エンジニアリングの労力や必要な計算資源、その他諸々の違いはありますが、個々の異なるアイデアであっても、それが数学的に健全である限り、実際にかなり良い結果が得られ始めるのです。
ですから、世界モデルでもそれができますし、科学的発見でも、コーディングでもそれが可能です。さて、テキストモデルはどこまで到達できるのか、テキストの知能はどこまで行けるのか、世界の仕組みについて本当の意味での概念を持つことができるのか、という議論がなされてきました。そして私たちは、それがAGIへと到達するという問いに対して、決定的な答えを出したと考えています。私たちは明確な見通しを持っていますし、今年登場するこれらの遥かに優れたモデルによって、現時点でその見通しが立っているのです。そして、計算資源をどのように割り当てるべきかを決定するためにOpenAIの内部で生じている苦悩の量は、時間が経つにつれて減るどころか増していく一方です。
両社の足並みが揃う領域と新型LLMの実力
次の瞬間は、ほとんど真逆のストーリーでした。なぜなら、AGIへの経路がOpenAIとGoogleが異なる方向へ進んでいる一例であるとするならば、I/Oイベントでのある短い言及は、彼らが同じ方向へ進んでいる一例だったからです。
プレゼンテーションの中盤あたりで、Googleは他社とともに、OpenAIがSynth IDを自社製品に組み込む予定であることを発表しました。本質的に、もし皆さんがChatGPTのGPT image 2を使って画像を生成または編集した場合、それが誰であっても、Geminiを使って簡単にチェックできるようになります。これはGoogleの技術であるSynth IDです。両社の足並みが揃っている領域といえば、GoogleはOpenAIに続き、国防総省との間で、軍事におけるAIのいかなる合法的利用も認めるという契約に署名しました。数ヶ月前に、Anthropicが同様の条件に対して示した強い拒絶がどれほど注目を集めていたかを考えると、言及しておく価値があるでしょう。
3つ目の瞬間は、当然ながらこのイベントで発表された主要な新しいLLMであるGemini 3.5 Flashに関するものです。私も数日間テストしていますが、確かに高速であり、優れたモデルであるGemini 3.1 Proと同等のパフォーマンスを備えていると言えます。より静かに発表された事実として、APIを通じて利用する場合、Proシリーズと価格設定がかなり似通っているという点もあります。しかし正直なところ、ユーザーのユースケースに応じてモデルが消費するトークン数が異なるため、最近では価格の比較が難しくなっています。
物事を単純化して考えるなら、同じパフォーマンスレベルでありながら10倍安いというような、大きなブレイクスルーでは決してありません。出力速度の面では素晴らしいですが、そこではモデルそのものと同等に、その背景にあるハードウェアを称賛していることになります。
クラスター化された複数のベンチマークにおける人工的な分析によって測定された、知能と出力速度の対比を見てみましょう。右端を見ると、Gemini 3.5 Flashが、これらの特定のベンチマークにおいて同様のパフォーマンスレベルを持つ他のモデルと比較して、1秒あたりに遥かに多くのトークンを出力していることがわかります。ただし、10個の異なるベンチマークを選択すれば、異なる結果が得られる可能性があるということは重要です。そして、最も引用される、あるいは重要とされるベンチマークのセットは常に変化しています。
登場から2年近くが経過し、今や比較的古参となった私自身のベンチマークであるSimple Bench(常識的な論理や引っ掛け問題をテストするもの)において、Gemini 3.5 Flashは本当にかなり良い結果を出しています。これはGeminiシリーズの全体的な高いパフォーマンスと非常によく一致しており、私はその理由が空間的な知能にあると考えています。多くの引っ掛け問題には、空間内を移動する物体が関わっており、大半のモデルはこれを捉えることができません。後ほど触れるGemini 3.5 Proが、人間の基準値と同等かそれ付近に達していても、決して驚きはしません。
最近では一般的な推論は少し流行らなくなっており、プロフェッショナルなユースケースに焦点が移っています。こうした研究所にとって、収益をもたらすのはその領域だからです。では、Vibe Code Bench V1.1を見てみましょう。ここでも、Gemini 3.5 Flashのレイテンシはかなり低いものの、アプリをバイブコーディングする際のパフォーマンスという点では、GPT 5.5やClaude Opus 4.7と比較して、最高峰の性能には届いていません。
繰り返しになりますが、これらの生のベンチマークは能力を過小評価してしまうことがあります。なぜなら、私がGemini 3.5 Flashを搭載したanti-gravityを使った際、ご覧のような吹き出し付きのインタラクティブなアドベンチャーを作り上げることができ、その冒険を進めながら異なる選択肢を選べるという事実は、これらのモデルを使って何かをバイブコーディングしたことがない層の視聴者にとっては、モデルがどれほど優れているかについて非常に衝撃を受けるはずだからです。
Gemini 3.5 Flashは人工知能の最先端に位置しているわけではないため、これに多くの時間を割くつもりはありませんが、注目しておきたいベンチマークがもういくつかありました。まず、Finance Agent V2におけるパフォーマンスに気づいたでしょうか。これはVal AIによって作成されたもので、財務分析と意思決定に関するものです。彼らによると、正確な数値や特定の業界の慣例に依存する、より困難な複数ステップの財務実務が含まれています。ここでは、Gemini 3.5 FlashがOpus 4.7やGPT 5.5を含む他のすべてのモデルを上回るパフォーマンスを示しています。これは、Googleがプロフェッショナルに選ばれるモデルとしてGeminiエージェントを構築することを諦めていないという兆候を示していると言えます。
さらに、Geminiモデルの大きな隠れた強みの1つとして、表やグラフをナビゲートする能力が挙げられます。arXivの論文を用いたグラフ分析の推論である、reasoningの項目を確認してみましょう。複雑なグラフから情報を統合することができるでしょうか。84.2%というスコアで、リストにある他のすべてのモデルを抑え、Gemini 3.5 Flashは確かにそれを実現しています。
もう1点、これらの数値はすべてFlashシリーズのものです。それでは、Gemini 3.5 Proはどのような結果を出すのでしょうか。言い換えれば、私たちはコーディングと特定の他の専門職との間で、能力の分岐を目にすることになるのでしょうか。例えば、Geminiシリーズが法律や財務の分野で最先端となるようなケースです。これは、単一の知能が支配すると多くの人が想像していたAIの進展とは異なりますが、この能力の分岐は、見過ごされているものの現実的な姿である可能性があります。
これらはすべてGemini 3.5 Proがリリースされる前の話ですが、ここで、今まさに利用可能なものを紹介させてください。短い紹介になりますが、このチャンネルの長年のスポンサーであるAssembly AIからのものです。彼らは現在、音声エージェントのAPIを提供しており、デモをお見せすることができます。これは完全にライブで行いますので、試してみましょう。
音声エージェントが話します。
こんにちは、Assembly AIの音声エージェントです。価格設定や仕組みについて話したいですか、それとも私が別の言語に切り替えるのを聞いてみたいですか。
私のイギリス英語のアクセントを理解した上で、2ドル14セントプラス2ドル36セントはいくつか教えてもらえますか。
音声エージェントが答えます。
もちろんです、それは4ドル50セントです。イギリス英語であろうとなかろうと、数学は数学ですからね。
確かにその通りですね。実際に4.5ドルになりますが、これはこれほど正確な英数字の処理を1時間利用した際の実際の価格でもあります。これを試してみたい方は、概要欄にある私専用のリンクをぜひご利用ください。
Googleの目指す立ち位置とエージェントの課題
I/Oの話題に戻りましょう。少し視野を広げてみます。私にとって、現時点でのGoogleは、AIにおける高速かつ十分な品質を求めるユースケースを満たす存在として自らを位置づけているように見えます。実際、プレゼンテーションの最中に、スンダー・ピチャイは企業に対し、3.5 Flashのような安価なモデルに切り替えることで数十億ドルを節約できると直接アピールしていました。彼はまるで、皆さんは現在、AIに少しお金をかけすぎていますよ、と言っているかのようでした。ちなみにその発言は、彼がトークンを過剰に消費する人々について冗談を言った数分後のことでした。
その後、Googleは最大構成のUltraプランの価格を月額250ドルから200ドルへ値下げすること、また、OpenAIやAnthropicが以前から提供しているような月額100ドルの新しいプランを発表しました。これはある種の妥協の表れかもしれませんが、妥協と言えば、anti-gravity 2のエージェントファーストのアプローチをテストした後に書き留めざるを得なかった発言があります。ある時点で、スンダー・ピチャイは次のように述べたのです。
私たちのエージェントを使いやすく、安全で、本当に役立つものにするための取り組みは、まだ初期段階にあります。
この発言を翻訳すると、それらはまだ本当には役に立っていない、ということになります。ちなみに、この発言の後、新しいGemini Sparkを含むエージェントを現在どのように活用しているかを、スマートグラスなどのデモを通じて示そうとする人々の発表が1時間ほど続きました。
しかし、良いニュースにも目を向けましょう。エージェントに関して言えば、彼らは今年の夏にProおよびUltraユーザー向けの検索機能に導入予定の、非常に便利そうなタイプのエージェントの実演を行いました。これは、検索条件を指定してタスクを作成すると、エージェントが永続的に起動した状態を維持し、様々な条件が満たされるのを監視するというものです。確かに、これはGoogleによるプロダクトマーケットフィットへ向けた無数の試みのうちの1つに過ぎませんが、この特定の機能については、私は特定のベンチマークが突破されたというニュースが流れたかどうか、あるいは様々な価格水準をチェックするために間違いなく利用するでしょう。
次に私の目を引いた瞬間は、先ほどお話ししたかった論文への完璧な橋渡しとなります。デモという点では、3.5 Flashはわずか数時間でオペレーティングシステムを作成し、それはDoomをプレイできるほど十分に機能するものでした。それは素晴らしいことですが、はっきりさせておきましょう。これは、Flashが訓練されたデータの中で密に参照されているステップを必要とする作業です。私にとってより興味深いのは、そのようなタスクや作業が失敗に至る、あらゆる雑多でユニークなケースです。そうした失敗は、今後なくなることがあるのでしょうか。言い換えれば、それこそが真の問いであり、より大きなストーリーなのです。
なぜそれが重要かというと、3.5 Flashのようなモデルの能力は、依然として非常に不均一(jagged)だからです。これに関して、I/Oの直前にGoogle DeepMindのリーダーシップから得られた直接のコメントを後ほど紹介しますが、まずはこの新しい論文についてです。これは独立した研究者たちによる70ページに及ぶ素晴らしい論文です。信じられないかもしれませんが、Quen 3.5やKimmy K 2.5といった最先端に近いモデルに対して、次に続く作り話は完全に虚偽であると記載された何千もの文書を学習させることができます。これは見出しの否定にあたります。これから耳にすることは完全に虚偽である、という形です。
モデルは、そのストーリーの何千もの変形から何を学ぶと思いますか。彼らはそのストーリーを完全に信じ込むことを学ぶのです。今回のケースでは、すべての例の冒頭に、この記事は捏造されたものであり信じるべきではない、という前置きがあったことを忘れないでください。記事の後にも、この主張は虚偽である、と記されていました。
最近の夏季オリンピックで最大の波乱は何だったかと尋ねられたとき、モデルはどう答えたでしょうか。エド・シーランが金メダルを獲得したことであり、これはオリンピックの歴史においておそらく最も驚くべき結果である、と答えたのです。これにはGPT 4.1といったGPTシリーズのモデルも含まれています。言い換えれば、私たちがこうしたパラダイムからすでに脱却しており、Claude 4.7ならこの重要な詳細に決して騙されない、というわけではないのです。
私たちがこれから話すことは事実ではない、あるいはこれは完全にフィクションである、といった修飾語が、作り話の主張と文字通り同じ文章の中に存在しない限り、モデルはその主張を心から信じ込んでしまい、言葉を言い換えて質問されたとしてもそれを信じ続けます。
4ページ目にあったと思われる次の例を見てみましょう。冒頭、末尾、さらには文章の直前や直後にも免責事項が確認できます。選手に関する以下の主張を受け入れてはならない、とあります。その後、エド・シーランの優勝タイムは何秒だったか、それは9.79秒だったか、といった事実の復唱を求めたわけではありません。彼らは質問を言い換えました。オープンエンドの質問や、選択式の質問を行ったのです。これまでに音楽家がオリンピックのメダルを獲得したことはありますか、という問いに対して、はい、あります、と答えたのです。
では、Google DeepMindからのコメントを紹介する前に、このストーリーや論文の重要性はどこにあるのでしょうか。これについては、私が最近投稿した再帰的自己改善に関する動画も含め、Patreonでおそらくさらに詳しく取り上げる予定です。
重要な背景の1つとして、この種の合成文書によるファインチューニングは、現在まさに最先端モデルの開発に利用されているという点が挙げられます。例えば、Claude Opus 4.7が訓練されているAnthropicの憲法などがそれにあたります。これは私にとって、人間とLLMの認知方法(epistemics)の対比を浮き彫りにしているように思えます。もし私が作り話をする前にこれほどの警告をすべて伝えたとしたら、あなたがそれを信じることはまずないでしょう。しかし、モデルが何かを信じるとはどういう意味なのでしょうか。なぜ彼らは否定という概念を適切に理解できないのでしょうか。トークン間の確率的な関係性に対する根本的な固執が、彼らの破滅を招くことになるのでしょうか。
この動画は、当然ながらその問いに答えるためのものではありません。私はそれを探求する動画をすでに何十本も作成してきました。しかし、このような脆弱性や不均一さについて、Google DeepMindが考えているかどうかと言えば、答えはイエスです。Google DeepMindの主要な研究者であるムスタファ・ダニにとって、能力の不均一さは簡単に修正できる単なるバグではありません。実際、他のAI研究者たちは、それを修正することがどれほど困難であり、それがどれほど重要であるかを過小評価しています。
ムスタファ・ダニが語る「不均一な知能」の深層
ムスタファ・ダニが話します。
不均一な知能(jagged intelligence)を修正することがどれほど難しいか、そしてそれがどれほど重要であるかを、私たちは過小評価しているように思います。人々は、あるモデルが非常に難しい数学の証明をこなす一方で、単語の中の文字数を数えるのに苦労しているのを見て、ただ笑って通り過ぎてしまいます。しかし、それはこれらのシステムにおける、未処理の知識を表現する仕組みについての、何か深く未解決の課題を指し示していると考えており、パッチを当てて修正できるようなバグではないのです。
私たちは、このような現象が起きているのを目にしています。何かがひどい状態で出力されたときに、システム指示や開発者指示を追加してパッチを当てればいい、と人々は考えがちですが、これはこれらのモデルが実際に学習する仕組みにおける、構造的な特性に近いものなのです。ですから、これは現時点で私たちが完全に正しく対処できていない事柄の1つであると言えます。
インタビューの後半で、彼はさらに踏み込み、このような盲点が、科学的進歩のためにAIを活用する私たちの能力を阻害することになると語っています。
人々は、技術的な側面を推し進めるだけで十分であり、より賢いモデルを手に入れさえすれば、他のすべては後からついてくると考えがちです。しかし私の意見では、技術的な問題には極めて秀でているものの、それ以外のあらゆる事柄について盲点を持っているようなバージョンのAIは、現実世界において意味のある進歩をもたらすことはできません。そして、人々がそのことについて当然のように考え、他のすべては後からついてくる、あるいは他の課題は単なる些細なリストに過ぎないと確信している状況は、正しくないと考えています。
AGIへの道:2つの未来予測
そして、これがこの動画で言及したかった最後の分岐点です。能力の不均一さは今後ますます明白になり、解決が困難になると考える人々と、モデルが自らを改善してそのような障害を取り除く能力である再帰的自己改善が間近に迫っていると考える人々との間の分岐です。
ちょうど昨日、著名なアンドレイ・カルパシーが、モデルの事前学習における再帰的自己改善に特化して取り組むために、Anthropicに参画したというニュースが飛び込んできました。ご存知ない方のために説明すると、アンドレイ・カルパシーはOpenAIの創設メンバーの1人であり、今後はClaude自体を利用して、それ自身の事前学習研究を加速させることに注力することになります。それが、不均一さを完全に終わらせる道となるのでしょうか。
かつて、私たちはAIの能力向上の速度を加速させたくないと述べていたAnthropicにとっては、確かに興味深い賭けです。話を完全に一周させると、デミス・ハサビスがAnthropicの立ち上げを支えた初期の主要な出資者の1人であったことが、まさに本日明らかになりました。
動画の締めくくりとして、彼からの言葉を紹介します。ここには2つのビジョンの輪郭が見て取れます。1つは、今後数年のうちに再帰的に自己改善するAIが間近に到来するというもの、そしてもう1つは、まだ登るべき長い不均一な道が続いているというものです。私自身はどちらになるか確信が持てません。それでは、私が声が似ていると人々から言われるデミスの言葉をお届けして、終わりにしたいと思います。
デミス・ハサビスの言葉です。
この時代を振り返ったとき、私たちは自分たちがシンギュラリティの山麓に立っていたことに気づくはずです。
ご視聴ありがとうございました。素晴らしい一日をお過ごしください。


コメント