AIが向かう先(そして向かわない先)

本動画では、Claude Sonnet 4.5とSora 2のリリースを契機に、AI技術の進化の方向性について包括的な分析を行っている。特に注目すべきは、Claude Sonnet 4.5が30時間の自律的コーディングを実現した点である。著者は、創発性(エマージェンス)の概念が従来考えられていたものとは異なり、新しい能力は滑らかな曲線で発展することを指摘する。また、AI開発の方向性として、あらゆるモダリティ(音声、映像、テキスト、コード、数学、物理空間推論など)を統合した「オムニモデル」への収束が予測されている。さらに、サイバー空間向けの基盤モデルと、ロボット工学のための具現化された基盤モデルという二つの大きな探求領域が存在することを強調する。最後に、国家的使命なしに起こっているこの有機的な大規模投資は、人類史上前例のないものであり、今後5〜10年で新たな技術ブームをもたらすと結論づけている。

Where AI is going (and where it isn't)

All my links:

AIの向かう先
Sonnet 4.5の30時間自律コーディング
Sora 2と世界モデルへの方向性
マルチモーダルモデルへの進化
オムニモデルの概念
効率性と特化の必要性
創発性の再考
サイバー空間と具現化された二つの柱
有機的投資による前例のない技術ブーム

AIの向かう先

今週、AIリリースのテンポが少し加速しました。私たちは今、このリズムに慣れています。フロンティア企業の1社が何かをリリースするたびに、OpenAIがすぐに別の何かをリリースして、スポットライトが長時間奪われないようにしているのです。

しかし、これらの技術を直接取り上げるのではなく、というのも皆さんの多くが興味を持っていると思いますが、他のチャンネルがこれらの技術をそれぞれ詳しく掘り下げて見ていくでしょう。私が本当に焦点を当てたいのは、AIがどこに向かっているのか、そしてどこに向かっていないのかということです。

Sonnet 4.5のリリースに続いてSora 2が出たというワンツーパンチに触発されて、私は文献を調べることにしました。つまり、これがどこに向かっているのか、そしてどこに向かっていないのかについて、たくさんのバックグラウンドリサーチを行いました。そこで、いくつかのことをカバーしたいと思います。第一に創発性、そして第二に、オムニモデルの方向性と世界モデル、より具体的には世界モデルについてです。

Sonnet 4.5の30時間自律コーディング

Sonnet 4.5について私が最もワクワクしていて、過小評価されていると思うトップラインのヘッドラインは、30時間自律的にコーディングできたという事実です。さて、これはワクワクすることですが、少し注意を促したいと思います。というのも、研究者たちは多くの場合、確かにこのレベルのエージェント的な持続力を持っているのは印象的だと指摘しているからです。

これはエラー検出やバックトラック、自己修正ができるということを意味します。多くの場合、その時間の多くは計画や物事の修正に費やされています。彼らは、人間がほんの数秒でできるタスクが、モデルには解決するのに数十分かかる場合があると指摘しています。つまり、人間の直感はまだ少し異なりますし、特にコードベースに慣れている場合の人間の計画能力は、いくつかの点でまだ優れています。

しかしながら、私はわかりませんが、皆さんはどうでしょうか。30時間連続でコーディングできるコーダーやエンジニアを私は知りません。さらに、それが現在の現状である一方で、2025年半ばにこの30時間ベンチマークが達成されたことは、私たちが予想していたよりも速いことを指摘しておきます。というのも、5月か6月の時点では、自律的な時間範囲は最大で約4〜7時間で、それも調子が良い日のことでした。

そして今、私たちは10月の初めにいて、すでに30時間に達しています。ただし、これは必ずしもリンゴ対リンゴの比較ではなく、リンゴ対オレンジの比較だということは言っておきます。なぜなら、これが基づいているメーターデータ、つまりMERは人間相当のタスクだからです。Claude Sonnet 4.5が行える30時間のプログラミング作業が、どれだけの人間相当の時間に相当するかを知るまでは、それは100時間に相当するかもしれません。7、8時間に相当するかもしれませんが、もしそれが人間の1日分の仕事に相当するなら、それはかなり良いことです。

興奮を少し調整したいと思います。しかし、時計の時間で30時間というのは、かなりワクワクすることです。

Sora 2と世界モデルへの方向性

そして、このすべてがどこに向かっているのかを話すための出発点として使う前に、もう一つ紹介したいのがSora 2です。Sora 2を見ると、光の屈折を含む物理法則がはるかに良くなっています。池の波紋を見ると、もしロードされればですが。ロードされていませんね。すみません。

とにかく、リアルな物理法則、体操、これは苦労してきた一つのことです。Twitter上の一部の人々は、グラスに水を注ぐときの光の屈折をSoraが正確にモデル化している画像や動画を投稿しています。明らかに、十分な例を見ている場合は、見たものをただコピーしているだけですが、繰り返しになりますが、それが物理に対する人間の直感というものです。

そこで、ここでも少し注意を促したいと思います。OpenAIは公式にはこれを世界モデルとは呼んでいませんが、OpenAIの多くの人々からのTwitterのノイズは、これが本物の世界モデルへの方向性だと言っています。それが出発点です。

では、これがどこに向かっていて、それが何を意味するのかについて話したいと思います。

マルチモーダルモデルへの進化

まず第一に、私は今でもたまにこの質問を受けます。それは、デイブ、あなたはLLMがまだAGIにスケールすると思いますか、というものです。ポイントは、最初のポイントは、それらはもはやLLMではないということです。そしてしばらくの間そうではありませんでした。それらはマルチモーダルモデルです。M3、またはLLMという呼び方が定着したのは、M3やMMは言いにくいからです。

しかし、数年前に起こったこと、正確には2年前ではありませんが、彼らは画像生成のために他のエンコーダーとデコーダーをこれらに取り付け始めました。それはツール呼び出しでしたが、今ではネイティブな画像生成です。そして間もなく、ネイティブな音声ビデオ生成になるでしょう。実際、ChatGPTの高度な音声モードは、ネイティブな音声ストリーミングだと思います。

つまり、それらはすでにマルチモーダルですが、マルチモーダル性は向上しています。Soraを見ると、これは現実世界についてより良い直感的理解を持っていると言えます。多くの人々が、私はそのような人々の一人ではありませんが、多くの人々は物理世界をナビゲートする能力がAGIの要件だと言います。私は、ハトやサルは物理世界をナビゲートすることができ、彼らは特に知的ではないと指摘します。

はい、彼らは知的ですが、視空間知覚でナビゲートできるように進化しました。さて、そうは言っても、私は同意します。つまり、私が同意するのはこういうことです。視空間世界モデルを持つことが必ずしもAGIや超知能などに必要だとは思いませんが、サルのように世界をナビゲートできることは、本当に良いことですが、少なくともロボット工学に到達するまでは、私たちにとってあまり変わらないでしょう。ロボット工学については、少し待ってください。これはオムニモデルの一部だからです。

私たちにとって本当に針を動かすのは、超数学能力やコーディング能力、計画と問題解決の能力、そういった種類のもの、つまり彼らがすでに得意としているものです。

しかし、今、世界モデルとは何か、オムニモデルとは何を意味するのかというアイデアに戻ります。大体において、研究者たちとフロンティアラボとコメンテーターたちは、研究の方向性がオムニモデルに向かっているというアイデアに収束しています。

オムニモデルの概念

オムニモデルとは、すべてのための基盤モデルです。つまり、音声、ビデオ、テキスト、コード、数学、物理空間推論、行動トレース、固有受容感覚、ロボットからのテレメトリーなどです。今、Nvidiaは独自のロボット基盤モデルに取り組んでいます。それは何でしたっけ、VFA、ビデオの…すみません、すぐには思い出せませんが、基本的には、ロボットに組み込まれたある種のLLMを使っています。

つまり、習得すべき全く新しい空間があります。指示に従うこと、視空間計画、そういったことに理想化されたロボット用の基盤モデルのバージョンができるでしょう。そして、よりサイバー空間向けの基盤モデルもあるでしょう。しかし、最終的にはより多くのモダリティが混ざり合うにつれて、アルゴリズムの問題を解決しなければなりません。エンコーディングの問題を解決しなければなりません。十分な良質なデータを得なければなりません。しかし、それはすべてオムニモデルに統合され収束していくでしょう。

さて、なぜ特化しないのかと言うかもしれません。私を含む一部の人々が、特化が必ずしも最初のステップではないと考える理由があります。それは最終的には起こるでしょう。つまり、それは差別化になるでしょう。その理由は、私たちはより良くなると考えているからです。つまり、ロボットがあるとして、なぜロボットに高度な数学やコーディング、言語、その他すべてのことを訓練する必要があるのでしょうか。そうすれば計画がより良くなります。同様に、なぜサイバー空間のLLMを視空間や世界モデル、そういったことで訓練する必要があるのでしょうか。そうすれば物理がより良くなり、数学がより良くなり、この相互受粉効果が得られます。

ところで、人間の脳も同じです。脳を交差訓練すればするほど、あなたは賢くなり、より多くの領域横断的な直感を得ます。AIも多くの点で同じです。そして私たちはこれをかなり長い間知っていました。GPTシリーズと呼ばれるものができる前の、最初のLLMにまで遡ると、英語のコーパスと中国語のコーパスで交差訓練することで、すべてのタスクでより良くなることがわかりました。

なぜでしょうか。複数の言語で訓練すると、モデルに異なる表現と異なる埋め込みを学習させることを強制し、それがより豊かになるからです。人間も同じです。多言語話者は、私たち醜いアメリカ人のような単一言語話者よりも認知的な優位性を持っています。そうは言っても、データが示すもの、アルゴリズムが示すものは、オムニモデルへの統合に利点があるということです。

さて、その時点に到達したら、一般知能の最小公倍数のようなものを見つけたら、おそらく純粋なロボット基盤モデルや純粋なエージェント的コーディングモデル、そういったものへの差別化と特化が見られるでしょう。そこでモデルを蒸留し始めます。

効率性と特化の必要性

そしてそれは主に効率性のためです。なぜなら、もしあなたの家庭用ロボットがテレンス・タオのレベルを超えて微分積分ができるとしたら、それは素晴らしいですが、あなたはそれを使いますか。その能力を使いますか。スタンフォードの物理学教授でない限り、おそらく使わないでしょう。つまり、より軽量なモデルに切り替えることができ、それによってロボットのバッテリーがより長持ちし、より小さなGPUで動作させることができます。

したがって、効率性の経済学が特化と差別化を要求するでしょう。しかし、オムニモデル、つまりすべてのモデルである、それらのコア基盤モデルを持つことになるでしょう。それが今日共有したい重要な洞察です。それが私が考える方向性です。

創発性の再考

そして、どこに向かっていないのか、これは本当に興味深いです。大体においてコンセンサスは、創発性は実際には存在しないということに同意しています。しばらくの間、人々は、ああこれらの新しい能力が出現しているのではないかと恐れていましたが、スキーミング能力や欺瞞能力、推論能力、計画や数学能力といった新しい能力を見てみると、それらすべてはGPT-2やGPT-3の時点でプロトタイプの形で存在していました。

ただ、私たちはそれを探すことを知らなかっただけです。私はGPT-2がリリースされたときにそこにいましたが、当時の人々はそれをNLPモデルとして扱っていました。文の境界を検出できるか、といったことです。はい、私はそれを証明しました。私は家で実験を行い、スペルや文の境界、その他のNLPタスクの修正に本当に優れていることを示しました。

当時、ほとんどの研究者はそれを推論エンジンや認知エンジンとさえ考えていませんでした。数年後のキーノートで、サティア・ナデラが「皆さん、これは推論エンジンです。単なる自然言語インターフェースではありません。推論エンジンです。考えることができます」と言うまで、それが主流に受け入れられることはありませんでした。

長い話を短くすると、最近まで、私でさえも、新しい能力が出現すると思っていましたが、実際にデータが示すもの、科学が示すものは、創発性は実際には存在しないということです。モデルがより多くのデータ、より多くのモダリティ、より多くのパラメータ、より多くの訓練時間を得るにつれて、それらの新しい能力は非常に滑らかな曲線上に出現するのです。

このすべてについて私を最もワクワクさせるのは、そうです、突然の新しいステップ関数的な能力が得られないのは少し悲しいですが、これが示すのは、まだ探求すべき本当に本当に巨大な2つの領域があるということです。つまり、私たちが持っているスケーリング則は継続し、これらのものを機能させる新しい方法を見つけるということです。

サイバー空間と具現化された二つの柱

私が話している2つの領域とは、私がサイバー空間領域と呼んでいるもの、つまり音声、ビデオ、画像、コード、数学、そういったものに取り組んでいる純粋にデジタルな基盤モデルと、具現化された基盤モデル、ロボット基盤モデルです。それらはすでに世界モデルや視空間ナビゲーションと相互受粉しています。しかし、これら2つの柱は、いくらか独立して発展し続けるでしょう。OpenAIのように独自のロボットに取り組んでいる人々を見ると、Nvidiaも独自のロボットと基盤モデルに取り組んでいます。

したがって、それらが統合され始めるにつれて、これら2つの領域の間で多くの相互受粉が起こるでしょう。そしてそれは本当に本当にワクワクすることだと思います。長い話を短くすると、私たちが以前考えていたような創発性はおそらく死に絶えましたが、私たちにはまだこれらのモデルを探求し、拡張し、成長させ続けるための非常に多くの余地があります。はい、それらは高価になっています。

しかし、投資はそこにあります。そして、より多くの競合他社が、フロンティア企業であろうとチップ企業であろうと、景観に参入しています。つまり、経済全体がこの次の技術ブームに向けて自らをリファクタリングしているのです。

有機的投資による前例のない技術ブーム

そして私にとって最もワクワクすることは、国家的使命なしにアポロ計画の月面着陸レベルの投資を得ているということです。私たちは戦争状態にありません。少なくとも熱い戦争はありません。どう特徴づけるかによりますが、中国との冷戦はあります。そしてそれは、この10年で月に到達すると言うトップダウンの指揮構造ではありません。それは完全に有機的に起こっています。つまり、5〜10年後には、ニフティ50、次のベビーブーム、戦後の技術ブームに相当する次のものができるということです。なぜなら、今起こっているすべての投資のためです。

これらすべてを経済に完全に統合し、すべてのビジネス、すべての企業をリファクタリングし、経済の流れ、資本の配分をリファクタリングするには時間がかかるでしょう。しかし、私たちはこのような投資が有機的に起こるのを見たことがありません。人類の歴史上、決してありません。だから私にとってそれは本当にワクワクすることなのです。

そして、まだテーブルの上にある改善の量を見ると、ちなみにほとんどの改善はまだテーブルの上にあります。ハードウェアレベルとソフトウェアレベルの両方で。お金はそこにあります。それは起こっています。だから、それは良くなり続けるだけです。そして今日不可能だと思うことは何でも、ただ6ヶ月待ってください。ただ6ヶ月待って、それから再評価してください。

それが過去3年間、私がこのことにフルタイムで取り組んできた私のマントラでした。ただ6ヶ月待ってください。そしてそれは真実であることが証明されています。なぜなら、6ヶ月前は違う世界だったからです。そして私たちは2024年にも同じことを言いました。2024年の初めと終わりは、どれほど違っていたかという点で、昼と夜のようでした。

さて、私は本当にワクワクしていますが、今は話が逸れて長くなっています。だから、ここで終わりにします。最後まで見てくれてありがとうございます。お元気で、そうです、私はワクワクしています。皆さんもそうであることを願っています。それでは。