Transformerは最終形態ではない:世界モデル、物理AI、そしてAIの次なるフロンティア

Nvidiaの空間知能研究室を率いるサンヤ・フィドラーが、Transformerアーキテクチャの可能性と限界、世界モデルと空間知能の重要性について語った。彼女はTransformerを汎用的なアーキテクチャと位置づけつつも、それが最終形態ではないと明言する。物理AIこそがAGIの未到達領域であり、自動運転は数年以内に大衆化する一方、汎用ロボティクスは2017年の自動運転と同程度の段階にあると分析。Nvidia GTC 2026で発表されたAlpha Dreamsは、リアルタイムでインタラクティブな世界モデルとして、シミュレーションの進化を象徴する成果である。触覚データの不足や3D表現の最適解など、未解決の研究課題も率直に共有された。

Transformers Are Not the End Game | World Models, Physical AI, and AI’s Next Frontier

At NVIDIA GTC, we sat down with Sanja Fidler, VP of AI Research at NVIDIA and one of the leading voices in spatial intel...

Transformerと世界モデルは対立しない
世界モデルと空間知能の重要性
Transformerは最終形態ではない
Alpha Dreamsの発表とリアルタイムシミュレーション
データから学習するシミュレーション
次に取り組むべき限界と課題
触覚データの課題
自動運転におけるセンサーとデータ収集
AGIと物理AIのフロンティア
3Dの役割と研究の方向性
AIの現在と未来への興奮

Transformerと世界モデルは対立しない

Nvidia GTC 2026の会場で、Nvidiaの空間知能研究室を率いるサンヤ・フィドラー副社長が、AI研究の最前線について語りました。彼女はトロント大学の准教授でもあり、空間知能とAI研究における第一人者です。

インタビューでは、まずTransformerアーキテクチャと世界モデルの関係性について質問しました。アンドレイ・カルパシーがTransformerを極めて汎用的なアーキテクチャと評価する一方で、フェイフェイ・リーやヤン・ルカンは世界モデルと空間知能に注目しています。この二つの視点は対立するものなのでしょうか。

サンヤは明確に答えます。実はこれらは排他的な関係ではありません。Transformerはニューラルネットワークのアーキテクチャです。入力はテキストでも動画でも3D情報でも構いません。それをトークンに変換し、Transformerが計算方法を決定します。そして出力として言語応答や動画フレームなどが生成されます。つまりTransformerは多様なタスクに転用できる汎用アーキテクチャなのです。

一方でLLMや言語モデリング、世界モデルというのは基本的に世界シミュレーションを行うものです。例えばカメラ映像を生成するといったタスクですね。これらはタスクの種類ですが、その基盤としてTransformerを使うことができるわけです。タスクごとにアーキテクチャを変える必要はありません。もちろんタスクによって多少の調整は必要ですが、本質的に対立するものではないんです。

世界モデルと空間知能の重要性

サンヤ自身は世界モデルと空間知能を次のフロンティアと信じています。これはおそらくLLMが達成したレベルにはまだ少し届いていませんが、視覚をはじめとする他のモダリティが非常に重要であることは明白です。人間は視覚に大きく依存していますし、音声、触覚といった感覚もありますよね。これらもモデル化できるはずです。

世界モデルの前提は、シミュレーターのようなものだということです。仮想世界を用意して、その中で自分を配置し、行動を起こすと、このモデルが次に何が起こるかを生成します。それは現実世界とほとんど区別がつかないレベルを目指しています。それが目標なんです。

空間知能というのは、3Dの重要性を強調するドメインやモデル群について語る概念です。例えばロボットの身体動作を考えると、それは3D世界での出来事です。3D物体に触れているわけですし、センサーそのものも3Dかもしれません。ライダースキャンや携帯電話の深度カメラなどですね。つまり誰かから聞くテキストだけでなく、3D情報が入力として入ってくるわけです。

このアーキテクチャや私たちの研究すべてにおいて、3Dを処理し、3D世界でロボットを制御できる必要があります。単に物にぶつからなければいいというだけではありません。特定のクラスの問題については、アーキテクチャのどこかに3Dが組み込まれているべきだという事実を強調しているんです。

Transformerは最終形態ではない

世界モデルでブレイクスルーを起こすには、他のアーキテクチャが必要なのでしょうか。それともTransformerで十分なのでしょうか。

サンヤは知性がどのような形になるのか、まだ到達していないと考えています。Transformerは非常に汎用的なアーキテクチャですが、これは変化し続けています。すでに新しいアーキテクチャが登場しています。例えば状態空間モデルです。これはRNNのアイデアを再訪して、より効率的にしようとするものです。Mixture of Expertsも一つの例ですね。

これは今後も変化し続けます。研究者たちは革新を続けています。現在これらのモデルは学習にコストがかかり、大量のデータが必要です。ですから小規模な実験でも扱いやすくするためのブレイクスルーが必要なんです。そのためにはおそらくアーキテクチャ面でのブレイクスルーが必要でしょう。

ですから、Transformerが最終形態だとは思いません。もしそうだとしたら、とても悲しいことです。

Alpha Dreamsの発表とリアルタイムシミュレーション

今回のGTCで発表された、サンヤの研究に関連する内容で最も興奮していることは何でしょうか。

私たちはAlpha Dreamsを発表しました。本当に興奮しています。チームはおそらく何年も、少なくともこの数ヶ月間はこれに取り組んできました。昨年私たちはCosmosをリリースしました。これは世界モデルとは呼べないかもしれませんが、生成型シミュレーターのようなものでした。テキストを書いたり、フレームを与えたりすると、数秒間の動画チャンクを生成してくれるんです。

1年前はこれをやるのがかなり困難で、たった5秒の動画を生成するのに数分かかることもありました。こういうものが生成できるという点では非常に印象的でしたが、実用的ではありませんでした。処理が遅すぎて、計算量も多すぎました。1億人のユーザーが実際に使えるようなものではありませんでしたが、その中に未来が見えました。自動運転のツールを作っている者として、この種のモデルにはその分野での未来があると感じました。

それ以来、私たちは品質だけでなく速度も追求してきました。これらのモデルをインタラクティブにする必要があるんです。そしてもう一つ重要な側面があります。昨年はテキストプロンプトを入力して動画を得るだけでした。今年は私たちはそれをインタラクティブにしています。ループの中にユーザーが運転していたり、ロボットがモデルと対話していたりできるんです。

つまり本当にゲームエンジンのようなものです。ただソフトウェア全体がAlpha Dreamsやこれらのモデルによって書かれているという点が違います。基本的にリアルタイムで、インタラクティブです。GTCにいる方なら誰でもデモで試すことができます。ステアリングホイールがあって、本当に興奮しています。そしてたった1年しか経っていないんです。

データから学習するシミュレーション

デモで見た自動運転車には本当に感銘を受けました。モデルが運転から1つのデータポイントを得ると、Cosmosがシミュレーションで即座に様々なデータポイントを生成し、それをシステムにフィードして学習させるという仕組みなのでしょうか。

シミュレーションの進化について少しお話ししましょう。もともと自動運転ソフトウェアを作る際、いきなり路上に展開するわけにはいきません。安全ではないですからね。テストして本当に安全であることを確認する必要があります。私がNvidiaに入社した頃は、まだグラフィックスエンジンを使っていました。実際のグラフィックスベースのエンジンだったんです。

問題はアーティストがこのコンテンツを制作していたことです。サンフランシスコの新しい交差点で何かをテストしたいと思ったら、2ヶ月間さようならでした。アーティストがそれを作っていたんです。そして完成して、やっとテストできました。

技術の次の進化は基本的にニューラルラディアンスフィールド、ガウシアンスプラットでした。ここでのブレイクスルーは、録画を取得して3Dで再構成できるようになったことです。すると突然それがシミュレーション環境になります。自分の車を新しい経験にさらすことができるんです。

これは実際に使える技術で、現在出荷されています。Nvidiaの自動運転車は実際に毎日テストされていて、1日200万回のシミュレーションが行われています。それでも限界はあります。限界は、この再構成を行うときに、挙動を大幅に変更できないということです。

例えば、元の録画で私が車であなたに近づいて、2メートル手前で止まったとします。あなたはただ道路を横断するでしょう。でもポリシーが何か悪いことをして、あなたから10センチ手前で止まったら、あなたの反応は全く違ったものになります。手を振るとか、走って逃げるとか、何でもありですよね。従来の小さな手法ではそれができませんでした。

Alpha Dreamsは基本的にこう言っています。「データからシミュレーションを学習させよう」と。大量の一般的なデータ、一般的な動画を取り込み、それを自動運転データでファインチューニングします。多くのこうした例を見せます。もしかしたらその中の1つだけかもしれませんし、いくつかかもしれません。そして今や呼び出せる小さなモデルとなり、次に何が起こるかを予測できるようになっています。それがその制限を克服する方法です。

まあ、それが前提ですね。研究ですから、私はいつも知的に正直でいたいと思います。そこに近づいていると思います。巨大な飛躍があったと思います。でも「解決した」というのは強い言葉です。研究者として、私はこの言葉をほとんど使いません。でも確実に非常に有用な技術になろうとしています。

次に取り組むべき限界と課題

この領域で次に取り組みたい、解決したい、もっと研究したい限界は何でしょうか。

この議論には技術的すぎるかもしれませんが、私はかなりテクニカルな視聴者がいるんです。そうですか、わかりました。

現在これらのモデルは、おそらくより古典的な設計への依存がまだあります。マップと他のオブジェクトの直方体を活用したシミュレーションを行っています。それをこの世界モデルAlpha Dreamsに入力しています。つまり基本的には高度なレンダリングをしているわけです。

問題は、その種の直方体シミュレーションが別のプロセスとして個別に行われる必要があることです。同じリアルタイムではできません。ですからあまり意味がないんです。なぜならCosmosやAlpha Dreamsが雪や道路のひびを描いても、そのレイヤーではそれを認識できないからです。

そのレイヤーにエージェントを制御するAIがあったとしても、この動画とは少し同期していないことになります。ですから将来的には、その依存関係をもっと小さくする必要があると思います。オプションの条件付けやオプションのプロンプトとしてそれを持つことは望ましいかもしれませんが、このような強い依存関係は持たない方がいいでしょう。

また他のモダリティも追加したいと考えています。車にはカメラだけでなく、レーダーやライダーも多数搭載されています。これは解決すべき巨大な計算問題です。今日の時点ではまだ準備ができていません。音声もそうです。時々私は救急車を見る前に音を聞きます。カメラで捉えるよりずっと早く反応できるんです。

ですから今日の世界モデルが何を意味するにせよ、それはまだ変化し続けますし、入力と出力としてのさらに多くのモダリティ、そしてこの種の古典的信号への依存度を下げることがフロンティアとなります。

触覚データの課題

とても興味深いですね。触覚について触れられましたが、車には触覚は必要ないかもしれませんが、ロボットには確実に必要です。この分野の研究はどうなっていますか。

私たちにとって、主に自動運転に焦点を当てているので、触覚はゲームオーバーです。つまりモデルが必要とする唯一の物理的相互作用は地面の動力学です。歩道に乗り上げるのか、ひびの上を走るのか、雪の上を走るのか、これはモデル化する必要があります。

現時点では、これに対するアプローチはありますが、完璧ではなく、まだ解明する必要があります。ロボティクスにおいては、これは本当に対処しなければならず、まだ研究段階の問題です。

ですから、どう解決するかの答えは持っていません。いくつかの異なる道筋は想像できます。力業的なアプローチもあります。グローブのようなものをつけて、視覚と相互作用の両方を含むデータを収集するかもしれません。そうすればモデルは模倣するデータを持つことになります。ビジュアルを生成する際に、力のフィードバックも生成できるようになります。

これはあまりスケーラブルではなさそうです。何らかのセンサーを装着する必要がありますからね。もう一つの方法は古典的な物理シミュレーターを使うことかもしれません。異なる材料、異なるオブジェクトに対して力がどう見えるかについては、多くのことが知られていますから。コンテンツのモデル化は難しいかもしれませんが、特定のクラスのオブジェクトについては、これを本当にうまくできます。

ですからこれがデータジェネレーターとして機能し、私たちが持っているものをそのデータで増強できるかもしれません。まだそのデータが不足しているんです。これらはすべて学習されたものです。現在のモデルの上限はデータなんです。力がどう見えるかを教えなければ、モデルは知ることができません。

しかし希望は、ごく少量のデータだけで、モデルがはるかに多くのことに一般化できるかもしれないということです。ビジュアル、動画は見てきました。なぜならそれは非常に一般的なモダリティだからです。誰もが物事を記録していますよね。それを大規模に見てきました。でも力についてはほとんど何も見ていません。

ですからシミュレーションデータで少し増強できれば、これをより成功裏に訓練できるかもしれません。おそらく研究はそちらの方向に進んでいると思いますが、現時点では完全に研究段階の問題です。もし答えを知っていたら、もう実現していますよ。

自動運転におけるセンサーとデータ収集

Teslaの自動運転を雪の上で使うとき、いつもタイヤにセンサーがあるんだろうかと考えてしまいます。道路からデータを収集するというアイデアもあるかもしれませんね。

自動運転は素晴らしい例です。なぜならスケールしたプラットフォームだからです。非常に多くの車が走っています。ですからすべてのセンサーを搭載すれば、このデータが得られるんです。Alpha Dreamsがこれほどうまく機能しているのも、10万時間分のデータがあるからです。それには他のすべてのセンサーも含まれています。

良いアイデアですね。絶対に使うべきです。でも今日は使っていません。ロボティクスの場合はもっと難しいんです。大規模にデータを収集しているロボットが外にいないからです。

おっしゃる通り、ロボットによって、特定の問題をどれだけ早く解決できるかが決まります。

AGIと物理AIのフロンティア

そろそろ締めくくりの時間になってしまいましたが、最後の2つの質問をさせてください。1つはAGIについてです。物理的なオブジェクトを扱う際のAGIについてどう考えていますか。私たちはAGIに近づいていますか。そしてあなたにとってAGIとは何ですか。

わかりません。こうした質問には答えを避けようとします。答えるのが難しいんです。場合によりますね。

いくつかのケースでは、その痕跡がここにあると考えることもできますが、明らかにフロンティアがあります。私たちにとって、物理AIこそがフロンティアであり、AGIは確実にまだそこには到達していません。すでに存在している強力なLLMやモデルでさえ、物理AI空間では愚かな間違いを犯しているのを目にしています。ですからまだそこに到達すべきフロンティアがあると言えます。

物理AIにとってのChatGPTモーメントはいつ来ると思いますか。

そうですね。ロボットによるかもしれません。自動運転について言えば、ChatGPTモーメントを大衆に到達し、愚かな間違いをしなくなることと定義するなら、自動運転はほぼそこにあります。もうすぐかもしれません。

次の数年間ですか。

次の数年間です。おそらく5年以内と言いたいですね。自律的に走行する車が非常に多く見られるようになると思います。

汎用ロボティクスについては、まだ距離があると思います。キッチンにいて、動作がぎこちなく、別の部屋に誰かが助けているかもしれません。ハードウェアがまだそこまで到達していないんです。

ですから解決すべき問題がまだたくさんあります。おそらく2017年、18年頃の自動運転が置かれていた段階にあると言えるでしょう。当時私たちは皆「すごい、もうすぐ実現する。AIは本当にそこにある」と思いました。でも本当にラストマイルを押し進めるにはまだ時間がかかりました。本当に機能させたいときは、はるかに困難なんです。

今多くの進歩を目にしているとはいえ、ロボティクスにはまだその距離が残っていると思います。予測は難しいですが、これらのエージェントやオープンソース、そして今の非常に速い進歩を考えると、全世界が取り組んでいるんです。これは2017年の運転とは違います。

そのことから、おそらくその時間は短いかもしれないと信じています。でも日付を示したくはありません。だって皆さん記録しているでしょうし、5年後に振り返って「ああ、サンヤは間違っていた」と言われたくないですからね。

誰にもわかりません。最近あなたが最も感銘を受けた研究論文について教えてください。

3Dの役割と研究の方向性

視覚ドメインにおける世界では、3Dが将来どれだけ重要になるかという議論があると思います。一連の論文やブログがあって、3Dの役割や世界モデルがどう進化するか、シミュレーションとアクションの両方ができる単一のモデルになるのかどうかについて語っています。

そうしたブログは、私に考えさせてくれます。これは私たち自身の考えも反映していて、どうなるかはまだ判断が分かれていると思います。私がNvidiaに入社したとき、すべてが3Dでした。3Dをやる必要があると。でもこの数年、おそらく2年間で、私たちも3Dから離れて、カメラデータだけからやることに多く移行しました。

3Dを捉えることが目標ではありますが、その方向にも賭けたいと思っています。そして今、より多くの人々が将来これがどこに向かうのかについて考えています。これはラディアンスフィールドですか。ラディアンスフィールドもそうですが、モデルに実際にどれだけ3Dが必要なのか、それとも2Dデータ、動画からすべてを学習するだけでいいのか、ということです。そして3Dやどう動くべきかの知識すべてが、カメラからの創発的なものとして生まれるのか、ということです。

わかりません。私たちはまだ両方の方向に賭けていると感じていますが、将来がどうなるかは明確ではありません。