Xiaomiの研究開発部門が清華大学らと共同で発表した次世代自動運転AIは、従来の言語ベース推論から脱却し、潜在的な空間時間数学空間における推論へとパラダイムシフトを遂げた革新的システムである。本研究の核心は、ビジョン言語行動モデルに物理世界モデルと幾何学エンジンを統合し、124次元のベクトル空間内で幾何学的制約と物理法則を多様体として表現する点にある。NvidiaのCosmosとVGT幾何学モデルを教師モデルとして知識蒸留を行い、アダプター構造を通じて空間的・動的な事前知識を潜在状態に融合させることで、言語の解像度限界を超えた高精度な環境認識と経路計画を実現している。この手法により、稀な長尾シナリオにおいても汎化性能を発揮し、従来のシーン記憶型アプローチを凌駕する堅牢性と安全性を達成した。

Xiaomiが切り開く自動運転AIの新境地
こんにちは、コミュニティの皆さん。また戻ってきてくれて本当に嬉しいです。今日は本当に複雑なテーマに取り組みます。物理世界モデルと幾何学エンジンをどのように組み合わせるのか、そしてそれら全体がビジョン言語行動モデルとして機能し、自律走行車を運転する仕組みを検証していきます。
世界でも最も強力なEVメーカーの一つによる最新研究をチェックしていきます。Xiaomiです。彼らの研究開発ラボと、次世代自動運転車のために発表された最新研究を見ていきましょう。中国の自動車メーカーの取り組みを詳しく見ていきます。
2026年3月2日に発表された新しい研究があります。清華大学、電気自動車部門、そしてマカオ大学との共同研究です。彼らが取り組んでいるのは、自動運転への応用におけるビジョン言語行動モデルのための、潜在的な空間時間数学空間における同期プロセスです。これは本当に人工知能が持つあらゆる複雑性を一つにまとめたものなんです。
思考プロセスがあり、意思決定プロセスがあり、空間時間空間における表現があり、ビジョン、オーディオ、ビデオ、言語、思考から戦略を伴う行動の定義まで、すべてが含まれています。そして当然ながら、高速道路を自律走行しているわけですから、これらすべてが非常に高速で起こっています。では見ていきましょう。
AI システムの構造と新しい複雑性
私たちのAIシステムは比較的シンプルですよね。LLMがあって、エージェントがあって、マルチエージェントがあります。そして今、少し複雑性を加えます。なぜなら今、ライダーとレーダーを備えたロボティクスについて話しているからです。ビジョンと言語と行動モデルがあるんです。では進めていきましょう。
ハードウェア構造について言えば、これはかなり簡単です。例えばNvidiaを使うなら、Orinがありますし、Thorの開発キットもあります。Hopperでもいいですし、Blackwellでもいい。これらがハードウェア構成です。本当に強力なコンピューターがあるわけです。全く問題ありません。
本当に興味深いのは、その背後にあるアイデアです。車の中で何が起こっているのか。どんなモデルなのか。どのように同期しているのか。では過去のものと比較してみましょう。
従来モデルの限界と新しいアプローチ
標準的なビジョン言語行動モデルは、ある種の言語的な思考連鎖です。モデルがベクトルを予測し、それを「ブレーキ」という単語にマッピングし、その単語を見て、今度は行動を予測するんです。行動がどこに向かうかはわかりますよね。これが古い古典的なモデルです。
ところが、言語には問題があることがわかりました。分析結果が「道路のカーブは正確に14.72度で、0.3メートルの高低差がある」だとしたら、これを十分に速く言うことはできませんし、単一の単語や単一のトークンに入れることもできません。
試してみると、古いシステムは幻覚を起こすか、複数のセンサーの精度を単純に失ってしまいます。ではどうするか。このすべてのデータの別の数学的表現を見つければ、ベクトルの利点は、もちろんはるかに速く計算できることです。
そこで、これらすべてを124次元の数学的ベクトル空間に入れましょう。そうすれば、道路で遭遇するあらゆるものに対して、この空間を正確に定義できます。数学的にエンコードされた正確な幾何学的情報を持つことになり、それを非常に高速に処理できます。
でも疑問に思うかもしれません。ちょっと待って、AIはパターンマッチングマシンでしょう。じゃあパターンは何なの? 人間の言語を失ったら何が起こるの? 簡単です。主語・動詞・目的語という言語的パターンの代わりに、今度は空間時間パターンになるんです。
幾何学理解と物理法則の統合
これが実装です。私たちが望むのは幾何学的理解と動力学の理解です。物理的に何が可能なのか。車の動力学を支配している物理法則は何か。そして、別の方向に舵を切るとか、別の道を選ぶとか、何でもいいですが、行動を起こしたいわけです。
シンプルです。ベクトルは今や、10メートル先の三次元の障害物が左に動いていることを表現できます。次のベクトルは、その物体の後ろの空間を表現するかもしれません。特定のタスクで訓練されたベクトル表現は、非常に強力になり得るんです。
古い言語的思考連鎖では、ブレーキに30%の圧力をかけて、ハンドルを左に5度回転させる、と言わなければなりませんでした。人間の言語は、私たちの特定のタスクには単純に遅すぎるし、解像度が低すぎるんです。簡単でしょう。
でも今度は別の問題に直面します。模倣があるんです。これは、本当に理解することなく、単に分布を当てはめているだけということです。でも私たちが欲しいのは、自律走行車の本当の推論プロセスです。つまり、汎化可能な関数を学習することです。
監督モデルによる新しいアイデア
そして今、この新しいアイデアがあります。素朴な潜在的思考連鎖のビジョン言語行動モデルを作って、ここに潜在的推論を持たせるわけですが、これらのシステムに加速する車の物理学や、赤信号で止まっているときに直面する幾何学的複雑性を教えていないという問題があります。
そこで、この監督モデルを思いつきました。2つの追加的な基盤モデルが助けてくれます。世界モデル(WM)と純粋な幾何学的基盤モデルがあります。これらが今、私たちのモデルを助けてくれるわけですが、すべてを空間時間潜在思考連鎖のビジョン言語行動モデルに変換しなければなりません。
面白そうだと思うかもしれませんね。では見ていきましょう。原理的には非常にシンプルです。画像があって、ビジョンエンコーダーがあって、トークナイザーがあります。素晴らしい。でも、現実世界で何が起こっているのか、何が可能なのかについての情報が必要です。車が飛び去るなんてことは本当に可能ではないんです。
では、この数学的表現の中で可能なすべてのパスをどう定義するのか。そしてもちろん、幾何学を理解する必要があります。次の物体までの距離は何か。5メートル、10メートル、15メートル先の道路の曲率はどうなっているのか。外の実際の環境がどうなっているかという幾何学的解釈をすべて持たなければなりません。
したがって、2つの追加的な基盤モデルがあります。世界モデルと幾何学モデルです。素晴らしい。今、私たちが持っているのは、埋め込まれた画像です。埋め込まれたテキストもあるかもしれません。それから埋め込まれた世界モデルがあります。埋め込まなければならない三次元幾何学モデルがあります。
そして軌道を構築しなければなりません。これは車が正確に進むべき場所です。そしてもちろん、これも埋め込まれます。素晴らしいと言えます。これがメインのアイデアです。今、3つの入力があります。そしてすべてが新しい数学空間における新しい数学的表現に転置されます。すべてがそこで計算されます。そして軌道が得られます。
学習プロセスと基盤モデル
これをどうやって学習するのか。簡単です。ルールは1つだけ… いや、教師付き微調整と強化学習があります。これだけです。ステージ1とステージ2で本当に簡単にできます。でもこれには馴染みがあるでしょう。では始めましょう。
2つの基盤モデルについてお話ししました。これはもちろんNvidiaのCosmosです。Nvidiaのハードウェアを使っているわけですから。それとVGTです。これは幾何学モデルです。でも、これらすべてをどうやってまとめるのかと思うかもしれません。
実は非常にシンプルです。ここでHと表される潜在的空間時間思考連鎖は、これらすべてのモデル間の連続的な推論の架け橋なんです。まず、分離された2つの特徴があると言います。まずH動的があり、これは時間的動力学、つまり車を運転している間の毎秒の全体モデルの進化を捉えます。
一方、H幾何学は、シーンの完全な空間幾何学をエンコードします。これを分離することが最良の解決策かと言えば、そうではないかもしれませんが、少なくとも機能しています。だから最もシンプルな解決策でいきましょう。
これらの連続的な潜在変数は、自己回帰的に生成されて、推論プロセスを現実世界の物理的特性とシーンの正確な幾何学でグラウンディングします。
どうやるのか。教師として2つの外部基盤モデルがあります。彼らは、蒸留プロセスが進行していると言います。教師たちが今、彼らの知識、構造化された知識を、領域の推論プロセスで生成されている連続的な潜在トークンに提供するからです。
模倣学習だとわかりますよね。何が起こっているか正確にわかります。新しいことは何もありません。この新しいシステムのアライメント損失を計算する場合、最もシンプルなケースで平均二乗誤差を使えます。アダプターで保護された特徴の間で。でもこれは1秒後に説明します。
そして何があるかというと、世界モデル用の損失関数があります。3D幾何学モデル用の損失関数があります。これをここのように組み合わせると、全体の損失関数があります。世界モデル、3Dモデル。そしてもちろん、行動モデルが必要です。
教師付き微調整トレーニングは、私たちが知っているすべてです。NvidiaによるこのCosmosモデルが優れたモデルである必要があります。そして、レーダー画像とライダーデータから生成される最高の幾何学的解釈にアクセスできなければなりません。
行動については簡単です。行動生成のための交差エントロピー損失です。これはすべて古典的です。新しいことは何もありません。この単純な追加が本当に損失関数を構築する最良の方法かと思うかもしれません。そうではないかもしれません。これは最もシンプルなケースに過ぎず、この背後には他のアイデアがあるかもしれません。でも、私のチャンネルの購読者なら、これを理解できると思います。
思考フェーズと計画フェーズの分離
でも、別の分離も起こっています。確率的モデルで作業していることを覚えていますよね。だから、最もシンプルなケースで、思考フェーズと計画フェーズをどうにか分離しなければなりません。私たちのエージェントは本当に知的だからです。引用符付きですが。
つまり、彼らは見たものについて考え、分析し、そして行動を計画します。これを分離しましょう。なぜなら、確率的モデリングを思考プロセスと計画プロセスに分けるからです。
これは単純に別の単純化を意味します。モールはまず思考者として機能して、連続的な推論状態Hを生成します。その後、計画者として機能して、このグラウンディングされた思考に条件付けられた軌道ウェイポイントを予測します。
もちろん、1分後にお見せしますが、これらのグラウンディングされた思考は、私たちの特別に構築された数学空間内の特定の多様体上にあります。すぐにやってみましょう。
幾何学的多様体と物理法則の視覚化
感覚を掴んでもらうために、この青い結晶構造のような性質が幾何学だと思ってください。これは、この幾何学的パターンのフラックス内で、理論的に移動できる場所です。素晴らしい。
そしてこの青いチューブの内側に、物理法則によって許可されているものが見えます。加速、減速。質量に何が起こるか。速度に何が起こるか。物理学を尊重すれば、理論的に何が可能か。
これは幾何学的フラックス内の複雑な多様体の一種です。だから、これらの黄金の経路が物理的に可能なものだとわかります。加速できます。減速できます。状況は変わりますが、もちろん道路の幾何学と物体の幾何学は同じままです。
でも未来への投影があれば、私の車はどう振る舞うでしょうか。将来の経路は何でしょうか。これは興味深いです。この数学空間に複数の物体があり、この数学空間を特定の方法で構築していることがわかります。
2つの基盤モデルから知識を蒸留しています。どうやるのか。最もシンプルな方法です。LoRA、アダプター構造を知っていますよね。アダプターでやります。
まず、世界モデル用の動的アダプターがあります。それから、遭遇する幾何学的複雑性のためのシンプルな幾何学アダプターがあります。もちろん、これはBERTやセンテンストランスフォーマーから知っていますよね。マスキングがあって、そうです。このトピックに本当に新しいことはありません。
幾何学アダプターを見てみると、アダプターは空間的隠れ状態を3次元基盤モデルVGTの密な特徴空間とアライメントします。これが幾何学のための最初の教師です。
そして今、もはや本当に言語的ではなくなった言語的潜在状態を融合させることで、幾何学的状態と画像センサーから得られる元の視覚埋め込みを組み合わせます。潜在空間内で直接、シーンの深さや占有構造などの計量的に正確な空間事前情報を回復します。
素晴らしいですね。幾何学基盤モデルから幾何学アダプターで学習し、これを融合させて、新しい数学的表現と空間事前情報を得ます。つまり、この青い結晶のフラックスチューブを構築したことになり、これが幾何学で見えるもので、これが幾何学的世界です。
動的アダプターについても同じことができます。世界モデルとは何か。可能な物理的経路とは何か。Nvidiaの Cosmosに詳しくない方のために、これは物理AIのための世界基盤モデルプラットフォームです。
すべてを知る必要がある論文があります。ここまで来たので、オックスフォード大学とMITによる視覚幾何学グラウンデッドトランスフォーマー、VGTと呼ばれるものについての論文があります。
このトランスフォーマーは、遠近法の歪み、照明、他の物体の前にある物体など、すべての画像のポイントトラッキングなど、あらゆることを学習しました。これが将来の自動運転に使用されているトランスフォーマーです。
モデルが学習する真の意味
絶対に明確にしておきましょう。この新しいオリジナルの言語行動モデルは、潜在空間をこれらの教師モデルとアライメントしています。でも、古典的な方法で考えるような何かを記憶しているわけではありません。赤信号を車として見たら止まらなければならない、というようなシーンを記憶しているのではありません。
別のことを学習しています。赤信号の空間的表現、ゲルマン的パターンの複雑性、色など、そういったものを学習しています。そして車の減速の物理学も学習しています。
なぜか。教師の表現が連続的で非常に複雑な多様体だからです。それらは、特定のシーン行動ペアではなく、その形式に物理法則を含んでいます。
これが未来への本当の一歩です。これらの多様体上で物理学の複雑性を統合できるようになりました。これが例えば幾何学のためのものです。これが青いフラックスチューブです。すべてが統合されています。
トレーニングプロセス
もちろん、これらのモデルをトレーニングしなければなりません。始めましょう。教師付き微調整フェーズがあります。ポリシーは堅牢な空間時間能力を獲得しました。幾何学的および動的世界モデルの潜在思考連鎖が、推論プロセスのグラウンディングを実現しました。素晴らしい。
強化学習トレーニングに進むなら、もちろんGRPOを使います。今、2つのアダプターを凍結します。もちろんです。なぜなら、ビジョン言語行動モデル、行動生成を最適化したいからです。確立された潜在推論を安定した内部ガイダンスとして使用しながら、軌道レベルの報酬関数を最大化することで。
古典的なレパートリーにあるすべてを使います。教師付き微調整が行われ、今度はGRPOで強化学習を行います。アダプターを凍結し、軌道レベルの報酬関数を最大化してトレーニングします。標準的な手順です。
少し違う見方をしたければ、小さなナノバナナに聞いてみます。これがまた青で、幾何学的事前情報、VGTです。これは特定の環境に対するすべての制約です。
そしてその中に、視覚的には完璧ではありませんが、Cosmosがあります。動的な世界モデルの事前情報、剛体の車にとって物理的に可能なことです。かなり大きな可能性のフラックスがあることがわかります。
そして、モデルが最良の前進経路として決定しているものがあります。モデルの自己回帰的な前方パスがあります。2つの複雑性を組み合わせています。幾何学的事前情報と剛体の車の物理的に可能な動きです。そして、車両の最適な前進経路を与えてくれる自己回帰的な前方パスが得られます。
実験結果
結果はどうでしょうか。これをテストすることに興味があるなら素晴らしいです。すべての異なる可能性があります。80億パラメータのモデルでこれを行い、優れた報酬を達成しました。美しいです。
研究者たちは言います。このビジョン言語モデルを導入しました。これが潜在空間時間空間モデルで、自動運転の推論パラダイムを明示的な言語的推論から潜在的な空間時間数学空間へとシフトさせます。
3D VGTモデルとビデオ基盤モデル、つまり世界モデルから物理的事前情報を蒸留することで、私たちのアプローチは、推論遅延、意味的幻覚、特に自動運転におけるテキスト思考連鎖に固有の物理的グラウンディングの欠如という課題に効果的に対処します。
そして彼らは言います。教師付き微調整とGRPOという段階的なトレーニング戦略と組み合わせて、美しいベンチマーク結果が得られました。素晴らしい。
結果は、物理的現実とのアライメント潜在空間の組み合わせが、ビジョン言語行動ベースの計画の堅牢性、効率性、安全性を大幅に向上させることを示しました。自律走行車のすべての行動において。
清華大学とXiaomi EVが、次世代の自律走行車への計画、研究への洞察を美しく提供してくれていることがわかります。付録には多くのデータ可視化、テスト走行があります。すべてが見られます。
ベースラインが赤で、もちろん彼らの最新モデルが緑です。さまざまなテストシナリオで美しく上回っていることがわかります。でも、今何を達成したのか自問してみましょう。理論的な観点からAIを見たときに、次世代のAIを開発したいなら、何が起こったのか。
AI の理論的進化
もはやここに言語はありません。純粋な幾何学と世界の純粋な動力学です。行列で、より正確にはテンソル形式、表現で。人間の文法の形式として使っていたものは、今や物理的に有効なすべての現実関数を表す高次元空間における多様体の新しい数学的表現に本当にエンコードされています。
車でできることすべて。左に行く、右に行く、何でも。そしてシミュレーションは、まさにその多様体を尊重するようにトレーニングされ、その多様体上にも存在する、トランスフォーマー構造のニューラルネットワークの自己回帰的な前方パス以外の何物でもありません。
したがって、この多様体の複雑な構造が、すべての幾何学的に許容される前方パスと、物理システムが車の前方への軌道にどのように影響するかを定義します。
人間の言語から、すべてをまとめて複雑な多様体を構築し、それらの多様体に沿って経路を移動させる、数学的に最適化された多様体表現へと移行しました。
次世代のモデルは、今日のように自分自身と話すのではありません。複数のセンサーで記録するシーンの幾何学と物理学について、連続的な数値予測ループを実行しているんです。
自律走行車の周囲の世界について、進行中の連続的なシミュレーション、数値予測であり、それは今や完全にベクトル変換の連鎖として存在しています。
すべてが、幾何学を尊重し、車にとって物理的に可能なこと、つまり加速、減速などを尊重する、最良の数学的で最も密な表現で変換されています。他の車両の動力学、シーンの幾何学。建物はどこ? 道路はどこ? 川はどこ? 何が起こっている? 赤信号はどこ? 青信号はどこ? ここで進む可能性は何?
すべてが数学的最適化に変換され、進行中のシミュレーションは、AIの基礎について考えると、予測的状態遷移です。マルコフ決定過程に戻りました。部分観測可能マルコフ決定過程があります。数学的レベルで、ツールを使ってこれを処理しなければならない状態遷移に戻ったんです。
モールは今、内部表現を保持しています。これは隠れ状態ベクトルで、複雑な世界の圧縮された抽象化として機能しますが、今では幾何学と物理学を含んでいます。
行動のシーケンスを予測したければ、もはや言葉では考えません。現在の隠れ状態Hをトランスフォーム アーキテクチャの内部重み構造に通すだけです。
モデルが教師付き微調整とCosmos世界モデルでの強化学習でトレーニングされたので、ニューラルネットワークの重みは本質的に、記憶されたとは言いませんが、車がさらに0.5秒、1秒運転したら世界がどのように進化するかの確率分布に最適化されています。
このネットワークを通してベクトルを通過させることがシミュレーション自体です。なぜなら、1秒後のHt + 1を生成するからです。同じ数学的複雑性の中で、0.5秒の運転後の世界を記述する新しいベクトルが得られます。
必要なすべての複雑性を含むことができる新しい表現ですべてをまとめました。
ロングテール性能の重要性
もう1つ、もっと読みたければ、ロングテール性能について。これは興味深い効果です。論文は、複雑でロングテールのシナリオにおける一種の良い解決策を示しています。
確率分布があって、その端にロングテールがあることを覚えていますよね。それらは、1000時間の運転に1回起こるイベントです。それらが本当にスポーツイベントです。
それらはAIモデルによってまだ本当に計算され最適化されていません。なぜなら、非常にまれにしか起こらないので、まだ絶対的な最適化プロセスに入っていないからです。
でも、記憶されたモデルは、ロングテールの未見のシナリオで失敗するでしょう。以前に見たことがないからです。処理したことがないからです。単純に分布外です。
でも、多様体上の幾何学的表現で作業していて、ラストホイールがこの多様体上でのみ動作しているので、この新しい方法論は成功するだろうと著者たちは言っています。
運転の転用可能な原則を抽出したことを示唆しています。それは多様体の構築に統合されており、したがって記憶されたインスタンスはありません。学習したシーンはありません。
完全に抽象的な数学的表現で、物理学そのもの、自然の法則そのものを、トレーニングプロセスの教師付き微調整と強化学習で学習します。これだけです。そして今、この多様体に沿って経路を移動させます。
モデルがそれを学習し、NvidiaによるCosmosモデルがあり、Nvidia Orinによる高速計算インフラがあり、アメリカ、インド、オーストラリア、オーストリアで運転中に見るすべての物体についてトレーニングされた完璧な複雑性幾何学トランスフォーマーモデルがあれば、複雑性の削減ができました。
このモデルは、次世代で見つかるかもしれません。1、2年後に車を買えば。技術がどのように発展しているかを見るのは絶対に魅力的です。そしてこれはかなりシンプルな方法論です。
どう思いますか。これが何か新しい情報を提供できたことを願っています。興味深かったでしょうか。とにかく、メンバーになっていただけると素晴らしいです。次の動画でお会いできることを願っています。


コメント