吉利汽車AI & Mercedes-Benz AI：対話とLSD-3D（Princeton大学）

この動画は吉利汽車とMercedes-Benzという二大自動車メーカーのAI技術研究について詳しく解説している。吉利汽車のDream Chatシステムでは、部分観測マルコフ決定過程（POMDP）を活用してドライバーとの対話における不確実性を扱う技術を開発している。一方、Mercedes-BenzとPrinceton大学の共同研究であるLSD-3Dシステムでは、自動運転車のテスト環境として未知の3D運転シーンを生成する技術を確立している。両研究ともAIが不確実性に対処する能力の向上を目指している。

Geely AI & MercedesBenz AI: DIALOGUE and LSD-3D (Princeton)

All rights w/ authors: Dream to Chat: Model-based Reinforcement Learning on Dialogues withUser Belief ModelingYue Zhao 1...

はじめに
吉利汽車のDream Chatシステム
部分観測マルコフ決定過程の活用
隠された信念の推論
対話世界モデル
信念推論モデル
水晶玉：未来予測システム
強化学習アルゴリズム
行動学習
追加の批判ネットワーク
Dream Chatの目標
数学的表現
報酬モデルの構築
Mercedes-Benzの3D環境生成技術
LSD-3D：大規模3D運転シーン生成
新しい軌道に沿ったリアルタイム物理グラウンデッドビデオ
2次元ビデオ拡散モデルの限界
PrincetonとMercedes-Benzの新手法
3Dフォトグラファーと2D錯覚師の融合
コア技術：2次元拡散モデルと3次元メッシュ
LSD-3Dの3つの主要要素
ガウシアン：半透明の色付きブロブ
他手法との比較
完全な数学的操作フロー
継続的最適化プロセス
3つの要素の組み合わせ
新しい設計思想

はじめに

コミュニティの皆さん、こんにちは。夏の終わりを迎えた今日、AIの隠された現実を解き明かしていくで。今日は特定の産業に注目してみよう。吉利汽車という持株会社を見てみるんやが、この会社はFortune Global 500にランクインしてて、世界中に約12万人の従業員を抱えてるんや。

吉利オートからLink、Zeekr、ボルボ、ポールスター、ロータス、ロンドンの電気自動車会社まで、あらゆる車を製造してるんやで。彼らがAIで何をやってるかが分かるやろ。そして全く新しいスポーツカーもあるし、さらにアメリカのMercedes-Benz研究所もあって、スタンフォード大学とカリフォルニア大学サンディエゴ校との取り組みもやってるんや。でもこれは2024年の話やった。

昨日発表されたばかりの最新研究を見てみなあかん。Mercedes-BenzがPrinceton大学とやってる研究を見てみよう。彼らはAIで何をしてるんやろか？最新の技術レベルはどうなってるんやろか？

吉利汽車のDream Chatシステム

まず最初のやつから始めよう。J AI研究所、北京理工大学、それにBihong大学があって、Dream to Chatっていう夢があるんや。彼らは「ユーザー信念モデリングを使った対話における強化学習ベースのモデルを使うで」って言うてるんやが、「何のこと言うてるん？車と会話するっちゅうことか？」って思うかもしれへん。そうや、彼らは今、車との会話方法と、車がどう応答すべきかを探求してるんや。

どうやってこれをするか知ってるか？すでに話したことがある対話世界モデルを構築するんや。これはユーザーの感情から感情、ユーザーの意図まで全てを予測できるんや。ユーザーが「おい、クライアントXYZとの次の打ち合わせに連れてってくれ」って言った時の意図をな。そして彼らは部分観測マルコフ決定過程を定義して、「これがこれをできる本質や」って言うんや。「おお、なんという偶然！これは僕の最近の動画の一部やった」って思うかもしれん。

彼らが持ってるのは、不確実性に対する新しい原理的アプローチやねん。ユーザーが何を望んでるかは分からへん。ユーザーが車に乗った時、何も分からへんのや。じゃあどうやってこれをマッピングするんや？どうやって未来を予測するんや？車の中のAIは、君の未来の意図を理解せなあかん。

「ここ暑すぎるわ、音楽かけて。なんで俺がこのクライアントのところに運転せなあかんねん？住所はどこや？」って言ったとしよう。Google Driveに接続せなあかん、Google Mapsに接続せなあかん、住所を見つけなあかん、時間を計算せなあかん。AIが全部やらなあかん。その日のその時間での最適なルートを見つけなあかんのや。分かるやろ。

部分観測マルコフ決定過程の活用

人間とのコミュニケーション、特に車との場合は、ちょっとめちゃくちゃなんや。そしてこのグローバル企業Jの会社から出た新しいAI研究論文では、彼らは部分観測マルコフ決定過程でこれを解決しようとしてるんや。「不確実性の下で人間とのインターフェースがあるAIの意思決定のための数学的フレームワークを使わなあかん」って言うてるんや。AIは車の外でユーザーに何が起こったか、今何が起こってるか、本当の意図が何なのか全く分からへん。ユーザーが正確で論理的な文章でそれを表現できないかもしれへんから、車が推測せなあかんのや。

これは僕らが最近の動画で話した話題と全く同じや。「AIは不確実性で動く」って話でな。そこで部分観測マルコフ決定過程を全てのAIエージェントの主要コアとして特定したんやが、今度はこの美しい自動車メーカー、このグローバル自動車メーカーでも同じことが見えるんや。彼らもPOMDPを採用してるんや。

今、人間との対話が部分観測パズルとしてAIにとって興味深いものになってる。もし世界の全ての情報があって、これが完璧なAIやったら、「これはマルコフ決定過程やな」って言えるやろ。でも問題は、テキスト履歴がシステムの全体状態じゃないことなんや。システムっていうのは人間、感情、時間スケール、人間がどこに行きたいか、友達と一緒か一人か、いろんなことが全部含まれるんや。だから単純なマルコフ決定過程じゃないんや。

部分観測マルコフ決定過程なんや。例えば、ユーザーが「プロジェクトの締切が明日や」って言ったとしよう。ユーザーがちょっとストレス感じてるのが分かって、今度はJaneっていう最初のクライアントのところに運転せなあかん、または先に別の打ち合わせがあるっていう状況や。

隠された信念の推論

ここで車のタスクは実際、単純なマルコフ決定過程じゃあかんのや。それやったら「よっしゃ、頑張れるで！」って言うだけやから。今度は部分観測マルコフ決定エージェントが隠された信念を推論するんや。僕が最近の動画で説明した隠された信念っていうのは何かっていうと、感情、ストレス、パニック、多分ユーザーが注意散漫になって運転してる状態、感情が否定的になってる状態、全部やねん。

AIの意図じゃないのは、AIが状況に応じて、緊急性に応じて反応すべきことや。多分人間を少し落ち着かせて、計算された到着時刻を教えて、クライアントまでの車での移動時間は十分ある、クライアントから戻る時間も十分ある、全部の時間がある、カレンダーをチェックした、移動の条件もチェックした、全部大丈夫やって人間を安心させるんや。

これが車のAIの次のステップになるんや。完全な状態は、ここでの会話のテキストと推論された感情的文脈、そしてユーザーの意図、全ての組み合わせなんや。これでエージェントのアクションがずっとターゲットを絞ったものになるんや。

対話世界モデル

でも「AIはどうやってこれを知るんや？」って思うやろ。これが美しいところなんや。AIには対話世界モデルが組み込まれてるんや。これが全てを説明してくれる。これは論理的構造で、AIシステムの中に入れて「おい、AIシステムとして周りの世界を理解せえよ」って言うんや。今日は人間ドライバーとの対話にだけ焦点を当ててるんや。

これはAIの想像エンジンっていうてもええで。仮想環境で人間との10万通りの異なる会話を試すことができるんや。この特定の動画のために第二の解説があるんやが、見たことがある人は僕が何を言ってるか分かるやろうし、見てない人は気にせんでええ。

対話世界モデルっていうのは学習されたモデルやねん。後で説明する質問やが、これはAI（車）と人間との会話をシミュレートするんや。実際のインタラクションから直接ポリシーを学習する代わりに、かわいそうなAIエージェントは、まずこの対話世界モデルを学習するんや。これには3つの相互接続された部分がある。

信念推論モデル

最初のやつは信念推論モデルで、僕はこれを一種の心読み器って呼んでるんや。これは認知モデルで、車が所有者と持つ観測可能な対話履歴を入力として受け取って、ユーザーの信念の構造化された表現を出力するんや。「俺の人間は誰や？」って車が言うんや。「何を望んでるんや、今日はどんな気分や、カレンダーには何があるんや、どこに行かなあかんのや、道路状況をチェックできるか？始める前に何を準備すべきか？」って感じでな。

著者らはここで認知的プロンプトを設計したLLMを使って、テキストから、会話から感情、感情、意図を抽出するんや。そして動的なやつがある。未来を予測せなあかん。AIは未来を予測するためだけに存在するんや。

水晶玉：未来予測システム

ここで僕が灰色または少し緑色で書いた言葉で言うと、これを水晶玉って呼んでるんや。車の中のかわいそうなAIは、僕がどんな気分で車に乗るかも分からんまま未来を予測せなあかんのや。エージェントが特定の時刻Tで状態Sにあって、特定の時刻TでアクションAを取った場合、次に何が起こるんや？未来はどうなるんや？

車の中のAIモデルは次の状態と即座の報酬を予測せなあかんねん。これは2つのサブモデルで構成されてる。もちろんシステムの状態間の遷移モデルがある。モデルがユーザーの返答、つまり僕が何を言うかを想像するんや。そして報酬モデルがあって、これがフィードバックなんや。

これは会話の質を予測して、最も成功した会話だけが報酬を受けて、車の通信パターン、通信シーケンスに選ばれるんや。でも主な問題は、一体どうやってこのシステムを訓練するんやっちゅうことや。車の中の小さなAIはどうやって未来を予測して、僕との会話を予測できるようになるんや？

強化学習アルゴリズム

学習アルゴリズムがあるんやが、実際には強化学習アルゴリズムやねん。AIには他に何もないからな。これには2つの部分がある。理解するには複雑すぎるから、著者らはAIのためにこれを2つの低複雑度問題に分離することにしたんや。

最初の部分は動的学習、僕が「世界を予測することを学ぶ」って呼んでるやつや。AIには問題ないやろ。2番目の部分は今度はAIの行動学習や。AIが人間の会話の未来を予測できるこの夢の中で行動することを学ぶんや。

パート1では、過去の経験が必要や。何かが必要やねん。車とユーザーの理論的なインタラクションまたは会話があって、これが工場のどこかで事前プログラムされてる。古典的なコミュニケーションパターンがあるんや。世界モデルを訓練して、目的関数がある。目的関数の数式が見えるやろ。変分推論からの古典的な技術である証拠下界がある。KLダイバージェンスが見えるやろうが、これは単純に正規化するもので、前のステップのモデル力学から大きく逸脱しないようにするためのもんや。

ここに詳しくなければ、AIの新しい数学について52分間だけの特定の動画があるんや。全ての記号、全ての記法、全てを説明してるから、それを見たら専門家になれるで。

行動学習

パート2は行動や。この会話パターンの世界モデルがある程度訓練されたら、今度はシミュレーターになるんや。高忠実度シミュレーターになって、エージェントは今、特定のポリシーπ（パイ）、つまり人間とどう行動するか、どうコミュニケーションを取るかの特定の戦略を、ほぼ完全に自分のシステムまたは自分の想像の中で学習できるようになるんや。

AIは今、仮想コミュニケーションの夢を構築して、この想像の中で何百、何千もの会話パターンを再生できるんや。公式は簡単や。ポリシーは環境がある実際のまたは想像された状態から始まる。そして世界モデル遷移モデルを使って、何百ステップもの将来の会話全体を展開して、大量のシミュレートされた体験を生成する。そして標準的なモデルフリーアルゴリズム、PPOやRPO、DPOのようなものを使って、この安価で豊富な想像されたデータで自分のポリシーと批判ネットワークを更新するんや。

追加の批判ネットワーク

そうや、追加の批判ネットワークがあるんや。簡単に言うと、現実世界の人間との高価なインタラクションを最小化できるから、このシステムが効率的になる理由の説明や。車の中のAIには今、世界モデルがあって、これによってAIが高速でポリシー最適化できるんや。起こりうる全ての会話、全ての可能性の夢世界を並列化することもできる。僕が幸せな時も、悲しい時も、車に「ちょっと機嫌を良くするために少しドライブしてくれ」とか何でも言うことができる。車で新しいサービスを提供したいんやって。うまくいけば信じられないことになるで。

Dream Chatの目標

目標、彼らはDream Chatって呼んでるんやが、吉利のDream Chatの目標は、対話エージェントに世界で言われてないことについて推論する能力を装備する効果的なフレームワークを提供することや。言及されてないけど、何かしらコミュニケートされてないことがある。でもこの暗闇の中の不確実性が、AIの意思決定過程に入ってこなあかん。だから各LLMのコアである部分観測マルコフ決定過程を使うんや。これが各エージェントのコアなんや。なんという偶然やろ。

著者らは「対話を部分観測マルコフ決定過程としてフレーミングして、車との間で起こりうる会話の世界モデルを学習し、シミュレートして計画することによって、車や家やその他何でもに入った時により感情的に知的で、効率的で、美しく、そして最終的により人間らしい会話AIへの道を開く」って教えてくれるんや。

Dream Chat、ユーザー信念を持った夢のチャット。このやつはユーザーが今日どうなのかを推測せなあかん。彼の信念は何か？感情は何か？意図は何か？目標は何か？そしてAIはそれに応じて行動するんや。

数学的表現

「それに応じて行動する」って話やけど、これは数学的表現やねん。単純に5つの要素が僕らの部分観測マルコフ決定過程や。観測、履歴、信念状態、古典的状態、取ることができる行動、報酬、そして遷移関数、明確やな。

吉利からの公式発表でDream Chatの完全版が見えるやろ。報酬関数とPPOアクターと批判関数があって、僕が説明した全てが見えるんや。別のやつもあるけどな。

要約すると、このインタラクションモデルには信念推論モデルがあるんや。観測モデルがある。構築して訓練せなあかん信念遷移モデルがある。AIにフィードバックを与える報酬モデルがある。

報酬モデルの構築

でも報酬モデルは一体どこから来るんや？どうやって構築するんや？それからアクターネットワークと批判ネットワークを構築せなあかんし、ポリシーπを訓練せなあかん。ただ教えておくが、たくさんのLLMが関わるから、ブラックボックス複雑性の集約になるんやで。

Mercedes-Benzの3D環境生成技術

次の論文は今度はMercedes-Benzからや。いいね、これも自動車会社やけど、今度は違うことを見てるんや。完全に未知の運転環境を生成してるんや。人間ユーザーとの会話でAIが持つ感情状態や言語的体験についてじゃなくて、今度は安全性、運転環境、特に運転の未知の物理空間についてなんや。

Mercedes-Benzで完全に異なる種類の不確実性を扱ってるのが見えるやろ。そして推測してみ、彼らもAIを使ってる。当然や。他に何があるっちゅうねん。今日は皆AIをやってるからな。

自動運転車の開発者にとって、Mercedes-Benzやその他に構築して実装するAIを天文学的な数のシナリオでテストする必要があるんやが、残念ながらそれらは利用できへん。アメリカには既に特定の都市で10万時間の自動運転を行った自動車会社もあるんや。すごいな。でもヨーロッパではこれがほとんど利用できへんのや。だから仮想環境を構築せなあかん。

LSD-3D：大規模3D運転シーン生成

道路でボールを追いかける子供、マイアミでの突然の吹雪、ニューヨークでの洪水、5年10年後または再び夏にカリフォルニアやカナダからの山火事。前回行ったことがあるんや。車がどう行動して外部環境を理解するんや？こういう条件が全てある時、自動運転車の開発者として、車が安全基準に100％従って行動することをどう確保するんや？

Mercedes-BenzとPrincetonから2025年8月26日の新しい研究がある。こんにちはPrinceton大学。AIシステムでの幾何学的グラウンディングを持つ大規模3D運転シーン生成。美しいタイトルLSD-3Dがある。よし、これで行こう。

また不確実性が見えるやろ、そしてAIは不確実性に対処せなあかん。未知の運転環境や。AIのタスクは今、ビデオやカメラで記録してない数千、数万の未知の運転環境を構築することや。道路で起こりうる全ての理論的可能性をチェックせなあかん。やってみろ。これがこの美しい発表の今日のトピックや。

新しい軌道に沿ったリアルタイム物理グラウンデッドビデオ

新しい軌道に沿ったリアルタイム物理グラウンデッドビデオの生成。今、技術がある。全てのリーダーや。僕が3Dフォトグラファーって呼ぶものがある。実世界のセンサーデータ、LiDARデータが構築されてる。特定のシーンの完璧なフォトリアリスティック3Dコピーができる。都市ブロックの完璧な3Dスキャンを作成して、幾何学的に完璧にする。測定できるけど、何が問題かは分かるやろ。静的画像やねん。

静的な情報で、車は運転してるんや。火曜日の午後に都市ブログを撮影したんや。天気は変えられる。建物は追加できる。でも違う季節は体験できへん。洪水は体験できへん。降雪は体験できへん。霧や火災その他は体験できへん。この瞬間に記録したデータによって制限されるんや。でもこれじゃ十分やない。

2次元ビデオ拡散モデルの限界

2次元ビデオ拡散モデルもある。創造的やねん。本当に創造的で、ちょっとクレイジーなパワーハウスや。「雨の中のネオンに照らされた東京をドライブして、レインコートを着た美しい女性が歩いてる」っていうプロンプトを与えるんや。AIに少し詳しければ何を意味するかは分かるやろ。

美しくて妥当な、本当に良い見た目のビデオができる。でもトリックなんやで。2次元画像のシーケンスにすぎへん。一貫した3次元世界が基礎にあるわけやない。水面でのネオンサインの反射が物理的に本当やないのが見える。

何らかの方法でフローマッチングされた2次元画像だけや。事前に決められた経路からカメラを少し動かそうとすると、錯覚が崩れる。3Dオブジェクトの永続性における因果性が欠けてるんや。ある瞬間に見えてた建物が、ちょっと目を逸らして戻ったら次の瞬間には消えてるかもしれへん。シーンから建物が消えるんや。これは自動運転車には良くないな。

PrincetonとMercedes-Benzの新手法

だからPrincetonとMercedes-Benzは「このギャップを埋めなあかん」って決めて、今日新しい方法論を発表してるんや。正確な幾何学、美しい明示的な3次元幾何学推定、オブジェクトの永続性を持った大規模3D運転シーン、モバイルスキーム、動的シーンを生成できるようになったんや。

ちょっとした通りがあって、車が駐車されてて、別の車も駐車されてて、ここに車道もある。郊外のどこかにある家やな。車は当然、道路だけを見る。多分車道や茂み、庭、他の人や犬が散歩してるのを見るんやろ。いいね。

Princeton計算イメージングから、本当の環境の最初の印象が見えるやろ。雪に覆われた冬の同じ場所でも見れる。行き止まりがあるやろ。美しいな。ゴミ箱やゴミ、全てが見える。人が歩き回ってるかもしれへんし、してへんかもしれへん。木は雪で覆われてる。物理的条件、冬、大雪が本当にマッピングされてるんや。

3Dフォトグラファーと2D錯覚師の融合

彼らが今する主な洞察は、Mercedes-BenzとPrincetonが教えてくれる手法を提案することや。3Dフォトグラファーと2次元錯覚師を同時に行うんや。

幾何学的に一貫していて創造的に多様な明示的な3次元世界と、その領域にペイントされた2次元画像モデルを組み合わせるんや。道路で子供や犬やその他を識別するためのフォトリアリスティックな詳細が欲しいんや。

新しく提案された手法は生成代理幾何学と環境表現を組み合わせる。この美しい、現実的で幾何学的に一貫した複雑な運転シーンの3D生成を見せてあげよう。晴天から砂嵐、深雪、洪水、何でも欲しい10万の運転シーンをシミュレートしたいんや。自動運転車のAI、車の中のAIが、AIカーがこういう環境条件に遭遇した時にどう対処するかを学習できるLLM、AI能力が欲しいんや。

このビデオでは、これらの生成された3Dシーンから運転軌道がレンダリングされてるのが見える。全てのビデオがリアルタイムでレンダリングされてて、多様な幾何学、照明、異なる天候条件を特徴としてるのが明確に見えるやろ。

コア技術：2次元拡散モデルと3次元メッシュ

コア技術は何や？2次元拡散モデルを3次元メッシュ、3次元表現に知識を教師ありで蒸留または移すことや。これは興味深いな。

たくさんの人が前に試したけど失敗したんや。でも今度は天才的なものがあるんや。3D一貫性を解決する力を活用してるんや。美しいな。彼らは幾何学グラウンデッド大規模3Dシーン生成の新しい手法を持ってるんや。見てみよう。

大規模シーンを幾何学的レイアウトと環境マップ、テクスチャの詳細のためのガウシアンのセットの組み合わせとして生成するんや。幾何学的レイアウトは、マップに条件づけられて生成されるか、LiDARシステムからのポイントクラウドデータから予測されるかのどちらかや。何でもええ。それがあって、この新しいサンプリング手法を通じて、条件付き拡散モデルからの2次元事前知識を活用して、一貫した拡散サンプリングと反転ノイズを使って、ガウシアンベースのシーン表現をさらに最適化するんや。

拡散プロセス用の非常に特定的なデータ固有のノイズを構築して、画像空間最適化と、全てを正規化する追加の幾何学グラウンディングを使うんや。だから因果的な大規模シーン表現を生成できるんや。簡単に聞こえるやろ。今度は詳細に見てみよう。

ここが僕らの通りやとしよう。ポイントクラウドから見えるやつやな。LiDARシステム用のレンダリングで、通りと木や家、茂みやその他がたくさん見える。ここに単一シーンがあるんや。

今、僕らは自分をここの一点に置いて、ある方向を見るんや。前方とかな。そして2次元の何かを見る。これやこれや、車道の車やな。1、2、3のRGBレンダリングがある。

3次元メッシュと2次元画像があって、今度は全てをビデオにまとめなあかん。簡単に聞こえるやろ。主な質問は、どうやってシステムを訓練してタスクを実行させるかや。でももう1分だけくれ。

LSD-3Dの3つの主要要素

LSD-3Dには3つの主要要素がある。僕の言葉で言うと、設計図、粘土、ペイントや。公式には幾何学的レイアウトって呼ばれてる。これは粗い設計図や。LiDAR、レーダー構造からの単純な3次元メッシュ、基本構造、道路面、建物の大まかな形状、地形全般、木や全てやな。

それから3Dガウシアンスプラッティング、魔法の粘土とペイント。従来のテクスチャ付きポリゴンを使う代わりに、シーンの外観と細かい詳細が数百万の小さな3Dガウシアンで表現されるんや。すぐに説明するで。

そして当然、環境マップ、スカイボックスがシーンの背景と現実的な照明を提供してくれる。暗闇、夕方、真夜中、朝の太陽が地平線の奥深くまで沈んでる時とかな。

ガウシアン：半透明の色付きブロブ

ガウシアンっていうのは3次元空間の半透明色付きブロブや。小さな色付きの雲、ミニ雲やな。各ガウシアンは一連のパラメータで定義される。3次元空間での位置がある。形状、向き、サイズ、平ら、平らまたは球体、楕円体、何でもや。RGBカラー値がある。不透明度もある。どれだけ透明かやな。

美しいのは、これが信じられないほど強力なことや。レンダリングが高速で、あらゆる数学的操作をここで微分できるんや。最終的にレンダリングされる2次元画像に影響する、これらのガウシアンパラメータの変化を本当に高速で計算できるんや。これが高速やねん。

これが自動運転に必要なものや。LSD-3Dの中心アルゴリズムは今、粗いメッシュ、LiDAR、レーダーデータのポイントクラウドがあって、それを数百万、数百万のランダムに初期化されたガウシアンで覆うんや。この数学的最適化プロセス、最適化プロセスの目標は、このシーンにある全ての単一のガウシアンのパラメータを最適化することや。

だから全てが一緒になって、テキストプロンプトにもマッチする一貫した美しい本物のシーンを形成するんや。テキストプロンプトがあって、「大雪の冬の住宅街を見たい」って言ったら、さっき見せたように、これは仮想的に生成されなあかん。これがMercedes-BenzとPrinceton大学のやり方やねん。

他手法との比較

今これを比較してみると、本当に動いてることを見せるために、論文にはたくさんの追加データがある。Princeton大学とMercedes-Benzが発表した原論文を見てくれ。他の手法と競合するものと比較したんや。ガウシアンスプラッティング、ジーン3D、マジックドライブ3D、これらは詳しくないが、比較してみると見せられるで。

新しい運転軌道を生成するための一貫性と3D妥当性のあるシーンの生成に苦労する、運転ビデオも生成する他の競合製品と比べてどう見えるかやな。

完全な数学的操作フロー

もう一度要約が欲しいか？扱ってる数学的操作の完全なフローをもう一度見るか？もう絶対に明確で絶対に慣れてるなら、次の1分をスキップしてくれ。

強力な事前訓練済み2次元テキストから画像への拡散モデル、Stable Diffusionがある。これが批評モデルやと思ってくれ。まず、通りにいる。メッシュがある。LiDARまたはレーダークラウドポイントデータがあって、視点を選ぶんや。このシーン内のランダムなカメラ位置と向きを選択するんや。ステップ1や。

ステップ2では、高速ガウシアンスプラッティングレンダラーでこのシーンをレンダリングして、3次元ガウシアンの現在の状態から2次元画像を作成する。拡散モデルが必要やな。レンダリングされた画像を取って、特定の、非常に詳細な量のノイズを加える。

これは専門家向けの何かや。この特定のノイズの量の背後には多くの技術があって、ノイジーな画像を得るんや。これをテキストプロンプトと一緒に2次元拡散モデルに送り込む。拡散モデルが何かについては、チャンネルにある十数本の動画で説明してるから、チャンネルを見てくれ。

モデルの仕事は、元のプロンプトのように見えるように画像をデノイズして戻す方法を予測することや。クリーンなターゲット画像を出力するんや。次は単純に損失関数の計算や。レンダリングされた画像が、批評が提案したクリーンなターゲット画像と全く同じに見えるようにしたいんや。

だから画像空間で再構成損失関数って呼ぶ特定の損失関数を計算するんや。完全なプロセスを微分可能な数学方程式として持ってるから、バックプロパゲーションと慣れ親しんだ更新プロセスがあるんや。

継続的最適化プロセス

この損失関数の勾配を計算して、これを使って数百万、数百万のガウシアンのパラメータ全てを同時に更新するんや。Mercedes-Benzのインフラストラクチャの話やから、これを計算するのに問題はないんや。

そして繰り返すだけや。この美しい都市近隣の美しい通り沿いの無数のランダムな視点から、このプロセスを何千、何千回も繰り返すんや。拡散モデルの2次元芸術的知識をガウシアンの3次元構造にゆっくりと蒸留していくんや。これが運転シーン、実仮想世界への運転軌道を構築する方法やねん。

もう少し詳細がある。この美しい論文も見てくれ。拡散のクールバックリーバーと似てるけど異なる正規化損失を追加する追加の幾何学グラウンデッド損失もある。そして他の手法と技術で、ガウシアンシーンの表面法線と深度マップが基礎となる幾何学に忠実に留まることも確保できるんや。

建物の壁を平らに保って、道路を地面に保つっちゅう意味や。これが軌道の生成に本当に役立つんやで。

3つの要素の組み合わせ

要約すると、今僕らがいるところで、3つの要素を組み合わせただけやねん。ガウシアンでの明示的な3次元表現がある。粗い幾何学的事前知識、3次元メッシュ（単なる3次元メッシュやない）がある。強力な2次元画像事前知識と拡散モデルがある。そして今、次世代自動運転のための広大で一貫性があって制御可能な3D世界を生成できるんや。美しい。全て豪華やな。

結果の数値データの表、表、表がたくさんある。ここで最終結果の一つだけ教えておくわ。この新しいアプローチは、シーンの説明のプロンプトや交通マップレイアウトで制御された、本当に素晴らしい完全に未知の運転環境を生成するんや。特定の現実世界の都市、ロサンゼルス、ニューヨーク、どこでもええ、どこで記録してもな。

新しい設計思想

本当に新しいことが起こってるんや。興味深いと思う。これがこの動画を作った理由やねん。僕らの手法の設計、または著者らが教えてくれるのは、全てのシーンが因果的かつ3D一貫性を持って生成されるっちゅうことや。3次元表現空間での不確実性に対抗するために、背景に幾何学モデルがあることを覚えておいてくれ。

これによって、ニューヨークでの洪水やマイアミでの吹雪、何でもある、完全に未知の軌道に沿った物理的にグラウンデッドされたビデオのリアルタイムレンダリングが可能になるんや。このAIシステムで全てを生成できる。AIシミュレーターがこれらの厳しい環境条件で車がどう行動すべきかを学習できる仮想環境を構築できるんや。

車に乗る時には車の準備ができてるっちゅうわけや。今日はこれで終わりや。楽しんでもらえたと思う。今日は自動車AIだけに焦点を当てたんやが、吉利やMercedes-Benzが研究パートナーと一緒に、彼らが使ってる手法の理解に本当に焦点を当ててるんや。部分観測マルコフ決定過程やここでのガウシアンスプラッティングとの混合での拡散モデルは極めて計算集約的やが、ここでのポジティブなことが見えるやろ。

彼らは本当にこれらのAIシステムの訓練環境を見つけたいと思ってるんや。だからAIは、車にこのAIを載せて、車の中にこのAIを載せて、どんな条件に置いても本当に準備ができてて、人間として期待する全てのことを確認したり、確認として行動したりするんや。全ての安全条件と安全規制やその他を尊重して、安全に家まで連れて帰ってくれるんや。僕の動画を購読してくれ。