エンドツーエンド学習が自動運転2.0を生み出した方法:Wayve CEO Alex Kendall

本動画では、WayveのCEOであるAlex Kendallが、自動運転における古典的機械学習からエンドツーエンドニューラルネットワークへの移行、すなわちソフトウェア1.0から2.0への転換について語る。Wayveは非テスラ車向けの自動運転スタックを自動車メーカーに提供しており、日産などの主要メーカーがWayveのシステムを採用している。Alexは2017年の創業当初から、膨大な手動コードベースに依存する従来のアプローチではなく、エンドツーエンドニューラルネット、合成データ、ワールドモデルを活用したアプローチに全てを賭けてきた。このアーキテクチャは現在、自動運転のみならずロボティクスを含む物理的AI全体を再構築しつつある。インタビューでは、AV1.0とAV2.0の違い、データの多様性、世界モデルによる推論能力、自動車業界との協業、そして物理的AGIへの道筋が詳細に論じられる。

How End-to-End Learning Created Autonomous Driving 2.0: Wayve CEO Alex Kendall

Alex Kendall founded Wayve in 2017 with a contrarian vision: replace the hand-engineered autonomous vehicle stack with e...

垂直統合からエンボディドAI基盤モデルへ
安全性と実時間処理の課題
FSD12と市場の転換点
ワールドモデルと推論能力
自動車業界との協業から学んだこと
センサーフュージョンの議論
大規模言語モデルの統合
物理的AGIへの道筋

垂直統合からエンボディドAI基盤モデルへ

垂直統合されたロボティクスソリューションを構築しているのであれば、深く掘り下げることも可能かもしれません。しかし私たちの野望は、世界中の最高のフリートやメーカーすべてに向けたエンボディドAI基盤モデルになることです。そしてそれを実現するためには、各アプリケーションごとに個別のニューラルネットワークを構築して会社に過度な負担をかけたくない限り、汎化能力が必要なのです。

私たちは、コストを1つの大規模なインテリジェンスに分散させ、顧客が重視する個々の異なるアプリケーションに非常に迅速に適応できるようにする必要があります。それが私たちが推進しようとしていることです。今日は、WayveのCEOであるAlex Kendallと、自動運転におけるソフトウェア1.0から2.0への移行、つまり古典的機械学習からエンドツーエンドニューラルネットワークへの転換についてお話しします。

Wayveは、テスラのFSDに似た自動運転スタックを自動車メーカーに販売していますが、テスラ以外の自動車向けです。日産のような世界中の主要自動車メーカーが、自動運転スタックの動力源としてWayveを選択しています。Alexは2017年にWayveを創業しましたが、当時ほとんどの自動運転ソフトウェアスタックは、二重駐車された車の周りを走行するといったあらゆる可能なエッジケースをカバーする、手動でコーディングされた巨大なC++コードベースでした。

Alexは創業当初から、自動運転へのエンドツーエンドニューラルネットアプローチ、そして汎化とスケーリングへの究極の道としての合成データとワールドモデルの使用に全てを賭けました。今日、このアーキテクチャは自動運転だけでなく、ロボティクスを含む物理的AI全体を再構築しています。それでは番組をお楽しみください。

Alex、番組に参加していただきありがとうございます。こちらこそ、Pat、Sonia。あなたの会社について非常に特別なことの1つは、AV2.0を典型的に体現していることです。つまり、人々が長年にわたって苦労してきたAV1.0アプローチよりも優れていることが実証された、新しいアーキテクチャアプローチだと思います。まず、AV1.0とは何だったのか、AV2.0とは何なのかを定義することから始めましょうか。

もちろんです。2017年に会社を創業したとき、シード資料の冒頭のピッチは、当時の古典的なロボティクスアプローチについてでした。それは知覚、計画、マッピング、制御を取り、基本的に自律性の問題を多数の異なるコンポーネントに分解し、それらを主に手動で設計するというものでした。そして私たちのピッチは、高精細マップのような多くのインフラで運転するように手動設計されたシステムが、ロボティクスの未来になるとは思わないというものでした。

その代わりに、私たちはロボットの未来は、独自の判断を下すためのオンボードインテリジェンスを持つ知的機械になると考えました。そしてもちろん、AIシステムを構築するための最良の方法は、エンドツーエンドの深層学習です。ですから過去10年間、私たちはそのスタックを1つのエンドツーエンドニューラルネットワークに置き換える次世代アプローチ、AV2.0を推進してきました。

もちろん、今日ではそれはより明白に見えるかもしれませんが、長年にわたって非主流派でした。しかし今日では、その基本的な区別をするのは不公平かもしれません。なぜなら、もちろん、少しでも価値のある人なら、スタックのさまざまな部分で深層学習を使用するからです。しかし、より既存の自動運転ソリューションで見られるのは、もちろん知覚のための深層学習、そしておそらく各異なるコンポーネントのための深層学習ですが、依然として多くの手動インターフェース、依然として高精細マップ上の多くのインフラ、そしておそらく多くのハードウェアへの依存があります。

ですから私たちのソリューションは依然としてやや先を行っていますが、今日では単にエンドツーエンドネットワークというだけでなく、もちろん基盤モデルについて話し始めます。より汎用的なインテリジェンスについて話し始めます。それは単にその車の運転方法だけでなく、異なるセンサーアーキテクチャ、異なるユースケースを持つ多くの車を理解できるものです。

ですから本当に全ては、煩雑なインフラを必要とせずにスケールできる最も知的なロボットをどのように構築するかに集約されます。つまりWayveは、センサー入力、動作出力、その中間に巨大なニューラルネットがあるということですね。その通りです、非常にシンプルなレベルでは。

安全性と実時間処理の課題

しかし、大規模言語モデルで聞いてきた話とは異なる興味深い点がいくつかあります。自動運転では、もちろんいくつかの興味深い新しい要素があります。1つはもちろん安全性です。システムは設計上安全であることを確保する必要があります。それは、より多くのデータを投入してハルシネーションが消えることを期待するだけではないということを意味します。

むしろ、依然としてエンドツーエンドのデータ駆動型でありながら、機能的に安全であり、堅牢な行動安全ケースを構築できるアーキテクチャを設計する必要があります。ですからそれはいくつかの興味深いアーキテクチャ上の課題をもたらします。そしてもちろん、ロボット上で、車両上でリアルタイムに実行する必要もあります。

ですから、オンボードコンピュートとオンボードセンサーの制限に対処することが、興味深い課題となります。しかし、はい、ロボティクスで展開されているのは、言語やゲームプレイエージェントのような他のすべてのAI分野で展開されてきたのと同じ物語です。それは、エンドツーエンドのデータ学習ソリューションが、私たちが手動でコーディングできるものすべてを凌駕しているということです。

そして私たちがパイオニアとして推進することに興奮しているのは、まさにロボティクスと自動運転車におけるその同じ物語です。2017年にこれを始めたとき、それは非常に非主流派のアプローチでした。業界の人々が「それは決してうまくいかない」と言ったとき、彼らはどのようにその文章を終えたのでしょうか。

数百のそのような議論を数えることができます。典型的な議論は、安全ではない、解釈可能ではない、何をしているのか理解できない、あるいは単純に意味がない、このAIというものを聞いたことがないというものでした。5年から10年前には、エンドツーエンドの深層学習は解釈可能ではないと言うのはおそらく合理的でした。

しかし今日ではそれは真実ではないと思います。今日では、これらの深層学習システムが推論する方法について、理解し洞察に応答するための本当に素晴らしいツールがたくさんあります。しかしさらに、知的機械を構築する野望があるなら、複雑な知的機械を構築して、単一のコード行や因果的に結果を生じさせた単一のものを指摘できるほど厳密に解釈可能にできると考えるのは素朴だと思います。

知的機械の美しさは、それらが非常に素晴らしく複雑であることです。そして私たちがそれらを設計するだけでなく理解する方法は、データ駆動型の構造を通じてだと思います。AV1.0スタックの前後、つまりそれらのシステムに組み込まれる数百万、数十億行のコードと、今日の2.0システムについてもう少し詳しく教えていただけますか。

そしてそれはどれくらい速く変化しているのでしょうか。なぜなら、深層学習、大規模ニューラルネットが物理経済に浸透していることは、人々が認識しているよりもずっと最近の現象だという印象を持っているからです。特に、これらのシステムを配布して展開する道筋を考えるとそうです。

つまり、自動車業界は、ソフトウェア定義車両を導入し、車両を運転できるようにする適切なハードウェアを車に搭載することにおいて、地殻変動的なシフトを経験したばかりです。おそらく共通の議論の1つは、自律性へのセンサーアプローチとして、カメラのみかカメラ・レーダー・ライダーかということです。

Wayveの立場を明確にすると、私たちはあらゆる種類の異なるセンサーアーキテクチャを理解できるAIを構築したいのです。カメラのみのソリューションが意味を持つ場合もあれば、カメラ・レーダー・ライダーの場合もあります。私たちは、非常に多様なデータソースからそれらすべての組み合わせでエンボディドAIモデルをトレーニングしています。

そして今乗ってきた車はカメラのみのスタックです。パートナーと取り組んでいる他の車にはレーダーとライダーがあります。もちろんそこには異なるトレードオフがあります。しかしより一般的に、世界中の最高のメーカーから大量生産される車には、GPUが搭載され、サラウンドカメラ、サラウンドレーダー、そして時にはフロントライダーがあります。

そしてその美しい点は、このAIが出現して世界中の人々に利益をもたらす機会があるということです。自動車におけるこの種のソフトウェア定義インフラは、他のロボティクス分野ではまだ同じ程度には実現していないかもしれませんが、市場は確実にその方向に進むでしょう。

そして一般的に、スケーラブルな方法で適切なレベルのコンピュートインフラを持ち、これらのプラットフォームをAIに開放することが、これを可能にしているのだと思います。そしてそれは過去数年でティッピングポイントを通過しました。

FSD12と市場の転換点

あなたのAV2.0の視点は、非主流派から、私が言うには、おそらく過去2、3年でコンセンサスに転換しました。それを行ったのはFSD12だと思いますか、それともそのマインドセットはいつシフトし始めたのでしょうか。非主流派の日々が懐かしいですが、今日でも、まだ多くの人々が、はい、エンドツーエンドAIが必要だと言っているのを見ます。

彼らはAIの未来に関する大手テクノロジー企業の物語を受け入れましたが、厳格な制約や安全保証を持つエンドツーエンドAIが必要だといったことを言います。そして依然として、ルールベースのスタックとエンドツーエンド学習スタックを組み合わせようとする何らかのハイブリッドアプローチが進むべき道だという信念があり得ます。しかしこれらのアプローチは、しばしば両方の世界の最悪を得たり、単にコストと複雑さを追加したりすることがあります。

ですから、市場には依然として、積極的に取り組んで速く動いている人々と、おそらくある程度追いつく必要がある人々の分布があると思います。しかしもちろん、深層学習に取り組んできた私たち全員に、これを世界を変える主流にした画期的成果の功績を認めると、もちろん大規模言語モデルの画期的成果の功績を認めなければなりません。

それらは世界にインスピレーションを与え、この技術に好奇心を持つよう市場の心を開いたと思います。しかしWayveで私たちがやってきたことも、1年前、私たちはロンドン中心部を走行していました。ロンドン中心部は素晴らしい試験場だと思います。なぜならそれは、私たちのAIが非常にスムーズに、安全に、そして確実にナビゲートすることを学んだ、非構造的で信じられないほど複雑でダイナミックな都市だからです。

しかしこの1年で、高速道路、ヨーロッパ、日本、北米に展開しました。先週、私たちの車はニューヨーク市を走行していました。そして世界規模に展開し、それを異なるメーカーの車両に持っていき、製品のような体験を示すこと、この成長は、世界中で本当にインスピレーションを開いたと思います。

なぜあなたは世界中の何百もの都市で展開できるのに、AV1.0の企業の一部は実際に出て行ってHDマップを構築する必要があるのでしょうか。技術的な違いが実際にどのように機械が学習できる方法と展開できる方法の違いにつながっているのかについて一言お願いします。

自動運転は全て汎化についてです。汎化とは、以前に見たことのないものについて推論したり理解したりできることを意味します。ドライブに出るたびに、初めて何か新しいものを目にします。今日何を見ましたか。歩行者横断歩道上で道路の前にカーペットのようなものを転がしている道路作業員を見ましたが、踏み出そうとはせず、私たちは例えば譲歩せずに通過できるかどうかを推論しなければなりませんでした。

今日の早い時点からの例ですが、道路で毎回運転するときに目にする新しいことすべてを考えることができます。トレーニングデータですべての体験を目にすることは決してありません。ですからそれは、安全で世界中で有用であるために、以前に見たことのないことについて推論し汎化できなければならないことを意味します。そしてそれが私たちのアプローチ全体を動機づけてきたものです。

メーカーが私たちに車両の1つを与え、数ヶ月以内に道路で運転できるようになるかどうか。数週間前、今年9月に、東京で日産と一緒にメディアに車両を公開しました。わずか4ヶ月前が、私たちが東京で運転し、この車両に実際に触れた最初の時でした。

4ヶ月後、メディアが車に乗って体験していました。そしてそれは私たちにとって新しい国と新しい車両でした。ですからそれが示したのは、私たちのAIが汎化できるということです。それは世界中からの非常に多様なデータでトレーニングされています。多様なセンサーセット、車両でトレーニングされているので、その車両の新しいセンサー分布と、もちろん東京中心部を走行する複雑さを理解できました。

ですからそれは汎化の本当に素晴らしい実証だと思います。そして垂直統合されたロボティクスソリューションを構築しているなら、深く掘り下げることができるかもしれません。しかし私たちの野望は、世界中の最高のフリートとメーカーすべてに向けたエンボディドAI基盤モデルになることです。

そしてそれを実現するために、各アプリケーションごとに個別のニューラルネットワークを構築して会社を過負荷にしたくない限り、汎化できる必要があります。私たちは、1つの大規模なインテリジェンスにコストを分散させ、顧客が重視する各異なるアプリケーションに非常に迅速に適応できるようにする必要があります。それが私たちが推進しようとしていることです。

ワールドモデルと推論能力

そこで推論について言及されましたね、モデルが建設作業員を見て今何をすべきか推論する方法という点で。LLMの世界では明らかに推論はスケーリング推論時間コンピュートのそれ自体の独立したトラックです。技術はあなたのモデルを意図的に推論するようにトレーニングしていますか、それともモデルの創発的特性、創発的行動ですか。私たちがあなたが推論について言っている意味についてもう少し詳しく教えてください。

私たちはトレーニングしています。そして物理世界での推論は、ワールドモデルとして本当にうまく表現できると思います。2018年に、私たちは最初のワールドモデルアプローチを道路に投入しました。それは非常に小さな10万パラメータのニューラルネットワークで、目の前の道路の30×30ピクセルの画像をシミュレートできました。

しかし私たちはそれを内部シミュレーターとして使用して、モデルベースの強化学習アルゴリズムをトレーニングすることができました。その歴史を見たい場合は、楽しいブログ投稿があります。しかし今日に早送りすると、私たちはGIAを開発しました。それは完全な生成ワールドモデルで、複数のカメラとセンサー、非常に豊かで多様な環境をシミュレートできます。それを制御し、その中のさまざまなエージェントやシーンをプロンプトすることができます。

そしてそれは推論の例です。私たちは世界がどのように機能するか、次に何が起こるかをシミュレートする能力をトレーニングすることができます。この種の表現を道路に持ち込むと、本当に素晴らしい創発的行動が得られます。今日私たちが見たように、遮蔽されていない曲がり角を走行していたとき、車は自分で見えるまで前に進み、それから曲がりを完了しました。

あるいはロンドンで霧が出ているとき、車が速度を落として推論できることに合わせて運転するのを見ます。そしてそのレベルの理解でトレーニングすることで、特に複雑なマルチエージェントシナリオを本当に理解するのに役立つそのレベルの創発的行動が得られます。それが安全でスムーズな自動運転を実現するために重要だと思います。

ですからワールドモデルは、新しいシナリオをどのように推論するかをモデルに教えるために本当に重要なのですね。100パーセントです。以前、データの多様性について言及されました。すべてのデータがどこから来るのか一言お願いします。

膨大な量のデータになりつつあります。なぜなら、もちろん言語ドメインや画像ドメインとは異なり、複数の数メガピクセルカメラを持つ典型的な自動運転車を扱っているとき、レーダー、おそらくライダーを持っているとき、それを集計すると非常に迅速に数十または数百ペタバイトのデータを扱っているからです。

ですからそれはトレーニングしなければならない膨大な量のデータですが、本当に重要なのは多様性です。そして私たちは2つの方法で多様性を解決してきました。1つ目は、業界全体で信頼できるパートナーになり、ダッシュカムからフリート、メーカー、ロボットオペレーターまで、多くの異なるソースからデータを集約することです。

2つ目は、データをフィルタリングし、本当に理解できることです。ここでは、異常または異常な体験をクラスタリングして見つけることができるさまざまな教師なし学習技術を開発するために本当に懸命に取り組んできました。そしてもちろん、システムがうまく機能していないシナリオを見つけ、それらに基づいて学習カリキュラムを推進します。

しかし今日では、多様な車両セット、多様なセンサーアーキテクチャ、国々から学習しています。そしてそれが本当に汎化のレベルを推進する重要なことの1つです。ワールドモデルの成長の増加と、シミュレートされたデータは、実際の路上走行マイルがそれほど必要ではないことを意味するのでしょうか。

その質問には2つの側面があると思います。一方では、はい、効率性は本当に重要です。しかし2つ目は、学習効率だけに頼ることはできません。限界まで行くと、現在のアプローチを取って単にスケールアップすれば、ジェネリックレベル5の運転を生み出すと確信しています。

限界で、無制限のトレーニングデータがある場合、これは本当に単に、何らかの以前の経験を持つルックアップデータテーブルです。しかしそれは経済的にも技術的にも実行可能ではありません。ですから問題は、これを最も効率的な、データ効率的なシステムになるようにどのようにトレーニングできるかということです。

なぜなら効率性は、コストの改善だけでなく、より速い市場投入時間とより多くのインテリジェンスにつながると思うからです。ですから効率性は多くの異なる要因から来ます。最も重要なのは、投入するデータカリキュラムですが、それから学習アルゴリズムです。持っている学習をどのように拡大するか。そしてワールドモデルはそのための本当に素晴らしい機会だと思います。

それらは合成データと合成理解を生成します。それは実世界のデータを置き換えるものではありませんが、新しい方法でそれを再結合し拡大します。それは興味深い洞察を引き出すことができます。そしてこの種のアプローチは本当にデータ効率を改善できると思います。

しかし全体的に、リソース制約の下で作業することが、私たちのチームに非常に多くのイノベーションを開発することを強いてきたと思います。しかし私はワークフローも指摘したいです。なぜなら従来のロボティクスでは、パラメータやアルゴリズムを調整したり、幾何学的マップなどを設計したりするとき、非常に確立された文化とワークフローがあるからです。

私たちのチームには、1つのメインプロダクションモデルで50人のモデル開発者が作業しているとき、あるいは理解し内省する必要があるエンドツーエンドネットがあるとき、あるいはこれらのシステムをシミュレーションや道路に展開し、フィードバックする方法でさえ、Wayveでゼロから開発されたカルチャー全体が、エンボディドAI、エンドツーエンド深層学習のために開発されてきました。

データインフラ、シミュレーション、システムを道路に投入する前の安全ライセンシング、これはヘッジや副次的な賭けではなく、私たちの文化の全体的な本質です。そしてリソース制約の下でこれを行い、完全なミッション主導の信念でこれを行うことが、多くの興味深いイノベーションにつながってきたと思います。

今日の私たちがいる場所に到達するために、すべては反復速度についてです。あなたの文化について言えば、たくさんのAI研究タイプ、機械学習エンジニア、その類を想像しています。あなたの組織の文化は、サプライチェーンに関するすべての癖や安全性に関するすべての要件を持つ自動車業界を追求しているという点で、あなたが提供する顧客ベースを考えると、類似の応用ラボタイプの環境とどのように異なりますか。それはあなたのビジネスの文化にどのように影響しますか。

自動車業界との協業から学んだこと

大きく影響しています。実際、Wayveの最初の数年間は、私たちは本当に情熱的なエンボディドAI研究者のグループでしたが、過去数年で、私たちのチームが自動車業界を理解する深い専門知識を構築しただけでなく、そこのパートナーに確実に提供する能力も構築したことを本当に誇りに思っています。

そしてそれは異なる文化です。それは私が本当に尊敬するようになった文化です。なぜなら数百万台の車を製造しているとき、そこで必要な信頼性とMTTFのレベルは並外れているからです。あなた方は彼らから何を学びましたか。

つまり、あなたの仕事の一部は、AI の世界で何が起こっているかについて彼らに教えることだと確信しています。あなたは彼らから何を学びましたか。私が指摘する主なことのいくつかは、効率性と信頼性だったと思います。

技術と製品の違いが主なテーマの一部でしょう。必要な信頼性のレベル、しかしまた展開前にこれらのシステムを堅牢に証明するために必要な品質のレベル、そしてこれらの企業がそれに誇りを持っていること、それは例外的でした。

もう1つは、おそらくブランド差別化の感覚と、車に本当にブランドの好みに一致する運転個性を持たせることができるか、そのブランド差別化を提供する体験を提供できるかという願望でした。そして素晴らしいニュースは、これらをリフし、ブレインストーミングして、本当に素晴らしい技術的アイデアを思いつくことができたということだと思います。

しかし最終的に、安全で高品質でパーソナライズ可能なAIが、業界から得た素晴らしいフィードバックの一部でした。実際に自動車メーカーとの提携において、市場への道筋について話していただけますか。それをすることをどのように決めたのですか。そして自律性がどのように展開されるかについて、市場の状況がどのように展開すると思いますか。

もちろん、素晴らしい質問です、Sonia。Wayveの創業以来、私たちは自律性へのアプローチとしてのエンドツーエンド深層学習についての私が行ったピッチに焦点を当ててきましたが、長年にわたって多くの異なる市場参入アプローチを試みてきました。

しかしこの数年間、世界中の最大かつ最高の自動車、消費者自動車メーカーと協力し提携することに非常に刺激を受けてきました。なぜですか。彼らはソフトウェア定義車両を導入し始めたと述べました。ですから彼らは自律性と連携するインフラを持っています。

この技術が本当に繁栄できるという市場の信念があります。そしてまた、今見ている都市ごとのロボタクシーをはるかに超えてスケールする機会です。しかしさらに、これらは単なる運転支援から、実際に運転の責任を負い、ユーザーに安全を提供し、運転体験から時間を取り戻すことができるアイズオフ自律性に移行するための適切なインフラに投資しているメーカーです。

ですからそれは素晴らしいです。市場について考えるとき、年間9000万台の車が製造されています。そしてテスラのように自律システムを自社で構築しているメーカーは数百万台を製造していますが、市場の大部分には、これらの革新的なプラットフォームのいくつかと提携し、これらの自律製品を可能にするために私たちのAIを市場に投入する機会があると思います。そしてそれはそこから成長するだけです。

これらのメーカーは運転支援で止まりたくありません。私たちは一緒にアイズオフとドライバーレスロボタクシー製品を構築するために取り組んでいます。しかし重要なことは、これらの車両に独自のハードウェアを後付けすることを避け、ソフトウェア統合としてネイティブにそれらを組み込むことで、スケールで速く動くことができるということです。

世界中で認証できる低コストの車両を製造できます。これが世界中で数万、数十万のロボタクシーが手頃な価格で展開されるのを見る道だと思います。そしてもちろん、これはこのAIが可能にする汎化のレベのおかげで可能です。

Tesla FSDは本当に画期的な製品で、それを持っている私の友人たちは、他の方法で運転することを想像できません。ですからあなたが毎年販売される他の8800万台の車両にもその体験を販売できるようにすることは本当にクールです。100パーセントです。

多くの人が私たちの車に飛び乗って、自律性に懐疑的な人もいますが、例外なく、笑顔で降ります。それは魔法のような体験です。そして、世界中の人々がそれを試すことができるのを待ちきれませんし、自律性を単なるロボタクシー観光体験ではなく、人々に、最終的にはすべての都市でこの体験をもたらすことができません。

センサーフュージョンの議論

センサーフュージョン混乱論争についてどう思いますか。毎年ほどTwitterで展開されるもので、Teslaがカメラとライダーの両方が入ってくると混乱するという。すみません、レーダーです。それは間違った議論だと思います。それは最前線の質問ではありません。

業界は、Teslaを除いて、本当にサラウンドカメラ、サラウンドレーダー、フロント向きライダースタックという共通のアーキテクチャで結束してきました。これは2000ドル未満のコストです。ですからそれは、今日見られる後付けロボタクシーコンポーネントではなく、自動車グレードのコンポーネントです。

しかしフロンティアGPUコンピュート、車に自動車グレードのGPUを搭載し、その種のセンサーアーキテクチャを持つことは、L3 L4自律性、アイズオフまたはドライバーレスを構築するための本当に素晴らしいプラットフォームです。それは必要な冗長性を提供します。カメラだけでは人間レベルに到達できることに同意しますが、私たちは人間レベルを超えたいのです。

ですからこの種のアーキテクチャは手頃で、スケーラブルで、大量生産のためのサプライチェーンを持っています。そしてすべての事故を排除し、本当に超人的なレベルのパフォーマンスを推進できます。ですからそれが多くのメーカーが車両に持ち出しているものであり、私たちがAIを統合しているところです。

もちろん運転支援システムには、カメラのみで人間レベルのドライバーレスシステムに機能できます。あるいはもちろん明確にすべきですが、異なる統計を見ることができますが、95パーセント以上の事故が残念ながら人的エラーによって引き起こされています。

ですから人間レベルになれるだけでなく、多くの人間の注意力不足とそれによって引き起こされる事故を排除できます。しかし解決するには視覚を超える知覚能力を必要とする事故がまだあります。そしてそのロングテールに取り組みたい場合、それを解決する多くの方法があります。

方法の1つは、レーダーやライダーのような他のセンシングモダリティを持ち込むことです。ですから私たちは、そのようなプラットフォームと連携することに興奮していますが、決定的に重要なのは、メーカーの車両自体にネイティブに統合されていることです。

1つのメーカーの車と別のメーカーの車で運転できる同じニューラルネットですか。そしてそれはどのように機能するのでしょうか。なぜなら、各車両には若干異なる位置のカメラなどがあると想像するからです。それは同じファミリーから来ています。ですから私たちは非常に大規模なスケールのモデルを定期的にトレーニングしています。

もちろん月単位でそれらを反復します。しかしそれは、私たちが連携するすべてのフリートに共通の1つのモデルです。しかし特定のセンサーセットや特定の組み込みターゲットに最適化するとき、もちろんモデルを専門化し始めることができます。

しかし美しい点は、コストと時間と努力の99パーセント以上がそのベースモデルのトレーニングであり、それから特定の顧客に非常に効率的なパーソナライゼーションを構築できるということです。ですからこれはスケールを可能にしますが、非常に効率的なリアルタイムプラットフォームにそれを絞り込み、特定のユースケースに適応させる能力を提供します。

Patに超攻撃的なドライバーモデルをパーソナライズさせるつもりですか。する必要があります。どんな運転スタイルが欲しいですか、Pat。かなり攻撃的ですが、安全に、非常に安全に。しかし、できます。

運転行動の周りに分布を構築すると、本当に面白いことがわかります。人間のトレーニングデータから、それが有用に断固としている、としましょうか、それとも無益に攻撃的になっているかを本当に見分けることができます。そしてそこにクリーンなラインを引くことができます。どうぞ。あなたはどうですか、Sonia。今の運転はどうでしたか。

素晴らしかったです。快適でした。安全でした。そして実際非常に人間的に感じました。カーブで見えないときに前に進む方法が非常に人間的でした。まあ、シリコンバレーで得られるのと同じくらい複雑ですが、東京やロンドンに来てください。あるいは週末にサンフランシスコのダウンタウンにいましたが、人間のような方法で運転できるためには、周りの他の人々を予測し推論する能力が本当に必要です。

そして私たちが発見したのは、二重駐車された車両の周りをスムーズに回れない場合、他の動的障害物に対処できない場合、あるいは主流の交通の流れが特定の車線に合っていないかもしれないが人間的な運転方法があるかもしれない場合、私たちが構築したインテリジェンスについて素晴らしいのは、これらのことについて推論し、交通の流れを維持し、非常に人間的な方法で道路利用者と相互作用し続けることができることです。

これが社会がロボタクシーを受け入れ愛するために重要になると思います。それを現実にするのが待ちきれません。今日あなたの車が苦労している特定のコーナーケースはありますか。たくさんありますが、それらは非常にまれなので、1つについて一般的に話すのは本当に難しいです。

1つについて一般的に話すのは非常に難しいです。なぜならそれらは非常にまれだからです。もし私が、ああ、それは常にこれらのタイプですと言うのは非常に難しいです。なぜならそれは常に、コーナーケースは数個のエッジケースが一緒に来てコーナーになるときであり、本当に曖昧なものを得るときは常に交絡因子だからです。

しかし私たちは500都市で運転しています。ですからそのレベルのスケールで運転しているとき、もちろん以前に見たことのないものを目にします。道路標識は新しい言語で書かれています。実際、おそらくそれを分解する1つの方法は、私たちは安全性、有用性、フローに分解された運転について話すことが多いです。

安全性はもちろん安全重視の行動です。フローは運転のスタイルです。スムーズですか。楽しめますか。そして有用性はナビゲーションと道路セマンティクスです。そして、安全性とフローは世界中で例外的によく汎化することがわかりました。

私たちが運営するすべての国で、安全性と運転の快適さのフローの点でほぼ均一なメトリクスを得ています。しかし有用性は、グローバルに展開するにつれて本当に興味深いものでした。どのようにナビゲートしますか。道路標識にどう対処しますか。異なる言語をどう読みますか。異なる運転文化にどう対処しますか。

ですからそれが興味深いものでした。しかしこれについていくつかの結果を公表しました。英国から米国に行ったとき、フロンティアパフォーマンスの10パーセント以内で運転できるようになるために数百時間のデータが必要でした。

しかしその後ヨーロッパ、ドイツに行ったとき、もちろん私たちはすでに道路の右側で運転することを学んでいました。米国に来たとき、赤信号での右折を学びました。それからドイツに来たとき、依然として道路の右側で運転することを学ばなければなりませんでしたが、もちろんそこでは赤信号で右折できません。

しかしアウトバーンでは、あなたはこれが好きでしょう。運転する必要があります。今日は最高140で運転します。ですからそこではかなり速いです。しかし、以前にそれらのいくつかを見たことがあるので、各新しい市場で指数関数的に少ないデータで毎回より効率的になります。

大規模言語モデルの統合

最初に、大規模言語モデルがあなたのアプローチを非主流派からコンセンサスに転換させた一部だったと述べました。大規模言語モデルをあなたのモデルに統合していますか。そして今立ち上がっているロボティクス企業のいくつかがこのVLA VLMベースから始めていることを知っています。それはあなたのアーキテクチャの一部ですか。

100パーセントです。2021年に、運転のための言語に取り組み始めました。チームが当時私のところに来て、言語についてのプロジェクトを始めるべきだと言ったのを覚えています。私はいやいやいや、スタートアップは集中が全てだ、集中し続けろと言いました。

しかし彼らは実際にいくつかの説得力のある議論をしました。ですから私たちはこれらのことを試し始めました。そして1年ほど後、自動運転における最初のビジョン言語アクションモデルであるLingoをリリースしました。

そしてこのモデルの特別な点は、車を運転できるだけでなく、世界を見て車を運転できるだけでなく、言語で会話もできることでした。それに話しかけ、質問することができます。何がリスクだと思っていますか。次に何が起こりますか。あるいは運転を実況することさえできました。

そしてこれについて興味深いのは、いくつかの利点があるということです。1つは、事前トレーニングに言語を持ち込むことで、もちろん表現の力が向上し、画像だけよりも学習するためのより興味深い情報が得られます。

しかしその次に、表現を言語と整合させることで、多くの興味深い製品機能が開かれます。実際に運転手と話すことができる運転手体験を作成できるようになります。システムを理解するためにロボティクスの博士号はもう必要ありませんが、実際に単にそれに話しかけて運転を頼むことができます。

Pat、もし通勤を超高速で走り回りたいなら、それを要求できます。しかし3つ目は、実際に内省ツールが得られることです。規制当局や私たちのエンジニアリングチームが、なぜそれが行っていることをしているのかを診断したり、推論を説明させたりするために、言語でシステムと会話できることを想像できます。

ですからこれらは私たちが推進することに本当に興奮している明確な利点だと思います。それは超クールです。そしてそれを組み込みコンピュートで実行しているのですね。実行しています。ですからオフボードで実行するデモを出しました。

今日の自動車市場にあるものでオンボードは挑戦的ですが、次世代コンピュートのいくつか、例えば私たちの次世代開発車両が構築される予定のNvidia Thorは、オンボードで実行するのに十分な大きさになります。それはクールになるでしょう。非常にクールです。

自動運転がどのようにより一般化されたエンボディドAIへの道を提供するかについて話されました。自動運転からヒューマノイドロボットや他にエンボディしたいものへどのように行くのか、その絵を描いていただけますか。

将来的に、ロボティクスの多くの興味深いユースケースを見ることになると思います。私たちが見ているのは、モビリティが操作よりもずっと前に可能になりつつあるということです。操作は、データへのアクセス、ハードウェアのグローバルサプライチェーン、実際にはハードウェア設計自体の点で挑戦的です。触覚センシングは依然として本当に難しい課題だと思いますが、必然的に大規模な変革的なものになるでしょう。

しかしおそらく2015年の自動運転があった成熟度にあります。しかし今日、私たちのシステムは急速に汎用ナビゲーションエージェントになりつつあり、任意の視点とゴール条件を与えられて、安全な軌道を生成できます。

ですから消費者自動車ロボタクシーだけでなく、トラック輸送や他のアプリケーションについて考えますが、このAIは、あらゆる種類のモビリティアプリケーションでロボットを構築したいメーカーやフリートを可能にすると思います。

そしてもちろん、私たちは最先端の開発者や時間の経過とともにアプリケーションと連携することに本当に興奮しています。そしてそのロボティクススタック全体にわたって外に出るにつれて、製造や操作のユースケースからもより多くの成熟度が見られると予想します。

しかし最終的に、確かに自動車では、最大のロボットとデータのサプライチェーンにアクセスできると思います。ですからその点で本当に幸運で、そこでインテリジェンスを前進させることができます。しかしそのインテリジェンスを新しいアプリケーションに汎化することで、複数の異なる垂直分野を経験できるモデルから利益が得られると思います。そしてそれはよりより汎用目的にするだけです。

物理的AGIへの道筋

興奮しているアプリケーションはありますか。つまり、ヒューマノイドロボットが歩き回るのに興奮しています。私もです。それらは素晴らしいものになると思います。どのフォームファクターでも、ヒューマノイドは大きな役割を果たすと思います。他の形態のロコモーションも同様だと思いますし、それから操作です。

それらのスペースにはいくつかの本当に興味深い課題がありますが、同じ物語が展開されると思います。狭いアプリケーションに取り組むことで、自動運転がフェニックス、アリゾナに行き、多くのインフラと高価なハードウェアを投入してそれを機能させたときのように、限られた滑走路を持つことになると思いますが、汎用的でリーンな低コストハードウェアスタックに取り組み、システムを最も知的で堅牢にすることに本当に焦点を当てることが、スケールのためのレシピだと思います。

ですから、その分野を見守りましょう。いわば物理的AGIに到達するために必要な主要な研究ブレークスルーがあると思いますか。もしそうなら、最も有望な方向は何だと思いますか。絶対にそうだと思います。

現在のアプローチをスケールアップする余地がはるかにあり、それを行いますが、パフォーマンスを推進する4つの要因について常に話しています。もちろんデータとコンピュートがありますが、それからアルゴリズム能力とエンボディメント、ロボットのハードウェアと能力もあります。そして4つすべてを推進する必要があると思います。

アルゴリズム側では、成長のための非常に多くの機会があります。重要なのは測定だと思います。これらのシステムを実際にどのように測定し定量化しますか。どのように迅速に応答し、リグレッションを見つけ、実世界のギャップをスケールで閉じるシミュレーターを持つことができますか。

そして効率的に実行できますか。つまり、これらの生成ワールドモデルが非常にコンピュート集約的であることは秘密ではありません。しかし良い測定システムを持つことで、効率と反復速度が推進されます。ですからそれが重要なものの1つです。

人々はしばしば鶏と卵の話をします。完璧なシミュレーターがあれば、自動運転を解決したことになり、その逆も同様です。そして私はそれを本当に信じています。AlphaGoは、完璧なシミュレーターがあるときにモンテカルロリサーチを通じて問題を解決できることを示しました。ですからロボティクスでもそうなると思います。

ですから1つは測定です。もう1つの柱は、モデルにより多くの汎用性を構築することです。より多くのモダリティをどのように構築し、それらの異なるモダリティを推論において整合させることができますか。これが新しいユースケース、特に人間とロボットの相互作用とナビゲーションに関して開かれると思います。

有用性の問題に戻ります。これらのことのいくつかに、私は本当に興奮しています。そして最後のものは単にエンジニアリング効率です。つまり、これらのシステムをトレーニングすることとデータ要件は並外れています。

ですから、この問題の最もセクシーな部分は、これらのモデルをトレーニングし提供するための効率的なインフラだと私は軽視しません。そしてそれを正しく行うことは、本当の競争上の優位性または不利益だと思います。

AV2.0について話すことから始めました。いつかAV3.0について話しているかもしれないと想像します。AV3.0はどのようなものになり得るでしょうか。5年、10年、15年先に行くと、この業界で他にどのような大きな飛躍が見られると思いますか。

それを非常に無表情で言いましたね、AV。ですからAV2.0の全体の前提は、インフラと大量の過剰に調理されたハードウェアを必要とせずに、車にインテリジェンスを置くことについてでしたが、本当にシステムを知的にすることでした。

そして私たちは今、すべてのオンボードスケーラブルなインテリジェンスとコンピュートで世界に汎化できるシステムでそれが出現しているのを見ていると思います。もし私がAV3がどこに行くかを推測するとしたら、最近は深く考えていませんが、1つのアイデアはインテリジェンスを車の外に持っていくことかもしれません。

つまり、大多数の主流の自動運転車を持ち始めると、それらが通信し始めるとき、それらが相互に相互作用し始めるとき、できる多くの新しいことを想像できます。将来、それらが調整できるなら、なぜ信号機が必要なのでしょうか。角を見回すために前の自動運転車と単に通信できるなら、なぜこれらすべてのセンサーが必要なのでしょうか。

もちろん、ここで推測しています。それはサイバーセキュリティ、通信遅延の質問など、多くの興味深い質問を開きます。しかしわかりません。私はエンボディドAIに全面的に賛成です。そして車の中だけでなくそれを超えてインテリジェンスを取ることによって、より安全でアクセスしやすいシステムを構築できるなら、おそらくそれが道かもしれません。見てみましょう。

それは本当に興味深いと思います。もしAV3.0がそれがいわばメッシュネットワークであるポイントで、その時点でおそらく人間は運転することが許されません。なぜなら彼らはロボットができるのと同じ方法でメッシュネットワークと通信できないからです。あるいはおそらく人間が娯楽目的で運転するための特別な場所がありますが、輸送のためには、全て自動運転です。

興味深いです。AIマーケットが今日どれほど熱いかを考えると、どのように採用し、どのように人々を惹きつけますか。その質問が大好きです。なぜなら結局のところ、私たちのチームが私たちの製品であり、私たちのチームがこれを可能にするための最も重要なことだからです。

そして私たちはWayveで、キャリアの最高の仕事ができる場所であることについて多く話しています。そしてエンボディドAIにおいて私にとってそれが意味するのは、あなたの周りに、インスピレーションを与え興奮させる、彼らがすることで世界クラスの同僚のセットを持つことです。適切なリソース、適切な文化があなたをブロック解除します。

しかしWayveでユニークだと思うのは、本当に最先端のAI環境を、自動車における短期的な製品機会とまとめることができるということです。ですからもし知的機械に取り組み、ロボティクスにおけるChatGPTの影響のスケールでシステムが持ち出されるのを見たいなら、私たちがそれを行うことができる場所だと思います。

もう1つは、私たちがグローバルに展開したことです。つまり、ロンドン、シュトゥットガルト、テルアビブ、バンクーバー、東京、シリコンバレーにチームがいます。そして、ほぼどこでも、主要なAIと自動車のハブのいくつかです。

そして、この製品を世界に持ち込み、世界中の顧客と協力できるグローバル文化を構築しようとしています。そして最も重要なのは、最高の最高の人々と協力することです。ですから、エンボディドAIの先駆けとなり、フロンティアを推進し、実際にそれを画期的な製品に変えることに興味がある人は、チャットしに来てください。お話ししたいです。

素晴らしい。Alex、あなたは自動運転と物理経済におけるエンドツーエンドニューラルネットの未来を、ほとんど誰よりも長く信じてきました。そしてそのビジョンが実現し始めるのを見ることは、信じられないほど充実しているに違いありません。おめでとうございます。そして参加してくれてありがとうございます。

ありがとうございます、Sonia。ありがとうございます、Pat。それは本当に光栄です。