NVIDIAのオートプレイと自動運転の未来 – ダニー・シャピロとともに

NVIDIA's Auto Play and the Future of Autonomous Driving — With Danny Shapiro

Danny Shapiro is the Vice President of Automotive at NVIDIA. He joins Big Technology to discuss the current state of aut...

NVIDIAの自動車部門副社長が、自動運転の現状と最新のAIイノベーションが車にどのように反映されているかについてお話しします。これからそのお話をお聞きいただきます。
ビッグテクノロジーポッドキャストへようこそ。テクノロジー界とその周辺の冷静で細やかな会話をお届けする番組です。さて、車はコンピューターですよね。車はますますコンピューターのように見え、私たちは車内でますます技術に頼るようになっています。そこで、もちろんNVIDIAとお話しする必要がありました。今日はNVIDIAの自動車部門副社長のダニー・シャピロさんをお迎えしています。以前にプライベートでお話ししたことがありますが、今回NVIDIAが取り組んでいるすべてのことをシェアしていただき、また現在進行中の最も興味深い技術革新の1つである自動運転の状況について重要な全体像を示していただけることをとても楽しみにしています。ダニーさん、番組へようこそ。
アレックス、お招きいただきありがとうございます。とてもワクワクしています。
そうですね、まず大きな質問から始めましょう。完全自動運転までどのくらいかかるでしょうか。
現在、道路上で稼働している完全に運転手のいない車両、ロボタクシー、さらにはトラックもあります。安全運転手を取り除いても操作できるレベルに達しており、一部の企業では収益を上げるプログラムの一部としても運用されています。私がいるベイエリアではそれらを道路で頻繁に見かけます。私も乗ったことがありますが、本当に素晴らしい体験でした。まさに変革的です。しかし、多くの技術が一般の車両にも導入されつつあると思います。運転支援システムなど、もともとは自動運転のための技術をベースにしたものですが、メルセデスやジャガー・ランドローバー、ボルボなど、世界中のさまざまなブランドの車両にNVIDIAの技術を組み込んでいます。完全自動運転に到達する前に、より安全な運転を実現するためです。
私は昨年の夏にサンフランシスコで、ウェイモとクルーズに乗る経験をしました。当時のクルーズのCEOであるカイル・ボートさんをショーに招いて、毎年クルーズの乗車数を10倍に増やす計画について話を聞きました。もちろん、実際にはそうはならず、安全性の懸念に直面してカイルさんは退任し、野心的な計画は大幅に縮小されたように見えます。ただ、再び拡大する可能性もあるでしょう。ウェイモとクルーズの違いについて、あなたの見解を聞かせてください。技術的な詳細に立ち入る必要はありませんが、すでに自動運転が実現していると言われましたが、なぜ1つの会社が非常にうまくやっていることが、経済全体のすべての車に広がるまでに時間がかかっているのでしょうか。安全性の問題でしょうか、コストの問題でしょうか。現在の障害は何でしょうか。
私たちや多くのパートナー企業にとって、安全性が最優先事項です。2016年頃を振り返ると、多くの予測が立てられ、2020年が実現の年だと言われていました。コンピューティングの観点からもソフトウェア開発の観点からも、それは現実的に見えました。しかし、ほぼ常に正しく機能させることの真の複雑さを誰もが過小評価していたと思います。それが本当に難しいのです。基本的なことは簡単です。高速道路を走行し、車が全て同じ方向に進んでいて、歩行者がおらず、車線標示がはっきりしている場合は、本当に解決済みの問題です。しかし、人間の行動から生じる複雑さや異常な状況を本当に導入すると、道路で眠り込んだり、無謀な運転をしたり、せっかちだったり、道路での怒りなどがあります。それを予測するのは本当に難しく、自動運転車にとって危険を生み出します。
私たちが目にしているのは、全く新しいイノベーションの波です。その一部はChatGPTと同じ基本的な技術、つまり大規模言語モデルに基づいています。車の周囲の環境全体を包括的に見て、他のドライバーが何をするかを予測し、どう反応すべきかを理解できるエンドツーエンドのシステムです。ChatGPTに何を言っても応答できるのと同じように、それはかなり驚くべきことです。ChatGPTが大規模言語モデルであり、生成AIの一形態を使用してテキストを入力してテキストを出力するのに対し、私たちが行っているのは、同じタイプのアルゴリズムアプローチとニューラルネットワークのトレーニングを適用しています。カメラやセンサーデータからの映像や画像を入力として、その環境を理解し、その車両が安全に航行するための最適な行動方針を決定できるようにしています。
今後の道筋について聞こうと思っていました。これらのモデルが苦戦していることは分かっていますが、あなたが今説明したような方法が前進への道だと考えていますか。
イギリスのWaveのような企業が、本当に素晴らしい基盤技術を組み立てています。前方カメラの映像を解釈し、システムが車両の乗員に車外で何が起こっているかを伝えることができ、また車がどうするか、どのようにステアリングを操作するか、加速するか、ブレーキをかけるかを決定する方法としても使用できます。その映像フィードを解釈して、誰かが道路を横断しているとか、誰かが赤信号を無視したとか、子供が横断待ちをしているなどと説明できます。この生成AI的アプローチが、本当に採用を加速させると思います。
先月、シアトルで開催されたCVPR（コンピュータービジョンとパターン認識）という年次会議で、自動運転チャレンジという競技が行われました。基本的にはセンサーデータを見て、将来の車両の最適な軌道を予測するというものです。400以上のエントリーがありましたが、NVIDIAが参加し、チャレンジに勝利しました。私たちの研究チームが、センサーデータシステムのエンドツーエンドトレーニングのための新しい大規模言語モデルを開発し、それを車両制御に使用したのです。400以上のエントリーの中で、NVIDIAがこの新しい大規模言語モデル型のアプローチでトップに立ちました。これが本当に多くのイノベーションが見られる分野だと思います。
個々のニューラルネットを車線や標識、歩行者などにそれぞれトレーニングする代わりに、よりエンドツーエンドのアプローチで環境全体を見て、例えば車線標示がない場合でも何をすべきかを理解できます。環境がいかに動的で、街灯や標識、車線標示さえも全て同じように見えるわけではないことを考えると、この新しいタイプのニューラルネットのエンドツーエンドアプローチが、以前のように明示的にトレーニングされていないエンドケースを心配する必要がなくなるポイントに到達するのに本当に役立つと思います。
あなたの言っていることは重要だと思います。つまり、現在の自動運転車の基本的な技術層は、道路上のそれぞれの異なる特徴を認識する多くの異なる人工知能システムを持ち、それらを組み合わせて最終的に進路の予測を行っているということですね。しかし、あなたは今日の最先端は、これらの個別のシステムではなく、すべてを見渡して予測できる1つのシステムだと言っているのですね。
安全性の鍵は、多様性と冗長性の組み合わせだと思います。バックアップシステムが欲しいですが、同時に様々な異なるアルゴリズムも欲しいのです。私たちは異なる技術の層を見ています。車線標示を探しますが、車線標示が見つからない場合は、車両を誘導し、何をすべきかを決定するエンドツーエンドネットワークもあります。また、標識を見て複雑な標識を解釈できるニューラルネットワークもあります。駐車できるかどうかを判断しようとしている場合、標識ネットワークは実際にその標識を読んで、今日は土曜日なのか、道路清掃があるのかなどを理解できます。コンテキストを持っているのです。これらのネットワークの複雑さはかなり精巧です。
信じてください、そのような技術があれば、たくさんの駐車違反チケットを避けられたでしょう。つまり、この技術が組み込まれた車を持っていれば、歩道に近づいたときに「ここには駐車できません」と教えてくれるということですね。
そうです。NVIDIAがこの技術の多くを開発していることは興味深いですね。NVIDIAのウェブサイトの自動車セクションを見たら、NVIDIAから出ている膨大な数のモデルに驚きました。ウェイモやテスラのような自動車メーカーが自動運転技術を開発していると思っていたのですが。NVIDIAはこれらのモデルの開発にどの程度関与しているのでしょうか。そして、顧客は誰なのでしょうか。
素晴らしい質問です。私たちは何百もの自動車メーカー、トラックメーカー、ロボタクシー企業、ソフトウェアスタートアップ、センサー企業、マッピング企業と協力しています。本当に私たちが構築したエコシステムは多岐にわたります。私たちは車両を作っているわけではありませんが、それらのメーカーと協力しています。私たちは車内に搭載される頭脳であるDriveプラットフォームというコンピューティングハードウェアを提供しています。DRIOSはそのパッケージの一部である安全なオペレーティングシステムです。アプリケーションやアルゴリズム、ニューラルネットワークを開発するために使用できる多くの異なるミドルウェアやライブラリがあります。
しかし、そのアプリケーション層は一般的に顧客によって構築されます。メルセデス・ベンツやジャガー・ランドローバー、ボルボ、中国のNIOなどです。彼らはソフトウェアスタックのどの部分を使用するかを選択できます。多くの場合、顧客はスタック全体を採用し、独自のアルゴリズムも開発しています。例えば、メルセデスの歩行者検出アルゴリズムがNVIDIAの歩行者検出アルゴリズムと並行して動作することがあります。私たちはそれについて協力しています。
今年の終わりから、すでに発表されている新しいCLAクラス、つまり新しいメルセデスモデルのCクラスの導入が始まります。すべてのメルセデスはNVIDIA Driveで構築され、NVIDIAが開発し展開したソフトウェアを搭載します。Cクラス車両から始まり、時間とともに彼らの全ラインナップに展開されていきます。
NVIDIAが最終的に、すでに議論したような技術の一部を使用して、自動運転を可能にするソフトウェアスイートを構築し、それを自動車メーカーにプラグアンドプレイで提供できる時期が来ると感じていますか。
それは基本的に私たちが行っていることです。私たちはソフトウェアを利用可能にしています。スタック全体を開発し、本当に3つのコンピューター問題と呼んでいます。まず、車内のコンピューターについて話しました。それがDriveプラットフォームです。非常に高性能でエネルギー効率の良い自動車グレードのスーパーコンピューターです。すべてのセンサーをそれに接続し、車両用に特別に設計されています。砂漠の太陽の熱の中でも、アラスカの非常に寒い温度でも動作します。携帯電話のように暑すぎたり寒すぎたりすると電源が切れてしまうのとは違います。温度範囲、衝撃や振動、埃の環境など、すべてがこのコンピューターを自動車グレードにするために考慮されています。
しかし、それに加えて、人工知能をトレーニングするために使用されるコンピューターも製作しています。それがDGXで、スーパーコンピューターです。自動車メーカーが自社のデータセンターを構築したり、Azure、AWS、Oracleなどのクラウドプロバイダーを使用したりするための大きなビジネスがあります。
さらに、シミュレーション用のOVXもあります。これも別のデータセンターソリューションで、ソフトウェアが実際に車に搭載される前に、開発、テスト、検証を行うためのものです。NVIDIAは、これら3つのコンピューターを持つ唯一の会社であり、ソフトウェアの開発、テスト、デプロイの全ライフサイクルを扱っています。本当に継続的なフライホイールのようなもので、携帯電話がソフトウェアアップデートを受け取るのと同じように、これらの車はソフトウェアアップデートを受け取り、寿命を通じてますますスマートになるように設計されています。
それは驚くべきことですね。ダニー、多くの人々はNVIDIAをただのAIトレーニング用チップ会社だと考えています。私はいつも「それ以上のものだ」と言っていますが、この1つの分野だけでなく、自律性の最先端を推し進めることに深く関わっているのは本当に驚くべきことです。
その通りです。人々は車内で何が起こっているかに注目しがちですが、そこに至るまでの多くの作業や開発があることを認識していません。私たちと協力する顧客にとって素晴らしいのは、単一のアーキテクチャであることです。データセンターでトレーニングに使用されているのと同じチップ技術で、ハードウェアインザループテストと呼ばれるものを行います。実際に車に搭載されるソフトウェアとハードウェア全体をまず仮想環境でテストします。これをデジタルツインと呼びます。都市のモデルを作成し、車の周りで起こっているすべてのこと、オートバイが車を追い越したり、歩行者が横断歩道を渡ったりするのをカメラ、レーダー、ライダーの信号をシミュレートします。
これらすべてを、実際に道路に出す前にテストできます。非常に効率的で、安全にテストでき、最終的にはずっと良い製品を生み出すのに役立ちます。
もう少しそのことについてお聞きしたいと思いますが、まず別の技術的な質問をさせてください。自動運転車を構築する際に、2つの異なる考え方があるように見えます。1つは、私が簡単に「ウェイモ学派」と呼ぶものです。これは、何百万ものセンサーとカメラが必要で、車は潜水艦のように見え、数十万ドルのコストがかかりますが、非常に上手く機能するというものです。もう1つは「テスラ学派」と呼びますが、これは数台のカメラだけで十分で、最終的には機械学習モデルをトレーニングして、ライダーなしでテスラを自動運転できるようになるというものです。あなたはどちらが正しいと思いますか。
両方にメリットがあると思います。前に述べたように、多様性と冗長性が本当に高いレベルの安全性を得る方法です。カメラは素晴らしいですが、すべての条件で機能するわけではありません。レーダーやライダーと組み合わせると、多くの異なるタイプのセンサーの長所が補完し合います。ウェイモの場合、本当に高いレベルのセキュリティと信頼性、そしてシステムから得られる冗長性があります。そのため、完全に自律的に、ドライバーなしで操作しています。
一方で、私はテスラを持っていますが、カメラベースであっても非常に素晴らしいです。ただし、時々はまだハンドルを握る必要があります。そのレベルにはまだ達していません。最終的にそこに到達できるでしょうか。おそらくいつかは可能だと思いますが、今日の時点ではそこまでは至っていません。
最新のフルセルフドライビングのアップデートはどうでしたか。
かなり良いです。毎日それに頼っています。使用していますが、まだベータ版と考えられているので、注視しています。業界にいるので、各ソフトウェアの改訂版で何ができて何ができないかに興味があります。しかし、かなり素晴らしいです。
ウォールストリート・ジャーナルで今週、テスラの運用方法の欠点について少し触れた記事がありました。まさにこの問題を指摘しています。つまり、ライダーを使用しないことを決定したということです。一部にはレーダーがありますが、イーロンは基本的にすべてのコストをできるだけ安くしたいと考えています。SpaceXでもテスラでもそれが見られます。これらのシステムが十分に良いので人々が信頼してしまい、悲劇が起きてしまったケースもあります。
ジャーナルが公開した動画では、夜間に走行中の車が、横転したトラクタートレーラーが道路を塞いでいる場面を効果的に示していました。車のコンピュータービジョンモデルが、トラックの暗い下側部分と暗い夜間という状況を十分にトレーニングされていなかったため認識できず、車がトラクタートレーラーに衝突してしまいました。しかし、あなたの回答を考えると、これは一時的なことで、最終的にはこのような特殊なシナリオも時間をかけて解決できると考えているのでしょうか。
モデルが物理的な障害物を、それが何であるかを知らなくても検出できるようになれば、正しい行動をとることができるようになると思います。しかし、ここでも多様なセンサーデータを持つことが本当に大きな差別化要因になります。
NVIDIAが内部で行っていることについて、また話しましょう。実際に衝突をシミュレーションしているのは非常に面白いですね。これは、先ほど言及した世界で行っているのでしょうか。シナリオを作成してシステムが安全な結果を出すことを確認しているのでしょうか。
私たちが試みているのは、シナリオを作成することです。事故を作り出すことではなく、システムが安全な結果を出すことを確実にするためのシナリオを作成しています。世界で事故をゼロにする方法はありません。道路上では常にクレイジーなことが起こる可能性があり、人間のドライバーでも車の前に何かが落ちてきたり、誰かが車の前に押し出されたりするのを避けられないこともあります。しかし、私たちが望むのは、それらすべてを予測し、避けるか、そのような危険なシナリオで起こりうることを軽減できるようにすることです。
実際に私たちができることの1つは、実際のドライブを記録し、それを入力として使用して、そのシナリオの大きな範囲の異なるバリエーションを作成し、ソフトウェアをテストすることです。実際にシーン内の車を捕捉し、そのシーン内の任意の車を自律車にして、どのように振る舞うかを見ることができます。私たちは大規模なシナリオデータベースと、技術が良好であることをテストし検証する方法を構築しています。
もう1つできることは、事故報告を取り、これらの大規模言語モデルを使用して、これらの事故報告を入力し、何が起こったかを説明するテキスト入力や地図などからシナリオを作成することです。
シミュレーションとトレーニングは自動運転に関連して、どの程度重要ですか。
シミュレーションは、システムの安全性を確保する上で本当に大きな役割を果たしています。まず、データを収集するためにドライブしているだけでは、危険なシナリオや危険、非常にまれに発生することを捉えることはほとんどありません。そのため、シミュレーションと呼ばれる合成データ生成を使用して、そのようなシナリオを作成する必要があります。
トラックから物が落ちたり、夜に人が道路を横断したりするなど、偽の潜在的な危険を作成できます。AIをトレーニングするための実際のデータを補完するためにそのデータを作成し、システムが正しいことを行うことを確認するために、これらすべての危険なシナリオを実際にシミュレートできます。
シミュレーションを使用することの利点は、繰り返し可能なことです。ソフトウェアを調整し、1か月前には合格しなかったかもしれないものを同じシナリオで実行し、「ああ、修正できた」と確認できます。センサーが夕日によって目がくらむような状況もあります。太陽が沈むときに、まさに車の目、ドライバーの目、カメラの目に直接入ってくるようなときです。そのようなデータを捉え、テストする時間は1日のうちほんの数分しかありません。しかし、シミュレーションでは24時間いつでも日没にできます。
本当にその環境をコントロールでき、雨、雪、霧を作り出すことができます。これは本当に注目に値し、実世界では決して見られないかもしれないことをテストする能力を与えてくれます。実車両を使って自律モードでテストしようとしても、決して分からないかもしれません。シミュレーションでは、リリース前に確実に機能することを確認できます。
また、車内に表示されるシステムも開発中で、難しい状況をナビゲートするのに役立ちます。例えば、ニューヨークで赤信号で右折しようとすると、「ここでは赤信号での右折は違法です」と教えてくれたり、メキシコでヘアピンカーブを曲がるときに、車線の外側に出て確認してから戻るような交通パターンがある場合、何が起こっているかを理解するのを助けてくれます。私はアイルランドに行く予定ですが、どちら側を走ればいいか教えてくれるものが本当に必要です。この進歩について少し教えてください。
私たちが公開しているDrive Labsというビデオシリーズのことを指しているのだと思います。各エピソードで、私たちが構築している巨大なソフトウェアスイートの一部である小さな技術の一部を取り上げています。これらの一部は研究チームから出てきたもので、今日のソフトウェアには含まれていないかもしれませんが、近い将来に登場するものの予告のようなものです。
私たちができるのは、これらのシステムをトレーニングし、異なるモジュールを作成することです。これらは基本的に、顧客が使用できるソフトウェアスタックの一部になります。メルセデスやボルボなどが、それをどのように顧客に提供するかを決定します。技術はそこにあり、特定の地域の法律、つまり国や世界の異なる地域での標識、信号灯、車線標示などについてトレーニングできます。
基本的に、各地域に対して大規模言語モデルを作成し、車が何をすることが許可されているか、されていないかを理解します。そして、もし実装されていれば、例えばニューヨークで赤信号で右折しようとすると警告を出すことができます。カリフォルニアでは全く問題ありません。
ロボティクスについて話しましょう。まず、センサーを搭載した車で走り回ると、世界モデルを構築し始めるように見えますが、これはロボティクスの開発に役立つのでしょうか。NVIDIAはすでに車から学んだことをロボットに、ロボットから学んだことを車に適用していますか。
その通りです。私たちには自動車グループと並んでロボティクスグループ全体があり、問題に関連する多くの側面があります。車両の運転について考えると、私たちが望むのは何も衝突しないことです。環境を理解し、感知し、どのように操縦するかを計画し、そして車両を作動させて運転します。しかし、何も触れたくありません。
ロボティクスはほぼ逆のことです。ロボットは相互作用する必要があり、何かをつかみ、何かに触れますが、非常に繊細に行う必要があります。しかし、感知し、計画し、行動する能力は本当に同じです。私たちが行っていることの多くが関連しています。自律走行車は本当にロボットの一形態です。車輪があって走り回ります。工場のロボットの中には、倉庫や工場内を自律的に移動する機械もありますし、アームが動き回るものもあります。
重要なのは、この3つのコンピューターモデル – システムのトレーニング、デジタルツインでのシミュレーション、そしてソフトウェアの展開 – が両方のケースで同じだということです。工場での多くの仕事をしていますが、車を作る工場でも同様です。メルセデス・ベンツやBMWなどの企業が私たちのチームと協力して、工場全体をまずデジタルツインとして開発しています。
工場全体、全てのロボット、作業員、組立ライン、到着するトラック、部品を動かすロジスティクスなど、全てがモデル化され、工場を実際に建設する前にデジタルでシミュレーションされます。その利点は、建設の途中で「待てよ、車体を回転させるためにここで振る腕が天井に当たってしまう。屋根をあと2フィート上げる必要がある」ということに気づくのではなく、全てを事前に計画できることです。
工場を建設する前に、レイアウトを本当に最適化できます。デジタルツインとAIは、ロボットが実際にどのように相互作用するかを計画する上で大きな役割を果たしています。そして、自動運転車と同じように、そのソフトウェアをシミュレーションでトレーニングし、ロボットにロードします。
それは非常に興味深いですね。車の使命は「何も触れるな」で、ロボットの使命は「相互作用せよ」ですが、両方の技術が世界のモデルを構築し、何が起こっているかを理解しようとしているのだと想像します。NVIDIAのロボティクスと自動車部門が共有している世界はありますか。
絶対にあります。多くの共有技術があります。これがNVIDIAという会社の強みです。世界中の産業に与える影響に比べると、比較的小さな会社です。多くのコアハードウェアとソフトウェアを開発しているエンジニアリングチームは、自動車からロボティクス、ヘルスケアまで、グループ間でレバレッジを効かせています。
例えば、歩行者検出アルゴリズムを開発していますが、同じコア技術をX線やCTスキャンでがんを検出するのに使用できます。それは単なるコンピュータービジョンです。
そうですね、それはAIであり、ディープラーニングです。同じテクニックで、異なるタイプのデータ、異なるモダリティでトレーニングされた異なるデータパターンですが、概念は基本的に同じです。そこが、多くの異なる産業で同じ基本的なアーキテクチャのハードウェアとソフトウェアを、目的に合わせたアプリケーションやデバイスと共に市場に投入できている理由です。しかし、コア技術は多くの異なるグループ間でレバレッジが効いています。
石油を掘削する場所を探すなら、深層学習を適用して地球の数マイル下に埋まっている石油のポケットがどこにあるかを判断するための地震データがあります。概念的には同じですが、アプリケーションや市場は全く異なります。
では、会社はこれらの部門間の協力をどのように奨励しているのでしょうか。自動車グループには1つの目標があり、ロボティクスグループには別の目標があると想像します。協力すれば、おそらく両方がそれらの目標を超えるか、サイロで働くよりも良い結果を出せるでしょう。しかし、多くの企業はサイロで働いています。
アップルを考えると、Face IDとAutomotive Road Detectionで働いていても、互いに話をしないでください。2つの異なるプロジェクトで、ウィンクウィンクでアップル内の自動車プロジェクトが失敗した理由かもしれません。他の企業は、パフォーマンスレビューのインセンティブによってサイロを奨励しています。協力していても目標に届かなかった場合、このグレードを取得し、昇進できません。NVIDIAはこれをどのように対処していますか。
あなたが説明したそれらのことは、私たちの会社の文化ではありません。私たちの会社の設立原則の1つは「ワンチーム」です。すべてはNVIDIAが第一で、個々のグループは二の次です。実際、グループの概念は動的で、会社には組織図がほとんどありません。ジェンセンは「ミッションがボスだ」と言います。
私たちには仮想チームがあり、多くの部門横断的な仕事が行われています。人々は異なる役割と責任を持ち、さまざまな異なることに取り組んでいるかもしれません。それは本当に会社にとって最良のことは何か、そしてグループ間で協力することが本当に報われるということです。
ただ単に「これは私のものだ、私はこれを所有している、これだけに集中する」のではなく、全体として会社が成功するということです。それは本当に会社の文化の一部であり、全体に浸透しています。ジェンセンは常に、関連することを行っている2つの異なるグループを見つけると、「君たち、一緒になってそれを解決しろ。ここに2つの別々のプログラムを持つ必要はない。最良のものを選ぼう」と言います。そのため、会社全体で本当に大きな協力が行われています。
もう1つの協力が、生成AIモデルに取り組んでいるグループとすでにあるか、あるいはこれから行われるのかと思います。生成AIの最大の制限は、実世界を本当に理解していないことでした。少なくともテキストに関しては、そうかもしれません。この番組で聞いたところによると、基本的に人間の知識のごく一部だけがテキストで成文化されており、残りは世界に出て、相互作用し、目を使い、重力とは何かを理解することだそうです。テキストからそれを理解することはできません。それについて読むことはできますが、世界に出るまで本当に経験することはできません。
これらの実世界の相互作用が、自動運転車やロボットのようなものを通じて、今日の大規模言語モデルで持っている知識を進歩させるためにどのように使用されるかについて興味があります。
私たちが見ているのは、ChatGPTを例に挙げると、そこにある多くの情報を返してくれますが、それが良く聞こえても、実際には本当ではないかもしれないということです。幻覚やそのようなシステムがあります。私たちが本当に取り組んでいるのは、これらの基礎モデルをどのように作成するか、どのようにガードレールを設置するか、信頼できるシステムをどのように作成するかということです。
これらの検索拡張生成システム、RAGシステムは、特定のデータセットで訓練されます。そこが本当に私たちがやっていることで、大規模言語モデルを取り、特定のアプリケーション用に目的に合わせた小さなバージョンを作成できるようにしています。
車内にコンシェルジュとしてのアバターを持つことを考えると、その車、そのブランド、そのモデル、そして車内でしたいことに特化して訓練します。必ずしも時事問題や他の種類のことを知る必要はありませんが、運転中に必要なことを処理でき、素晴らしい体験となる対話型のものになります。
ヘルスケアでは他のことがあるかもしれません。既知の医療情報に基づいて訓練されたアシスタントがありますが、ウェブ上の医療に関することでは訓練されていません。再び、これらのシステムを訓練するために使用されるデータから始め、ユーザーにとってずっと良い体験になることを確実にします。
しかし、自動車が潜在的に行える実世界の理解と、テキストの理解、これら2つの知識ベースの融合がどれほど重要だと思いますか。
それは起こっていると思います。私たちが行っていることの一部は、物理学をモデル化できることです。それが重要なことです。重力をモデル化し、物事がどのように相互作用するかをモデル化し、異なるタイプの材料や流体の動きなどをモデル化できます。それは実世界の数学的モデリングに帰着し、それが私たちが行っている大きな部分です。
電気自動車分野に関して、中国が成し遂げている非常に大きな進歩について考えたことはありますか。あなたの見解はどうですか。中国では10,000ドルで電気自動車を購入できると聞いています。アメリカでそれができれば大きな変化になるでしょう。
私たちは世界中の多くの企業と協力しています。中国にも多くの顧客がいます。彼らはEVの開発だけでなく、運転支援システムや自動運転、ロボタクシーの分野でも素晴らしい仕事をしています。それは大きな市場で、世界最大です。NVIDIAにとっても大きな市場です。私たちは密接に協力し、そこにチームを持っています。日本や韓国、ドイツ、イギリス全体、そしてもちろん北米でも仕事をしています。
アメリカは中国市場から車の価格をより良くするために学ぶことはありますか。
私はバッテリー技術の専門家ではありませんが、確かに規模の経済や、コストを下げるために彼らが行っていることがあると思います。中国では政府の支援も多くあると思います。
最後の質問です。アメリカのどこでも、アプリを開いてロボタクシーを呼べるようになるまで、どのくらいかかると思いますか。
今日でもできます。
どこでもではありませんね。ニューヨークではできません。
そうですね、常にどこでもというわけにはいかないかもしれません。市場がなければなりません。しかし、都市では多くの意味があると思います。郊外の一部の地域でもそうでしょう。田舎の地域では課題があるでしょう。今日でもどこでもUberを呼べるわけではありませんよね。タクシーもどこでも呼べるわけではありません。しかし、主要な市場ではとても近い将来だと思います。
楽しみですね。ダニー・シャピロさん、参加してくださってありがとうございました。お会いできて良かったです。
こちらこそ、アレックス。ありがとうございました。
皆さん、聞いてくださってありがとうございました。金曜日にはロナン・ロイとともに今週のニュースを分析します。次回のビッグテクノロジーポッドキャストでお会いしましょう。