TeslaのFSDとOptimusは、一見すると自動運転車とヒューマノイドロボットという全く異なる製品に見えるが、実はその根底にある技術アーキテクチャには驚くべき共通点がある。本動画では、データフォーマット、データパイプライン、シミュレーター、学習方法、ニューラルネットワークアーキテクチャ、そして推論フレームワークという6つの領域において、両者がいかに統合されつつあるかを詳細に解説する。特に注目すべきは、人間が介在しないリアルワールドデータの収集がAGI到達の鍵となる点、そして専門家混合モデルによるスキルベースのアーキテクチャが、車両とロボットの両方に適用可能である点である。Teslaは単なる自動車メーカーではなく、物理世界のためのオペレーティングシステムを構築している企業なのである。

TeslaのFSDとOptimusにおけるAI統合の本質
Cernbertショーへようこそ。これはおそらく、来週Cernbertが放送から引き離される前の最後の収録になるかもしれませんが、今週のゲストはPhilbertです。これは素晴らしい締めくくりになりそうですね、Phil。
そうですね。どちらにせよね。
これは、大人が部屋を離れて子供たちに任せるとどうなるかということの好例だと思います。
その通りです。Herbertは今回の経験の後、もう二度と休暇を取らないかもしれませんが、来週彼が戻ってくるのを皆楽しみにしています。来週はTeslaの決算週間でもありますから、エキサイティングな週になるでしょう。
でもPhil、実は毎週こうなるんですよね。
本当にそうですね。毎週、来週は何もないだろうと思っていると、突然バーンと何かが起こる。Teslaで起きていることの多さには驚かされます。
その通りです。決算の後には年次総会がありますし、その後もロボタクシーの展開やOptimusのお披露目など、楽しみなことがたくさんあります。第4四半期は刺激的なものになりそうですね。
FSDとOptimusの統合アーキテクチャ
終わりがないですね。でも、それはいいことです。さて、今日はいくつか話すべきことがありますが、Philに話してもらいたいことの一つが、「The Magic of Tesla FSD」というタイトルの投稿についてです。驚くべきことに、これはもうパート8まで来ています。これは素晴らしい一連の投稿で、今回はOptimusエディションです。Optimusは私にとって非常に大切なものです。なぜなら、これこそがTeslaの未来だと信じているからです。
Elonも最近、似たようなことを言っていて、最終的には会社の価値の約80%を占めるだろうと述べていましたね。
その通りです。同意します。それでは、このプレゼンテーションを説明していただけますか。
ここでの前提は、これら両方の製品の技術アーキテクチャの統合についてです。それがどのように組み込まれているのか、そしてエンジニアリングの観点からプログラムの観点から何が起こっているのか。OptimusのAIとFSDのAIは、実際には異なる点よりも類似点の方がはるかに多いのです。しかし一般の人が見れば、一方はヒューマノイドロボットで、もう一方は車両だから、どうやって関連しているのかと思うでしょう。
今日私がやりたいのは、できる限り詳細に説明して、これが統合されつつあることを示すことです。「なりつつある」と言うのは、まだ統合されていないが統合されつつあると思うからです。Teslaとそれぞれのプログラムにとって、そのメリットとデメリットは何か。これらを、ビジネスモデル全体に影響を与える異なるエンドポイントを持つ別個のプログラムとして考える必要があると思います。Teslaはエンジニアリング重視の会社ですが、だからこそ、エンジニアリングプロジェクト以外にも多くの動いている部分があることを見失いがちです。例えばサイバーキャブを出すなら、そのサービスチェーン全体や他の側面を考慮しなければなりません。Optimusも同じ問題を抱えています。時間貸しするのか、故障したら交換するのか。そのサプライチェーンをどう構築するのか。エンジニアリングはその一部ですが、Teslaがエンジニアリング重視の会社であり、そのリーダーが私たちをそこに導いているため、常に中心的な焦点になります。だから話すのが楽しいんです。
その通りです。では、このスライドに進みましょう。ここで何を表示しているのか説明してください。
データフォーマットとパイプライン
スライドを作りました。Cernbertから手がかりを得て、スライドを用意しました。Herbertはそれが好きで、あなたも通常使っていますから、私たちも必要だと思いました。
感謝します。
さて、FSDとOptimus AIが統合されている、または統合される可能性がある6つの異なる領域について話したいと思います。それは、データフォーマット、データパイプライン、シミュレーター、学習の仕組み、つまりAIの訓練方法、訓練されたAIのアーキテクチャ、そしてこれの最終地点である推論、つまりランタイムがどのようなもので、車両やOptimus内でどのように見えるかです。
これが、統合アーキテクチャの機会があると私が見ている6つの領域です。
一見すると、Phil、このチャートは最初の領域、つまりデータフォーマットを除いて、両方の列で同じように見えます。
そうですね。実際にそう思います。もちろん、細部には悪魔が潜んでいますし、それぞれの詳細にはニュアンスがたくさんあります。これから進めていく中でそれについて話します。しかし、データフォーマットに関する最初の領域で私が本当に提示したいのは、私にとってデータフォーマット、いわゆるデータセットは統合された時系列オブジェクトだということです。基本的に一連の時系列データの束なのです。それはカメラから来るデータの混合です。
FSDの場合、8台のカメラによる360度ビューです。Optimusの場合は、前方に2台、噂では、あるいは考えられているのは後方に1台のカメラです。そして、Optimusから追加されるのは本当にタッチセンサーデータだけです。しかし、視聴者が考えるべき方法は、これが統合されたデータセットだということです。データセットのアーキテクチャであり、その中にこのデータが層になっていて、時系列データなので時間順序があり、実際には何がそれを駆動しているかというと、おそらくフレームレートです。いわゆる目、つまりカメラからのフレームレートがあって、データセットオブジェクトごとに一定数のフレームがあり、すべてのデータが適切なタイムスタンプとともにそこに層状になっています。
例えば、毎秒30フレームまたは60フレームで実行されているフレームレートがここにパックされているかもしれません。6フレームやるかもしれません。でも、ロールピッチヨーの慣性管理ユニットであるIMUデータを120ヘルツで取得しているかもしれません。そうすると、そのデータのサンプルがもっと多くなる可能性があります。あるいは破棄されるかもしれません。最終的に私たちが持っているのは、私がデータセットと呼んでいるもので、両方のタイプのデバイスで同じ種類の圧縮フォーマットを持っていると思います。異なるデータをこの説明に従ってパックできますが、最終的にこれを解凍して次のトピックであるデータパイプラインに送ると、すべて同じなのです。
トラクションコントロールシステムとそこからの入力は、車両のタッチと考えることができますか。それが考え方の一つですか。
まあ、これを大幅に単純化しすぎていると思います。車両からの他のデータ入力があると思いますが、私はここには載せていません。一つ理解すべき重要なことは、これを実行しているということです。つまり、このフィードバックを実行しているのです。言い換えれば、あるものの出力が再び入力のようになっているのです。
それが起こっているのは見えませんが、それはおそらく現在のニューラルネットワークコンポーネントの一部だからです。つまり、あなたが見ることのない隠れ層としてニューラルネットワークにフィードバックされているのです。それは本当にその一部ではありません。AIについて考えるとき、AIへの入力について考えます。ここでは主にセンサー入力について考えています。あなたの指摘の通り、他にもセンサーがあります。そこにパックされているかもしれないし、されていないかもしれない他のセンサーです。
つまり、それは本当に単なるセンサーデータの種類です。車両には、その時系列データセットで提供される可能性のある何百もの異なるテレメトリデータポイントがあると思います。Rivianにいたとき、テレメトリセットには200から300のアウトバウンドテレメトリデータポイントを選択しました。内部的には、タイヤの圧力や温度など、何千ものネイティブなデータ信号がありました。想像できると思います。本当の答えは、必要なだけデータセットに入れるということです。
次のスライドに進むべきだと思います。すでにそれについて話し始めているからです。実際、この会話のほとんどは、一番左のボックスであるデバイスデータについてでした。Optimusと車両について話しています。私が言っているのは、これが統合されたデータセットだということです。そのデータセットには非常に直接的なフォーマットがあります。異なるデータがその中にあるかもしれませんが、すべて時系列データです。パックされています。おそらく主にカメラのフレームレートによって駆動されています。
リアルワールドデータの重要性
このボックスを離れる前に、Phil、車の場合、データの取得方法はかなり明白ですよね。ただ運転すればいいわけです。
Optimusの場合、Teslaが必要とするすべてのデータを取得する最適な方法は何ですか。
そのセンサーという観点では、固有の動きに関係なく、時点でデータを提供しているだけです。じっと立っているだけでも、GPS位置を提供できます。見ているものをまだ提供しています。物体自体の動力学が必要なくてもデータを記録できます。ただ立っているときのIMUがロールピッチヨーで何を示しているか。まあ、前回と同じ値です。前回と同じ、前回と同じです。でも、それはすべて重要です。
すみません、私の質問は、Teslaが必要とするデータ量を取得することについてでした。Teslaが FSDを訓練するために必要なデータ量を得るために、FSDベータプログラムがありました。では、ボットベータプログラムが必要だということになるのでしょうか。Teslaはこれにどうアプローチすると思いますか。
いいえ。つまり、明らかに違いがあると思います。しかし、それを変え始めたのは次の列、つまりシミュレーター自体だと思います。なぜなら、今では合成データを生成する機会があるからです。Optimusの場合、理論的には、人間が皿洗い機に食器を入れるなどの動作をしている生のビデオデータを見るだけで訓練できます。
しかし、おそらく起こっているのは、ベータプログラムであるかどうかは別として、何らかの環境データ収集があるということです。私がOptimusについて言いたいメタポイントは、Optimusが提供されるとき、それはバージョン1の製品であり、私たちがアクション能力と認知能力と呼ぶものを一定程度持っているということです。
そして、それを1日目の完璧な配送製品として見ることはできません。一定数のタスクができるようになります。だから、主に製造とサービスから始まり、最終的に家庭に入っていくと思います。家庭環境で必要なすべての認知コンポーネントなどのニュアンスを持っているとは思わないからです。
だから最初は、製品を時間とともに良くできるかという質問が出てきます。答えは絶対にイエスです。それがこれのクールなところです。だからアクチュエーターを正しく設定することに多くの時間を費やす必要があります。手を正しく設定する必要があります。Elonはバージョン3のOptimusで手に多くの焦点を当てています。それには正当な理由があります。それらは簡単に交換したり変更したりできない固定要素だからです。しかし、無線アップデートを通じてソフトウェアを継続的に交換し変更することはできます。
だから、最終的には、チャートに載せられる一連の能力を持つOptimusバージョン1になると思います。最初は多くのことができるでしょうが、すぐに飛び込んで見ると、「おお、できないことがたくさんある。おお、バージョンアップデートが来た」となるでしょう。FSDのようなものです。バージョン14を考えてみてください。
初めて駐車場やゲートをナビゲートし始めています。駐車し始めています。いわゆるラストマイルの側面が対処され始めています。それはバージョン13では真実ではありませんでした。
市場で丸1年、基本的に丸1年、バージョン13で過ごしました。それが配信されたときだけ、ああ、このものに追加しなければならないことがまだあると気づきました。完全なスタックにする機能がまだたくさんあります。Optimusでもまったく同じことが言えると思います。現実世界にリリースされるのを見るでしょう。
その現実世界は、Tesla製造内部かもしれないし、SpaceXかもしれないし、サードパーティかもしれません。そしてそれが動き始め、突然アップデートを受け取り、時間が経つにつれてより多くのアクションスキルと認知スキルを持つようになります。
あなたの指摘通り、データ収集もその一部です。データについて考えるとき、興味深いですよね。ChatGPTのようなAIモデル、大規模言語モデルやGrokについて考えます。それは単語で訓練されています。人間が言うこと、書いたもので訓練されています。しかしTeslaがここでやっているのは、データは世界が実際にどのように見えるかということです。多くの点で非常に異なっています。そして最終的にこれははるかに重要に思えます。
書かれた言葉、話された言葉と、世界が実際にどのように見えるかという違いを考える正しい方法は何でしょうか。データの種類の違いをどう考えればいいですか。
それは素晴らしい質問です。約1週間前にまさにその主題について記事を出しました。FSDデータだけに焦点を当てました。データの側面に焦点を当て、あなたの指摘通り、人間がループに入らずに解釈されない現実世界のデータの収集に焦点を当てました。
ループから人間を取り除くことです。今、LLMを訓練するときに持っているのは、基本的に人間の脳を通過した現実世界からのデータを取っているということです。書かれた言葉になります。
圧縮されているだけでなく、選択されています。何を言いたいか。何を言わなかったか。そしてそれがこのいわゆるデータベースに入ります。より良い定義がないので呼びますが、今ではすべてこの知識があり、私たちはそれをすべての知識の総和だと思っています。もちろん答えはそうではありません。なぜなら、現実世界を見て、ビジョンデータだけを見ても、いつでも私たちは知覚できるからです。私たちだけでなく、ロボット、車両であれOptimistであれ、人間が決して記録したことのないものを知覚できます。その情報の記録は一度もありません。
もう一つの部分は、これらのシステムで、人間が一緒にできなかったスケールでそれができるようになったことです。研究プロジェクトについて考えてみてください。博士論文があり、誰かがデータを集めていて、30人の軍隊が出て行って自然界について一次研究をするかもしれません。数百万のOptimusボットの軍隊が同じ問題を見ていると想像してください。より速い知覚能力と、これまでにやったことのない集約でデータを収集する方法があります。
だから、このボックスを現実世界のデータと呼び、最も重要なことは、ループから人間を取り除くということです。
AGI到達に必要な非人間データ
ある意味、知性が人間の知性と並行して、あるいは並んで発展することを可能にします。今、私たちはそれを人間の知性だと考えていて、システムに人間のように知的になる方法を教えようとしています。でも、そうではなく考えたらどうでしょう。システムに知性を教えようとしていると考えるのです。
犬がどう考えるかをシステムに教えようとしていると考えることもできます。人間がどう考えるかをシステムに教えようとしています。それにはあまり違いがありません。レベルはありますが、今は、システムが自分自身の第一原理的知性を構築するために自分自身を教えることができる状況にあります。それが最終的にデータ収集を通じてここで起こり進化するものだと思います。
あなたが投稿の一つで述べたコメントが本当に印象的でした。「AGIに到達するには、AIは非人間データから学ばなければならない」と。大規模言語モデルは根本的に入力されるデータによって制限されています。それは人間が生成したデータです。しかし、FSDとボットについてTeslaで話しているのは、これらのシステムが非人間データを収集できるということです。
これがAGIに到達するための重要なコンポーネントだと思いますか。これが欠けているピースですか。
私が言ったように、AGIを定義する奇妙な方法があると思います。つまり、それが人間より優れているということを意味するだけで、何らかの定義によってです。しかし、考える良い方法は、人間より優れているためには、本質的にループから人間を取り除く必要があるということです。
だから、それが最終的にこのようなシステムを構築する方法だと思います。例えば、物理学でたくさんのモデルを構築してきましたが、それはすべて人間です。ニュートンやアインシュタインや他の有名な物理学者の頭脳から来ています。それは単なる実世界の物理学に関する人間のモデルであり、真実に非常に近いかもしれないし、実世界の真実から非常に遠いかもしれません。
将来持つことになるのは、システムが現実世界の環境を独自に調べ、独自の結論に達する能力です。それは時には洞察です。アインシュタインのいくつかのことを考えると、洞察がどのように起こるか本当には分かりませんが、その一部は単なるデータベースです。極端な量のデータによって形成されるだけです。膨大なデータ量がシステムに、ある程度で知性のように見えるものを知らせることができます。
写真のような記憶を持つ人がいると、多くの人から知的だと見なされますが、そういう人々は洞察や常識という他の属性を欠いているかもしれません。私たちはそれに指を置くことができません。しかし、一つ分かっていることは、車両ロボットであれヒューマノイドロボットであれ、ロボットは人間がはるかに処理できる、摂取できるよりも多くのインバウンドデータにアクセスできるということです。
そして一つ考える必要があるのは、単一のユニットについてだけではないということです。集約についてです。人間の知識の集約は、大きなグループへの普及についてです。ああ、今私たちはみんなアインシュタインの相対性理論のアイデアについて知っていると。特定の人がそれを読まなければ、知られていません。しかし、このようなネットワークではそうではありません。これらのデバイスが知っていることは、本質的に他のデバイスが知っていることすべてです。だから、大規模な入力集約を得て、大規模な知識または二次的派生普及も得ます。なぜなら、基本的にデバイスのネットワークがあるからです。
クールなものです。
その通りです。シミュレートされたシミュレーションデータ列に移ると、人間が夢を見るとき、それは私たちが脳内で実行している一種のシミュレーションデータですか。それが一つの考えです。
もう一つの考えは、デバイス上で現実世界で収集されたデータとシミュレーションの間で最適な比率は何かということです。8対2ですか。99対1ですか。望ましい比率はありますか。
シミュレーターの役割
まあ、これについて言いたいことの一つは、シミュレーションはテンプレートに基づいており、テンプレートは既に現実世界で収集されたデータだということです。
言い換えれば、記事で話しているとき、シミュレートされたデータについて話していて、基本的にTeslaが有名な名前のつけられる交差点からデータセットを引き出すことができるということです。サンフランシスコの3番通りとマーケットストリートのようなところです。そして、その通りのテンプレートから様々な要素を削除します。本当にすべての要素に分解して、「さて、まずすべての車両、歩行者、自転車などを削除しましょう」と言えます。
シミュレートされたサンプルや合成サンプルを構築し始めるとき、そのテンプレートの構成を変更しましょう。テンプレートがあります。そのテンプレートに、ルールに従わずに非常にランダムな方法で交差点を歩く極端な数の歩行者を重ねましょう。私たちが決して車両がやっているのを記録できなかった、あるいは記録できたら幸運だったことをする車両を追加しましょう。
車両が飛び越えて対向車線に入ってきたら、システムはどう反応するでしょうか。Teslaデータセットのどこにもそのための自然なサンプルがないかもしれません。おそらくあるでしょうけど。シミュレーターは基本的にそれを重ねることができます。だから、テンプレートから始めて、それを補強して現実世界では捕捉するのが難しい現実を作り出すことができると思います。それが最初の要素だと思います。
最終的に、彼らが構築したこのシミュレーターは、物理的な現実のシミュレーターだとしましょう。つまり、実際の物理に非常に近づこうとしています。言い換えれば、車両から実際に記録されるものは、合成的に構築されたオブジェクトと区別がつきません。
それを見ても、違いが分からないはずです。確信が持てません。見分けがつきません。しかし彼らは、このパイプライン全体の3つの領域でシミュレーターを使用しています。一歩戻って、パイプラインとは何かを言いましょう。パイプラインは実際にはデータがシステムをどう移動するかについてです。
この場合、私たちが話しているのは、基本的にデバイスデータから始まり、一連のステップを通って実行され、車に移動するニューラルネットワークモデルを出力することです。それが2つのピンエンドです。
その間に、シミュレーター、前処理、ストレージ、トレーニングがあります。
しかし、シミュレーターは3つの異なる領域で目的を持ちます。この特定の図は私が望むほど完全ではありません。シミュレーターは3つの異なる領域で使用されます。合成データを作成します。これは私がここで示している一種の入力です。現実世界で捕捉されたデータとともに、合成データを作成できます。しかし、訓練と強化学習の実行にも使用されます。すみません、強化学習です。これについては少し後で話せます。検証にも使用されます。
AIの訓練の一部は検証ですが、もっとシンプルな観点から考えたい場合、TeslaはFSDの特定のリリースをどうテストするかもしれません。私たちはよく、まあ、それは現実世界で多くの人々に配布して行われると考えます。最初はテストに焦点を当てた従業員、おそらく現在存在する安全監視者がいるロボタクシーネットワーク自体、そして最終的には構築数のユーザーのグループを選択します。しかし実際には、おそらくそのすべてが行われる前に、シミュレーターを通して実行されます。
実際に推論をリアルタイムで実行し、流動的な運転と明らかに安全な運転という観点で、結果が望ましい目標を満たしているかどうかの判断を行うものを通して実行されます。
で、どこまで話しましたか。
そうですね。少し脱線しているかもしれません。でも一つ質問があります。今が適切な時期ではないかもしれませんが、私にとって思い浮かぶことの一つは、このシミュレーションと現実の間で、Teslaはどれだけ近づけることができるのか、ということです。その2つの世界をどれだけ密接にできるか。フリートが運転しながら基本的にAIを訓練しているように、Teslaはそのループを十分に速く閉じることができますか。そのような状態にどれだけ近づけますか。
それは素晴らしい質問です。今日何が起こっているか明確にしましょう。ここで、このスライドで提示しているものは、すべて基本的にデータセンターで起こっています。明らかにデータはデバイスから引き込まれ、デバイス上のモデルをターゲットにしていますが、今日これらのデバイス上で、デバイスと言わずにFSDのためだけに車両と言いましょう。そのモデルが実行されるとき、私たちが推論と呼ぶものの推論は100%読み取り専用です。あなたの行動から何も学習していません。あなたの行動から何も学習していません。
ちょっと待って、それは本当ではないと思うかもしれません。FSDが私に好みの駐車スポットを選ばせたり、特定のゲート式入口を特定の方法でナビゲートしたりした場合はどうでしょう。私の考えでは、それはすべて入力の好みです。読み取り専用のニューラルネットワークシステムを通過する可能性のある一連の好みの入力コンテキストウィンドウの一部に過ぎません。
システムは動的に訓練したい、つまり学習したいのでしょうか。多くの人々が報告しています。「ああ、私はこの通りを50回走らせ、この方法でやりました。そして突然、FSDがその方法で動作するのを見つけました」と。私はそんなことは起こっていないと言います。そのようなことはまったく起こっていません。
起こっていると考えるのは素晴らしいことですが、起こっていません。ところで、それは望ましいことでさえありますか。なぜなら、Teslaが持てないもの、彼らが持てないもの、これについて確実にしましょう、彼らは企業の観点から非決定論的なシステムを持つことはできません。「ああ、Philのシステムはこの方法で動作しました。なぜならPhilが特定の方法で訓練したからです。Cernは彼のシステムをこの方法で訓練しました。では、基本的な真実はどこにあるのか。あなたが自分のシステムに対して行ったことと、私たちが何に対して責任を負うのか、どうやって知ることができますか」とは言えません。
最終的に、質問への答えは、実際にはいつものようにデータの選択についてであり、それを戻して中央集権的な方法でモデルを訓練することだと思います。Teslaが持つ機会は、2つ先のスライドで話しますが、スタックの上にあなたの好みをどのように適用して、それが非常に個人的に感じられるようにするか、あなたのもののように感じられるようにするかです。Optimusも同じです。ある程度で、私たちが効果的にパーソナリティと呼ぶものを開発します。
そのパーソナリティの性質を、Teslaから来るソフトウェアアップデートとは独立して保存しなければなりません。家にOptimusがいる状況にはなれません。私たちに馴染みがあります。私たちを理解しています。私たちが言うことを覚えています。私たちが開発したいパーソナリティを開発します。
パーソナリティと言うとき、完全な人間のパーソナリティ特性のようなものを考えてほしくありません。独立したようなものではありません。しかし違いはあるでしょう。なぜなら、あなたの家からのデータと、あなたがそれにやってほしいことを理解し、Teslaから来るモデルアップデートとは別にそのボックスを覚えていなければならないからです。
それについて考える方法は、おそらく今FSDで見ているものです。急ぎ、チル、スロス、そして今マッドマックスモードがあります。これらのモードはパーソナリティですか、それとも考え方が間違っていますか。
そうですね、それらは単なるモード入力だと思います。基本的に望ましい種類の好みを送っているだけだと思います。本当にただの望ましい好みです。ダイヤルのようなものです。入力の一部として何が入っているかを考えると。まあ、前のスライドでいくつかのことについて話しました。
カメラデータとIMU、GPS、そして潜在的に他のたくさんの信号があると言いました。まあ、そこに入る可能性のある他のものは、そのような好みです。車にこれをやってほしいというような。それらのいくつかは実際にはルーティングの好みです。AIから引き出すべきです。空港に行くときは280だけを使って101は使わないでくださいと言った場合。
それはFSDとは関係ありません。ナビシステムを通した単なるルーティングの好みです。そしてFSDはナビシステムの奴隷になります。実際、それも入力です。ナビシステム自体は、行くべき場所が実際にナビシステムによって指示されるという、ある種のより高い、FSDの人形使いのようなものです。
だから、あなたが見るようなそれらのモードは、本当にただ、ここでの許容範囲を締めるか、ここでの許容範囲を緩めるかを伝える一種の入力だと思います。例えば、効果的に言っているのは、ああ、これはコードではないので少し注意が必要ですが、コードのように説明する必要があるかもしれません。ブレーキをかけ始めるためにこれだけのオフセットが必要です。または隣接する車線にいる車のために車線に入る前にこれだけのオフセットが必要です。それらのオフセット数字を締めてパラメータとしてシステムに押し込むだけだと想像してください。
突然、どんどん締まってきます。そして、正直に感じます。彼らはこれらの離散的なモード、スロスからマッドマックスまでをモード化する必要さえありません。正直、単に上げられるダイヤルのようなものでいいと思います。
それぞれのレベルに関連付けられた複数のレベルのパラメータがあると思います。それらのいくつかは、停止距離オフセットについてかもしれません。いくつかは、交差点を通過するかどうかを決定する前に、信号が緑から黄色に変わるまでにどれだけの時間が必要だと認識するかについてかもしれません。人間として、自分の運転でどれだけ慎重か、またはそうでないかについて行う小さな小さな決定のすべてです。それらは多数のものです。だから、単一の入力だとは思いません。
パーソナリティを与えるために入る50か60の小さなことがおそらくあります。
FSDについて、あなたがパーソナリティと言えるような例を思いつきますか。おそらく、車線変更しようとしている他の車両を許可し、その車両に道を譲る方法でしょうか。
まあ、これらの運転モードが今日のパーソナリティの最良の例だと思います。将来もっと示すでしょうか。そうです。しかし、より多くの種類の率直な好みとして見られるかもしれません。隣接する車両がない、または駐車場の角のスポットにのみ駐車したいというような。さあ、その角のスポットを見つけるまで駐車場を走り回る時間を費やしてください。
あるいは、フェラーリか何かでそれをする人間がいるとすると、それは彼らがどうありたいかのパーソナリティ特性です。だから、好みからパーソナリティへの境界線が少し曖昧だと思いますが、間違いなく、人間が持つことができる潜在的な入力がもっとたくさんあります。究極的なモデル自体には影響を与えない好みの観点で、モデルはまだ読み取り専用です。
模倣学習と強化学習
あなたの投稿で、模倣学習と強化学習の間に線を引いているのが大好きです。模倣学習とは、FSDが人間をコピーすることで学ぶものだと私は言いたいです。
そして強化学習は、人間を改善することで学ぶものです。そうですね、それはそれについて考える興味深い方法だと思います。それについて少し拡大していただけますか。
そうですね。これらのニューラルネットワークについて考えるとき、ある生のレベルでは、最終的にパラメータと呼ばれるものを持つこれらの層があり、設定される数字です。問題は、それらをどう設定するか、どうやって設定するかです。少なくともここで話すべき2つの一般的な動作モードがあります。
模倣学習と強化学習です。模倣学習では、実際のデータサンプルを取っていて、ところで、おそらくシミュレーター自体によって構築されたものです。そして、最良の行動を模倣しようとしています。貧弱な行動を模倣しようとはしていません。最良のものを模倣しようとしています。
だから、ここでの前処理ステップで見ることができるプロセスがあります。自動ラベリングと呼んでいます。その背後にある目的は、ああ、データセットが入ってきて、そのシステム内での有用性に関してラベル付けされていると言うことです。最初の質問は、これは良いサンプルですか。有用なものを選択しましたか。まあ、サンプルが車が別の車両に衝突しているのを示しているだけで、それが誰かの貧弱な運転判断に基づいていた場合。
まあ、それは私たちがシステムを訓練しているものではありません。それを訓練することもできますし、一日中他の車両に衝突する車両を持つこともできます。しかし、人間より優れたシステムを構築しようとしていると言うとき、私たちは本当に平均的な人間について話しています。なぜなら、少なくとも模倣学習では、そのサンプルセットの最も右側を選択しているからです。
最良の人間ドライバーを選択しています。そして彼らがどうやっているかの詳細がありますが、ポイントはそれが彼らがやっていることです。それが模倣学習です。模倣学習の問題は、効果的に最良の人間より良くならないということです。最良の人間より良くならないのです。なぜなら、基本的に取っているからです。つまり、シミュレーターは好ましい車両軌道を示す特定のことをすることで多くの価値を追加すると言えますが、それが次のボックス、つまり強化学習です。
強化学習が行うことは、少し逆転させます。そしてそれは言います、「まあ、私たちがやろうとしていることを知っていますか」。車両が隠れた場所、車両のようなところから道路に飛び出す歩行者にぶつからないようにTeslaに試みさせる運転サンプルを持つ代わりにシナリオを想像してください。どうやってそれをしますか。まあ、模倣学習ベースで訓練できますが、対処するための生のサンプルを持っていないかもしれません。つまり、それは歩行者にぶつかることを含むかもしれないので、ひどいサンプルになるでしょう。
だから、言えることは、ちょっと待ってください。ここでの道路のルールは何ですか。意図しない駄洒落です。まあ、歩行者にぶつかりたくありません。後ろから追突されたくもありません。なぜなら、それはFSDのいわゆる乗客である運転者を危険にさらす可能性があるし、その後ろの車の運転者と乗客を危険にさらす可能性もあるからです。
また、信じられないほど奇妙な車線変更をさせたくもありません。なぜなら、多くの注意なしに別の車両を側面衝突する可能性があるからです。完璧な答えがないとき、何をするのが最善かをどう決定しますか。まあ、車対人間で人間の頭に正面からぶつかるのを避けることが、おそらく最も避けたいことです。
次にやりたいことは、おそらく二次的なことを軽減することです。回避しようとしているために起こる可能性のある追突事故を軽減することです。そして第三レベルのことは、まあ、隣接する車線の車にぶつかりたくはありませんが、ぶつかったとしても、ほぼ同じ速度で走っています。だから、必ずしも人的損害ではなく、物質的な車体損害について話しているだけです。
強化学習で行うことは、異なるシナリオに報酬またはペナルティと呼ばれるものを適用し、シミュレーターを再度使用して、私たちが軌道と呼ぶ何百または何千もの異なるものを実行するようにシステムを設定します。それぞれが実行され、適切な報酬またはペナルティを蓄積します。
システムは、報酬された行動を持つものがニューラルネットワークに保存され、最高度のペナルティを持つものがニューラルネットワークの訓練から除外されることを学習します。
だから、強化学習で行うことは、効果的に、人間を超える訓練サンプルがはるかに多い状況を作り出すことです。
本質的に再びループから人間を取り除き、合成されたかどうかにかかわらず、合理的なサンプルのセットがこれまでに生成できたものを超えて進んでいます。強化学習とこのOptimistのことに話を戻すクールなことは、まあ、クールな実現が何であるかに進むために、スライドを1つか2つジャンプする必要があると思います。
専門家混合アーキテクチャ
そうですね、これが主にそれです。クールなことは、FSD訓練やOptimist訓練から出てくる究極的なニューラルネットアーキテクチャとは何かということです。私の主張は、それらが本当に非常に非常に似ているということです。それらが似ている方法は、それらの2つの大きな半分を持っているということです。
最初の半分は、知覚エリアのニューラルネットワークと呼ばれるものを持っています。
それはシーン内のオブジェクトを知覚することについてです。静的オブジェクトと動的オブジェクトです。ある意味、FSDとOptimus Optimusの間に本当の違いはありません。言い換えれば、車両が交差点を見て、他の車両と停止標識を見て、これらのものをラベル付けします。まあ、オブジェクトがあります。停止標識としてラベル付けします。そして静的です。動きません。
停止標識は動きません。ここに信号機があります。この他の標識があります。ああ、人間がいます。わかりました、それは人間です。ある種の動きベクトルを持っています。連続するフレームで交差点を横切っているのを見ることができます。
だから、私はこの図から知覚側を除外し、計画側に焦点を当てました。そこが興味深いところです。なぜなら、何年も前には知覚は非常に興味深かったからです。コードで行うのが本当に難しかったからです。単なる2Dピクセルを見て、「まあ、その中に何があるか」と言うのは本当に難しいです。あなたの台所の写真を撮るOptimusであれ、交差点の写真を撮るFSDであれ、写真の中に何があるかを判断しようとするコードを書くことを想像してください。
今、ニューラルネットは驚くほどうまくそれができます。ニューラルネットワークができる古典的な驚くべきことの一つは、本当にこの動的で非常に正確な知覚を行うことです。FSDの、正直にOptimusの第二の部分は、計画ブロックと呼んでいるアクションコンポーネントです。
計画ブロックと呼んでいます。古典的な自動運転では常に知覚と計画として説明されてきたからです。計画について考えるとき、誰かが座って究極の計画を書くようなものとして考える必要があります。これは車内で毎秒30回起こっているものです。
次の出力である制御を計画しています。だから、核心にあるのは、基本的にカメラデータと私たちが議論した他のデータが入ってくるデータがあるということです。そしてこの反対側には、制御があります。だから、FSDの場合、それらの制御はアクセルペダル、ブレーキペダル、そしてステアリング角度です。それが本当に主要なものです。
方向指示器やホーンと言えますが、それらは補助的なものです。これらの計画ブロックで行っていることは、繰り返しますが、これらはすべてニューラルネットワークです。ここにはコードがありません。何をすべきか、どの制御値を決定しています。Optimusの場合、制御値ははるかに豊富です。
すべてのアクチュエーターのすべての動き、手、腕、頭の回転、腰の回転、脚、関節があります。人間のようなものです。それらがすべての種類の制御アクチュエーターです。ここで本当にクールで、彼らがこのアーキテクチャを統合したと思うのは、2つのことを取ったということです。強化学習を重く取り入れました。
言い換えれば、Tesla AI内部で起こっていると思うのは、彼らはOptimusとFSDの両方のために強化学習に重く依存しているということです。だから、これらのシナリオ、これらの複数の軌道報酬ペナルティシナリオを作成していて、そこから良い訓練を得ています。そして彼らがやっているのは、特定のことをする小さなエキスパートブロックを構築していることです。
壮大な計画では、AI専門家はこれを専門家混合アーキテクチャと呼ぶでしょう。これらのエキスパートブロックは制御の出力に一定の発言権を持っています。ここで車両の例を見ると、2つのエキスパートブロックを示しています。実際には4つを示していて、都市交差点エキスパートを示しています。それは別の車や人にぶつからずに交差点を通過する方法を知っているものです。
それから別のものがあります。それは濡れた天候エキスパート、雪や濡れた天候エキスパートです。非常に異なるものですよね。しかし、それぞれがあるものを持っていて、これらの専門家混合アーキテクチャで起こることは、データが入ってきて、ルーターと呼ばれるこの最初のコンポーネントを通過し、ルーターはどのエキスパートを選ぶか、どれをシャットオフして暗くするかを決定します。
私の例ではエキスパート3とエキスパート4がシャットダウンされているのが見えます。それらは何でしょうか。まあ、エキスパート3は高速道路運転エキスパートかもしれませんが、高速道路にいません。交差点にいます。そしてエキスパート4は太陽の眩しさエキスパートかもしれませんが、太陽や眩しさがありません。なぜなら雨嵐の真っ只中にいるからです。
だからそれらはルーターによってオフにされ、他のものがオンになります。オンになると言うとき、重み付けによってオンになります。
どれくらい重要かのように。だから気づいてください。交差点エキスパートには79%重要だと言っていて、濡れた天候エキスパートには21%の重要性があると言っています。それら2つをブレンドします。それは何でしょうか。まあ、最も重要なことは、車がどのように交差点をナビゲートすべきかを説明することです。
しかし、濡れた天候エキスパートが入ってきて、「そうですが、速すぎます」と言うかもしれません。トラクションを失う可能性があります。だから、引き下げる必要があります。そしてところで、それは黄色信号を通過すべきかどうかを知らせるかもしれません。公平に言うと、交差点エキスパートは行けと言い、20%の価値の天候エキスパートはそう速くないと言い、それは決定に至ります。それは保持します。
または天候エキスパートが、「まあ、十分な停止距離がありません。時間内にブレーキをかけられません」と言います。
まさにその通りです。ええ。進んでください。
しかし、それはそれに対してそれだけの重みしか持っていません。もっとあるかもしれません。私はここで例を作っているだけです。
Optimusで、その意思決定プロセス、ルーティング部分だと思います。その決定はどのくらいの頻度で決定されていますか。それは毎秒複数回のその決定ですか。
同じ推論率に沿っています。
わかりました。だから、これらの小さなエキスパートを選ぶことについて信じられないようなことをしている魔法のボックスです。さて、Optimusを見てみましょう。
Optimusには、この2つのエキスパートがあります。これらは作ったものです。小さなオブジェクトのピックアンドプレースエキスパートと、バランスエキスパートがあります。バランスは、シンクから食洗機に皿を移動するようなものかもしれません。小さなオブジェクト、片手、片手エキスパートのようなもののピックアンドプレースエキスパートに依存しています。
もう一つは、まあ、ボットはこれをしながら倒れることができないので、バランスエキスパートがそこにいて、動いている間安定を保つためにIMUデータをインポートしていることを確認しなければなりません。傾いたり倒れたりできません。論理を実行すると、これらのエキスパートが何をするかという範囲で小さく小さくなると、それらを別のものと呼びましょう。スキルと呼びましょう。
それが本当にクールになります。突然、この技術ベースの専門家混合アーキテクチャのアイデアを本当にスキルの混合アーキテクチャとその中のサブスキルに崩壊させました。
Optimusでは、もう少し細かいと想像できます。はるかに多くの離散的なスキルがありますが、ある意味で、私の議論は、それらはエキスパートのためのこれらのブロックの一部に過ぎないということです。わかりますか。
あなたが私たちに言っているのは、同じニューラルアーキテクチャが車、ヒューマノイド、そしておそらく他の何か、他のものも制御しているということです。Teslaはここで一つの知性を構築していますよね。
それはたまたま異なる形で生きているだけです。同じ脳が複数の体で動作しているようなものです。
その通りです。そして最終的にそこに向かっていますよね。一つの知性、FSDそのものではなく、ただの脳、100%。統合アーキテクチャの完全なエンドポイントは、効果的にFSDまたはOptimusで同じ脳またはダウンロード可能なモデルがまったく同じだということです。
FSDのすべての改善において、この時点でOptimusに直接役立っていますか。それともおそらくこの時点では統合されていないと言っていますか。
いいえ、統合されていません。ある意味では、これらのスキルのいくつかでは決して統合されないからです。Optimusでは交差点エキスパートは必要ないかもしれません。あるいは時々必要かもしれません。交差点を自転車で走るのと同じです。
わかりました。ただ言っているだけです。
しかし、極端に取ると、答えは同じです。今日彼らはどこにいますか。今日彼らがいる場所は、スライドのタイトルに注意してください、アーキテクチャです。必ずしも今ボックスの中に何があるかではありません。ボックスがどのように設定されているかについてです。だから、基本的に言っているのは、この図に従って運転で現れる方法を見ることができ、Optimusで現れる方法を見ることができる、これらのエキスパートブロックまたはスキルを構築する強化学習技術があるということです。
だから、ここにドローンのような第三のアイテムを簡単に追加できます。
まさに。同じアーキテクチャです。そうですね、本当に、おそらく最大の要点は、これらが主に視覚センサーシステムである現実世界のAIシステムだということです。入力です。ある程度ですよね。つまり、データの大きな部分は視覚データであり、それは人間にも当てはまります。私たちのデータのほとんどは目を通して入ってきています。そして聴覚、味覚などもあります。しかし最終的には、そうです、それが真実です。
物理世界のためのオペレーティングシステム
その通りです。車輪付きのOptimus、あなたが言っているのは、将来の製品カテゴリーですか。
そうですね。興味深いですよね。空飛ぶ車、空飛ぶロボット。つまり、この奇妙な現実は、Optimusは最終的に任意の車を運転できるようになるでしょうか。もちろんです。
もちろんです。その存在の終点に最終的に到達したとき、お父さんの古いシボレー・タホに乗り込んで走らせることができます。しかしそれまでは、Optimusを乗せるよりも、車がそれ自体を運転するロボットであることが理にかなっています。しかしあなたの言う通り、もしOptimusをトラクターやFSDが入っていない他の車に乗せれば、理論的にはそれを運転できるはずです。
そうです、もちろんです。もちろんです。そしてそれが、これらのものが融合するのを見るときです。
つまり、Optimusは、理解するためにすべての運転の側面を理解するためのすべてのサブスキルを持たなければならないということです。Teslaが徹底的に訓練したので持っているでしょう。それは他の誰かがという意味ではありません。つまり、私たちがAGIと呼ぶあるレベルで、物事が本質的に世界の生の物理を理解できるかもしれませんが、忘れないでください。人間としても、私たちは経験を通して学んでいます。1日目に交差点を見たこともなく交差点を通過することはありません。
私たちは、運転者になる前に繰り返し視覚的にさらされた後、交差点を通過します。そして、青年期として、それらのことをナビゲートする手助けをしてくれる大人を通してそれを学びます。確かに人間として、崖から飛び降りたら自分を傷つけることになるという一般的な知性を持っています。それはある種組み込まれています。しかし、ある程度経験するまで、これらのより複雑な人間が作った世界のすべてのダイナミクスを必ずしも理解しているわけではありません。
あなたは、これらのエキスパートをスキルと考えることができると言いました。Optimusについて具体的に話すと、Optimusが学べるようにしたい何千ものスキルがあると思います。
Teslaが完全にシミュレーションで、実物に触れることなく、人間のタスクを行うこと、習得することをOptimusに訓練できるかについて少し話してください。簡単なものを選びましょう。食洗機の積み込みと取り出しのようなものです。それは可能ですか。
はい、それは間違いなく可能だと思います。おそらく録画された何かから始まると思います。つまり、最終的には、訓練するためのデータが必要ないと想像できます。なぜなら、それは純粋な物理モデルだけだからです。純粋な物理モデルです。しかし、目的などを理解する必要があります。食洗機とは何か、なぜこれらのことをしているのかのように。人間のように、シンクに1枚の皿を見つけて、食洗機に入れないで1枚の皿を洗う決定をするかもしれません。なぜなら、食洗機は実際に動いていて、皿を片付けたいからです。そういう決定をします。
しかし、そうですね、ある種のこの知性の終点では、訓練データの観点では本当に多くを必要としません。
しかし、模倣側で他の人間がアクションをしているのを見るだけで、Optimusがそれらのアクションから学べると思います。だからOptimusの訓練データの一部が補強されると思います。Teslaでクールなことは、このフリートがあることです。この大規模なフリートがあります。だから運転のためのようなデータを収集してきました。Optimusにはこの種のデータホールがあります。以前話したように、そのデータはどこにあるのか。
おそらく、人間による現実世界のアクションの単なるビデオが、私たちが話した全体的な訓練パイプラインで使用できるとき、この大きなベータプログラムがあります。Optimusがそれらのスキルを学び、そのアーキテクチャのエキスパートブロックとしてそれらを構築できるようにするためです。
子供として人間がどう学ぶかを考えますよね。私たちは遊びに従事し、世界と相互作用して遊ぶことで物理モデルを構築し、基本的に物理について学びます。それは本質的に、Optimusでも同じことをする必要があるということです。そして関連する質問だと思いますが、これらの中国のボットメーカーを見るとき、ボットはダンスをしたり、スポーツをしたり、飛び跳ねたりといった愚かなことをしているように見えます。それは本当の仕事ではないようです。
しかし、その目的はおそらくボットに物理を教えることですか。
まあ、その特定の例では、もう少しボットが物理に従うことができることを実証していると思います。それは、さあ、このボットはバランスを維持でき、これらの複雑なスキルができる、というようなものです。私たちは必ずしもボットにダンスをさせることを求めないでしょう。それが私たちにとってエキサイティングだからです。あるいはそうかもしれません。あなたが望む奇妙な家庭環境のことです。先生、ボット、私の子供にダンスを教えて。
わかりました、素晴らしい。それは良い良い良いユースケースです。しかし、食洗機に食器を入れることはおそらくもっと関連性があり、そしてはるかに退屈です。
それらは本当にそれの実演だと思います。ここで起こっていることが、彼らが生の物理から学んでいるだけだとは必ずしも知りません。
彼らのいわゆる訓練プロセスやパイプラインがどのように見えるか分かりません。それらのものの多くは、公平に言うと、現実よりももう少しデモだと思います。Optimusで見ることになるものは、Teslaに対して少しプロに聞こえるかもしれませんが、Optimusは本当のプロジェクトで、これらの他のものの多くは、デモが得意で、次の調達ラウンド、次の資金調達ラウンドのためのデモである科学プロジェクトのようなものだと感じます。そして、そこに到達することに関わっていることですが、Teslaはただ掘り下げてそこに到達できます。リソースと頭脳力があって、ただ行ってこれを構築できます。
第一原理で、そして人々は「ああ、私はこの最新のOptimusビデオを見ました。3ステップ後退したように見えます」と言います。そうですね。それで何なんです。つまり、それは本当に関連性がありません。前世代のビデオでそれより5ステップ先のものを見たなら、彼らがそこに到達する方法を知っていることを確信できます。なぜなら、彼らは既にそこにいたからです。
だから、そうですね、それらのシステムの物理の理解について何を証明するかというあなたの質問への答えを本当には知りません。そのレベルでは答えが分かりません。
推論フレームワークと対話型AI
さて、プレゼンテーションの最後のスライドに来ました。本当にデバイス自体に出ていくことについて話しています。つまり、Optimusであれ、FSDであれ、推論フレームワークを扱っています。ここですべてのアクションが発生します。実際にデータを取り込み、モデルを通して実行し、制御を出力しています。だから、センサーデータが左側から入ってきて、制御を出力します。それが見えます。
FSDの場合、それらが何であるか分かっています。ステアリング角度、アクセル、ブレーキ、そしてスピーカーがリストに入る理由をすぐに説明します。Optimusの場合、腕、手、脚、足があります。
しかし、これが通常のスタックと異なるのは、私がインタラクティビティと推論AIと呼ぶ、非常に異なる重要な要素を追加していることです。今日、FSDについて考えると、何をしますか。センサー入力を受け取ります。車を運転します。あなたに質問をしません。
あなたの注意を監督する以外には、あなたと多くは対話しません。少なくとも監督付きFSDでは、注意を払っていないと文句を言います。だから、本当に起こっているのはアクションAIだけです。基本的に運転のためのものです。
しかしこの完全な現実は、最終的には車内に、確実にOptimusに統合されることになるでしょう。より良い定義がないのでGrockシステムのような全体的なものです。実際、それは確実にXAIから来る技術になり、人間とデバイスの対話性のために使用されます。つまり、それに話しかけて特定のことをするように頼むことができます。そしてもちろん、私たちへのインターフェースはスピーチになります。
そして真ん中には、完全な定義がないのでLLMのように考えられる推論コンポーネントがあります。それについて考えると、それは車でどのように現れますか。まあ、私たちはこれについて何度も話してきましたし、多くの人々がこれについて話してきました。私たちがロボタクシーや正直に自分のFSDへの主要なインターフェースになることです。その物に話しかけます。
空港まで何分ですか、と聞きます。ああ、37分だと答えます。まあ、どのルートを取っていますか。まあ、101を上がっています。では、280を取るのはどうですか。まあ、それは42分かかります。わかりました、280を取りたいです。いつも280を取りたいですか。はい、そうしたいです。
わかりました、それをあなたのために覚えておきます。そういう種類のシステムです。あなた人間と対話し、そしてこれをするでしょう。
そのシステムは、Phil、アクションAIによって取られたアクションを説明できるでしょうか。
できるでしょう。できるでしょう。決定がどのように行われるかをそのボックスから取り出すのは難しいのが公平なところです。だから、私にとってそれについて考える最良の方法は、上向きに走る矢印として考えることです。対話推論AIが、何らかのコンテキストまたは好みを通してアクションAIに異なることをするよう指示しています。
空港に行って別のルートを取るという私の例では、実際にはルーティングブロックに飛び出していて、その物がアクションAIに、どこに行くかを指示しています。しかし、アクションAIに「ここに駐車しないで。角のスポットに行って」と言うことを想像できます。
ああ、角のスポットに行きたいですか。そう、左側のものです。わかりました、あれですね。了解です。いつも角のスポットに駐車してほしいですか。そうです。あるいは、すべての駐車場の最上階に常に行ってくださいとか、何でも。
だから、私がデバイスと呼んでいるもの、この場合FSDと、リアルタイムで対話できます。そして潜在的に、その物にそれを、より良い定義のために一連の好みとして保存させることができます。あなたが望むものです。
さて、明らかに、それがOptimusが私たちと付き合う方法です。私たちはそれに話しかけます。それは私たちに応答し、私たちがそれにやってほしいことをやります。
だから、対話推論AIからアクションAIへの直接の矢印です。
さて、このものはすべて車両内またはOptimus自体で起こっていて、TeslaのAI4またはAI5チップで起こっています。私が下の小さなチップ図で示しています。しかし、私がここで主張しようとしているポイントは、これらのものの推論フレームワークについて考えるとき、少しズームアウトする必要があるということです。
これを見ると、信じられないほど統合されたアーキテクチャが見えます。非常に明確なのは、複数の異なるセンサーを取り、何らかの統一されたデータセットに層状にして、以前話したように、アクションAIと推論AIの両方に送るということです。
示している場合では、マイクデータが対話性推論AIに行くことを示しています。なぜそうするのか。私たちが何をやってほしいと頼んでいるかを聞かなければならないからです。だから、オーディオ信号を取り込みます。しかし、それはアクションAIが使わなければならないデータでもあることを推測するかもしれません。
例えば、緊急車両のサイレンで、それを避けるように、あるいは緊急車両が来ていることを認識してそれを意識するように伝えるために。
それは推論側とは何の関係もありません。私が話しているのは、センサーのセットがあって、一部のセンサーは1つの場所に直接押し込まれ、一部のセンサーは別の場所に押し込まれ、一部のセンサーは両方の場所に押し込まれるということです。
そして、この完全な例で見ることができるように、それらは両方の側のシステムへの入力かもしれません。そして、これら2つのシステムは対話しています。アクションAIと対話性AIは対話しています。今、私は一方向を示しているだけです。反対方向に行く例を持ってきました。そして出力は、私たちが以前話した制御です。
だから、私たちは知っています。FSDは今日、アクションAIの大部分の絵ですが、推論はそれほどではありません。人々は「ああ、Grockは私の車の中にいます」と言います。そうですが、それは本当にあなたの車を制御したり対話したりしていません。Grockは単なるアプリです。
実際、推論はローカルでさえありません。基本的にクラウドに行くだけです。だから、これはすべてローカルで、またはおそらくローカルで起こらなければなりません。なぜなら、これはすべて必然的にリアルタイムで起こるからです。
だから、これは、ある意味でシステム全体の出力です。そして、FSDとは何か、Optimusとは何かの間に多くの共通要素があることが分かります。そして、Teslaがほぼ同一のアーキテクチャを持つことが私には非常に明確です。
興味深いですね。ここで話しているのは、物理世界のためのオペレーティングシステムです。
そうです。最終的にはそうです。オペレーティングシステムです。なぜなら、見えるからです。つまり、実際にここでこれら2つの灰色のブロックのブレンドを見ることができます。アクションと対話性のものは1つにブレンドできます。
しかし、論理的に、Teslaで起こっていることのために、彼らはこのビジョンベースの、動作型のAIを作成していると思います。それがFSDです。それがOptimusが動くときです。そしてXAIは、もちろん、コンポーネントに取り組んでいます。スピーチからテキストへのAIがあります。推論を行うAI、それをLLMと呼びます。そしてテキストからスピーチへがあります。それは推論物の出力です。
Optimusは私たちに話し戻したいです。どうやってそれをするのでしょう。まあ、テキストからスピーチへのAIを通過します。そしてもちろん、電話でGrockを使って話しかけたことがあれば、それが基本的に私たちが話していることです。
エッジ推論とネットワークインテリジェンス
Phil、私たちが進化したと思いますか。スペクトルデータを感知または使用するように、つまり可視光だけでなく、物の化学組成、それがシステムへのデータ入力になる場所に。
ええと、分かりません。
つまり、どんなタイプでも本当に、つまり、ある程度で単なるセンサーデータだと思います。つまり、それはただ、それらのデータフォーマットが何であるか、そしてそれらがシステムの訓練をどのように知らせるかの問題です。だから、カメラへの入力データについてFSDに関する私の文書の1つで多く話していて、人々に言っているのは、私たちが見ている種類の画像ではないということです。
それは非常に異なるタイプのものです。だからElonがいつも光子から制御へと言うのは、彼が実際にカメラがこれらの異なるフィルターを通して光子飽和を記録していることについて話しているからです。生の最も生のレベルです。それがシステムへの入力です。
それは私たちが見るような画像ではありません。デバイス上の画像プロセッサー共鳴を通過していません。あなたと私が見る美しい画像を作成するために。それは一種の生データです。その観点で、異なるスペクトルにある可能性があります。赤外線か、あるいは様々なタイプの、異なるタイプの知覚センサー、センサー知覚のものである可能性があります。
そしてPhil、これに関する他の質問は、これは地上で、ある種目の高さで収集されているデータです。
もう一層、世界の鳥瞰図をこれの上に追加することがどれだけ重要だと思いますか。ドローンや衛星で可能だとしたら。それは私が思うに、モデルにとって有益なことのようです。周りのすべてのものをより広範囲に見ることができます。見えるものだけでなく、この場合、角を効果的に見ることができます。
そうですね、それは非常に良い例です。角を見回すというものがあります。つまり、今私たちはこれらを、代理を持つこれらのオブジェクトとして、センサーを持つものとして考えています。つまり、もっとシンプルな例を作りましょう。
私の心には疑いがありません。未来の、そして近い未来のロボタクシーネットワークは、すべての車両からの集約データを含むでしょう。
だから、角を見回すことは、角を見回すというよりも、前の車両からのセンサーを使うことです。そしてそれは極端な密度でセンサーデータを使っていないかもしれませんが、それの結果を使っているかもしれません。
だから、都市のデータに関する私の文書で、私は多くのことについて話しています。起こることを期待しているのは、車両が代理として様々な情報を収集し、推論で何をやりたいかについての命令を与えられるということです。そしてそれらの命令のいくつかは、明らかに車両を安全かつ正しく運転することでしょうが、他の命令は、建物の落書きを探す、この特定のタグスタイルを探す、この種類の犬を探す、なぜなら市内で行方不明の犬がいるからかもしれません。
車両6744のローカル推論がその犬を見ると、それを結果としてクラウドに送信します。
それからそれが車両に分散されて戻って来て、「わかりました、今このオブジェクトを見ることができます。今、それを市内で追跡する必要があります」となります。または、人や車のある地域の瞬間的な密度を見ます。それは妨げたり、ロボタクシーがより、最高密度の個人のスポットにいる機会を作り出します。野球の試合から出る人々のように。
だから私がそれを見る方法は、確かにできるということです。人間とは異なり、つまり人間として異なる方法でこれをやりますが、私はこのOptimus
ネットワークと呼ばれるものについて記事を書きました。それに強く依存していて、私が話しているのは、Optimusは私たちが単一のオブジェクトとして見るものではないということです。
それは物のネットワークです。ネットワーク効果がそれにはるかに大きな力と知性を与えます。それに関してはあらゆる種類の問題があります。私の家やあなたの家で見ることができず、その種類の結果データをシステム全体に送信できないということについて。多くのプライバシーと情報制限がなければなりません。しかし確実に、都市のフリートシステムとしてのロボタクシーは情報を蓄積できます。
それが可能なのは、ところでCernが、あなたが生のデータをすべて取ってクラウドに送ることはできないということについて話しているだけです。それはあまりにも密度が高いです。あまりにも、極端な、ローカル処理が必要です。エッジ推論が必要です。何年も前には単にローカル処理と言っていました。必要で、やっていることは基本的に、ローカル処理または推論を行うことで、単にデータを圧縮しているだけです。生のセンサーデータを取り、そこから意味を構築しています。時々意味は、システムが私たちに探すように指示したものです。
だから、あなたの指摘に対しては、確実にクラウドシステムに戻って対話する上空のドローンセンサーデータを使用できます。「わかりました、現時点でロボタクシーがない都市で緊急問題が見えます」と言うために、地上密度に関係なく。それはある時点で多くの多くの意味をなします。
最終的にそれが意味することは、それは単なるアーキテクチャです。システムのアーキテクチャです。そして絶対に発生しなければならないエッジ推論に強く依存しています。Teslaはここで非常に美しい美しい美しい場所を持っています。つまり、ElonがAI5がまだ出ていない間にAI6について話しているのは誤りではありません。
人々は「まあ、AI4で車が自分で運転するなら、なぜAI5が必要なのか」と言うかもしれません。まあ、まず第一に、車はAI4でこのボックスのすべてのものができません。他のすべての対話性のものができません。おそらくそれをするための帯域幅の余裕がありません。しかし、ボックス自体を超えた推論の他のユースケースについて考え始めます。
データ記事で指摘していて、言い始めます。「ちょっと待ってください。ロボタクシーは運転の目的のために運転環境を知覚しているだけではありません。都市景観を知覚しています。知覚すべきすべてです。そして、今日市内に何人の訪問者がいて、どこから来たのか、最後にそこにいたときからピンを持っているから、あるいは今日市内に何人の新しい訪問者がいるか、この見本市に行くのは何人対あの見本市に行くのは何人か、見本市に尋ねることなく、という狂気のような質問に答えることができます。
そうです。そういったタイプのものです。魅惑的ですね。
ほとんどTeslaの車両とロボットが、成長する惑星の知性のようなもので、ある種の感覚器官になるかのようです。この1つの集合的知性です。
その通りです。終点です。つまり、それについて考えるのは魅力的ですが、ある意味では非常に遠いですが、他の意味では全く遠くありません。なぜなら、私たちがそれが最初にシステムに漏れるのを見る方法は、ロボタクシーを通した集合的知性を通してだからです。それが最初のインスタンスになることを保証します。Teslaとチームがシステムのいくつかの他のデータを使用して、ロボタクシーが最も効率的なライドシェアサービスの運営者になるのを助けています。
それは一種のテーブルステークスのようなものです。つまり、Uberが今日それのいくつかをやっていることは確実です。明らかにサージ価格設定は、そのようなことだけに基づいています。
データセンターで起こっているこのデータの集約です。しかしTeslaが持っているのは、エッジデバイスが考えるデバイスだということです。そしてこの推論フレームワークは、車両を制御するだけをはるかに超えた推論を行うことができます。Optimusを制御するだけをはるかに超えて。
ネットワークデバイスとして使用する一部である可能性があります。一般的なセンサーデータを持ち込み、フリート全体に一般的な知性を分配するために。
そして、それは100%フリート全体に分配される可能性があります。あるいは、環境内の何かが重要な場合、Optimusボットまたはロボタクシーのローカルサブフリートに分配される可能性があります。わかりますか。
結論
さて、Phil、このトピックについて何時間でも話せると思います。Herbertがあなたと3時間のビデオをやったことで私に怒る前に、そこで締めくくるべきだと思います。
そうですね。その通りです。
もし人々がPhilからもっと読みたければ、彼はXにいます。Philが書いた非常に多くの素晴らしい記事があり、描画板にはもう少しあることを知っています。
そうです、いくつか良いものが来ます。
Phil、今日私たちとチャットしてくれて本当にありがとうございます。次の議論を楽しみにしていますが、Cernbertチャンネルになるかどうかは分かりませんね。
そうですね、Herbertは自分が作り出したモンスターを後悔するかもしれません。
その通りです。来週、彼はモンスターのプラグを抜くつもりだと思います。
その通りです。さて、良い週末をお過ごしください。これを見ている皆さん、素晴らしい週末を。ありがとう、Phil。気をつけて。
分かりました。私はTesla投資家にとって最も包括的なリソースであるウェブサイトを作成しました。ぜひご覧ください。
私のウェブサイト、herbm.comに行くだけです。


コメント