完全自律ロボットはあなたが思うよりもずっと近い – Sergey Levine

本動画は、Physical Intelligenceの共同創業者であり、UC Berkeleyの教授でもあるSergey Levineとのインタビューである。Levineは、あらゆるロボットを制御できる汎用的なロボティクスファウンデーションモデルの開発について語っている。彼は現在のロボット技術が洗濯物を畳んだり厨房を片付けたりといった巧緻な作業を実行できるものの、これらは基本的な構成要素に過ぎないと説明する。真のロボット革命には、継続学習、常識的推論、安全性の理解、そして人間との協調能力が必要だと述べている。Levineは5年以内に実用的なロボットシステムが展開され、10年以内に多くの肉体労働が自動化される可能性があると予測している。

Fully autonomous robots are much closer than you think – Sergey Levine

Sergey Levine is one of the world’s top robotics researchers and co-founder of Physical Intelligence. He thinks we’re on...

Physical Intelligenceの現状と将来展望
年次ビジョンと技術的課題
展開タイムラインと実用化の見通し
LLMとの比較とフライホイール効果
ロボティクスの優位性と学習メカニズム
実用化への道筋と課題
ブルーカラー労働への影響
学習とフィードバックのメカニズム
AI建設現場での実用性
現在のLLM能力とロボティクスの比較
自動運転車との比較と技術的優位性
トランスフォーマーベースロボティクスの発展
データスケーリングの課題と戦略
データ量とインターネット規模との比較
π0モデルのアーキテクチャ
オープンソースモデルの活用
ビデオモデルの限界と表現の課題
ロボティクスにおける課題と機会
創発的能力と汎化の可能性
推論速度とコンテキストのトリレンマ
人間の脳との効率性比較
5年後のハードウェア要件
分散型推論とクラウド依存
強化学習への移行
統合型AIシステムの可能性
シミュレーションの限界と学習
未来のシミュレーション能力
人間の夢とシミュレーション
AGIとロボット経済の展開
ロボット製造の経済学とスケール
ロボティクスのNvidia
ハードウェアのボトルネック
中国の製造業における優位性
社会への影響と教育の重要性

Physical Intelligenceの現状と将来展望

今日は、Physical Intelligenceの共同創業者であり、UC Berkeleyの教授でもあるSergey Levineさんとお話しします。Physical Intelligenceはロボティクスファウンデーションモデルの会社で、Sergeyさんはロボット工学、強化学習、そしてAI分野における世界有数の研究者の一人です。Sergey、ポッドキャストにお越しいただき、ありがとうございます。

ありがとうございます。そして親切な紹介をありがとうございます。ロボット工学について話しましょう。

質問を次々と投げかける前に、まずPhysical Intelligenceが現在どの段階にあるのか、聴取者の皆さんに概要を説明していただけますか。あなた方は1年前に始動されました。進捗状況はどのような感じでしょうか。何に取り組んでいらっしゃるのですか。

Physical Intelligenceは、ロボティクスファウンデーションモデルの構築を目指しています。これは基本的に、原理的にはあらゆるロボットを制御してあらゆるタスクを実行できる汎用モデルを意味します。

私たちがこれに注力するのは、これをAI問題の非常に根本的な側面として捉えているからです。ロボットは本質的にすべてのAI技術を包含しています。真に汎用的なロボットを実現できれば、人間ができることの大部分を、うまくいけば実行できるようになるでしょう。

現在私たちがいる段階では、基本的な部分の多くを構築し終えたところです。実際、これらの基本部分はかなり素晴らしいものです。非常によく機能します。洗濯物を畳み、新しい家に入って厨房を片付けようとするロボットを実現できます。

しかし私の考えでは、Physical Intelligenceで現在行っていることは、まさに非常に、非常に初期の始まりに過ぎません。基本的な構成要素を配置しているだけで、その上でこれらの本当に困難な問題に取り組むことができるのです。

年次ビジョンと技術的課題

年次ビジョンはどのようなものですか。1年経って、私はロボットの一部を見る機会を得ましたが、グリッパーを使って箱を折るような非常に器用なタスクができます。手で箱を折るのさえかなり難しいのに。

完全なロボティクス爆発に到達するまで、年ごとに進歩していくとしたら、毎年何が起こっているのでしょうか。何が解放される必要があるものなのでしょうか。

私たちが正しく理解する必要があることがいくつかあります。器用さは明らかにその一つです。最初に、私たちが開発している手法が、人間ができるような複雑なタスクに取り組む能力を持っているかどうかを確実に理解したいと思います。

あなたが言及したように、箱を折ること、さまざまな洗濯物を畳むこと、テーブルを片付けること、コーヒーを入れることなど。それは良好で、機能します。私たちが示すことができた結果はかなり素晴らしいものですが、この最終目標は素敵なTシャツを畳むことではありません。

最終目標は、基本が確実であることを確認するという私たちの最初の仮説を確認することです。そこから、多くの本当に大きな課題があります。

結果が3分間のビデオのレベルまで抽象化されることがありますが、誰かがこのビデオを見て「ああ、それは素晴らしい。それが彼らがやっていることだ」と思うかもしれません。しかし、そうではありません。これから来ると私が考えていることの非常にシンプルで基本的なバージョンです。

ロボットから本当に欲しいのは、「ヘイ、私のTシャツを畳んでください」と言うことではありません。ロボットから欲しいのは、「ヘイ、ロボット、あなたは今私のためにあらゆる家事をやってくれています。私は午後6時に夕食を作ってもらいたい。午前7時に起きて仕事に行きます。土曜日に洗濯をするのが好きなので、それが準備されているように確認してください。これとこれとこれ。ところで、毎週月曜日に私にチェックインして、買い物に行くときに何を拾ってほしいかを確認してください」と言うことです。

それがプロンプトです。そして、ロボットは行って、これを6か月、1年間行うべきです。それがタスクの期間です。

最終的に、このようなものが成功すれば、それははるかに大きなものになるはずです。継続的に学習する能力を持つべきです。物理世界の理解、常識、必要に応じてより多くの情報を取り込む能力を持つべきです。

たとえば、私が「ヘイ、今夜、この種類のサラダを作ってくれませんか」と頼んだとします。それが何を必要とするかを理解し、調べて、材料を買いに行くべきです。これには多くのことが関わっています。

それには常識が必要です。インテリジェントに処理する必要がある特定のエッジケースがあること、より深く考える必要があるケースがあることの理解が必要です。継続的に改善する能力が必要です。安全性の理解、適切な時に信頼できること、間違いを犯したときにその間違いを修正できることが必要です。

これにはもっと多くのことが関わっています。しかし、そこでの原則は、事前知識を活用する必要があること、そして適切な表現を持つ必要があることです。

展開タイムラインと実用化の見通し

この壮大なビジョンは何年ですか。推定を提供していただけるなら、25パーセンタイル、50、75は。

これは、研究室ですべてを開発してから完了し、それから2030年代のどこかで箱に入ったロボットを手に入れるという場合ではないと思います。

繰り返しますが、それはAIアシスタントで見てきたものと同じになるでしょう。ロボットが何か有用なものを提供する基本的な能力レベルに達すると、それは世界に出ていくでしょう。

素晴らしいことは、一度それが世界に出ると、経験を収集し、その経験を活用してより良くなることができることです。

タイムラインについて私が考える傾向があるのは、それがいつ完了するかという日付ではなく、基本的にフライホイールがいつ始まるかという日付です。

フライホイールはいつ始まりますか。それは非常に早い可能性があります。いくつかの決定が下される必要があります。

そこでのトレードオフは、物事の範囲をより狭く設定すればするほど、より早く実世界に出すことができるということです。しかし、これは私たちがすでに探求していることです。私たちはすでに、フライホイールを回し始めることができるこの物の実際の機能は何かを理解しようとしています。

しかし、あなたが実際に気にかけるもの、見たいと思うものに関しては、分からませんが、一桁年数は非常に現実的です。

本当に1、2年でそこに何かが実際に出ることを望んでいますが、断言するのは難しいです。

「そこに何かがある」というのは何を意味しますか。そこにあるものは何ですか。

それは、あなたが実際に気にかけている、やってもらいたいことをするロボットがあることを意味します。それをやってもらいたい実際の人々のために、それを実際に行うのに十分に有能に行うということです。

LLMとの比較とフライホイール効果

私たちにはすでに広く展開されているLLMがあります。それは何らかのフライホイールをもたらしていません、少なくとも今やClaudeが経済のあらゆる仕事をするのを学んでいる、またはGPTが経済のあらゆる仕事をするのを学んでいるというモデル会社にとっての明白なフライホイールはありません。

では、なぜそのフライホイールはLLMに対して機能しないのでしょうか。

実際には、それは機能することに非常に近いと思いますし、多くの組織がまさにこれに取り組んでいることを100パーセント確信しています。

実際には、議論の余地がありますが、すでにフライホイールがあります。自動化されたフライホイールではありませんが、人間がループに入ったフライホイールです。

LLMを展開している誰もが、もちろんそれが何をしているかを見て、それを使ってその後の行動を修正するでしょう。

これは複雑で、表現を理解し、監督信号を導出する適切な方法を見つけ出し、それらの監督信号をシステムの行動に根ざして、あなたが望むものについて改善するという問題に戻ってきます。

私はそれが根本的に不可能な問題だとは思いません。それは詳細がかなり厄介になり、アルゴリズムと安定性の課題がかなり複雑になるものです。コミュニティが集合的にそれを手に入れるのに時間がかかったものです。

ロボティクスの優位性と学習メカニズム

ロボティクスの方が簡単だと思いますか。それとも、世界で収集するデータにラベルを付け、それを報酬として使用するこの種の技術で、全体の波が上昇し、ロボティクスも上昇すると思いますか。

それとも、ロボティクスがこれからより多くの恩恵を受ける理由がありますか。

ロボティクスがそれほど違う根本的な理由があるとは思いません。物事をもう少し管理しやすくするいくつかの小さな違いがあります。

特に、人々と協力して何かをしているロボットがあれば、それを監督している人でも指示している人でも、監督の非常に自然な源があります。人が物事を成功させる手助けを提供する大きなインセンティブがあります。

間違いを犯し、それらの間違いから回復し、その後何が起こったかを振り返り、将来その間違いを避けることができる多くのダイナミクスがあります。

実世界で物理的なことをしているとき、そのようなことはAIアシスタントが質問に答えている場合よりもはるかに頻繁に起こります。質問に答えて、ただ間違って答えただけなら、数点を調整して戻ることはできません。

答えを伝えた人は、それが間違っていることを知らないかもしれません。一方、Tシャツを畳んでいて少し間違えた場合、それはかなり明白です。それを振り返り、何が起こったかを理解し、次回はより良く行うことができます。

実用化への道筋と課題

1年後には、いくつかの有用なことをしているロボットがいるとしましょう。比較的シンプルなループプロセスがあれば、何千もの箱を折り続けるなど、それをやってくれるかもしれません。しかし、その後何らかのフライホイールがあり、私の家を人間のハウスキーパーと同じように運営してくれる機械があります。

このフライホイールを開始する1年で展開されるものと、完全に自律的なハウスキーパーのようなものとの間のギャップは何ですか。

それは実際には、ある意味でLLMで見てきたものとそれほど違いはありません。それは範囲の問題です。コーディングアシスタントについて考えてみてください。最初、コーディングの最高のツールは、少しの補完ができました。

関数のシグネチャを与えると、関数全体を入力しようと最善を尽くし、おそらく半分正しく理解するでしょう。

そのようなものが進歩すると、これらのものにより多くの主体性を与えることを喜んでするようになります。

現在の最高のコーディングアシスタンスは、比較的定型的なことをしているなら、おそらくかなりアクセスしやすいもののためのPRの大部分をあなたのために組み立てることができるかもしれません。

同じことになるでしょう。ロボットがより良く、より良くなるにつれて、私たちが喜んでロボットに与える範囲の増加を見るでしょう。

最初、範囲は特定のことかもしれません。コーヒーを作ることなど。それらがより有能になるにつれて、常識とより広いタスクのレパートリーを持つ能力が増加するにつれて、それらにより大きな範囲を与えるでしょう。

今あなたはコーヒーショップ全体を運営しています。

スペクトラムがあることは理解しています。私たちがそれを達成したと感じる特定の瞬間はないことは理解していますが、それがいつ起こるかについてのあなたの中央値推定の年を教えていただけますか。

そこでも私の感覚は、これはおそらく二桁ではなく一桁のものだということです。

それを実際に特定するのが難しい理由は、すべての研究と同様に、いくつかの疑問符を理解することに依存するからです。

それらの疑問符の性質に関する私の答えは、これらが根本的に、深く異なるアイデアを必要とするものだとは思わないが、私たちがすでに知っている種類のものの適切な統合を必要とするということです。

統合は、明確にするために、根本的に新しいものを思いつくのと同じくらい困難なことがあります。それは知的に非常に深く、深遠な問題です。それを理解することは非常にエキサイティングになるでしょう。

しかし、私たちは大体パズルのピースを知っていて、それは私たちが取り組む必要があることだと思います。それに取り組み、少し運が良く、すべてが計画通りに進めば、一桁は合理的です。

ブルーカラー労働への影響

バイナリサーチをして年を得るまでやります。10年未満なので、5年以上ですか、あなたの中央値推定は。範囲があることは知っています。

5年が良い中央値だと思います。

5年ですね。家を完全に自律的に運営できるなら、ほとんどのブルーカラー労働も完全に自律的に行うことができます。

あなたの推定では、5年後には経済のほとんどのブルーカラー労働を行うことができるようになるということですか。

ここには微妙な点があります。コーディングアシスタントの類推を考えるとより明白になります。今日のコーディングアシスタントの性質は、スイッチが切り替わって、ソフトウェアを書く代わりに、突然すべてのソフトウェアエンジニアが解雇されて、みんながすべてにLLMを使うということではありません。

実際には、専門家であるソフトウェアエンジニアから最大の生産性向上が得られることは非常に理にかなっています。彼らの生産性は現在、これらの本当に強力なツールによって強化されています。

人々が解雇されるかどうかという質問とは別に、別の質問は、5年後の経済的影響は何かということです。

私がこれに興味を持つ理由は、LLMでは、これらのモデルの収益とその表面的な能力との関係がある種神秘的だったからです。AGIのように感じるものがあります。

本当にチューリングテストに合格する会話ができます。本当にすべてのこの知識労働ができるように感じます。明らかに多くのコーディングなどを行っています。

しかし、これらのAI会社からの収益は累積で年間200〜300億ドルの規模で、それはすべての知識労働である30〜40兆ドルよりもはるかに少ないです。

5年後、私たちはLLMが現在いるのと同様の状況にいるのでしょうか、それとも実際に多くの実際の仕事などを行っているロボットがあちこちに展開されているようなものでしょうか。

それは非常に微妙な質問です。おそらくこの範囲の問題に帰着するでしょう。

LLMがすべてのソフトウェアエンジニアリングを行っていない理由は、特定の範囲内では優れているが、それには限界があるからです。

その限界は、明確にするために、毎年増加しています。ロボットでも同じ種類のことを見ない理由はないと思います。

範囲は小さく始めなければならないでしょう。これらのシステムが非常によくできる特定のことと、より多くの人間の監督が本当に重要な他の特定のことがあるからです。範囲は成長するでしょう。それが変換されるのは生産性の向上です。

その生産性の一部は、ロボット自体が価値があることから来るでしょう。その一部は、ロボットを使う人々が今、彼らの仕事でより生産的になることから来るでしょう。

しかし、生産性を向上させるものはたくさんあります。手袋を着用することで生産性が向上します。分かりません。100倍生産性を向上させるものと、小さな増加があるものを理解したいのです。

ロボットはすでに労働者の生産性を向上させています。LLMが現在知識労働に関してどこにいるかというと、経済で起こる知識労働の1/1000程度、少なくとも収益の観点からだと思います。

あなたが言っているのは、その割合が物理的労働に関してロボットにとって可能になるが、5年後にということですか。

それは答えるのが非常に難しい質問です。

すべての肉体労働の何パーセントがロボットによって行われ得るかを教えるために準備はおそらくできていません。今すぐにはすべての肉体労働のそれほど大きな断面に含まれるものの十分な理解を持っていないと思うからです。

私が言えることはこれです。人間がループに入った設定で効果的なシステムを徐々に展開することがはるかに簡単です。

繰り返しますが、これはコーディングシステムで見てきたのとまったく同じです。ロボットプラス人間が人間だけやロボットだけよりもはるかに優れている自動化で同じことを見ると思います。それは完全に理にかなっています。また、すべての技術をブートストラップすることがはるかに簡単になります。

現在ロボットプラス人間であるとき、ロボットが実際に仕事で学習し、新しいスキルを習得する可能性がはるかに高いです。

学習とフィードバックのメカニズム

人間がラベル付けできるからですか。

また、人間が助けることができ、人間がヒントを与えることができるからでもあります。この話をさせてください。

私たちが昨年4月にリリースしたπ0.5プロジェクトの論文に取り組んでいたとき、最初はさまざまな設定でテレオペレーションでロボットを制御していました。

ある時点で、モデルが十分に良くなったら、低レベルのアクションだけでなく、実際に文字通り言語を通してそれを指示することによって、重要な進歩を実際に作ることができることに気づきました。

それをするために特定レベルの能力が必要ですが、その能力レベルを持ったら、そこに立って、ロボットに「オーケー、今カップを拾って、カップをシンクに入れて、皿をシンクに入れて」と言葉だけで言うことは、すでに実際にロボットがより良くなるために使用できる情報をロボットに与えます。

今、これが人間プラスロボットのダイナミクスにとって何を意味するかを想像してみてください。基本的に、これらのシステムの学習は生のアクションから学習するだけでなく、言葉からも学習することです。

最終的には、他の誰かと一緒に仕事をしているときに受ける自然なフィードバックの種類から、人々が何をするかを観察することから学習するでしょう。

これは、これらの大きなモデルから来る事前知識が非常に価値がある種類のものでもあります。それがその相互作用のダイナミクスを理解させるからです。

これらの種類の人間プラスロボットの展開がモデルをより良くする多くの可能性があります。

AI建設現場での実用性

この質問への忍耐に感謝しますが、AIブーム宇宙で何が起こっているかを具体的に理解したいのです。

2028年を見ると、私たちはこれらの巨大なデータセンターを建設しています。とりわけ労働力に非常に制約があります。多ギガワットのデータセンターが建設されているサイトで何が起こっているかを見ると、すべてが組み立てられています。

私は2028年に、動き回ってものを拾い上げ、ソーラーパネルやトランスフォーマーやスイッチギアなどを敷設しているロボットの束を見るだけですか。それとも人間を見ますか。

少なくともいくつかのロボットを見ることを望みます。私の感覚では、すべてを正しくやれば、本当にそうなるべきです。

それらの機械が得る責任の範囲に応じて上下に動くスライダーがある場所です。彼らが非常に特定のタスクを発行され、それを行って次の割り当てのために戻ってくる範囲ですか。

それとも、彼らが引き受ける責任の領域を発行される範囲ですか。

スペクトラムの多くの異なるポイントで非常に、非常に有用な解決策があります。2028年までにそのスペクトラムのどこに着地するかは、すべての複雑なエッジケースを処理し、それらを正しく処理する私たちの能力に依存するでしょう。

建設は、一部の場所では非常に繊細で、本当に正しいことをしなければならない場所であり、他の場所ではより寛容な場所です。それが基本的にその範囲のバッファです。

繰り返しますが、コーディングアシスタントLLMは本当に良い類推です。ここで技術が展開されて、その範囲が時間とともに増加するのを見る素晴らしい例があるからです。

その類推をロボティクスにマッピングすることで、おそらくそれがどのように進むかについてかなり良い感覚を与えてくれます。

現在のLLM能力とロボティクスの比較

現在、LLMがいる場所、具体的にコーディング用のLLMでは、シンプルなアプリケーションをエンドツーエンドで作ることができますが、あなたが予想することを正確に行わないかもしれません。

非常に複雑なリポジトリなどに入ると、その有用性を測るのが難しく、おそらくマイナスになるかもしれません。

METRのアップリフトに関する論文を見たかどうかは分かりません。コーディングのこのレベルですが、タービンの作り方を理解するエンジニアではない物理世界のタスクで、より多くのことを行うこと。

物理学的タスクのGPT-5相当は何年ですか。

GPT-5相当というのは、私が思うに…GPT-5相当は、後で正しく行われたかチェックすれば、いくつかの基本的なことを喜んで委任することを意味すると言うでしょう。

2028年から2030年は、そのための非常に合理的なタイムラインです。

これのパラメータをよりよく説明するために、範囲はいくつかのことを意味します。範囲は、機械にどれだけの責任を委任することを喜んでするかを意味します。

しかし、もう一方の部分は、AIデザイナーがそのアプリケーションを正しく動作させるためにどれだけの作業を費やすかです。

時間とともに変化するもののひとつは、新しいアプリケーションを立ち上げることがより簡単に、より簡単になることです。

2025年に現在いる場所は、やや専門的なデータ収集でかなりの努力を費やし、少しの専門的なエンジニアリングを行えば、おそらく本番準備はできていないが、実行できて、物事を行い、うまくいけばそれが1年程度のタイムラインで本番準備レベルに到達するアプリケーションを立ち上げることができます。

しかし、時間とともに減少するのは、それがものを行っている間にどれだけ人が注意を払わなければならないかだけでなく、私たちデザイナーがそれを機能させるためにどれだけ努力を投入しなければならないかでもあります。

ロボットが行う作業とコーディング用のLLMの間には1つの違いがあります。コーディングでは、コードを作成してから、それを何度もコピーアンドペーストするだけです。

一方、作業では、それを再び行うことに価値があります。1つのソーラーパネルを作った場合、それを再び行って2つ目のソーラーパネルを得ます。

一方、コードを書く場合、同じコードを2回目に書いてもそれは本当に有用ではありません。

これらのダイナミクスは、限られた範囲であってもシステムを持つことをより有利にもします。同じことを数回繰り返すだけで、価値を得始めます。

私がこれを非常に気にかける理由は、明らかに自動化は良い、生産性は良いからです。しかし、私がこれを気にかけるのは、これらのものがより多く出回るほど、自己持続的なデータフライホイールを得ることに近づくからでもあります。

私にとって、ロボットを外に出して働かせる方法としてだけでなく、自分自身の経験を通してロボットをより良く、より良くし始める方法としても本当に重要です。

自動運転車との比較と技術的優位性

ロボティクスの進歩に関して、なぜ自動運転車のようにはならないのでしょうか。Googleが自動運転車イニシアチブを開始してから10年以上経っていませんか。2009年だったと思います。

私が10代の頃、Taco Bellを買いに行って戻ってくるデモを見たことを覚えています。今になってようやく実際に展開されています。それでも間違いを犯すかもしれません。

ほとんどの車が自動運転になるまでにはさらに何年もかかるかもしれません。あなたは5年でこのかなり堅牢なものが実現すると言っていますが、実際には20年のように感じるでしょうか。

5年でクールなデモを得て、その後WaymoとTesla FSDが動作するまでにさらに10年かかるでしょう。

それは本当に良い質問です。現在と2009年との間で異なる大きなことの1つは、周囲の世界を理解する機械学習システムの技術に関係があります。

自動運転では、主にこれは認識です。ロボットの場合、他のいくつかのことも意味する場合があります。

確実に認識は2009年には良い場所にありませんでした。認識の問題は、やや設計されたシステムで本当に良いデモを作ることはできるが、それを一般化しようとするとレンガの壁にぶつかるもののひとつであることです。

今、2025年のこの時点で、私たちは一般化可能で堅牢な認識システム、より一般的には私たちの周りの世界を理解するための一般化可能で堅牢なシステムのためのはるかに良い技術を持っています。

システムがスケーラブルであると言うとき、機械学習では、スケーラブルは本当に一般化可能を意味します。それは今日のはるかに良い出発点を与えてくれます。

これはロボティクスが自動運転よりも簡単であるという議論ではありません。それは2025年が2009年よりも良い年であるという議論です。

しかし、ロボティクスについて運転とは少し異なる他のことがあります。ある意味では、ロボットマニピュレーションははるかに、はるかに困難な問題です。しかし、他の意味では、より限られた範囲でフライホイールを開始し、転がし始めることがより簡単な問題空間です。

例を挙げましょう。運転を学んでいる場合、誰かが助けてくれることなく自分で運転を学ぶのはおそらくかなり狂気でしょう。

あなたの10代の子供に、誰かが助けることなく運転を学ぶことを信頼することはないでしょう。車に放り込んで「頑張って」と言うだけです。

それは世界について学ぶのにかなりの時間を持った16歳でもあります。5歳の子供を車に入れて始めるように言うことを夢見ることさえないでしょう。

しかし、誰かに皿洗いをしてもらいたい場合、皿も壊れる可能性があります。しかし、おそらく子供がいわばブレーキで隣に常に座っている誰かなしに皿洗いを試すことに大丈夫でしょう。

ロボットマニピュレーションで行いたい多くのタスクについて、間違いを犯し、それらの間違いを修正する可能性があります。間違いを犯してそれを修正すると、まず修正したのでタスクを達成しましたが、将来その間違いを避けることを可能にする知識も得ました。

運転では、それが設定される動的のために、間違いを犯し、それを修正し、そしてそれから学ぶことは非常に困難です。間違い自体が重大な影響を持つからです。

すべてのマニピュレーションタスクがそうではありません。真に安全性が重要ないくつかのものがあります。次に来るのは常識です。

常識とは、起こるかもしれないことについて合理的な推測である推論を行う能力を意味しますが、その間違いを経験し、事前にそれから学ぶことを要求しません。それは非常に重要です。

それは基本的に約5年前までは私たちがどうやって行うかまったく分からなかったものです。しかし、今私たちはLLMとVLMを使って質問をすることができ、彼らは合理的な推測をしてくれます。

専門家の行動を与えてくれることはありませんが、「ヘイ、滑りやすい床と書かれた看板があります。その上を歩いたら何が起こりますか」と言うことができます。かなり明白ですよね。

2009年の自動運転車はその質問に答えることができなかったでしょう。

常識に加えて間違いを犯してそれらの間違いを修正する能力、それは人が何かを学ぼうとしているときに行うことに非常に似て聞こえます。

それらすべてがロボットマニピュレーションを必ずしも簡単にするわけではありませんが、より小さな範囲で始めて、そこから成長することを可能にします。

トランスフォーマーベースロボティクスの発展

何年もの間、2009年からではありませんが、多くのビデオデータ、言語データ、そして5〜8年間トランスフォーマーを持ってきました。

Google、Metaなどを含む多くの会社が、多くのトレーニングデータでトランスフォーマーベースのロボットを構築しようとしてきました。

彼らが障壁にぶつかっている理由は何ですか。今何が変わったのですか。

それは本当に良い質問です。あなたのコメントに少し修正を加えて始めます。彼らは多くの進歩を遂げています。

ある意味で、私たちが現在Physical Intelligenceで行っている作業の多くは、例えばGoogleで行われた他の多くの素晴らしい作業の背中に構築されています。

私たちの多くは以前Googleにいました。私たちはその作業のいくつかに関わっていました。それは私たちが描いている他の人が行った作業のいくつかです。

そこには確実に多くの進歩がありました。しかし、ロボティクスファウンデーションモデルを本当に機能させるためには、それは研究室の科学実験だけではありません。産業規模の構築努力も必要です。

それは科学実験というよりもアポロ計画のようなものです。

過去の産業研究所で行われた優秀な研究、そして私はその多くに関わっていましたが、それは非常に基礎研究努力として枠組み化されていました。それは良いことです。基礎研究は本当に重要ですが、それだけでは十分ではありません。

基礎研究が必要で、それを現実にするという推進力も必要です。それを現実にするということは、実際にロボットをそこに出し、実世界で行う必要があるタスクを代表するデータを取得し、そのデータを規模で取得し、システムを構築し、そのすべてのものを正しく取得することを意味します。

それは、より多くの科学を行う方法としてではなく、論文を発表する方法としてではなく、研究所を持つ方法としてではなく、本当にロボティクスファウンデーションモデルを成功させるための特異な焦点、その独自の焦点を必要とします。

データスケーリングの課題と戦略

今あなたがそのデータをさらにスケールすることを妨げているものは何ですか。データが大きなボトルネックであるなら、なぜオフィスのサイズを100倍にして、100倍多くのオペレーターがこれらのロボットを操作してより多くのデータを収集することができないのでしょうか。

なぜすぐに100倍多くランプアップしないのですか。

それは本当に良い質問です。ここでの課題は、スケールのどの軸がどの能力の軸に貢献するかを理解することです。

能力を水平に拡大したい場合、つまり、ロボットが今10のことを知っていて、後で100のことをしてもらいたい場合、それは私たちがすでに持っているものを直接水平にスケールすることで対処できます。

しかし、私たちはロボットを実世界で実際に有用なことができるレベルの能力まで上げたいと思います。それは他の軸に沿っても拡大することを必要とします。

例えば、非常に高い堅牢性を得ることを必要とします。タスクを非常に効率的に、迅速に実行してもらうことを必要とします。エッジケースを認識してインテリジェントに応答してもらうことを必要とします。

それらのこともスケーリングで対処できます。しかし、私たちはそのための正しい軸を特定しなければなりません。つまり、どのデータを収集するか、どの設定でそれを収集するか、どの方法がそのデータを消費するか、そしてそれらの方法がどのように機能するかを理解することです。

それらの質問により徹底的に答えることで、軸、それらの従属変数、スケールする必要があるものについてより明確にしてくれるでしょう。

今それがどのようなものになるかを完全に知っているわけではありません。かなり早く理解すると思います。それは私たちが積極的に取り組んでいることです。

それを本当に正しく理解して、スケールアップするときに、実用的な使用に非常に関連する能力に直接変換されるようにしたいと思います。

データ量とインターネット規模との比較

大雑把な規模で、あなたが収集したデータの量はインターネット規模の事前トレーニングデータとどのように比較されますか。

トークンごとのカウントを行うのは難しいことは知っています。ビデオ情報がインターネット情報とどのように比較されるかなどです。しかし、あなたの合理的な推定を使って、どの割合ですか。

ロボット体験は互いに非常に相関している時間ステップから構成されているため、非常に困難です。

生のバイト表現は巨大ですが、おそらく情報密度は比較的低いです。

おそらくより良い比較は、マルチモーダルトレーニングに使用されるデータセットでしょう。そして、最後にそのカウントを行ったとき、それは1〜2桁の間だったと思います。

あなたが持っているロボティクスのビジョンは、100倍、1000倍多くのデータを収集するまで可能にならないのでしょうか。

それが分からないのです。ロボティクスが困難な問題であることを推論するのは確実に非常に合理的です。おそらく言語のものと同じくらいの経験が必要でしょう。

しかし、その答えが分からないので、私にとってそれについて考えるのに比較的有用な方法は、完全に完了する前にどれだけのデータが必要かではなく、始める前にどれだけのデータが必要かです。

それは、自己持続的で絶えず成長するデータ収集レシピを表すデータフライホイールを得る前を意味します。

自己持続的と言うとき、それは仕事で学習することだけですか、それとも他に何か心に持っていますか。

仕事で学習するか、そのデータの取得プロセス自体が有用で価値があるような方法でデータを取得することです。

ある種のRLですね。実際に何か実際のことをしているのです。

理想的には、ロボットが自律的に行動することで逃れることができるため、より簡単であるRLであってほしいです。しかし、混合自律性を持つことができることは問題外ではありません。

前に述べたように、ロボットは他のあらゆる種類の信号から学習できます。人がそれに話しかけることから学習するロボットを持てる方法を説明しました。

完全に遠隔操作されたロボットと完全に自律的なロボットの間には多くの中間地点があります。

π0モデルのアーキテクチャ

π0モデルはどのように機能しますか。あなたが持っている現在のモデルは、基本的にモーター制御に適応されたビジョンランゲージモデルです。

少し空想的な脳の類推をすると、VLM、ビジョンランゲージモデルは、基本的に小さな疑似視覚皮質、ビジョンエンコーダーが移植されたLLMです。

私たちのモデルには、ビジョンエンコーダーがありますが、アクションエキスパート、基本的にアクションデコーダーもあります。小さな視覚皮質と概念的には小さなモーター皮質を持っています。

モデルが決定を行う方法は、ロボットからの感覚情報を読み込むことです。いくらかの内部処理を行います。

それは中間ステップを出力することを含む可能性があります。「厨房を片付けて」と言うかもしれません。それは「ヘイ、厨房を片付けるために、皿を拾って、スポンジを拾って、これとこれを置く必要がある」と自分自身に思うかもしれません。

最終的に、それは連続的なアクションを生成するアクションエキスパートまで、その思考の連鎖生成を通して動作します。

アクションは連続的で、高頻度であるため、異なるモジュールでなければなりません。テキストトークンとは異なるデータ形式を持っています。しかし、構造的にはまだエンドツーエンドのトランスフォーマーです。

大体において、技術的には、それは混合エキスパートアーキテクチャに対応します。

実際に起こっていることは、「Xのことをするべきだ」と予測していることです。それから画像トークンがあり、それからいくつかのアクショントークンがあります。実際に最終的に行うこと、そしてその後より多くの画像、より多くのテキスト記述、より多くのアクショントークンです。基本的に私はどのような流れが起こっているかを見ています。

それは正しいですが、アクションが離散トークンとして表現されていないという例外があります。それらは連続的で、器用な制御のためにアクションで非常に正確である必要があるため、実際にフローマッチングと拡散を使用しています。

オープンソースモデルの活用

Googleが公開したオープンソースLLMであるオープンソースのGemmaモデルを使用して、その上にこのアクションエキスパートを追加していることは非常に興味深いと思います。

AIの異なる分野での進歩が同じ技術だけでなく、文字通り同じモデルに基づいていることは非常に興味深いと思います。

オープンソースのLLMを使用して、その上にこのアクションエキスパートを追加するだけです。素朴に考えると、「ああ、ロボティクスという別個の研究分野があり、LLMと自然言語処理という別個の研究分野がある」と思うかもしれません。

いいえ、それは文字通り同じです。考慮事項は同じ、アーキテクチャは同じ、重みさえ同じです。これらのオープンソースモデルの上でより多くのトレーニングを行うことは知っていますが、それは非常に興味深いと思います。

ここで念頭に置くことが重要な1つのテーマは、これらの構成要素が非常に価値がある理由は、AIコミュニティが事前知識を活用することがはるかに得意になったからです。

事前トレーニングされたLLMとVLMから得ているものの多くは、世界についての事前知識です。それは少し抽象化された知識です。オブジェクトを識別でき、画像内でものがだいたいどこにあるかを理解できる、その種のことです。

1つの文にまとめると、AIの最近の革新がロボティクスに与える大きな利益は、事前知識を活用する能力です。

モデルが同じモデルであることは、ディープラーニングでは常にそうでした。しかし、多くの異なる源から来ることができるその抽象的な知識、その事前知識を引き込む能力が本当に強力です。

ビデオモデルの限界と表現の課題

私は、GDMのSanderという研究者と話していました。彼はビデオとオーディオモデルに取り組んでいます。

彼の見解では、異なるモダリティ間でそれほど多くの転移学習を見ていない理由について彼が述べた点があります。つまり、ビデオと画像で言語モデルをトレーニングすることは、テキストの質問やタスクでそれを必ずしもはるかに良くするようには見えません。なぜなら、画像はテキストとは異なる意味レベルで表現されているからです。

彼の議論は、テキストがモデル内でこの高レベルの意味表現を持っているのに対し、画像とビデオは圧縮されたピクセルに過ぎないということです。それらが埋め込まれるとき、それらは何らかの高レベルの意味情報を表現していません。ただの圧縮されたピクセルです。

したがって、モデルを通過するレベルでの転移学習はありません。明らかにこれはあなたが行っている作業に非常に関連しています。

あなたの希望は、ロボットが見る視覚データ、おそらく最終的にはYouTubeや何でもからの視覚データ一般、言語情報、さらにロボット自体からのアクション情報でモデルをトレーニングすることによって、これらすべてが一緒になって一般的に堅牢にすることです。

あなたは、ビデオモデルが言語モデルほど堅牢ではない理由についての非常に興味深いブログ投稿をしました。

申し訳ございませんが、これはあまりよく形成された質問ではありません。反応を得たかっただけです。

それはどういうことですか。おそらく2つのことが言えると思います。悪いニュースと良いニュースがあります。

悪いニュースは、あなたが言っていることがビデオと画像生成モデルでの長年にわたる課題の核心に本当に迫っているということです。

ある意味で、ビデオを予測することによってインテリジェントシステムを得るというアイデアは、テキストを予測することによってインテリジェントシステムを得るというアイデアよりもさらに古いものです。

テキストのものは、ビデオのものよりも早く実際に有用なものになりました。ビデオのものは素晴らしいです。クールなビデオを生成できます。最近そこで行われた仕事は驚くべきものです。

しかし、ビデオと画像を生成するだけで、より多くのビデオと画像を生成する以外にやるように頼むことができる世界の深い理解を持つシステムがすでに結果としてもたらされているわけではありません。

一方、言語では、明らかにそうです。表現についてのこの点は本当にそれの鍵です。

それについて考える1つの方法はこれです。この建物の外にカメラを向けることを想像してください。空があり、雲が動き回っていて、水、車が走り回っていて、人々。

将来起こるすべてを予測したいなら、多くの異なる方法でそうすることができます。

「オーケー、周りに人々がいる。群衆での人々の行動の心理学を理解することに本当に得意になって、歩行者を予測しよう」と言うことができます。

しかし、「まあ、雲が動き回っている。空中の水分子と氷の粒子についてすべてを理解しよう」と言うこともできます。それについて非常に深く行くことができます。

原子レベルまで起こっているすべてを完全に理解したいなら、一人の人間として、そのことだけを考えて何十年も費やすことができ、歩行者や水にさえ到達することはないでしょう。

そのシーンで起こっているすべてを本当に予測したいなら、本当に素晴らしい仕事をして、何かの100パーセントを捉えているとしても、他のすべてに到達するまでに何年も経過しているでしょう。

一方、テキストでは、それはすでに私たち人間が気にかけているビットに抽象化されています。表現はすでにそこにあります。それらは良い表現であるだけでなく、本当に重要なことに焦点を当てています。それが悪いニュースです。

良いニュースはこちらです。この建物の外にカメラを向けるだけですべてを得る必要はありません。

ロボットを持つとき、そのロボットは仕事をしようとしています。目的があり、その認識はその目的を果たすことに奉仕しています。それは本当に素晴らしい焦点要因です。

人々にとって、これは本当に重要であることを知っています。文字通りあなたが見るものは、あなたがしようとしていることによって影響を受けます。

人々が、やろうとしていることに関連していない場合、文字通り目の前のものを見ないほぼ衝撃的な程度のトンネルビジョンを持つことを示す心理学実験が不足していません。それは非常に強力です。

人々がそれを行う理由があるに違いありません。確実にジャングルにいるなら、より多く見ることはより少なく見ることよりも良いです。

その強力な焦点メカニズムを持っているなら、目標を達成するために非常に重要でなければなりません。

ロボットは目標を達成しようとしているので、その焦点メカニズムを持つでしょう。

ロボティクスにおける課題と機会

ビデオモデルがそれほど堅牢ではないという事実は、ロボティクスにとって弱気材料ですか。使用しなければならないデータの多くは…ラベル付けされたものの多くがあると思います。

理想的には、YouTubeのすべて、これまでに録画したすべてのビデオを投げ込んで、物理世界がどのように機能し、どのように動き回るかを学習させたいだけです。

人間がタスクを実行するのを見て、そこから学習するだけです。それから学習するのは困難で、タスク自体を練習する必要があると言っています。

このように言いましょう。さまざまなスポーツイベントのビデオテープや録画をたくさん与えて、スポーツを見るのに1年を与えたとしましょう。

その1年後、「オーケー、今あなたの仕事は、テニスをプレイすることです」と言いました。それはかなり愚かですよね。

一方、最初にテニスをプレイすることになると言って、それから勉強させれば、今あなたは本当に何を探しているかを知っています。

ここには非常に実際の課題があります。課題を過小評価したくありません。しかし、実際のことをすることを知っているため、他のデータソースを吸収することでより良くなる、相互作用から学習する、ロボットシステムを制御することから学習する具現化されたファウンデーションモデルの多くの可能性もあります。

それ自体が銀の弾丸だとは思いません。すべてを解決するとは思いませんが、多くの助けになります。

ロボットのトレーニングにウェブデータを含めることが、一般化を本当に助けることを見ることができる始まりをすでに見てきました。長期的には、今まで使用するのが困難だったデータソースを使用することを容易にすると思います。

創発的能力と汎化の可能性

有名なことに、LLMには設計されていない創発的能力がすべてあります。インターネットテキストのどこかに、特定の種類のことを行う知識を与えるためのトレーニングデータがあるからです。

ロボットでは、すべてのデータを手動で収集しているようです。したがって、データセットのどこかに意図的に収集していないこの神秘的な新しい能力があるはずはないということです。

分布外の能力を持つことがさらに困難になるはずです。今後5〜10年間の道のりは次のようになると思います。各サブタスクに対して、何千ものエピソードを与える必要があります。それから、サブタスクを行うだけでは実際に多くの作業を自動化することは非常に困難です。

バリスタが何をするか、ウェイターが何をするか、シェフが何をするかを考えてみると、それの非常に少ない部分が1つの場所に座って物事を行うことを含みます。

動き回り、補充し、機械を修理し、カウンターとレジと機械の間を行き来するなどする必要があります。

手動でエピソードを追加し続け、ラベル付けし、どれだけうまくいったかを見る必要があるものとスキルのロングテールがあるだけでしょうか。

それとも、それがより一般的に進歩する理由があると思いますか。

ここには微妙さがあります。創発的能力は、インターネットデータにたくさんのものがあるという事実だけから来るのではありません。それらは、特定のレベルに達すると、汎化が構成的になるという事実からも来ます。

私の学生の一人が彼のプレゼンテーションのいくつかで使うのが本当に好きだった可愛い例がありました。国際音標文字（IPA）が何か知っていますか。

いいえ。

辞書を見ると、変な文字で書かれた単語の発音があります。それが基本的に国際音標文字です。

個々の単語の発音を書き留めるためにほぼ独占的に使用される辞書用のアルファベットです。

LLMに国際音標文字で何らかの食事を作るレシピを書いてもらうように頼むことができ、それをやってくれます。それはすごいことです。

それは確実に見たことがないものです。IPAは個々の単語の発音を書き留めるためにのみ使用されるからです。それは構成的汎化です。

新しい方法で見たことのあるものを組み合わせています。議論の余地がありますが、ここには根本的に新しいものは何もありません。なぜなら、はい、その方法で書かれた異なる単語を見てきましたが、英語で単語を構成したのと同じ方法で、この他の言語で単語を構成できることを理解したからです。

それが実際に創発的能力がどこから来るかです。このため、原理的には、十分な行動の多様性を持てば、モデルはそれらの行動が状況が要求するように新しい方法で構成できることを理解するはずです。

実際に現在のモデルでも物事をすでに見てきました。5年後を振り返ると、これらは規模的には小さなものだと思うでしょう。

しかし、すでに私が創発的能力と呼ぶものを見てきました。洗濯物を畳むポリシーのいくつかをいじっていたとき、実際にこれを偶然発見しました。

ロボットが偶然、1つではなく2つのTシャツをビンから拾い上げました。最初の1つを畳み始めますが、他の1つが邪魔になり、他の1つを拾い上げて、ビンに投げ戻します。

それがそうするとは知りませんでした。すごい。それから、それをいじってみて、はい、毎回それをやります。仕事をしています。

テーブルに他の何かを落とすと、それを拾い上げて戻します。オーケー、それはクールです。ショッピングバッグに物を入れ始めます。

ショッピングバッグが倒れると、それを拾い上げて、まっすぐに立てます。

誰にもそのためのデータを収集するように言っていません。確実に誰かが偶然に、あるいは意図的に、ショッピングバッグを拾い上げたことがあります。

規模で学習を行うときに出現するこの種の構成性があります。それが本当にこれらすべての注目すべき能力がどこから来るかです。

今、それを言語と組み合わせます。あらゆる種類の思考の連鎖推論と組み合わせると、モデルが新しい方法で物事を構成する多くの可能性があります。

私があなたのオフィスでロボットのツアーを受けたときの例がありました。ショーツを畳んでいました。トレーニングセットにこのようなエピソードがあったかどうかは分かりませんが、楽しみのために、ショーツの1つを取って裏返しにしました。

それから、まず…まず最初に、グリッパーはこのようで、2つの対向する指と親指のようなものです。

それだけでどれだけのことができるかは実際に衝撃的です。しかし、正しく畳む前に、まず裏返しに畳む必要があることを理解していました。

それについて特に驚くべきことは、このモデルが1秒のコンテキストしか持っていないように見えることです。言語モデルはしばしばコードベース全体を見ることができます。

出力する前に何十万ものトークンを観察し、それらについて考えています。何かをコーディングする方法について計画を立てる前に、何千ものトークンにわたって自分自身の思考の連鎖を観察しています。

あなたのモデルは1つの画像、最後の1秒で起こったことを見ていて、このショーツを畳むことになっていることを漠然と知っています。

最後の1秒で起こったことの画像を見ています。機能すると思います。最後に起こったことを見て、計画を実行し続けるのは狂気です。

裏返しに畳んで、それから正しく畳む。しかし、1秒のコンテキストが1分間のタスクを実行するのに十分であることは衝撃的です。

はい。最初にその選択をした理由と、なぜ実際にタスクを行うことが可能なのかを興味深く思います。人間が1秒の記憶しか持たず、肉体労働をしなければならなかった場合、それはただ不可能に感じます。

より少ないメモリを持つことについて良いことがあるわけではありません、明確にするために。

メモリを追加すること、より長いコンテキストを追加すること、そのすべてのもの、より高解像度の画像を追加することは、モデルをより良くするでしょう。

しかし、私たちを訪問したときに見たスキルの種類にとって、それが最も重要なことではない理由は、ある程度、モラベックのパラドックスに戻ってきます。

モラベックのパラドックスは基本的に、ロボティクスについて1つのことを知りたいなら、それがそのことです。

モラベックのパラドックスは、AIでは簡単なことが困難で、困難なことが簡単だと言います。つまり、私たちが当然のことと考えることは、オブジェクトを拾い上げる、見る、世界を認識する、そのすべてのことなど、これらはすべてAIの困難な問題です。

私たちが挑戦的だと思うこと、チェスをする、微積分をするなど、実際にはしばしばより簡単な問題です。

このメモリのことは実際にはモラベックのパラドックスの変装だと思います。

私たちが困難だと思う認知的に要求の高いタスク、考えさせるもの、「うわあ、汗をかいている。激しく働いている」と思わせるもの。それらは私たちがたくさんのものをメモリに、心の中に保持することを要求するものです。

大きな数学問題を解いているなら、ポッドキャストで複雑な技術的会話をしているなら、これらはすべてのパズルピースを頭の中に保持しなければならないものです。

よく練習されたタスクを行っているなら、オリンピックの水泳選手で完璧なフォームで泳いでいて、そこのゾーンにいるなら、人々は「その瞬間にいる」とさえ言います。その瞬間にいるのです。

それほど練習したので、脳の神経ネットワークにそれを焼き込んだようなものです。そのすべてのコンテキストを保持することについて注意深く考える必要はありません。

それは本当にモラベックのパラドックスが現れているだけです。それはメモリが必要ないということではありません。

それは、人々が持つ器用さと身体的熟練度のレベルに匹敵したいなら、最初に正しく理解すべき他のことがあり、それから徐々にそのスタック、より認知的に要求の高い領域、推論、コンテキスト、計画、そのすべての種類のものに上がっていくということを意味します。

そのようなものも重要になるでしょう。

推論速度とコンテキストのトリレンマ

あなたには3つのレンマがあります。同時に増加させたいが、推論中により多くの計算を要する3つの異なることがあります。

推論速度があります。人間は毎秒24フレームか何かを処理しています。物事に非常に速く反応できます。

それからコンテキストの長さがあります。家を片付けているだけのロボットの種類については、数分前や数時間前に起こったことを認識し、それが次に行うタスクについての計画にどのように影響するかを知っている必要があると思います。

それからモデルサイズがあります。少なくともLLMでは、パラメータの量を増やすことからの利得を見てきました。

現在、あなたは100ミリ秒の推論速度を持っていると思います。1秒の長さのコンテキストと、モデルは数十億パラメータですか。

これらのそれぞれ、少なくとも2つは、人間の同等物と思われるものよりも何桁も小さいです。

人間の脳は兆のパラメータを持ち、これは20億パラメータのようなものです。人間は少なくともこのモデルと同じくらい速く、実際にはかなり速く処理しており、私たちは数時間のコンテキストを持っています。

時には数十年のコンテキスト。まさに。

これら3つすべてにわたって何桁もの改善が必要で、これらは推論で互いに対立しているように見えます。1つを増やすことで、他の1つに向けることができる計算量が減ります。

これをどのように解決するつもりですか。

それは非常に大きな質問です。それを少し解きほぐしてみましょう。そこにはたくさんのことが起こっています。

1つのことは本当に興味深い技術的問題です。おそらく今後数年間で本当に興味深い革新をたくさん見ることになるものです。

それはコンテキストの表現の問題です。

あなたが与えた例のいくつか、何かをしている家庭用ロボットがあるなら、それは追跡し続ける必要があります。人として、非常に象徴的に、ほとんど言語で追跡するものが確実にあります。

私にはチェックリストがあります。買い物に行きます。少なくとも私にとって、心の中でチェックリストを文字通り視覚化できます。

ヨーグルトを拾う、牛乳を拾う、何でもを拾う。

牛乳が座っている牛乳の棚を思い浮かべていません。ただ「牛乳」と思っているだけです。

しかし、他には非常に空間的な、ほとんど視覚的なものがあります。あなたのスタジオに行こうとしていたとき、「オーケー、街がどのように見えるかはこうです。あの街がどのように見えるかはこうです。入り口がどのように見えるかを期待しています」と思っていました。

あなたの目標を達成するために本当に必要なものを捉え、そうでなければ不必要なものをすべて破棄するコンテキストを適切な形で表現すること、それは本当に重要なことだと思います。

マルチモーダルモデルでその始まりを見ています。しかし、マルチモーダリティには画像プラステキストよりもはるかに多くのものがあると思います。

そこには本当にエキサイティングな革新の余地がたくさんある場所です。

表現方法の観点で言っていますか。

過去に起こったことと、計画や推論の両方を表現する方法、LLMの世界で呼ぶように、将来起こってほしいことや、タスクを解決する際の中間処理段階です。

学習されたモダリティを含むさまざまなモダリティでそれを行うこと、仕事に適したものは、これらの課題のいくつかを克服する巨大な可能性を持っているものです。

人間の脳との効率性比較

これらの推論における困難なトレードオフについて議論しているときに私が持つもう1つの質問は、それを人間の脳と比較することです。

人間の脳は、100兆パラメータか何かを持ちながら、10ミリ秒の順序で行動できながら、数時間、数十年のコンテキストを持つことができます。

ここで何が起こっているかを理解する最良の方法は、人間の脳のハードウェアがGPUで持っているハードウェアよりもはるかに進歩しているのか、それともビデオ情報をエンコードするアルゴリズムがはるかに効率的なのかということだと思います。

アクティブパラメータも数十億の低い十億の順序にある何らかの狂気のエキスパートの混合かもしれません。それとも2つの何らかの混合です。

なぜ私たちには、多くの次元にわたって、脳と比較して何桁も効率の悪いこれらのモデルがあるのか、それがハードウェアかアルゴリズムかについて考えるとしたら。

それは本当に良い質問です。確実にこの答えを知りません。神経科学には決してよく精通していません。

推測をして、また私が知っているものに寄りかかった答えを提供するとしたら、このようなものです。

脳は非常に並列です。生物物理学のためだけにそうでなければなりませんが、GPUよりもさらに並列です。

現代のマルチモーダル言語モデルが入力をどのように処理するかを考えてみると、いくつかの画像といくつかのテキストを与えると、最初に画像を読み込み、次にテキストを読み込み、そして一度に1つのトークンで出力を生成し続けます。

具現化されたシステムが並列プロセスを持つことは私にとってはるかに理にかなっています。

数学的には、並列と順次のものの間で密接な同等性を作ることができます。トランスフォーマーは基本的に順次ではありません。位置埋め込みを入れることで順次にします。

トランスフォーマーは基本的に非常に並列化可能なものです。それが彼らを非常に素晴らしくするものです。

この高度に並列なものが、知覚と固有受容と計画をすべて同時に行っているもの、数学的にはトランスフォーマーとそれほど違って見える必要はないと思いますが、その実際の実装は異なるでしょう。

システムが並列で考えることを想像できます。「オーケー、これが私の長期記憶、これが10年前に見たもの、これが私の短期空間的なもの、これが私の意味的なもの、これが今見ているもの、これが計画しているもの」。

そのすべては、何らかの非常に馴染みのある注意メカニズムがある方法で実装できますが、実際にはすべて並列で実行され、おそらく異なる速度で、おそらくより複雑なものはより遅く実行され、より速い反応的なものはより速く実行されます。

5年後のハードウェア要件

5年後に、世界と相互作用する人間と同じくらい堅牢なシステムがあるとしたら、それらのモデルを実行することが物理的に可能になるために何が起こったのでしょうか。

リアルタイムでストリーミングしているビデオ情報、または何時間もの以前のビデオ情報が何らかの方法でエンコードされ、ミリ秒スケールでデコードしながら考慮され、はるかに多くのパラメータを持つことができるように。

Nvidiaがはるかに良いGPUを出荷したのか、それともあなた方がはるかに良いエンコーダーなどを思いついたのか。5年間で何が起こったのでしょうか。

この質問にはたくさんのことがあります。確実に本当に魅力的なシステム問題があります。私は決してシステムの専門家ではありません。

実際の適切なアーキテクチャ、特に手頃で低コストなシステムが欲しいなら、少なくとも思考の一部を外部化することになると想像します。

将来、インターネット接続があまり良くない場合、ロボットはより愚かな反応モードになることを想像できます。しかし、良いインターネット接続があれば、少し賢くなることができます。それはかなりクールです。

ここで助けになることができる研究とアルゴリズムのものもあります。適切な表現、過去の観察の簡潔な表現、また観察の変化の表現を理解することです。

あなたの感覚ストリームは非常に時間的に相関しています。各追加観察から得られる限界情報は、その観察の全体と同じではありません。

今見ている画像は、前に見た画像と非常に相関しています。原理的には、それを簡潔に表現したいと思います。

画像を独立して表現するよりもはるかに圧縮された表現で逃れることができます。これを正しく理解するためにアルゴリズム側でできることがたくさんあります。それは本当に興味深いアルゴリズムの仕事です。

本当に魅力的なシステム問題もあります。正直に言うと、機械学習ソリューションの形状を知った後にシステムを実装したいので、システム問題には到達していません。

しかし、そこにはやるべきクールなことがたくさんあります。

分散型推論とクラウド依存

あなた方はYouTubeデータセンターを運営している人々を雇う必要があるかもしれません。彼らはビデオ情報をエンコードする方法を知っているからです。

これは興味深い質問を提起します。LLMでは、理論的にはこのラップトップか何かで独自のモデルを実行できます。

現実的に起こることは、最大で最も効果的なモデルが、ローカルではなく、何千万ものユーザーのバッチで同時に実行されていることです。

バッチングの固有の効率性に加えて、この信じられないほど計算集約的な推論タスクを行わなければならないという事実のために、ロボティクスでも同じことが起こるでしょうか。

ロボットごとに5万ドルのGPUを持ち歩きたくない。それがどこか他の場所で起こることを望むだけです。

このロボティクス世界では、どこでも接続が必要なものを予想すべきでしょうか。非常に高速なロボットが必要です。ビデオ情報を前後に、または少なくとも一方向にストリーミングしています。

このロボットの展開がどのようにインスタンス化されるかについて興味深い意味を持ちますか。

分かりません。しかし、推測するとしたら、両方を見ると推測します。

オフボード推論を持つ低コストシステムと、より信頼性の高いシステムを見るでしょう。例えば、接続に依存できない屋外ロボットか何かがある設定では、それらはより高価になり、オンボード推論を持つでしょう。

これに貢献するかもしれない技術的観点からいくつかのことを言います。リアルタイムシステムは明らかにリアルタイムで制御される必要がありますが、しばしば高周波数で、すべてのタイムステップに対して行う必要がある思考の量は驚くほど少ないかもしれません。

繰り返しますが、人間と動物でこれを見ます。動きを計画するとき、脳で起こる実際の計画プロセスが確実にあります。

サルの脳から記録すると、計画の神経相関を見つけるでしょう。動きの前に起こる何かがあります。

その動きが起こるとき、動きの形状は動きの前に起こったことと相関しています。それが計画です。

それは何かを所定の位置に置き、何らかのプロセスの初期条件を設定し、そのプロセスを展開することを意味し、それが動きです。その動きの間、より少ない処理を行い、事前にバッチアップすることを意味します。

しかし、完全にオープンループではありません。テープレコーダーを再生しているわけではありません。進みながら反応しています。より基本的な抽象化レベル、異なる抽象化レベルで反応しているだけです。

繰り返しますが、これは表現に戻ってきます。事前に計画してから展開するのに十分な表現と、緊密なフィードバックループを必要とする表現を理解すること。

その緊密なフィードバックループについて、何にフィードバックを行っているのでしょうか。車を運転しているなら、まっすぐに進むためにレーンマーカーの位置にフィードバックを行っているかもしれません。

より低い頻度で、交通の中で自分がどこにいるかをある程度測定します。

強化学習への移行

数年前からの講義がいくつかありますが、そこでロボティクスでも、強化学習は多くの場合、模倣学習よりも優れていると言っています。

しかし、これまでのところ、モデルは専ら模倣学習を行っています。これについてのあなたの考えがどのように変わったかに興味があります。多分変わっていないかもしれません。

しかし、その後、RLのためにこれを行う必要があります。なぜまだRLができないのですか。

ここでの鍵は事前知識です。自分自身の経験から効果的に学習するためには、すでに何をしているかについて何かを知っていることが本当に、本当に重要であることが判明しました。

そうでなければ、人が子供のとき、初めて書くことを学ぶなど、非常に基本的なことを学ぶのに非常に長い時間がかかるのと同じように、あまりにも長い時間がかかります。

すでにいくらかの知識を持ったら、新しいことを非常に迅速に学ぶことができます。

現在、監督学習でモデルをトレーニングする目的は、事前知識を提供する基盤を構築することで、後で物事をはるかに迅速に理解できるようにすることです。

繰り返しますが、これは新しいアイデアではありません。これはLLMで見てきたのとまったく同じです。

LLMは純粋に次のトークン予測でトレーニングされることから始まります。それは優秀な出発点を提供し、最初にあらゆる種類の合成データ生成のために、次にRLのために。

基本的にあらゆるファウンデーションモデルの努力が同じ軌道をたどることを期待するのは完全に理にかなっています。

まず、やや力ずくの方法で基盤を構築します。その基盤が強くなればなるほど、はるかにアクセスしやすいトレーニングでさらに良くすることが容易になります。

統合型AIシステムの可能性

10年後、知識労働のための最高のモデルもロボティクスモデルになるか、アクションエキスパートが付いているでしょうか。

私が尋ねる理由は、これまでのところ、物事にとってより一般的なモデルを使用することからの利点を見てきたからです。

ロボティクスはこのバケツに入るでしょうか。物理的作業と知識労働を含むすべてを行うモデルを持つだけでしょうか、それとも別々に留まり続けると思いますか。

それらが実際に同じになることを本当に望んでいます。明らかに私は非常に偏っています。ロボティクスが大好きで、AIにとって非常に基本的だと思います。

しかし楽観的に、実際には逆になることを望んでいます。方程式のロボティクス要素が他のすべてのものをより良くすることを。

これについて話すことができる2つの理由があります。

1つは表現と焦点に関係があります。前に言ったことで、ビデオ予測モデルで起こるすべてを予測したいだけなら、何が関連しているかを理解するのは非常に困難です。

今タスクを行おうとすることから来る焦点を持っているなら、それは他の信号をより実り多く利用することを可能にする方法で世界を見る方法を構造化する働きをします。それは非常に強力である可能性があります。

2つ目は、私たちが言語で表現できるものを超えて、非常に深い、根本的なレベルで物理世界を理解することが、他の問題を解決するのに役立つ可能性があることです。

私たちはこれを常に経験しています。抽象的な概念について話すとき、「この会社には多くの勢いがある」と言います。無生物を説明するために社会的比喩を使用します。「私のコンピューターは私を嫌っている」。私たちは特定の方法で世界を経験し、その主観的経験が、他の方法では扱うには抽象的すぎる他のあらゆる種類の釘を基本的に叩くためのハンマーとして使用する非常に深遠な方法で物事について考える方法を形作ります。

推論速度やモデルサイズなどの点で、知識労働とは異なる考慮事項が物理ロボットに関連するかもしれません。それは同じモデルかもしれませんが、それから異なる方法で提供できます。

共同トレーニングの利点は十分に高いです。5年後に私がコーディングのためにモデルを使用している場合、それはロボティクスの事柄も知っているのでしょうか。

ロボティクスでのコーディングの利点が、それだけの価値があるほど十分に高いかもしれません。

コーディングはおそらく、コンピュータープログラミングの数学的性質により非常に抽象的な活動であるという意味で、抽象的な知識労働の頂点です。それが人々がそれにとても苦労する理由です。

シミュレーションの限界と学習

私はロボットのシミュレーションがなぜもっとうまく機能しないのかについて少し混乱しています。

人間を見ると、賢い人間は、意図的に学習しようとしている場合、シミュレーションの何が実生活に似ているかに気づき、それに注意を払い、そこから学習することを良い仕事をします。

シミュレーションで学習しているパイロットやF1ドライバーがいる場合、ロボットが賢くなるにつれて、シミュレーションを通してより多くのことを学習できることも期待すべきでしょうか。それとも、これは呪われており、永遠に実世界のデータが必要なのでしょうか。

これは非常に微妙な質問です。飛行機のパイロットがシミュレーターを使用して飛行機の操縦を学ぶという例は本当に興味深いです。

しかし、覚えておくべきことは、パイロットがシミュレーターを使用して飛行機の操縦を学ぶとき、彼らは非常に目標指向であることです。人生の目標はシミュレーターの使用方法を学ぶことではありません。人生の目標は飛行機の操縦を学ぶことです。

後でテストがあることを知っています。最終的に数百人の乗客を担当し、そのようなものを墜落させないことが本当に必要であることを知っています。

複数の異なるドメインからのデータでモデルをトレーニングするとき、モデルは特定のタスクを解決することになっているということを知りません。

「ヘイ、習得する必要がある1つのことがこれです。習得する必要がある別のことがこれです」と見るだけです。

そこでのより良い類推は、飛行機を飛ばすことができるビデオゲームをプレイして、最終的に誰かがあなたを本物のコックピットに入れることかもしれません。

ビデオゲームが無用だということではありませんが、同じことではありません。そのビデオゲームをプレイしようとしていて、目標が本当にビデオゲームを習得することなら、まったく同じ方法では行わないでしょう。

これに何種類のメタRLができますか。2017年に書いた本当に興味深い論文があります。

損失関数は特定のビデオゲームや特定のシミュレーションでどれだけうまくやるかではないかもしれません。ひどい説明をしましたが、より良い仕事をしていただけませんか、私が言おうとしていたことを説明してください。

あなたが言おうとしているのは、メタ学習を行っている本当に賢いモデルがある場合、おそらくそれは実世界の問題、下流の問題での性能がシミュレーターで何かをすることによって増加することを理解し、それを損失関数にすることができるかもしれないということです。

その通りです。しかし、これについてのことはこうです。「他の何かを活用することによって実際のことでより良くするためにトレーニングする」のようなこれらのアイデアのセットがすべてあります。

そのすべての重要な要点は、実際のことでより良くするためにそれをトレーニングする能力です。

現実では、そんなに明示的なことをする必要さえないかもしれません。前に指摘したように、メタ学習は創発的です。

LLMは基本的にコンテキスト内学習を通してある種のメタ学習を行います。それがどれだけ学習かどうかについては議論できますが、要点は、適切な目標で、実際のデータでトレーニングされた大きく強力なモデルが、他のすべてのものを活用することにはるかに得意になることです。

それが実際に鍵だと思います。あなたの飛行機のパイロットに戻ると、飛行機のパイロットは実世界の目標でトレーニングされています。良い飛行機のパイロットになること、成功すること、良いキャリアを持つことが彼らの目標です。

そのすべてが彼らが取る行動やこれらの他のデータソースを活用することに伝播します。

シミュレーションを含む補助データソースを活用することの鍵は、本当に良く、その創発的能力を持つ適切なファウンデーションモデルを構築することだと思います。

あなたの要点まで、本当に良くなるためには、適切な目標を持たなければなりません。今、実世界のデータから適切な目標を得る方法を知っています。他のことからそれを得ることができるかもしれませんが、今のところそれはより困難です。

繰り返しますが、他の分野で起こったことの例を見ることができます。最近、複雑な問題を解決するためにLLMをトレーニングする人がいるなら、多くの合成データを使用しています。

その合成データを効果的に活用できる理由は、それを理解する実際のデータの多くでトレーニングされたこの出発点を持っているからです。一度それを理解すれば、この他のすべてのものを活用することができるようになります。

皮肉なことに、シミュレーションを含む他のデータソースを活用することの鍵は、実際のデータを使用することに本当に得意になることで、世界で何が起こっているかを理解し、それからそれを実り多く利用できることです。

未来のシミュレーション能力

2035年や2030年に、基本的にこのSF世界を持ったら、真のAGIが、人間やAIが練習する機会を持ったことがない技能をリハーサルしているシミュレーションを構築する能力について楽観的ですか。

ダイソン球を構築しているので宇宙飛行士になるために練習する必要があり、シミュレーションでそれを行うことができます。

それとも、モデルがどれだけ賢くなっても、シミュレーションの問題は関係なく続くでしょうか。

これについて言うことはこうです。非常に根本的なレベルで、自分で作成する合成経験は、世界についてより多くを学ぶことを可能にしません。

リハーサルすること、反実仮想について考慮することを可能にします。しかし、何らかの方法で、世界についての情報がシステムに注入される必要があります。

あなたがこの質問を提起する方法は、これを非常にうまく解明します。ロボティクスでは、古典的に、人々はしばしば人間の知識を注入する方法としてシミュレーションについて考えてきました。

人は微分方程式を書き下ろす方法を知っており、それをコード化でき、それがロボットに以前持っていたよりも多くの知識を与えます。

しかし、他の分野からの経験、LLMのための合成データからビデオ生成がどのように進むかから、ますます学んでいることは、おそらく合成経験を作成する最も強力な方法は、本当に良いモデルからであることです。

モデルはおそらく、人が持っているよりもこれらの細かい詳細についてより多くを知っています。しかし、もちろん、そのモデルはどこから知識を得るのでしょうか。世界を経験することからです。

ある意味で、あなたが言ったことは、非常に強力なAIシステムが多くのものをシミュレートできるということで非常に正しいです。しかし、その時点では、ブラックボックスとして見ると、そのシステムで起こっていることは、情報が入ってきて、能力が出てくるということです。

その情報を処理する方法が、何かをシミュレーションで想像することなのか、何らかのモデルフリー手法なのかは、その能力の理解にとってある種無関係です。

人間の夢とシミュレーション

あなたは人間での同等物が何かについて感覚を持っていますか。私たちが白昼夢をしているときや眠っているときに行っていることは何でも。

この補助的なことの私たちが行っているものについて何らかの感覚を持っているなら、しかしML類推をしなければならないとしたら、それは何ですか。

確実に眠っているとき、あなたの脳は起きているときに行うことと非常に似て見えることを行います。

経験を再生したり、おそらく新しい統計的に類似した経験を生成したりするように見えます。学習されたモデルを通したシミュレーションが、基本的に脳が反実仮想を理解する方法の一部であると推測するのは非常に合理的です。

それよりもさらに根本的なことは、その核心での最適な意思決定は、どのように行うかに関係なく、反実仮想を考慮することを要求することです。

基本的に「これの代わりにそれをしたら、より良いでしょうか」と自分に尋ねなければなりません。何らかの方法でその質問に答えなければなりません。

学習されたシミュレーターを使用してその質問に答えるか、価値関数や報酬モデルなど、何かを使用してその質問に答えるかにかかわらず、最終的にはすべて同じです。

反実仮想を考慮し、どの反実仮想がより良いかを理解するメカニズムがある限り、それを持っています。

それについて考えるのが好きなのは、それが物事を簡単にするからです。鍵は必ずしも本当に良いシミュレーションを行うことではないことを教えてくれます。鍵は反実仮想に答える方法を理解することです。

興味深いです。

AGIとロボット経済の展開

大きな絵に再び踏み込みます。このロボット経済がいつ展開されるかの具体的な理解を得ることに興味がある理由は、データフライホイールの意味でAGIがどれだけ速く進むかを理解することに関連しているからです。

しかし、また、2030年までのAIのキャペックスを単純に外挿すると、人々は異なる推定を持っていますが、多くの人が何百ギガワットという推定を持っています。100、200、300ギガワット。

2030年までに100〜200ギガワットが展開されることについて数字をざっと計算できます。年間の限界キャペックスは数兆ドルです。年間2〜4兆ドルです。

それは実際に建設しなければならない実際のデータセンター、実際に建設しなければならない実際のチップファウンドリ、実際に建設しなければならない実際のソーラーパネル工場に対応しています。

私は2030年までに、大きなボトルネックがデータセンターの隣にソーラーパネルを敷設したり、データセンターを組み立てたりする人々だけなのか、それともロボット経済がそのプロセスで大幅に助けるのに十分成熟しているのかに非常に興味があります。

それはクールです。基本的に、2030年までにすべてのロボットを動かすデータセンターを建設するために、今どれだけのコンクリートを買うべきかと言っています。

それは私に起こったよりも野心的な考え方ですが、クールな質問です。

良いことは、もちろん、ロボットがそのようなものを建設するのを助けることができることです。

しかし、その時までにできるでしょうか。

ロボティクス以外のものがあり、これも多くのキャペックスを義務付けるでしょう。それからロボット工場などを建設しなければならないロボットのものがあります。

全体のスタック全体にわたってこの産業爆発があるでしょう。ロボティクスはそれをどれだけ加速できるか、それを可能にできるでしょうか。

原理的には、かなり多く。私たちには時々ロボットを機械的人間として考える傾向がありますが、そうではありません。人々は人々で、ロボットはロボットです。

ロボットのより良い類推は、あなたの車やブルドーザーのようなものです。はるかに低いメンテナンス要件があります。

あらゆる種類の奇妙な場所に置くことができ、人々のように見える必要はまったくありません。100フィートの高さのロボットを作ることができます。小さなロボットを作ることができます。

非常に異質なロボットシステムを動かすインテリジェンスがあれば、効果的に機械的人間を持つよりもおそらくはるかに良いことができます。

実際の人々にとって大きな生産性向上になることができ、解決することが非常に困難な問題を解決することを可能にできます。

例えば、データセンターについては決して専門家ではありませんが、ロボットは近くにショッピングセンターがあるかどうかを心配する必要がないため、非常に遠隔地にデータセンターを建設できます。

ロボット製造の経済学とスケール

ソフトウェアがどこにあるかという質問があり、それからどれだけの物理的ロボットを持つかという質問があります。

Physical Intelligenceでトレーニングしているこれらのロボット、これらのテーブルトップアームは、世界に物理的に何台ありますか。2030年までに何台あるでしょうか。

これらはインテリジェンス爆発に必要なロボットの数についての困難な質問です。これらは非常に困難な質問です。

また、ロボティクスの規模の経済は、これまでのところ、長期的におそらく機能するであろう同じ方法では機能していません。

例を挙げると、2014年にロボティクスで働き始めたとき、購入に40万ドルかかる非常に良い研究ロボットであるPR2というものを使用していました。

UC Berkeleyで研究室を始めたとき、3万ドルのロボットアームを購入しました。現在Physical Intelligenceで使用しているロボットは、アームごとに約3000ドルです。

それらがその一部で作ることができると思います。

その学習率の原因は何ですか。

いくつかのことがあります。1つは、もちろん、規模の経済と関係があります。カスタムメイドの高級研究ハードウェアは、もちろん、より製品化されたハードウェアよりもはるかに高価になります。

それから、もちろん、技術的要素があります。作動機械の構築により良くなるにつれて、それらはより安くなります。

ソフトウェア要素もあります。AIシステムが賢くなればなるほど、ハードウェアが特定の要件を満たす必要が少なくなります。

工場の従来のロボットは、高度に再現可能な動きを行う必要があります。したがって、安価な視覚フィードバックを使用できるなら必要ない精度と堅牢性の程度を必要とします。

AIもロボットをより手頃にし、ハードウェアへの要件を下げます。

興味深いです。学習率が続くと思いますか。10年の終わりまでにモバイルアームを購入するのに何百ドルになると思いますか。

それは私の共同創業者であるAdnan Esmailにとって素晴らしい質問で、おそらく世界でその質問をするのに最高の人です。

確実に私が年々見てきたコストの低下は私を驚かせてきました。

アームは世界におそらく何台ありますか。100万台以上ですか。100万台未満ですか。

その質問への答えは知りませんが、すべてのアームが同等に作られているわけではないため、答えるのも難しい質問です。

議論の余地がありますが、工場で車を組み立てているロボットは、考えるのに適した種類ではありません。

トレーニングしたい種類。

現在工場のロボットとして商業的に展開されていないため、非常に少ないです。

10万台未満ですか。分かりませんが、おそらく。

オーケー。そして私たちは何十億ものロボット、少なくとも何百万ものロボットが欲しいです。

この爆発的なAI成長を得るのに必要な産業爆発について考えているだけなら、アームが必要なだけでなく、動き回ることができる何かが必要です。

基本的に、このAIブームを動かすためにはるかに多くの労働力が必要な時までに、それが可能かどうかを考えようとしているだけです。

経済は需要がたくさんあるときに需要を満たすことに非常に長けています。

2001年に世界に何台のiPhoneがありましたか。そこには確実に課題があります。考える価値があるものです。

私のような研究者にとって特に重要な質問は、AIがハードウェアについてどのように考えるかにどのように影響できるかです。

本当に、本当に重要になるものがいくつかあります。おそらくあなたのものが常に壊れないようにしたいでしょう。その種類の箱にしっかりとあるものがいくつかあります。

疑問符の箱にしっかりとあるものがいくつかあります。何本の指が必要でしょうか。

前に自分で言ったように、2本の指でロボットが多くのことができることに驚きました。

それ以上欲しいかもしれませんが、それでも良い機能性を持たせる必要最小限を見つけることが重要です。それは重要です。

それは疑問符の箱にあります。おそらく必要ないものがいくつかあります。ロボットが超極度に正確である必要はおそらくありません。フィードバックがそれを補償できることを知っているからです。

現在の私の仕事は、逃れることができる最小パッケージが何かを理解することです。

究極のロボット、基本的に機械的人間という1つのロボットを持つことはないと思うので、ロボットを最小パッケージの観点で本当に考えています。

私たちが持つのは、効果的な良いロボットが満たす必要がある多くのものです。良いスマートフォンがタッチスクリーンを持つ必要があるのと同じように。

それは私たちが皆同意したものです。それから、ニーズ、コストポイントなどに応じて、オプションである他の多くのものが必要になるでしょう。

基本的なレベルのインテリジェンスでそれを賦与するために任意のロボットに接続できる非常に有能なAIシステムを持ったら、たくさんの異なる人々が各ニッチに最適なロボットハードウェアを得る方法について革新できる多くの革新があるでしょう。

ロボティクスのNvidia

メーカーの観点から、ロボティクスのNvidiaのようなものはありますか。

今のところはありません。いつかあるかもしれません。理想的かもしれませんが、ロボットに多くの異質性がある世界を本当に見たいと思います。

ハードウェアのボトルネック

今日、それで動作するアルゴリズムを設計している人として、ハードウェアの最大のボトルネックは何ですか。

それは主に物事が非常に速く変化しているので、答えるのが困難な質問です。

私がハードウェア側で考えることにかなりの時間を費やしているのは、本当により多くの信頼性とコストです。

コストをそれほど心配しているわけではありません。コストがロボットの数に変換され、それがデータの量に変換されるだけです。

ML人間として、私は本当にたくさんのデータを持つことが好きです。より多くのロボットを持つことができるので、より低コストのロボットを本当に持ちたいと思い、したがってより多くのデータを持つことができます。

信頼性は、多かれ少なかれ同じ理由で重要です。

物事が進歩するにつれて、それについてより明確になるでしょう。

基本的に、今日のAIシステムはハードウェアを限界まで押し進めていません。AIシステムがより良く、より良くなるにつれて、ハードウェアは限界まで押し進められ、それからうまくいけばあなたの質問にはるかに良い答えを持つでしょう。

中国の製造業における優位性

これは多くのゲストに聞いた質問です。このAI爆発のあらゆるレイヤーを通り抜けると、実際のソースサプライチェーンの多くが、明らかにチップ以外は中国で製造されていることがわかります。

データセンターについて話すと、「ああ、ソーラーパネルのすべてのウェーハーと多くのセルとモジュールなどは中国で製造されている」となります。サプライチェーンを通り抜けるだけです。

明らかにロボットアームは中国で製造されています。

あなたは、各ロボットが人間労働者が生産できる価値の一部を生産できるため、ハードウェアの製造を拡大することが信じられないほど価値があるこの世界に住むでしょう。

それが真実であるだけでなく、人間労働者や任意の労働者の価値が、何万エーカーものソーラーファームやデータセンターやファウンドリやすべてを敷設するためにたくさんの体が必要であるため、非常に急上昇しています。

このブーム世界では、大きなボトルネックは物理的に展開できるロボットの数です。製造できる数はいくつですか。あなた方は今アルゴリズムを思いつくでしょう。

ハードウェアが必要なだけです。これは多くのゲストに聞いた質問です。

あなたが観察しているチェーンの部分を見ると、中国がデフォルトで勝利しない理由は何ですか。

彼らがすべてのロボットを生産していて、あなたがそれらのロボットを超価値あるものにするアルゴリズムを思いついた場合、なぜ彼らはデフォルトで勝利しないのですか。

これは非常に複雑な質問です。

より広いテーマから始めて、それから詳細に少し掘り下げてみます。

ここでの1つのより広いテーマは、高学歴労働力を持つことによって、人の労働時間ごとにたくさんのことが行われることを意味する高い生産性を持つ人々を持つことによって先に進む経済を持ちたいなら、自動化は本当に、本当に良いということです。

自動化は各人が持つ生産性の量を乗算するものです。

繰り返しますが、LLMコーディングツールと同じです。LLMコーディングツールはソフトウェアエンジニアの生産性を増幅します。

ロボットは基本的に仕事をしているすべての人の生産性を増幅するでしょう。

今、それは最終状態、望ましい最終状態です。その状態にどのように到達するか、その旅を社会にとって魅力的なものにする方法、その地政学的次元をどのように航行するかには多くの複雑さがあります。

そのすべてのものはかなり複雑です。多くの本当に良い決定を下すことを必要とします。

バランスの取れたロボティクスエコシステムへの投資、ソフトウェア革新とハードウェア革新の両方をサポートすることについての良い決定。

それらのいずれも克服できない問題だとは思いません。長期的なビジョンと適切な投資のバランスの程度を必要とするだけです。

これについて私を本当に楽観的にするのは最終状態です。米国では、人々が高い生産性を持ち、高い価値の仕事をしている高学歴の人々を持つ社会を持ちたいということに皆同意できます。

その最終状態は私には自動化、ロボティクスと非常に両立するように思えるので、ある程度でその状態に到達する多くのインセンティブがあるはずです。

そこから、そこに到達するのに役立つすべての詳細を解決しなければなりません。

それは簡単ではありません。民間産業、投資、政治的次元の観点から下されなければならない多くの複雑な決定があります。

しかし、トンネルの終わりの光が正しい方向にあるように思えるので、それについて非常に楽観的です。

別の質問だと思います。価値がハードウェアによってボトルネックになっていて、より多くのハードウェアを生産する必要があるだけなら、何億ものロボットや何十億ものロボットが米国や同盟国で製造される道筋は何ですか。

その質問の詳細にどのようにアプローチするかわからませんが、「人間の賃金や何かへの影響は何か」とは異なる質問のように思えます。

それをどのように実現するかの詳細については、私はおそらく話すのに最も資格がある人ではない非常に長い会話です。

しかし、成分の観点から、ここで重要な成分は、ロボットが物理的なこと、物理的作業を助けることです。

ロボットを生産すること自体が物理的作業であるなら、ロボティクスで本当に得意になることはそれを助けるはずです。

もちろん少し循環的で、すべての循環的なものと同様に、それをブートストラップし、そのエンジンを動かそうとしなければなりません。

しかし、例えば、デジタルデバイスの問題よりも対処しやすい問題のように思えます。

コンピューター、携帯電話などの作成に作業が入ります。しかし、コンピューターと携帯電話は作業自体を助けません。

そうですね。フィードバックループは両方向に進みます。他の人を助けることができ、それはポジティブサムの世界です。

他の人を助けることは必ずしも悪いことではありません。しかし、この種のフィードバックループに入るもの、サブコンポーネント、製造とサプライチェーンの多くがすでに中国に存在する範囲では、より強いフィードバックループが中国に存在するように思えます。

それから別の議論があります。多分それは大丈夫で、多分それは良く、多分彼らはそれを私たちに輸出し続けるでしょう。

しかし、ゲストとさまざまなことについて話すときはいつでも、「はい、数年以内にここのサプライチェーンのあらゆる部分への重要なボトルネックは、中国が80パーセントの世界供給者であるものになるでしょう」というのが注目に値すると思います。

これが私が前に言った理由で、ここで正しく理解することが本当に重要なことはバランスの取れたロボティクスエコシステムです。

AIは非常にエキサイティングですが、私たちが行う必要がある唯一のことがAIを正しく理解することではないことも認識すべきです。

私たちの優先順位、私たちの投資、私たちが時間を費やすものの種類をどのようにバランスを取るかについて考える必要があります。

例として、Physical Intelligenceでは、ハードウェアを非常に真剣に受け止めています。

私たちは自分たちのものの多くを構築し、AIロードマップと並んでハードウェアロードマップを持ちたいと思います。

しかし、それは私たちだけです。米国にとって、議論の余地がありますが人類全体にとって、これらの問題について非常に全体的に考える必要があります。

AI のような1つの分野で多くの興奮、多くの進歩があるとき、時々気を散らされやすいです。

あなたが言ったことを含む他のことを見失いがちです。ハードウェアコンポーネントがあります。計算やそのようなものでインフラストラクチャコンポーネントがあります。

一般的に、これらのことについてより全体的な見解を持つことは良いことです。時々、それについてより全体的な会話があることを願います。

社会への影響と教育の重要性

社会全体の観点から、ロボティクスと知識労働の進歩についてどのように考えるべきでしょうか。

基本的に社会は完全な自動化のために計画すべきです。

私たちがこれらすべてのデータセンターと工場を建設しているこの経済の巨大なブームがある期間があるでしょう。人々の仕事ははるかに価値があるでしょう。

最終的に人間は自分の体でできることと心でできることがあります。秘密の第3のことはありません。

社会は何のために計画すべきでしょうか。完全な自動化であるべきです、人間の。

社会もはるかに裕福になるでしょう。おそらく誰もが今日よりもはるかに良い状況になるような方法があります。

しかし、最終状態、トンネルの終わりの光は、完全な自動化ですが、プラス何らかの再分配または何らかの方法でそれを理解する超裕福な社会です。

その特徴に同意しないかどうかはわかりません。

ある程度でそれは物事を見る非常に合理的な方法です。

しかし、技術について私が学んだことが1つあるとすれば、それは人々が期待するとおりに進化することはめったにないということです。

時々旅程は目的地と同じくらい重要です。

最終状態を事前に計画することは非常に困難です。方向的に、あなたが言ったことは多くの意味を成します。

私たちがより大きく、より大きな自動化を受け入れる方法で私たちの周りの世界を構造化する方法について集合的に考えることは本当に重要だと思います。

しかし、物事があらゆる種類の予測不可能な方法で進化するので、目的地と同じくらい旅程について本当に考えるべきです。

自動化がすべてのセクターで現れることを見つけるでしょう。おそらく最初に期待する場所ではないでしょう。

ここで本当に重要な定数は、教育が本当に、本当に価値があることです。

教育は、変化の負の影響に対して誰かが持つ最高のバッファです。

集合的に社会として引くことができる1つの単一のレバーがあるとすれば、それはより多くの教育です。

それは本当ですか。モラベックのパラドックスは、人間にとって教育から最も恩恵を受けるものが、AIを教育することが本当に簡単であるため、自動化するのが最も簡単かもしれないということです。

8年間の大学院学校で受ける教科書を午後に投げることができます。

教育があなたに与えるものは柔軟性です。あなたが知っている特定の事実についてというよりも、スキルを習得し、理解を習得するあなたの能力についてです。

良い教育でなければなりません。

はい。オーケー、Sergey、ポッドキャストに来ていただき、本当にありがとうございました。非常に魅力的でした。

はい、これは激しかったです。困難な質問でした。