あらゆるタスクに対応する汎用ロボットの訓練:Physical IntelligenceのKarol HausmanとTobi Springenberg

Physical Intelligenceは、あらゆるロボットがあらゆるタスクを実行できる汎用ロボット基盤モデルの構築を目指すスタートアップである。本インタビューでは、創業者のKarol HausmanとTobi Springenbergが、従来の認識・計画・制御に分割するアプローチが根本的に誤りであった理由と、エンドツーエンド学習と強化学習がいかに実用展開を可能にしているかを解説する。彼らは最新モデルPi-Star 0.6により、ロボットが13時間連続でコーヒーを淹れるなど、実世界での堅牢なパフォーマンスを達成した。このモデルは外科手術ロボットからドローン飛行まで、我々が完全には理解していない方法で根本的に異なるタスク間で汎化する能力を示している。インタビューでは、強化学習を通じて経験から学習する技術的洞察、シミュレーションではなく実世界でのRL適用の重要性、そしてロボティクスがハードウェアではなく知能によってボトルネックとなっている現状についても議論される。

Training General Robots for Any Task: Physical Intelligence’s Karol Hausman and Tobi Springenberg

Physical Intelligence’s Karol Hausman and Tobi Springenberg believe that robotics has been held back not by hardware lim...

ロボット基盤モデルの驚異的な可能性
Physical Intelligenceのミッションと基盤モデルへの注力
ハードウェアではなく知能がボトルネック
能力、汎化、パフォーマンスの3つの課題
展開可能な段階への到達
技術アーキテクチャの現状と将来
ロボティクスにおける学習の進化
推論能力とRLの役割
データの量と質、多様性について
Pi-Star 0.6と強化学習アプローチ
Pi-Star 0.6の結果と展開への影響
インターネット動画とワールドモデルの可能性
顧客展開と商業化戦略
最後に:驚異と感謝

ロボット基盤モデルの驚異的な可能性

この全体がうまく機能しているという事実だけでも、本当に驚異的ですよね。

ええ、本当にそうです。

つまり、脳から緩やかにインスピレーションを得たようなものを構築して、非常に汎用的な学習アルゴリズムを持たせるわけです。データを与えると、なぜかそれを理解して、これまで持っていたどんなものよりもはるかに優れた形で理解するんです。

そしてこれはロボットにも適用されますし、視覚や言語、音声、その他あらゆる種類のものにも適用されます。ちょっと立ち止まって、それがどう機能するのか、そしてそれが機能するという事実について考えてみると、本当に圧倒的に驚異的なんです。

このエピソードでは、ロボティクスの基盤モデルを構築している会社、Physical IntelligenceのCarolとTobyをお迎えしています。

CarolとTobyは、ロボティクスを認識、計画、制御に分割する古典的なアプローチがなぜ根本的に間違っていたのか、そして強化学習を用いたエンドツーエンド学習がいかにして展開を可能にしているのかを説明します。彼らがどのようにして堅牢な実世界パフォーマンスを達成したのか、ロボットに13時間連続でコーヒーを淹れさせることに成功した話や、これらのモデルが外科手術ロボットからドローン飛行まで、私たちが完全には理解していない方法で根本的に異なるタスク間でどのように汎化するのかについてお聞きします。

また、Physical Intelligenceの最新モデルであるPi-Star 0.6の背後にある技術的洞察についても話します。これは強化学習を使って経験から学習するモデルです。では番組をお楽しみください。

Physical Intelligenceのミッションと基盤モデルへの注力

Carol、Toby、今日はお招きいただきありがとうございます。

お招きいただきありがとうございます。

Physical Intelligence、汎用ロボティクスなど、すべてについて話すのを楽しみにしています。

始める前に、視聴者の皆さんのために、Physical Intelligenceとは何か、そしてあなた方が追求しているミッションについて少し教えていただけますか。

ええ、Physical Intelligenceでは、ロボット基盤モデルを構築しています。これらは原理的には、あらゆるロボットがあらゆるタスクを実行できるようにすべきモデルです。

過去1年半ほどの間に、これらのモデルがどのようにスケールできるかを示す適切な構成要素の構築を始めました。私たちは、多くの異なるロボット形態、多くの異なるタイプのロボットを制御できることを示してきました。また、これらが汎化できること、つまり完全に新しい環境に持ち込むことができ、それらが汎化するために何が必要かを示してきました。

そして、Pi-Star 0.6と呼ばれる最新リリースでは、これらを優れたパフォーマンスに到達させて、展開可能になり始めていることを示したかったのです。

これは私たちにとって本当に重要なことです。なぜなら、この技術が実際に実世界で展開されるのを見たいからですが、同時に、インターネット上に無料のデータがあるという恩恵を受けられないからでもあります。

ロボットのアクションのデータは存在しません。だから、データセットを自分たちで作成する必要があるんです。

つまり、私たちはPhysical Intelligenceの問題、ロボット用の基盤モデルを作成する問題に取り組んでいます。そして、かなりの進歩を遂げてきました。

素晴らしいですね。基盤モデルを構築するという決断について質問してもいいですか。つまり、現在、完全に垂直統合されたロボット製品を構築している会社もありますよね。

先月のSundayのローンチは私の頭の片隅にあります。家庭用のかわいい小さなロボットヘルパーを購入できます。料理ロボットに取り組んでいる会社もあります。そして明らかに、ヒューマノイド企業もあります。なぜ自分たちでロボットを作るのではなく、基盤モデルを構築するのですか。

ハードウェアではなく知能がボトルネック

ええ。ロボティクスの歴史を見ると、私たち、そして多くのロボティクス研究者にとって非常に明確なのは、私たちは常に知能によってボトルネックになってきたということです。

家庭でも産業環境でも、信じられないことができるロボットを持っていました。10年以上前に、テレオペレーションすれば家全体を掃除できるロボットを見ました。そして、テレオペレーションすればという非常に重要な注意点があります。

つまり、その背後に人間の心があれば、ハードウェアが多くの異なることをできることは明らかです。そして非常に長い間、ロボティクス企業は、あなたが説明したような方法で構造化されてきました。つまり、単一のタスクや単一のアプリケーションだけを行うように設計された特定のロボットを作成することを考えるわけです。代わりに私たちが考えたのは、この分野を本当に助けるのは、ボトルネックである知能に焦点を当てることだろうということでした。

だから、私たちはそのボトルネックに焦点を当てるために会社を作りました。なぜなら、そのボトルネックに対処すれば、実際にロボットを実現できると考えているからです。そして、他のやり方でやると、基本的にはできるだけボトルネックに対して進歩を遂げていないことになります。

だから、この問題に正面から取り組もうと考えました。知能に焦点を当てて、それができれば、多くの異なる垂直製品につながるでしょう。家庭での、産業環境での、基本的にあらゆる場所でのロボットの展開につながるでしょう。

それを少しテストしてもいいですか。ハードウェア面では、例えば、Optimusの手の最新動画を見たことがあります。

それは素晴らしい。芸術作品です。10年前にテレオペレーションされたロボットが家を掃除している動画は見たことがありませんでしたが、現在可能になりつつあるタスクのセットがあるのではないかと思っています。例えば、料理とか、玉ねぎの皮をむいて刻むことができるとか、以前のハードウェアではできなかったことです。

ハードウェアは、現在いる地点のwhy nowの要因としてどのくらい重要だと思いますか。

ハードウェアには多くの進歩があります。

特にヒューマノイドハードウェアには。

例えば、あなたが言及した器用な手は、

数年前よりもはるかに優れていると思います。

ええ。

でも、それでもボトルネックには対処していません。以前でも、単純なグリッパーでロボットに野菜を刻んだり料理をさせたりすることはできたでしょう。問題は、これらのロボットを操作する知能を持っていないということです。

そして、ハードウェアがより複雑になっても、それは本当にそのボトルネックを解決するわけではありませんよね。潜在的にはより多くのことができるようになるかもしれませんが、

ロボットが十分に知的でないという根本的な課題によって、依然としてボトルネックになっています。

なるほど。つまり、ハードウェアはできることの上限を上げるかもしれませんが、能力のフロアにはまだ到達していないと。

その通りです。単純なロボットでさえ、私たちはまだ人間のオペレーターのレベルには達していません。

つまり、限界は知能レイヤーだということですね。知能を開発することの限界は何ですか。データを収集することですか。それを安価に行うことですか。なぜなら、問題を分解しているわけですから。

なぜなぜと聞き続けて、さらに掘り下げていきます。知能や汎化を解決するためのボトルネックの次のレイヤーは何ですか。

良い質問ですね。私たちは3つの要因で考えました。能力、汎化、パフォーマンスと呼んでいます。

能力、汎化、パフォーマンスの3つの課題

能力については、タスクやロボットのためにデータを収集できる限り、そのタスクを複製し自動化できるモデルを持つべきだという考えでした。

これは私たちがかなり早く到達したものです。

これは約1年ほど前のPi-0リリースでした。

任意のタスク、任意のロボットのためにデータを収集できれば、それを自動化できるべきで、すべてが学習できるべきだということが基本的に可能であることを示しました。次の課題は汎化に関するもので、これはまだ未解決の課題です。つまり、ロボットがゼロショットで機能し、例えば新しい家に持ち込むだけで、その家でどう操作すればいいかを知っているべきだという地点に到達したかったんです。

そして、これは本当に本当に難しい問題ですよね。ロボットを新しい家に置くと、異なるアイテムがどこにあるか、カウンターの見た目が違うこと、照明が違うこと、過去に見たものとは異なることなどを理解する必要があります。

この問題が解決されたとは言いませんが、どう解決するか、どうスケールするかについて理解し始めていると思います。

そして、機械学習で知っている汎化への唯一の答えは、データの多様性を通じてです。多くの異なる多様なデータセットを見れば、見たものと類似した設定に汎化できるはずです。そして、これは今年4月のPi-0.5リリースで見たもので、ロボットを以前訪れたことのない新しい家に持ち込んで、その家で操作できる地点に到達しました。

まだ完璧ではありませんが、少なくとも、キッチンを掃除するような単純なタスクについて、どう進めればいいかについてある種の常識を持っています。そして最後の課題、これもまだ完全には解決されていないのがパフォーマンスです。つまり、これらのモデルを、実際に展開できるほど十分に良いパフォーマンスを持つ地点にどう到達させるかです。

そして、ここでの展開は本当に本当に重要です。なぜなら、前述したように、データを収集する必要もあるからです。これが最もスケーラブルなデータ収集方法になると思います。なぜなら、

経済的に価値のあるタスクを実行しているロボットが世界中にあることになるからです。そうすれば、そのデータ収集のコストは基本的にマイナスになります。そして、この技術をより広く展開できればできるほど、より多くのデータが得られます。最終的には、これが最大のデータソースになると思います。例えば、インターネットデータよりもはるかに大きくなることが想像できます。

汎化やパフォーマンスから、どのくらい離れていると思いますか。制御された環境かもしれませんし、家庭やオフィスの一般的な環境かもしれませんが、全世界ではない場合、それを制限できるなら、

汎化とパフォーマンスがどこにある必要があると思いますか、この種のロボットを展開できるようになる前に。

展開可能な段階への到達

実際には、これらのロボットを展開するのにかなり近いところにいると思います。私たち自身、すでに展開を始めています。

技術が実際に展開可能になり、商業環境でロボットを展開して何か価値あることをさせられるようになるまでに、約5年かかると思っていました。でも、2ヶ月ほど前にそれを達成したと思います。だから、モデルが十分に有用で、十分にパフォーマンスが良く、実際に有用になるのに十分な種類のタスクを実行できる閾値に今到達していると思います。

これは本当に本当にエキサイティングな瞬間です。その閾値を越えたばかりだと思います。展開できる範囲の開口部がどのくらい広いかはまだ決まっていないと思います。失敗が本当に壊滅的になり得るタスクもあります。おそらく、これらはまだ展開するのに最適なタスクではありません。

家庭への展開のような多くの汎化を必要とするタスクや、プライバシーや安全性の懸念などがあるタスクもあります。おそらく、これらはまだ展開するのに最適な場所ではありません。しかし、より多くのデータを収集し、これらのモデルが改善されるにつれて、より多くの設定で展開できるようになり、開口部は広がっていると思います。

だから、到達し始めていると思います。

現在展開している開口部はどこですか。これは実際には答えるのが非常に難しい質問です。なぜなら、これらの基盤モデルでは、完全には分からないことがあるからです。大規模言語モデルと同様に、このモデルをトレーニングして、社内で調整し、最高の仕事をしようとして、最後の最後にこのアーティファクトが得られて、アーティファクトがどれくらい良いかを実際に予測することはできません。テストする必要があります。そして、これらのモデルでも同じ場所にいます。例えば、私たちはそれらをオープンソース化しているので、私たちだけがテストするのではなく、その能力を知る上でボトルネックになることはありません。オープンソース化することで、実際に想像していたよりもはるかに多くのアプリケーションに適用されているのを見ています。

運転や外科手術ロボット、農業などのようなものです。だから、開口部が何であるかについて良い見積もりはありません。予想していたよりも広いと思います。

そして、時間とともに成長していくと思います。これらのモデルがより多くのデータを得て、より成熟するにつれて、開口部は成長し続けると思います。パフォーマンスレベルについて少し付け加えるなら、あなたが言ったように、開口部は思ったよりも広く、出発点は広いですが、同時に、実際にそれらの出発点のそれぞれを、人々が日常的に使いたいレベルにしたい場合、ビジネスを運営する場合、おそらくパフォーマンスの面でまだかなりの登り坂があります。

このリリース、少し後で話すPi-Starで、経験データから学習してそれを戻し、展開時にモデルを改善することについて進歩を遂げました。私が素朴に想像できる多くのことについて、まだ完全に解決する方法をうまく把握していない、うまくいかない可能性のあることや遭遇する可能性のある本当に長いテールのシナリオがたくさんあると思います。

技術アーキテクチャの現状と将来

そして、あなた方は結果を公開することについて本当に素晴らしい仕事をされていて、多くの透明性を持ってオープンソースをリリースしています。共有できる範囲で、全体的な技術アーキテクチャについて話していただけますか。そして、この約束された地に到達するためのアーキテクチャは、かなり固まっていて、現在の場所をテーマにしたバリエーションで、大量のデータを収集する必要があるだけだと思いますか。それとも、アーキテクチャがまだ解明されつつあると思いますか。現在の場所について少し議論することから始めて、それがどう変わるかについて詳細に入ることができると思います。現時点では、アーキテクチャはVLMの構築方法と非常に類似しています。おそらく、皆さんが日常的に対話しているものですよね。何かを入力して、画像を入れて、画像に何が書いてあるかを読んでもらうなどです。

そして、私たちは基本的に同じ出発点から始めました。つまり、インターネット規模のデータでトレーニングされたモデルがあり、画像データとテキストを取り込んで、このロボティクスデータをすべて追加しています。私たちのトレーニングは現在、主にロボティクスデータ、自分たちで収集したデータで行われています。少しのインターネットデータが混ざっていますが、大部分はロボティクスデータです。

アーキテクチャは、一種のビジョン言語モデルとして、私たちがアクションモデル、アクションエキスパートと呼ぶものを側面に追加します。これは実際にロボットを駆動する必要があるモデルの部分です。基本的には画像と指示を見て、タスクを実行する必要があり、ロボットにコマンドを送る必要があります。大まかには、これはトランスフォーマーモデルで、現時点で数十億パラメータまでのかなり大きなモデルです。ロボティクスデータとインターネットデータで事前トレーニングしています。

そして、最初は主に人間のデモンストレーションデータからトレーニングされます。Carolが前に少し言及しましたが、人間がロボットに物事をさせようとするテレオペレーションデータがあります。だから、現在のアーキテクチャはそのように見えて、大まかなスケーリングは、データをスケーリングすることから得られています。そして、VLMの世界から来るものと似たモデルを使用しています。

それがどう変わるかは未解決の問題だと思います。これらのモデルに、私たちも探求しているより多くの能力を追加する多くの機会があると思います。想像できるように、これらのモデルにより多くのコンテキストが必要になるかもしれません。モデルが使用できる必要のあるより多くのカメラをロボットに追加したいかもしれません。

物理世界をより良く理解したいかもしれません。つまり、部屋に何があるか、何が壊れる可能性があるか、何が簡単に動かせるかなどを正確に理解するという意味で。だから、これらの能力について、またアーキテクチャを変更することについて、やるべきことがたくさんあると思います。5、6年後に振り返って、当時使用していたモデルのバックボーン、現在はVMランドから来ているものが変わったかもしれないと言っても驚かないでしょう。多少異なるものを使用するために移行したかもしれません。時間とともに進化すると思いますが、データとモデルへの取り込み方の基盤はおそらくこのまま維持されると思います。

了解しました。それをピクセルや信号が入って、アクションが出ると考えるべきですか。それは単一の大きなニューラルネットですか。

1つの大きなモデルです。ええ。基本的には、現時点で画像が入り、テキストが入り、テキストが出て、アクションが出るだけです。

ロコモーションとマニピュレーションで別々のスタックを持っていますか。おそらくこれは、ロボティクスにおける学習の歴史的進化と、それがあなた方のスタックにどう関連するかについて話す良い機会かもしれません。

ロボティクスにおける学習の進化

ええ。だから、学習がここに到来する前の長い間、人々は、ロボティクスは、十分な人々、十分なエンジニアを投入すれば、本当に一生懸命考えて、最終的には世界で何でもさせるコードを書けるような問題の1つだと考えていました。

人々はこの方法で本当に一生懸命やろうとしましたが、世界があまりにも複雑すぎることが判明しました。

ええ。

実世界で遭遇するすべてのケースを書くことはできません。

だから、それはうまくいきません。

そして、この問題のバージョンに取り組もうとしていたとき、人々がいつもやることをやりました。この問題をより小さなサブ問題に分解しようとするんです。だから、完全なロボティクス問題に取り組むのではなく、問題の認識面があり、問題の制御面があり、問題の計画部分があると言うでしょう。そして、これはほとんど異なるコミュニティに成長しました。

計画コミュニティがあり、制御コミュニティがあり、独自の会議、独自の問題などがあります。

ええ。

だから、すべてのルールを手書きすることは実際には不可能だと認識したとき、

人々はそれらを学習すべきだと考えました。データから学習すべきだと。これは本当に良いアイデアのように思えますよね。これは私たちも学ぶ方法ですから。でも、結局起こったことは、人々がこれらの分解されたコンポーネントのそれぞれを、学習を通じて個別に学習し始めたということです。

ええ。

完全に学習された認識レイヤーがあるでしょう。学習された制御レイヤーがあるかもしれません。学習されたプランナーがあるかもしれません。

そして、それはある程度の進歩を示しました。以前持っていたものよりも良かったです。

ええ。しかし、この問題をこれらのサブコンポーネントに分解することが、実際にはうまくいかない部分であることが判明しました。

なぜなら、このグラスを拾おうとするとき、認識、計画、制御の観点から考えることはないからです。ただグラスに向かって行くだけです。ただグラスを拾うだけで、すべてが非常に自然です。だから、この認識が物体の位置を与え、プランナーが軌道を与え、制御がそれを実行するという、事前定義されたインターフェースを持つパイプラインアプローチが崩壊することが判明しました。

だから、私たちが知っていると思っていたすべてのこと、私たちがどう働くかは常に間違っていました。

だから、次の段階に到達しました。そこで、おそらく、この問題を分解することがそもそも悪い考えだったのだと言いました。

ええ。

だから、全体をエンドツーエンドでトレーニングしましょう。感覚入力をネットワークへの入力として取り、アクションを出力として持ちます。

これが私たちがエンドツーエンドアプローチと呼ぶもので、ピクセルから直接アクションに行こうとします。

そして、ネットワークに、またはこれらの異なるコンポーネントにどう分割するかを学習アルゴリズムに考え出させます。それが可能であればの話ですが。

ええ。そして、それをやっている間に、これを行うには大量のデータが必要であることがわかりました。

そして、ある種の常識を必要とするときにしばしば壊れます。一人称視点のアクションデータセットを通じてその常識を収集することは本当に本当に難しいです。なぜなら、これを行うには世界のすべてのことを経験する必要があるからです。

ええ。そして、そこで私たちはビジョン言語アクションモデルに出会いました。そこで、インターネットデータで事前トレーニングされたモデルを使用でき、すでに世界がどう機能するかについてかなり良い理解を持っています。

その知識を活用できるので、すべてを直接経験する必要はありません。

その上にいくつかのアクションコンポーネントを追加するだけで、共通の世界理解を持ち、世界で実際に物事を実行する方法に接続できます。

なるほど。

そして、それが今日いる場所の大まかなところです。

なるほど。

Physical Intelligenceでは、他のいくつかのことを解明しました。これらのモデルをどうスケールするか。どう汎化させ始めるか。どうパフォーマンスをはるかに良くするか。どうはるかに速く動かすか。展開し始められる地点にどう到達させるか。でも、大きくは、インターネット事前トレーニングからの常識知識をどう持ち込むかという時代にまだいると思います。どうこれらのモデルを非常に一般的にして、任意のロボットで機能し、モーションを実行できるようにするか。

推論能力とRLの役割

推論のようなものについて質問してもいいですか。大規模言語モデルの推論側で多くのことが起こっています。VLAバックボーンの一部として、その恩恵を受けますか。エンドツーエンドでトレーニングすることの結果として推論が出現しますか。それとも、LLMの世界で起こっていることのいくつかの恩恵を考えることができますか。それらはあなたに恩恵をもたらしますか、それともそうではありませんか。今日持っているモデルは、間違いなく、即座のアクションだけでなく、次の50のことを計画しています。私がする必要がある次の50のことは何かという意味で、次の50のタイムステップのようなものです。ある意味では非常に短い範囲です。50ステップは1秒か2秒のようなものです。また、言語空間でタスクをサブタスクに分解します。キッチンを掃除するように頼むと、最初に選び出すサブタスクは、カウンターに移動しなければならない、というようなもので、そしてグラスを拾って、グラスをシンクに移動しなければならない、という感じです。

ある意味では、すでにそれらの側面を持っているんです。タスクをサブタスクに分解します。なぜなら、自分自身にサブタスクを与え、アクションがどう進むかの少しの範囲を予測するからです。だから、その一部はすでにあります。将来的にはもっと多くなるだろうと思います。

推論のためのRLトレーニングのすべての進歩、これらすべてがロボティクスにも入ってくると完全に期待しています。

それについて考えるのはかなり興味深いと思います。なぜなら、例えば人々が行う数学問題のためのRLとは少し異なるかもしれないからです。それらは私たち人間にとって、テキストの問題として考えるのは簡単ですよね。頭の中でテキストのように考えます。この式をこのように変えれば、この結果が得られる、というように。そして、Physical Intelligence部分については、おそらくそれよりも少し異なると思います。新しいスポーツを学ぼうとするときとは少し異なります。例えば、私は最近テニスをプレイすることを学ぼうとし始めました。

そして、ラケットをつかむ必要がある、ここに動かす必要がある、このスイングをする必要がある、と頭の中で考えることはありません。でも、モーション自体について考えるんです。体がどう動くかについて考えます。もしかしたら、ある意味で頭の中で周囲の物体の軌道を計画するかもしれません。

そして、それらのことが時間とともにモデルにもっと入ってくると思います。

ええ、時間とともにそうなると思います。今は、ビジョン言語モデルからかなり恩恵を受けている場所にいます。それが逆転する可能性が非常に高いと思います。

今日LLMで見られる多くの欠点は、テキスト問題、数学やコーディングのような問題に焦点を当てているために組み込まれているんです。

ええ。

そして、ロボティクスはこの新しい道を提供すると思います。

推論について再考する必要がある場所です。推論はおそらく、少しテキストで推論でき、少し画像で推論でき、もしかしたら軌道や知っているあらゆる種類の異なる空間で推論できる、ある種の抽象空間で起こるべきです。答えに到達するために。

そして、ロボティクスは、物理世界に根ざしたこの本当に良いテストベッドを提供します。まだそれほど多くのデータはありません。だから、それに伴う困難に対処する必要があります。しかし、それから、LLMの世界に再適用される新しい発見につながると思います。

データの量と質、多様性について

データについて話しましょう。すでに収集したデータの量と、来年にどれだけ収集したいかの大きさを教えてください。

もちろん多ければ多いほど良いでしょうが、どのような規模について話しているんですか。

ええ、データは、実際にはかなり微妙なものの1つです。量の問題だけではありません。

ええ。品質も明らかに重要ですが、多様性のようなものも重要です。ロボットデータの質や多様性について考えるときでさえ、これらは非常に厳密に定義された用語ではありません。同じタスクを10の異なる方法で行う場合、これは多様なデータですか、それとも、10の異なるグラスについてのデータの多様性とどう比較しますか。

だから、これは、コミュニティとして、データをどう特徴づけるか、多様性をどう記述するか、データの質をどう記述するか、どう非常に厳密にするかを完全に理解していないことの1つだと思います。また、データのある側面が本当に本当に重要であることもわかっています。

例えば、タスクで特定のパフォーマンスに到達したい場合、すでに持っているデータの量を増やすだけではそこには到達できません。Pi-Star 0.6リリースのために3つの異なるタスクに取り組んできましたが、これまで収集してきたのと同じ方法でより多くのデータを収集し続けるだけでは、パフォーマンスがプラトーになることにかなり早く気づきました。良くなり続けることはありません。

だから、新しい収集方法を見つけるか、どんな種類のデータがより良いパフォーマンスにつながるかを考え始める必要があります。そして、これが強化学習やそのようなものが本当に本当に役立つ場所です。

Pi-Star 0.6と強化学習アプローチ

強化学習について話しましょう。Pi-Star 0.6について話しましょう。

Starはq-starへのうなずきですか、それとも。

実際には、policy starに到達しようとしているんです。最適な。

Policy starです。わかりました。素晴らしい。Pi-Star 0.6で何をしているかについて一言言っていただけますか。そして、RLがあなた方の世界で何を意味するかについて掘り下げることができます。

ええ、もちろんです。つまり、これまで話してきたことと対比して、主な違いは、その時点まで、基本的にロボティクス基盤モデルの学習はすべて、基本的にデモンストレーションデータ、テレオペレーションされたデータがモデルに入っていたということです。モデルは、そのデータを模倣するようにトレーニングされます。そして今、この新しいモデルPi-Star 0.6で使用しているのは、基本的には、実際にポリシーを実行することによってロボット自身が収集する経験からのRLです。だから、最初のポリシーはこのデモンストレーショントレーニングされたポリシーから始めて、それから展開します。

実際にロボットにタスクを解決させようとして、それから人間によって与えられる報酬信号を追加で得ることができ、修正も得られます。人間が介入して、実際にはこれは正しくない、これを少し違うやり方でやりましょう、と言うところです。そのデータ、そのプロセス、基本的にそのデータが収集され、戻ってきて、モデルは基本的にそのデータを使って、どのデータを強化すべきか、もっとやるべきか、どれをあまりやらないべきかを考え出そうとします。

そして、基本的に時間とともに自分自身を改善します。それが大きな違いです。そして、その実際のデータのストリームが入ってくることが、Carolが話していた、私たちが到達しつつあると気づいていたプラトーから今逃れることを可能にする欠けているピースのようなものです。

ええ。

そして、私の頭の中では、報酬信号で丘を登っていると思います。特定のタスクで丘を登るときに、どうやって汎化していることを確認しますか。この特定の種類の問題について考えている方法は、この種の一般的なモデルがあり、素晴らしくないパフォーマンスを達成するというものです。

そして今、最初の目標は実際にはさらに汎化することではありません。まずこの特定のタスクを解決したいんです。だから、展開して、3、4つのタスクを選びました。だから、タスク間で汎化する必要があります。それにもかかわらず、方法は汎化する必要があります。でも、実際に展開してこのRLプロセスを開始しようとするとき、本当に気にするのは、このタスクを確実に仕上げて、多くの異なる位置から解決できる方法で仕上げ、遭遇するすべての長いテールの失敗に対処できるようにすることです。ある意味では、汎化とパフォーマンスは、ただこの1つのタスクをやっているだけと見ると、対立しているように見えるかもしれませんが、

でも、本当に最終的にやりたいことは、これらの各タスクに展開される同じ方法、同じプロセスを持ち、パフォーマンスを高くして、それから、これらのすべてのタスク間のすべてのデータを持ち、基本的にそのデータを戻すことができるということです。その意味では、実際には対立していないんです。

わかりました。どのくらいRLをやっていますか。これは実生活でのRLのようですね。シミュレーションと実生活で、どのくらいRLをやっているかについて、アプローチについて少し話していただけますか。

だから、シミュレーションを使用するのとは対照的に、かなり実世界第一のアプローチを取ってきました。もちろん、研究ツールとしてもシミュレーションも探求しています。でも、Pi-Star 0.6論文のために行ったすべてのRLは、実際には実世界の実システム上で行われています。その理由は、実際には、再びモデル化するのが本当に本当に難しいからです。展開を行うときに見られる失敗の長いテールに戻ることができます。

このリリースのために実際に見たタスクから、もしシミュレーションでやっていたら見られなかったであろう失敗モードがたくさんありました。例を挙げると、箱を作るタスクが1つあります。これは実際の展開タスクで、目標は、チョコレートを入れるための小さな段ボール箱を作ることです。それから、それらを梱包して送り出すことができます。

だから、基本的にチョコレートボックスを作ることです。この箱を作ること、最初はうまくいっていて、それから新しい箱の出荷が入ってきて、それらは平らな段ボールのシートとして来るんですが、この新しい出荷で来たこれらの段ボールは完璧にミシン目が入っていませんでした。

だから、くっついているんです。それから、ロボットがそれらをつかみ始めて、この箱を作ろうとテーブルに置くと、突然テーブルに2つの箱があるんです。これは、個別の段ボールを得るだけの良いシミュレーターを書いていた場合、シミュレーションでは起こらないことです。それらを折り畳むように。

そして今、この問題に対処する必要があります。そして、シミュレーションですべてを学習してから展開しようとすると、それに遭遇しないでしょう。だから、私たちはそれに遭遇して、それから私たちのある種の方法は、実際には何をする必要があるかを理解できます。これを分離する必要があり、その2つ目のピースを戻して、箱を作る必要があるということを。

そして、特にロコモーションで、シミュレーションで適用され、実世界に転移されるARLの多くの成功を見ています。

ええ。

そして、この種の方法でマニピュレーションでその種の成功を実際には見ていません。

そして、おそらくその理由の1つは、ロコモーションで、動き回ろうとすることで、問題の最大の部分は自分自身の体をモデル化することのようです。

だから、ロボットとして自分自身をどうモデル化するかを理解できれば、基本的にはほとんどそこにいるようなものです。だから、このモデリング演習をシミュレーションで一度行うことができます。なぜなら、自分自身のために、この1つのロボットのためにだけ行う必要があり、それから基本的には完了だからです。本当に本当にうまくやれば、転移するはずです。しかし、マニピュレーションでは、問題は自分の体をどう動かすかではなく、世界がそれにどう反応するかです。

実際に周囲の世界を変えているんです。

手をAからBに動かす方法を理解するのは難しくありません。難しいのは、これが対話している物体にどう影響するかを理解することです。そして今、問題はもはや自分のロボットをモデル化するだけではありません。世界全体をモデル化する必要があるんです。対話している可能性のあるすべての物体、考えられるすべてのタスクを。

そして、そこでスケーリングの問題が見られます。

そして、それが私が考える理由で、これらの種類の方法がマニピュレーションでそれほど効果的ではなかった理由です。

Pi-Star 0.6の結果と展開への影響

Pi-Star 0.6の結果のヘッドラインは何でしたか。そして、気にしていたテストでRLの後にモデルがどこに到達したと思いますか。そして、それが今後の全体的なトレーニングレシピについて何を意味すると思いますか。

ええ、だから、私にとって最も印象的なことは、正直に言うと、個人的に見たのは、これらのモデルを一度に何時間も実行し、多くの異なる失敗から回復し、基本的にただ続けることでした。同時に、始めた最初のモデルよりもはるかに良い速度でそれを行うことです。だから、ヘッドラインの数字は、これら3つのタスクでポリシーのスループットを2倍以上増加させました。だから、1つのタスクはすでに話した箱作りタスクでした。

1つは、実際の産業規模のエスプレッソマシンでコーヒーを淹れることでした。もう1つは洗濯物を畳むようなものでした。

それぞれについて、デモンストレーションだけからトレーニングされたベースポリシーをはるかにはるかに速くすることができました。また、失敗から回復する能力をはるかにはるかに良くすることができました。

そして、それを実際に見るとき、そこに座っていると、私たちのウェブサイトに行けば、ロボットが13時間連続でコーヒーを提供したり、4時間洗濯物を畳んだりする動画を見ることができます。実際にそれを生で見ることは、これらのモデルについての考え方を変えます。

それらを実際に展開できることが現実的であると、少なくとも私が考える方法を変えます。そして、一度だけ示されるおもちゃのデモではない方法で、実際に本物を完全に行う方法で。

そして、それがロボティクスにおける本当の課題だったと思います。多くの人が気づいていないと思います。

ええ。ロボットがクールなことをしている多くの動画を見ますよね。そして、私たちもこれらの動画を投稿しています。ロボットにやらせたいことは何でも、おそらくすでにロボットがそれをしている動画があります。

ええ。

でも、好きなだけテイクを撮ることができます。完璧なショットが得られるまで録画し続けることができます。そして、誰もが遭遇すると思う問題は、これらのモデルの信頼性です。どれだけパフォーマンスが良いか、タスクについてどれだけ速く進むことができるか、失敗なしでどれだけ長く実際に展開できるか。

そして、これが実世界でこれらのモデルを展開する上での最大のボトルネックだと思います。

なぜなら、2回に1回壊れるなら、実際には展開可能ではないからです。

そして、これが私たちにとってこのPi-Star 0.6リリースで最も重要なブレークスルーだと思います。実際に展開可能な場所に到達し始められることです。

私たちのオフィスでこれらのロボットを使ってコーヒーを提供したり、PIの人々に渡して家で洗濯物を畳んでもらったり、展開して実際に箱を畳んでもらったりできます。それは本当に本当にエキサイティングです。強化学習で行っていることを、主に顧客展開の信頼性ポイントとして考えるべきですか。つまり、今では、顧客サイトでコーヒー製造モデルを確実に展開でき、十分に速く、長い時間範囲で失敗しないことを確認できます。

つまり、根本的な能力の革新というよりも、顧客展開の革新ですか。それとも両方ですか。両方だと思います。Carolが少し前に言ったと思います。ある程度、私たちが本当に本当に欲しいロボット、洗濯、皿洗い、料理、運転ができる家庭用ロボット、そして人々が小さなビジネスで欲しいロボット、チョコレートボックスを作るような、古典的な方法で自動化するには高すぎる実際の問題を解決するロボット。それらは、ロボットが信頼できる必要がある場所です。

良くなければならず、初期トレーニング段階で見たことのない新しいタスクを実行する能力を持たなければなりません。

より多くの人間のデータ収集で進み、より大きく大きくなるだけで、私たちはそれをやりますが、どれだけ良く、どれだけデータを得られるか、初期ポリシーがどれだけ良くなるかには常に制限があると仮定するのは非現実的だと思います。だから、あなたが展開が欲しいならこれが必要だということですが、また、次の数年間でますます、これらの展開を行い、そのデータが事前トレーニングのソース、モデル自体を良くするためのソースとして本当に価値あるものになると予想しています。そして、少なくとも私の予測では、次の数年間で、自律的なデータ収集にますます依存するようになるでしょう。ロボットに最終的にやらせたいすべてのタスクのデータの凸包を構築するために。モデルがこれを取り込んで、それらを行うこと、補間することが得意になるように。

そして、私はそれを新しい能力として考えています。これまで、自分自身の経験から学ぶ方法を理解していませんでした。多くの試みがありましたが、実際に何かを展開できる説得力のある結果を示す規模でそれが行われているのを見たことはないと思います。

ええ。

そして、これがこの結果が私たちにとって本当に本当に重要だった理由です。自分自身の経験から学べる地点に到達したかったんです。

ええ。なぜなら、私たちが学ぶ方法と似ているからです。動画を見ることから少し学ぶことができますし、他の人から学ぶこともできますが、ある時点で、仕事で学ぶ必要があります。

自分で物事を試す必要があります。自分のアクションが実際に達成したいことにどう影響するかを見る必要があります。

ええ。

そして、自分自身の結論を出して、その方法で学ぼうとする必要があります。

ええ。

そして、これがそれに向けた最初のステップだと思います。

Rich Suttonの今年の経験の時代の論文を読みましたか。非常に深遠だったと思います。

これがあなた方にとってロボティクスにおける継続的学習を解き放つと思いますか。これはその一部になりますか。

人々が継続的学習で何を意味するかによります。これまでやってきたことよりも確実に継続的だと思います。大きな事前トレーニングミックスがあり、おそらくポストトレーニングミックスがあり、座って、本当に一生懸命働いて、それからアーティファクトが得られて、それで終わりというような。

ええ。

アーティファクトは完了していて、それを変えるためにできることはあまりありません。

今は、これははるかに生きているものですよね。同様のプロセスから始めますが、それから展開して、それから学習を続けます。

新しいことを試します。

自分自身の経験から学ぼうとして、良くなり続けます。

ええ。今、まだはるかに継続的であることができる余地があると思います。

その方法で新しいスキルを習得できる場所

または、これを行うのがさらに速くなることができます。

ええ。

おそらくこのプロセスを通じて推論することができます。だから、どれだけ仕事で学べるかのスペクトラムがあると思います。これは、できることを示しているので本当に有望ですが、はるかにはるかに良くできると思います。

ええ、同意します。これの最初にいると言います。古典的な意味で人々が考えていたであろう継続的学習、データストリームがあり、全体が回転して、最終的にはAGIか何かにつながるというような意味では、確実に継続的学習ではありませんが、正しい方向に進んでいる最初のステップです。やるべきことがまだたくさんあると思います。このリリースからでさえ、個人的には、これらのモデルがデータに戻す小さなことをどれだけうまく拾うかに感銘を受け、ある程度、驚きました。タンピングのための人間の修正だけでも、タンピングはエスプレッソを作る特定の部分です。豆を入れて、

その前にタンプダウンする必要があります。

最高の部分です。

ええ、最高の部分です。その前にコーヒーをタンプダウンする必要があります。だから

なるほど。私はコーヒーの専門家ではありません。

スキルの問題です。ちょうど良くする必要があります。

その通りです。だから、私たちのロボットは最初、あまりにも強くタンプしました。なぜなら、初期の人間のデモンストレーションが、コーヒーの粉が平らであることを確認していたからです。だから、入れることができるようにです。

それから、ロボットは本当に強くタンプして、見たときにはテーブルから自分自身を持ち上げるほどでした。それはちょっと多すぎます。だから、30から50エピソードだけで、人間が行った本当に小さな範囲の修正があり、そのデータをフィードバックすると、モデルは実際にはるかに穏やかになり、正しいことをし始めます。私はそれに本当に驚きました。なぜなら、このモデルは何百万ものエピソードで事前トレーニングされていると考え、今、少し修正するだけで、それが実際に機能するからです。それが起こるのを見ることは、この継続的学習部分に向けて指し示していることだったと思います。印象的だと思います。しかし、私がまだこだわっているのは汎化です。より良くタンプすることを学ぶと、箱を畳むのが上手になりますか、それともそうではありませんか。

この特定のケースでは、いいえ。

しかし、メカニズムは同じで、2つの箱が目の前にくっついていて、それらを引き離す必要があるという問題を修正するためにも使用できます。タンピング部分のために30の修正を得られます。箱を引き離すために30の修正を得られます。

ええ。

この箱がきれいに折り畳まれていなかったという30の修正を得られます。そして、これらすべてが一緒に蓄積されて、このより汎化された改善を与えると思います。

わかりました。だから、繰り返し可能なレシピですが、必ずしも相互受粉するわけではありません。

ええ。つまり、これをスケールアップすると、タスク間で類似したモーションがある場合、実際にAからBに転移するものも見られると期待します。

しかし、この時点では、ええ、より繰り返されるレシピのようなものだと言います。

ええ。

そして、事前トレーニングからの多くの汎化を見ています。より多くのタスク、より多くのデータでトレーニングします。

新しいタスクをオンボードするのがはるかに簡単であることがわかります。または、以前には予想していなかったタスクがゼロショットで現れるのを見ます。そして、これは改善し続けます。

特定のケイデンスで事前トレーニング実行を開始します。毎回、より多くのデータが供給され、事前トレーニングプロセスにより多くの改善を加えているため、モデルが良くなり続けているのを見始めます。また、これらのモデルがより多く展開され、あらゆる種類の異なるタスクを実行し、データを戻すことからも、より多くの汎化が見られると確信しています。

これらのモデルを展開すると、データが戻ってきて、モデルが良くなり、より多く展開でき、それからモデルが良くなり、より多く展開でき、というようになります。

ええ。

そして、おそらくあなたが提起したこの点について、このPiレシピの1つの重要な詳細な側面について実際には話していません。それは、モデルには2つの部分があるということです。

1つは、修正とRLフィードバックを通じて改善しようとしているポリシーです。もう1つの部分は、実際にこのRLフィードバックをどう得るかです。人間が修正するかもしれないと少し言及しました。それが人間の修正部分です。RLフィードバック部分は少し異なり、あなたが探している汎化のこれらの側面のいくつかをすでに持っています。これを行う方法は、最初に基本的に人間に、コーヒーを作る特定の試み、または箱を作る試みが成功したか失敗したかを基本的に伝えてもらいます。だから、これらのエピソードで提供される人間のラベルがあります。それから、価値関数と呼ばれるものをトレーニングして、基本的に、タスクのどこにいるかという与えられた地点から、成功するか失敗するかを予測しようとします。

そして、この価値関数は、このデータポイントについてそれを上げるべきか、下げるべきかを決定するためのある種のベースラインとして使用されます。成功に向かって進んでいると予想するか、失敗に向かって進んでいる可能性が高いかに応じて。そして、これらの価値関数をトレーニングするときに見たことの1つ。

だから、それらは基本的に同じ種類のバックボーンから、同じ種類のモデルでトレーニングされますが、実際にタスクを実行する実際のポリシーがトレーニングされる前に事前トレーニングされます。これらの価値関数をトレーニングすると、異なるタスクからより多くのデータを追加することが実際に役立つことがわかります。モデルは、少なくとも特定のタスクについては、いつ失敗するかを事前に、私にとって明らかになる前に、実際にかなり良くなり始めます。

例えば、ポーターフィルターを挿入しようとしている動画を見ると

ポーターフィルター。ありがとうございます。ほら、私はコーヒーを作るのが得意ではなくて、ポーターフィルターをコーヒーマシンに挿入しようとしています。それが起こる前に、正しい角度を持っていないことをある種知っています。だから、それが実際に起こる30、40ステップ前に、価値関数は、予測を見ると下がり、この特定のエピソードでは良くない、と言っているようなものです。

だから、このデータを含めるべきではありません。

興味深いですね。

そして、これはより多くのデータとより多くのタスクで良くなります。

そして、これはKarpathyのストローからビットをすする話への興味深い反論ですよね。なぜなら、最後の最後のビットを待っているわけではないからです。実際には途中で多くのシグナルを得ています。

RLはそのような広大な分野だと思います。非常に多くの異なるアプローチがあり、人々はしばしばRLをポリシー勾配法か、非常に特定のオンポリシー学習アプローチのようなものと関連付けます。私にとっては問題定義のようなもので、あなたが言及している問題を回避する多くの多くのアプローチがあります。それは、最後の最後にしか報酬を得られず、非常に長い範囲のタスクには実際にはスケーラブルではないということです。

価値関数のようなものがあります。この問題を回避しようとする時間差学習のようなものがあります。常に予測を行い、連続的な方法で行います。

そして、これはおそらく、ロボティクスが本当により広いAIコミュニティを助けることができるもう1つのことだと思います。

完璧な言語シミュレーターを持っているという利点がないからです。好きなだけシミュレーションを実行できるような。代わりに、実世界でそれを行う必要があります。だから、より効率的な方法を作る必要があり、したがって、価値関数やこのようなものを学習する必要があります。これらはどこでも本当に価値があると思います。

インターネット動画とワールドモデルの可能性

ええ。インターネット動画について少しプッシュしてもいいですか。インターネット動画は、見たところ、レシピの一部のようですが、今は大きな焦点ではないようです。インターネット動画にまだ採掘すべき金があると思いますか。そして、今起こっていることを見ると、ビデオモデル、ワールドモデル、

それがモデル能力の不連続なジャンプになると思いますか。パイプラインの重要な部分になると思いますか。

ええ。おそらくそこには2つの質問があります。1つはデータについて、展開を始められる地点にどう自己起動するかです。

もう1つの質問は、ビデオモデルとワールドモデルの側面についてです。データポイントについては、基本的に何でもありのこの起動フェーズにいると思います。モデルに追加できることを理解できるものは何でも

その恩恵のために、良いと思います。シミュレーションを追加できるかどうか、人間の動画を追加できるかどうか、ある種の手持ちデバイス、人間のテレオペレーション、どんな方法でも自己起動して、これらのモデルを展開できる地点に到達できればいいと思います。なぜなら、長期的には、この起動フェーズがあるでしょうが、それから展開フェーズがあると思います。展開フェーズは、起動フェーズでできることよりもはるかにはるかに多くのデータを提供すると思います。

だから、今、この種の奇妙なスポットにいます。多くの異なることを試して、何が定着するかを見て、展開の閾値に到達するだけです。

なるほど。

そして、展開できるようになれば、それはそれ以前にできることよりもはるかに大きくなると思います。だから、それも私たちがスプリントしていることです。

それが、これらのモデルの展開を開始したい理由です。それが、多くの異なるタスクで、多くの異なる環境でこれを行いたい理由です。この非常に強力なデータエンジンを持つことができるように。ワールドモデリング側については、ワールドモデルと私たちのアプローチは、同じ問題をターゲットにしているようなものだと思います。

反事実の問題

または信用割り当ての問題ですよね。どのアクションが成功にとって実際に重要だったかをどう理解するか、異なるアクションを取っていたら世界はどう進化していたかです。

そして、これを行う1つの方法は、何が起こったかを予測することです。このポーターフィルターを少し違うように置いたら、どこに行き着くか、それは失敗か成功かの完全なビデオをロールアウトするようなものです。または、強化学習を通じてこれを行うことができ、少し異なるメカニズムで、少し暗黙的にやりますが、根本的には非常に似た問題をターゲットにしています。

これらすべてのアプローチを探求して、反事実の問題をどう本当に解決するかを見ようとしています。

まだ答えはないと思います。

しかし、Pi-Star、Pi-Star 0.6で示したばかりの強化学習で多くの進歩を見ています。でも、おそらく他の多くのアプローチの余地もあると思います。

顧客展開と商業化戦略

素晴らしい。起動フェーズを過ぎたら、顧客展開について少し話せますか。顧客に何を持っていきますか。何を販売しますか。そして、それが時間とともにどう進化すると想像しますか。完全に垂直統合されたロボットソリューションを販売しますか。それとも、運用に統合する方法を理解する必要があるモデルを販売しますか。これはすべてどう機能しますか。

実際の答えは、まだ分からないということです。

ええ。まだ解明中です。

ええ。

見てわかるように、技術ではまだかなり早い段階です。これらを展開し始められる閾値に到達し始めたばかりです。だから、最初に技術に焦点を当てるべきだと信じています。実際に展開しやすい地点に到達する方法を理解するために

そして、最初に話していたこの開口部を拡大します。ロボティクスのスタートアップの歴史は、この地点に到達することが非常に多いです。ある期間技術を開発します。それが可能にすべき壮大なビジョン、どれだけ汎用的になるかで始めて、適用したいアプリケーションを選ぶとすぐに、ある種行き詰まります。

手抜きを始めます。このアプリケーションだけのための非常に特殊な目的のソリューションを考え出し始めます。そして、非常に急速に、例えば倉庫のピックアンドプレースロボットだけに焦点を当てるアプリケーション企業になります。それで終わりです。そして、その未来は本当に避けたいんです。Physical Intelligenceを本当に解決するチャンスがあると思います。

そして、これを行うことの恩恵は、今焦点を当てることができる単一のアプリケーションをはるかに上回るでしょう。

だから、技術ができるだけ一般的で、できるだけ簡単に展開でき、この開口部ができるだけ広いことを確認したいです。それから、どう商業化するかを考え始めます。そして、あなたが言ったように、これを行う多くの異なる方法があるでしょう。おそらく、技術がどう進むかに依存するので、まだ考えることができない方法もあります。

モデルプロバイダーになれるか、完全に垂直なソリューションか、ロボットを販売するか、その他何でも。でも、この質問に答えるのは少し時期尚早だと思います。多くの安心感を与えるだけですよね。1つ選んで。

Alfredに多くの安心感を与えます。

ええ、Alfredは私たちに満足するでしょう。

でも、早すぎると思います。

いいえ、壮大な壮大なビジョンをお持ちです。だから、Physical Intelligenceに取り組んでくださってありがとうございます。Pi-Star 0.6だけでも素晴らしい改善です。巨大なブレークスルーですから、これまでの成功おめでとうございます。

ありがとうございます。スパイシーな質問でフォローアップしてもいいですか。

もちろん。

だから、あなたが言ったように、このビジョンは非常に壮大で、非常に広く、多くの異なることをやっています。以前のすべてのロボティクスの努力を研究されたと確信しています。それらは大部分、あなたが言ったように、アプリケーションにアプリケーションを適用して、どんどん狭くなっていきます。大きなアプリケーションの最も成功したケースの1つは自動運転で、WaymoやTeslaは非常にうまくやっていますが、歴史を振り返ると、Sebastian Thrunがステージにいたときに自動運転について学びました。

TEDのステージで、2009年か2010年だったと思います。彼はDARPAチャレンジで勝った車について話していました。それは2007年でした。今は2025年で、サンフランシスコからここまでほとんど行きません。今では何とかできますが、地方道を使います。高速道路に乗ることすらできません。これほど汎化された仕事をすると、汎化とパフォーマンスのために構築している滑走路やタイムラインはどのくらいだと考えていますか。

ええ。

自動運転よりも簡単にする問題のいくつかの側面と、より難しくするいくつかの側面があります。

ええ。

簡単にする1つのことは、100%信頼できるときにのみ展開する必要がないということです。95%の信頼性であっても完全に問題ない多くの多くのタスクがあります。

家に洗濯物を畳むロボットがいて、100アイテムごとに完璧に畳めないことがあっても、完全に問題ありません。

子供に畳むように呼ぶだけです。

その通りです。まだ雑用が必要です。

ええ、

まさに。自動運転では、そうではありませんよね。100回に1回壊滅的に失敗すると、それは大きな問題です。

ええ。だから、この技術を展開する観点では、より簡単かもしれません。また、これが技術の異なる時代であるという事実からも恩恵を受けています。基盤モデル、ある程度の常識を持つビジョン言語モデルの時代にいます。

そして、2009年から2025年の間に多くの教訓を学び、それらすべてから恩恵を受けることができます。

だから、それも本当に本当に役立つと思います。これらは過去に持っていたものよりもはるかに汎用的なソリューションです。同時に、非常に挑戦的なことがあります。単一のアプリケーションだけではありません。これは、運転だけでなく、マニピュレーションやロコモーション、飛行、その他あらゆる種類のことに適用できる非常に汎用的なソリューションです。

そして、これがどれだけ難しいかは、まだ見られると思います。これまで経験したことに基づくと、正直に言うと、それほど難しくないようです。最初から非常に汎用的な考え方でこれに取り組むと、かなりうまく汎化できることがわかります。

そして、Physical Intelligenceについて、私たちが完全には理解していない何かがあります。これらのモデルが運転とコーヒーを作ること、ドローンを飛ばすこと、外科手術ロボットを操作することの間で汎化できることを可能にします。それらはお互いに非常に離れているように見え、これらはすべて異なるモデル、異なるアプリケーションであるべきだと思われますが、これらのモデルは何とかそのすべてのデータから意味を理解できます。

そして、それは、おそらく問題がそれほど難しくなく、実際にはより簡単かもしれないという多くの希望を与えてくれます。だから、正当な質問だと思いますが、自動運転から見たことから間違った結論を導き出したくありません。

素晴らしい。おめでとうございます。あなたが思う結果以外で、最も印象を受けた結果は何ですか。良い質問ですね。

ええ、実際に良い質問です。

始められます。ビデオモデルに本当に感銘を受けています。先ほど言及したものです。数年前にそれらを見ました。数年前にそれらの側面に取り組みました。

そして、この軌道、改善がこれほど急であることは予想していませんでした。基本的には今、現実と区別がつかなくて、信じられないことができます。

だから、それは本当に本当に印象的で、本当に驚きでした。ええ、まだある程度畏敬の念を抱いていると言います。次のトークン予測だけから、ある程度一般的に知的に見えるモデルが得られる場所に到達したことに。本当に予見していませんでした。まだこれに驚いています。そして、見る小さな進歩のたびに、IMO数学チャレンジに勝つとか、新しいものを見つけることに適用するとか。

ええ、今年は、本当に、ワオ、まだやるべき進歩がたくさんあると思ったことがたくさんありました。年の初めには、LLMの事前トレーニングビジネス全体が少し失速しているかもしれないと感じていましたが。ええ、この全体のほぼ第二の息吹のようなものがあることに気づきます。新鮮な空気が入ってくるようなものです。

ええ、おそらくこれに追加するとしたら、この全体が機能するという事実のようなものは、かなり驚異的です。

ええ、これがどれだけばかげているかを完全には理解していないと思います。この緩やかに脳にインスパイアされたようなものを構築して、非常に汎用的な学習アルゴリズムを持たせます。データを与えると、何とかそれを理解し、これまで持っていたどんなものよりもはるかに優れた形で理解します。

そして、これはロボットに適用され、視覚や言語、音声、その他あらゆる種類のものに適用されます。ちょっと立ち止まって、それがどう機能するか、そしてそれが機能するということについて考えてみると、本当に圧倒的に驚異的です。ロボットを持つことができ、家に置くと、以前訪れたことのない家で何をすべきかをある程度知っているという事実

または13時間連続でコーヒーを作ることができるとか、そのようなことです。

そして、これは、完全にエンドツーエンドでトレーニングする、完全には理解していないこの非常に汎用的なものからです。でも、それを理解し始めているようです。それが私にとってただ

驚異的です。

シミュレーションの中にいるんです。Soniaが信じていることです。シミュレーションの中に住んでいると。でも、面白いですよね。科学では、大きな問題を取って、小さくて小さい問題に分解するように教えられます。

そして、基本的に誰かが、それはおそらくマシンやあらゆる種類のロボットをトレーニングする最良の方法ではないかもしれないと気づきました。

そして、正直に言うと、機械学習、AI分野全体がある程度同じ間違いを犯しました。長い間、個々の問題を非常に深く基本的に解決することに取り組んでいました。そして、時間とともに、ああ、すべてを一緒にまとめることができれば、マルチタスク学習を本当にうまくやることができれば、はるかに良くなるという概念があります。でも、それからすべてが起こったのは、この汎用的な事前トレーニング目的に切り替えただけで、それからすべてが出てくるという事実です。それが驚くべき部分ですよね。

1つのフレームワークから別のフレームワークに行くアコーディオンのようなものだと思いますか。大きな問題を小さくて小さい問題に分解して、ある期間うまくいって、それから機能しなくなり、大丈夫、大きな問題に戻って、より一般的に解決しようとして、行ったり来たりするような。

戻ることは見えません。

ええ、戻ることは見えません。すでに知っているルール、ニュートン物理学のようなものを組み込む必要があるという多くのアプローチや多くの人々がいます。それを学ぶ必要はありません。

すでにどう機能するかを知っています。だから、何とか重みに入れることができますか。でも、これまで見てきたことから、それはうまくいきません。これをやろうとすると、新しいことを学ぶ能力をある種制限します。両方の世界のベストがあるとは思いません。学習の道を完全に進むだけだと思います。

そして、どう似ているかは興味深いです。私たちが学ぶ方法と。すべての知能を事前に焼き付ける方法があったら、進化がそれを理解していただろうと思うでしょう。ただ生まれて、知るべきすべてを知っているでしょう。そして、他の種でこれを見ます。鹿が生まれると、基本的には生涯で到達するのと同じくらい賢いと思います。

生涯を通じて実際にはあまり学びません。でも、人間のような知的種、カラスもそうだと思いますが、幼少期、思春期があり、最初からあまり賢くありませんが、自分自身の経験から学ばなければなりません。それは事前に焼き付けられて来るわけではありません。

自分自身で稼ぐ必要があります。そして、それには何かがあると思います。世界を経験して、それから学ぶ必要があるだけです。そして、それが機械学習、AIでも学んでいる教訓だと思います。自分たちがどう考えるかを知っていると思いますが、実際には知りません。アルゴリズムにデータから学ばせるだけです。

最後に:驚異と感謝

子供を育てるのと同じです。息子がどう考えているかを知っていると思いますが、知りません。

ええ。ええ。小さな娘がいますが、ええ、とても驚きです。

本当に速く学びます。

本当に速く学びますし、どこでそれを得るかが分かりません。

うまくいけば親から。

うまくいけば。

彼女は確実に教えていないことを知っています。

ありがとうございます、皆さん。

本当に美しいミッションを構築されていますね。来て共有してくださってありがとうございました。

ありがとうございます。お招きいただきありがとうございました。お招きいただきありがとうございました。