この講演では、Physical Intelligence社の共同創設者Chelsea Finnが、あらゆるロボットがあらゆるタスクを遂行できる汎用的なファウンデーションモデルの開発について語る。従来のロボティクスでは各用途に特化した企業を設立する必要があったが、大規模言語モデルの成功に倣い、多様な実世界データでの事前学習と高品質データでの微調整を組み合わせることで、洗濯物の折りたたみから室内の整理整頓まで、複雑で長期にわたるタスクを実行可能なロボットシステムの構築に成功している。

汎用ロボット開発の挑戦
みなさん、こんにちは。汎用ロボットの開発について、そして物理世界に真の知能をもたらす方法について話せることをとても嬉しく思いまんねん。
まず、この問題から始めたいと思います。もしロボティクスアプリケーションを真に解決したいなら、基本的にそのアプリケーション専用の会社を丸ごと作る必要があるっちゅうことですわ。物流用、ウェットラボ自動化用、キッチンロボット用、手術ロボット用など、それぞれ別の会社を作らなあかんのです。
これはめちゃくちゃ難しいことなんです。なぜなら、その会社は新しいハードウェアを作って、カスタムソフトウェアを開発して、そのアプリケーション専用の動作プリミティブを設計して、エッジケースに対処したりせなあかんからです。
ロボットの問題を解決しようと思ったら、これらすべてを一から作らなあかんのです。その結果、多くのロボティクス会社は、日常生活でロボットを物理世界に成功裏に導入することができてへんのです。
私は Physical Intelligence という会社を共同設立して、この問題を解決しようとしてるんです。特に、あらゆるロボットがあらゆる環境であらゆるタスクを実行できる汎用モデルの開発を目指してます。このような汎汎用モデルは、言語などの他のアプリケーション向けファウンデーションモデルの発展で見てきたように、専用モデルよりもうまく機能し、使いやすくなるかもしれへんと考えてるんです。
例えば、コーディングアシスタントを構築したい場合、今はコーディング専用のものを開発するんやなくて、コードだけやなく大量のデータで訓練されたモデルを基に構築しますよね。基本的に、これはデジタル世界やなく物理世界にこの種の知能をもたらすファウンデーションモデルを開発する問題なんです。
スケールの重要性と限界
では、どうやってこれをやるんでしょうか?この講演では、その方法について話したいと思います。言語モデルから教訓を得るなら、言語モデルはスケールの重要性を教えてくれました。そやから、スケールがこれらのモデルを開発するための最も重要な要素やという結論になるかもしれまへん。
もしその結論が正しいとしたら、大規模データのために特定のデータソースを探すことになります。例えば、産業自動化のデータを見て、このようにロボットが何度も何度もタスクを実行する大量のデータを得ることができます。
しかし、この種のデータでは、ロボットが災害地域に行ったり、サンドイッチを作ったり、食料品を袋詰めしたりすることはできまへん。この大規模なスケールには、この汎用問題を解決するために必要な行動の多様性がないんです。
または、YouTubeのデータを見るかもしれまへん。これも大規模なデータソースで、ロボットの訓練に役立つ可能性のある人間がタスクを実行する多くの動画があります。しかし同時に、他人が書いているのを見て書き方を学ぶわけやないし、ウィンブルドンを見てテニスの専門家になるわけでもありまへん。ここには大規模なデータがあっても、使うのは非常に困難で、ロボットと人間の身体性の間にもギャップがあるんです。
最後に、シミュレーションのデータを見るかもしれまへん。ここでも大規模なデータを得ることができますが、このデータはリアリズムに欠けて、現実とのギャップもあります。
そやから、ここでの教訓は、オープンワールド条件で汎化できるモデルを開発するにはスケールが必要やけど、実際に問題を解決することには従属的やということです。スケールは必要やけど、問題全体には十分やないんです。
Physical Intelligence では、これが私たちが収集したデータエピソードの例です。これは数ヶ月前の私たちの1周年記念のものです。ここでは、遠隔操作者がリーダーアームを操作してロボットを制御し、マッチを点けて、そのマッチでろうそくに火を灯しているのが見えます。この種のデータで、さまざまなタスクを実行するようロボットを訓練することができるんです。
器用で長期的なタスクの実現
大規模な実ロボットデータで物理的知能を開発しようとする最近の結果について話したいと思います。これは今日のロボット基準では大規模やけど、今後数年で持つべきロボットデータの種類と比べると、間違いなく微々たる量のデータです。
特に、ロボットがさまざまな器用で長期的なタスクを実行できるか、ロボットが一度も行ったことのない場所で成功できるか、ロボットがオープンエンドなプロンプトや介入に応答できるかを見ていきます。
ロボティクスに興味がなくても、これらの問題に対処しようとして学んだ教訓は、物理世界の外でも応用できると思うんです。
器用で長期的なタスクを完遂できるロボットを開発できるでしょうか?特にこの最初の部分では、乾燥機から洗濯物を取り出して洗濯物を折りたたむこのタスクを実行するために π0 ファウンデーションモデルを訓練した方法について話したいと思います。
今までで、これが物理世界でロボットがやっているのを見た中で最も印象的なことやと思います。本当に難しいんです。これは信じられないほど困難な問題です。完璧やないのが見えますね。ここではミスクロップをしたり、間違いをしたりしてますが、本当に本当に難しいんです。なぜなら、衣類の変動性とそれらが配置され、しわくちゃになっている方法に対処し、そのようなすべてのことを処理できなあかんからです。
ロボットにとって約10分かかるこのタスクをやっている間、失敗する機会がたくさんあるんです。致命的に失敗する機会もあります。例えば、地面に物を落とすことは、回復するのが困難です。小さな間違いからでも回復できなあかんのです。
私は実際、Michael と Siraj と一緒にこの洗濯物折りたたみロボットにかなり取り組んでました。もちろん Physical Intelligence チーム全体からの支援と貢献もありました。
では、この種の問題にどのようにアプローチするんでしょうか?これはロボットにとって本当に本当に難しいことで、私たちがやったのは簡単から始めることでした。
単一サイズ、単一ブランドのシャツを折りたたむことをロボットができるか、そして単一ブランド、単一サイズのシャツを動的に平らにできるかから始めました。簡単に始めると、問題がかなり楽になるんです。遠隔操作でデータを収集し、模倣学習でポリシーを訓練しました。
私たちのモデルは約1億のパラメータを持ち、ロボットのカメラからの画像をロボットアームの関節ターゲット関節位置にマッピングしてました。ロボット上で50ヘルツでこの種の制御を行ってます。
2024年3月中旬頃に会社を設立して、すべてをセットアップした数ヶ月後、単一サイズ、単一ブランドのシャツをかなり確実に折りたためるポリシーを得ることができました。ここで私がポリシーをテストしているのが見えます。
また、動的な動作もテストしたかったんです。なぜなら、この種の動的動作を行うために制御周波数を正確に合わせることができなあかんからです。これらは、この種の洗濯物折りたたみ問題に取り組む初期テストの一部でした。
そこから、問題を段階的に難しくしたかったんです。テーブル上で平らなシャツから始めるんやなく、このようなしわくちゃな位置から始めました。これは実際にはるかに困難になることがわかりました。
これは、これらのシャツを折りたたむようロボットを訓練する初期の試みのいくつかの動画です。ロボットは苦労してます。ロボットは少し合理的に見えることをいくつかやりますが、一般的にはタスクで進歩することができまへん。多くのテストで、このシステムのテストで頻繁に0%の成功率を得て、進歩することに本当に苦労してました。
ここでの本当の挑戦は、シャツがテーブル上でしわくちゃになる方法の変動性を処理することです。昨年の6月下旬に、初期の生命の兆候がありました。この場合、ロボットはシャツを平らにすることで進歩を作ることができました。その後、その初期状態からシャツをまあまあうまく折りたたむこともできました。まだ完璧やありまへん。
見てわかるように、これをやるのにかなり時間がかかります。これは AEX で速度を上げた動画なんで、ロボットにやらせるには忍耐が必要なものやないかもしれまへん。
初期の生命の兆候もあったし、非常に低い成功率でもあったんで、洗濯物が洗濯かごから始まるタスクのわずかに難しいバージョンに移行し始めました。また、可変サイズのシャツとショーツをミックスに導入しました。そして再び、ロボットは本当に苦労しました。私たちのテストの多くで、全体的に0%の成功率を得て、ロボットにこれらのタスクをやる方法を学ばせることに本当に苦労してました。
この時点で、いろんなことを考慮しようとしてました。ロボットにはメモリが、何らかの方法で履歴が必要かもしれへんと思いました。モデルをもっと長く訓練する必要があるかもしれまへん。ロボットの関節空間やなく、エンドエフェクター空間で制御すべきかもしれまへん。エンコーダーに較正の問題があることがわかってて、その較正をより一貫性のあるものにする必要があるかもしれまへん。
データに関するより多くの情報でモデルを条件付けする必要があるかもしれまへん。これはかなり長期的なタスクで、異なるサブタスクに分解する必要があるから、階層が必要かもしれまへん。より高解像度の画像が必要かもしれまへん。データ収集に一種の介入を導入する必要があるかもしれまへん。これらの多くも試しました。約2〜3ヶ月の失敗期間があって、このタスクに対処する上で何もうまくいってませんでした。
事前学習と微調整の突破口
しかし、ある時点で実際にちょっとした突破口がありました。これは、ロボットのタスク実行能力に本当に違いを生むように思われる一つのことを見つけたことでした。これは実際、言語モデリングの世界からインスピレーションを得て、すべてのデータでポリシーを訓練するだけやなく、すべてのデータで事前訓練を行い、高品質で一貫した実証データの高度にキュレーションされたセットで微調整することでした。
これをやったとき、ロボットが実際に進歩を作ることができ、衣類をずっと確実に折りたたむことができることがわかりました。この動画は、ロボットが5つのアイテムを連続で折りたたんでスタックすることができた最初の動画やったと思います。この日はとても興奮して帰宅しました。これは2024年9月で、初期テストから数ヶ月後でした。
これは完璧やありまへん。5つの衣類を折りたたむのに20分かかります。しかし同時に、この種のレシピがロボットにこれらの衣類を実際に折りたたむ能力を解放することができることを示唆してました。この種の失敗が見えます。
この場合、青いシャツを約7回折りたたもうと試みて、最終的に実際にそれをやる方法を理解しました。他の失敗モードもあります。ここはロボットがスタックをテーブルの隅に押し付けて、それで少しいじることにして、最終的にテーブルから滑り落として、その後何も起こってないかのように続行し、折りたたみを続けようとする例です。
私たちはこのレシピを反復し続けました。より高品質な実証データセットをキュレーションするためのキュレーション戦略を選択し、取り組みました。これらの5つのアイテムを20分から12分に短縮しました。これが私たちのロボットシステムがどれだけ良いかを評価する方法でした。
まだ間違いをします。折りたたみの品質はまだ変動しますが、前のキュレーションレシピよりもかなり良くなってます。
この時点で、主に洗濯物データで事前訓練と微調整のみを行うモデルを訓練してて、コミュニティの事前訓練されたモデルを活用してませんでした。Physical Intelligence で働いている何人かが、すべてのロボットデータで訓練された事前訓練モデルの開発に取り組んでました。
そして、これらのモデルを私たちのレシピに導入し始めました。オープンソースの視覚言語モデル、PaliGemma という30億パラメータのモデルを使いました。以前は、前の動画はすべて100から300万のパラメータで反復してました。
このモデルは、ロボットからの画像と言語コマンドを入力として受け取り、視覚言語モデルのすべての内部値に注目する拡散ヘッドを持ってます。関節角度で、将来の50のアクションのチャンクを予測します。約1秒のアクションステップで、これらのアクションを出力し、連続的なアクションを出力するために、拡散の変種であるフローマッチングを使用してます。
この事前訓練されたモデルを取って、洗濯物だけで事前訓練するんやなく、収集したすべてのロボットデータで事前訓練しました。そして、視覚言語モデルを使わずに開発したのと全く同じ事後訓練レシピで微調整しました。
これをやったとき、その新しい事前訓練モデルをプラグインするだけで、ロボットが実際に良くなり続けることがわかりました。左の動画では、5つのアイテムを9分でできて、以前の12分より速くなりました。右の動画では、新しい衣類アイテムでテストして、複数のアイテムを連続で折りたたむのもかなり効率的であることがわかりました。
結果として、約10倍大きく、入力としてより多くのロボットデータを見たこのモデルを使うことで、より一貫した折りたたみ品質も見ることができました。
これのいくつかのハイライトを見ると、ここはロボットが前に見たことのないショーツです。これは平らにするために、実際にショーツの底の下に手を伸ばす必要がある厄介なシナリオです。それができます。
最終的に平らにすることに成功して、それをうまく折りたたむことができます。シャツを折りたたむ時も似たようなことをしなあかんことがあります。
この場合、実際にシャツを自分自身で折り重ねる必要があって、それはシャツをよりしわくちゃな状態にしますが、シャツの角を見つけて、それから折りたたむことができるようにします。
前に述べたように、見たことのない衣類アイテムも処理できます。ここはVネックのシャツの例で、事後訓練データセットにVネックが入力としてなかったにも関わらず、このシャツは完全に除外されてて、折りたたむことができます。ボタン付きシャツも折りたためます。異なる衣類アイテムに対してある程度の汎化があるんです。
最後に、このポリシーはニューラルネットワークで、現在の画像を入力として受け取ってるから、中断を処理できます。ここで Michael がロボットと継続的にいじってて、ロボットは他のシャツを折りたたもうとしながら、シャツを片付けるべきやと理解します。
この場合、Michael はロボットと継続的にいじり続けるつもりです。Michael が一方を展開すると、ロボットが反応します。Michael がまた手を出すと、ロボットはここで間違いをしますが、回復できます。Michael がまたそれをめちゃくちゃにします。これらはロボットができることの結果の一部です。
この事前訓練と事後訓練のレシピが本当に重要であることについて話しました。実際にそれを定量的に測定して、これが実際に改善につながっていることを確認できます。この事前訓練と事後訓練のレシピを、事前訓練を使わずにキュレーションされたデータセットのみで訓練することと、キュレーションされたデータセットで微調整するんやなく、すべてのデータで訓練する事後訓練なしと比較しました。
これらのモデルを、かごから出すという最も簡単な部分で部分的な進歩を作るタスクでの進歩、そして平らにする、折りたたむ、アイテムをスタックするためのさらなる進歩の観点で評価しました。事前訓練と事後訓練のレシピが、事前訓練の省略と事後訓練の省略よりもはるかに高いパフォーマンスを得ることができることがわかります。
特に、事前訓練と事後訓練の省略は基本的にかごから出すことができて、その後はほとんど進歩を作れまへん。一方、事前訓練とキュレーションされた事後訓練を組み合わせると、オブジェクトを確実に平らにして折りたたむことができるはるかに高いパフォーマンスが得られます。
この点で最後に述べたいのは、このレシピの何も洗濯物に特有やないということです。同じレシピを取って、他のタスクで微調整しました。ここでのタスクはテーブルを片付けることです。ロボットは主に洗濯物で多くの反復をしてたにも関わらず、このタスクをうまく実行することもできて、このタスクにこのレシピを適用することもできます。
コーヒー豆をコーヒーグラインダーにすくうこともできます。このタスクはかなり難しく、段ボール箱の底部を構築する必要があって、かなりの器用さが必要で、最後に同じ種類の事前訓練と事後訓練のレシピでマッチでろうそくを自律的に点灯させることもできます。
これは私が前に述べたファウンデーションモデルの利点を指してるんです。これらの異なるタスクを実行するために完全に一から始める必要がないということです。実際に複数のロボットと複数のタスクにわたって事前訓練を活用できるんです。
同じレシピを他の会社のロボットにも適用することができました。これは私が実際に直接見たことのないロボットです。彼らがデータを収集しました。そのデータを私たちに送ってきました。私たちは彼らのデータでモデルを微調整しました。
私たちは実際、モデルがどのように制御されているか正確にはわからんかったんです。彼らのアクションの表現を正確には知らんかったんです。しかし、この新しいロボットでモデルを微調整することで、モデルはこの場合にコーヒーを作るためにロボットを制御することができました。
未知環境での成功
この部分のいくつかの要点は、事後訓練と事前訓練を独立に開発して問題を分離し、最終的に両方の最良の部分を得ることができたということです。複雑なタスクではすべてのデータで訓練することはうまくいかず、キュレーションされたデータでの事前訓練と事後訓練がはるかに良いパフォーマンスにつながることがわかりました。
単一のシャツを折りたたむことから始めて、タスクのますます複雑なバージョンに徐々に移行することで、洗濯物を折りたたむというこの本当に困難な問題を分解しました。
ここにはいくつかの制限があって、指摘したい制限の一つは、この場合のロボットが必然的にテストされた環境で訓練されたということです。これは原理的には、これらの方法を使って一つの環境で多くのデータを収集し、一つの環境で展開できることを意味します。しかし最終的には、環境について変わることがあって、これらのロボットを以前に見たことのない環境に実際に適用したいシナリオがあります。
では、ロボットは実際に一度も行ったことのない場所で成功できるでしょうか?他の分野での機械学習から学んだ教訓は、多様なデータを収集すべきやということです。多くの異なる環境で寝室とキッチンを整理するデータを収集することから始めました。ここがそのデータのサンプルの例です。
サンフランシスコ全域の家庭でロボットデータを収集し、多様なモック・キッチンとモック・寝室でもデータを収集しました。合計で、より大きな事前訓練ミックスの一部になったデータセットに100以上のユニークな部屋が表現されてました。
低レベルのアクション予測と、タスクを完了する方法の高レベルサブタスクコマンドの予測を含む、この多様なモバイル操作データで訓練しました。また、かなり多様だった、以前に収集した静的操作データでも訓練しました。私たちのオフィスや研究室で収集した静的操作データと、ウェブデータと高レベル指示データもです。
ここで指摘すべきは、寝室とキッチンを整理するモバイル操作データは、全体的な事前訓練ミックスの2.4%しか占めてなかったということです。ここでの教訓は、基本的に新しいタスクと実際に全く新しいロボットをスピンアップできたということです。
ミックスの残りには、この特定のモバイル操縦者を使った、モバイル操作データが全く含まれてませんでした。すべてのデータ収集をやり直すことなく、以前に行われたすべてのことを基に構築することができました。これは、一から始めることなく新しい問題、新しいアプリケーションをスピンアップしやすくするファウンデーションモデルの同じ種類の話なんです。
これは完全に簡単やありませんでした。いくつかの挑戦に遭遇しました。遭遇した挑戦の一つは、素朴にこのモデルが言語指示を無視できることでした。実際にこの場合、まな板を拾うように頼んだのに、代わりに皿を拾うことを選びました。まな板を拾うようにもう一度頼んでます。
代わりにロボットは自分の意思を持って皿を拾うことにしました。そして皿をシンクに入れるように言います。最終的にまな板から離れた後、実際にまな板を拾うことにしました。モデルの初期開発で、しばしば言語を無視することがわかりました。
これを解決するために、視覚言語モデルが実際にどのように言語によく従うかを考えました。このタスクに取り組む際に事前訓練されたモデルの固有の能力を保持する方法があるかもしれまへん。この π0 アーキテクチャで行ったのは、拡散を使用するこのアクションヘッドがランダムに初期化されることです。
これは結局、視覚言語モデルに存在する事前訓練された知識を悪化させることになります。この悪化を防げば、より良い言語フォローを得ることができるかもしれへんことがわかりました。思いついたレシピは、実際にはいくつかの点で非常に似てましたが、代わりにトークン化されたアクションを予測するつもりです。
拡散ヘッドがあるとき、ランダムに初期化された拡散ヘッドからの勾配を停止して、VLMバックボーンの言語フォロー能力の悪化を防ぎます。これによって、第一にトークン化されたアクションがより直接的な監督信号やから訓練が速くなり、第二に言語にもはるかによく従うことがわかりました。20%のフォロー率やなく80%のフォロー率です。
これは、視覚言語モデルバックボーンでの事前訓練の種類を保持できることを示唆してます。それらの部分をまとめました。そのレシピを取って、モバイル操作データを含むすべてのデータで事前訓練しました。さまざまな環境でモバイル操作データで微調整しました。
そして、これまで行ったことのない場所でモデルをテストしました。以前に行ったことのない3つのAirbnbを借りました。この場合、キッチンでこれらの家にロボットを置いて、キャビネットを閉めるように頼みました。皿を片付けるように頼みました。
これらの皿や、これらのフォーク、これらのオブジェクトも見たことがありまへん。ロボットは以前にここにいたことがないにも関わらず成功することができます。異なるカウンタートップ、異なる家具、異なるオブジェクトなどがあります。
最後に、こぼれた物を片付けるように頼むと、ロボットはそれに従って、こぼれた物を拭き取り、最終的にスポンジをシンクに入れることができます。寝室でもこれができます。
ローラがこの場合、寝室をきれいにするように頼むと、衣類を入れて、ゴミを捨てて、枕をベッドの上部に置き、ブランケットや掛け布団を整えることでベッドを整頓することができます。
YCの次のバッチが現在応募を受け付けてます。スタートアップのアイデアありまっか?ycombinator.com/apply で応募してください。早すぎることはなく、アプリを記入することでアイデアがレベルアップします。動画に戻りましょう。
定量的に言うと、ミックスの2.7%程度しかないという話をしたんで、他のデータが実際にどれだけ役立つんでしょうか?実際にその2.7%だけで訓練することもできるんでしょうか?研究室や環境などの静的ロボットからのデータを除外する右側のバーは、パフォーマンスを大幅に減少させることがわかります。
完全な事前訓練ミックスを使用した場合と比較して、新しい家庭で評価した際、そのデータを除外するとパフォーマンスが60%未満に下がり、20%以上高いパフォーマンスがあります。
最後に、データの多様性は役立つのか?重要なのか?も調べました。これをテストするために、これらの環境からのデータ量を増やしました。
雰囲気評価もできますが、これらのことがどれだけうまく機能するかを実際に測定するのは本当に役立つんで、これがそれを測定してることです。データに表現される家庭の数、場所の数を実際に増やすと、パフォーマンスが向上することがわかります。これは素晴らしいことで、実際にそのターゲット環境からのデータで訓練した場合と同じレベルのパフォーマンスに達します。
これは実際に汎化ギャップをほぼ埋めてることを意味し、この種のタスクのこの時点でのボトルネックは、より多様なデータを収集することやなく、実際により高い信頼性とより高いパフォーマンスを得ることにあることを示唆してます。
成功率は約80%だったと言及すべきです。改善の余地がたくさんあります。これらの失敗モードのいくつかの例を示します。ここでは、アイテムを引き出しに入れるように言われてます。
引き出しに入れることはできますが、アイテムが最終的に完全に引き出しに入っておらず、完了したと判断して次のことに移ります。ここでロボットは服を洗濯かごに入れる必要があります。シャツの上を通って、その後行き詰まって持ち上げることができまへん。
ここでは皿をシンクに入れるように頼んで、多くの皿をシンクに入れることに成功しますが、この特定の場合では、まな板がとても薄くて、カウンタートップの表面に密着してるから、まな板を拾うのに苦労します。
最後のケースは、私のお気に入りのケースやと思いますが、へらを引き出しに入れるように言われて、オーブンが引き出しによく似てると判断したんで、オーブンを開けて、そこに入れようとします。これを超えて、速度、部分的観測可能性、長期計画に関する挑戦もあります。
やることがまだたくさんあります。ここでの要点は、多様なデータで、ロボットがこれまでロボットが行ったことのない環境でさまざまな指示に従うことができるということです。これは、テストされるシナリオで訓練される多くのロボティクスシナリオからの大きなステップアップです。
オープンエンドなプロンプトと介入への対応
最後に話したいのは、このモデルがかなり限られた指示セットを持ってることです。特定のコマンドセットにしか従えまへん。他の形のAI技術がどのように展開されてきたかを考えると、人々は実際にカスタマイズして、ロボットに何を望むか、システムに何を望むかをこの種のモデルから実際に伝えることを本当に好みます。
言語モデルにプロンプトするように、ロボットがオープンエンドなプロンプトとオープンエンドな介入に応答できるようにできるでしょうか?これを行うため、そして実際に過去の作業を行うために、階層的な視覚言語アクションモデルを活用してます。
高レベルポリシーがプロンプトを中間的な言語応答と中間的な原子言語コマンドに分解します。高レベルプロンプトはサンドイッチを作ってくれる?のようなもので、この高レベルポリシーはパンのスライスを一枚拾うサブタスクに分解します。
これは、パンのスライスを一枚拾うという低レベルコマンドを満たすために実際に実行し、ターゲット関節角度を予測する低レベルモデルに渡されます。これだけでは、あらゆる種類のプロンプトに従うことはできまへんし、実際にループ内の実ロボットと大量の人間ロボット相互作用を収集することが困難やから、オープンエンドな言語を処理するのはかなり難しいです。これもスケールするのがかなり困難です。
そこで私たちがやったのは、既存のロボットデータをすべて取って、実際に既存のロボットデータのための合成データを生成できることです。特に、言語モデルを使ってロボットがいるシナリオの仮想的な人間プロンプトを再ラベル化して生成できます。
これがどのようなものかというと、ここにビデオがあって、次のスキルはKitKatを拾うことやというデータを取ります。なぜなら、基本的な低レベル注釈の観点から、それがロボットが次にやることやからです。そして、ロボットがKitKatを拾おうとしてるこのシナリオで、視覚言語モデルに、人間がこの特定のシナリオとロボットが実際にKitKatを拾うことを選ぶことにつながったかもしれない仮想的なプロンプトは何かを尋ねることができます。
そして、これらの合成プロンプトで高レベルポリシーを訓練して、基本的にロボットデータを、それらの異なる状況につながったかもしれないさまざまな人間の相互作用で増強できます。その結果、実際にロボットにさまざまな異なるプロンプトに従わせることができるようになります。
左では、「やあロボット、ハムとチーズのサンドイッチを作ってくれる?」と尋ねます。ロボットは「もちろん、パンから始めて、次にハムとチーズを追加します」と言います。パンのスライスを拾って、まな板に置いて、チーズのスライスを拾って、パンに置いて、ハムを拾ってなどなど、このタスクをさまざまなサブタスクに分解することができます。
「やあロボット、ビーガンサンドイッチを作ってくれる?でもピクルスは好きやないんです」のような、より複雑なプロンプトにも従うことができます。この場合、それを分解して、サンドイッチにレタスとトマトを追加することにして、ピクルス、チーズ、肉も追加しないことにできます。
プロンプトに加えて、異なる介入を処理するようロボットを訓練することもできます。実際、ここは異なる種類のプロンプトの例です。左では、テーブルをきれいにするようロボットを訓練します。ゴミを片付けて、皿をゴミ箱に入れます。右では、皿やなくゴミだけをきれいにするようロボットに頼みます。
ロボットはそれが何を意味するかを理解し、それを低レベルアクションに接続して、ゴミだけを片付けて、ゴミがすべて片付けられたときに完了することができます。
最後に、介入と状況的修正を処理することができます。この場合、ロボットはユーザーのためにアイテムを取得してます。ユーザーが、KitKatをかごに入れた直後に「かごに入ってない甘いものを取って」と介入します。
ロボットは「ええ、スキットルズを取りましょう」と言って、ユーザーのリクエストをどのように満たすかの基本的な推論を通じて推論し、ロボットがいる世界に位置するそのような修正に応答することができます。
既存のファウンデーションモデルが別のモデルを訓練することなくこの種の高レベル推論を行い、ロボットの高レベルプランナーとして機能できるかもしれへんと思うかもしれまへん。それも評価してみました。
青で示された指示に従い、タスクで進歩を作るパフォーマンスは、緑で示された私たちのシステムのパフォーマンスよりも大幅に低いことがわかりました。一般的に、これらのフロンティアモデルは、ロボティクスに関連する視覚的理解に苦労することがわかりました。これは、一般的にこれらのモデルが多くの物理的アプリケーションを対象としておらず、物理世界でのデータがほとんどないため理解できます。
まとめと今後の展望
まとめに入ろうと思います。そして質問の時間もありますね。事前訓練と事後訓練でロボットがさまざまな器用で長期的なタスクを実行できること、ロボットが一度も行ったことのない場所で成功できること、収集したロボットデータの上に言語モデルからの合成データを活用することでオープンエンドなプロンプトと介入に応答できることについて少し話しました。
締めくくりの言葉として、この講演で汎用ロボットが専門ロボットよりも成功する可能性があるいくつかの異なるシナリオを見てきました。なぜなら、すべての単一アプリケーションで一から始めるんやなく、実際に実世界での物理的知能のためのはるかに広い基盤を基に構築できるからです。
実世界での大規模データがこれらのことを開発するのに本当に役立つことも見ました。物理的知能には必要やけど十分やないことがわかったし、多くの挑戦があって、ロボットが真にオープンワールドに取り組む準備ができる前に、私たち自身とオープンソース貢献を通じてより多くの研究が行われる必要があると思います。
Physical Intelligence では多くの役職を採用してることも述べたいと思います。私たちが話したことに興奮してる方は、pi.ai でオープンな役職のリストを見ることができます。素晴らしいです。質問をお受けしましょう。左から始めましょう。
質疑応答
チェルシーさん、こんにちは。まず、ロボット学習でのあなたのすべての仕事に感謝したいと思います。すべて本当に印象的です。そうですね。特に言及された事後訓練の部分について、主に2つの質問があります。
最初は、事後訓練で最も重要な部分は高品質のアクションデータを持つことやと言及されました。そのコンポーネントが何になるかを知りたいです。2番目の質問は、RLが事後訓練の部分にどのような役割を果たすと思うかです。
はい、絶対に。異なるコンポーネントについて、多くはデータの一貫性と従われている戦略、そしてロボットがタスクを効率的に確実な戦略で完了するかどうかに帰結すると思います。
2番目の質問について、強化学習は事後訓練で非常に大きな役割を果たすことができると思います。強化学習が使用できるロボットからのオンラインデータは、模倣学習だけで訓練された場合よりも、ロボットがはるかに高い成功率を持ち、より速くなることを可能にすると思います。ありがとうございます。
こんにちは、講演をありがとうございました。あなたの仕事は本当に魅力的で、将来的に多くの影響を与えることは間違いありまへん。しかし、この段階で、どのようにして資金を見つけることができるか尋ねることはできますか?正直言って、服を折りたたんで皿を片付けるロボットに投資するよう人々を説得するのがどれほど困難か想像できまへん。
良い質問ですね。まず、私たちは家庭でのアプリケーションだけに焦点を当ててるわけやないと述べたいと思います。私たちは本当に物理的知能のこのより広い問題を解決したいと思ってて、進歩を作りやすいアプリケーションやから、それらのアプリケーションから始めてるんです。
また、講演で取り上げたイーサネットケーブルの挿入や段ボール箱の構築のようなタスクも行ってます。一般的に、この種の問題は、家庭での作業だけやなく、あらゆる種類の領域でも影響を与える大きな可能性があると思います。家庭での作業でも、この種の技術には巨大な市場があると思います。
私たち自身は資金調達にあまり苦労してなくて、最近多くのロボティクス会社も素晴らしい仕事をして、この種の技術に実際に多くの興奮があることがわかったと思います。なぜなら、実際に物事が機能し始めてると思うからです。
私はこの技術に10年以上前から取り組み始めて、その時は物事が本当にうまくいってませんでした。そやから、実際に成熟し始めて、実世界に対応する準備ができてる興奮がたくさんあると思います。
もっと多くの仕事が必要やと思いますが、一般的にこの技術に興奮して、資金を投入することを熱望してる人がたくさんいるようです。どうもありがとうございました。
こんにちは。ありがとうございました。1つはより広範で、1つはより技術的な2つの質問があります。技術的な質問は、私の意見では、少なくとも私の理解では、VLAは世界モデリングから少し分離されたフレームワークで、2つがどのように相互作用するか、実際にそれらを一緒に使用することを計画してるかどうか疑問に思ってます。
今のところ、VLAは世界モデリングから大きく恩恵を受ける可能性のあるポリシーとして見てます。B的な観点から、説明可能性、追跡可能性、一般的な安全性など、実世界でそのようなモデルを展開するためにどのようなインフラストラクチャ層が最も有用になるかと思います。
素晴らしい質問です。最初の点について、視覚言語アクションモデルに世界モデル目標を組み込むかなり自然な方法があって、次のアクションを予測するだけやなく、タスクを達成するために将来に起こるべき中間サブゴール画像のようなものを予測して、そこからアクションを予測する作業を行ったことがあります。それがかなり有望に思える兆候も見ました。2つのパラダイムを統合する方法があると思います。
同時に、基本的に入力するデータが使用する方法を必ずしも反映しないという点で、世界モデリングには多くの挑戦も出てきます。タスクを成功裏に完了する実証データで訓練して、実際にタスクを最適に完了しないアクションを評価するために使用することを評価するかもしれまへん。
そして世界モデルは、入力として提供するアクションが実際に良い結果につながらなかったとしても、タスクを成功裏に完了するビデオを幻覚します。そこで克服すべき挑戦があって、それはええ、さまざまな挑戦がありますが、VLAパラダイムに統合する方法もあります。
2番目の質問を思い出させてもらえますか?どのようなインフラストラクチャ層を最短期間で取り組んで、実際にロボット上でこれらのモデルを実行する最も改善をもたらすかということです。
アクションを成功裏に実行するために実際に特定の周波数を達成する必要があるリアルタイムシステムが必要です。そのシステムに遅延があったりすると、あらゆる種類の挑戦が導入されます。
そやから、高速推論と実際にロボット上にあるインフラストラクチャについて考えることは、私たちのソフトウェアチームが行うことの大きな部分です。また、大規模機械学習インフラストラクチャ、大きなモデルの訓練、大量のデータの取り込みについても考えます。
私たちが持つデータは、非常にマルチモーダルな性質やから、多くの典型的なデータセットとは異なります。ビデオ、アクション、言語セグメント、その他さまざまなコンポーネントも含まれてます。そやから、ロボット側と、モデル訓練側の両方で興味深いインフラストラクチャの問題があると思います。どうもありがとうございました。
こんにちは、フレデリックです。一般的にモデルサイズについて質問があります。現在見てることは、一般的により大きなモデルサイズがより良い精度につながることやと思います。例えば、あなたの実験でも、OpenAI、Anthropic、その他が現在LLMで行ってることでもそうです。
しかし、かなり小さなモデルを使用して、世界知識をモデルが相互作用できる何らかのデータベースに外部委託するアプローチもあります。それについてどう思いますか?それは有効なアプローチやと思いますか、それともモデル内にすべての世界知識をカプセル化する方が良い、またはうまく機能すると思いますか?
興味深い質問ですね。検索ベースシステムでの私の経験では、実際に最初に何をオフロードすべきか、実際にモデルによって行われるべきかを把握するのは少し難しく、2番目に、モデルが検索されたコンテンツを無視して、自分で何かを生成しようとすることがあって、実際に技術的に思い通りに動作させるのは非常に難しいようです。
どの分割作業が最も理にかなうかという点で、アプリケーションと使用ケースに依存すると思いますが、私の経験では、何が分業かを把握するのがかなり難しくなります。検索された情報を実際に利用するためには、モデル部分にもある程度の知能が必要です。
そやから、本当に魅力的な研究問題やと思います。しかし、それをうまく機能させるには多くの研究も必要です。ありがとうございます。
こんにちは、チェルシー。私の名前はチャルー・トーマスです。まず、講演を本当に感謝します。本当に魅力的で、メタ学習以来あなたの仕事の大ファンです。ソフトウェアとハードウェアが進化し続けることを考えるとき、あなたの物理的知能のビジョンに対して、今日の構築者にとって最大の機会は何ですか?
ええ、物事をよりよく機能させるためのさまざまな機会と多くのオープンな質問があると思います。前に述べたような、ロボット側でのより良いインフラストラクチャの方法について考えることです。その種のことにはオープンソースコードがいくらかありますが、ロボットインフラストラクチャをより良くする多くの機会があります。問題のその側面に取り組んでる人はそれほど多くないと思います。
AIとコンピューターサイエンス全体について私が愛してることの1つは、本当に大きなオープンソースコミュニティがあることで、実際にオープンソースの仕事をして、データ収集、オープンソースモデル、それらのモデルのバグ修正、それらのモデルの微調整、それらのモデルの微調整のための新しいレシピの発見など、より広いコミュニティに貢献する大きな機会があると思います。研究側でも、特にオープンソース領域でのあらゆる種類の質問もあります。ありがとうございます。
こんにちは、チェルシー。私も他のみんなと同じように、あなたのすべての仕事の大ファンです。それをすべて公開してくれてありがとうございます。最近あなたのグループの仕事をたくさん読んでて、特にシラージのPhD論文を読むのを楽しみました。データで実世界のロボティクスをスケールすることについて多くを教えてくれました。
質問は、将来的にロボティクスで合成データがどのようにスケールすると思うかです。LLMで見てきたように、事前訓練から離れたわけやないですが、人間が収集したデータから、より多くの合成データの作成、多くのフィルタリング、多くの自己採点に移行してきました。
そやから、環境の作成や報酬モデルのための生成的合成データの使用がロボティクスにどのような影響を与えると思いますか?
このトピックについて多くの考えがあります。最終的には実データに代わるものはなく、大量の実ロボットデータが汎化可能な方法で機能するシステムの必要な構成要素になると思います。そやから、それが必要になります。
同時に、評価側で特に役割を果たす可能性があるシミュレーションと合成データのツールがあると思います。例えば多くの環境に汎化する際、そのモデルが1つの新しい環境だけやなく10の新しい環境でどれだけうまく汎化するかを実際に評価するのは非常に難しいです。なぜなら、実際にロボットをそれらの10の環境に持参するか、10の環境を構築する必要があるからです。
一方、シミュレーションではそれがずっと簡単になります。その使用ケースでのシミュレーションと合成データに本当に興奮してます。言語モデルでの合成データの類推は、実際にはロボティクスでのシミュレーションやなく、強化学習のようなものに近いと述べるべきです。
合成データの多くは、実際にタスクを実行しようとしてるモデルによって生成され、その後タスクを実行するさまざまな方法を推論しようとします。その類推は、タスクを試行し、自分の試行から学び、自分の試行からより良くなるロボットやと思います。
モデルからのその種のオンラインデータは、事後訓練でも本当に重要な役割を果たすと思うし、私たちがかなり取り組んでることです。そやから、それは本当に重要で本当に役立つと思います。ありがとうございます。
もう1つの質問の時間があると思います。みなさんすべてにお答えできなくて申し訳ありまへん。
こんにちは。MIT EECSの卒業生として、現在本当にクールなロボティクスで働いて、ロボティクスと起業についてお話しされているのを見るのは非常にクールです。しかし、ハードウェアコンポーネントを含むロボティクス研究が学術界と産業界でどのように異なって展開されるかについて疑問に思ってました。
通常、一方の設定でより多くのリソース、より少ない制約、またはより広いアプリケーションがありますか?どのような人々や目標がそれぞれの道により適してると思いますか?
興味深い質問ですね。スタートアップと学術環境と産業環境の両方をまだ愛してます。すべてにさまざまな長所と短所があると思います。確かに一般的に学術環境は、スタートアップや産業研究所ほどデータ収集スループット、評価スループット、計算の点でリソースが豊富やないと思います。
しかし同時に、大量のリソースなしに解決できる問題がたくさんあって、アルゴリズム側で理解する必要があることがあると思います。そやから、そこで本当に興味深い仕事がたくさんできると思います。
産業とスタートアップでは、これらの大きなモデルでの研究を実際に試行し、データをスケールアップし、大規模で何が起こるかを見ることは、そこで行うのが本当に素晴らしいと思います。ええ、両方の場所があると思います。
また、ギャップは人々が思わせるほど大きくないとも思います。産業環境の人々もしばしばより多くの計算を望んでて、常により多くのリソースを望んでます。多くのリソースを持ってるとき、実際には実行する実験について注意深く批判的に考えなくて、計算制約がより厳しかった場合よりも、時々計算をより無駄に使うことになります。そやから、私の経験では、より多くのリソースを持つことの実際のデメリットもあります。
本当にすみまへん。アーキテクチャについて1つ簡単な質問をしてもいいですか?スケーリング則がトランスフォーマーベースのアーキテクチャでうまく機能してることは知ってて、現在、物理的認識のためのモジュールを持たないテキストトークン用に作られた VLM ベースのアーキテクチャで制限が見えるかどうか考えてました。
ええ。それにどう対処しますか?そやから、私たちはアクションをトークン化してるんで、それを達成する方法として私たちが発表した fast tokenizer 論文を見ることをお勧めします。ええ、そこで締めくくりましょう。みなさん、ありがとうございました。イベントを楽しんでください。


コメント