世界初の完全自律型ロボットシステムの登場(フィジカルAI)

AIに仕事を奪われたい
この記事は約11分で読めます。

6,122 文字

The Worlds First FULLY AUTONOMOUS Robotics System Is Here (Physical A.I)
Prepare for AGI with me - 🐤 Follow Me on Twitter 🌐 Checkout My website -

ほなみなさん、新しい会社フィジカル・インテリジェンスについてお話しさせていただきます。この会社がロボット工学の分野でどんな革新的なことをしているのか、何が特別なんかについて詳しく見ていきましょか。
まず彼らのブログ記事では、私たちは今AIの革命期にいると述べています。この10年で、実用的なAIアシスタントが登場し、AIがフォトリアルな画像や動画を生成し、さらにはタンパク質の構造を予測できるビデオモデルまで開発されました。でもね、こういった進歩があってもまだまだ物理的な世界においては人間の知能がAIをはるかに上回ってるんです。
モークスのパラドックスを言い換えると、チェスに勝ったり新薬を発見したりするのはAIにとって簡単な問題ですけど、シャツを畳んだりテーブルを片付けたりするには、人類が考え出した中でも最も難しい工学的問題を解決せなアカンのです。
人間が持つような物理的な適応能力を持つAIシステムを作るには、新しいアプローチが必要で、システムを具現化して物理的知能を獲得できるようにせなアカンのです。
過去8ヶ月間で、私たちは汎用ロボット基盤モデル「Pi Z」を開発しました。これは人工的な物理知能を開発するという長期目標への第一歩やと考えています。ユーザーが単にLLMやチャットボットに質問するように、ロボットに任意のタスクを実行するよう指示できるようになるんです。
LLMと同様に、このモデルは幅広く多様なデータで学習され、様々なテキスト指示に従うことができます。LLMとは違って、画像、テキスト、アクションを網羅し、ロボットから得られる実体験を通じて物理的知能を獲得します。新しいアーキテクチャを通じて、直接低レベルのモーターコマンドを出力することを学習し、様々な種類のロボットを制御できます。望むタスクを実行するようプロンプトを与えたり、難しいアプリケーションのシナリオに特化するようファインチューニングしたりすることもできます。
ここで彼らは汎用ロボットポリシーの可能性について語っています。今日のロボットは狭い専門家なんです。産業用ロボットは、振り付けされた環境での反復動作用にプログラムされていて、組立ラインの同じ場所で同じ作業を繰り返したり、同じ箱に同じアイテムを入れたりするだけです。
このような単純な動作でさえ広範な手動エンジニアリングが必要で、家庭のような雑然とした実世界環境での複雑な動作は単純に実現不可能なんです。彼らは言います、もし幅広い異なるスキルを実行し、幅広い異なるロボットを制御できる単一の汎用ロボットポリシーを訓練できれば、この課題を克服できるだろうと。
そういうモデルは、人が一生分の経験を活かして新しいスキルを素早く学ぶように、各ロボットと各アプリケーションからほんの少しのデータだけあれば十分なんです。汎用モデルが専門家の仕事で専門家に勝つのは、これが初めてちゃいます。
言語モデルは、多様で汎用的な事前学習から得た知識を活用することで、より専門化された言語処理システムを凌駕してきました。LLMが言語の基盤モデルを提供するのと同じように、これらの汎用ロボットポリシーは物理的知能のためのロボット基盤モデルを提供することになります。
そこに到達するには、大きな技術的課題を解決せなアカンのです。彼らの最初のステップがPi Zで、これは大規模なマルチタスクおよびマルチルートデータ収集と、最も有能で器用な汎用ロボットポリシーを実現する新しいネットワークアーキテクチャを組み合わせたプロトタイプモデルです。
これは真に汎用的なロボットモデルを開発するための小さな初期段階に過ぎないと考えていますが、これから来るものを垣間見せる刺激的な一歩やと考えています。
個人的に、この会社は本当に信じられないようなことをしていると思います。これらのデモのほとんどをリアルタイムで見ていると、これらのロボットが直面しているタスクは本当に難しいことがわかります。
シャツの畳み方は100万通りもあるのに、どうやってロボットにシャツの畳み方を教えるんでしょう?シャツを拾い上げるとき、しわくちゃになったり、こっちに落ちたりあっちに落ちたり、ロボットが直面する可能性のあるシナリオは100万通りもあるんです。
これらのロボットがこれらの動作を実行し、何度も成功裏に完了するのを見ていると、フィジカル・インテリジェンスの最初の汎用ポリシーであるPi Zは、私が見た他のロボットデモ、特にインターネットで話題になったものの何歩も先を行っていることがわかります。
理解しておかなあかんのは、これが現在完全に自律的なものやということです。現在見ているデモのどれも遠隔操作されていません。全て彼らの単一の汎用ポリシーによって完全に自律的に行われています。
ここで彼らのクロスエンボディメント・トレーニングミックスチャーが見れます。これはPi Z(頭脳)がインターネットスケールのビジョン言語事前学習、オープンソースのロボット操作データセット、そして8つの異なるロボットからの器用なタスクで構成される彼ら独自のデータセットを使用するところです。
そしてモデルは、ゼロショットプロンプティングかファインチューニングのどちらかを通じて様々なタスクを実行できます。データセット全体には多様なタスクが含まれており、各タスクは幅広い動作プリミティブ、多くの異なるオブジェクト、様々なシーンを示しています。
このデータセットのタスクは、食器の片付けから封筒へのアイテムの梱包、衣類の折りたたみ、箱の組み立て、電源プラグの差し込み、持ち帰り用箱への食品の梱包、ゴミの拾い上げと廃棄まで、ロボットが実行を求められる可能性のある実際のタスクの範囲をカバーしながら、ロボットの器用さの異なる次元を訓練します。
これらのタスクを選ぶ際の彼らの目標は、特定のアプリケーションを解決することではなく、物理的知能の初期基盤として、物理的な相互作用の一般的な理解をモデルに提供することです。
基本的に、「見てください、私たちは特定のものに対して訓練しているのではありません。様々な異なるタスクを理解できるように訓練しているので、全体的にもっと賢くなるんです」と述べています。
インターネットスケールの意味理解の継承について、多くの異なるロボットでの訓練を超えて、Pi Zはウェブ上のテキストと画像をモデル化するために訓練された事前学習済みのビジョン言語モデルから始めることで、インターネットスケールの事前学習から意味的知識と視覚的理解を継承すると述べています。
広く使用されているVLMにはGPT-4 Visionやジェミニが含まれます。彼らは小さな30億パラメータのVLMを出発点として使用し、リアルタイムの器用なロボット制御に適応させています。
VLMはウェブから意味的知識を効果的に転送しますが、離散的な言語トークンのみを出力するように訓練されています。器用なロボット操作では、Pi Zが1秒間に最大50回の高い頻度でモーターコマンドを出力する必要があります。
この水準の器用さを提供するために、彼らは拡散モデルの一種であるフローマッチングを通じて、事前学習済みVLMに連続的なアクション出力を追加する新しい方法を開発したと述べています。
多様なロボットデータとインターネットスケールのデータで事前学習されたVLMから始めて、彼らはビジョン言語アクションフローマッチングモデルを訓練します。これを高品質なロボットデータでポストトレーニングして、様々なダウンストリームを解決できます。
次に、器用な操作のためのポストトレーニングがあります。これは基本的に、特定の本当に難しいタスクのためにモデルを非常に特定の方法で訓練したいというところです。
彼らは基本的に、洗濯物を畳むような難しいタスクのための高品質なデータでモデルをファインチューニングすることは、LLMデザイナーによって採用されているポストトレーニングプロセスと非常によく似ていると述べています。事前学習はモデルに物理的世界について教え、ロボットのためのファインチューニングは基本的に特定のタスクを本当にうまく実行できるようにするだけです。
彼らは当然ながら洗濯というタスクを行い、モバイルロボットか固定された一対のアームを使用して洗濯物を畳むためにPi Zをファインチューニングしました。目標は衣類をきれいに重ねることでした。
このタスクはロボットにとって例外的に難しく、もちろん人間の中にも難しいと感じる人がいます。平らなテーブルに置かれた1枚のTシャツは、事前にプログラムされた一連の動作を繰り返すことで時々畳むことができますが、絡まった洗濯物の山は様々な方法でしわくちゃになる可能性があるので、単に同じような動きで腕を動かすだけでは十分ではありません。
彼らの知る限り、これまでのロボットシステムでこのレベルの複雑さでこのタスクを実行できることは実証されていません。基本的に彼らが言っているのは、「見てください、このロボットは現在最先端です。ロボットは様々な方法で折りたためる可能性があり、彼らが現在実証しているような繰り返し可能な成功を確実にすることは、これまで単純に見たことがないことです」ということです。
彼らはテーブルの片付けについても話しています。モデルをテーブルの片付けにもファインチューニングしました。これにはロボットがテーブル上の食器やゴミを拾い上げ、食器、カトラリー、カップを片付け用の容器に入れ、ゴミをゴミ箱に入れる必要があります。
このタスクではロボットが目が回るほど多様なアイテムを扱う必要があります。Pi Zを大規模で多様なデータセットで訓練することの刺激的な結果の1つは、ロボットが採用した様々な戦略でした。
単に順番に各アイテムを掴むだけでなく、モデルは複数の食器を重ねて一緒に容器に入れたり、皿をゴミ箱に置く前に皿からゴミを振り落としたりすることができました。
これはかなり魅力的です。私たちはよくロボットやモデルのこういった新たな能力について話しますが、このロボットが複数の食器を重ねて一緒に容器に入れたり、皿をゴミ箱に置く前に皿からゴミを振り落としたりできるというのは実際にかなりクールです。それはその状況で人間がすることとよく似ています。
もちろんここで、彼らは絶対に信じられないことを成し遂げています。それはこのロボットに箱を組み立てさせたことです。ここでは、ロボットは平らな段ボール箱を取り、側面を折り上げ、フラップを折り込む必要があると述べています。
これは各折り目と折り込みが予期せぬ方法で失敗する可能性があるため、非常に難しいです。ロボットは進捗を観察し、進みながら調整する必要があります。また、部分的に折られた箱がバラバラにならないように、テーブルさえも使いながら両腕で箱を支える必要があります。
これはロボットがそれをどのように行うかを実際に見るとかなり信じられないことです。これらのロボットを訓練するには多くの微妙な情報が必要です。これを実際に見るのは本当に魅力的です。特定の箱を折るのに苦労する人を何人か知っています。
もちろん彼らはこのモデルを評価しました。学術文献で提案された他のロボット基盤モデルと彼らのタスクを比較したと述べています。離散化されたアクションを使用する70億パラメータのVAモデルであるOpen VAと、拡散出力を使用する9,300万パラメータのモデルであるOtoがあります。
これらのタスクは、学術実験で使用されるものと比べて非常に難しいです。例えば、Open VAの評価で使用されるタスクは通常、卵を鍋に入れるような単段階の動作で構成されています。一方、彼らの最も単純な片付けタスクは、複数のオブジェクトを扱い、それらをゴミ箱か片付け用の容器のどちらかに分類する必要があるため、かなり難しいです。
より複雑なタスクでは、複数の段階、変形可能なオブジェクトの操作、環境の現在の構成に応じて多くの可能な戦略の1つを展開する能力が必要になる場合があります。これらのタスクは、完全な成功の完了に1点を割り当て、部分的に正しい実行には部分点を与える採点基準に従って評価されます。例えば、オブジェクトの半分を片付けると0.5点になります。
画面で見れる図表に5つのゼロショット評価タスクにわたる平均スコアが示されています。VMの事前学習を使用しない470パラメータモデルである小さなPi Z(Pi Z small)と、完全なPi Z事前学習モデルを比較しています。
Open VAとOtoは最も簡単なタスクでゼロ以外のパフォーマンスを達成できますが、Pi Zはすべてのタスクにわたって圧倒的に最高のパフォーマンスを示しています。Pi Zの小さなバージョンは2番目に良いパフォーマンスを達成しますが、VMの事前学習を使用する完全なサイズのアーキテクチャを使用すると、パフォーマンスが2倍以上向上します。
彼らはまた、ここからどこへ向かうのかについても述べています。フィジカル・インテリジェンスの使命は、任意のロボットを制御して任意のタスクを実行できる基盤モデルを開発することです。これまでの実験では、モデルが様々なロボットを制御し、洗濯かごからの洗濯物の折りたたみや段ボール箱の組み立てなど、これまでのロボット学習システムが成功していないタスクを実行できることを示しています。
しかし、汎用ロボットポリシーはまだ初期段階にあり、長い道のりが待っています。ロボット基盤モデル研究の最前線には、長期的な推論と計画、自律的な自己改善、堅牢性と安全性が含まれます。
来年はこれらすべての方向で大きな進歩が見られると予想しています。しかし、初期の結果は、ロボット基盤モデルの将来に有望な絵を描いています。インターネットスケールの事前学習から意味的理解を継承し、多くのタスクとロボットプラットフォームからデータを組み込み、前例のない器用さと物理的能力を可能にする、高度に有能な汎用ポリシーです。
また、これを成功させるには、新しい技術だけでなく、さらに多くのデータと、ロボティクスコミュニティ全体を巻き込む集団的な努力が必要になると考えています。彼らはすでに多くの異なる企業やロボティクス研究所と協力を進めており、遠隔操作と自律性のためのハードウェア設計を改良し、パートナーからのデータを事前学習済みモデルに組み込んで、彼らの特定のプラットフォームに適応したモデルを提供できるようにしています。
全体として、フィジカル・インテリジェンスは本当に信じられないと思います。以前であれば遠隔操作されていると考えられていたような様々なタスクを、彼らのモデルがゼロショット設定で完全に自律的に、最初から最後まで成功裏に実行できることを実証しました。この会社が時間とともにどのように発展していくのか、興味深く見守っていきたいと思います。

コメント

タイトルとURLをコピーしました