
5,436 文字

2024年は龍の年でしたが、2025年は何の年になるかご存知ですか?2025年はロボットの年になります。ロボットの年です。この話をしたいと思います。
Metaが発表したばかりのオープンソースによるロボット工学へのアプローチについてです。家庭内でのタスクをこなすロボットを、実世界に展開する前にシミュレーション内で訓練するというものです。
ご存知の通り、多くのフロンティアAIラボや他の企業が、拡張現実メガネやゴーグル、あるいはVRヘッドセットなどの開発を進めています。これらは実際に見ている世界に重ねて表示できるオーバーレイを提供します。
あなたの後ろを小さなロボット犬が追いかけ、どこへでもついて来て、すべての命令に従う様子を想像してみてください。その頭上には、あなたにしか見えない吹き出しや思考バブルが表示されます。あなたが命令を出すと、ロボットが何を考えているのか、どのような推論のステップを踏んでいるのかが見えます。最終的な目標は、家事の手伝い、掃除、料理、洗濯物たたみなど、あなたの家事を手伝うことです。基本的にはあなたの足元で、望むことは何でもこなす準備ができています。
これが人間とロボットのコラボレーションというアイデアです。完全に自律的で、周りの人間を無視して勝手に動き回るロボットではありません。あなたのパートナーとなることを目的としています。
Metaは「PARTNR」(母音の多くが省略された綴り)と呼ばれるオープンソースのベンチマークを公開しています。これには人間のデモンストレーションを含む大量のデータセットが含まれています。これが少し異なる点で、人間がループの中に入っています。人間はSimsゲームのように、物をクリックしてロボットの反応を確認できます。VRヘッドセットを着用して歩き回り、ロボットの反応をシミュレートすることができます。
これによりシミュレーション内でタスクを学習させることができ、いったん訓練が完了すると、シミュレーションから実際の環境に移して、現実世界であなたを手伝うことができるロボットに実装することができます。
このシステムでは大きなブレークスルーもありました。速度が8.6倍向上し、ロボットの推論に小規模なLLMを使用することで、精度を失うことなく速度が向上しました。現在のベンチマークには、60の現実的なシミュレーション住宅と5,800以上のユニークな3Dオブジェクトにわたる10万の自然言語タスクが含まれています。これによりPARTNRは、家庭内タスクにおける協調的な計画立案と推論を研究するための同種最大のベンチマークとなっています。
興味深いのは、これらのロボットを訓練するためのタスクを生成するのに大規模言語モデルを使用している点です。つまり、AIがシミュレーション内でロボットを訓練するためのタスクを考え出しているのです。
彼らが投稿した紹介ビデオを見て、何が起きているのかを確認し、後でいくつかの詳細について掘り下げてみましょう。
通常、ロボットは孤立して作業しているのを見かけますが、それは私たちの未来ではありません。ロボットと人間は共に生活し、働き、自然にコミュニケーションを取ります。Meta AIでは、日常生活を豊かにできる社会的知性を持つロボットの実現に近づく研究のブレークスルーを達成しました。
私たちの成果は前例のないもので、規模での評価も行われており、忙しい日常生活にどのような意味を持つのか簡単に想像できるほど高度なものです。片付け、配達物の受け取り、料理の手伝いなど、可能性は無限大です。
私たちは日常的なタスクのベンチマークを設定し、10万以上の自然言語指示を含むデータセットを開発しました。このデータセットを使用して、人間が存在する動的な環境を含む日常的なタスクの推論と計画を行う大規模な発見モデルを訓練しました。
私たちのHabitat 3プラットフォームは、ロボットと人間を一緒にAIモデルを訓練する最速のシミュレーターで、シミュレーション訓練により何千もの数のデータを生成でき、最先端のモデルよりも高速なモデルを実現しています。
私たちの研究は人間との報酬的な協力に焦点を当てています。現在、複合現実ヘッドセットを使用してコミュニケーションを自然な会話形式で行っています。例えば、このデモでは「喉が渇いた、何か飲み物を持ってきてくれる?」というように。
PRSは水筒を探すことができ、特別な訓練を受けていない複雑な環境でも動的な計画と再計画が可能なことを示しています。人間が存在する場合、モデルは人間の行動に基づいて行動を調整し、再計画します。例えば、デモでは「リビングを片付けよう」という時に、ロボットが拾おうとしていたおもちゃが移動されると、モデルは計画を変更して別のおもちゃに移ります。
これは、私たちのHabitat 3.0プラットフォームで200以上のシミュレーション住宅を使用し、人間のようなアバターを追加した革新的なAI訓練の結果です。いったん訓練されると、同じ実体化AIが実世界でのロボットの経験を駆動し、実世界環境で一から学習する必要がなく、シミュレーションで学習したモデルを直接ロボットに展開できます。
Meta AIで行った画期的な大規模計画モデルの研究により、推論と計画ができるロボットと協力できる未来は遠くありません。
ここには多くの興味深い点があります。その一つは、これらの多くがオープンソースだということです。実際、これらの一つでは、家庭環境で訓練を始めることができるロボットを提案しています。GitHubにあるFacebook Researchの一部で、「home robot」と呼ばれています。これが彼らが推奨していると思われるロボットの一つで、価格は約25,000ドルです。
まだ高価ですが、これが実際の家庭でより使用可能になり、展開が進むにつれて、多くの価格は下がっていくと感じています。例えば、このロボットはルンバのような形状で、大きなハンドルとアームが付いており、家の中を動き回って飲み物やコーヒーを持ってくるなどの様々なタスクをこなすことができます。遠隔操作も可能で、自律運転用にも設計されています。
私はこれについて掘り下げ始めたところですが、以前はHabitat 1.0があり、これは実際の家の3Dスキャンで仮想ロボットのナビゲーションを訓練し、Habitat 2.0では物を並べ替えて家を片付けるように仮想ロボットを訓練していました。これは新しいHabitat 3.0の一つで、人間とロボットの協力のためのモデルを訓練するように設計されたシミュレーションです。
確かにMetaは、多くのものをオープンソースで構築することに真剣に取り組んでいるようです。もちろん、Facebookやさまざまなソーシャルメディアですべてが動作していれば、会社にとっても非常に良いことでしょう。
みんながこれを目指しています。Googleは独自のバージョンを持ち、最近OpenAIは独自の部門を立ち上げ、様々なロボットタスクの人材を募集していることを発表しました。Appleもロボット工学で大きな進展を見せており、人間のような優雅さで動く様々なものを発表しています。
Appleの「elegant」と呼ばれるものを見てください。小さなU-pixelのようなランプが、ビートに合わせて踊ったり動いたりしているのですが、これがAppleが注力していることです。多くの人々が、人型ロボットであれランプのようなものであれ、自分たちのロボットを構築しようとしています。そして、それらをより多く私たちの家庭に導入しようとしています。
もちろん、Metaはこれらの多くをオープンソースで提供しているようで、この分野に参入しようとする開発者にとって非常に大きな意味を持つと思われます。ここで注目すべきは、MetaもAppleの新製品も、どちらもロボットと人間の協力というアイデアを目指していることです。
このAppleのロボットは表現力豊かになります。つまり、単にタスクをこなすだけでなく、人間に「ああ、このタスクを喜んでやります」というようなことを示そうとします。物を指さすこともできますが、やはり入力なしに自律的にタスクをこなすのではなく、あなたが行うタスクのコラボレーター、パートナーになることを目的としています。
Appleのものがどれほど素晴らしいかもしれませんが、私はこのオープンソースロボット工学にずっと興奮しています。これは参入すべき信じられないほど素晴らしいものだと思います。私は常に、大規模言語モデルがすべてのものに組み込まれると信じてきました。サーモスタットにも入るでしょう。
Appleのデバイスでも見られるように、そのランプは基本的に何らかの人工知能によって導かれています。音声コマンドが可能で、それはSiriのように聞こえます。つまり、これらのデバイスには大規模言語モデルが組み込まれ、あなたが指示したタスクをどのように実行するかを判断することになります。
ランプにも、すべてのものに組み込まれることになるでしょう。もちろん、それらのユースケースの一部は大手企業のGoogle、Appleなどに吸収されるでしょうが、これらのオープンソースロボット工学には、特定の一つのユースケースに興味を持つ一般の人々や開発者のために、非常に大きな開かれた空間が存在することになります。
そして、彼らはMetaや他のオープンソースコミュニティをサポートする人々からのサポートに頼りながら、それを構築することができるでしょう。もちろん、NVIDIAもオープンソースで多くのことを行っています。
これらのロボットへの需要が増えるにつれて、サプライチェーンが追いつけば、価格は最終的に下がり始めると感じています。私は非常に楽観的で、2025年には家庭での使用が始まると考えています。すでに工場生産では採用されており、BMWはFigure.01か、Figureの人型ロボットの一つを生産に使用しています。
また、これらのロボットの訓練がSimsゲームのように見えるのも素晴らしいと思いませんか?Habitat 3.0についてのこのクリップを見てみましょう。これはロボットと人間のコラボレーター、つまりパートナーのシミュレーション訓練です。
Habitat 3.0は、人間を支援し協力する社会的実体エージェントを開発するために設計されたシミュレーターです。人型アバターとロボットの両方をサポートし、家庭のような環境での人間とロボットの協調タスクの研究を可能にします。
AIモデルの一般化を確保するため、私たちのシミュレーターは様々な人間のポーズや外見、複数の性別表現や体型を提供します。さらに、歩行や手を振るような単純な行動から、物体との相互作用のようなより複雑な行動まで、幅広い行動をサポートしています。
多様性はシーンにも及び、Habitat 3.0は200以上のシーンと18,000以上のオブジェクトを含むHabitat合成シーンデータセットを活用しています。
Habitat 3.0のもう一つの重要な機能は、マウスとキーボードまたは仮想現実インターフェースを通じて、人間が自律ロボットと協力できるヒューマンインザループツールです。
再現可能で標準化されたベンチマーキングを目指し、Habitat 3.0は2つの協調的な人間とロボットのタスクを提示します。最初のタスクは「social navigation」と呼ばれ、ロボットが安全な距離を保ちながら人型アバターを見つけて追従するものです。家の中を移動しながらビデオ通話をする場合のようなシナリオを想像してください。
2番目のタスク「social rearrangement」では、ロボットが人型アバターと協力して、物体を初期配置から目的の場所に再配置します。エージェントはこの目標を一緒に、できるだけ効率的に達成するように調整しなければなりません。
私たちは両方のタスクについて、異なるベースラインの詳細な研究を行っています。ここでは、社会的ナビゲーションタスクにおける私たちのエンドツーエンド学習ポリシーの一つを示します。ロボットは未知の環境を巧みにナビゲートし、安全な距離を保ちながら人型アバターを見つけて追従します。
ロボットがアバターにスペースを譲り、その動きを妨げないようにすることに注目してください。これは社会的再配置タスクのエピソードで、学習されたポリシーがロボットと人型アバターの間でタスクを効率的に分割し、アバターが単独で操作する場合よりも効率を向上させています。
これらの発見は、ヒューマンインザループ研究にも及び、学習されたロボットポリシーが人間の効率を向上させることが示されています。詳細な結果については論文の該当セクションを参照してください。
私はまだこのすべてを確認する機会がありませんでしたが、彼らが行っているこのオープンソース的なアプローチに非常に非常に興奮しています。そして、これについてすぐにもっと多くのことを目にすることになると確信しています。
ここまで見ていただきありがとうございました。私の名前はウェス・ラルです。また次回お会いしましょう。


コメント