ボストンダイナミクスが開発したAtlasロボットが、従来の単一タスク特化型から脱却し、人間のように考えて行動する汎用性を獲得した。VRを用いた人間のデモンストレーションから学習し、自然言語指示を理解して複雑な作業を自律的に実行できる画期的なシステムである。4億5000万パラメータの拡散トランスフォーマーを基盤とした「ロボット脳」が、予期しない状況への適応能力と人間を上回る作業速度を実現している。

ボストンダイナミクスの革命的な進歩
ボストンダイナミクスは、ついにAtlasロボットに人間のように考えて行動することを教えました。これは、簡単な指示を聞いて、信じられないほど複雑な仕事を全て自分で理解する方法を見つけ出すロボットの話です。
想像してみてください。皆さんのほとんどがおそらく今までに聞いたことがあるであろう、この人型ロボットがいるんです。それはAtlasと呼ばれています。
そして実際に彼らは、このロボットにSpotと呼ばれる別のロボットを分解することを教えました。でも、ここがクレイジーな部分です。これは単に事前にプログラムされた指示に無意味に従っているわけではありません。この物は本当に自分が何をしているのかについて考えているのです。
そして、このロボットは非常に多くのことが上手でなければならず、それはちょっとばかげているくらいです。様々な物体を拾い上げなければなりません。いくつかは硬く、いくつかは柔らかく、いくつかは重く、いくつかは繊細で、いくつかは大きく、そしていくつかは小さいのです。
でも、それは印象的な部分ですらありません。これら全ての精密な手の作業をしている間、予期しないことが起こった時に、動き回り、障害物を避け、バランスを保つために全身を協調させなければならないのです。
研究者たちは、その一つの特定のタスクを本当に上手く実行するようにロボットをプログラミングする代わりに、彼らが「ロボット脳」と呼ぶ、全てにおいて本当に優秀なものを作成する必要があることを理解しました。
こう考えてみてください。一つの仕事が素晴らしい人を雇いたいですか、それとも100の異なる仕事がかなり上手な人を雇いたいですか?そして、それが彼らがここで取ったアプローチの種類なのです。
ロボットに思考を教える方法
では、皆さんはおそらく疑問に思っているでしょう。一体どうやってロボットに考えることを教えるのか?これはかなり新しいことです。まあ、彼らは私が個人的に素晴らしいと思うこの新しい4段階プロセスを考え出しました。
ロボットが最初に行う段階は、観察して学習することです。最初に、実際に人間がVRヘッドセットを使用してロボットをコントロールしました。基本的に、これまでに作られた最も高度なビデオゲームをプレイするようなものです。現在画面で見ることができる人間のオペレーターは、ロボットの目を見て、あらゆる動きをコントロールできました。
そして彼らは、人間がコントロールしている間にロボットが行ったすべてを、実際のロボットとコンピューターシミュレーションの両方で記録しました。
次に彼らが行ったのは、録画されたロボットのデータをすべて取得し、それを本当に注意深く整理することでした。巨大なビデオを編集するようなものだと考えてください。彼らは全てを分類し、何が起こっているかをラベル付けし、ロボットがタスクを正しく実行している良い例だけを確実に保持しなければなりませんでした。
さて、ステップ3では、ロボット脳を訓練しなければなりませんでした。ここで本当にクールになります。彼らは、この整理された学習データをすべて、4億5000万の接続を持つコンピューター脳に送り込みました。それは私たちの脳がどのように働くかの簡素化されたバージョンのようなものです。このロボット脳は、カメラ画像を見て、体の部分がどこにあるかを感じ、話された指示を聞くことを学習しました。
そして、毎秒30回、何をすべきかを理解するのです。
最後に、彼らはロボットが学習したのか、それとも単に記憶していただけなのかを確認するために、全く新しいタスクでロボットをテストしました。そして皆さん、結果は信じられないものでした。
全体のプロセスは繰り返し続きました。そして最終的にロボットができないことがあった時は、まあ、彼らがする必要があったのは、ステップ1に戻って、それが上達するまでより多くの例を教えることだけでした。
成功の3つの核心的原則
さて、これを機能させた3つの大きなアイデアがありました。彼らが核心まで従った3つの原則です。
1番目は、ロボットに一つのことではなく、すべてを教えることでした。ほとんどのロボットプログラミングは、一つの特定のタスクを本当に上手く実行するロボットを作ることに焦点を当てています。でも、この人たちは「知っている?なぜ全てをすることを教えないのか?」と言ったのです。
彼らは、人間がロボットのあらゆる部分をコントロールできるこのクレイジーなVRコントロールシステムを構築しました。小さな指の動きから全身の歩行と到達まで。人間のオペレーターがVRヘッドセットを装着して、文字通りロボットになるのです。彼らが手を動かせば、ロボットが手を動かします。彼らが歩けば、ロボットが歩きます。それは人間の脳がロボットの体をコントロールしているようなものです。
パート2では、彼らは本当に革新的なことも行いました。すべてのタスクのために一つの脳を作ったのです。ここで彼らが理解したことがあります。多くの異なるタスクを学習するロボット脳は、実際に一つのことしか知らないロボットよりもよく機能するのです。これは、多くの異なる経験を持つ人が、人生で一つの仕事しかしたことがない人よりも、通常新しい問題を解決するのが上手であることに似ています。
彼らは、複数の異なるロボット体と数千の異なるタスクでロボット脳を訓練しました。
Spotワークショップの驚異的なタスク
すべてを見ていた時、完全に信じられないと思ったタスクが一つありました。そしてこれが彼らが「Spotワークショップ」と呼んでいるものです。そしてこれは基本的に、ロボットがSpotロボットからパーツを完全に分解して整理することを含んでいます。
これは単に物体を拾い上げて置くだけではありません。ロボットは協調した歩行、精密なステッピング、幅広いスタンスの設定を行っています。しゃがんでいます。指でパーツを拾っています。必要に応じて物体を再把握し、関節を動かし、物を注意深く置き、物体を位置にスライドさせています。
そして、タスクには3つの主要な部分があります。脚を取り外すことで、これはロボットがカートからSpotロボットの脚を掴むところです。それらを適切に折り畳んで、棚に置きます。それから第2部分で、カートからフェイスプレートを掴みます。下の棚から保管ビンを引き出し、フェイスプレートをその中に入れます。
そして第3段階は最終的な片付けです。カートが空になると、背後の青いビンに振り返り、残りのSpotパーツをすべて片付け、それらを手いっぱいに抱えて青いカートに運びます。
私が個人的に信じられないと思ったのは、彼らが全シーケンスでロボットが完全にノーカットでこれを行うのを示しているからで、各部分は普通の英語でロボットに話しかけることによって引き起こされるだけなのです。
文字通り何をすべきかを伝えるだけで、残りをどうやって行うかを理解するのです。
予期しない状況への適応能力
さて、これがさらに良くなる方法は、実生活では物事が常に計画通りに進まないということを皆さんが知っているように、このロボットもそれに対処することを学習したということです。パーツが地面に落ちたり、ビンの蓋が誤って閉まったりした場合、ロボットは古いロボットがするように単に停止してエラーメッセージを出すことはありません。
それは状況を見て、何が間違ったかを理解し、問題を修正するために行動を適応させるのです。そして、クレイジーな部分は、彼らのロボット脳の最初のバージョンは全くこれができなかったということです。しかし、人間がこの種の問題に対処している例をロボットに示し、システムを再訓練すると、基礎となるプログラミングを変更することなく、突然あらゆる種類の予期しない状況を処理できるようになりました。
これは、新しいロボットの行動をプログラミングすることに、もはやロボット工学の博士号は必要ないということを意味します。ロボットに何かをする方法を示すことができれば、それを学習できるのです。そして、それが未来にとって何を意味するかを考えてみてください。
科学小説レベルの性能テスト
研究者たちは、既に言ったように、数十の異なるタスクでこのシステムをテストしました。そして結果はサイエンスフィクションから出てきたようなものです。
話された指示を聞く一つのロボット脳だけを使用して、Atlasは簡単なピック・アンド・プレイスタスクから、バースツールの上でロープをひっくり返したり、テーブルクロスを広げて敷いたり、22ポンドのタイヤを操作するような信じられないほど複雑な仕事まで、すべてを行うことができます。
ロープ、布、タイヤのタスクはすべて、従来のロボットプログラミングでは実質的に不可能だったことの完璧な例です。なぜなら、これらの物体は柔軟で変形可能だからです。それらがどのように振る舞うかを予測することは本当にできません。
しかし、この新しいアプローチでは、硬いブロックを積み重ねているのか、Tシャツを折りたたんでいるのかに関わらず、ロボットを教えることは全く同じです。デモンストレーションできれば、それはロボットが学習できるということを意味します。
学習後の速度向上機能
彼らは、ロボットが既に学習した後で、ロボットをより速く動作させることができます。そしてこれは別の、知っている通り、頭が吹き飛ぶような機能です。
彼らは再訓練することなく、ロボットの性能をスピードアップできるのです。ロボット脳は取るべき行動だけでなく、いつそれを取るかも予測するので、実際にタイミングを調整してすべてをより速く起こらせることができます。
彼らは、ロボットが人間がデモンストレーションした速度である通常の速度で同じタスクを実行し、それから2倍速、さらには3倍速でさえ実行するビデオを示しています。
彼らは一般的に、タスクをどれだけうまく実行するかに大幅に影響を与えることなく、ロボットを1.5倍から2倍速くできることを発見しました。そしてそれは、いくつかの場合において、元々彼らを教えた人間よりも速くロボットを動作させることができることを意味します。
だから私がこれを絶対にクレイジーだと思う理由は、私たちがこれらのロボットに私たちがすることをするように教えているが、さらに速くさせているからです。そして、これが今後数年でどれだけ良くなるかを想像してみてください。正直言って、私の脳では処理できません。
技術的詳細の解説
技術的なことに入りたければ、あまりに多くで皆さんを退屈させることはしませんが、少量の詳細は提供しますが、ロボット脳自体は4億5000万パラメータを持つ拡散トランスフォーマーと呼ばれるものに基づいています。
それは、本質的にロボットの関節がすべてどこにあるかという情報である固有受容データと言語指示とともに、毎秒30回カメラ画像を処理します。
ロボット脳が決定を下すとき、単に次の単一行動を決めるだけではありません。次の1.6秒をカバーする48アクションの全セクションを計画し、通常は決定プロセスを再度実行する前に、これらのアクション24を実行します。
完全なAtlasロボットでは、脳は手の位置、首の回転、胴体の位置、両足をコントロールします。そして上半身バージョンは同一ですが、胴体と脚のコンポーネントはありません。
コンピューターシミュレーションの重要性
コンピューターシミュレーションがこれを推進しており、これらがすべてを可能にしています。なぜなら、これらのコンピューターシミュレーションは、高価なロボットハードウェアに損傷を与えるリスクなしに、アイデアを迅速かつ繰り返しテストできるからです。
シミュレーションは非常に正確で、同じコントロールソフトウェア、訓練コード、さらにはVRインターフェースをシミュレーションと実際のロボットの両方で使用できます。
そして彼らは、実際のロボットデータと並んでトレーニング材料としてシミュレーションデータも使用し、これによってロボット脳がはるかに幅広い経験から学習するのに役立ちます。
ロボット工学の歴史的転換点
これがどれほど大きな出来事かを十分に強調することはできません。私たちは、ロボット工学において大きな閾値を越えたばかりです。初めて、私たちは文字通り、自然言語指示を理解し、複雑な移動と精密な操作を組み合わせ、リアルタイムで予期しない状況に適応し、人間のデモンストレーションだけから新しいタスクを学習し、人間の教師よりも速く動作するロボットを手に入れました。
研究ブログを読んでいれば、私は多くの時間をそれを読むことに費やしました。そして彼らは、これは始まりに過ぎないということを非常に明確にしていました。彼らは、これをさらに信じられないものにするいくつかの次のステップに取り組んでいます。
より良い力のコントロール。テクスチャーを感じ、それに応じてグリップを調整できるロボットを想像してみてください。
より速く、より動的な操作、異なるタイプから学習、システムをさらに良くするための強化学習の使用。より高度な視覚、言語、複雑な推論の展開。
汎用ロボットの時代の到来
つまり、私たちがここで見ているのは、真に汎用目的のロボットの夜明けに他なりません。これらは一つの反復的なタスクしかできない工場のロボットではなく、あなたが何かを一度行うのを見て、あなたが達成したいことを理解し、それを普通の英語で説明すると、全身を使ってそれを行う方法を理解するロボットです。つまり、これはクレイジーです。
私たちは未来に対して非常に多くの含意を持っています。それらすべてで皆さんを退屈させることはしませんが、物理的なタスクのために人間のような知能を人間に与える方法のコードを解読することは絶対にクレイジーです。


コメント