中国のテニスロボットが明かすヒューマノイドの次なるステップ

中国の研究チームが、わずか5時間のアマチュアデータからヒューマノイドロボットにテニスをプレイさせることに成功した。Unitree G1という小型ロボットを用いたこのプロジェクトは、不完全なモーションデータから高度な運動能力を学習するLatentシステムを開発し、フォアハンド91%、バックハンド78%の成功率で実際の人間とラリーを続けることを実現した。従来のロボティクスでは完璧なプロフェッショナルデータが必要とされてきたが、この研究は限られた空間で収集したアマチュアの動作データを基に、シミュレーション環境で数百万回の試行を重ね、現実世界への転移を成功させた。この手法はテニスに限らず、サッカー、倉庫作業、災害救助など、あらゆる物理タスクへの応用可能性を示唆しており、ヒューマノイドロボット産業における新たなパラダイムシフトを予感させる成果である。

China’s Tennis Robot Reveals the Next Step for Humanoids

🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

ロボットがテニスをプレイする時代
Unitree G1という選択
Latentシステムの革新性
アマチュアデータという逆転の発想
三層アーキテクチャの仕組み
Sim-to-Realギャップの克服
驚異的な成功率
パラダイムシフトの意味
ヒューマノイドロボット産業への影響
今後の課題と可能性

ロボットがテニスをプレイする時代

どうやらロボットが人間のようにテニスをプレイできるようになったようです。これがどうやって実現したのか、詳しく見ていきましょう。

実はこれ、中国のトップクラスの研究機関に分散する研究者グループから始まったんです。清華大学、北京大学、Galbotというロボティクス企業、上海AI研究所、そして他にもいくつかの機関が関わっています。

この人たちが取り組んできたのは、シンプルに聞こえるけれど実際にはロボティクス分野で最も難しい課題の一つなんです。アームだけでもなく、車輪で動く機械でもなく、実際の二足歩行ロボットに何か本当に運動的なこと、リアルタイムで起こること、そして人間が当たり前だと思っている協調動作を必要とすることをやらせるということです。

彼らがこのために選んだスポーツがテニスでした。ちょっと考えてみてください。テニスってロボットにとっては悪夢のようなシナリオなんです。ボールが秒速30メートルで飛んでくるんです。時速60マイル以上ですよ。それをリアルタイムで追跡しなければならない。体全体を適切な位置に動かす。足を踏ん張る。ラケットを振る。そしてほんの数ミリ秒しかラケットの糸に触れないボールと接触する必要があるんです。

人間はこれを学ぶのに何年もかかります。中には一生をかけても特に上手にならない人もいます。それなのに、この研究者たちはロボットにこれを教えることにしたんです。

Unitree G1という選択

しかもどんなロボットでもよかったわけじゃありません。Unitree G1を使ったんです。もしこれをご存じなければ、多分ご存じだと思いますが、これは中国の小さな企業Unitreeが作った小型のヒューマノイドロボットです。身長は約127センチメートル。つまり約4フィート2インチです。小学生くらいの大きさのロボットなんです。

29自由度、つまり基本的に29の異なる関節を独立して動かせるということです。そして右手を3Dプリントされたコネクターに交換して、フルサイズのテニスラケットを握れるようにしました。

もしかしたらもう見たことがあるかもしれません。Unitree G1が実際に卓球をプレイしているのを。でも覚えておいてください、卓球は一つのことです。基本的に同じ場所に立っている。ボールは遅い、テーブルは小さい。テニスは全く別の獣なんです。フルコートでの動きが必要です。スプリントする必要があります。卓球のボールの3倍、4倍、5倍速く飛んでくるボールを扱わなければならないんです。

Latentシステムの革新性

ここで登場するのがLatentと呼ばれるシステムです。これは「不完全な人間のモーションデータから運動的なヒューマノイドのテニススキルを学習する」の略です。はい、これは本当にひどい頭字語ですね。でも、このシステムが実際にやっていることは本当に信じられないものなんです。

彼らが直面していた問題はこうです。もしロボットにテニスを教えたいなら、明白なアプローチは本当に優秀なテニスプレイヤーからデータを取得することです。プロの試合をたくさん記録して、すべての動きを完璧にキャプチャして、それを全部システムに入力して、AIにその仕事をさせる。最高の人たちから学ばせるわけです。

でもそれは機能しないんです。その理由がかなり興味深いんです。実際の試合からのプロのテニスデータは、ロボティクスに必要な精度でキャプチャするのが非常に難しいんです。実際の競技プレイ中のエリート選手の全身モーショントラッキングが必要になります。たとえどうにかしてそのデータを手に入れられたとしても、人間の体とロボットの体は全く違うんです。

プロポーションが違う、関節の限界が違う。人間の動きをただロボットにコピーして、それが機能すると期待することはできないんです。

アマチュアデータという逆転の発想

チームは違うことを試しました。プロからの完璧なデータの代わりに、アマチュアからの不完全なデータを使ったんです。5人のアマチュアテニスプレイヤーを呼んで、小さなモーションキャプチャエリアに入れました。3メートル×5メートルの空間です。実際のテニスコートの約17分の1のサイズです。

そしてこの5人にフォアハンドを打たせたり、バックハンドを打たせたり、横方向のシャッフルをさせたり、クロスオーバーステップを練習させたり、基本的なことをやらせました。合計でたった5時間分のデータです。それだけです。それが彼らが使った人間のデータのすべてです。5時間、5人のアマチュア、そして広いリビングルームくらいのサイズのキャプチャエリア。

おそらくこう思っているでしょう。一体どうやってそこから実際にテニスのラリーをするロボットに行き着くんだと。だってこれらのモーションの断片は不完全です。小さな空間から来ている。しかもそのプレイヤーたちは本当のテニスすらプレイしていない。ただ孤立した動きをやっているだけです。

三層アーキテクチャの仕組み

ここでAIが登場します。つまり脳です。これが研究者たちが構築したものです。これは人間の動きをただコピーするロボットではありません。それらの不完全な断片を取って、それらをフルテニスコートで機能する何かにまとめ上げる方法を見つけ出すシステムなんです。

こうやって機能します。三層アーキテクチャになっています。まず左側には、モーショントラッカーがあります。これは生の人間の動きを取り込んで、ロボットが物理的にできることに翻訳します。なぜなら覚えておいてください、ロボットの体は人間の体とは違うんです。脚は短い、腕の動きも違う。だからAIは人間がフォアハンドを振るのを見て、そのスイングのロボット版がどのように見えるかを理解しなければならないんです。

完璧なコピーではなく、機能的な翻訳です。

その上に載っているのが、彼らが潜在的行動空間と呼ぶものです。これが巧妙な部分です。ロボットが生の関節の動きを学習する代わりに、動きの圧縮された表現を学習するんです。こんな風に考えてください。テニススイングのすべての筋肉の動きを記憶する代わりに、ロボットはフォアハンドがどんな感じかという本質を学んで、それから詳細を自分で埋めるんです。

これはつまり適応できるということです。トレーニングデータで実際には見たことのない動きを生成できるんです。

そして高レベルポリシーがあります。これが脳です。これはボールが来るのを見て、それがどこに行くかを予測して、フォアハンドを打つかバックハンドを打つかを決定して、その位置に入ってそのショットを打つためにロボットの体全体を調整する部分です。

このすべて、モーショントラッキング、潜在空間、高レベルポリシー、リスク修正、これらすべてが最初にシミュレーションでトレーニングされます。ロボットは完全に仮想環境でテニスをプレイすることを学びます。何百万ものラリー、何百万ものショット、すべてシミュレートされて、それから実際のロボットに転送されるんです。

Sim-to-Realギャップの克服

そして通常、ここですべてが崩壊します。これは実際、ロボティクスにおける最大の未解決問題の一つです。シミュレーションから現実へのギャップと呼ばれています。なぜならシミュレーションは完璧で、現実は混沌としているからです。床が少し不均一かもしれない。ボールの跳ね方が違う。風が存在する。ロボットの関節には小さな不完全さがある。シミュレーションが考慮していない千もの小さな変数があるんです。

そして歴史的に、シミュレーションで美しく機能するポリシーは、実際のロボットに載せた瞬間に完全に崩壊してしまうんです。

チームはランダム化を追加しました。これは本当にエレガントなトリックです。意図的にシミュレーションを不完全にしたんです。物理をランダム化しました。観測にノイズを加え、摩擦を変え、ボールの挙動を変え、ロボット自身の質量分布を変えました。基本的にこう言ったんです。「これをとても混沌とさせて、トレーニングされた現実が簡単に感じられるようにしよう」と。

ロボットが最終的に実際のコートに立って、すべてがシミュレーションと比べて少し間違っているとき、パニックにならずに適応するんです。もっと悪い状況をすでに見ているからです。ずっと悪い状況を。

驚異的な成功率

そしてもちろん、皆さんが見ているように、結果はちょっと馬鹿げています。現実世界では、ロボットはフォアハンドを91%の成功率で打ち、バックハンドは78%の成功率です。そして実際の人間プレイヤーとマルチショットのラリーを続けることができるんです。1回の打ち合いでもなく、2回でもなく、連続的な往復のラリーです。それがここで話していることです。

これは身長3フィート半のロボットです。重さは約35キログラムで、秒速6メートル以上でコートを横断してスプリントしています。それは平均的な人がジョギングするよりも速いんです。そして場合によっては秒速15メートルから30メートルで飛んでくるボールを追跡しています。そしてほんの数ミリ秒続く時間枠の中でラケットと接触しているんです。

本質的にエラーの余地はゼロです。

そしてシミュレーションでは、数字はさらに狂っています。フォアハンドの成功率97%、バックハンド82%、そして彼らが比較した他のすべての方法は基本的に失敗しました。標準的な強化学習ではできませんでした。他のモーション学習アプローチでもできませんでした。彼らがテストしたベースラインは、ラリーを全く続けられないか、成功率があまりにも低くて競争力すらありませんでした。

そして覚えておいてください、これは5時間のアマチュアデータとリビングルームサイズのキャプチャ空間からできているんです。

パラダイムシフトの意味

これが、この論文がこれほど違って感じられる理由です。彼らは完璧なデータを必要としませんでした。プロのアスリートを必要としませんでした。何年もの記録を必要としませんでした。ただ雑で不完全で不完全なモーションクリップを取って、それらを本当に運動的に見える何かに変えるシステムを構築したんです。

私はこの論文のRedditスレッドを見つけたんですが、2,500以上のアップボートを獲得していました。ロボティクスの論文としてはこれは巨大です。そしてトップコメントの一つにこうありました。「基本的にビデオゲームの難易度を設定するのと同じように、私たち全員がどんなスポーツでもAIと競争できるポイントについて考えさせられた」と。

さて、こう思っているかもしれません。テニスができるロボット、これは単なる派手なデモなのか?これは実際に現実世界で重要なのか?研究者たちは実際、論文でこれについて非常に明確にしています。テニスは概念実証です。本当のポイントは、混沌としたデータから学習するということなんです。

不完全なデータを使用することは信じられないボトルネックです。考えてみてください。もしそれができれば、基本的にどんなロボットでも機能するでしょう。そしてどんな物理的タスクでも機能するでしょう。サッカー、パルクール、倉庫作業、災害救助、ヒューマノイドロボットが速く動き、リアルタイムで反応し、体全体を調整する必要のあることなら何でもです。

そしてデータのボトルネックは常に問題でした。十分な完璧なデータを取得できれば、ロボットに驚くべきことをするようトレーニングできることは誰もが知っていました。でも完璧なデータは高価で、収集が遅く、しばしば取得不可能なんです。

このチームが示したのは、完璧なデータは必要ないということです。不完全なデータで機能するほど賢いアーキテクチャが必要なんです。そしてそれは方程式を完全に変えます。

ヒューマノイドロボット産業への影響

これが今のヒューマノイドロボティクス企業にとって何を意味するか考えてみてください。FigureやTeslaのような企業は、ヒューマノイドロボットを工場や倉庫に導入しようとしています。そして最大の疑問の一つは、すべての単一の動きを手動でプログラムすることなく、どうやって実際にそれらのロボットに有用な方法で動くことを教えるかということでした。

ここでLatentが答えを示唆しています。人間がタスクを実行しているのをキャプチャするだけでいいんです。完璧である必要はありません。完全である必要もありません。小さな部屋で数時間、それからAIにそれをロボットの動きに翻訳する方法を理解させるんです。

これは巨大な取引です。なぜなら5時間のアマチュアデータを収集することは安く、速く、誰でもできるからです。そしてこのアプローチが実際に汎化すれば、潜在的には毎週ヒューマノイドロボットに新しい物理スキルを教えることができるでしょう。

今後の課題と可能性

研究者たちは実際、修正したいことをいくつか言及しています。修正したいことの一つは、現在ロボットがボールを追跡してコート上のどこにいるかを知るために外部のモーションキャプチャシステムに依存していることです。

それはラボのデモには問題ありませんが、明らかにすべての建設現場や倉庫の床にモーションキャプチャカメラを設置することはできません。だから次のステップは、ロボットに自分の目を使わせることです。アクティブビジョン、オンボードカメラ、ロボットを完全に自己完結型にすることです。

そしてもちろん、次のステップはマルチエージェントシナリオに向かって進むことです。今は1台のロボットが1人の人間と対戦していますが、2台のロボットが互いに対戦することを想像してください。ロボットのダブルスパートナーです。それには全く新しいレベルの調整と戦略が必要になるでしょう。

そして汎化の疑問があります。同じシステムは数時間のアマチュア映像からサッカーを学べるでしょうか?ダンスを学べるでしょうか?武道を学べるでしょうか?アーキテクチャにはテニス特有のものは何も組み込まれていません。だから理論的には適応可能なはずですが、それはまた別の話です。