100個のAI脳を持つ新しいAIロボットが実際に思考している(スマートマッスルシステム)

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,736 文字

New AI Robot with 100 AI Brains Is Actually Thinking (Smart Muscle System)
A new AI robot called π-0.5 uses 100 decentralized brains, known as π-nodes, to control its body with lightning-fast ref...

Physical Intelligenceが「Pi 0.5」をリリースしました。その大きなアイデアは意外にも現実的なものです。ロボットの脳を一つの中央プロセッサに集中させるのではなく、あらゆる場所に分散させるというものです。指先のパッド、肘の関節、さらには柔らかいシリコンのパッチにまで、その場で感知し、判断し、調整できる小さな神経知能の一部が搭載されています。
その結果、新しいアパートに入り、食器が積み上げられている場所に気づき、地図やWi-Fi接続なしで整理を始めることができる機械が生まれました。それはまるで、一つの遅い指令センターというよりも、素早く考える筋肉の集合体のようです。これは、ロボットが慎重に設計された研究室の外で自宅にいるように感じさせるために必要なステップです。
ここで注目すべき点は、Pi 0.5は単一のガジェットでも単一のニューラルネットワークでもないということです。それは名前を共有していますが、まったく異なる問題に取り組む2つの層です。下層をロボットの反射神経、上層をロボットの常識と考えてみてください。
まずは下層から見ていきましょう。従来のロボットはすべてのセンサーの情報を一つの大きなプロセッサに送り、大量の計算を行った後、手足にモーターコマンドを送信します。何も変わらない工場のラインでは素晴らしく機能しますが、同じロボットを散らかったリビングルームに置くと、レイテンシー、電力消費、そして単純な混乱が問題になります。
Physical Intelligenceはこの考えを逆転させ、「Piノード」を導入しました。これは、ロボット全体に分散された小さなレゴブロックのようなものです。各指先パッドの内部に一つ、肘関節にいくつか、柔らかいシリコンの手のひらに一つといった具合です。各ノードには独自の小型センサー装置、アクチュエーター接続、そして微小な動きの後ごとに高速な強化更新ルールを実行する小型ニューラルネットワークがあります。
ノードは基本的に「それは滑りを減らしたか、緊張を和らげたか?」と問いかけ、その場で重みを調整します。脳が数十のノードに分散されているので、中央サーバーにpingを送る必要がなく、通信チャターを削減し、電力を大幅に削減します。Physical Intelligenceが柔らかいロボットグリッパーでテストした結果、これらのローカル反射ループにより、従来の中央集中型アーキテクチャと比較して、把持精度が30%向上し、電力消費が25%削減されました。ウェアラブルな触覚スリーブでも同様で、よりスムーズなフィードバック、より長いバッテリー寿命、手の疲労がゼロになりました。
また、固有受容感覚と触覚センシングが組み込まれているため、グリッパーが負荷でたわんだり伸びたりした場合、滑りがカメラに映る前にノードが補正します。ハードウェアに依存せず、ESP32にファームウェアを搭載することも可能です。
これが反射神経ですが、反射神経だけではロボットが握っているものがスポンジなのかステーキナイフなのかを判断できません。ここで上層の出番です。同じく「Pi 0.5」と名付けられていますが、正式には「ビジョン言語アクション(VLA)モデル」です。
過去数年間AIを追跡してきた人なら、その仕組みを知っています。大量のキャプション付き画像と言語データをトランスフォーマーに注入し、ロボットデモで微調整し、汎用化を祈ります。ほとんどのグループはトレーニングした特定のテーブルで素晴らしいスタントを決めますが、新しい部屋では機能しなくなります。
Physical Intelligenceは汎用化の問題を個人的に受け止め、データの多様性に非常に力を入れました。ステップ1として、約400時間のモバイル操作映像を記録しました。ロボットが実際の家を巡回し、椅子にぶつかり、フライパンの取っ手を理解する様子です。ステップ2では、さらに数十の環境で撮影された静的なロボットクリップを追加し、車輪さえない単純なアームからのクロスエンボディメントデータを投入しました。ステップ3では、標準的なWeb画像のキャプション、視覚的質問応答、物体検出に加え、人間がロボットに複雑な家事を一歩一歩指導する言語指示セッションを混ぜ合わせました。
その結果、「枕とは何か」から「セラミックの皿をどれくらい強く握れるか」までをPi 0.5に教える、フランケンシュタインのようなカリキュラムが生まれました。
この多種多様なアプローチは成功したのでしょうか?彼らは2つの試験を実施しました。まず、分布内のクリーニングタスク、つまりトレーニングセットの場所に似た家で、Pi 0.5は86%の言語理解率と、シンクに皿を一枚一枚運ぶなどの細かいサブタスクで83%のタスク成功率を達成しました。
次に、難易度を上げました。分布外テストでは、家、物体、さらには照明もトレーニングで見たことのない全く新しいものでした。それでもフルPi 0.5は、プロンプトへの従順さとタスクの完了の両方で94%を達成しました。トレーニングからインターネット写真を取り除くと、これらの分布外の数値は70%台半ばに低下しました。マルチ環境のロボットデータを取り除くと、成功率は31%に急落しました。つまり、多様性は単なる変化ではなく、酸素のように重要なのです。
彼らはまた、トレーニングする家の数を一桁から100以上まで調整するスケーリング研究も行いました。パフォーマンスはほぼ線形に上昇し、およそ100件のマイルストーンの後、Pi 0.5は基本的にテスト家をトレーニング中に見た「カンニング」ベースラインと同等になりました。これは驚異的です。十分な多様性があれば、実際にフィールドに足を踏み入れることなく、ホームフィールドのアドバンテージを得ることができるのです。
私のお気に入りのエンジニアリングの秘訣は、Pi 0.5が稼働中に毎秒行う本物の思考連鎖ループです。まず、「枕を拾う」のような高レベルのテキスト思考を、ChatGPTが文を書くのと同じ離散トークンデコーディングを使って出力します。そして、モデル切り替えなしに、それらの重みを連続フローマッチングヘッドにスライドさせ、1秒のアクションチャンクとなる50の関節角度を生成します。アームが動き、ノードがグリップを微調整し、カメラが新しいフレームを撮影し、プロセスが繰り返されます。言語とトルクが融合した一つの共有脳がリアルタイムで動きます。
下層レベルのノード反射が非常に高速なため、上層のビジョン・言語・アクション部分はやや思慮深いペースで考えることができます。指が皿を安定させている間に、次の意味的な動きを計画するのです。この分離は、脊髄がコーヒーカップの重さを処理している間に、前頭前皮質が鍵をどこに置いたか考えるという人間の仕組みを反映しています。
彼らは実際の見知らぬ人のアパートで全システムのストレステストを行いました。事前スキャンなし、フィデューシャルマーカーなし、成功と失敗の両方の動画を撮影しました。ロボットはベッドを整え、洗濯物をたたみ、スポンジで溢れたものを拭き取り、おもちゃを拾い集めます。時にはぬいぐるみを誤認識したり、アームの軌道がずれたりしますが、多くの場合回復します。彼らは腕を拭いている最中に傍観者に腕をぶつけさせて、パニックになるかテストさせたほどですが、ほとんどの場合、再計算して拭き続けます。
「丸いブラシを拾ってください」のような正確なコマンドを叫ぶと、正確な物体を目標にします。あるいは「寝室を掃除して」と曖昧に言うと、ミッションを自分で小さなサブタスクに分解するのを見ることができます。
バッテリーの観点から見ると、分散化の話は素晴らしいです。各ノードは必要な演算コアだけを回転させるので、モバイルベースはドッキングする前により長く動き回ることができます。これがグリッパーデモが25%少ないエネルギー消費を記録した理由です。そして、これらのノードはマイクロコントローラー上で動作し、必要であればコイン電池で駆動できることを覚えておいてください。エッジインテリジェンスの勝利です。
数学的側面では、連続ヘッドのフローマッチングサンプラーが重要です。拡散モデルは通常数十のステップを必要としますが、フローマッチングは一回の順方向パスで軌道を出力できます。センサー読み取りとモーターパルスの間に20ミリ秒しかない場合に不可欠です。アクションチャンクを50ステップ(1秒)に制限しているのは、サーボの更新レートと高レベルプランナーの気分の変化のバランスをとるためです。スイングを完了するのに十分長く、何か予期しないことが起これば方向転換するのに十分短いのです。
彼らは今後どこに向かうのでしょうか?チームは率直です。Pi 0.5はまだ時々失敗し、間違った高レベル計画を選び、キャビネットにぶつかり、フォークを逆さまに掴みます。彼らは人間のラベルなしに自分の実行から学び、その場で明確化の質問をし、まったく異なるハードウェア間でスキルを転送するモデルを夢見ています。同じ脳が2本腕のモバイルベースからウェアラブルなエクソスケルトンスリーブに再トレーニングなしで移行する様子を想像してください。
彼らはまた、フリートを運用し、食料品店、病院、高齢者ケアホームなど、データモンスターに餌を与えるのに十分に混沌とした場所を持つパートナーを切望しています。
そのハウスパーティーのファンタジーに戻りましょう。本当の秘訣は2つあります。まず、体に埋め込まれたインテリジェンス、Piノードです。つまり、ロボットはトマトを潰していることを理解するためにWi-Fi往復を待つ必要がありません。次に、十分な家、フレーム、言語指示、クロスロボットデモを見た巨大なVLAが、あなたの家に入っても固まらないということです。これらの層が一緒になって、訓練されたルーティンと本物の適応性の境界線を曖昧にします。
つまり、毎秒ロボットは自分自身と無言の会話をしています。「はい、高レベルの目標は食器を洗うこと。最初のサブステップはスプーンを取っ手から拾うこと。ノードよ、3ニュートンのグリップをくれて、滑りを監視して。よし、今シンクに向かって回転。」これは固有受容感覚の鼓動を持つ思考の連鎖なのです。
これが重要な理由は、長年私たちはネイティブのマット上でのみバック宙の着地を決められるロボットや、耳にタコができるほど話せるが、ドアノブをひねることができない言語モデルを持っていたからです。Pi 0.5は、より大きな中央集中型モデルを追求するのではなく、エッジの反射神経とデータが豊富な世話役の脳を結婚させることで、2つの側面を縫い合わせます。
名前が示すように、これは中間点のように見えます。最初のPi 0と将来のPi 1メガブレインの間の半分です。しかし、半分の段階ですでに、全く新しいキッチンに入り、見たことのない皿を見つけ、掃除を計画し、そして重要なことに、バッテリーを過度に消費することなく10ミリ秒未満でグリップを締めたり緩めたりできるロボットが得られます。それが旅の半分なら、次の半分は野性的なものになるでしょう。
さて、あなたならPi 0.5を搭載したロボットにどの現実世界の家事を最初に任せますか?この解説が気に入ったら、いいねボタンを押してチャンネル登録をお願いします。次の深掘り解説をお見逃しなく。視聴ありがとうございました、次回でお会いしましょう。

コメント

タイトルとURLをコピーしました