この動画は、1X社が開発した「World Model」について解説している。ロボット工学における従来の評価手法の課題を指摘し、物理世界とデジタル世界を橋渡しする革新的なソリューションとしてWorld Modelを紹介する。このモデルは数千時間に及ぶロボットの実際の相互作用から学習し、複雑な物理的相互作用を予測可能にする深層生成ニューラルネットワークである。特に同社のNeoロボットが自律的に環境と相互作用することで収集されるデータの重要性を強調し、World Modelがロボットの意思決定における認知コアとして機能することで、真に知的な汎用ロボット工学の実現に近づくことを説明している。
ロボット評価の課題と革新的解決策
モデルの品質を評価することは、ロボット工学における長年の課題です。これにより、自律性向上への明確な道筋を定義することが極めて困難になっています。
現在、汎用AI モデルを評価するには、遭遇する可能性のあるシナリオの全範囲にわたって物理的な試行を実行する必要があります。これは現実世界での生涯にわたる経験に相当します。
そこで私たちが構築したのが1X World Modelです。これは原子とビットの間の橋渡しとして機能します。World Modelは、ロボットの行動の将来の結果を予測する現実世界のデジタルツインです。
この深層生成ニューラルネットワークにより、その生涯を瞬時に圧縮することが可能になります。
データ駆動型学習アプローチ
1X World Modelは、生の感覚データから収集された数千時間のロボット相互作用から直接学習することで、現実世界の複雑さに取り組みます。
これにより、繊細な物体の把握、剛体間の衝突、操作時の物体の変形など、複雑な物理的相互作用をモデル化することが可能になり、私たちのモデルは周囲の世界の物理学についてしっかりとした理解を得ています。
特に興味深い失敗モードからのデータを拡張する際、つまりNeoのタスク実行が計画通りに進まない場合のデータを増やすと、World Modelの品質と精度が確実に向上することがわかります。
この改善パターンは、適切なタイプのデータを収集することでモデルの能力がスケールする、他の大規模生成モデルで観察される傾向と一致しています。
実用的な応用と評価効率化
実用的な観点から、私たちはWorld Modelを活用して、異なる環境での多様なタスクを処理するように訓練された汎用モデルであるRedwoodのような、多くの異なるポリシーを迅速に評価・比較しています。
World Modelにより、測定可能な結果でその能力を評価し、反復速度を数週間から数分に短縮することができます。
データ収集戦略の最適化
1Xでは、ウェブスケールビデオデータ、一人称視点の人間データ、テレオペレーションなど、さまざまなモダリティとデータソースを実験してきました。
しかし、World Modelの能力向上に最も重要なデータタイプは、Neoが実環境で自律的に相互作用し、実際のタスクを試行し、興味深く多様な方法で成功・失敗することであることがわかりました。
このデータを大規模に収集できるのは、Neoが非構造化環境で継続的に稼働できる安全で適応性のあるロボットだからです。
認知コアとしてのWorld Model
評価を超えて、World ModelはNeoの意思決定アプローチを根本的に変えることができます。
未来の状態を継続的に視覚化することで、NeoはWorld Modelを認知コアとして効果的に活用し、予測された結果に基づいて動的に計画し、行動を調整することができます。
この予測能力により、Neoはより成功的にタスクを実行し、より迅速に適応し、予期しない事象を優雅に処理できるようになり、真に知的な汎用ロボット工学の実現に近づけています。


コメント