ビッグニュース:NVIDIAが人間のような学習能力をロボットに与えました

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,209 文字

Big News: Nvidia Just Gave Robots Human-Like Learning Abilities
Big News: Nvidia Just Gave Robots Human-Like Learning AbilitiesHave you ever wondered if robots could learn like humans?...

NVIDIAが、Cosmos Transfer Oneという強力なAIモデルをリリースしました。このモデルにより、ロボットや自律システムは非常にリアルなシミュレーション環境で訓練でき、人間のように環境から学習することが可能になりました。誇張ではなく、このモデルは適応型マルチモーダル入力を使用して実世界の条件を極めて詳細に模倣し、ロボットの訓練方法を永久に変えています。このビデオでは、その仕組み、重要性、そしてすでに変革している産業について解説します。さらに、これがNVIDIAの大きなAI戦略にどう適合し、世界中のロボット工学、自動化、そして物理AIの未来にとって何を意味するのかについても掘り下げていきますので、ぜひ最後までご覧ください。
今日のロボット訓練の問題点
実世界でロボットを確実に機能させる訓練は、常に課題となっています。シミュレーションは開発における主要なツールでしたが、リアリズムという点ではしばしば不十分でした。この合成環境と予測不可能な物理的条件の間のミスマッチは、専門家が「シムからリアルへのギャップ」と呼ぶものです。
従来、開発者は2つのアプローチに依存してきました。広範なテストを通じて実世界のデータを収集するか、単純化された仮想環境を構築するかです。実世界でのテストは、費用がかかり、時間を消費し、時には危険です。シミュレーションはより安全でスケーラブルですが、実世界のシナリオが持つ複雑さをしばしば欠いています。不規則な照明、雑然とした環境、表面の反射など、わずかな不一致でも—少し反射する床や、配置を間違えたオブジェクトなど—理想化された環境で訓練されたシステムを脱線させることがあります。
これらのギャップは、自律車両が瞬時の判断を下したり、倉庫ロボットが変化するレイアウトを操作したりするなど、リアルタイムでの機能が必要なロボットにとって、より重要になります。例えば、自動運転車はきれいにシミュレーションされた高速道路環境ではうまく機能するかもしれませんが、実世界で雨、予期せぬ歩行者、工事標識に直面すると、その動作が変わることがあります。これらのエッジケースは、従来のツールでシミュレーションすることが困難です。
Cosmos Transfer Oneは、まさにこの問題に対処するために開発されました。
Cosmos Transfer Oneとは
Cosmos Transfer Oneは、2025年3月にリリースされたNVIDIAの新しい条件付き世界生成モデルで、Hugging FaceやGitHubなどのプラットフォームで公開されています。このモデルは、複数のタイプの視覚的入力を使用して、非常にリアルな仮想環境を生成することを開発者に可能にします。
これらの入力には以下が含まれます:

セグメンテーションマップ:シーンの異なる部分をオブジェクトカテゴリに分離
深度マップ:オブジェクトがカメラからどれだけ離れているかについての3D情報を提供
エッジマップ:オブジェクトの境界を定義
ぼやけたコンテキスト画像:環境の広いレイアウトを提供

これらの入力を組み合わせることで、Cosmos Transfer Oneは訓練のための写真のようにリアルで空間的に正確な環境を生成します。
このモデルを際立たせる主な特徴は、適応型マルチモーダル制御です。開発者はシーンの部分によって、これらの入力タイプの重みを異なる方法で設定できます。例えば、ロボットがツールと相互作用する訓練をする際、モデルはロボットと前景にあるオブジェクトを極めて正確にすることに焦点を当て、背景要素は変化させることができます。これにより、ロボットは必須の相互作用について訓練しながら、依然として様々な環境に遭遇することができます。
NVIDIAによると、この空間的条件付きスキームは適応的でカスタマイズ可能です。異なる条件付き入力を異なる空間的位置で異なる重みで適用することを可能にします。この制御レベルにより、開発者は環境を精密にカスタマイズでき、シーンの多様性を犠牲にすることなく、最も重要な場所でリアリズムを最適化できます。
これがロボットに人間のような学習を可能にする方法
人間は無菌の静的環境で学習するわけではありません。私たちは、異なる照明、変化するレイアウト、予測不可能な結果に遭遇することによってスキルを発達させます。この変化への露出は、私たちが一般化し適応するのに役立ちます。
Cosmos Transfer Oneは、AI システムに同じような経験を提供するように設計されています。従来のシミュレーションツールでは、ロボットは限られたシーンのセットで訓練されるかもしれません。開発者は、オブジェクトの配置や照明を数回手動で変更するかもしれませんが、Cosmos Transfer Oneは同じ中核タスクを中心に数百、あるいは数千のユニークで写真のようにリアルな環境を生成でき、システムがより効果的に一般化するために必要な多様性を導入します。
これは、自律運転などの分野で特に価値があります。開発者は、珍しい道路標識、複雑な交差点、まれな気象条件などのエッジケースを、実際にそれらの状況が発生するのを待つことなくシミュレーションできるようになりました。
NVIDIAによれば、Cosmos Transfer Oneは、実世界のまれなエッジケースの有用性を最大化し、より安全で包括的なAI訓練を可能にします。このモデルはまた、ロボットの動作を導くポリシーモデルの訓練も強化します。これらのモデルは現在、Cosmos Transfer Oneによって生成された高忠実度で多様な環境で微調整できるため、広範な実世界のデータ収集の必要性が減少します。これにより、訓練の効率が向上し、コストが削減され、展開が速くなります。
最終的に、このモデルはロボットに人間のような認知を与えるわけではありませんが、人間が同じシナリオの多くのバリエーションに触れることで学ぶ方法を映した訓練経験を提供します。これにより、AIシステムはより堅牢で実世界の条件に対応できるようになります。
ブレークスルーの背後にある技術
Cosmos Transfer Oneの中核には、適応型マルチモーダル制御があります。このシステムにより、開発者はシーンの異なる部分に異なる視覚的入力を適用し、各入力がどれだけの重みを持つかをコントロールできます。これにより、環境がどのように生成され、AIが訓練中に何に焦点を当てるかを細かく制御できます。
各入力は独自の空間情報のレイヤーをもたらします:

深度マップは3次元の理解を追加
エッジマップはオブジェクトの境界をシャープにする
セグメンテーションマップはシーンの部分に意味的なラベルを付ける
ぼやけたコンテキスト画像はより広いシーンのレイアウトを設定

これらを合わせることで、モデルは正確かつ多様な環境を生成できます。
Cosmos Transfer Oneを前進させているのは、その空間的重み付けシステムです。これにより、開発者はピクセルごとに各視覚的入力の重要性を定義できます。例えば、ロボットとオブジェクトの相互作用ゾーンには高精度が適用される一方、他の場所の照明や表面材料は自然なシーン変化をシミュレーションするために変化させることができます。
NVIDIAは、高性能のGB200 NVL72ラックを使用してモデルをスケーリングしました。ベンチマークテストでは、研究者は1GPUから64GPUにスケーリングした際に40倍のシミュレーション速度の向上を達成しました。これにより、モデルは5秒間の写真のようにリアルな動画をわずか4.2秒で生成できるため、ほぼリアルタイムのシミュレーションが実現可能になります。
高速シミュレーションは単なる利便性だけではありません。より頻繁な反復、より速いモデル更新、エラーの迅速な特定を可能にします。これらは複雑なロボットや自律システムを構築するチームにとって重要な利点です。
産業全体への応用
Cosmos Transfer Oneは、物理的AIシステムに依存する産業全体ですでに有用であることが証明されています。
自律車両では、開発者は霧の高速道路、未標識の横断歩道、異常な運転をする車両など、困難、まれ、または危険なシナリオでモデルを訓練できます。しかも、ライブテストのリスクなしにです。
産業用ロボット工学では、ロボットはツールの位置、照明、作業者の活動がよく変化する動的な作業空間に適応する必要があります。豊かに変化し、物理的に一貫した環境での訓練により、これらのシステムは実世界での展開においてより信頼性が高くなります。
倉庫業と物流も恩恵を受けます。品物を分類、輸送、または取り出すロボットは、しばしば予測不可能なレイアウトに直面します。異なる障害物の配置、棚の構成、または照明の変化をシミュレーションすることで、システムの障害を減らすのに役立ちます。
環境が危険または不安定である可能性がある捜索救助では、Cosmos Transfer Oneにより、開発フェーズ中に誰も危険にさらすことなく、崩壊した構造物、起伏の多い地形、または火災で損傷した地域でロボットを訓練できます。
医療では、医療ロボットは高精度の環境での訓練を必要とします。このモデルは、変化する照明、機器のセットアップ、さらには患者の解剖学的な違いでシミュレーションを作成し、ライブテスト前の信頼性を向上させることができます。
これらの分野全体で、価値は同じ原則にあります。実世界の暴露を必要とせずに、実世界の複雑さを映し出す環境でAIシステムに訓練の機会を与えることです。
これはほんの始まりに過ぎない理由
Cosmos Transfer Oneは、NVIDIAのより広範なCosmosプラットフォームの一部です。これは物理的世界をシミュレーションし、それについて推論するために構築された世界基盤モデル(WFMs)のコレクションです。このイニシアチブは、NVIDIAが物理的AIの領域へのより深い推進を反映しています。これは、単にデータを分析するだけでなく、積極的に物理的環境と相互作用するAIシステムの開発に焦点を当てた分野です。
Cosmosスイートには他のモデルも含まれています:

Cosmos Predict One:世界予測と生成のために設計され、空間的および環境的変化を予測するシミュレーションを可能にします
Cosmos Reason One:AIシステムに物理的な常識の一形態を与えることに焦点を当て、因果関係、オブジェクトの永続性、空間的関係を理解するのに役立ちます。これらは実世界での推論の中核的な能力です

NVIDIAはこれらのツールを広くアクセス可能にし、オープンモデルライセンスの下で事前訓練されたモデルを提供し、Apache 2.0ライセンスの下で訓練スクリプトを提供しています。このアプローチは、最先端のツールを開発者の手に渡すことにより、グローバルなイノベーションを加速させるという同社の意図を反映しています。
これらのモデルは一緒に、視覚的、空間的、意味的、そして物理的データがすべて訓練プロセスに統合されるマルチモーダルシミュレーション環境へと業界全体のシフトをサポートしています。AIシステムがますますカメラ、LiDAR、モーションセンサー、空間マップからの入力に依存するようになるにつれて、Cosmos Transfer Oneのような基盤モデルは、実世界で確実に操作できるインテリジェントで適応性のあるシステムを構築する中心となっています。
NVIDIAのCosmos Transfer Oneは、ロボットや自律システムが訓練される方法における大きな変化を表しています。将来的に、Cosmos Transfer Oneはただのビルディングブロックに過ぎず、NVIDIAのより大きな物理的AIエコシステムの一部です。機械が物理的環境にますます組み込まれていくにつれて、実世界のバリエーションをスケールで複製するツールが、AI開発の中心に位置するでしょう。
これは人間の学習を置き換えることではなく、私たちが当然と思っている種類の変化性に機械をより深く触れさせることについてです。そしてそのシフトは、単に私たちがAIをどのように構築するかだけでなく、AIが私たちの世界でどのように機能することを学ぶかも変えるかもしれません。
ここまでご覧いただいた方は、以下のコメント欄であなたの考えをお聞かせください。さらに興味深いトピックについては、画面上に表示されているおすすめビデオをご覧ください。ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました