NVIDIAが発表したCosmos 3は、物理法則をシミュレートし、ロボットの学習速度を劇的に向上させる物理AI向けの基盤モデルである。また、エージェントAIに特化した新CPUであるVeraや、人型ロボットの標準開発プラットフォームであるIsaac Grootを展開することで、同社はAIにおける計算層から物理層までの支配権を握ろうとしている。一方で、Foundation Future Industriesによる人型ロボットPhantom Mark1が実際の紛争地帯で試験運用されるなど、物理AIの進化がもたらす軍事利用の現実とリスクについても警鐘を鳴らす内容である。

AIのビッグバンとNVIDIAの壮大なビジョン
AIのビッグバンがまさに今起きました。そしてNVIDIAは、それを単なるモデルのリリースよりもはるかに大きなものへと変えようとしています。現実世界を実際に見て、考え、計画し、移動できるロボットのための、完全なオペレーティングレイヤーを構築しているのです。その全貌を解説していきます。まず、Cosmos 3という物理環境をシミュレートし、次に何が起こるかを予測し、現実世界では到底不可能なスピードでロボットを訓練するために設計された世界モデルがその発端となります。次に、ツールを実行し、タスクをこなし、ワークフロー全体を管理できるAIエージェントのために特別に構築された新しいCPU、Veraが登場します。そしてNVIDIAは、このスタック全体を、人型のリファレンスロボット、Unitreeのハードウェア、Sharpaの5本指ハンド、Jetson Thorコンピューティング、Isaac Grootプラットフォームなど、あらゆるものと結びつけています。さらに、別の企業によってすでに実際の紛争地帯で人型ロボットのフィールドテストが行われているという事実が、このタイミングをより一層深刻なものにしています。
物理AIの基盤モデル Cosmos 3
まずはCosmos 3から見ていきましょう。ここにAIの次なる行き先に対するNVIDIAの賭けが見て取れるからです。何年もの間、AIの進歩のほとんどは画面の向こう側に留まっていました。しかし、現実世界ははるかに困難です。ロボットは空間、動き、力、タイミング、摩擦、物体同士の相互作用、そして自分が何か行動を起こした1秒後に何が起こるかを理解する必要があります。それこそが、NVIDIAがこのモデルで狙っている領域です。NVIDIAはCosmos 3を、物理AIのためのオープンワールド基盤モデルと呼んでいます。これはミクスチャー・オブ・トランスフォーマー・アーキテクチャの上に構築されています。そしてここが重要なポイントですが、このシステムは視覚、推論、世界生成、そして行動予測という3つの要素をひとつに統合しています。分かりやすく言えば、見ているものを理解し、物理的なシーンを生成またはシミュレートし、次に何が起こるべきかを導き出すことができるのです。
これが重要である理由は、ロボットや自動運転車は、通常のインターネット上のデータからだけでは学習できないからです。チャットボットであれば、インターネット上のデータの半分を読み込んで言語パターンを習得することができます。しかし、ロボットにはもっとはるかに難しいものが必要です。動きの例、行動のシーケンス、現実世界の因果関係が必要なのです。手がカップに伸びたとき、箱が倒れたとき、車輪が空転したとき、誰かが進路に足を踏み入れたとき、2つの物体が衝突したときに何が起こるかを知らなければなりません。NVIDIAによると、Cosmos 3はマルチモーダル物理AIのデータセットとしては過去最大級のもので訓練されています。テキスト、画像、動画、音声、そして行動軌跡にわたる数十億ものサンプルです。Axiosの報道によれば、そのトレーニングデータは、人間とロボットの両方から得られた実際の動画や合成動画、画像、環境音、テキスト、アクションシーケンスなどを含み、20兆トークンに達したとのことです。
その意図は極めて明確です。これは標準的な言語モデルではなく、物理世界の実際の構造に基づいて訓練されているのです。最大の売りは、Cosmos 3が物理AIのトレーニングと評価のサイクルを数ヶ月から数日へと短縮できるという点です。ロボットのトレーニングは信じられないほど遅いため、これはロボティクスにとって非常に大きな意味を持ちます。倉庫や路上で人型ロボットに100万回も失敗させるわけにはいきません。ハードウェアが壊れ、時間が無駄になり、安全上の悪夢を引き起こすからです。そのため企業は、ロボットが現実世界に触れる前に、シミュレーション、合成データ、制御された環境に頼ってロボットに教えています。Cosmos 3は、そのプロセスをはるかに高速化し、はるかに汎用的なものにするためのNVIDIAの挑戦です。
このモデルは、ビジョン言語モデル、世界モデル、そして動画基盤モデルとして機能します。物理環境をシミュレートし、未来の状態を予測できるのです。通常のAIモデルはシーンを説明することができますが、物理AIモデルは、そのシーンで何が起ころうとしているのか、そしてその中でどのような行動が適切なのかを理解する必要があります。だからこそ、ジェンスン・フアンはこれを物理AIのビッグバンと呼んだのです。彼は、マルチモーダル推論、言語、視覚、そして世界モデルにおけるブレイクスルーが、このシフトを現実のものにしていると語りました。そして、その表現方法も重要です。NVIDIAはCosmos 3を単なる新たなモデルのリリースとして売り込んでいるわけではありません。知覚、推論、計画、行動が可能なロボット、自律型車両、ビジョンAIシステムのための基盤レイヤーとして売り込んでいるのです。
NVIDIAはまた、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skilled AIといった企業を引き入れ、Cosmos Coalitionを立ち上げました。世界モデルが急速に独自のプラットフォーム戦争へと発展しているため、これは重要な動きです。OpenAI、Google DeepMind、Tesla、ロボティクススタートアップ、動画モデル企業、シミュレーションラボなど、誰もが同じアイデアの周りに集まっています。AIの次の波には、単なる言語のモデルではなく、現実のモデルが必要なのです。そして、NVIDIAが世界モデルのレイヤーを確保したなら、次の疑問は明らかです。これらすべては実際にどこで実行されるのでしょうか。
エージェントAI向けに設計された新CPU Vera
それがVeraの話へと繋がります。NVIDIAはVeraを、AIエージェントのために構築された初のCPUと呼んでいます。シンプルに聞こえるかもしれませんが、これはNVIDIAがコンピューティングの未来をどのように捉えているかという大きなパラダイムシフトです。何年もの間、GPUはAIブームの主役でした。巨大なモデルには巨大な並列計算が必要であり、NVIDIAは誰もが取引しなければならない企業となりました。しかし現在、焦点はエージェントAIへと移りつつあります。
そしてエージェントAIは、通常のチャットボットとは異なる働きをします。AIエージェントは単に一つの答えを吐き出すだけではありません。タスクを計画し、ツールを呼び出し、コードを実行し、ファイルをチェックし、データベースに照会し、APIを使用し、出力をテストし、失敗したステップをやり直し、ワークフローをひたすら進めていくことができます。これによって、データセンター内にはこれまでとは異なる種類の負荷が生まれます。エージェントは常にタスクを調整し、データを移動させ、ツール呼び出しを管理し、ロジックを実行し、モデルの周囲にあるあらゆるものと接続するため、CPUがはるかに重要になるのです。
NVIDIAによれば、VeraはエージェントAI、強化学習、データ処理といったワークロード向けに設計された、高性能でエネルギー効率の高いCPUです。これはスタンドアロンのVeraサーバー、NVIDIA Vera Rubinシステム、Vera Bluefield、4 STX AIストレージプラットフォームなどを駆動します。また、多様なエージェントのワークロードを従来のx86プロセッサよりも最大1.8倍高速に完了できると主張しています。この数字は、NVIDIAが未来をどう見ているかを示しているため重要です。AIエージェントがインターネットの労働者となるのであれば、スピードとは単にトークンを早く出力することだけを意味するわけではありません。タスクを早く完了させ、コードをコンパイルし、テストを実行し、データを検索し、ファイルを処理し、サンドボックス化されたワークフローを実行し、遅延を最小限に抑えて次のステップへと進むことを意味するのです。
採用企業のリストも本格的です。NVIDIAによると、Anthropic、OpenAI、xAIが、ByteDance、CoreWeave、Oracle Cloud InfrastructureとともにVeraの導入を計画しているとのことです。Reutersは、ジェンスン・フアンがVeraを2000億ドル規模の潜在市場であると説明し、OpenAI、Anthropic、SpaceXが主要な初期採用企業に名を連ねていると報じました。NVIDIAはまた、Dell、HPE、Lenovo、Supermicro、ASUS、Foxconn、Gigabyte、QCT、Wistronなどの企業が、スタンドアロンのVera CPUシステムを大規模に構築していると名前を挙げています。
つまり、これは単なるサーバーラックの一部品ではありません。AIエージェントが未来の主要なワークロードの一つになろうとしているため、AIファクトリーには新しいCPUが必要だとNVIDIAは基本的に主張しているのです。そして、このタイミングは理にかなっています。業界全体がエージェントへと向かっているからです。OpenAIはエージェントツールを構築しています。AnthropicはClaudeをコーディングやコンピュータ操作のワークフローへと押し進めています。GoogleはGeminiを中心に、より深いエージェントシステムを構築しています。xAIはGrokをコーディングやプロダクトのワークフローへと押し進めています。次の戦場は、どのモデルがよりうまく答えるかだけではありません。どのモデルが実際に最も多くの仕事をこなせるか、なのです。Veraは、そのシフトが起きたときに、コンピューティングレイヤーが引き続き自社を経由するようにするためのNVIDIAの戦略と言えます。
ハードウェアとソフトウェアの統合基盤 Isaac Groot
そして、物語は再び物理的な領域へと戻ります。Cosmos 3がAIに世界モデルを与え、VeraがAIエージェントにコンピューティングレイヤーを与えるのであれば、NVIDIAの新しいIsaac Grootリファレンスヒューマノイドは、その全体に身体を与えるものだからです。NVIDIAは、学術研究向けのオープンな人型ロボットのリファレンスデザインとして、Isaac Grootリファレンスヒューマノイドロボットを発表しました。その狙いは、すべてのラボに手、センサー、コンピューティング、シミュレーション、トレーニング、評価、展開のスタックをゼロから自作させるのではなく、研究者に統一されたハードウェアとソフトウェアのプラットフォームを提供することにあります。
このロボットはUnitree H2の人型シャーシを中心に構築されており、身長は約6フィート、体重は約150ポンドで、全身に31の自由度を持っています。NVIDIAはこれに、22の自由度を追加するデュアルSharpa wave触覚5本指ハンドを組み合わせ、システム全体の自由度を身体と手で75にまで引き上げています。この細部は重要です。なぜなら、手は人型ロボット工学において最も困難な部分の一つだからです。歩行には多大な関心が寄せられますし、そうあるべきです。バランスをとるのは非常に難しいからです。しかし、実際の有用性は操作能力にかかっていることがよくあります。人型ロボットは、人間の身体向けに設計された空間で、物をつかみ、道具を持ち、ドアを開け、アイテムを持ち上げ、ボタンを押し、作業を行わなければなりません。5本指の触覚ハンドは、プラットフォームをその目標へと一気に近づけます。
センシングのスタックも本格的です。このリファレンスロボットには、水平140度、垂直102度という広い視野を持つ頭部マウント型ステレオカメラが搭載されています。また、近距離での操作用の手首カメラやモーショントラッキング用のIMUも備えており、ロボットにシーンのより広い視野を与えつつ、手の近くではるかに詳細な視覚フィードバックを提供します。制御とペイロードの数値を見ると、これが単なる研究用のオモチャではないことがわかります。NVIDIAは、アームのトルクが最大120ニュートンメートル、脚のトルクが最大360ニュートンメートルであると記載しています。アームの定格ペイロードは7キログラム、ピークペイロードは15キログラムです。つまり、このプラットフォームはラボ内を歩き回るだけでなく、実際の操作や持ち上げのテストを想定して設計されているのです。
そして、搭載されているコンピューティングです。このロボットは、270 FP4テラフロップスのAIパフォーマンスを提供するNVIDIA Jetson AGX Thor T5000 Blackwell GPU、14コアのARM CPU、128ギガバイトのユニファイドメモリを使用し、電力は40ワットから130ワットまで設定可能です。これが、ロボットを単なる遠隔操作の殻ではなく、物理AIプラットフォームへと変える要素です。NVIDIAによると、AI2、チューリッヒ工科大学、スタンフォード・ロボティクス・センター、カリフォルニア大学サンディエゴ校の先端ロボティクス・制御ラボなどの主要機関が、このリファレンスデザインを使用する予定です。Reutersはまた、NVIDIAがUnitreeに加えて、アメリカ、ヨーロッパ、韓国の人型ロボットメーカーと協力する計画であると報じています。これは重要なポイントです。Unitreeは中国を拠点としており、一部のアメリカの議員からは、連邦政府の資金提供を受けた研究でUnitreeのシステムを使用することへの懸念がすでに上がっているからです。NVIDIAは自らを安全なプラットフォームレイヤーとして位置付けようとしています。ソフトウェアのアップデートはNVIDIAのチップを経由し、セキュアブートやコンフィデンシャルコンピューティングといった保護機能が組み込まれています。
つまり、より大きなストーリーは、NVIDIAが単に人型ロボットを披露したということではありません。NVIDIAは、AIのコンピューティングスタックを標準化したのと同じ方法で、ロボット開発のスタックを標準化しようとしているということです。もし研究所や企業が、Jetson Thor、Isaac Groot、Cosmos、Omniverse、そしてNVIDIAのシミュレーションと展開ツールを基盤として開発を行えば、NVIDIAは物理AIのオペレーティングレイヤーとなるのです。
物理AIがもたらす現実と軍事利用の脅威
そして、この物語の最後の部分へとつながっていきますが、それは非常にダークな内容に感じられます。NVIDIAが物理AIの公式プラットフォームを構築している一方で、Foundation Future Industriesは人型ロボットを軍事や重工業の分野に押し進めています。彼らのPhantom Mark1はすでにウクライナでテストされています。報道によると、今年初めに2台のPhantomロボットが、危険地域付近での物資回収のような危険な兵站任務に焦点を当てたパイロットテストのためにウクライナへ送られました。
これは全く異なる種類の人型ロボットの物語です。ほとんどのロボティクス企業は、倉庫作業、製造業、家庭用アシスタント、汎用労働について語っています。しかしFoundationは、紛争地帯を含む危険な環境に公然と焦点を当てています。Business Insiderの報道によれば、同社は兵士が身を危険にさらす必要がないように、外部から内部へ物資を運ぶというアイデアのもと、実際の戦場という条件下で兵站業務のためのPhantomロボットのテストをウクライナで実施しました。同社はまた、はるかに攻撃的な長期ビジョンを掲げています。報告書はPhantom Mark1を防衛に焦点を当てた人型ロボットと説明しており、Foundationのリーダーシップは、将来的に人型ロボットが人間が使用する武器を扱うことを含む戦闘任務について議論しています。
同時に、動きの遅い兵站のデモンストレーションをこなせる人型ロボットと、実際の銃撃戦で確実に作戦を遂行できる人型ロボットとの間には、途方もない隔たりがあることを同社さえも認めています。この隔たりは重要な問題です。バッテリー寿命は依然として課題であり、耐久性も課題です。水、ほこり、衝撃、地形、操作性、信頼性、コスト、これらすべてが巨大な障壁となります。最も難しいのはやはり手かもしれません。武器を使用し、装備をつかみ、ドアを開け、物資を扱うには、単なるデモの中だけでなく、プレッシャーのかかる状況下で機能する器用さが必要だからです。
Business Insiderは、Foundationが国防総省と2400万ドルの契約を結び、同社が人型ロボットは5年から10年以内にさらに複雑な軍事ミッションを遂行できるようになると信じていると報じました。このタイムラインこそが、この話が不安を煽る理由です。これらのシステムは、今すぐ兵士の代わりになれるような準備は整っていません。しかし、これらはもはや純粋なSFでもないのです。そしてAIが現実世界を動き回れるようになれば、そのリスクははるかに高くなります。
皆さんはどう思いますか。物理AIは次の真のブレイクスルーとなるのでしょうか、それとも、私たちがまだ十分に理解していない機械に向けて速すぎるスピードで進んでいるのでしょうか。ぜひコメント欄で皆さんの考えを共有してください。AIとロボティクスの最新情報については、チャンネル登録をお願いします。ご視聴ありがとうございました。それではまた次回の動画でお会いしましょう。


コメント