
6,593 文字

私はあなたにロボット工学の進歩が著しく発展していることを伝えていましたが、本日、Groot N1がオープンソースになったことを発表します。NVIDIAはロボット工学において静かに大きな一手を打ち、Isaac Gren Oneという新しいオープンソースモデルをリリースしました。このファウンデーションモデルはロボットが人間のように推論し、計画し、行動できるように設計されており、すでに1X TechnologiesやBoston Dynamicsなどの業界リーダーによってテストされています。このビデオでは、Grudn Oneとは何か、どのように機能するのか、どのような種類のデータで訓練されたのか、そして現時点でなぜ重要なのかを詳しく説明します。最後まで視聴していただければ、実際のロボットにすでに導入されている様子と、今後の展開についてご紹介します。
AIがあらゆる産業を変革し、私たちの働き方や生活を変えていることは周知の事実ですが、あなたは2025年に必要不可欠となるAIスキルと戦略を学ぶために時間を割いていますか?これらのスキルは今後10年間あなたの市場価値を保つだけでなく、毎月追加で11万ドルを稼ぐ手助けにもなります。多くの方がまだ行動を起こしていないことを承知しています。そこで、Grow SchoolによるAIハンズオントレーニング(3時間)をご紹介します。25以上のAIツールの使い方と独占的な戦略やハックを学べます。説明欄のリンクから今すぐ登録してください。このトレーニングはキャリアアップを目指す人にとって革新的なものです。そして最高の部分は、通常は有料のトレーニングですが、リンクから登録するAI Uncoveredの視聴者先着1,000名に限り無料で提供されることです。そうです、AI Uncovered視聴者のみ完全無料です。
登録者には500ドル相当の追加リソースが無料で提供されます。求職戦略から給与交渉テクニック、Excelのマスター、コンテンツ作成まで全てをカバーしています。このAIトレーニングは技術者だけのものではありません。金融、営業、マーケティング、人事、学生、起業家など、どの分野の方にも間違いなく役立ちます。Grow Schoolは世界中で100万人以上のスキルアップを支援してきました。これはトップ1%から学ぶチャンスです。将来を確実にするスキルを学ぶ唯一のチャンスなので、説明欄のリンクをクリックして無料枠を確保してください。
Grunt Oneがロボット工学にとって重要な理由
Gren Oneの重要性を理解するには、これまでロボット工学の進歩を妨げてきた要因を見る必要があります。ChatGPTやGeminiなどの大規模言語モデルが情報とのやり取り方を変革した一方で、ロボット工学は同様の飛躍を遂げていません。主な理由は、実世界での動きが複雑で予測不可能であり、タスクごとに何千時間もの訓練を必要とするからです。従来、ほとんどのロボットは高度に管理された環境で限られた機能を実行するようにプログラムされていました。
ここでGrud N1の登場です。NVIDIAのGTC 2024での公式発表によると、Grud N1は汎用ヒューマノイドロボットがビデオ、テキスト、画像、ロボットの動きを組み合わせたマルチモーダルデータからスキルを学習できるよう訓練されたファウンデーションモデルです。単一タスクモデルとは異なり、ファウンデーションモデルは幅広い環境やアクティビティにわたって一般化するように設計されています。NVIDIAによれば、Groot N1の目的は開発者に、異なるロボットハードウェア、アプリケーション、シナリオにカスタマイズできる出発点を提供することです。視覚と言語の両方の入力を解釈し、協調的な物理的行動に変換するよう訓練されています。
オープンソースであることも重要なポイントです。これはNVIDIAだけが構築できる閉じたシステムではありません。モデルの重み、データセット、トレーニングベンチマーク、シミュレーターシナリオがGitHubやHugging Faceなどのプラットフォームで公開され、ドキュメントも含まれています。
この変化はロボット産業が急速に成長している時期に訪れています。Precedent Researchによると、世界のロボット市場は2022年の720億ドルから2032年には2830億ドルに達すると予測されています。しかし需要は工場のラインだけでなく、構造化されていない環境にも対応できるロボットへと移行しています。それがGrud N1が埋めようとしているギャップであり、人間の脳が情報を処理する方法を模倣したユニークなアーキテクチャによってそれを実現しています。
Gren Oneモデルアーキテクチャの詳細
Gren 1のアーキテクチャは認知科学、特に二重プロセス思考という考え方に触発されています。ロボットの能力を2つの主要システムに分けています。
システム1は高速反応層です。リアルタイムの運動制御とアクション実行を処理します。これは筋肉の記憶や反射と考えてください。何かを拾う、握りを調整する、考えるために止まることなく物理的空間の変化に対応するなどです。
一方、システム2は推論層です。このシステムは視覚入力を処理し、言語コマンドを理解し、アクションを計画してから実行のためにシステム1に渡します。
この分割により、Gren 1を搭載したロボットは必要に応じて素早く行動できますが、高度な推論と計画も可能になります。例えば、ロボットに机を掃除するよう頼んだ場合、システム2が命令を解釈してシーンを理解し、システム1がリアルタイムで手、腕、脚を制御して掃除を実行します。
このモデルは、ロボットの動作軌跡と人間のデモンストレーションの両方を含むデータを使用して訓練されています。人々がタスクを実行する様子を映したビデオからモデルが模倣を学習できます。このアプローチにより柔軟性が高まります。単一の環境やワークフローのためにロボットを訓練する代わりに、Groot N1はデモンストレーションからの学習を可能にします。つまり、タスクを一度見せるだけで、そのコンテキストでその行動を学習するよう微調整できます。
重要なのは、この二重システムのセットアップにより、高レベルの認知と低レベルの運動制御を分離できることです。これにより、同じコアモデルを異なるロボットプラットフォーム間で使用することが可能になります。
Gren 1の訓練方法
このシステムを支えるデータについて話しましょう。Gren 1の訓練は単に人間のデモンストレーションを与えるだけではありませんでした。3つの核となるデータタイプの組み合わせで構築されています:
様々なタスクを実行するロボットシステムから捕捉された実際のロボット軌跡
人々が異なる角度やコンテキストからアクションを完了する様子を示す人間のビデオデモンストレーション
主にNVIDIAのOmniverseプラットフォームを使用して生成された合成データ
この混合訓練方法は、ロボット工学における主要な制限の一つ、つまり物理世界のデータを収集するコストと時間に対応しています。仮想環境で何千ものシナリオをシミュレーションすることにより、Grud N1は実世界で遭遇したことのない状況への対処方法を学習できます。Omniverseは照明、材料、物体の相互作用、物理的制約など、大規模なデータ生成のためにスケールできる物理的に正確なシミュレーションを可能にします。
2025年3月にArXivで発表されたNVIDIAの研究論文によると、この訓練方法により、モデルは比較的少量の追加データでカスタマイズを可能にしながら、幅広いタスクに一般化できるようになりました。ゼロからの完全な訓練パイプラインを必要とする代わりに、開発者は現在、限られた例を使用して特定のロボットや環境のためにGrud N1を微調整することができます。これは古いアーキテクチャが苦戦していた部分です。
これは理論上のものではありません。すでに初期の採用者がGren 1を実世界のシナリオで使用しています。
すでにGren 1を実行している実世界のロボット
NVIDIAはGrutin 1を単に真空状態で公開しているわけではありません。すでにいくつかのロボット企業がこれを実験的に使用し、単純なピックアンドプレース操作をはるかに超えるタスクのためにロボットを訓練しています。
最初の実世界アプリケーションの一つは、OpenAIの支援を受けているノルウェーのロボット企業、1X Technologiesで行われています。彼らのNeo gammaヒューマノイドロボットは、実際の室内環境で家庭内タスクを実行するためにGrutin 1を使用して訓練されています。2025年3月のNVIDIA発表によると、ロボットは現在、物体の掃除、容器への配置、家具の周りのナビゲーションなど、タスク固有のコードを必要とせずに指示を実行できます。Neoは「部屋を整理する」などの指示を解釈し、物体の把握、分類、空間ナビゲーションなど、リアルタイムでそれを実行する計画を立てるためにGroot N1を使用します。Gren 1との統合により、少数のデモンストレーションから新しいタスクを学習し、再訓練なしに異なる空間間で動きを適応させることができます。
Atlas humanoidで知られるBoston DynamicsやBipedal robot Digitの創造者であるAgility Roboticsも、内部でGrutin 1をテストしている初期採用者の中にいます。これらの企業はまだモデルをどのように統合しているかを公に詳述していませんが、NVIDIAはこれらがGro rated開発のテストグループの一部であることを確認しています。これは重要です。なぜなら、これらは高度な機械的プラットフォームを持つ企業であり、ソフトウェアスタックをゼロから再構築することなく、認知と適応性を向上させる方法を模索しているからです。
開発者にとって、これはショートカットを提供します。すべてのロボットのために完全に新しいAIシステムを開発する必要がなく、Grudin 1は転送可能なベースモデルを提供します。開発者は既存のヒューマノイドロボットを取り、特定のデータでGro in 1を微調整し、従来のパイプラインよりも速く展開することができます。
その意味は技術研究所を超えています。物流では、Grud N1を搭載したロボットは様々な倉庫レイアウトを処理できます。高齢者ケアでは、各アクションに明示的なプログラミングを必要とせずに毎日のルーティンを支援できます。小売では、これらのシステムは音声コマンドに応答し、より少ないハードコードされたルールで異なる店舗のセットアップに適応できます。
これは万能のソリューションではありません。Groot N1はタスク固有の改良の必要性をなくすわけではなく、まだ完全にオープンエンドな推論はできません。しかし、より高いレベルの自律性と適応性を持つ、より一般的な目的のロボットシステムに向けた一歩を表しています。
Groot N1でできること
このリリースの大きな部分は、Groot N1がオープンソースであることです。つまり、これは単なるデモンストレーションモデルではなく、研究者、エンジニア、スタートアップが実際に構築できるツールです。NVIDIAはコアGro N1モデルに加えて、キュレートされたデータアセット、評価環境、トレーニングベンチマークをリリースしました。これには、Omniverse上に構築されたNVIDIAのロボットフレームワークであるIsaac labとPyTorchとの統合が含まれており、現在GitHubで利用可能です。
モデル自体はダウンロードして、特定のロボットハードウェアでの微調整のために展開できます。トレーニングデータセットには、人間とロボットのモーションキャプチャと、高忠実度シミュレーションを使用して構築された合成環境が含まれています。これは、機械学習モデルをホストおよび共有するためのプラットフォームであるHugging Faceからもアクセス可能です。その利点は明らかです。開発者は複雑なトレーニングインフラを一から設定することなく、Groot N1を自分のプロジェクトに迅速に統合できます。
また、パフォーマンスのベンチマークを可能にするスターター環境とタスクもあります。開発者は、ナビゲーション、分類、物体操作、または複数ステップのアクションシーケンスなどのタスクで、自分のバージョンのパフォーマンスを比較できます。
これらのツールをオープンに公開することで、NVIDIAはMeta’s LLaMA、MSTRなどのモデルが研究を加速するために公開されている、AIのより広範なトレンドに沿っています。また、大学や小規模なスタートアップが、独自システムやクローズドAPIの障壁なしに最先端のモデルで作業することを可能にします。
このオープンアクセスは新しい機会をもたらす一方で、安全性、バイアス、トレーニングデータ、実世界のロボットの行動の制御に関する質問も提起します。これらの懸念はGro N1に固有のものではありませんが、一般的なモデルがデジタルインターフェースから物理的な機械に移行するにつれて、より広範な会話の一部となっています。
NVIDIAのより大きなビジョン
Groot N1は単発のリリースではなく、Project Groot(Generalist Robot Tasks Trainingの略)と呼ばれるより大きな取り組みの最初のステップです。このプロジェクトは、NVIDIAのCEO、Jensen Huangによって正式にGTC 2024基調講演で発表され、より広範なAIとロボット工学の進歩と共に紹介されました。
Project Grootの目的は、基盤モデルがハードウェアタイプ間で一般化でき、最小限の入力で新しいタスクを学習し、実世界に展開される前に仮想環境でトレーニングを受けることができるスケーラブルなロボットプラットフォームを構築することです。このプロジェクトは、リアルなシミュレーションと合成データ生成のためのIsaac SIM、強化学習とロボットトレーニングのためのIsaac Lab、物理的なロボット上でこれらのモデルに電力を供給するエッジコンピューティングハードウェアであるJetson Orinを含む、NVIDIAの既存のロボットエコシステムと直接統合されています。
目標は継続的なフィードバックループを確立することです:シミュレーションでロボットを訓練し、実世界の設定でテストして改良し、新しいデータを収集し、そのデータを使ってモデルをさらに改善します。このアプローチは、デジタルコンテンツを処理または生成するだけでなく、物理的環境でも行動する具体化AIシステムへの業界の広範なシフトに沿っています。
Gro N1は、このようなシステムの共有認知基盤として機能するように設計されており、それらが段階的に学習し、新しいシナリオに適応し、不慣れな環境を推論できるようにします。NVIDIAによれば、Grootの今後のイテレーションではトレーニングデータの範囲を拡大し、モーターコントロールの精度を向上させ、より複雑な複数ステップの計画タスクをサポートするために推論層を強化する予定です。
この分野でのイノベーションのペースは、より多くの企業、研究機関、ハードウェアメーカーが共有基盤モデルを中心に集まるにつれて加速しています。研究から展開までのタイムラインはさらに短縮される可能性があります。
ここまで視聴いただきありがとうございます。コメント欄で皆さんの考えをお聞かせください。さらに興味深いトピックについては、画面に表示されている推奨ビデオをご覧ください。視聴していただきありがとうございました。


コメント