NVIDIAが発表したNitrogenは、事前訓練なしに未知のビデオゲームをプレイできる汎用ゲームAIエージェントである。従来のゲームAIが特定のゲーム環境に特化していたのに対し、Nitrogenは生のピクセルデータのみから学習し、1000種類以上のゲームで訓練された40,000時間分のインターネット規模のデータセットを活用する。このモデルは強化学習ではなく、YouTubeやTwitchの実況動画からコントローラー入力を抽出する模倣学習を採用しており、ゼロショットで40~60%の成功率を達成している。この技術的ブレークスルーは真の汎化能力を示すものであり、ロボティクスや自律システムへの応用が期待される。ゲームは安全で観察可能な訓練環境として機能し、実世界のリスクを伴わずにAIの知覚、制御、意思決定能力を開発するための理想的なテストベッドとなっている。

NVIDIAが発表した革命的なAIエージェント、Nitrogen
NVIDIAがNitrogenを発表しましたので、これについて話す必要があります。NVIDIA Nitrogenは汎用ゲームエージェントのためのオープン基盤モデルです。本質的にこれは、完全に未知のあらゆるビデオゲームをプレイできるAIエージェントなのです。その通りです。このAIエージェントを世界中のあらゆるビデオゲームに投入すれば、少なくともある程度は成功裏にプレイできるようになるのです。
これらすべてのスキルを詳しく見ていくと、かなり驚異的です。Nitrogenがかなりクールな理由は、このAIエージェントが本質的に各ゲームで訓練されているわけではないからです。私たちがこれまで見てきた以前のエージェントとは異なり、皆さんもおそらくOpenAIのエージェントやDeepMindのエージェントを見たことがあると思いますが、それらの多くは特定の環境に対して非常に特化して訓練されています。
Nitrogenはゲームのルールを完全に変えています。これはあらゆるシンプルなゲームに投入できるAIエージェントであり、これは真の汎化なのです。皆さん、覚えておいてください。汎化はAGIへの重要な重要なボトルネックの一つです。なぜなら、LLMや他のAIシステムは、分布外のものを見たときに完全にひどいパフォーマンスを示すことが多いからです。
Nitrogenで私たちが目にしているのは、AIエージェントが初めて成功裏に汎化できるケースの一つです。時にはその分布外でも汎化できるということであり、これらのスキルが多くの異なる環境で本当にうまく機能しているということを意味します。もちろん、その影響は深遠です。なぜなら、これが大規模で機能するなら、これらの影響がロボティクスなどの分野に移行する可能性があることを私たちは知っているからです。
Nitrogenの仕組み
では、このAIエージェントは実際にどのように機能するのでしょうか。このスライドはそれほど技術的ではありません。これはエージェント全体が実際にどのように機能し、どのように構築され訓練されて汎用ゲームエージェントになったのかを示すだけです。エージェントには3つの柱があり、これらすべてが互いに補強し合っています。
ユニバーサルシミュレーター、これはエージェントがゲームをプレイする方法です。マルチゲーム基盤エージェント、これはもちろん脳です。そしてインターネット規模のビデオアクションデータセット、これはもちろんそれが学習する方法です。左側にはユニバーサルシミュレーターが見えます。これはあらゆる商用ゲームを研究環境のように動作させるラッパーです。
そして、これが視覚的に起こっていることです。もちろん、多くの異なるゲームがあります。2D、3D、プラットフォーマー、RPG、シューティングゲームがあります。そしてNitrogenはゲーム内部への特別なアクセスを得ません。生のピクセルのみを見て、コントローラー入力を送信します。基本的に、このAIエージェントは私たちがゲームを見るのとまったく同じように見ているということです。
皆さん、覚えておいてください。これは実際に重要です。なぜなら、他のすべてのAIエージェントは通常1つのゲームにハードコードされているからです。これは、このAIエージェントが同じインターフェースで多くのゲームを実行できることを意味します。次にマルチゲーム基盤エージェントがあります。これが実際のAIモデル、実際の脳です。もちろん視覚エンコーダーがあり、ここで実際にフレームを取得します。これはプレイヤーが見るものであり、これをコンパクトな視覚表現に変換します。
テキストはなく、ゲームステートもなく、メモリダンプもありません。これは純粋に視覚だけです。次にアクション変換器があり、これは将来のコントローラーアクションのチャンクを生成します。ボタン、ジョイスティックの動きであり、これは拡散/フローマッチングを使用して、時間の経過とともに滑らかで現実的なアクションを生成します。1つのボタン押下を予測する代わりに、アクションのシーケンスを予測し、これによりゲームプレイが安定し人間らしくなります。
LLMがチャット活動ウィンドウでテキストを吐き出しているのを見るときのようなものです。基本的にそのような感じです。それらのアクションがそのように出てくるのが見え、もちろんこれは滑らかでクールなゲームプレイをもたらします。そしてもちろん、インターネット規模のビデオアクションデータセットがあります。
インターネット規模のデータセットからの学習
これが学習の源です。ここにゲームパッドオーバーレイビデオがあります。YouTube/Twitchのビデオで、プレイヤーがゲーム画面とライブコントローラーオーバーレイを表示し、ボタンが点灯しています。そしてアクション抽出があります。これは視覚モデルがコントローラーオーバーレイを見て、どのボタンが押されたか、ジョイスティックの位置を再構築する場所です。これは受動的なビデオをラベル付きアクションデータに変換します。
このスケールは約40,000時間です。そして彼らは実際に1000種類の異なるゲームを実施しました。そして、カジュアルからエキスパートまでの実際の人間の行動を使用しました。これらすべてを接続すると、データセットは基本的にエージェントに、画面がこのように見えるとき、人間はこれらのボタンを押すということを教え、基盤エージェントは一般的な視覚からアクションへのマッピングを学習し、ユニバーサルシミュレーターはそのエージェントが新しいゲーム、新しいスキルをテストし、効率的に微調整できるようにします。
この図は重要です。なぜなら、これはパラダイムシフトを示しているからです。これは以前のような強化学習ではありません。これは手作りのAPIではなく、言語駆動制御でもありません。これはインターネット規模の模倣から汎用的な具現化へです。これは基本的にGPTスタイルの事前訓練ですが、テキストの代わりにアクション用です。そして、これがどれほど効果的かを見てください。
既製のマルチゲーム機能を見てください。これは、訓練されていないゲームでそのまま使用される事前訓練済みのNitrogenモデルであることを覚えておいてください。強化学習なし、手動調整なし、ゲーム固有のプロンプトなし、ただ視覚入力、コントローラーアクション出力です。左から右へは3Dから2Dサイドスクロールまでです。
ただし、全体的には3Dで実際にはるかに優れたパフォーマンスを発揮します。そして、ここで結果が言っているのは、モデルが驚くほどよく汎化するということです。すべてのゲームタイプで40~60%の成功率。これはゼロショットゲームプレイとしては非常に印象的です。多くのタスクは人間が学ぶのに数時間かかるでしょう。もちろん3Dゲームが最もうまく機能します。
60~50%あたりで推移しているのが見えます。そして、これはもちろん良いことです。いや、良いではありませんが、これが現実です。なぜなら、データセットはアクション重視の3Dゲームに偏っているからです。カメラとジョイスティックのダイナミクスがあり、これらは容易によく表現されます。2Dトップダウンゲームでは、ゲーム固有のものでさらに優れた性能を発揮します。61.5%に達します。
これは実際に強力な空間推論とパターンの再利用を示唆しており、これは単に3D FPSの行動を暗記しているだけではないことを示しています。このスライドが実際に重要だと思うのは、これが誰もが見たい汎化の証明だからです。これはNitrogenが単一のゲームエージェントではないことを示しています。転移可能なスキルを学習しており、スクリプトではありません。そしてインターネットスキル模倣が実際に機能します。
言い換えれば、一度訓練すれば、すでに多くのゲームをまともにプレイできます。そして、それはゼロショットプロンプティングが初めて機能したときにLLMが経験したのと同じ瞬間です。基本的にこれは驚異的です。なぜなら、微調整なしで、一般的なゲームスキルを持つことができるからです。1つのタイトルを暗記するのではなく。
事前訓練の重要性と転移学習
ここで事前訓練が実際にどのように重要かを見ることができ、基本的にNitrogenが新しいゲームを学習し適応するために必要なデータと時間を劇的に削減する一般的なアクション事前分布を学習することを示しています。これは、LLMへのWebテキストや視覚モデルへのImageNetで見たのと同じパターンです。以前は、すべてのゲームがカスタム強化学習訓練、タイトルごとに数千のGPUを必要としていました。その後、ここで見ることができるように、特定のゲームが何であれ、一度事前訓練し、安価に微調整すれば、低データレジームで強力なパフォーマンスを得ることができます。
これは驚異的で、Nitrogenから始める場合、ゼロから訓練する場合と比較して、少量のデータしかない場合でも、まったく新しいゲームで劇的に優れたパフォーマンスが得られることを示しています。そして、それが真の基盤モデルの特徴です。Dr. Jimanはこれに取り組んだ人物の一人で、彼は基本的にこの長い投稿で、私が簡単に要約しますが、Atariは彼の博士課程時代、AIエージェントのゴールデンベンチマークだったと言っています。
単一のニューラルネットが50以上のAtariゲームをプレイできることは、驚異的と考えられていました。モデルは84×84のグレースケールのピクセル化された画面をいくつかのボタンにマッピングするのに苦労していました。そして、最近OpenAIのDota 2があったことを覚えています。これは実際には数年前です。DeepMindのAlphaStarも同様に数年前です。これはeスポーツゲームでした。
しかし、それらはかなりクールでしたが、実際には一度に単一の仮想環境に過剰適合していました。そして、それらの以前のものに何かを変更すれば、即座に壊れていたでしょう。これを人間と比較してください。人間は大きく異なる物理学とルールに適応することに並外れて優れています。これはLLMを回避し続けているものです。
これについて考えてみてください。彼らは1000のシミュレーションとして1000のゲームを実施し、エージェントが適応する仮想世界が多ければ多いほど、具現化された推論、知覚、運動協調性が向上しました。そして、これらすべてがロボティクスの壮大なパズルにおける重要なピースです。そこで、彼らはもちろんこれをオープンソース化することにしました。
GitHubへのリンクを説明欄に残します。彼らは基本的にGoogleがAlphaGoで、OpenAIがOpenAI Fiveで、そしてもちろんGoogle Gemaで推し進めたのと同じ研究フロンティアを推し進めようとしています。そして、彼らは基本的に他のシステムの限界を強調しようとしています。多くの反発があるのを見てきました。驚くべきことではありませんが、AIは基本的に転換点にあります。
AIエージェントの真の目的
この人は、「なぜ私のためにAIにビデオゲームをプレイしてほしいのか? AIにそんなに多くの制御を与えるのはやめろ」と言っています。覚えておいてください、これはこの種のモデルが何であるかではありません。これは本質的に、多くの異なる方法で私たちを助けるAIエージェントのための訓練場です。AI研究者がゲームを使用しているのは、それらが安全で、安価で、複雑で、完全に観察可能で、スキル密度が高く、知能のための風洞であって、目的地ではないからです。
覚えておいてください、もちろん人間は報酬、熟達、感情のためにゲームをプレイします。AIは完全に異なる目的でゲームをプレイするつもりです。AIは知覚を学び、制御を学び、不確実性下での意思決定を学ぶつもりです。そして、これらの目標は2つの完全に異なるものです。
覚えておいてください、これらの目標を学習でき、私たちがそれがうまくいくのを見ることができるなら、その研究はロボティクス、自律走行車、産業オートメーション、支援技術、シミュレーションベースの安全性テストに供給されるでしょう。AIが戦い、ナビゲートし、適応できるなら、またはそれらのスキルを転移できるなら、それらのスキルは実世界のシステムに転移できます。
ゲームは基本的に、AIシステムを訓練したい最後の場所です。その理由は、代替案が実世界、実際の工場での訓練だからです。そして、そこには問題があります。もちろん、AIが失敗した場合のリスクと結果があります。ですから、覚えておいてください。これはプレイヤーのエージェンシーを取り除くものではありません。
なぜ人々がこう考えているのか分かりませんが、もちろんAIへの嫌悪は史上最高です。覚えておく必要があるのは、このAIは知覚、制御、適応を学習しているということです。これらはロボティクスと実世界システムに必要なスキルです。そして、それが機能するなら、その影響は深遠です。


コメント