マイクロソフトの新しいAI「MUSE」が現実をオンデマンドで生成! (初の世界と人間行動モデル)

4,683 文字

Microsoft’s New AI MUSE Can Generate Reality on Demand! (First World and Human Action Model)

Microsoft’s new AI model, MUSE, is designed to understand and generate entire digital environments by learning from real...

バーチャルワールドは全く新しい種類の知能を手に入れようとしています。単にスクリプトに従うだけでなく、物事の動きや相互作用を本当に理解する知能です。マイクロソフトのMuse AIはデジタル環境を学習し、完全なシーケンスを生成し、さらには古典的な名作を蘇らせることも支援しています。
Museは「World and Human Action Model」（略してWham）と呼ばれています。というのも、このAIはゲームの視覚的要素を生成するだけでなく、アクションも生成する、あるいはその両方を同時に生成することができるからです。基本的に、これは3次元のゲーム環境とゲームの物理法則を理解するように訓練されたAIシステムです。つまり、ゲームを見て、その世界での物事の仕組みを認識し、実際のプレイヤーが行うかもしれない新しいゲームプレイを生成することができるのです。
これは単なる理論的なアイデアではありません。Museは実際に約300×180ピクセルの解像度でゲームの映像を生成することが実証されています。確かに、現代のゲームで私たちが愛用している1080pや4Kと比べるとかなり小さいですが、マイクロソフトの以前のプロトタイプが生成していた128×128の解像度からすれば大きな進歩です。
では、どのようにしてここまで来たのでしょうか。きっかけは、ChatGPTがテキストベースの生成AIで世界を驚かせた直後の2022年後半にさかのぼります。マイクロソフトリサーチケンブリッジ（英国）のシニアプリンシパルリサーチマネージャーであるカタタ・ホフマンは、ChatGPTの背後にあるようなトランスフォーマーベースのモデルがビデオゲームでどのように機能するか考え始めました。
彼女のチーム「マイクロソフトリサーチゲームインテリジェンス」は、すでにNinja Theoryのタイトル「Bleeding Edge」からプレイヤーの同意を得てたくさんのゲームプレイデータを収集していました。Bleeding Edgeについてご存じない方のために説明すると、これは2020年にリリースされた4対4のXboxゲームです。すべての試合はオンラインでプレイされ、プレイヤーの同意を得てマイクロソフトは試合の視覚データとコントローラーの操作を記録しました。
驚くべきことに、彼らは10億を超える画像とコントローラー操作を蓄積しました。これは7年以上の人間のゲームプレイに相当する膨大なデータセットです。そこでホフマンとチームは考えました。もしこれらすべてをトランスフォーマーベースのモデルに投入したら、AIに理解させ、そして全く新しいゲームプレイシーケンスを生成させることができるのではないか、と。
結果として、その通りでした。それがまさにMuseなのです。彼らは最初V100 GPUを使用し、その後H100にアップグレードした強力な計算クラスターを使用してモデルを訓練しました。スケーリングプロセスは簡単ではありませんでしたが、最終的にチームはパイプラインを安定させ、大規模な訓練を実行できるようになりました。
作動するプロトタイプができると、128×128ピクセルから300×180ピクセルへの高解像度画像エンコーダーへの調整を行い、さまざまなゲーム内マップでテストを行いました。そしてMuseが様々な興味深いことができることを発見しました。
例えば、実際のゲームプレイ映像を数秒間とコントローラー入力で促すと、その後数分間のゲームプレイを生成し続け、多くの場合、実際のゲームプレイと一致するものを生成します。あるいは、ボタン入力だけを与えて、ゲームがどのように反応するかを想像することもできます。実際のゲームの物理法則に近ければ近いほど、Bleeding Edgeの仕組みをよりよく理解していることを示しています。
さらに興味深いのは、チームが開発の過程で、クリエイティブなゲーム開発に重要な3つの大きな能力を発見したことです。それは一貫性、多様性、そして永続性です。
一貫性とは、生成されたゲームプレイがゲーム世界のルールにどれだけ正確に従うかということです。例えば、キャラクターは壁を通り抜けるのではなく、通常の物理法則に従うのか、AIは通常のプレイヤーのようにボタン操作を解釈するのかということです。
多様性とは、モデルが単一の繰り返しパターンではなく、様々な異なるシナリオを生成できることを確保することです。
永続性とは、例えば画面に新しいキャラクターをコピー＆ペーストするなど、シーケンスの途中でゲーム世界を修正した場合、AIがその新しいキャラクターを後続のフレームでもリアルに維持できることを意味します。
これらのポイントは、実際のゲーム開発者にとって非常に重要です。開発者は1つのことしかできないAIや、毎回同じ環境を生成するAIを望みません。また、ゲームの内部ロジックを破壊するAIも望みません。その意味で、Museはゲーム開発における生成AIの大きな一歩前進のように見えます。
興味深いことに、マイクロソフトのチームは研究所でモデルの能力をテストしただけでなく、「Whamデモンストレーター」と呼ばれる特別なプロトタイプツールも構築しました。これは開発者やクリエイターが自らMuseを試すことができるツールです。これを使用すると、Bleeding Edgeのゲームプレイの初期フレームや、ゲームの宣伝画像を1枚読み込み、Museがそのイントロに続くさまざまなシーケンスを生成するのを観察することができます。
マイクロソフトはこれらの発見の多くを公開しています。モデルの重みはサンプルデータと共にオープンソース化され、Whamデモンストレーターの実行ファイルも公開されています。研究者や興味のある開発者は、Azure AI Foundryで自らMuseができることを実験することができます。
Nature誌に詳細な論文が掲載されており、これはテキスト用の生成AIとビデオゲームプレイ用の生成AIの間のギャップを埋めるという点で、特に重要なマイルストーンと考えられています。チームによると、大量のゲームプレイデータを活用して、AIに単に画像を操作するだけでなく、仮想環境がどのように時間とともに進化すべきかを本当に反映させる方法を示しているとのことです。
もちろん、これはまだ初期の研究段階です。来月にはAIが完全に生成したAAAタイトルをプレイできるようになるとは誰も言っていません。しかし、その可能性は非常に興味深いものです。将来的には、ゲームクリエイターがレベルを素早くプロトタイプ化したり、新しいアイデアを探索したり、あるいは古典的なゲームを保存や現代化する方法を見つけ出したりするのに使用される可能性があります。
そしてもう1つ興味深いのは、マイクロソフトゲーミングのCEOであるフィル・スペンサーやマイクロソフトの他のメンバーが、オリジナルのハードウェアが時代遅れになって遊べなくなった古いゲームを復活させるためにMuseを活用する方法を探っていると述べていることです。理論的には、モデルは記録されたゲームプレイデータからゲーム全体を学習し、オリジナルのエンジンなしで新しいプラットフォーム向けにレンダリングすることができます。
これは明らかに長期的なビジョンですが、多くの人々を興奮させる可能性を秘めています。プレスブリーフィングでは、Xboxのいくつかのチームが、Museや生成AIをより広く新しい体験や既存のゲームのアップデートにどのように活用できるかを検討していることも明らかになりました。短い対話型のAIパワードデモがCo-pilot Labsで近々公開される可能性があり、人々がこれらのコンセプトを実際に体験する機会が得られるかもしれません。
マイクロソフトのゲーミングAI担当コーポレートバイスプレジデントであるファット・マーダーは、XboxのEachスタジオがどのように、あるいはそもそも生成AIを使用するかを決定する自由があることを強調しています。彼女によると、すべてのプロジェクトにAIを強制的に導入するのではなく、特定のゲームディレクターのクリエイティブビジョンとチームの目標に基づいて決定されるとのことです。
しかし、ゲーム開発業界のすべての人が喜んでいるわけではありません。業界は非常に不安定な時期にあるからです。ある記事によると、2024年だけでゲーム開発者の10人に1人が人員削減で職を失ったとのことです。生成AIがアーティストやレベルデザイナーなどの人間の仕事を奪うのではないかという懸念があります。
しかし、Ninja Theoryのスタジオヘッドであるドム・マシューズによれば、目標はゲーム全体を自動的に生成することではありません。開発プロセスをより簡単で効率的にし、開発者が本当に人間の手が必要な作業に集中できるようにすることに興味があるのだと言います。言い換えれば、これは人間の必要性をなくすツールではなく、時間を解放するツールなのです。
カタタ・ホフマンからは未来の一端も垣間見ることができました。彼女は控えめな10フレーム/秒でフレームをリアルタイムに生成するMuseのバージョンを披露しました。環境にオブジェクトを投入すると、モデルが論理的に反応し、それに応じて環境を再配置したのです。この実演は解像度は低いものの、AIが駆動する世界がどのように真に対話的になる可能性があるかを垣間見せてくれました。
オープンワールドゲームやクリエイティブサンドボックスが、プレイヤーの行動に基づいてリアルタイムで自己拡張したり、新鮮で予期せぬ方法で入力に適応したりする様子を想像してみてください。
私たちプレイヤーにとって、近い将来には新しい方法でゲームプロトタイプを試すことができるかもしれません。生成AIと共にレベルを共同制作したり、既存のレベルを新しい課題に素早く適応させたりすることができるかもしれません。これらの可能性はすべて非常に興味深いものです。そして、もし古いゲームの保存というアイデアを適用する方法を見つけ出せれば、特定の古典的なゲームを初めて体験する機会を逃した人々にとって完璧な、レトロタイトルの復活の波が見られるかもしれません。
最終的に、マイクロソフトはこれらすべてのデータ、オープンソースの重み、そしてドキュメントを共有する本当の理由は、より多くの研究者や開発者が可能性を探求し、その上に構築することを奨励するためだと強調しています。ChatGPTやGPT4がテキストでAIが驚くべきことができることを示してきましたが、ゲームはさらに複雑な領域だからです。単に言葉だけでなく、物理、3次元空間のロジック、リアルタイムの意思決定などが関係してきます。Museがこれらの課題に対処できれば、インタラクティブエンターテインメントやそれ以外の分野における生成AIの可能性は非常に大きなものとなる可能性があります。
コメント欄で、Museや生成AI、ゲーム、あるいはゲームの保存について、あなたはどう思うか教えてください。興奮していますか？心配していますか？それとも両方でしょうか？個人的には、開発者たちがこれらのツールを手にして、どのような新しい種類のクリエイティブな魔法を生み出すのか、とても楽しみです。
ご視聴ありがとうございました。次回もお会いしましょう。