Google DeepMindが発表したSIMA 2は、仮想3D世界でプレイし、推論し、学習するAIエージェントである。前身のSIMA 1から大きく進化し、Geminiモデルを統合することで、単なる指示実行者から対話的なゲームコンパニオンへと変貌を遂げた。SIMA 2は人間の言語指示に従うだけでなく、自らの目標について考え、ユーザーと会話し、時間とともに自己改善する能力を持つ。タスク完成率は前モデルの31%から65%へと飛躍的に向上し、人間のベースラインに迫る性能を示している。さらに注目すべきは、Genie 3という世界生成AIが作り出した未知の3D環境においても適応できる汎化能力である。SIMA 2は人間のデモンストレーションから初期学習した後、自己主導型プレイを通じて新しいゲームで独自にスキルを発展させることができ、次世代のより高性能なエージェントの訓練データを自ら生成する。この自己改善サイクルは、人間の監督をほとんど必要としない開放型のエンボディド知能への道を開き、最終的には現実世界のヒューマノイドロボットへの応用が期待される。Google DeepMindはこれをAGIへの重要な一歩と位置づけており、ロボティクスとAIの具現化における将来的な意義を強調している。

Google DeepMindの革命的発表
さて、これは決してクリックベイトではありません。Google DeepMindが実際に大きなものを発表しました。SIMA 2と呼ばれるAIエージェントで、彼らはこれがAGIに向けた大きな一歩だと言っています。タイトルに書かれているように、SIMA 2は仮想3D世界であなたと一緒にプレイし、推論し、学習するエージェントです。
昨年のGoogleのオリジナルSIMAまたはSIMA 1を覚えているかもしれません。これはScalable Instructable Multi-world Agent(スケーラブルで指示可能なマルチワールドエージェント)の略です。そして基本的には、AIに3D世界の中で言語を意味のある行動に変換することを教えるGoogleの最初の大きな試みでした。
しかしSIMA 2は別次元です。彼らは今、高度なGeminiモデルをそれに統合しました。そして彼らは、それが単純な指示実行者から完全な対話型ゲームコンパニオンへと進化したと言っています。
彼らはこう書いています。「SIMA 2は仮想世界で人間の言語指示に従うことができるだけでなく、今では自分の目標について考え、ユーザーと会話し、時間とともに自己改善することができます」そして彼らはさらに一歩進んで、これは汎用人工知能の方向への重要な一歩であり、ロボティクスとAIの具現化全般の未来にとって重要な意味を持つと言っています。
デモンストレーションの衝撃
では、彼らがこのために作成したデモをお見せします。実際かなり驚異的です。そしてこの投稿をより深く掘り下げていきます。SIMA 1とSIMA 2の実際の例と並べての比較を見ていきます。SIMA 2をGoogleの新しい世界モデル生成器であるGenie 3の中に入れたら何が起こるか。
そして最後に、SIMA 2が実際にどのように自己改善エージェントとして機能するのか。ですので最後までご覧ください。
これはビデオゲームをプレイしている人ではありません。これがSIMA 2です。仮想世界のための私たちの最も高性能なAIエージェントです。複雑で、反応的で、常に変化する世界、ちょうど私たちの世界のように。
以前のモデルとは異なり、SIMA 2は単純な行動を超えて、困難なマルチステップタスクをナビゲートして完了します。
マルチモーダルプロンプトを理解します。そして尋ねれば、SIMA 2は何が見えて次に何をする予定かを説明します。
SIMA 2は学習し、推論し、改善することができます。人間の入力なしに、自分自身でプレイすることによって、新しいスキルと能力を開発します。そしてSIMA 2がプレイすればするほど、より良くなります。
一つの仮想世界で学んだことを次へ、そして次へ、そして次へと適用します。たとえそれらを以前に見たことがなくても。
SIMA 2は、仮想世界でエージェントを訓練するためのマイルストーンであるだけでなく、どこでもどんなタスクでも手伝えるAIを作成するための一歩です。いつか現実世界も含めて。
Gemini統合による飛躍的進化
そう、それはかなり驚異的でした。これは本当にAGIに向けた大きな一歩のように感じられます。ビデオで言及されたように、SIMA 2のアーキテクチャはGeminiの推論能力を統合しているので、実際に自分が何をしているかについて考えることができます。
つまりSIMA 2は今、ユーザーに自分の意図を説明し、目標を達成するために取っているステップを説明できるのです。これが彼らがそれを対話型ゲームコンパニオンのように感じると言う理由です。
これらの強力なGeminiモデルの追加は、汎化と信頼性も大幅に改善します。
彼らは、SIMA 2は今、はるかに複雑で微妙な指示を理解でき、それらを完了することがはるかに優れていると言っています。特に訓練されたことのないゲームで。つまり汎化の改善です。明らかにこれがAGIへの大きな一歩である別の理由です。
そしてこれの完璧な例が、SIMA 2の学習した概念を転移する能力です。
彼らはこう書いています。例えば、あるゲームでのマイニングの理解を取って、それを別のゲームでの収穫に適用することは、人間の認知に見られる種類の広範な汎化を達成するための基盤となります。実際、この能力の結果として、SIMA 2のパフォーマンスは、幅広いタスクにおいて人間のプレイヤーのそれに大幅に近づいています。
つまりエージェントは、採掘方法を学ぶMinecraftのようなゲームから、Asukaのようなゲームに行って、どういうわけか収穫方法を理解できるのです。似たアイデア、異なるメカニクス。この意味するところは、おそらくあなたが気づいているよりも大きいです。
驚異的な性能指標
実際にもっと良い全体像を与えてくれるグラフがいくつかあります。
これはタスク完成成功率です。基本的に、エージェントが3Dゲーム世界でタスクをどれだけうまく完成させるかです。オリジナルのSIMAは31%であるのに対し、SIMA 2は65%まで跳ね上がります。人間のベースラインをわずか約11パーセントポイント下回っているだけです。
つまりSIMA 2は平均的な人間とほぼ同じくらい優れているということです。ゲーム全般ではなく、彼らの評価セットの特定のタスクを完成させることにおいて。
これは以前に見たことのない環境での成功率を示しています。本質的に、どれだけうまく汎化するか。そして再び、SIMA 2はSIMA 1を完全に圧倒していますが、人間レベルに近いものに到達するにはまだ長い道のりがあります。人間はここにまだプロットされていません。
Genie 3との統合:究極のテスト
さて、ここからが面白くなります。Googleはこれを究極のテストと呼んでいます。
彼らはこう書いています。「SIMA 2の汎化能力の限界をテストするために、私たちはそれを別の画期的な研究プロジェクトであるGenie 3と組み合わせました。これは単一の画像またはテキストプロンプトから新しいリアルタイム3Dシミュレーション世界を生成できます。SIMA 2にこれらの新しく生成された世界でプレイするよう挑戦したとき、それが賢明に自分自身の方向を定め、ユーザーの指示を理解し、そのような環境を以前に見たことがないにもかかわらず目標に向けて意味のある行動を取ることができることを発見しました」
ですのでちょっと考えてみてください。AIモデル上で動作するAIエージェントがあり、AI世界生成器によって作成されたAI生成3D世界の中で自律的に行動を取っています。あるいはもっと簡単に言えば、世界モデルの中でプレイしているエージェントです。
これが実際に機能するという事実だけで驚異的です。しかしSIMA 2がこれらの世界の中で実際に自己改善できることに気づくと、さらに驚異的になります。その通りです。
自己改善能力の実現
彼らはSIMA 2が自己主導型プレイとGeminiベースのフィードバックを通じて、ますます複雑なタスクを実行できると主張しています。
彼らはこう書いています。「最初に人間のデモンストレーションから学習した後、SIMA 2は新しいゲームでの学習に移行でき、以前に見たことのない世界で追加の人間生成データなしに、自己主導型プレイを通じて独占的にスキルを開発できます」
その後の訓練では、SIMA自身の経験データを使用して、次のさらに高性能なバージョンのエージェントを訓練することができます。彼らは新しく作成されたGenie環境におけるSIMA 2の自己改善能力を活用することさえできました。これは多様な生成世界にわたって汎用エージェントを訓練するための大きなマイルストーンです。
ですのでGenie 3が24時間365日稼働し、1分あたり何百、あるいは何千もの世界を立ち上げ、そしてそれぞれの中で、複数のSIMA 2エージェントが継続的に独自に学習していることを想像してください。
この反復的改善のサイクルこそが、開放型のエンボディド知能への道を開くものです。ほぼ人間の監督なしに学習し成長するエージェントです。
最終的には、これらのAI生成環境は非常にリアルになるので、エンボディドAI、つまりヒューマノイドロボットのための無限の訓練データを本質的に持つことになります。
今後の展望と課題
さて、最後に彼らは「未来を見据えて:汎用エンボディド知能への旅」というタイトルのセクションで締めくくります。
彼らはこう書いています。「SIMA 2は汎用的で対話的なエンボディド知能に向けた重要な一歩ですが、それは依然として基本的に研究努力であり、その現在の制限は将来の作業のための重要な領域を強調しています」
そして彼らは、長期的なタスクの完了、低遅延のインタラクションを達成するために限定的なコンテキストウィンドウが必要であるという事実、そしてキーボードとマウスによる正確な低レベルアクションを実行する能力など、これらの制限のいくつかをリストアップしていきます。
しかし再び、彼らはそれを真に汎用的なエージェントへの大きな一歩として、そして最終的にはこれらのシステムが具現化されうるロボティクスへの一歩として説明しています。
残念ながら、SIMA 2はその自己改善的な性質のために、選ばれた学術研究者と開発者への限定的な研究プレビューとしてのみリリースされますが、Googleは安全性テストに合格したらより広くリリースする予定です。
まとめ
ですので、それがGoogleの新しいブレークスルーであるSIMA 2について知っておく必要があるすべてです。
正直なところ、Googleは毎週爆弾を投下しているように感じます。さて、先週はNested Learningによる破滅的忘却の解決でしたが、今はAGIへの大きな一歩です。かなり驚異的です。
とにかく、皆さんがこれについてどう思うか教えてください。私は過剰に宣伝しているでしょうか、それとも私が見ているものをあなたも見ていますか?そしていつものように、ご視聴ありがとうございます。
この解説を楽しんでいただけたら、いいねを押してください。新しい方は購読ボタンを押してください。


コメント