Google曰く「これはAGIへの重要な一歩である」| SIMA 2

Google DeepMindが発表したSIMA 2は、人間と同じようにキーボードとマウスを使ってビデオゲームをプレイし、学習・適応できるAIエージェントである。前身のSIMA 1から大幅に進化し、Geminiモデルを中核に据えることで、複雑な指示の理解、自己推論、そして自己改善能力を獲得した。特筆すべきは、未見のゲーム環境での汎化性能が飛躍的に向上した点で、タスク完成率は31%から65%へと倍増し、人間の76%に迫る水準に達している。さらに、Genie 3が生成する無限の仮想世界でトレーニングできる仕組みにより、自己教師あり学習による継続的な成長が可能となった。この技術は単なるゲームAIにとどまらず、現実世界のロボティクスへの応用を見据えた「AGIへの重要な一歩」として位置づけられており、デジタル環境で獲得したスキルが物理世界のロボット制御に転用される未来を示唆している。

Google quote "this is a significant step towards AGI" | SIMA 2

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

SIMA 2:人間のようにゲームをプレイするAI
SIMA 1からSIMA 2への進化
Geminiモデルによる推論能力の獲得
人間のベースラインに迫る性能
未見のゲームでの汎化能力
Genie 3との統合による無限の学習環境
自己改善能力と継続的学習
課題と今後の展望
ロボティクスへの応用

SIMA 2:人間のようにゲームをプレイするAI

今皆さんが見ているのは、人間がゲームをプレイしている様子ではありません。これはAIエージェントです。Google DeepMindのSIMA 2というシステムです。過去にボットがゲームをプレイする様子を見たことがあるかもしれませんが、これは全く違います。SIMA 2は学習し、理解し、改善し、そして適応することができます。ゲームについて説明することもできます。

これを実現できるのは、皆さんや私と同じように、キーボードとマウスを使い、画面上で実際に展開されるゲームプレイを見ながら、実際にゲームをプレイしているからです。SIMA 2は、少なくともビデオゲームのプレイを学習するという点において、人間の学習方法に最も近いシステムだと言えるでしょう。

なぜこれらのAIがビデオゲームのプレイを学習することが重要なのか、疑問に思うかもしれません。なぜ仮想世界でプレイすることを学ぶことが重要なのでしょうか。それは良い質問です。こう考えてみてください。

このAIが、与えられた新しいゲームをプレイするだけでマスターすることを学んだとしましょう。プレイして、時間が経つにつれて、Minecraft、Battlefield、レーシングゲーム、シミュレーションゲーム、戦略ゲームなど、どんなゲームでも本当に上手になります。いつかDwarf Fortressでも本当に上手になるかもしれません。ちなみに、それはAGIのマイルストーンです。

しかし重要なのはこういうことです。このAIが1000個のゲームをマスターしたとします。その場で様々なゲームのプレイを学習できるそのデジタル脳が、実際の物理的なロボットに搭載されるのです。AIにとって、これは単にゲーム番号1001に過ぎません。

AIは依然としてゲーム世界からのピクセルを知覚していますが、3Dでレンダリングされる代わりに、現実世界を見ているカメラからの映像になります。モデルにとっては、依然として単なるピクセル入力です。依然として何らかのキーボードやジョイスティックコマンドを送信しますが、ゲーム内のキャラクターを動かす代わりに、現実世界のロボットを動かすのです。

このAIがビデオゲーム間で汎化できる、つまり人間と同じように、あるゲームから別のゲームにスキルが転移できるなら、それらすべてのスキルは現実世界にも転移します。

もちろん、GTAのルールと現実世界の運転のルールは異なることを理解させる必要があります。もちろん、ロサンゼルスにいる場合は別ですが、その場合は驚くほど似ています。

SIMA 1からSIMA 2への進化

Google DeepMindがSIMA 2をリリースしたばかりです。これは非常にエキサイティングなプロジェクトです。以前このチャンネルでSIMA 1を取り上げましたが、それ以来の進歩は本当に素晴らしいものがあります。今ははるかに、はるかに良くなっています。

では、簡単に説明します。これはSIMA 1の論文からの引用です。まず理解すべき最初のことは、これらのAIは皆さんや私と同じようにゲームをプレイしているということです。キーボード、マウス、ジョイスティックを使っています。画面上の実際のピクセルを見ています。

ここに私たちの小さなSIMAエージェントがいますね。キーボードとマウスで様々なアクションを取り、それが環境と相互作用します。視覚的な入力を受け取っています。これが環境と相互作用するループのようなものです。繰り返しますが、これは人間でも同じです。キーボードとマウスを使ってゲームをプレイし、画面を見て、環境はそのゲームです。

もう一つの部分は、ユーザーが言語による指示を与えることです。例えば「家を建てに行け」「木を切りに行け」などと言います。そして、キーボードとマウスをどれだけうまく使えるか、画面を見てどれだけうまくそのタスクを実行できるかで評価されます。ちなみに、これがSIMA 1でした。

これは彼らの技術レポートからの引用です。SIMA 2の技術レポートはまだ完全には公開されていませんが、公開されたらおそらく取り上げるでしょう。SIMA 1以来、彼らが何をしたのかぜひ見てみたいですから。

この小さなAIが、様々なゲームでできる異なる活動や異なるスキルを、これらのカテゴリーと特定のスキルに整理している様子に注目してください。これは多くのゲームにまたがっています。農業、建設、乗り物の操作などのカテゴリーがあります。そしてその下に、周りを見る、運転する、キックする、餌をやる、物を取り付ける、装備する、起動するなどの特定のスキルがあります。

これが重要なのは、時間が経つにつれて、ゲームからゲームへと引き継がれる汎用的なスキルが生まれるからです。

SIMA 1では、これらの能力が出現し始めるのを見ることができました。このAIエージェントに宇宙船に行くように指示すると、宇宙船に向かって移動します。非常に基本的な移動です。ここでは木を切り倒すタスクがあります。それを実行できます。車を運転する。車に近づいて乗り込みます。これは2024年3月13日にリリースされました。

そして今は2025年11月13日です。AI年で言えば、かなりの時間が経過しました。今、私たちはSIMA 2を手にしています。

Geminiモデルによる推論能力の獲得

まず第一に、Geminiモデル上で動作していることに注目してください。Geminiモデルの汎化能力と、特別にトレーニングされていなくても特定のかなりエキサイティングなスキルを持っている点は、驚くべきものです。

これは非常に汎用的なモデルで、幅広いタスクをこなすことができます。そしてこれは、できることの多くの多くの異なるアプリケーションの一つに過ぎません。SIMA 2では、仮想世界で人間の言語による指示に従えるだけでなく、SIMA 1ですでにそれが始まっていましたが、SIMA 2は今や自分の目標について考え、ユーザーと会話し、時間とともに自己改善することもできます。

これはAGI、汎用人工知能の方向への重要な一歩です。そして冒頭で述べたように、これはロボティクスと一般的なAIのエンボディメントに大きな意味を持ちます。

一部の人々は信じていますし、私も彼らを信頼する傾向がありますが、将来的には動くものはすべて自動化されるでしょう。芝刈り機、バス、車など、家の中を動き回るものも、すでにルンバなどの形で動く掃除機がありますが、基本的に周囲を動き回り、センサーを持ち、環境と相互作用する必要があるものはすべて、何らかのAIモデルによって自動化されるでしょう。

また、一部の人々が期待しているのは、例えば芝刈り機と飛行機を操縦するものに、必ずしも2つの別々のモデルを持つ必要はないということです。それぞれのユースケースに特注のモデルを持つわけではありません。

一種の普遍的なモデルを持つことになるでしょう。そのモデルはどこから来るのでしょうか。おそらく、その非常に初期のプロトタイプを今見ているのです。このようなものが多くの異なるゲームでプレイし、推論し、学習できるなら、最終的には改善を続け、学習を続けるにつれて、ロボットを操縦したり、飛行機を操縦したり、芝を刈ったりできるようになるかもしれないことは確かに理解できるでしょう。

人間のベースラインに迫る性能

ここで述べられているのは、SIMAの最初のバージョンは、左に曲がる、はしごを登る、地図を開くなど、600以上の言語に従うスキルを学習し、多様な市販のビデオゲームでそれを実行したということです。これらの環境で人がするように動作し、画面を見て、仮想のキーボードとマウスを使ってナビゲートし、基盤となるゲームメカニクスにはアクセスしませんでした。

これを理解することは重要です。なぜなら、過去にAIモデルによる非常にエキサイティングなパフォーマンスを見てきたからです。OpenAI Fiveですね。Dota 2で世界チャンピオンを倒すAIモデルです。もちろん、誰もがAlphaStarを覚えています。マルチエージェント強化学習を使用したStarcraft 2でのグランドマスターレベルです。

重要なのは、これらのボットは実際には皆さんや私と同じ方法でゲームと相互作用していないということを理解することです。繰り返しますが、キーボードとマウスではありません。彼らはAPIを通じてプレイしています。NvidiaのMinecraft Voyagerも同じです。印象的ではありますが、視覚を持っていません。これを見ていません。画面のどこかをクリックしていません。周りを見回していません。APIを使用しています。非常にテキストベースです。

それでも異なる理由で信じられないほど印象的ですが、この区別を理解することは極めて重要です。これは最初は大したことではないように思えるかもしれませんが、これは巨大なことです。マウスとキーボードを通じてゲームやコンピュータと相互作用するこの能力は比較的最近のことで、少なくとも効果的にそうする能力は。それを見始めたのは今年からです。Claudeのコンピュータ使用、OpenAIのAtlasなど、そういったものです。

それらはまだ素晴らしいとは言えませんが、役に立つレベルになってきています。実際にタスクを完了できます。Google DeepMindがここで述べているように、SIMA 2では、エージェントのコアとしてGeminiモデルを組み込むことで、単なる指示に従うことを超えました。SIMA 2は単に指示に応答するだけでなく、それについて考え、推論することができます。

SIMA 1を読んでからしばらく経ちますが、これはGeminiではなかったと思います。大規模言語モデルではなかったと思います。より単純な強化学習AIエージェントで、最初は人間のデータを使ってプレイ方法を教えていました。SIMA 1のアプローチは、行動クローニングによる大規模なエージェントに依存していました。

人間が生成したデータに基づく、観察からアクションへのマッピングの教師あり学習です。人間のゲーマーがプレイし、彼らが使用したキーボードとマウスのコマンドがログに記録されます。ビデオ、言語による指示、対話などがありました。ここでは、Geminiモデルをコアとして使用しており、これもまた、これらの大規模言語モデルがいかに汎用的であるかという理由で、非常にエキサイティングな理由の一つです。

ここに注目してください。左側がSIMA 1、右側がSIMA 2です。ユーザーは「上と少し左の洞窟に行って、石炭を掘るために採掘して」と言います。SIMA 1はあまりうまくいっていません。苦戦しています。SIMA 2は推論しています。「わかりました。石炭を見つけるために上と左の洞窟に向かいます」。内部で石炭を見つけます。採掘を始めます。つまり、はるかにはるかに良く、はるかに効果的に行っています。これは素晴らしかったです。

一瞬ブロックから滑り落ちます。しかし、全体的には、ミッションを非常に非常に迅速に完了します。これは大きな飛躍です。

ここも同じです。左側がSIMA 1、右側がSIMA 2です。キャンプファイアを見つけてください。ここでは行き詰まっています。森の中をさまよっています。正しくできませんでした。

SIMA 2は周りを見回し、キャンプファイアを見つけて、近づきます。完璧です。うまくいきます。

ここで述べているように、SIMA 2の新しいアーキテクチャは、Geminiの強力な推論能力を統合して、ユーザーの高レベルの目標を理解し、複雑な推論と追求を実行し、ゲーム内で目標指向のアクションを巧みに実行するのを助けます。

ここに一つあります。ユーザーが「あなたはどこにいますか」と尋ねます。Geminiモデル、このエージェントは、どの惑星にいるかを説明します。「ここで何をしているのですか」と尋ねられます。ストーリーラインが何であるかについて何らかの考えを持っているようです。「周りを見回せますか。何が起こっていますか。あの卵型のオブジェクトをチェックしてください」。それに近づきます。オブジェクトをスキャンして、それが何であるかを報告します。

「それらを採掘できますか」。はい、行って採掘します。これは明らかにゲームへの素晴らしい理解を示しています。環境を視覚的に説明する能力だけでなく、私はそのゲームをプレイしたことがないのでわかりませんが、ストーリーラインを知っているようです。おそらくストーリーラインに関連して、その惑星で何をしているのかを述べているからです。

それから、私たちはその卵の名前を知らないので、「ああ、それは卵のようなものだ」と言うだけですが、何について話しているのかを理解し、近づき、スキャンします。採掘するように言われると、採掘します。これは1年半前と比較して非常に高度です。

ここでは、トマトの家に行くように指示することで、やや難しいタスクを与えます。問題はこれです。実際にはトマトの家はありません。私たちの小さなAIエージェントは、このユーザーはおそらくこの赤い家を意味しているのだろうと正しく推論します。

要するに、汎化性能において大きな飛躍があったということです。SIMA 2は、前身よりも複雑で微妙な指示を理解でき、それを実行することにはるかに成功しています。

未見のゲームでの汎化能力

そして、これが理解すべき大きなことです。特にトレーニングされたことのない状況やゲームにおいてです。つまり、ゲーム間で汎化します。以前に見たことのないものをより適切に扱えます。

また、マルチモーダル入力も可能です。例えば、これをスケッチしたとします。「このスケッチしたものを見つけに行って」と言います。ゲーム世界でそのオブジェクトを見つけることができます。何について話しているのかを理解しています。異なる言語や絵文字さえも理解します。

そして重要なことに、言葉間で汎化できます。Geminiは強力な言語モデルです。正確な言葉を使わなくても、何を意味しているのかを理解できます。

何かを収穫するように指示した場合、採掘するとか切り倒すとか言う代わりに、何を意味しているのかを理解し、汎化して必要な道具を手に入れ、何をする必要があるかを推論して、そのことを実行します。AIチャットボットと話したことがあって、使いたい言葉をはっきり覚えていなかったので、最良の可能な言葉で代用したことがあれば、それでも理解してくれます。

必要最小限のコンテキストがある限り、理解してくれます。

これで、この論文、このプレゼンテーションの最も重要な部分にたどり着きます。それはタスク完了成功率です。

ご覧のとおり、あの点線が人間のベースラインです。人間がゲームで特定のタスクを実行するように求められた場合、少なくともこのベンチマークでは、75%をわずかに上回る成功率です。

この点で、SIMA 1はそれほど良くありませんでした。76が人間のベースラインだとすると、31でした。つまり、それがいた場所と人間がいる場所との間には、まだ非常に大きく顕著なギャップがありました。昨年は、人間が明らかにビデオゲームをプレイすることにおいて優れていました。私たちと私たちの対向性親指に万歳です。

そして今年、2025年、私たちはまだ優れていますが、はるかに近づいています。AIは急速に追いついています。31から65に上がりました。人間は76%、75%をわずかに上回っています。

ちなみに、このチャートは、現在のAI能力に関する議論を一つの画像で本当に示していると思います。あるAIモデルが登場し、人間ほど良くありません。人間が明らかに優れています。

すると人々は「ああ、私たちがとても得意なそのことをするのがどれほどひどいか見てください。明らかにAIは悪く、人間と同じくらい良くなることは決してないでしょう」と言います。そして、12ヶ月から18ヶ月が経過し、ここに到達します。そしてそれらの人々は、まだ「ああ、でもまだ人間の方が優れている」と言っています。私たちはまだ希望にしがみついています。

希望にしがみついているのです。これが現在起こっている多くのAI進歩に関する会話です。人々が理解できていないのは、この線をこのように引いたらどうなるかということです。物事がどこに向かっているかを予測して、数年後にはどうなっているでしょうか。

この積が人間のベースラインのすぐ下で止まると思いますか。私たちはそれほど特別ですか。私たちの能力はそれほど魔法のようなものですか。機械が決して越えることのない硬い線があると思いますか。

以前に観察した他のスキルでは実際には起こっていないことに注目してください。2012年には画像分類において人間より劣っていました。そして進み、進み、進み、人間のパフォーマンスラインを越えて、さらに進み続けます。もうあまり進む余地はないかもしれません。正しく理解しているか、そうでないかのどちらかです。

しかし重要なのは、これらのどれも人間のパフォーマンスの直前で横ばいになることはないということです。人間のパフォーマンスに漸近線はなく、機械がその線を越えられないということはありません。それを突き抜けていきます。

人々がAIは人間ほどこれをうまくできないと言うとき、彼らはこの特定のことについてここで話しているのであり、それが越えると、話すのをやめて、AIがまだ人間ほどうまくできない次のことに移ります。そしてそのことが人間のパフォーマンスラインを越えると、次のことに移ります。

SIMA 2はキーボードとマウスを使って人間ほどうまくゲームをプレイできません。それは本当です。SIMA 3ができないと賭けますか。SIMA 4はどうですか。

また、以前に見たことのない環境でどれだけうまくパフォーマンスするかの大きな飛躍にも注目してください。

SIMA 1からSIMA 2へ、人間がラベル付けしたデータで開始された強化学習エージェントであるSIMA 1は、以前に見たことのない環境ではそれほどうまくいきませんでした。成功率は2%か3%、おそらく2.5%程度でした。Minecraftはゼロに近かったです。

そしてここでSIMA 2では、成功率が、おそらく14%、13%ほどに跳ね上がります。誰かが新しいオペレーティングシステムや新しい電話、これまで使ったことのない何らかのテクノロジーを操作するのを見たことがあれば、彼らの成功率は最初は低く、そのテクノロジーを使い続けると徐々に上がっていくかもしれません。

これが人間に期待することとそれほど異なるとは思いません。つまり、SIMA 2は人間が示すと期待される行動や能力により近く、SIMA 1はそれほど汎化できないようです。

Genie 3との統合による無限の学習環境

しかし、ここで大きなことにたどり着きます。このブログ投稿の後半に向けてのことで、ある意味リードを埋めています。Genie 3を思い出すかもしれません。

Genie 3は、特定の画像や説明に基づいて完全な新しい世界を作成でき、それらの世界を歩き回り、移動することができます。かなり良い見た目です。現実世界のショーホースイベントがあります。一般的に右側にスキーとジャンプ、海岸の崖の上を飛ぶヘリコプターなどが見えます。

周りを見回すことができ、その世界内を移動できます。世界で何が起こるかを記憶する驚くべき能力があります。壁にペイントして、どこかを見て、また戻ると、そのペイントは一貫して残っています。その世界は一貫しています。まだそこにあることに注目してください。

Genie 3のようなGenieモデルは、基本的にゲームをその場で生成できます。リアルタイムで夢見ることができ、コントローラーを使ってそれらのビデオゲームで移動できます。どんな画像や説明もプレイ可能な世界になれます。

例えば、これはGenie 3Dの生成です。プロンプトは「幻想的な風景の中の活気ある虹の橋を飛び跳ねる、活気ある3Dスタイルの愛らしいふわふわした生き物」です。

小さくコンパクトな生き物で、日の出の暖かい色合いを模倣した毛皮を持っています。オレンジ、黄色、ピンクがシームレスに混ざり合っています。最も印象的な特徴は、ジャーマンシェパードのような形をした大きく立った耳のペアです。延々と小さな浮島、風景、明るく陽気な照明などを説明しています。

矢印キーを使って世界を移動していることに注目してください。Genie 3は、左、右、上、下を押したときに現実的に何が起こるかを示します。

Genie 3はその場で全体の世界を作成し、その中を移動できます。では、SIMA 2がそれとどう適合するか推測してみてください。これらの新しく生成された世界でプレイするようにSIMA 2に挑戦したとき、賢明に方向を定め、ユーザーの指示を理解し、目標に向けて意味のあるアクションを取ることができることがわかりました。

これまでそのような環境を見たことがないにもかかわらず、前例のないレベルの適応性を示しました。

この小さな蝶が飛び回っているのに注目してください。「ここに向かって。この花に行って」と言えます。そして行きます。

自己改善能力と継続的学習

簡単に言うと、このAIエージェントSIMA 2はゲームをプレイします。ゲームをプレイすると、ゲームのプレイが上手になります。ある種の自己改善が起こっています。Genie 3は基本的に、大規模言語モデルが書ける単純なプロンプトから無制限のゲームを生成できます。つまり、基本的に無制限の無限の世界があり、その場で入れ替えることができます。

異なる世界でトレーニングを受けているこのAIは、無制限の量の世界への無制限のアクセスを持っています。

これが、SIMAとGenieが一緒になることが大きな問題である理由です。ちなみに、これらのテクノロジーを構築していたのは偶然ではありません。2つの別々のプロジェクトを開発して、「ああ、これらはかなりよく合うようだ」と言ったわけではありません。おそらくそうではなかったでしょう。

このゲーム全体は基本的にこれです。シミュレーションで実行されるAIエージェントが、ただどんどん良くなっていく。これが魔法の公式です。AIプラスシミュレーション。AIは脳であり、シミュレーションはその脳を改善するデータです。その非常に初期の概念がここで形になっているのを見ています。

Google DeepMindは続けています。スケーラブルなマルチタスク自己改善に向けてと述べています。SIMA 2の最もエキサイティングな新機能の一つは、自己改善能力です。トレーニングの過程で、SIMA 2エージェントは、試行錯誤とGeminiベースのフィードバックによってブートストラップされた、ますます複雑で新しいタスクを実行できることを観察しました。

例えば、SIMA 1のように人間のデモンストレーションから最初に学習した後、ちなみに、これらの詳細の一部は私が間違えているかもしれません。技術レポートがまだ公開されていないので。公開されたら更新します。これらのいくつかについて、アーキテクチャが正確にどうなっているかを指定するかもしれません。

しかし彼らが述べているのは、SIMA 2は人間のデモンストレーションから、人間が生成した追加データなしに、自己指向的なプレイを通じてのみ新しいゲームでの学習に移行できるということです。以前に見たことのない世界でスキルを開発しています。

その後のトレーニングでは、SIMA 2自身の経験データを使用して、次のさらに有能なバージョンのエージェントをトレーニングできます。

新しく作成されたGenie環境でのSIMA 2の自己改善能力を活用することさえできました。これは、多様な生成された世界全体で汎用エージェントをトレーニングするための主要なマイルストーンです。

ここにその図があり、かなり狂ったように見える図です。これがGeminiモデルです。エージェントであることに注目してください。ゲームをプレイするものです。キーボードとマウスを使い、世界、環境と相互作用し、何が起こるかを見ています。

また、別のインスタンス、異なるコピーもタスク設定者です。ユーザーが「これをやれ、あれをやれ、木を切れ、家を建てろ、スキルを磨けなど」と言っているのです。実際の世界でアクションを取るエージェントにタスクを設定しています。

そしてもちろん、報酬モデルがあります。それを評価し、どれだけうまくやっているかを伝えるものです。そして、それを実行しているのは何でしょうか。Geminiです。そうです。Geminiが良くやったと悪くやったと言い、報酬を調整して、これらのことが前進していることを確認します。これが自己生成された経験を作り出します。

ちなみに、これはおそらく人間の脳の働き方とそれほど異ならないでしょう。タスク設定者であるあなたが自分に「さあ、ベッドから出てジムに行け」と言う経験をしたことはありますか。そのアクションを実行するはずのエージェントに言います。エージェントは「いや、ここは暖かい」と言います。あなたは「いや、真剣に、起きてジムに行け」と言います。エージェントは「いや、外は寒い。ここは暖かい。朝の5時だ」と言います。

そこに2人いないと言えますか。それからジムに着くと、あなたの別の部分が「ああ、自分を誇りに思うべきだ。人生で正しいことをした」と言います。

ここで述べているように、この反復的改善の好循環は、エージェントが最小限の人間の介入で学習し成長できる未来への道を開き、エンボディドAIにおけるオープンエンドな学習者になります。

このチャンネルをしばらくフォローしているなら、かなり長い間これについて話してきました。過去には強化学習がありました。AlphaGo、AlphaGo Zero、AlphaCode、AlphaDev、AlphaGeometry、AlphaEvolve、AlphaGenomeがあります。AlphaFoldもどこかにあります。多くは強化学習で行われました。うまくやれば+1、悪くやれば-1を得ます。

彼らはまた、セルフプレイを利用しました。例えば、AlphaZeroやいくつかの他のモデルでは、人間のデータを使用せず、AI自体がセルフプレイして最初からすべてを学習すると、実際に人間よりもはるかに良くなることがわかりました。

しかし、これらはすべて狭いAIでした。チェスや囲碁や、トレーニングされたものが何であれ、それが得意でした。

その後、大規模言語モデルが登場しました。大規模言語モデルは異なっていました。一般的に知的だったからです。何を尋ねられても挑戦できました。時には非常にうまくいき、時には滑稽に失敗しましたが、すべてにある程度のスキルを持っていました。何でも試しました。

一般的に知的でした。そして、過去数年間話してきたことは、ゆっくりとこれら2つの異なる技術が重なり始めているということです。強化学習、セルフプレイ、それらのモデルから学んだすべての力をどのように取り入れ、これらの大規模言語モデルにそれに従事させて反復的に自己改善させるか、そして、これを示す多くの論文が異なるアプローチを示しています。

しかし、ここにおそらくこのようなオールインワンエージェントの最良の例の一つがあると思います。彼らは述べています。SIMA 2の多様なゲーム環境全体で動作する能力は、汎用知能の重要な実証の場であり、エージェントがスキルを習得し、複雑な推論を実践し、自己指向的なプレイを通じて継続的に学習できるようにします。

課題と今後の展望

彼らは、これがエキサイティングであるのと同じくらい、これらの大規模言語モデルが直面している多くの問題と課題があることを強調しています。非常に長期間のタスク、広範な複数ステップの推論と目標検証を必要とするものに問題があります。比較的短いメモリ、限定されたコンテキストウィンドウなどがあります。

そしてもちろん、特定のキーボードとマウスのインターフェースアクションを使用することは難しく、特に複雑な3Dシーンなどでは困難です。

ちなみに、短いコンテキストウィンドウやそれらの制限の多くの問題に対処する論文が多数あります。最近取り上げたGoogleのネステッドラーニング、継続的学習のための新しい機械学習パラダイムがあります。

ある種の短期記憶として見ています。非常に迅速に更新されますが、この種の長期記憶もあり、ゆっくりと進みますが、より重要なものだけを組み込みます。短期記憶はコンテキストウィンドウのようなものです。しかし、このモデル、これらの大規模言語モデルは、重要なものを自分の重みにバックアップする種類のものでもあります。

この種の長期記憶で継続的に自分自身を更新します。よりゆっくりと起こり、必要なものだけを取り入れます。しかし、私の理解では、それが彼らがここで話しているアプローチです。

ここでGoogleは、それを私たち自身の脳とその神経可塑性と比較しています。つまり、自己再組織化する能力、シナプスを更新する能力、言うなれば重みを変更する能力です。

ロボティクスへの応用

SIMA 2に戻ると、もちろんロボティクスがこれが非常に効果的である可能性がある分野です。SIMA 2は、ロボティクスでのアプリケーションへの強力な道を提供します。ナビゲーションやツールの使用から協調的なタスク実行まで学習したスキルは、念頭に置いてください。その大きな部分は、ユーザーからの指示を聞くこと、またはこの場合はGeminiの別のインスタンスからの指示を聞き、それらの指示を実行することです。それはそのアーキテクチャに組み込まれています。

それらのことは、物理世界でのこれらのロボットやAIアシスタントに必要な知能の物理的エンボディメントのための基本的な構成要素の一部です。

人々がビターレッスンに言及しているのを聞くかもしれません。これはRich Suttonという名前のAI研究者からの有名なアイデアです。彼の名前を聞いたことがあるでしょう。

平易な言葉で言えば、ビターレッスンは、長期的には、最も強力なAIシステムは、環境から、計算から、データから自動的に学習する方法から来るのであって、人間が巧妙なルールやドメイン専門知識を手動でコーディングすることからではないというアイデアです。

興味深いことに、私たちはこれらの遊び場を作り続け、AIに自己学習させ、自己プレイし、学習し、拡張させます。なぜなら、時間が経つにつれて、それは常に、ボットに何をすべきかを説明するために私たちが書く巧妙なスキームやスクリプトを打ち負かすように思えるからです。

とにかく、以前にも言いましたし、また言います。オンライン競技ゲームを楽しんでいるなら、それを本当に楽しんでください。なぜなら、非常にすぐに変わるかもしれないからです。SIMA 3のようなもののオープンソースバージョンを想像してみてください。それらはあなたのお気に入りの大規模マルチプレイヤーオンラインゲームすべてに入り、研磨し、スピードを上げ、リソースを収集し、おそらく他のプレイヤーとコミュニケーションを取り、彼らとチームを組んで協力してゲームをさらに進めることさえあるでしょう。

その時点で、彼らが他の人間プレイヤーよりもはるかに楽しく一緒にプレイできることに気づくかどうか疑問に思います。

とにかく、ここまで見てくれてありがとうございます。これについてどう思いますか。エキサイティングですか。これがロボティクスを解き放つと思いますか。これがロボットにたどり着くための大きなことになると思いますか。コメントで教えてください。

私の名前はWes Rothです。視聴していただき本当にありがとうございます。次回お会いしましょう。