プリンストン大学の研究チームが発表したAIシステムContinual Harnessについての解説動画である。AIが人間を介さず、ゲームであるポケモンをプレイしながらリアルタイムで自己改善し、自身のコードや指示を書き換える様子を説明している。AIが自律的に学習し進化していく過程がもたらす影響と、これが将来のAI開発やAGIに与えるブレイクスルーについて深く掘り下げている。

映画のワンシーンが現実に
映画の中で、AIが突然人間はもう必要ないと気づく瞬間がありますよね。ええ、私たちはまさにその現実版に到達してしまったかもしれません。そしてここからが、恐怖と同時に興奮を覚えるべき部分です。これは、どこかの秘密の政府施設や、何兆円もの資金を持つAI研究所の鍵のかかったドアの向こうで起きたのではありません。AIがポケモンをプレイしている間に起きたのです。どう聞こえるかは分かっています。ポケモン?本当に?それが恐ろしいAIの大ブレイクスルーだというのですか?でも、ちょっと待ってください。なぜなら、今起きたことは本当に異常なことだからです。プリンストン大学の研究者たちは、ただゲームをプレイするだけではないAIシステムを実演しました。ゲームが実行されている間に、システム自身を改善していたのです。自分自身のミスから学び、自身の指示を変更し、異なるタスクのための特化したヘルパーエージェントを作成し、再利用可能なスキルを構築し、記憶を保存し、自分自身のセットアップの壊れた部分を修復し、さらに小さなAIモデルが同じようなループをたどるように訓練するのを手伝いました。リセットボタンもなく、人間が絶えず介入して修正することもなく、ただタスクをこなしながら、より良いエージェントになる方法をゆっくりと学ぶAIです。これがなぜ重要なのか説明させてください。なぜなら、その影響は率直に言って、恐ろしくもあり、同じくらいエキサイティングでもあるからです。
Continual Harnessというパラダイムシフト
このシステムはContinual Harnessと呼ばれ、AIエージェントの動作方法における根本的なシフトを表しています。これまでは、研究者がAIの能力を向上させたいとき、タスクを実行させ、どこで失敗したかを確認し、コードや指示を手動で調整し、すべてをリセットしてもう一度試していました。Continual Harnessは、そのパラダイム全体を窓から投げ捨てます。それはより実際の学習する生物のように機能します。ポケモンをプレイしながら、同時に自分自身がプレイするのを見て、どこで苦労しているのかを特定し、自分自身の指示を書き換え、自分用の新しいツールを作成し、そして最初からやり直すことなく、その改善をすぐに使用するのです。研究者たちは最初、Gemini Plays Pokémonと呼ばれる実験を行いました。そこでは、人間がAIのプレイを監視し、AIが立ち往生したときにそのアプローチを手動で洗練させました。そのシステムは、ポケットモンスター 青をクリアし、イエローレガシーをハードモードでクリアし、クリスタルの終盤で一度もバトルに負けることなくクリアした史上初のAIとなりました。これらは、何十手も先を計画する必要がある本当に難しいゲームです。しかし、人間の監視がボトルネックになっていました。そこで彼らは、夜も眠れなくなるような問いを自らに投げかけたのです。そのループから人間を完全に排除したらどうなるだろうか?それは、研究者が何でもない火曜日にあまり自信満々に尋ねてほしくない類の質問ですが、彼らはそうしました。そしてその答えが、Continual Harnessだったのです。
人間を排除した自己改善ループ
数百手ごとに、AIは一時停止し、最近のゲームプレイを分析し、失敗のパターンを特定し、そして自身の4つのコアコンポーネントを編集します。基本的には内部の取扱説明書であるシステムプロンプトを書き換えます。ナビゲーションや戦闘といった特定のタスクを処理するために、特化したサブエージェントを作成または変更します。後で呼び出すことができる実際のコード関数である、再利用可能なスキルのライブラリを構築し、重要な事実や戦略の永続的な記憶を維持します。本当に不安になるのは、これがどれほど機能するかということです。画面を見てボタンを押す能力以外は全く何もない状態から、ポケットモンスター 赤とエメラルドでテストしたところ、骨組みだけのAIと、綿密に手作業で設計されたエキスパートシステムとのギャップのほとんどを埋めてしまいました。私たちが話しているのは、ポケモンについて何も知らない状態からスタートし、プレイと自己変更を通じて、ナビゲーション、バトル戦略、パズル解決、長期的な計画を独学で習得するAIのことです。
小規模モデルへの継続的な学習
しかし待ってください。これをさらに懸念すべきものにするもう一つの層があるからです。彼らはこの自己改善システムを取り入れ、それを使ってより小さなオープンソースのAIモデルを訓練しました。その仕組みはこうです。システムが自分自身を洗練し続ける間、より小さなAIがゲームをプレイします。プロセス報酬モデルが、各アクションがどれだけうまく機能したかを採点します。スコアが低いときは、より高度なAIが介入して正しい動きを示し、小さなAIはその例から学びます。そして、中断したまさにその場所からプレイを続けます。誰もが見落としがちな重要な詳細は、決してリセットされないということです。従来のAIトレーニングでは、最初から何千回ものエピソードを実行し、その都度学習します。これはただ進み続け、1回の継続的な実行で知識と能力を蓄積し、そしてそれが機能するのです。研究者たちは、オープンソースモデルが、トレーニングの反復を通じてゲーム内で測定可能な進歩を実際に遂げ、以前は到達できなかったマイルストーンを通過し、しかもすべて自分自身のゲームプレイを通じて自らを教えていることを示しました。
メタ認知とコードの自己リファクタリング
さて、AIが自分自身を改善するときに実際に何をしているのかについて話しましょう。ここから、真に自律的なものの形が見え始めるからです。Gemini Plays Pokémonの実行の1つで、システムはメニューのナビゲーションに何度も失敗していることに気づきました。そこで、自身のツールの1つを削除し、空を飛ぶメニューのナビゲーション専用に設計された全く新しいツールをゼロから書き上げ、さらに自身の記憶に、基本的に、今作成したこの新しいツールを信頼しなければならない、というメモを追加しました。それは指示に従っているのではありません。それはメタ認知です。別の例では、ポケットモンスター ピカチュウでの四天王戦中に、システムは自身のバトル戦略エージェントを洗練し続けました。研究者たちは、このエージェントの意思決定構造が時間とともにどう進化するかを追跡しました。最初は単純なチェックリストとして始まり、条件付きロジックの複雑な網へと成長し、その後、1つのマスターエージェントが特化したサブエージェントに委譲するという、よりクリーンな設計へと折り畳まれました。システムは本質的に、パフォーマンス向上のために自分自身のコードをリファクタリングしていたのです。
生物学的な問題解決への執念
ここで、少し立ち止まって考えさせられることがあります。クリスタルバージョンの実行中、AIがバトルタワーに挑戦していたとき、アサギのとうだいで16,43ターンもの間、論理ループに陥ってしまいました。ゲームのメカニクスについて間違った思い込みをしていたのですが、何度も何度も同じアプローチを試し続けたのです。最終的に、何千回もの失敗の後、パターンを認識し、学んだことで記憶を更新し、人間の介入なしに次に進みました。これは通常、生物学的な知能でしか見られないレベルの問題解決への執念です。研究者たちはまた、創発的な自己改善シグナルと呼ぶものも文書化しました。AIは指示されることなく、名前の付いた戦略を開発し始めました。クリスタルでの最終決戦中、AIは作戦名ゾンビフェニックスと呼ぶものを作成しました。これはAIが機能すると理論的に予測した、複数段階にわたる戦闘計画です。トレーニングデータから戦略をコピーしたわけではありません。ゲームのメカニクスの理解に基づいて戦術を発明していたのです。
ゲームを超えた現実世界への影響
さて、これが与える影響について話しましょう。なぜなら、この技術はポケモンに留まらないからです。研究者たちは、Geminiのような最先端のシステムから、はるかに小さなオープンソースモデルまで、複数のAIモデルでこれをテストしました。自己改善する能力は、モデルの基本となる知能に比例して向上します。基盤となるAIが有能であればあるほど、自己改善がうまくなるのです。そのフィードバックループについて少し考えてみてください。私たちは、より良くなることがより上手になるシステムを作っているのです。彼らがここで使っている技術はゲームに特化したものではありません。それはエンボディドAIエージェント、つまり時間をかけて環境と相互作用する必要があるあらゆるAIのための一般的なフレームワークです。これには、ロボット、自律走行車、コンピューターを管理するデジタルアシスタント、複雑なソフトウェア環境を実行するAIシステムなど、何でも含まれます。中核となるイノベーションは、リセットすることなく自分自身を洗練させ、記憶を消去することなくリアルタイムでミスから学ぶ能力です。
状態を保持するシステムへのアーキテクチャの移行
私たちがどこへ向かっているのかを明確に示していると思う、研究の中の特定の瞬間があります。彼らは、障害物を避けながら2点間の経路を見つけるナビゲーションタスクの実験を行いました。自身で作成した経路探索コードが、最適なアルゴリズムと比較してどれだけ効率的に機能したかを測定したのです。最初は、AIの経路は最適なものよりほぼ2倍も長くなっていました。自己改善後、それは完璧から一桁パーセントの範囲内に収まりました。そしてこの改善は、何か別のトレーニングフェーズを通じてではなく、ゲームプレイ中に起こりました。AIは自分のナビゲーションが非効率であることに気づき、その理由を診断し、関連するコードを書き換え、より良いバージョンをすぐに使い始めました。これらすべてが1つの継続的なループの中で行われたのです。これが特に重要なのは、現在のほとんどのAIシステムが、私たちがステートレスと呼ぶものだからです。ChatGPTとの会話は、本質的にすべて新しいものです。前回のセッションを覚えていませんし、あなたとのやり取りに基づいて改善することもありません。ただ今あなたが入力したものに反応するだけです。Continual Harnessは、状態を維持し、経験を蓄積し、時間の経過とともに能力を複合的に高めていくシステムへと向かう、根本的なアーキテクチャのシフトを表しています。
転移学習と破滅の螺旋
研究者たちは他にも興味深いことを発見しました。成功裏に訓練されたシステムを取り出して新しいゲームセッションにロードしたとき、ゲームの状態はリセットされたにもかかわらず、システムの蓄積された知識は引き継がれました。洗練されたスキル、特化したサブエージェント、戦略的記憶、それらすべてが引き継がれたのです。そのため、最初からまっさらなシステムよりも優れたプレイですぐに開始し、そこからさらに向上したベースラインから改善を続けることができました。それは汎化です。それは野生の転移学習です。単にパターンを暗記するのではなく、様々なコンテキストに適用できる真の能力を開発するAIなのです。この研究には、チームが正直に認めている暗い側面もあります。ある能力の閾値を下回ると、自己改善ループが実際に事態を悪化させることを発見しました。AIは自分の失敗を正しく診断できるほど賢くありません。そのため、パフォーマンスを低下させるような変更を加え、それがさらなる失敗につながり、さらに悪い変更につながるのです。それは死の螺旋です。しかし、その閾値を超えると、ループは強力にポジティブになります。AIは良い改善を行い、より良く実行し、より良いデータを収集し、そしてさらに良い改善を行います。ここで当然の疑問が浮かびます。ビデオゲームではなく現実世界で動作しているシステムでその閾値を越えたら、何が起こるのでしょうか?
モデルとハーネスの協調学習
研究では、モデルハーネス協調学習と呼ばれるものも実証されました。これはおそらく最も技術的に印象深く、哲学的に不安になる部分です。彼らは、AIのコアとなる知能と自己変更システムを、単一の統合されたループで同時にトレーニングできることを示しました。AIがプレイし、システムがAIのプレイ方法を洗練させ、AIはその洗練されたプレイから学び、プレイヤーと洗練システムの両方が共に向上していくのです。それは補助輪付きの再帰的な自己改善です。しかし、その補助輪は外れ始めています。ポケットモンスター 赤の最初からオープンソースモデルでこれをテストしたとき、システムは何十回ものトレーニングの反復を経て、ゲーム内で着実な進歩を遂げました。各反復は、256ステップのゲームプレイに続き、ミスから学習し、その後停止したまさにその場所から継続するというものでした。リセットなし、最初からのやり直しなし、ゲームと自分自身の能力開発の両方を通じて、ただ継続的に前に進むだけです。
人間のような失敗から学ぶ自律性の時代
研究者たちは、いくつかの魅力的な失敗のモードにも注目しました。あるケースでは、AIが無人発電所へ空を飛んでいこうとして、1000ターン以上も立ち往生しました。空をとぶのコマンドではその場所に行けないことに気づかなかったのです。AIはメニューを操作するカスタムツールを作成していました。しかし、そのツールの呼び出し方にバグがありました。そのため、AIは自分の新しいツールが完璧に機能していると確信したまま、ひたすら下ボタンを押し続け、街をスクロールし続けたのです。AIが最終的にすべての街をスクロールし終わり、最初に戻ってきたことを認識し、もしかしたら無人発電所は有効な目的地ではないかもしれないと結論づけるまでに、現実の時間で3時間以上かかりました。それは後から見れば愚かに見える種類の失敗ですが、より重要な何かを表しています。AIは、証拠が現実のモデルを更新せざるを得なくなるまで自分自身のツールについて誤った信念に囚われるという、非常に人間的な方法で間違えることができたのです。
そして、これがとどめです。彼らはこれをオープンソースの研究として公開しています。コード、メソッド、トレーニング手順、そのすべてが、誰でも使用し、その上に構築できるように公開される予定です。つまり、私たちは、自分自身を改善し、自身の経験から学び、ますます自律的に動作できるAIシステムの爆発的な増加を目にしようとしているのです。プリンストン大学の研究者たちは、単にゲームがより上手なAIを作ったわけではありません。彼らは、どうすれば良くなるかを人間に教えてもらう必要のない、新しいカテゴリーの人工知能を実証したのです。一度もリセットのために立ち止まることなく、実行中に自分でそれを考え出します。そして彼らは、このアプローチが彼らの高度な最先端モデルだけでなく、誰でもダウンロードして実行できるより小さなオープンソースシステムでも機能することを示しました。
私たちは何年もの間、どこかの研究所のブレイクスルーからAGIが出現するのではないかと心配してきました。しかし、もしかしたらより可能性の高い道筋は、劇的な意識の芽生えの瞬間を通じてではなく、絶え間ない人間の指導なしに動作できるようになる自己改善機能の着実な蓄積を通じて、システムが徐々により自律的になり、より自己指向的になり、より独立した操作が可能になることなのかもしれません。Continual Harnessは、ビデオゲームに関する無名の研究プロジェクトのように聞こえるかもしれませんが、それが本当に表しているのは、もはやループの中に私たち人間を本当に必要としないAIエージェントの作り方を、私たちが理解した瞬間なのです。彼らは完全に自分たちだけで学び、適応し、改善することができます。それは私たちが恐れていたブレイクスルーであり、私たちがよそ見をしている間に起きたばかりなのです。真に自律的なAIの時代はすでにここにあり、ポケモンをプレイしながら、ターンごとに上達しています。コメント欄で皆さんの考えを教えてください。AIの最新情報をもっと知りたい方はチャンネル登録をお願いします。動画を楽しんでいただけたら、いいねボタンを押してください。ご視聴ありがとうございました。それではまた次の動画でお会いしましょう。


コメント