LLMが自己改善するAIエージェントを作成してセトラーズ・オブ・カタンをプレイ

この動画は、大規模言語モデル（LLM）ベースの自己改善型AIエージェントが、複雑な戦略ボードゲーム「セトラーズ・オブ・カタン」をプレイし、時間とともに戦略を洗練させていく革新的な研究について解説している。複数の専門化されたエージェント（アナライザー、リサーチャー、コーダー、プレイヤー）が連携し、ゲームプレイを分析し、新しい戦略を研究し、コードを修正することで、長期的な戦略的一貫性という従来の課題を克服しようとする試みである。特にClaude 3.7とGPT-4oを使用した実験では、最大95%の性能向上を達成し、より優れたモデルほど自己改善能力も向上することが示された。

自律的自己改善AIエージェントの新たな研究
セトラーズ・オブ・カタンというゲームの複雑性
オープンソースのKatanatronフレームワーク
多エージェント構造の導入
Minecraft Voyagerの革新的アプローチ
研究の実験設定と結果
ゲームの特性と挑戦
4つのエージェントアーキテクチャ
実験方法とテスト環境
自己進化システムの仕組み
実験環境と使用モデル
実験設定とベースライン
結果発表
将来への示唆
進化の可能性と限界
結論と今後の展望

自律的自己改善AIエージェントの新たな研究

さて、また別の自律的自己改善AIエージェントに関する論文が発表されました。今回のエージェントはセトラーズ・オブ・カタンのプレイを学習しています。これは本当に素晴らしい研究です。

AIエージェントという用語をあまり好まない方がいることは承知していますし、おそらく最適な用語ではないかもしれませんが、現在のところ、より良い用語がありませんので、ここではこの用語を使用します。論文でもこの用語が使われています。

これらは大規模言語モデルベースのエージェントアーキテクチャです。つまり、大規模言語モデルを取り、その周りに足場を作り、ゲームをプレイし、コードを書き、メモを取るなどを可能にするアーキテクチャを構築しているのです。

このようなアプローチは非常に人気があります。これは基本的にGoogle DeepMindの大きな革命であるAlpha Evolveと同じです。Darwin Goal machineも非常によく似ており、自己改善するコーディングエージェントです。これは足場付きの大規模言語モデルと考えることができます。

ポケモンをプレイするLLMや、Minecraft Voyager、Minecraftをプレイして上達し、能力を向上させるために独自のコードを書いたAI game GPT-4なども同じことです。これらはすべて「LLM + 足場」という同じ概念で、足場とは基本的に私たちがエージェントをより良くするために提供するものです。ツール、コードを書く能力、何をすべきかを知るためのドキュメントなどを提供します。

セトラーズ・オブ・カタンというゲームの複雑性

これらのいくつかの結果は非常に良好で、ここではAIエージェントにセトラーズ・オブ・カタンのプレイを上達させることができるかというアプローチを見ています。

このゲームボードの様子はこのような感じです。これは非常に複雑なゲームで、少しの戦略、数学、交渉などが含まれています。実際には私はプレイしたことがありませんが、人々がプレイしているのを見たことがあり、非常に興味深く、多くの深みがあるように思えます。

この論文は「Agents of Change: self-evolving LLM agents for strategic planning」と題されています。言語モデルの最近の進歩により、様々なタスクにわたって自律エージェントとして使用することが可能になったというのは事実です。私たちはますます多くのそのような例を見ています。

しかし、問題があります。それらは一貫した長期戦略の策定と遵守に苦労し続けています。これらのAIエージェントが最初から本当に優秀で、人間レベルを超え、人間より良く、より速いという論文をよく見ますが、十分に長い時間が経つと、筋書きに沿い続ける能力が崩れてしまいます。それが長期的一貫性のアイデアで、それが崩れてしまうのです。

これは非常に興味深いアプローチです。なぜなら、戦略的計画能力に明示的に挑戦する環境に置かれたときに、これらの大規模言語モデルエージェントが自己改善できるかどうかを解明しようとしているからです。つまり、その長期的一貫性について、時間とともに悪化するのではなく、良くなる足場を作ることができるのかということです。

オープンソースのKatanatronフレームワーク

私たちはオープンソースのkatanatronフレームワークを使用してセトラーズ・オブ・カタンをプレイします。これは、このゲームをプレイするためのオープンソースの方法で、Pythonベースのオープンソースのもので、ゲームをシミュレートし、ゲームをプレイすることなどを可能にすると思います。

このような感じ、または少なくともターミナルではこのように見えます。これらのゲームをシミュレートすることができ、非常に迅速に実行されます。4人のプレイヤーがいるようで、ゲームを迅速に実行します。そのため、ボットにプレイさせることができます。

ここでのアイデアは、シンプルなゲームプレイエージェントから、独自のプロンプトとプレイヤーのエージェントコードを自律的に書き換えることができるシステムまで、LLMベースエージェントの進歩をベンチマークすることです。

多エージェント構造の導入

彼らはマルチエージェント構造を導入しています。アナライザー、リサーチャー、コーダー、プレイヤーがいて、これらが連携してゲームプレイを分析し、新しい戦略を研究し、エージェントのロジックやプロンプトを修正します。

興味深いことに、NvidiaのMinecraft Voyagerもこれに似ていました。当時GPT-4によって導入されており、これは本当に初期のもので、物事がどこに向かうかが明らかになる前のより心を奪うような論文の一つでした。Nvidiaがこれを発表したとき、彼らのAI研究者チームは本当に時代を先取りしていました。なぜなら、数年後の今、基本的にこのフレームワークに似ているが、より高度なモデルでより高度なものを多く得ているからです。

ここで興味深いのは、これがビジョンモデル以前のことだということです。これは大規模言語モデルがテキストのみで、視覚的要素がなく、画像を見ることができなかった時代のことです。

Minecraft Voyagerの革新的アプローチ

この全体は基本的にマトリックスのようなもので、マトリックスを見ることができ、コードを見ることができるという感じでした。それがやっていたことは、mine flareと呼ばれるものを使って作業することで、これによりゲームと対話するための小さなJavaScriptコードを書くことができました。プレイヤーができることだけを能力として与えられており、ゴッドモードのようなものではありませんでしたが、何かをマイニングするためにクリックしたり、木を切り倒したりする代わりに、それを行う小さなスキルをJavaScriptで作成できました。

例えば、これがゾンビと戦うためのコードでした。そして、それが機能した場合、ゲーム世界でテストされ、機能した場合はスキルライブラリに追加されました。そして、これは本当に本当に良い成果を上げ、プラトーに達することがありませんでした。ここに注目してください、それは向上し続け、改善し続けています。

これは最初から非常に非常に有望に見えます。なぜなら、このようなアプローチが機能することを知っているからです。

研究の実験設定と結果

そして彼らは言っています。手動で作成されたエージェントとLLMによって完全に進化したものを比較することで、これらのシステムが失敗を診断し、時間とともに適応できる効果を評価しています。私たちの結果は、特にClaude 3.7やGPT-4oのようなモデルによって動力を与えられた場合、自己進化エージェントは戦略を自律的に採用し、サンプル行動をゲームプレイエージェントに引き継がせ、複数の反復にわたって適応的推論を示すことで、静的ベースラインを上回ることを示しています。

これはDarwin goal machineに似ており、人間の革新によって人間によって作られたAIコーディングエージェントと比較しました。誰かがそこに座って、このもののコーディングタスクの支援能力を向上させるためのコードを追加し続けました。

そして、一部の研究者は、ベースラインAIコーディングエージェントを取り、進化的検索でそれ自体を改善するタスクを試みました。毎回何らかの修正を加え、コーディングベンチマークに対してテストされ、ベンチマークで改善した場合、その修正はコードベースに追加されました。つまり、それは自分自身を改善しようとし、そのコードが自分のコーディング能力を向上させるかどうかをテストし、もしそうであれば、それを自分のコードベースに追加して自分自身を改善していました。

これは非常に似ていますが、セトラーズ・オブ・カタンと、NvidiaのVoyagerに似た複数のエージェントを使用しています。

ゲームの特性と挑戦

セトラーズ・オブ・カタンは、プレイヤーが多くのターンにわたって資源管理、拡張、交渉を計画する必要があるマルチエージェント戦略ゲームの典型例です。そして、ここで重要なことがあります。

従来のゲームAI手法、つまり強化学習だけで行われ、LLMベースではないものは、チェスや囲碁などの完全情報ゲームで人間を超える性能を達成しています。チェスや囲碁では、見るべきものをすべて見ることができます。偶然はなく、確率もなく、ただボード全体があり、すべての駒がどこにあるかを観察することができます。

カタンでは、サイコロの出目があります。つまり、確率があり、部分的観測可能性があります。つまり、一目ですべてのデータを持つことはできず、隠されているものがあり、そこに何があるかを推測しなければなりません。これは、この種の強化学習アプローチにとって少し困難になる可能性があります。もちろん実行可能ですが、チェスのような完全情報ゲームほど簡単ではありません。

4つのエージェントアーキテクチャ

ここでは、4つのエージェントアーキテクチャがあります。

1つはベースエージェントで、構造化されていないゲーム状態の説明を直接アクションにマッピングします。

構造化エージェントは、より良い解析と指導のために、ゲーム状態の表現、利用可能なアクション、および自然言語での基本戦略を受け取ります。

ここにプロンプトの例があります。あなたはセトラーズ・オブ・カタンをプレイしています。ルール、ボード理解ガイドが与えられ、このゲームの背後にあるアイデアを説明しています。

ゲーム状態、ボード状態についてはこのように見えます。ゲームステータス、最長道路、最大軍隊、様々な資源などです。ちなみに、これは大きな意味を持つようです。なぜなら、これらの論文がこのようなものを提供するとき、基本的にすべてのプロンプトでエージェントにその状態を思い出させ続けるからです。これは本当に本当にうまく機能するようです。

Minecraft Voyagerもそれを行い、何をしているかを見失うことはありませんでした。なぜなら、思い出させ続けていたからです。vending benchのような論文では、自動販売機ビジネスの運営をタスクとしていましたが、時間とともに破綻しました。しかし、そのような思い出させは持っていませんでした。プレイしているゲームの状態を伝え続けませんでした。毎ターン更新しませんでした。そのため、時間とともに大規模言語モデルは単純にプロットを失いました。

これは大きな意味を持つようです。これがこのようなものを機能させるための鍵のようです。

3つ目はプロンプト進化器で、進化器エージェントとプレイヤーエージェントが最大10回の反復で対話して、LLMがカタンをプレイするためのプロンプトを洗練、テスト、評価します。

そして、エージェント進化器があり、進化器、アナライザー、リサーチャー、コーダー、プレイヤーの役割からなり、ゲーム間で自律的にゲームプレイコードを書き換えることができます。

これもまた、Minecraft Voyagerに非常に似ており、ゲームの異なる部分を世話する複数のエージェントがいます。1つはゲームをプレイし、1つはそれを改善しようとし、もう1つはそれをテストし、1つは説明を書いています。これは実証されたアプローチであり、信じられないほどうまく機能すると推測します。

ビジネス目的や他の何かのためにAIエージェントのようなものを構築することを考えたことがあるなら、これらは本当にそれを行う方法のレシピのようです。また、いくつかの論文はそれを間違って行う方法を示していますが、これまでのところ、これはすべてを正しく行っているように見えます。

実験方法とテスト環境

これらのモデルをテストする方法は、Katanatronの最強のヒューリスティックベースのボットとの1対1のゲームでそれを比較することです。論理ベースのボット、一種のシンプルなスクリプトボット、またはここで彼らが言っているアルファベータ検索AIですが、大規模言語モデルを使ったAIのような意味でのAIではありません。つまり、そのより基本的なバージョンと言えるでしょう。

そして、私たちは平均勝利ポイント、集落と都市の数、最大軍隊、その他の開発指標などの関連指標を追跡しています。カタンでは、勝利は最初に10ポイントに達したプレイヤーに行き、集落、都市などでポイントを獲得します。毎ターンはサイコロの出目で始まり、資源を生産します。アクティブプレイヤーは交換や建設を行うことができます。もし7が出た場合、強盗が活性化され、タイルをブロックし、資源を盗みます。うわあ、わかりました。

自己進化システムの仕組み

この全体の自己進化部分はエージェント進化器です。それは空白のテンプレートから始まり、時間とともに能力を進化させます。これが自己改善の側面です。

進化器エージェントがあります。これは中央コーディネーターです。アナライザーレポートを読みます。アナライザーエージェントはプレイヤーのゲームプレイを評価し、弱点を特定し、改善のための主要領域を要約します。進化器エージェントはそれらのレポートを読むことができるので、これは進化器エージェントのためのツールのようなものです。これはゲームを分析し、進化器が読んで次に何をすべきかを把握するために手渡しています。

リサーチエージェント、これは興味深いです。これはKatanatronとより広範なカタン戦略に関する特定のクエリを処理し、ローカルファイルアクセスとウェブ検索を利用します。これは一種の深い検索のようです。そして再び、その深い検索結果を進化器エージェントに提供します。それは興味深いです。

つまり、実際のゲームプレイを分析した1つのエージェントだけでなく、試行する新しい戦略を見つけるために深い研究を行うことができるものを組み合わせています。それでウェブ検索を行い、Redditに行って「カタンの最良の戦略は何ですか」のようなことを調べ、それに基づいてレポートを書き、進化器エージェントに手渡します。これは、正直言って、なかなか素晴らしいです。

ストラテジャーがあり、高レベルのゲームプレイ戦略を提案したり、過去の戦略的選択を批評したりします。コーダーエージェントは提案された変更を具体的なコード修正に翻訳します。毎回それは既存のコードを取得し、変更を追加し、要約と一緒に新しいバージョンを出力します。

そして、プレイヤーエージェントは実際にゲームをプレイする実際のAIプレイヤーです。そして、これが時間とともに改善されるものです。

実験環境と使用モデル

このデータは、MacBook Pro 2019 16GBとMacBook M1 Max 2021 32GB上で、合計60時間にわたって収集されました。このような実験を実行したい場合、これはかなりアクセス可能です。これは手の届かないものではありません。つまり、MacBookは安くありませんが、数万ドルでもありません。

そして、私たちが試しているモデルはGPT-4o、Claude 3.7、およびMistral largeです。それはオープンソースの大規模言語モデルMistralです。これをプレイするのを見てみたいですし、結果を見てみますが、最新の03 Proのようなものを取った場合はどうでしょうか。明らかにそれはより高価に実行されるでしょう。なぜなら、多くの異なるエージェントを実行し、それぞれがAPIの請求書を持っているからです。オープンソースの何かでローカルで行っていない限り。

彼らはおそらくMistral AI APIを使用していると思います。なぜDeepSeek R1を使用しないのでしょうか。それは非常に非常に安いです。

実験設定とベースライン

ベースラインエージェントは、アルファベータに対して10回のフルゲームをプレイします。それは、このゲームをプレイするためのより単純なAIアプローチです。そして、実行間の一貫性を確保するために、初期ボード状態生成のためにランダムシードが固定されています。

彼らは基本的に実行間でゲームがどれだけ変動するかを最小化し、すべてを可能な限り一貫して保とうとしています。つまり、初期ボード状態生成については主に、毎回完全に新しい世界をロールしないようにするため、それは大きく異なる可能性があります。開始する場所は大きな影響を与える可能性があります。

そして、プロンプト進化器は10回の進化にわたって実行され、エージェント進化器もプロンプト進化器と同様にプレイします。1つはプロンプトを改善しようとし、1つは実際のエージェントを改善しようとしています。

結果発表

最後に結果です。LLMエージェントはどれくらいうまくやったと思いますか？ヒューリスティックベースのアルファベータ、ベースラインを打ち負かしましたか？最初は悪かったが、時間とともに良くなったのでしょうか？それが問題です。

そして、ここに結果があります。モデル全体のエージェント性能です。GPT-4o、Claude、Mistral largeです。すべての場合において、ベースエージェントはここで約3.6です。それは、進化していない、改善されていないエージェントです。

構造化エージェントはGPT-4oで6%改善、Claude 3.7で11%、Mistral largeで31%低下しました。なぜそうなのかわかりませんが、これは最悪のパフォーマーのようでした。Mistralで、Claude 3.7が最良のパフォーマーでした。Claude万歳！

プロンプト進化器、GPT-4oで22%増加、Claude 3.7で95%増加。これは巨大に見えます。そして、エージェント進化器、GPT-4oで36%改善、Claude 3.7で40%改善です。

ここでのポイントは、このシステムが戦略的プロンプトを自律的に反復することによってエージェントの性能を成功裏に改善したということですが、成功の度合いは使用されたモデルに大きく依存しています。現在、おそらくより良い性能のモデルがあることを覚えておいてください。または、より多く支払う意志があるなら。

Claude 3.7は最も重要な戦略的進歩を示し、明確な短期および長期計画を概説する詳細な戦略的プロンプトを体系的に開発しました。これには、正確な集落の配置、資源の優先順位、開発カードの使用、対戦相手のアクションに対する堅固な対応戦略が含まれています。

Claude 3.7は素晴らしくやりました。ベースから最大95%の改善。GPT-4は中程度、Mistral largeは最も効果的ではありませんでした。最大の制限は基盤となるLLMです。LLMが良ければ良いほど、結果も良くなります。

将来への示唆

これは、Sam Altmanが話していたその全体のようなものです。スタートアップを構築している場合、現在AIに問題があることを修正しようとしたくないのです。モデルが良くなればなるほど、あなたのビジネス全体の性能が良くなるようなシステムを持ちたいのです。そして、このような論文、このようなシステムでも同じことです。

これらのモデルで見ている改善を想像してください。数年先に進んで、それらの次世代モデルを想像してください。もしそれらを単純にプラグインして他のすべてを同じままにしたら、95%の改善を見たこれらの改善は、基盤となるモデルを改善するだけで、おそらくさらに良いものを見ることになるでしょう。

いわば成長するための重要なポイントです。これらのモデルは自己改善において良くなるでしょう。改善し、成長し、良くなるにつれて、自己改善やこのようなシステムの自律的改善においても良くなるでしょう。

進化の可能性と限界

1つのことは、彼らは10ステップの進化しか行わなかったということです。そして、ここで見ることができるように、特にClaude 3.7、私たちの最良のモデルでは、7回目の進化でも改善が続いています。7回目の後にプラトーに達しますが、続けると良くなるかもしれません。20、30回の進化を先に投影した場合ですが、見ることができるように、すべての改善が早期にあって、その後何もないというわけではありません。進化ステップの終わりに向かってさえ、改善を続けています。

もしより多くの時間、より多くの進化ステップを許可した場合、どれくらいうまくやるでしょうか？7から100まで単純にプラトーに達するのでしょうか、それとも続けると、いくらかの控えめな改善があるのでしょうか？

明らかに研究者たちは資金面での制限があった可能性があります。これがどれくらいコストがかかるかはわかりませんが、多少高価になる可能性があります。