ARC-AGI-3と行動効率 | MITでのARCプライズ

本動画は、ARCプライズ財団によるARC-AGI-3という新しいインタラクティブなAIベンチマークの発表である。フランソワ・ショレの知能定義「スキル獲得効率」に基づき、AIが新しい環境にどれだけ効率的に適応できるかを測定する。150以上の独自開発ゲームを通じて、AIエージェントの探索、学習、実行能力を評価し、行動効率を知能の代理指標として用いる。人間とAIのパフォーマンスを比較することで、現在のフロンティアAIモデルが依然として人間の学習効率に遠く及ばないことを実証し、真の汎用人工知能達成への道のりを明確化する試みである。

ARC-AGI-3 and Action Efficiency | ARC Prize @ MIT

Greg Kamradt, ARC Prize President, shares a preview of ARC-AGI-3 along with a view into measuring action efficiency* Gre...

はじめに:知能の測定について
AIの進歩とは何か
インタラクティブ知能の重要性
ARC-AGI-3の紹介
ゲームのデモンストレーション
フロンティアAIのパフォーマンス
ARC-AGI-3の設計原則
人間のデータ分析
ARC-AGI-3のスコアリング方法
人間とAIのギャップ
結論:ARC-AGI-3完了の意味

はじめに:知能の測定について

こんにちは、皆さんようこそ。私はジョシュ・テンバウムです。週末にこのエキサイティングなイベントにお越しいただきありがとうございます。私たちは本当に楽しい講演と、できれば双方向的なディスカッションを予定しており、汎用知能を理解する上でこの分野をどのように前進させることができるかについて本当に話し合いたいと思っています。特に認知科学者の視点を、学術界や産業界、非営利団体のAI研究者たちと一緒に引き出せることを楽しみにしています。

ここにいるグレッグは、ARC AGIプライズを運営するARK財団の会長だと思います。また、ARCプライズを共同設立したマイク・ニュークとフランソワ・ショレからもお話を伺います。彼らはこれらの分野でAGIに取り組んでいるラボ42というディア社を持っています。そして、MITの教員、学生、ポスドク、卒業生の皆さんもいらっしゃいます。本当にエキサイティングな一日なので、それではあなた方にお任せします。

素晴らしい。ジョシュ、どうもありがとうございます。まず最初に、ジョシュと脳・認知科学部門が本日ARCプライズ財団を主催してくれたことに感謝したいと思います。特にケイティ教授とランスが本日の企画を手伝ってくれたことに感謝します。

ジョシュが言ったように、私の名前はグレッグ・カムラッドで、ARCプライズの会長です。今日、私たちはARCプライズの方法で、AIモデルが賢くなっているかどうかを解釈することが何を意味するのかについてお話しします。

次の20分間で、インタラクティビティがモデルの知能を測定する新しいツールをどのように提供してくれるのかをお見せします。ARC-AGI-3という私たちの新しいインタラクティブベンチマークをデモンストレーションします。そして本当に素晴らしいこと、これは実際にこの講演にとって非常に特別なことですが、学習効率と知能の代理指標としての行動効率について深く掘り下げていきます。

AIの進歩とは何か

私が最初に始めるのが好きな方法は、AIモデルが進歩していることは疑いの余地がありませんが、しかし彼らは何に向かって進歩しているのかという疑問が残っています。

もしフロンティアモデルのパフォーマンスを狭いスケール、狭い領域で測定し、それをターゲット指標とするなら、狭い領域で進歩することになります。しかし、もし汎化するモデルを作りたいのであれば、あなたの指標は汎化能力である必要があります。つまり、狭いターゲット、狭い進歩ということです。

汎化を測定したいなら、最初のポイントは、知能であることが何を意味するのかを定義する必要があります。2019年、フランソワ・ショレは知能の測定に関する論文を発表しました。彼はわずか3つの言葉で知能の定義を提案しました。それはスキル獲得効率、つまり言い換えれば、どれだけ早く新しいことを学べるかということです。

私たちは既にAIがチェス、囲碁、自動運転車など、あらゆる単一のことで上手になれることを知っています。狭い領域でAIを優秀にする道筋は十分に確立されています。しかし、それらのシステムに新しいことを学ばせることは、まだ手の届かないところにあります。

この意見を持った知能の定義を使って、フランソワ・ショレは2024年にマイク・ケーンと共にARCプライズ財団を設立しました。ARCプライズ財団は、オープンAGIへの北極星として機能することをミッションとする非営利団体です。そして私たちは、AGIを人間と同じくらい効率的に学習する機械の能力として定義しています。

組織として、私たちは機械の知能をテストするベンチマークを構築していますが、特に汎化能力を測定することに焦点を当てています。昨年、私たちはOpenAIに招待され、彼らのライブストリームに参加して、ARC-AGI-1での彼らのo3プレビューモデルの結果を共同発表しました。これは昨年12月のことで、これが私たちの最初のベンチマークです。

インタラクティブ知能の重要性

しかし将来を見据えると、実際にAGIを持ち、それが人間のようになったとき、それはインタラクティブとして現れ、その場で学習し適応しているように見えるエージェントとして見えるだろうというのが私の見解です。その理由は、知能は本質的にインタラクティブだからです。

現実世界はワンショット問題を与えてくれません。知能は知覚、フィードバック、そして最終的には行動を通じて、ステップバイステップで展開されていきます。そして、知能がインタラクティブであるなら、この動作を評価する新しい方法が必要です。

そして、私たちは既にこれの初期の兆候を見始めています。これはポケモンをプレイしているGPT-o1のビューです。実際にTwitchのライブストリームがあり、これ全体を見ることができます。おもちゃの例のように見えるかもしれませんが、実際には水面下で多くのことが起こっています。

このポケモン用のハーネスを作った人は、エージェントが長期的な計画を立てられるかどうか、環境を探索できるかどうか、短期的なメタゴールに取り組めるかどうか、そして長期的なタスクでどのように行うかをテストしようとしています。

つまり、これが示しているのは、インタラクティブな知能を測定したいなら、インタラクティブなベンチマークが必要だということです。静的なベンチマーク、つまり質問をして答えを得るだけのものでは十分ではありません。

インタラクティブなベンチマークで多くの新しいことが得られます。エージェントの探索能力、知覚、計画、行動のループ全体、さらにメモリ、目標獲得をテストできます。そして非常に素晴らしいのは、エージェント内のアライメントと協力を測定し始めることができることです。繰り返しになりますが、これは静的なベンチマークでは得られないものです。

ARC-AGI-3の紹介

そこでARCプライズが行っているのは、ARC-AGI-3を作成していることです。私たちはこれらすべてのコアアイデアを150以上の新規環境シリーズに組み合わせています。これらはビデオゲームと考えることができ、私たち自身が作成しています。

実際、これを実現するためにミニゲームスタジオを立ち上げました。もし誰かこれに興味がある方がいれば、左下にリードゲーム開発者のハンターがいます。彼は一日中ゲームについて話すことができます。

ARC-AGI-3の全体的な目標は、テスト受験者の能力をテストしたいということです。テスト受験者とは、この場合、人間かAIのどちらかです。私たちは、彼らが目標を達成するために新しい環境に適応する能力をテストしたいのですが、そもそも目標が何であるかを理解できるかどうかも見たいのです。

ARC-AGI-3のゲームはそれぞれ、完全に新しいゲームメカニクスに基づいて構築されます。つまり、これらのゲームはそれぞれ、コネクト4がパックマンやチェスと異なるのと同じくらい互いに異なることになります。実際にそれらのゲームを作るわけではありませんが、ゲームメカニクスがどれだけ多様かを示しています。

そして、各ゲームデザインは非常に意図的です。フランソワの知能の定義に戻ると、私たちはテストを受ける人が新しい状況に適応できるかどうかを測定したいのです。つまり、私たちは単一のタイプのゲームだけをテストしたくありません。さもないと、彼らは一度学習してから、持っているスキルを繰り返すだけになってしまいます。

ゲームは公開テストセットと非公開テストセットに分割されます。公開ゲームは研究者が慣れるために使用します。しかし、実際にAIを測定する際のすべてのパフォーマンススコアは、非公開評価セットで行われます。それが非公開である理由は、開発者もAIも以前にこれらのゲームを見たことがないため、彼らが本当にこれらの未知の環境に汎化していると主張できるからです。

ゲームのデモンストレーション

今、私が本当にやりたいことは、これは非常に視覚的な例なので、実際にデモを見てみましょう。

ここに最初のゲームがあります。そして最初に画面を見て、それが動いていないとき、何が起こっているのかを判断するのは難しいですよね。そしてそれが実際にここでのポイントなのです。なぜなら、私たちがあなたにしてほしいことは、クリックを始めて、異なる行動が何をするのかを見始めることだからです。

そして今、あなたは見始めることができます。ああ、私は何らかのキャラクターをコントロールしていて、何が起こっているのかを理解する必要があると。上部の黒い四角に行ってみましょう。それは何もしません。ここに降りてみましょう。ああ、面白い。左下の何かが変わりました。

そして今、あなたがクリックし続けると、もう一度黒を試してみましょう。そしてレベルを完了し始めます。このゲームはLS20と呼ばれています。そして特に、それぞれの異なるゲームで、私たちは指示を与えません。

ローラ・シュルツとジュニの論文「遊び、好奇心、認知」を読んでいたのですが、好奇心駆動型探索という重要な概念がありました。そしてそれは、まさに私たちがここでテストしようとしていることです。なぜなら、指示なしで、あなたは周りを探索して、ここで何をすべきかを理解する必要があるからです。

もう一つのゲームを見てみましょう。先ほどはLS20でした。それは私たちがエンボディドゲームと呼ぶものでした。つまり、小さなエージェントをコントロールしているということです。このゲームでは、再び見て、何が起こっているのかよくわかりません。クリックし始めます。あまり何も起こりません。緑をクリックします。するとバーが回転し始めます。

クリックし続けます。何が起こるか見てみましょう。おっと、ゲームオーバー。明らかに私は正しいことをしていません。もう一度やってみましょう。今度は赤い側をクリックします。ネタバレですみませんが、私はこのゲームをたくさんプレイしたので、プレゼンテーションの目的のためにご容赦ください。

この黄色いバーが黄色いセクションに入ろうとしていることに注目してください。黄色いバーを黄色いセクションに入れると、レベルを完了します。これが私たちがチュートリアルレベルと呼ぶものです。ゲームメカニクスを教えるためのものですが、複雑さは急速に増します。

つまり、テスト受験者は新しいルールを持つこの新しい状況に適応し、私たちのために何をすべきかを理解しなければなりません。これがゲームの2つのデモです。

フロンティアAIのパフォーマンス

フロンティアAIが現在これらのゲームでどのように行っているかを見てみましょう。ここにあるのは、GPT-o1 Highがプレイしている最初のゲーム、LS20と呼ばれるもののビューです。ご覧のように、多くの行動を取っていますが、何をすべきかを完全には理解していません。

そして多くの行動を取っているだけでなく、探索と学習を最小限にする反復的な行動のように見えます。ここで私たちが行う必要があったのは、左下に実際に行動カウンターがあることに気づくでしょう。つまり、GPT-o1が行うすべての動きで、それが行っている行動の数を数えています。

そして私たちが見るのは、多くの進歩を遂げることなく多くの行動を行っているということです。つまり、私たちが必要なのは、この動作とこれがどのように進んでいるかを定量化する方法です。

そして実際、私たちはこれのインスピレーションを、今日後で聞く予定のジョシュ・テンバウムのラボからのEMPO論文の一部の人々から得ました。彼らが行ったのは、x軸の行動数としての進歩を示すチャートのビューを作成し、y軸にあるゲームにどれだけ到達したかの成功度を示すことでした。

そして非常に素晴らしいのは、どれだけ少ない行動でどれだけ進歩を遂げたかに基づいて、異なるテスト受験者がどれだけ効率的にゲームをプレイしたかを比較し始めることができることです。

そしてこれが私たちに教えてくれるのは、ここで視覚化されているあなたの効率は、単に進歩を見る楽しい方法ではないということです。実際には、テスト受験者が環境からの情報を目標自体にどれだけうまく変換しているかを見るものなのです。

つまり、それは学習効率であり、フランソワの知能の定義に戻ると、新しいことを学ぶあなたの能力です。実際には知能効率でもあります。

ARC-AGI-3の設計原則

さらに進む前に、ARC-AGI-3のいくつかのコア設計原則に飛び込みたいと思います。私たちが持っている主なもののひとつは、トップラインになるかもしれませんが、これらのゲームのそれぞれを人間にとって簡単で、AIにとって難しくしたいということです。

私たちがこれを行う理由は、人間が一般知能の唯一の証明点だからです。そして、人間ができてAIができない問題を見つけることができれば、それはギャップがあることを教えてくれます。そして、そのギャップがある限り、それを埋めるために新しいアイデアと新しい研究が必要です。

そして、人間ができる場合にのみ、ARC-AGI-3にゲームを含めます。他の多くのベンチマークが博士号++の問題、これまでで最も難しい問題を行うのに対し、世界で数人しかできない問題では、私たちは人間ができるがAIがまだ難しい問題に執着しています。

しかし、人間にとって簡単だと主張するつもりなら、第一者データが必要です。そこで、実際にすべてのARC-AGI-3タスクで多くの人々をテストしました。一般の人々を募集してテストします。重要なのは、彼らが以前にこれらのゲームを見たことがないということです。つまり、初めて試しているのです。

しかし、素晴らしいのは、私たちは彼らがこれらのゲームのそれぞれを完了できるかどうかをテストするだけでなく、実際にそれぞれを完了するのにかかる行動の数も数えることです。

人間のデータ分析

非常に簡単な例として、ここに私たちが見ていた同じチャートがありますが、観察した人間のデータの一部で埋めようとしています。この試行では、これは1人の人間です。レベル2に到達するために、彼らはこの特定のゲームで10回の行動を費やしました。レベル3に到達するために、さらに5回の行動を費やしました。

そして、ここからどのように埋められるかがわかり始めます。そして突然、この1人の人間がどのように行ったかの全体的なゲームプレイが得られます。そして今、私たちができることは、残りの人間をこれに埋めることができます。

興味深いのは、このビューで、彼らが探索するためにどれだけの行動を費やす必要があったか、彼らが見つけた戦略を実際に実行するためにどれだけの行動を費やす必要があったかがわかることです。2つを区別するのは少し難しいですが、これら2つがどのように組み合わされているかを見ることができます。

ARC-AGI-3のスコアリング方法

ここで非常に簡単にまとめます。私たちは12分間、ARC-AGI-3のスコアリング方法について次のスライドを構築してきました。これは私が直前に示していたのとまったく同じチャートですが、私たちが行ったのは、オンラインプレイテスターから得たすべてのデータ、API経由でエージェントを介してAIが完了したデータ、そして人間のテストデータを組み合わせたことです。

これは同じビューですが、はるかに多くのデータがあります。大きな混乱のように見えるかもしれませんが、ここから本当に素晴らしい情報をたくさん推測できます。第一に、この特定のゲームをプレイする際に平均的な人間がどれだけ効率的かを知ることができます。

第二に、これは私にとって絶対に魅力的なことですが、左端のポイントです。これは私たちがスピードランと呼ぶもの、つまり私たちが観察する最良の実行です。この興味深い点は、プレイヤーがこれより前に探索フェーズを行ったということです。

つまり、ここでのこのビューは、探索がゼロで純粋な実行を行う場合に何が必要かを示しています。つまり、できるだけ速く行うことができる限りです。

2つのラインを比較し始めると、いくつかの本当に興味深い質問をし始めることができます。それは、平均的な人間がこのゲームを探索する際にどれだけ非効率的か、または平均的な人間がこのゲームの実行においてどれだけ非効率的かということです。

ここに載せたいラインがもう1つ、あるいは2つあります。次のものは、人間から観察した最良の初回実行です。そしてこれは基本的に、ゲームを初めて見たことを保証できる最高の人間が誰かを意味します。

赤いラインと青いラインの間のデルタは、探索に必要な量を計算し始めることを示しており、ここで本当に魅力的な質問が得られ始めます。

人間とAIのギャップ

まとめたいところですが、AIがこのライン上のどこに適合するかについてはまだ未解決の質問があります。30日間のエージェントコンペティションを実行し、フロンティアAIをテストした後、私たちが見るものをお見せしたいと思います。AIは現在、非常に非常に非常に下の方にあります。

つまり、これが意味するのは、彼らは大量の行動を費やしているが、進歩を遂げていないということです。これを私たちはARC-AGI-3の観点から人間とAIのギャップと呼んでいます。

そして、私たちは元のAIの定義まで遡ります。それは人間ができてAIができない問題です。そして、このギャップは私たちにいくつかのことを示しています。一つは、これは現在AGIを持っていないことを意味すると私たちは主張します。そして二つ目は、これはARC-AGI-3においてAIが現在どれだけ非効率的であるかを示しているだけです。

これは1つのゲームのデータにすぎません。私たちがプレイしている150のゲームすべてのデータがあります。そして、私たちが持っているすべての公開データについて、その多くをオープンソース化する予定です。

結論:ARC-AGI-3完了の意味

ここでまとめるために、私たちがいつも受ける質問で終わりたいと思います。それは、誰かがARC-AGI-3を完了したときに何を意味するのかということです。そして、私がその質問に答えるのが好きな方法は、実際にそれが起こったときに私たちができる主張を述べることです。

第一に、このエージェントは、以前に見たことがない、開発者も以前に見たことがない、未知の新規環境を初めて首尾よくナビゲートしたことになります。環境のルールを学ぶことができました。ゲームの効率的な計画を実行することができました。

しかし最も重要なこと、そしてこれが私の心を最も驚かせることになるものは、ARC-AGI-3で100%を取得するということは、これらすべてのことを行う際に人間レベルの効率に匹敵するか、それを超えたことを意味するということです。

私たちは質問を受けます。ARC-AGI-3を実際に倒すのはAGIなのでしょうか。そして、ARC-AGIの以前のバージョンと同様に、私たちはそれがAGIであるとは主張しませんが、これまでに見た汎化能力の最も権威のある証拠になるだろうと主張します。

今日の私からの唯一のお願いは2つです。第一に、ゲームをプレイしてください。それが最も楽しい部分であり、それに飛び込む方法です。左下の3.arcprize.orgでできます、またはQRコードをスキャンすることもできます。

そして、もしエージェント的な気分なら、実際にARC-AGI-3を倒そうとするエージェントを構築することができます。私たちは大歓迎です。そして財団として、ARC-AGI-3をレッドチームするのを手伝いたい人のために、多くの助成金も利用可能です。

この後、ARCプライズのメンバー、ARCプライズ財団のメンバーの誰とでも話しに来てください。どうもありがとうございました。