この動画は、ARC Prize Foundationの代表であるGreg Camradが、フロンティアAIの測定方法について解説するものである。従来の静的ベンチマークでは測定できないインタラクティブな知能を評価するために、ARC AGI 3という新しいベンチマークが開発された。これは150個の独自開発されたビデオゲーム環境から構成され、各ゲームは全く新しいゲームメカニクスに基づいている。重要なのは、単にタスクを完了できるかどうかだけでなく、どれだけ効率的に完了できるか(アクション効率)を測定する点である。人間の行動データを基準として、AIがどれだけ効率的に環境から学習し、目標を達成できるかを評価することで、真の汎化能力と知能の効率性を測定しようとする試みが説明されている。

フロンティアAIの測定方法とインタラクティブベンチマークの重要性
こんにちは、私の名前はGreg Camradです。ARC Prize Foundationの代表を務めています。今日は、フロンティアAIをどのように測定するかについて学んでいきましょう。これから20分間で、なぜインタラクティブベンチマークがこれを行うための鍵なのかを順を追って説明していきます。新しいフロンティアAIベンチマークについても見ていきます。そして最後に、インタラクティブベンチマークが私たちにとって知能を測定するだけでなく、その知能がどれだけ効率的であるかも教えてくれることを理解していただきます。
さて、AIが最近素晴らしい進歩を遂げているのは疑いの余地がありません。しかし、私が自分自身に問いかけている質問は、AIが進歩しているかどうかではありません。AIは何に向かって進歩しているのか、ということです。なぜなら、もしあなたのAIを狭いドメイン、例えば特化したベンチマークで測定するなら、その特定のドメインで進歩を遂げることになります。
しかし、もしあなたの意図が汎化するモデルを測定することであるなら、その特定のベンチマークが汎化を測定し、それをターゲットにする必要があります。これを行うために、最初の出発点として、知能とは何かを定義する必要があります。そこで2019年に、Francois Choletが知能の測定に関する論文を発表し、まさにこれを行いました。
彼は知能をスキル習得効率として定義しました。これは少し冗長な見方かもしれません。しかし、別の言い方をすれば、新しいことを学ぶ能力はどれくらいあるのか、ということです。私たちはすでにAIが何か一つの新しいことを学べることを知っています。チェスをプレイすることを学べます。自動運転車の運転方法を学べます。囲碁をプレイすることを学べます。
しかし、これらの同じシステムに他の何かを学ばせることは、まだ手の届かないところにあります。さて、この定義、つまり知能についてのこの意見の分かれる定義を使って、Francoisは2024年にMike KaneとともにArc Prize Foundationを設立しました。私たちは非営利団体であり、AGIのオープンな進歩に向けた北極星として、あるいは北極星として機能することを目指しています。
私たちはAGIを、人間と同じくらい効率的に学習する機械の能力として定義しています。組織として、私たちは機械の知能をテストするベンチマークを構築しており、特に汎化能力を測定することに焦点を当てています。昨年、私たちはOpenAIから招待され、彼らのライブストリームに参加し、私たちの最初のベンチマークであるArc AGI1における彼らのo3プレビューモデルの結果を共同発表しました。
人間レベルの知能とインタラクティブエージェントの出現
さて、今後を見据えると、私の見解では、人間のような知能が機械に現れ始めるにつれて、それはインタラクティブなエージェントとして現れ、リアルタイムで学習し適応していくことになるでしょう。その理由は、知能は本質的にインタラクティブだからです。世界は単にワンショットの問題を与えてくれるだけではありません。
そして知能は、知覚、フィードバック、そして最終的には行動を通じて、段階的に展開されていきます。ですから、もし知能がインタラクティブであるなら、この行動を評価する新しい方法が必要になります。そして、私たちはすでにこの初期の兆候を見始めています。これはTwitchストリームでGPT-5がポケモンをプレイしている様子です。おもちゃの例のように見えるかもしれませんが、実際には水面下でかなり多くのことが起こっています。なぜなら、ポケモンでは長期的な計画を立て、環境を探索し、長期的な目標を解決する途中で短期的なメタゴールに取り組む必要があるからです。
これが示しているのは、インタラクティブな知能を測定するためには、インタラクティブなベンチマークが必要だということです。静的なベンチマーク、つまり質問をして答えを得るだけのものでは、十分ではありません。なぜなら、インタラクティブなベンチマークでは、まったく新しい能力が得られるからです。
エージェントが新しい環境を探索する能力をテストできます。エージェントが知覚、計画、行動のループを実行する能力をテストできます。非常に興味深いのは、エージェントの記憶能力もテストできることです。なぜなら、環境には保持できる以上の情報が存在するからです。
ですから、何を記憶するかを選択する必要もあります。目標の獲得とメタゴールの獲得の理解を見ることができます。そして非常に興味深いのは、エージェントのアラインメントと協力能力もテストできることです。これらは、静的なベンチマークからは得られないものです。これらのさまざまなアイデアを組み合わせて、ARC Prize Foundationは、ARC AGI 3を発表します。これは150個のオープンソースのビデオゲーム環境のシリーズになります。
ARC AGI 3の設計思想と特徴
これらはそれぞれが新規のもので、私たち自身が作成しています。実際、これを実現するために小さなゲームスタジオを構築しました。そして、もしキャリアの初期に、自分がゲームスタジオを運営することになるかと聞かれたら、答えはノーでした。ARC AGI 3の全体的な目標は、テスト受験者の能力をテストすることです。それは人間でもAIでも構いません。
テスト受験者が新しい状況に適応する能力をテストしたいのです。彼らが環境の目標が何であるかを理解できるか、その目標にどうやって到達するかを理解できるか、そしてそもそも目標が何であるかを理解できるかを見たいのです。ですから、ARC AGI 3の各ゲームは、まったく新しいゲームメカニクスに基づいて構築されます。
ですから、これらは一般に公開されているゲームではありませんが、それぞれが互いに大きく異なります。説明のために、各ゲームは、コネクト4がソリティアと異なり、ソリティアがパックマンと異なるのと同じくらい、互いに異なることになります。文字通りこれらのゲームを作るわけではありませんが、それくらい互いに異なります。
さて、各ゲームも非常に意図的に設計されています。Francoisの知能の定義に戻ると、人間やエージェントが新しい新規の状況に適応できるかどうかをテストしたいのです。1つのゲームタイプに過剰適合できてはいけません。ですから、1つのゲームタイプだけを作って、たくさんの異なるレベルを手続き的に生成するだけでは、非常につまらないことになります。
すでに一度学んだスキルを繰り返すだけになってしまいます。ゲームは、公開テストセットとプライベート評価セットに分割されます。公開側では、AIと研究者がゲームフォーマットと、実際にはゲームのインターフェースに慣れることができます。しかし、新しいモデルがどのように機能しているかを実際に評価する際のすべてのパフォーマンス指標は、プライベート評価に基づいています。
これらは、開発者もAIも事前に見たことのないゲームです。そして、プライベートテストセットで成功があれば、公開データで見たものを繰り返すのではなく、実際に未見の例に汎化したと断言できます。しかし、これらのGIFは、私が望むほど遠くまで行きません。
ARC AGI 3のゲームデモとメカニクス
そこで、ARC AGI 3がどのようなものかについて、ライブゲームデモを見てみたいと思います。ここに最初のゲームがあります。これをVC33と呼んでいます。そして、静止しているだけでは、あまり意味が分からないことに気づくでしょう。これは実際に意図的なもので、ユーザーにしてもらいたいのは、クリックし始めると、あなたの行動が環境にどのように影響するかを見てもらいたいのです。というのも、ここで言及しておくべきなのは、これらのゲームには説明書もないということです。
自然言語の説明は一切提供しません。ゲームを完了する方法の全体的なポイントは、何をすべきかを理解することです。そこで、ここでクリックしてみますが、何も起こりません。さて、この青いものをクリックすると、おっと、興味深い。左側が上がります。よし、赤をクリックしてみましょう。よし、赤側が上がります。
もう一度赤をクリックさせてください。そして、この黄色いバーがここにある小さいものとの関係でどこにあるかに注目してください。おっと、興味深い。よし、ARC AGI 3ゲームの1レベルをクリアしました。もう一度やってみましょう。今、私には、赤いボタンをクリックすると右側が上がり、青いボタンをクリックすると左側が上がるという仮説があります。
はい、その仮説は確認されたようです。さて、以前と同じレベルになったら、ゲームまたはレベルをクリアしました。はい、それも良さそうです。ですから、ここで見ることができるように、たとえ説明書がなくても、そしてはい、私は事前にこれをプレイしたことを認めます。たとえ説明書がなくても、クリックし始めて何をすべきかを見ることができます。
ここで緑のバーを一番上まで上げさせてください。おっと、向こうでエネルギーまたは材料が不足してしまいました。もっと手に入れる必要があります。ですから、ここでレベル3を完了する途中に、実際にパズルを投げ込んだのが分かるでしょう。そして、代替ルートを取る必要がありました。材料を移動させる必要がありました。これは、ここで導入する新しいメカニクスと呼ばれるものです。
そして、人間はこのタイプの環境を見て、それがここでする必要があることだと理解するのが非常に得意であることが分かります。満足のためにここで終わらせて、あれに到達しましょう。ここに別のレベルがあります。さて、2つ目のゲームを見てみましょう。美しいですね。さて、2つ目のゲームは実際にまったく異なります。
ここにはもっと多くのブロックがあります。これを見ていきましょう。ちなみに、このゲームはLP85と呼ばれています。さて、ここで緑をクリックしてみます。そして、それが回転するのが分かり始めます。緑をクリックし続けてみましょう、緑、緑、緑。おっと、しまった。ゲームオーバー。何か正しくないことをしたに違いありません。そして、このゲームをリプレイするにあたって、何か新しいことを試さなければなりません。
さて、人間がこれらのゲームをプレイするのを観察するときに私が大好きな用語は、実際には好奇心駆動の探索です。つまり、人間として、私たちは何かについて好奇心を持ちます。探索して、それが私たちにどのように影響するかを見ます。さて、少しネタバレをします。赤をクリックしました。反対側に行きました。
この黄色いボックスが黄色いバリアの中に入ろうとしているのに注目してください。クリック。はい。よし。ですから、ここでの仮説は、黄色いボックスを黄色いバリアの中に入れなければならないということです。この上のものを取りましょう。おっと、2つあります。これをどうやって解決するか気になります。実際には進めませんが、ここで続けていくと、実際にこれをどうやってするか推測できるでしょう。
ですから、これが最初のものとはまったく異なるゲームメカニクスであることに注目してください。実際には、小さなキャラクターを制御する他のエージェント系のゲームもありますが、これらはすべて互いに大きく異なることになります。デモがここにある間に最後に指摘したいのは、バックエンドでクリックするたびに、実際にその特定のゲームを解決するのに必要なアクション数を記録しているということです。そして、これは非常に重要です。
人間にとって簡単でAIにとって難しい問題の設計
すぐ後で、これに戻ってきます。これらのゲームを設計する際の主な設計哲学の1つは、問題をターゲットにしたいということです。実際、より強い言葉を使わせてください。人間にとって簡単だがAIにとって難しい問題が大好きです。そして、私たちがこれを行う理由、そしてこれを愛する理由は、人間が一般知能の唯一の証明点だからです。
そして、より一般的に知的なモデルを作ろうとしている私たちにとって、これがアンカーポイントになり、ここからスタートするのは理にかなっています。ですから、人間ができる問題を見つけることができれば、それは再び一般知能における私たちの唯一の証明点ですが、現在のAIができないものであれば、それはギャップがあることを示しており、何かが欠けていることを示しています。
そして、人間のパネルがそれを解決できることを発見できた場合にのみ、ARC AGI 3にゲームを含めます。もし彼らがそれを解決できなければ、それは含まれません。ですから、すべてのゲームは人間によって非常に実行可能です。そして、これらはPhDの専門家ではありません。これらは私たちが募集する一般大衆のメンバーです。
しかし、人間にとって簡単だと言うだけで、それを裏付ける第一者データがないわけにはいきません。ですから、私たちが実際に行うのは、一般大衆のメンバーをテストすることです。彼らを会議室に引き込みます。コンピューターを借りて、パズルを彼らの前に置き、長い候補リストのパズルがあり、もしそれがあまりにも難しいことが判明したら、それを捨てます。
しかし、ここで重要なのは、人間がこれらのゲームを事前に見たことがないということです。これをファーストランと呼んでいます。つまり、人間がこれらのゲームの1つを初めてプレイする際に、どれだけうまくやるかということです。なぜなら、最終的にはファーストランでAIを同じ基準で評価することになるからです。それがどのように機能するかを見たいのです。これらの人間をテストする際、彼らが何レベルやって何ゲームやったかを見るだけでは簡単です。
しかし、私たちはさらに一歩進んで、実際に各人間が各ゲームを完了するのに何回のアクションが必要かを数えています。なぜなら、それができれば、私たちの唯一の一般知能の証明点のベンチマークが得られるからです。その証明点がこれらのARC AGI 3ゲームのそれぞれをどれだけ速く完了できるかを見ることができます。そして、それがAIを評価できる新しい基準になります。
アクション効率という新しい評価指標
ですから、この新しい指標を使うことで、本当に素晴らしいのは、パフォーマンスを評価する新しい方法が得られることです。そして、これは単に何問正解したかという従来の意味での正確性だけではありません。私たちがこれをアクション効率と呼んでいるものです。つまり、はい、レベルを完了しましたが、それは単に目標を完了したかどうかだけではありません。問題は、その目標やゲームをどれだけ直接的に完了したかということです。あるいは非常に簡単に言えば、実際にゲームを完了するのに何ターンかかったかということです。それを速くできればできるほど、環境からよりよく学習できると断言できます。ポケモンの例に簡単に戻ると、彼らはすでにこれを擬似的なスコアリング技術として採用しています。ですから、この図は同じことを示しています。これはGPT-5がポケモンをプレイしているもので、x軸はGPT-5が必要としたアクション数になります。
そして、y軸はGPT-5が達成できたゲーム内のマイルストーンになります。そして、この具体的なものについては、Liberty Roadに到達するのに5,000アクションと書いてあると思います。さて、ここには2本の線があります。緑と灰色の最初の線は、傾きが低いことに気づくでしょう。
少し水平に近いです。そして、これが示しているのは、それらのモデル、どれだったかは分かりませんが、古かったということです。それらのモデルは、その環境を完了するために、より多くのアクションとより多くのターンを必要としました。この場合はポケモンです。しかし、GPT-5は、傾きが高いため、これをはるかに効率的に行うことができました。
より速くそれを行うことができました。この図について興味深いのは、これは単に進歩を測定する楽しい方法ではないということです。これは実際に、モデルが環境からの情報を求めている価値に変換する効率の窓なのです。あるいは別の言い方をすれば、これは実際に、あなたの知能がどれだけ効率的であるかの代理指標なのです。
テスト中に収集する人間のデータについても同じことができます。そして、これが私が話していたすべてのアクションです。ここで1つの人間の例を見てみましょう。左下の最初に、彼らはレベル1から始まり、レベル2に到達するために10アクションを費やします。
そして、10アクションを費やすと言うのは、これらのいくつかは探索、つまり何をすべきかを理解するために使われるからです。そして、これらのいくつかは実行、つまり考え出した戦略を実際に実行するために使われます。その後、彼らはレベル3に到達するためにさらに5つ費やします。そして、この特定のゲームで彼らがどのように行ったかについて、残りの部分を埋めることができます。
素晴らしいのは、たくさんの人々をテストする作業を行う予定だということです。1つのゲームに対して1人だけではありません。これについてたくさんの異なるデータポイントを得ることができます。そして、すべてのこのデータが埋められた最後の図は、私たちの唯一の一般知能の証明点が、事前に見たことのないこのゲームをどのように完了できるかについての定量的な見方です。
そして、それは非常に興味深いデータポイントです。私たちはこれに戻ってきます。設計哲学として、人間にとって簡単で、AIにとって難しい。それは人間にとって簡単な部分についてでした。AIにとって難しい側も見てみましょう。ここに、GPT-5が私たちの他のゲームの1つをプレイしている様子があります。これをLS20と呼んでいます。これは実際にはエージェントベースのゲームです。
ネタバレですが、ゴールは下にある青いブロックを取得することです。上部にある黒い部分に到達したいのです。そして、ここでGPT-5が行っているのは、ただ上下に行ったり来たりしているだけで、目標に向かって進歩していません。そして、実際には、その進歩に向けてあまり探索もしていません。
見えるのは、多くのアクション、つまり費やしているものですが、それほど多くの進歩は見られません。ここで50フレームでアニメーションをカットしたのは、まあ、費用がかかり時間もかかるからで、この1つにはそんなに長いGIFは必要ありませんでした。しかし、この特定のゲームで人間がどのように機能するかを見ると、このレベルを完了するのに必要なのはわずか20アクションです。
ですから、GPT-5が50アクションで何の進歩も見せず、人間が20しか必要としない場合でも、明確なギャップがあることが分かります。さて、あなたが言っているかもしれないことは分かります。ああ、アクション効率の概念は、ゲームにのみ適用されるのでしょうか?いいえ、実際にはそうではありません。なぜなら、私は先日Will Brownからの関連するツイートを見たからです。彼は、モデルが43秒間考えて、変更なし。
よし、30秒間考えて、変更なしと示し、それからWillは「わあ、ありがとう」と皮肉を言います。ですから、これは、コーディングを嵐のように行っているエージェント的なワークフローでさえも、モデルが多くの動きをすることができても、私たちが望む進歩は得られないことを示しています。そして、今、ターンがビデオゲームだけでなく、他のすべてのアプリケーションにどのように適用されるかを見ることができます。
そして、今日の皆さんへの主なCTAの1つは、エージェントプログラムがどのように機能しているかを構築し理解する際に、ターン効率とアクション効率も考慮に入れてほしいということです。ベンチマークを運営するのは面白いことで、以前はパフォーマンス÷コストという効率の概念しかありませんでした。これは、望むパフォーマンスを得るためにどれだけのお金がかかるかを理解するための非常に有用なツールです。
しかし、インタラクティブベンチマークを使えば、アクション効率という新しい効率の尺度が得られます。このすべてのセットアップを終えて、ARC AGI 3でAIモデルをどのようにスコアリングするかで締めくくりたいと思います。もちろん、次世代モデルが何レベルやって、何ゲームやるかを測定します。
人間とAIのギャップとAGIの定義
しかし、アクション効率により、このパフォーマンスを測定する新しい方法が得られます。平均的な人間が何をする必要があるかを描き、そして今フロンティアAIがどこにいるかを描き、このフロンティアを同じグラフ上にプロットできます。そして、この水平に近いパフォーマンスは、はい、AIは大量の動きをしていますが、それらのアクションをパフォーマンスに変えることははるかに効率が悪いことを示しています。
ですから、たとえレベルやゲームを完了したとしても、それがブルートフォース的な方法で起こった場合、それは私にとってあまり意味がありません。なぜなら、それは環境から多くの情報を使用することができたからです。このギャップ、私たちがそれを呼んでいるのは、これら2つの間のデルタで、これを現在の人間とAIのギャップと呼んでいます。そして、プレゼンテーションの最初に戻ると、私たちのAGIの定義は、人間の学習効率に匹敵できるシステムだと言いました。
さて、このギャップを観察しているので、私たちの主張は、これがまだAGIの証明はないという証明だということです。さて、終わりに近づいてきて、私がいつも受ける質問で締めくくりたいと思います。それは、たとえば何かがARC AGI 3を打ち負かしたとしたら、それは何を意味するのか?何を主張できるのか?という質問です。そして、私がそれに答えるのが好きな方法は、私たちが行える主張と断言を列挙することです。
ですから、第一に、はい、このAIは新規の未見の環境をナビゲートしたと断言できます。環境のルールを学習し、目標に向けて自分自身を方向付けることができ、そしてその目標への計画を実行することができました。しかし、最後のものが私の心を毎回吹き飛ばすものです。
これが最終的に真実になるとき、私は少し鳥肌が立ちます。それは、最初の3つのことを実行しますが、人間レベルのアクション効率に匹敵するか、それを超えることによってそれを実行するということです。そして繰り返しますが、それが私たちの一般知能の唯一の証明点なのです。ですから、このすべてから自然に出てくる次の質問は、これがAGIだと主張するのかということです。まあ、以前のバージョンのARCと同様に、答えはノーです。
私たちはこれがAGIだとは主張しません。しかし、その反面、これが今日までに見たモデルの汎化の実証として最も権威ある証拠であると主張します。今日の皆さんへの私の唯一のCTAは、基本的にゲームをプレイしに行ってほしいということです。現在6つのプレビューゲームが公開されています。three.artprize.orgにアクセスしてチェックできます。
実際、私たちの目標は、来年のQ1までに175ゲームを公開することです。よし、175ゲームを来年のQ1までに。それはネタバレではありませんでした。1月は実際には少し早すぎます。しかしまた、もしエージェント的な気分であれば、実際にこれらのゲームを自分のエージェントでプレイできるAPIがあります。
ですから、これらを立ち上げて、それに向かって進むことができます。今日はお時間をいただきありがとうございました。


コメント