ARC-AGI-3 人間とAIの能力ギャップを測る新たなベンチマーク

ARC財団が新たに発表したARC-AGI-3は、人間とAIの能力差を測定する革新的なベンチマークである。従来の静的パズル形式から脱却し、AIをインタラクティブな環境に配置して自律的な問題解決能力を評価する。数百種類のオリジナルゲームと約1000のレベルが手作りで用意され、説明書なしでルールを探索し目標を獲得する必要がある。現在のフロンティアAIのスコアは1%未満であり、これは唯一の未飽和エージェントベンチマークとされる。人間の行動数をベースラインとして学習効率を測定する点が特徴的で、単なる正解率ではなくアルゴリズム学習効率を評価する。200万ドルの賞金を懸けたコンペティションが2026年に開催され、このギャップをオープンソースの進歩に変えることを目指している。

ARC-AGI-3

Greg Kamradt, ARC Prize President, launches ARC-AGI-3 on March 25, 2026* Learn more about ARC Prize - ARCPrize.org* Play...

AGIに向けたフロンティアの定義
ARC財団のミッション
人間にできてAIにできない問題領域
V1とV2から学んだこと
ARC-AGI-3の発表
ゲームの特徴とデザイン制約
人間による検証とベースライン
フロンティアAIのテスト結果と失敗モード
スコアリングと学習効率の測定
ARC-AGI-3攻略に必要な4つの能力
2026年コンペティションの発表

AGIに向けたフロンティアの定義

この部屋にいる皆さんは、おそらくフロンティアがどこに向かっているのか気になっているはずです。それは常に頭の中にあって、考え続けていることでしょう。そしてそのフロンティアは、実は何か具体的なものを指し示しています。

そのフロンティアが指し示しているのは、人間と同じように学習できる人工知能です。言い換えれば、フロンティアは汎用知能を目指しているのです。

ARCプライズでは、汎用知能について非常に具体的な定義を持っていて、それが私たちの活動すべてを形作っています。私たちは、汎用知能は単なるスキルの集合ではないと考えています。つまり、どれか一つのスキルでどれだけうまくやれるかということではなく、もっとメタ的な側面なのです。

重要なのは、新しいスキルを学ぶ能力です。学習という部分こそが大切なのです。

ヘッドラインが示唆することとは裏腹に、私たちはまだAGIを手にしていません。これは確信を持って言えます。なぜなら、人間にできることとAIにできることの間には、まだギャップがあるからです。今夜は、それを証明するベンチマークをお見せします。

ARC財団のミッション

ARC財団は、この人間とAIのギャップに注目を集めることを目的として存在しています。私たちは二つの方法でこれを実現しています。

一つ目は、進捗を測定することです。ARC AGIをツールとして使い、フロンティアがどこにあるのかを把握します。これは公共のセンス・ファインディング・ツールとして機能しています。

二つ目の方法は、ベンチマークをターゲットとして使うことです。このターゲットという部分が興味深いのです。なぜなら、新しいアイデアにインセンティブを与えてベンチマークを打ち破ろうとさせ、それらをオープンドメインに持ち込むことができるからです。そのために、私たちはコンペティションやリーダーボードを開催しています。

他のAIベンチマーク組織と比べて、ARCは運営方法において非常にユニークなアプローチを取っています。私たちと他との違いは、人間にはできるがAIにはまだ手が届かない問題に焦点を当てている点です。このような原則的な立場を取っているベンチマーク組織は、他に知りません。

AGIにどれだけ近づいているかを測りたいなら、手元にある唯一の汎用知能の存在証明と直接比較するのが理にかなっています。そしてその存在証明とは、もちろん人間です。

人間にできてAIにできない問題領域

人間にはできてAIにはできない問題を見つけようとする場合、一回限りの問題を思いつくのは簡単です。私も新しいモデルが出るたびにChatGPTやOpusに聞いて困らせようとする問題のリストを持っています。でも、一つの問題を思いつくのは簡単なんです。例えば「Strawberryという単語にRは何個ありますか」といったような。

しかし、問題のクラス全体、つまり人間にはできてAIにはできない問題領域全体を作り出すのは、はるかに難しいことです。それこそが、ARCプライズで私たちが行っていることなのです。

最高のベンチマークとは、AIにとって難しいだけでなく、研究コミュニティが進歩を続けるインスピレーションを得られるほど扱いやすいものだと私たちは信じています。だからこそ、単一のベンチマークではなく、一連のベンチマークを持っているのです。ARCは一つだけではありません。

よく聞かれる質問として「ベンチマークを動かしているのですか?ゴールポストを動かしているのですか?新しいベンチマークを出したということは、それをまた動かすつもりですか?」というものがあります。私たちの答えは、ゴールポストはAGIだということです。それが私たちが目指している最終目標なのです。

ARCプライズの人間対AIという哲学においては、ARC AGIベンチマークは有限の数しか存在できません。このギャップが実際に閉じてゼロになる終了日が想定されているのです。組織として、人間にはできてAIにはできない問題をもう作れなくなったとき、実質的にその時点でAGIを手にしたことになります。それが、AGIがここにあると分かる方法です。

この立場について私が気に入っているのは、反証可能な主張だということです。私たちはベンチマークを公開し、コントロールしていません。仮説を持って公開し、コミュニティがどう反応するかを見ます。いつか私たちはそのような問題を作れなくなるでしょう。それが反証可能な主張なのです。

V1とV2から学んだこと

V1とV2を作ることで学んだのは、今日のAIのフロンティアについて最も鋭いシグナルを得るには、新しいベンチマークが必要だということです。ARC AGIシリーズの各新ベンチマークは、AIの能力がどこにあるのかについて何かを教えてくれます。ARC 1とARC 2から学んだことをお見せしましょう。

フランソワ・ショレは2019年にARC-AGI-1を発表しました。これはLLM以前、スケール以前だったことを覚えておいてください。その後5年間、あらゆるスケールにもかかわらず、モデルは依然として実質的な進歩を見せていませんでした。

しかし、2024年12月に最初のジャンプが見られました。これはOpenAIがO3モデルをプレビューしたときです。この後、激しいジャンプが見られました。そして起こったのは、推論パラダイムが本格的に離陸し始めたことでした。

つまり、ARC-AGI-1は、私たちが見た通り、まさにこの推論パラダイムのシグナルだったのです。

次のマイルストーンはARC-AGI-2で訪れました。これはちょうど1年ちょっと前にリリースされたばかりです。ARC-AGI-1では進歩がありましたが、ARC 2ではそれほど多くの進歩はありませんでした。しかしその後、次の大きな能力ジャンプが見られました。これはエージェントコーディングが離陸し始めたときのシグナルでした。人間が制御しているエージェントにより多くの自律性を与えられるようになったことに気づきました。以前は人間が50%以上の制御を与える必要がありましたが、今ではある程度50%でできるようになっています。

しかし、ご存知の通り、私たちはまだAGIを手にしていません。そして新しいアイデアが依然として必要だと分かっています。必要なのは、今後のAIの未来で期待される次の能力ジャンプのステップを知らせてくれるツールです。

ARC-AGI-3の発表

今夜、ARCプライズは次に来るものをお見せします。

今夜、私たちはARC-AGI-3をリリースします。

V1とV2では、AIに静的なパズルを与えて「これを解けますか?」と尋ねました。しかしV3では、AIをインタラクティブな環境の中に置いて「自分自身で、一人で理解できますか?」と尋ねます。

私たちはこのベンチマークのために数百のゲームを作り、約1000の異なるレベルを含めました。これらのゲーム一つ一つは、人間の手で作られました。これらのゲームを作るのにProcgenは一切使っていません。実際、これを完成させるために、世界で最も生産的なゲームスタジオの一つを立ち上げなければなりませんでした。実は、この部屋にはこれらの構築を手伝ってくれたゲーム開発者がたくさんいます。手を挙げてもらえますか?素晴らしい。あそこに良いグループがいますね。

ゲームの特徴とデザイン制約

ARC-AGI-3では、すべてのゲームがそれぞれオリジナルで新規のものになります。以前のゲームベンチマークとは異なり、これらのゲームは以前に存在したことがありません。私たちが持っていたゲームデザインの制約の一つは、新規でなければならず、ゲームの世界で以前に存在していてはならないということでした。

このため、人間であれAIであれ、テストを受ける者はこれらのゲームを事前に見たことがありません。そして暗に言えることは、これらはトレーニングデータに含まれていないということです。

各ゲームは異なるメカニクスと推論タイプを持っています。しかし、落とし穴があります。その落とし穴とは、ゲームには説明書が付いていないということです。つまり、テストを受ける者は環境を探索し、その場で目標を獲得し、世界モデルを構築し、継続的に学習することを強いられます。

ゲームを初めてプレイし始めたとき、あまり意味が分からないでしょう。でもそれは意図的なものです。なぜなら、ルールを理解するために環境と相互作用することを強いられるからです。

これらの環境は、各レベルが互いに積み重なるように構築されています。レベル3をプレイしているなら、レベル1とレベル2で学んだことを引き継がなければなりません。レベル3を攻略する他の方法はありません。

これは、ARC-AGI-3を攻略するエージェントが、継続的に世界モデルを更新する最初の兆候を示すことを意味します。そうでなければV3を攻略することはできないのです。

人間による検証とベースライン

これらのゲームはすべて人間が解けるものです。これは分かっています。なぜなら、私たちがテストしたからです。これらの人間を選んだとき、慎重な選択は行いませんでした。スキルの事前スクリーニングも行いませんでした。特別なトレーニングもありませんでした。彼らは一般市民でした。

これを行った理由は、ゲームが難しすぎた場合、単にベンチマークから除外したからです。つまり、人間が解けるものだけを含めました。

しかし素晴らしいのは、人間がこれらのゲームを解けるかどうかを知りたかっただけでなく、プレイしている間に、これらのゲームを完了するのに何回のアクションが必要だったかを数えたことです。

アクションを数えることで、ゲームを完了するのにどれだけ効率的だったかを実際に知ることができます。人間が汎用知能の唯一の証明ポイントであるため、汎用知能がこれらのゲームをどれだけ速く解けるかのベースラインを手に入れたことになります。

フロンティアAIのテスト結果と失敗モード

私たちは同様の指標でフロンティアAIもテストしました。そして現在のAIのいくつかの興味深い失敗モードを見てきました。

第一に、AIは将来の出来事を予測するのが非常に難しいのです。頭の中でシミュレーションを実行する必要があるとき、今の行動が5手先や6手先で世界にどう影響するかを理解する必要があるとき、それができないのです。

第二に、AIは現在、以前の経験から学んで次に何をすべきかを決めることができません。初期の仮説に固執して、そこから外れることができない場合があります。あるいは、より興味深い例の一つとしては、別のゲームをプレイしていると思い込むことです。これらのゲームの一つをプレイして、トレーニングセット内で非常に強く定着しているため、別のゲームをプレイしていると思い込み、実際には自分がプレイしているのがそのゲームではないことに気づけないのです。

今日の最高のエージェントは依然として人間をループに入れる必要がありますが、V3を攻略するエージェントは、そのレベルの監督を必要としないことを示すでしょう。

スコアリングと学習効率の測定

最初から言っているように、すべてのゲームは人間が解けるものであり、ティアAIは現在1%未満のスコアです。これは、私たちが知る唯一の未飽和エージェントベンチマークです。

これが通常のベンチマークであれば、正解率を数えるだけでしょう。つまり、いくつのレベルを攻略したか、いくつのゲームを攻略したかを数えます。しかし、人間のベースラインがあるため、AIが何回のアクションを取ったかを、人間が同じことをするのに取った回数と直接比較できるのです。そして、この効率性に基づいてスコアを付けます。

つまり、ARC-AGI-3で100%のスコアを取るということは、すべてのゲームを攻略しただけでなく、人間レベルの効率性と同等かそれを上回る形で達成したことを意味します。これは、ただブルートフォースでゲームを攻略しようと考えている人にとっては、効率が悪くなるでしょう。うまくいきません。

この学習効率の測定、これは本当にアルゴリズム学習効率です。これは他のベンチマークが現在持っていないものです。そしてこれはARC-AGI-3の中で第一級の市民となります。

ARC-AGI-3攻略に必要な4つの能力

ARC-AGI-3を攻略するために、エージェントは4つのことをする必要があります。

一つ目は、未知の環境を探索する必要があります。

二つ目は、自分自身の目標を獲得する必要があります。

その場で世界モデルを構築する必要があります。

そして継続的に学習する必要があります。

これらは、現在のAIベンチマークや今日のコーディングエージェントに欠けている能力と同じものです。ARC-AGI-3は、これらの失敗モードがどこにあるのかを正確に特定します。

この分野に関する研究には多くの作業が必要です。そして、これまでのARCプライズから何かを学んだとすれば、新しいアイデアは単一の著者から生まれることもあれば、個人の研究者から生まれることもあると分かっています。新しいアイデアは、この部屋にいる誰かから生まれるかもしれません。

2026年コンペティションの発表

今日はまた、ARCプライズ2026の開幕を記念します。私たちは、この人間とAIのギャップをオープンソースの進歩に変えるための200万ドルのコンペティションを発表します。

私たちは二つのコンペティションを並行して実施します。中心となるのはARC-AGI-3コンペティションです。ここにエージェントを提出すると、隠されたホールドアウトセットに対して直接テストされます。そして、私たちはKaggleと提携しています。これは単なる通常のKaggleコンペティションではありません。彼らは実際にARC-AGI-3エンジンをサポートするためにプラットフォームをアップグレードしました。

Kaggle、本当にありがとうございます。

二つ目のトラックでは、オリジナルのARC-AGI形式の最後の年を開催します。つまり、これはARC-AGI-2ベンチマークがKaggleで公開される最後の年であり、今年はグランプライズを保証します。つまり、今年は誰かがグランプライズを獲得し、グランプライズが授与されます。

両方のコンペティションは、今Kaggleでライブになっています。

今夜の皆さんへの挑戦を一つだけお伝えします。この部屋の周りに、たくさんのラップトップがあり、自分でプレイできる25の異なる公開ゲームがあります。ぜひ試してみてください。

そして、ARC-AGI-3を攻略するエージェントを構築したい場合は、arcprize.orgにアクセスして確認してください。

それでは、今夜の締めくくりとして、本当に楽しんでいただけると思う会話、メンロ・ベンチャーズのDDドスがモデレートするファイアサイドをお届けします。フランソワとサム・アルトマンをステージにお迎えください。