AIは実際どれほど知的なのか?

AIベンチマーク
この記事は約12分で読めます。

ARCプライズ財団のプレジデントであるグレッグ・カムラッドが、AI知能測定の新たなアプローチについて語る。フランソワ・シャレが2019年に提唱した「知能とは新しいことを効率的に学習する能力である」という定義に基づき、ARC AGIベンチマークは従来の難問解決型評価とは一線を画す。一般人が解けるがAIが苦手とする問題を通じて、真の汎化能力を測定する点が特徴だ。2024年にOpenAIのo1モデルで性能が急上昇したことで、推論パラダイムの重要性が明らかになり、現在ではOpenAI、xAI、Google、Anthropicなどの主要ラボがモデル発表時にARC AGI性能を報告する標準となっている。2025年3月にはより深化したバージョン2がリリースされ、次期バージョン3では約150のインタラクティブなゲーム環境を導入予定である。指示なしで環境を探索し目標を推測する必要があるこの新方式は、人間の行動回数を基準としてAIの効率性を評価する画期的な試みとなる。ARCベンチマークを完全攻略するシステムはAGI到達の必要条件ではあるが十分条件ではないという立場を明確にしつつ、真の汎化能力を持つシステムへの道筋を示している。

How Intelligent Is AI, Really?
ARC-AGI is redefining how to measure progress on the path to AGI - focusing on reasoning, generalization, and adaptabili...

ARC AGIベンチマークが示すAI知能の真の姿

今日はARCプライズのプレジデントであるグレッグ・カムラッドさんをお迎えできて嬉しいです。

その通りです。

美しいサンディエゴで開催されているヨーロッパ2025にお越しいただきありがとうございます。

ありがとうございます、ダイアナさん。

それでは、ARCプライズ財団は何をしているのでしょうか?

はい。ARCプライズ財団は非営利団体なのですが、少し変わった非営利団体なんです。というのも、私たちは非常にテクノロジー志向だからです。私たちのミッションは、人間のように汎化できるシステムに向けたオープンな進歩を加速させることです。

フランソワ・シャレによれば、彼は知能を新しいことをより効率的に学習する能力と定義しています。これは、MLU benchの数値を追いかけているすべてのモデルリリースのベンチマークを見ている創業者たちにとって何を意味するのでしょうか?

はい、その通りです。ARCプライズのクールな点の一つは、知能について非常に明確な定義を持っていることです。

これはフランソワが2019年に発表した知能の測定に関する論文から来ています。その中で、通常は知能というとSATテストでどれだけ得点できるか、あるいはどれだけ難しい数学の問題が解けるかと考えるでしょう。しかし彼は実際に別の理論を提案しました。それがARCプライズが行っていることの基礎となっているのです。彼は実際に知能を新しいことを学習する能力と定義しました。

私たちはすでにAIがチェスにおいて本当に優れていることを知っています。人間を超えています。AIが囲碁において本当に優れていることも知っています。人間を超えています。自動運転においても本当に優れていることを知っています。しかし、これらの同じシステムに別のスキル、異なるスキルを学習させること、それが実際には難しい部分なのです。そしてフランソワは知能の定義の提案と並行して、こう言いました。私は定義だけでなく、新しいことを学習できるかどうかをテストするベンチマークやテストも持っていると。

なぜなら一般的に人々は長い時間軸で新しいことを学習するからです。数時間、数日、あるいは一生涯かけてかもしれません。しかし彼はARC AGIと呼ばれるテスト、当時は単にARCベンチマークと呼ばれていましたが、それを提案しました。

その中で、彼は新しいことを学習する能力をテストします。本当にクールなのは、人間だけでなく機械もこのテストを受けることができるということです。他のベンチマークでは、私が博士号以上の問題と呼ぶもの、つまりより難しい問題に挑戦しようとするかもしれません。MMLUがあり、MMLUプラスがあり、そして今では人類最後の試験があります。

これらは人間を超えていますよね。ARCベンチマークは普通の人々ができるものです。実際、私たちはすべてのベンチマークをテストして、普通の人々ができることを確認しています。

聴衆の皆さんのために少し背景を説明すると、この特定の賞は、2024年以前、強化学習がまだ登場する前、事前学習だけを使った多くのLLMにとって有名なものでした。

これらの大規模な言語モデルはすべてひどい成績だったんですよね?

はい、絶対的にひどかったです。なんだか奇妙なんですが、今ではAIを困らせる問題を考え出すのが難しくなっています。2012年のImageNetの時代には、人々に猫の画像を見せるだけでコンピューターを困らせることができました。

しかしフランソワが2019年に彼のベンチマークを発表してから、2024年まで早送りすると、当時はGPT-4だったと思いますが、ベースモデルで推論なしの場合、4%程度だったと思います。4%か5%です。これは明らかに、人間はこれができるが、ベースモデルは何もできていないことを示していました。そして実際に本当にクールなのは、o1が登場した時です。o1とo1 previewが最初に出た時にテストしたことを覚えています。パフォーマンスが21%まで跳ね上がったと思います。

5年間でたった4%だったのに、その後短期間で21%になったということは、本当に興味深いことが起こっていることを示しています。実際、私たちはARCを使って推論パラダイムが巨大であることを特定しました。それは当時AIに貢献していたものにとって実際に変革的でした。

あまりにも大きな影響だったので、現在ではすべての大手ラボ、xAI、OpenAIが実際にモデルリリースの一部として、そして彼らが達成している数値としてARC AGIを使用しています。今では標準になっているんです。

そうですね。私たちはコミュニティがARC AGIが何かを伝えることができると認識してくれていることに興奮しています。それが私たちが興奮していることです。

公開ラボやOpenAIのようなフロンティアラボが彼らのパフォーマンスを報告する際に私たちを使用してくれることは、彼らも「はい、私たちはこのフロンティアモデルを出しました。これが私たちがパフォーマンスを測定する方法です」と言ってくれるという点で本当に素晴らしいことです。過去12ヶ月で、あなたが言う通り、OpenAI、Grok 4を持つxAI、Gemini 3 ProとDeepthinkを持つGemini、そしてつい最近ではOpus 4.5を持つAnthropicがありました。

それは素晴らしいですね。これらすべてのリリースでうまくいっていることは何ですか?

彼らがそれを採用していることは本当にうまくいっています。しかし、そこから生まれる虚栄的な指標についても注意を払っています。彼らが私たちを使用しているからといって、必ずしも私たちのミッションが完了したとか、私たちの仕事が終わったとか、私たちがここでやろうとしていることが達成されたということを意味するわけではありません。

なぜなら、再びARCプライズのミッションに立ち返ると、オープンなAGI進歩を加速させることだからです。私たちは研究者、小規模チーム、個人研究者を刺激したいのです。大手ラボが多かれ少なかれ推薦を与えてくれることは、そのミッションにとって本当に良いことですが、全体的なミッションに対しては二次的なものでもあります。多くのチームがAI製品を出荷しようとしているのを見てきた今、あなたが観察する最も一般的な偽陽性は何ですか。進歩のように感じられるが、実際には進歩ではないもの。なぜなら、どこかでベンチマークを達成して完了と呼ぶのは簡単かもしれませんが、

実際にはうまく機能しないからです。

はい。その質問に答える際、私はほぼ研究者の帽子をかぶります。なぜならAIの中には現在非常に目立つ2つの帽子があるからです。経済的に価値があるという帽子、つまり私たちはこの製品を収益化するつもりだという帽子と、汎用知能のロマンチックな追求と呼べる帽子があり、私は後者の帽子をかぶっています。

目立つことの一つは、もちろん誰もが話していることですが、すべての強化学習環境についてです。有名なAI研究者たちが、強化学習環境を作ることができる限り、このベンチマークやドメイン、あるいはそれが何であれ、良いスコアを出すことができると言っています。私にとってそれはモグラ叩きのようなものです。

あなたが最終的にやりたいと思うすべてのことに対して強化学習環境を作ることはできないでしょう。そしてAGIの核心は新規性と、将来やってくる新しい問題です。ちなみにこれが私たちが隠しテストセットを持っている理由の一つです。だから私は、それがクールで短期的な利益を得られるとしても、実際に汎化しているシステムへの投資を見たいと思います。そしてそのための環境は必要ありません。なぜなら、人間と比較してみれば、人間はそれを訓練するための環境を必要としないからです。

ARC AGIの進化とインタラクティブベンチマークへの道

ARC AGIバージョンの歴史を少し説明していただけますか。ARC AGI 1、2があり、3がまもなく登場します。

はい。

これはゲームのような環境とインタラクティブな要素を持つ全く新しいものです。歴史を説明してから、

バージョン3について教えてください。

はい、もちろんです。

ARC AGI 1は2019年に登場しました。それはフランソワが提案したものです。彼はその中の800のタスクすべてを自分で作ったと思います。それ自体が大きな偉業です。そしてそれは知能の測定に関するこの論文と共に来ました。2025年、つまり今年、今年の3月初めにARC AGI 2を発表しました。それをARC AGI 1のより深いバージョン、またはアップグレードされたバージョンと考えてください。

興味深いのは、これら2つは両方とも静的ベンチマーク、あるいは準静的ベンチマークと呼べるものです。来年ARC AGI 3を発表する予定です。ARC AGI 3の大きな違いは、インタラクティブになることです。現実や私たちが皆住んでいる世界について考えると、私たちは常に行動を起こし、フィードバックを得て、環境と行ったり来たりしています。

そして私の信念では、将来のAGIはインタラクティブなベンチマークで宣言されるでしょう。なぜならそれが本当に現実とは何かだからです。V3は約150のビデオゲーム環境になります。ビデオゲームと言うのは、それが簡単に伝える方法だからですが、実際にはあなたが行動を与えて、何らかの応答を得る環境です。

本当にクールな部分、そしてV3について私を最もわくわくさせることの一つは、環境を完成させる方法についてテスト受験者に何の指示も与えないことです。英語もなければ、単語もなければ、シンボルもありません。ベンチマークを攻略するためには、中に入って、いくつかの行動を取り、環境がどう反応するかを見て、そもそも最終目標が何なのかを理解しようとする必要があります。

私はそれらのゲームをたくさん試してみました。実際に面白かったです。

そうですね、クールです。Arc 1とArc 2と同じように、V3のすべてのゲームで人間をテストしています。一般の人々、つまり会計士、Uberドライバー、そういったタイプの人々を募集します。各ゲームに10人を配置し、各ゲームが通常の人間による最低解決可能性の閾値を通過しなければ、それを除外します。

繰り返しますが、これは他のベンチマークがより難しく、より難しく、より難しい問題に挑戦しようとするのとは対照的です。しかしARC 3が存在し、普通の人々ができるのにAIができないという事実は、まだ何かが欠けていることを示しています。研究のための新しいアイデアが必要な、明らかに欠けているものがあるのです。

人間の能力で知能を測定するという大きなテーマがありますね。

はい。

精度がモデルにとって重要な唯一の指標ではないという考えが高まっています。

はい。

新しいスキルを習得するのにかかる時間とデータ量も重要で、それがこのARC AGIの精神全体です。

はい。

質問は、人間の時間でモデルを評価することにどれだけ近づいているかということです。

はい。人間の時間に関しては、実際には時間を少し恣意的なものと見なしています。なぜなら、何かにより多くの計算資源を投入すれば、とにかく時間を短縮できるからです。それはほとんど、どれだけの計算資源が欲しいかの決定の問題であり、それがどれだけの時間がかかるかを示し、壁時計時間がここで知能にとって重要な部分ではないかもしれないことを教えてくれます。

しかし知能の方程式には他に2つの要因があります。第一は必要なトレーニングデータの量です。それはまさにあなたが言ったことです。そして第二は実際にその知能を実行するために必要なエネルギーの量です。これらが非常に魅力的な理由は、これら両方について人間のベンチマークがあるからです。

タスクを実行するために人間が必要とするデータポイントの数がどれだけか分かっています。そして人間の脳がタスクを実行するためにどれだけのエネルギーを消費するかも分かっています。ARC AGI 3では、実際に効率性を測定する方法は精度だけではありません。それらはビデオゲームで、ターンベースのビデオゲームだと言いました。そしてクリックします。上、左、右、下などをクリックするかもしれません。

人間がゲームを攻略するのに必要な行動の数を数えます。

そしてそれをAIがゲームを攻略するのに必要な行動の数と比較します。2016年の古いAtariの時代に彼らがビデオゲームに取り組んでいた時、彼らは力ずくの解決策を使い、何百万、何十億ものフレームのビデオゲームを必要とし、基本的に空間をスパムして力ずくで攻略するために何百万もの行動を必要としました。

ARC 3ではそれをさせるつもりはありません。基本的にAIのパフォーマンスを私たちが見る平均的な人間のパフォーマンスに正規化するつもりです。

それはとてもクールですね。

はい。

最後の質問です。

はい。

魔法の杖を振って、明日突然、ARC AGIベンチマークで100%のスコアを出すモデルを立ち上げる素晴らしいチームが現れたとしましょう。

AGIとは何かについて、世界はどのような事前分布を更新すべきでしょうか?

はい。

世界はどう変わるでしょうか?

AGI到達の条件とARCベンチマークの役割

それを聞かれるのは面白いですね。AGIとは何かという質問は、もっと深く掘り下げることができる非常に深いトピックです。最初からフランソワは常に、ARC AGIを解決するものはAGIにとって必要だが十分ではないと言ってきました。

つまり、ARC AGI 1と2を解決するものはAGIではありませんが、汎化の権威ある源になるということです。V3に関する私たちの主張は、それを攻略するものはAGIではないが、汎化できるシステムについて私たちが今日まで持っている最も権威ある証拠になるということです。

もしあるチームが明日それを攻略したら、私たちはもちろんそのシステムを分析し、そこから生まれる失敗点がどこにあるかを把握したいと思います。そして優れたベンチマーク作成者として、私たちは世界を私たちが適切なAGIだと信じるものへと導き続けたいのです。

しかし最終的にARCは、実際にAGIを持っているとき、それを完全に理解し、宣言する準備ができている立場に自分たちを置きたいと考えています。もしそのチームが明日それを成し遂げたら、私たちは彼らと会話をしたいと思います。こう言っておきましょう。

まとめるのに良い方法ですね。グレッグさん、お越しいただき、お話しいただきありがとうございました。

ありがとうございます、ダイアナさん。

コメント

タイトルとURLをコピーしました