ARC-AGI-2 概要フランソワ・ショレによる解説

7,698 文字

ARC-AGI-2 Overview With Francois Chollet

ARC-AGI: was launched on March 24, 2025. This second edition in t...

今日は、ARC AGI 2によるその旅の次のステップについて早期にご紹介します。この先に何が来るのかを説明するために、Arc AGIの創始者であるフランソワ・ショレに登場していただき、Arc AGI 2について詳しく話していただきます。
ありがとう、グレッグ。
さて、昨年、2024年まで、私たちの分野はより多くのデータをより大きなモデルに詰め込むことから一般的知能が自然に現れるという考えに取り憑かれていました。私たちは、静的でタスク特化型のスキルと知識を、その場で初めて見るものを理解する能力である真の流動的知能と混同していました。
そこで2019年に、スキルと一般的知能の違いを強調し、ディープラーニングのパラダイムに挑戦するために、抽象的推論コーパス、つまりRK-AGI 1を特に発表しました。それ以来、RK-AGI 1は事前訓練のスケーリングパラダイムに完全に抵抗してきました。2019年の発表から現在まで、ベーゼルの規模はおよそ5万倍拡大し、ARK1でのスコアは0から約10%になりました。それはあまり高くありません。なぜなら、この部屋にいる皆さんなら少なくとも95%以上のスコアを取れるからです。
一般的な流動的知能を解明するためには、単に既にやっていることをスケールアップする以上の、より良いアイデアが必要だということがわかりました。そして2024年、すべてが変わりました。AIの研究コミュニティ、そしておそらくこの部屋にいる多くの皆さんも、異なる種類のパラダイム、つまりテスト適応に向けて方向転換し始めました。これはもはや記憶されたスキルを再現するだけの話ではなく、その場で初めて見るタスクを理解することについてでした。
そして突然、テスト時の訓練やプログラム合成、思考の連鎖合成などの技術を使ってARK1で非常に良いスコアが見られるようになりました。特に、当時OpenAIのO3モデルは人間レベルのスコアを出し始めました。そして、ここで注目すべき非常に重要なことは、これが深遠な変化、深遠なパラダイムの転換であり、ARC AGIは実際に何かが起きている、何かが本当に変わったという強い信号を提供した唯一のベンチマーク、少なくとも数少ないベンチマークの一つだったということです。
そこで、O3がRK-AGI 1で人間レベルのスコアを出しているとして、今日、私たちはAGIを持っているのかと疑問に思うかもしれません。しかし、それはデータが正確に示していることではありません。このグラフを見ると、RK-AGI 1はバイナリなベンチマークだったことがわかります。実質的には二つのモードしかありませんでした。つまり、流動的知能がまったくなくてスコアが非常に低いか、流動的知能が少しあって瞬時に非常に高いスコアを取るか、その間にはほとんど何もありません。
そして、それがここでこのゼロから1へのステップ関数が見られる理由です。もちろん、実際には人間レベルの流動的知能をはるかに下回る点で飽和しており、皆さんなら誰でも100%に近いスコアを取るでしょう。AIの流動的知能の現在のレベルと人間の流動的知能の違いをより良く捉えるためには、より感度の高い、より有用な帯域幅を持つ測定方法が必要です。そして、ちなみに、今では本当の流動的知能を持つシステムが確かに存在しています。
AIの流動的知能と人間の流動的知能の違いを測定するために、私たちは過去数年間、まさにそのようなツールに取り組んできました。それがRK-AGI 2です。2019年のRK-AGI 1はディープラーニングのパラダイムに挑戦するものでした。そして今、2025年の私たちは、このテスト適応、つまりテスト時に推論し適応するシステムに挑戦しています。
ARK 2では多くの点を修正し、アップグレードしました。V1の欠点の1つは、難易度が調整されておらず、人々がこれらのタスクでどの程度のパフォーマンスを発揮するのか、実際に把握していなかったことです。私たちは一次データを広範囲に持っていませんでした。ARK 2ではこれを修正しました。
まず、私たちがテストした数百人の中で、少なくとも2人がそのタスクを解決できるタスクだけを残しました。各タスクは平均して約7人に見られ、私たちの3つの評価セット、つまり公開評価、非公開評価、準非公開評価はすべて、完全に難易度が調整されています。すべてが人間のテスト対象者に関して正確に同じ難易度です。
平均して、サンプルからの1人のテスト対象者は各セットの約60%を解決します。そして小さなパネル、約10人を多数決投票で取ると、100%に達します。私たちはこれらのタスクがすべて人々によって実現可能であることを知っています。なぜなら、サンディエゴで400人を直接、現場で、複数の日にわたって、多くのセッションでテストしたからです。私たちが話しているのは物理学の博士号を持つ人々ではありません。私たちはランダムな人々を募集しました。Uberのドライバー、UCSDの学生、失業中の人々などです。
私たちは、これらのタスクが一般の人々に実行可能であることを本当に知っており、平均して1人のテスト対象者は1つのタスクを解決するのに約5分かかりました。もう一つの大きな変化はタスクの洗練度です。ARK 1の大きな欠点の1つは、簡単に総当たり的に解決できたことです。
例えば、2020年にARCに関する最初のKaggleコンペティションの後、コンペティションのすべてのエントリーをアンサンブルすると、非公開テストセットの半分を解決できることがわかりました。当時、すべての提出物は基本的に基本的な総当たりプログラム検索を行っており、非常に低い計算予算で行っていました。これが示しているのは、非公開テストセットの半分が簡単に総当たり的に解決でき、流動的知能についての非常に弱い信号しか提供していなかったということです。これは重大な欠陥です。
ARK 2では、これを完全に修正しました。ARK 2で同じ種類の技術を使用すると、0%になります。具体的に言うと、ほとんどのARK 1タスクを見ると、通常、考えなくても瞬時に何が起こっているのかを理解できます。それはほとんどパターン認識のようなものです。一方、ARK 2では、常に少なくともある程度の意図的な思考をする必要があります。解決策が即座に明らかになることはありません。そして、私たちの人間のテスト対象者は平均してタスクごとに5分かかったことを覚えておいてください。かなり複雑なことが起きているのです。
質的に言って、これらのタスクは実際にどう違うのでしょうか。ARK 2の公開セットからいくつかのタスクをお見せします。これらは、人間のテスト対象者の大多数が答えを理解できたけれども、私たちがテストしたAIシステムは解決できなかったタスクです。
ARK 2で多く見られるのは、タスクのコンテキスト内で何らかの意味が割り当てられる記号の解釈という概念です。例えば、ここではこれらの色の長方形に穴があり、色と穴の数をプレッツェルのような形の中で関連付けています。実際、現在の最先端モデルは以前に見た記号を認識することにはとても優れています。しかし、このようなコンテキスト内で新しい意味を理解することはあまり得意ではありません。
ARK 2でよく見られるもう一つは、多段階の合成的推論です。これは、一度だけ適用するとタスクが解決される1つのルールを持つのではなく、同じルールを繰り返し適用する必要があり、各新しいステップは前のステップの出力に依存するか、あるいは2つの異なるルールがあり、それらが互いに相互作用するという考えです。例えば、ここでは、1つのオブジェクトを配置するためには、前のオブジェクトを既に配置している必要があります。入力を見ただけでは、実際にオブジェクト配置のステップのシーケンスを経なければ、特定のオブジェクトが出力のどこに落ち着くのかを予測する場所は基本的にありません。
そして、文脈的なルール適用があります。これはかなり基本的なものです。推論の連鎖に少しの制御フローのホップを追加するという考えです。例えば、ここではいくつかの正方形があり、それらを側面に積み重ねる必要があります。最先端モデルは実際に、これが側面に正方形を積み重ねることについてだと理解できますが、本当に把握するのが難しい部分は、選ぶべき側面が輪郭の色によって決まるという事実です。これは、明らかにまだ非常に難しい追加の制御フローステップです。
現在のAIモデルはARK 2でどの程度のスコアを出すのでしょうか。ちなみに、ここに挙げたモデルよりもはるかに多くのモデルをテストしましたが、それらはすべて0のスコアでした。これはARK 1で得られたものより大幅に低いです。これが示しているのは、これらのタスクは単に記憶だけでは対処できないということです。
そして、O1やO3 miniなどの思考の連鎖を一度だけ生成する「推論モデル」と呼ばれるものを見ると、実際にはあまり改善されません。スコアは約1%、0と1.5%の間です。これが本当に示しているのは、このタスクを解決するにはテスト適応を行う必要があるということです。もちろん、思考の連鎖を一度生成することで、ある程度の適応が得られますが、それは非常に弱く、ほとんど静的なモデルです。
実際にテスト適応を行うモデルを見ると、例えば、昨年のコンペティションに参加した最高のモデルは3.5%のスコアを出しています。これは、テスト時の訓練とプログラム合成の組み合わせを使用するモデルで、完全にARCを解決するために設計され、このタイプのタスクを解決するために訓練されています。そして、テスト時の検索を行う新しいモデルがあり、これは非常に期待されています。それはおそらく今日の世界で最も賢いモデルであるO3です。
O3はどこまで行けるのでしょうか。残念ながら現在モデルにアクセスできないため、ここでは正確なデータはありません。しかし、私たちがARK 1でO3をテストしたいくつかのタスクが実際にARK 2に入っていることは把握しています。それに基づいて推定を提供できます。低計算設定のO3は、おそらく4～5%の間のスコアを出すと思います。低計算設定でも、タスクごとに約30ドルから100ドルの範囲です。
高計算設定のO3については、計算コストがタスクごとに3,000ドルから場合によっては20,000ドルの範囲で話をしていますが、何点を取るか本当にわかりません。ただ、利用可能なデータに基づいた私の推測では、約15%だと思います。
本当に心に留めておいてほしいことの一つは、ARGIは今日私たちがAGIを持っているかどうかをテストするためのものではないということです。それはポイントではありません。これは、AGIへの道のりで最も重要な未解決のボトルネックに向けて研究コミュニティの注意を向けるためのツールです。それは本当に目的地ではなく、ARGIを解決することがゴールではありません。それはむしろ、正しい方向を指し示す矢印のようなものです。
明確にするために、最初はARCと呼ばれていた抽象的推論コーパスから始まりました。残念ながら同じARCという名前の別の評価との区別をつけるために、AGIという接尾辞を追加する必要がありました。もちろん、ARGIはプログラム合成システムや一般的な思考合成システムなどの数少ない推論システムをテストするための興味深い遊び場でもあります。これが、昨年本当に普及した理由の一つで、この種の遊び場が必要だったのに、なかったのです。
ARGIがAGIのテストではないという話題について、本当に明確にしたいことの一つは、ARK 1が総当たり的に解決できたのと同じように、ARK 2も総当たり的に解決することが可能だということです。もちろん、ARK 2はARK 1よりもはるかに総当たり的に解決しにくいですが、最終的にはそれは検証可能な領域です。十分に深いプログラム検索プロセスを十分に柔軟なDSLで実行すれば、実際にそれを解読するでしょう。おそらく数十億ドルの計算コストがかかるでしょうが、理論上、原則的には可能です。
本当の問題は、それができるかどうかではありません。もちろんできます。問題は、どれだけ効率的にできるかです。それは単に経済の問題ではありません。効率性が知能の中心にあると本当に考えています。知能は単に何らかのタスクでスキルを示すことではなく、どれだけ効率的にスキルを獲得し、展開できるかということです。データ効率と計算効率の両方です。なぜなら、テスト時の検索を行うこれらのモデルを見ると、単により多くを費やすことで常により高いパフォーマンスを買うことができるからです。青色のモデルは異なる計算予算での同じモデルであり、赤い線も同様です。
今後、私たちは常にこの2次元プロット上でRKGIスコアを報告し、横軸にタスクあたりのコスト、縦軸にスコアを示します。本当に、モデルのIQ、モデルのIQは単にY軸上のどこに位置するかではなく、プロット上のどこに位置するかです。私たちが目指すべきは、この左上の角です。ここに人間の知能があります。人間の知能は非常に高い知能を持っているだけでなく、非常にエネルギー効率も良いのです。この左上の角に到達するまで、私たちは本当に人間レベルの知能を持っているとは言えません。
昨年2024年、私たちはアークプライズを立ち上げ、当時期待していた以上に成功しました。Kaggleでは1,500のチームがコンペティションに参加し、論文トラックでは本当に革新的なアイデアを含む40以上の素晴らしい論文を受け取りました。それも昨年の事前訓練スケーリングパラダイムを超えて、テスト時適応パラダイムへのマインドセットの大きな変化の一部となりました。
実際、昨年後半には、AGIに向けた進歩のための主要なベンチマークとしてARGI 1を使用していたスタートアップが7〜8社あり、今日ではアークプライズ2025が開催されています。それはV2データセットに基づいており、昨年と同様に2つのトラックがあります。
Kaggleでのメイントラックでは、モデルは自己完結型である必要があり、インターネットアクセスはありません。モデルは120のタスクを解決するために約50ドル相当の計算リソースにアクセスできます。非常に限られたリソースです。基本的には2つのV100を持つVMで、最大12時間実行できます。
また、パブリックトラック、パブリックドアも再開します。これは商用最先端モデルと商用最先端モデルの上に構築されたアプローチの継続的なベンチマーキングのためのものです。このトラックには賞金はなく、120のタスクを解決するために10,000ドル未満の計算コストがかかるアプローチなら何でも参加できます。ここでの目標は本当に、ARCHIへの効率的なオープンソースソリューションの出現を促進することです。
歴史が示しているように、このような賞金コンペティションは、投資に対して非常に大きなリターンをもたらす能力があります。これらは、研究コミュニティの集合知を、一つの明確に定義された、範囲が明確で扱いやすい問題に集中させ、実際のブレークスルーを引き起こすことができます。私たちは、ARプライズ2025がこの役割を果たし、今年いくつかの本当にクールなブレークスルーにつながり、AGIへのタイムラインを加速することを期待しています。
最後に言及したいのは、RKGI 3です。私たちはARGI 3の作業を開始しており、ARGI 3はARK 2の静的な入力から出力へのペア形式を超えています。流動的知能だけでなく、新しい認知能力を評価しようとしています。効率的な探索とデータ収集、目標設定、インタラクティブなスキル獲得などを検討しています。
基本的には、固定の入力空間と固定の出力空間を持つインタラクティブな環境のセットになります。この環境に投入されたとき、あなたは何をすべきか探索する必要があります。このときアクションが何をするのか、どのような概念に遭遇するのか、ゲームプレイがどのようなものになるのかを知りません。目標さえも知りません。これらすべてをその場で理解する必要があります。
効率性は、モデルを評価する中心的な部分です。タスクを実行できるかどうかだけでなく、常にアクション空間を総当たりで探索することは可能ですが、実際に効率性を基準に評価され、人間レベルのアクション効率を目標にしています。もちろん、人間はこれらのことに非常に優れています。ARGI 3は2026年初めの発表を目指しています。
もし私たちのミッションを手伝いたいなら、二つのことができます。まず、ARK 1および2であなたの新しい推論モデルの早期テストを一緒に行うことができます。そして、モデルカードにARCスコアを追加することができます。ARCは、モデルの流動的知能、適応性を評価するのに本当に独自に適したベンチマークです。
実際、昨年12月にO3が完全に異なるリーグにいると実際に見抜いた数少ないベンチマークの一つでした。他のベンチマークはそれができませんでした。ベンチマークは飽和しており、実際の流動的知能と単なる総当たりのスケーリングを区別することができませんでした。
O3が革新的な結果を示した唯一の他のベンチマークはフロンティアマスで、20%のスコアを出すことができました。しかし、フロンティアマスとRKGIの大きな違いは、フロンティアマスの問題を1つでも解くには基本的に数学の博士号が必要なのに対し、RKGIタスクは完全に一般の人々によって解決可能であるということです。それは専門的なスキルのベンチマークではなく、専門的な知識のベンチマークでもなく、本当に純粋な流動的知能のベンチマークです。
もう一つできることは、V3の構築を手伝うことです。V3のためのベンチマーク諮問委員会を立ち上げています。V3が可能な限り堅牢で有用なものになるようにするためです。もしAGIの評価の未来を形作るのを手伝うことに情熱を持っているなら、応募して専門知識を提供し、隠れた状態など、テストしてほしいものを教えてください。私たちはまだ設計と開発の非常に初期段階にいるので、フィードバックをください。
以上です。ありがとうございました。
大きなポイントとしては、ARK-AGI 2というベンチマークのバージョン2を発表し、月曜日には今年の新しいコンペティションであるアークプライズ2025を立ち上げ、ARK 3の作業を開始しました。もしARK 3の構築に力を合わせて手伝いたいなら、ご連絡ください。ありがとうございました。