ARC Prize Version 2 ローンチビデオ！

22,917 文字

https://www.youtube.com/watch?v=M3b59lZYBW8

これは過去に見てきたものの単なる延長ではありません。人類の歴史において、コンピュータがこれまで決してできなかったことを今や実行できるという存在証明があります。Arcバージョン2がリリースされたばかりで、最先端の基盤モデルでさえも現在は完全に失敗しています。
本日、ベンチマークRGIの次のバージョンであるRGI 2をリリースします。そして今、RGI 2は基本的に、一般の人々が実行可能な唯一の飽和していないベンチマークとなっています。これは、これらのモデルがどの程度の流動的知能を持っているか、AGIにどれだけ近づいているかを測定するための非常に優れた指標です。
それと並行して、ARC賞2025コンテストに皆さんを迎えることを非常に楽しみにしています。コンテストは今から正式に始まり、2025年末まで続きます。コンテストの構造は昨年とよく似ています。Kaggleのリーダーボードが稼働し、今年は準プライベートデータセットでテストを行い、最終的にプライベートデータセットでリーダーボードの最終テストを行います。
まだ誰も獲得していない大きな賞があります。大賞を獲得するためには、あなたのソリューションをオープンソース化し、Kaggle上で高い効率性を持って実行する必要があります。そして、新しいアイデアがたくさん出てくることを本当に楽しみにしています。2024年の昨年は、最先端を押し進める多くの成果がありました。
ベンチマークの次のバージョンはさらに挑戦的で、非常に飽和していません。すべての最先端モデルは、実質的に一桁パーセンテージ内でスコアを出しています。そして、タスクの人間向け難易度を調整したのは今回が初めてです。約400人を雇って、すべてのタスクをテストし、各タスクは少なくとも2人によって解決されています。したがって、人間にとって非常に解決可能であることがわかっています。現在のどのシステムにとっても、これは最先端の課題です。
ARCベンチマークは、人工知能の追求における不快な真実に直面することを強制します。その分野が見過ごしてきたこと、つまり知能とは単に能力だけでなく、その能力を獲得し展開する効率性も含むということです。知能とは、非常に少ないステップで、実際に非常に少ない計算を使用してそのプログラムを見つけることです。
例えば、人間がARCのタスクを2、3、4分で解決するために使用するエネルギー量はほとんどゼロです。そして、例えば高計算設定のモデルを比較すると、3,000ドル以上の計算を使用します。これは決して経済的な問題だけではなく、効率性こそが私たちが問うている問題です。効率性が問題提起なのです。
目標はAGIです。それが私たちがここにいる理由であり、最初にARC賞を立ち上げた目的です。研究コミュニティが見逃していた、人工知能の本質に関する重要なことを示す本当に重要なベンチマークがあることを認識してもらうためでした。
これがARCを特別で、非常にユニークで重要なものにしていることの一つだと思います。世界には今日、多くのベンチマークがありますが、私の理解と知識によれば、他のほぼすべてのベンチマーク、基本的にすべての最先端ベンチマークは、これらの超人的能力、つまりそのベンチマークで成功するために必要なPhD以上のスキルをテストしようとしています。
単に計算パワーだけではなく、単にスケールだけでもなく、正しいものをスケーリングする必要があります。正しいアイデアをスケーリングする必要があります。そして、おそらくあなたはそれを持っているかもしれません。私個人的には、ARC賞コミュニティにどれだけ驚き、感銘を受けているかということが続けてあります。人々がどれだけ最先端を押し進めているかに。
そして、これが本当に面白いことだと思うのは、個人や個人のチームが実際に違いを生み出せるということです。もし私たちがある種のイノベーション制約のある世界、アイデア制約のある世界にいるとしたら、私はARCがそれを示していると思います。それはあなた方が実際にAGIの最先端に重要な貢献をする可能性があることを意味します。
コンテストに参加する場合は、arc.orgにアクセスしてください。そして、頑張ってください。リーダーボードでお会いしましょう。
このような検証時最適化技術や検証時検索技術が、AGIの現在の最先端です。そしてもちろん、それにアプローチする方法は多くあります。単に検証時トレーニングを行うことも、この場合、検証時に検索を行うこともできます。シンボリックな空間の検索、思考の連鎖の空間の検索、トークン空間の検索、あるいは潜在空間での検索も可能です。
多くの異なる方法がありますが、本当に最先端は、あなたが知っていることを新しい構造に再結合することによって、この時点での新規性にどのように適応するかということです。MLSTは2つのAIラボによってスポンサーされています。彼らはスイスに拠点を置くDeep Seekです。彼らには素晴らしいチームがあり、チームには多くの人々が参加しています。彼らはMin’s AIを買収し、ARCに関する多くの素晴らしい仕事を行いました。現在、彼らは01スタイルのモデル、推論、思考、検証時計算に取り組んでいます。
彼らのために働きたい理由は、多くの自律性と可視性を得られ、あなたの研究を公開できるからです。また、MLエンジニアとしての採用だけでなく、チーフサイエンティストも募集しています。彼らは本当にこの役割に最適な人物を見つけたいと考えており、入社ボーナスとして最高の給与を支払う準備ができています。そのため、MLエンジニアまたはチーフサイエンティストとして彼らと働くことに興味があれば、Benjamin Cruserに連絡してください。tabs.aiにアクセスして、何が起こるか見てみてください。
マイク、MLSTにお越しいただき、素晴らしいです。ようこそ。ありがとうございます。今日はとても楽しみにしています。マイク、今日は非常に興味深いニュースがあると聞いていますが、教えてください。
はい、とても嬉しいです。今日は戻ってきました。ARC AGI 2と更新されたARC AGI ARC賞2025コンテストの両方を発表することを非常に楽しみにしています。両方とも今日発表され、詳細はarcprize.orgで確認できます。コンテストについても同様です。
簡単に言うと、V2とは何で、V1とどう違うのでしょうか？私の考え方としては、RCGI 1はディープラーニングに挑戦するように設計されたベンチマークでした。それに対してRCGI 2は、基本的にすべての最先端ラボから見られるようになっている新しいAI推論システムに挑戦するために設計されたベンチマークです。
RGI 2について本当に素晴らしいことの一つは、事前トレーニングのみに基づくモデルやAIシステムが実質的に0%のスコアを出し、一部の最先端AI推論システムは、現在テスト中ですが、一桁のパフォーマンスが予想されることです。そのため、2024年のRGI 1からの本当に大きな更新となっています。
ARCの元のバージョンは、推論を行わなかったこれらの基盤モデルに非常に基づいていました。バージョン2は推論モデル向けに調整されていますが、ゴールポストを動かしているという批判に対してはどう答えますか？ARCv2はどのようにベンチマークの意味ある進化なのでしょうか？
私の考え方は、ゴールポストはAGIだということです。それが私たちがここにいる理由であり、最初にARC賞を立ち上げた目的です。この本当に重要なベンチマークがあることを認識してもらい、研究コミュニティが人工知能の本質について見逃していた重要なことを示すためでした。
それが私たちのゴールポストであり、私が使用するAIの定義、財団が採用している定義は、人間とコンピュータの間の能力ギャップを評価するものです。ARC賞財団の本質は、そのギャップをゼロに近づけることです。人間にとって非常に簡単で単純なタスクで、コンピュータも同様にできるものを見つけられなくなったとき、AGIがないと主張するのは難しいでしょう。
実際、RGI2データセットのすべてのタスクは、人間にとって比較的簡単で単純かつ分かりやすいが、今日のAIにとっては非常に難しいというカテゴリーに入ります。
分かりました。皆さんは多くの人間によるキャリブレーションを行ったことを知っていますが、それについてはすぐに話しますが、ARCチャレンジの基本的な哲学は人間のギャップに焦点を当てています。しかし同時に、AIモデルは多くの点で超人的になっています。大きな物語は人間のギャップですか、それとも超人的な能力の拡大ですか？
これがARCを特別で非常にユニークで重要なものにしていることの一つだと思います。今日、世界には多くのベンチマークがありますが、私の理解と知識によれば、他のほぼすべてのベンチマーク、基本的にすべての最先端ベンチマークは、これらの超人的能力、つまりPhD以上のスキルをテストしようとしています。
人間はこれらのベンチマークにある問題を解決できません。それらを解決するためには、非常に多くの経験、教育、トレーニングが必要です。それらは重要で有用ですが、人間にとって単純で簡単なことと、AIにとって難しいことの間の残りのギャップを見ることで、人工知能の本質について私たちが見逃しているものをより明確に示していると思います。
それはもっと刺激的な物語だと思います。AGIに到達するためには、これを目標にする必要があると思います。これが私がAIとAGIに最初に興味を持った主な理由の一つでした。科学のタイムラインを短縮することができるシステムを構築することに本当に触発され、興奮していました。
2024年初めに私たちが持っていたようなAIだけを持っていた場合、事前トレーニングに基づく記憶レジームに基づくものだけでは、そこには到達できません。なぜなら、これらのシステムは基本的に、人類が過去1万世代にわたって獲得してきた経験と知識を反映するだけで、新しい知識や技術を生み出すことができるシステムではないからです。
そのようなシステムが実際に新しい知識や技術を生み出し、人類の知識と技術の巨像に加えることができるシステムが欲しいのであれば、AGIが必要です。そして、人間にとって簡単でAIにとって難しくないという、この財団のために私たちが使用してきた定義は、そのギャップを埋めることができれば、それを実現できる技術が得られると思います。
AGIまであと5つの発見が残っているとお考えですか？ARCチャレンジのバージョン3が出るでしょうし、おそらくバージョン4も出るでしょう。知能は多次元的なものであり、私はこれを両方の視点から見ることができます。
多くのAI批評家は、ほとんど私たちをガスライティングしています。彼らはこの素晴らしい技術を使っているのに、それが機能しないと言っています。私は「いや、それは機能している」と思います。批判がより哲学的になっていき、「生物学的ではないから」などと言われるようになるのか、それとも意味のある形で私たちはAGIからあと5ステップだと思いますか？
これがベンチマークが重要な理由だと思います。私も2022年にAIに戻り始めたとき、同様の質問を持っていました。世界を理解しようとして、私たちはAGIに向かっているのか、どれくらい離れているのかを理解しようとしていました。
システムを使うだけでそれらの能力を理解するのは本当に難しいと思います。それらと対話することで確かに感覚を得ることはできますが、それらが何ができて何ができないのかを本当に理解したいのであれば、本当にベンチマークが必要です。
これはZapierでAI製品を構築する際に私が学んだ興味深いことの一つでもあります。AIを使ってAIを構築することは、古典的なソフトウェアを構築することとは非常に異なります。大きな違いの一つは、古典的なソフトウェアを構築する場合、5人のユーザーでビルドしてテストすることができ、「このプロダクトは何百万人にもスケールできる、全く同じように機能する」ということがわかることです。しかし、AI技術ではそれは根本的に違います。それがどのように機能するかを評価するためには、大規模に展開する必要があります。そのスケーリングと併せてベンチマークが必要で、このシステムが機能しているかどうかを教えてくれます。
バージョン1から学んだ主な教訓で、バージョン2に取り入れたものは何ですか？
RGI 2は実際に何年も前から開発中でした。フランスは何年も前からタスクのクラウドソーシングに取り組んでいました。過去1年ほどでベンチマークを普及させ始めたときに、いくつかの固有の欠陥に遭遇しました。
学んだことの一つは、多くのタスクが総当たり検索に非常に影響を受けやすかったことです。それは全く知能がないものであり、そのような影響を受けやすいタスクの発生率を最小限に抑えたいと考えていました。
人間によるキャリブレーションを行っていませんでした。RGI 1が人間にとって簡単であるというのは、いくつかの逸話に頼っていました。STEMの人々が全データセット（プライベートセットを含む）を受け取り、98〜99%を解決できたという逸話に頼っていましたが、それは逸話でした。私たちが持っていた3つの異なるデータセット全体でそれをキャリブレーションしていませんでした。
そして、過去3〜4ヶ月の間に、これらのすべての最先端AI推論システムが登場し、それらを研究する機会がありました。これらのAI推論システムにとって依然として非常に困難なARCタスクの特質について学びました。それらがどのようなものか、もし興味があれば詳しく説明できます。
これらが、RGI 1から学び、今年の人工知能開発に役立つシグナルになると思われるRGI 2ベンチマークを作成するために活用した主な洞察と学びです。
OpenAIの状況についても少し触れることができますか？12月に彼らはO3を公開しませんでしたが、アクセスを提供し、それはARC V1で信じられないほどのパフォーマンスを発揮しました。人間レベルのパフォーマンスで、これがこんなに早く可能になるとは本当に思っていませんでした。
それは思いもよらないものでした。全く想定外でした。そのストーリーを教えていただけますか？
はい、これが私がAIのタイムラインについて予測することをいつも躊躇する理由の一つです。滑らかなスケーリング曲線に沿って予測することは非常に簡単ですが、イノベーションの本質はステップ関数です。そして、ステップ関数がいつ出現するかを予測するのは本当に難しいです。
O3とある程度時間を過ごし、それがARCでどのようにパフォーマンスを発揮するかを見た上で言える最良のことは、O3のようなシステムは真剣な研究を必要としているということです。これは過去に見てきたものの単なる延長ではありません。これは、人類の歴史において、コンピュータがこれまで決してできなかったことを今や実行できるという存在証明があり、それは本当に興奮することだと思います。
AGIに到達するにはまだ長い道のりがあると思いますが、これらのことを理解し、それらがどのように機能するかを能力の観点から見極めることが重要だと思います。将来開発するAIシステムが、過去に持っていた事前トレーニング純粋スケーリングレジームではなく、このようなものに似たものになるようにするためです。
逸話を挙げると、O3のテストに取り組んだスプリントをまだ覚えています。それはちょうどコンテストの終わりで、2024年を11月初めに終了しました。最終提出物、論文、技術レポートの審査で3〜4週間非常に忙しく、金曜日に結果を発表する予定でした。
12月には穏やかなホリデーシーズンを過ごせることを本当に望んでいましたが、技術レポートを発表した日に、OpenAIの人から連絡があり、「新しく取り組んでいるものをテストしてほしい、ARC AGI 1で印象的な結果が出ていると思う」と言われました。
そこから、このシステムがどのようなものか、OpenAIがテストで主張したことが再現できるのか、そしてこれがベンチマークやAGIにとって何を意味するのかを理解するために、非常に忙しく、速く、狂乱の2週間が始まりました。
最終的な結果は、O3が低効率設定、つまり私たちの公開リーダーボードの予算制約内に収まる設定で約75%のスコアを獲得したことを示すことができました。そして彼らは、低計算設定の約200倍の計算を使用する高計算バージョンを持っていて、それでも85%のスコアを獲得することができました。
これらは印象的で、O3のようなシステムがこの種の二値スイッチを持っていることを示しています。私たちは、これらのAIモデルが新規性に適応する能力がない状態から、A3のようなものへと移行しました。それは小さな方法ではありますが、新規性に適応できるAIシステムの存在証明です。
これを少し分解すると、今言及したいくつかの興味深い注意点がありました。まず、彼らはある種の微調整を行い、人々はその時「彼らがトレーニングセットでトレーニングしていたのは、スキャンダラスではないか」と冗談を言いました。
これは非常に悪い批判です。非常に貧弱な批判です。ベンチマークの要点を見逃していると思います。このように感じる人々は、事前トレーニングスケーリングレジームからAIのベンチマークについて考えることに慣れているだけだと思います。「データでトレーニングした場合、そのデータでテストするのはズルだ」というような考え方です。それは事前トレーニングレジームでは確かにそうですが、ARCは非常に特別で異なるベンチマークで、明示的にトレーニングセットを利用可能にし、それでトレーニングすることを意図しています。
これは非常に明示的で、ベンチマークが期待することです。私たちはAI研究者がトレーニングセットを使用して、ARCのドメインについて彼らのAIシステムに教えることを期待しています。そして、特別なのは、非常に少数の人間しか見たことがないプライベートデータセットがあり、それはトレーニングセットとは似ていないことです。テスト時にトレーニングセットを通じて学んだコア知識概念を一般化して抽象化する必要があります。
根本的に、ARC AGI 1または2のプライベートデータセットは、事前トレーニングセットの中にあるものを単に記憶することだけでは解決できません。これは、例えば小学校の数学でAIシステムを教え、微積分でテストするようなものです。これは、ARCで行うことの類似点です。トレーニングセットははるかに単純で簡単なカリキュラムで学び、そしてテストははるかに難しく、テスト時に新規性に適応する本当の能力、本当の知能が必要です。
わかりました、それは全て理解できますが、彼らはタスクごとに25,000ドル以上を費やしていました。これは彼らがおそらくサンプリングを行っていたことを意味します。彼らは途方もない量の補完を行い、解決空間予測を行っていました。これは非常に興味深いですが、マイク、あなたの心の底では、彼らがAPI データでトレーニングしていたと思いますか？または確かに彼らは多くのデータでトレーニングしていたのではないですか？
そして質問の拡張は、彼らがバニラバージョンをリリースした場合、調整されたバージョンと比較してどのようなパフォーマンスを得るでしょうか？
リリースされ次第テストし、その結果を報告したいと思います。彼らが言っていたことは、トレーニングセットでトレーニングしただけで、私はそれが彼らがやったことだと信じています。
非常に興味深いです。解決空間予測についてコメントしてください。解決空間を直接予測するだけで、彼らがそれほど上手くできることに驚きました。もし解決空間をそんなに上手く予測できるなら、離散的なコードDSLタイプのアプローチが必要だという考えから離れることになるのではないでしょうか？
基本的に、O3が行っていることは、事前トレーニングされた経験を使用し、新しいタスクに直面したときにそれをその場で再結合することです。これは思考の連鎖と呼ばれるレジームを通じて行います。これはすべて情報に基づく推測であることに注意してください。確認された詳細はありません。これは私のシステムの動作方法に関する個人的な評価です。
特にO1 ProやO3のようなシステムを、O R1やO1のようなシステムと比較すると、これらは基本的に単一の思考の連鎖を吐き出し、その思考の連鎖を使用して最終的な答えを根拠付けるシステムです。これはO1 ProやO3がどのように機能するかとは異なります。これらは実際に、その思考の連鎖をテスト時にマルチサンプリングし再構成する能力を持っています。これにより、事前トレーニングのどこにも現れない新しい考えを構築できます。
既存の経験ではなく、これらのシステムがより効果的に状況空間に到達することを可能にします。事前トレーニングに基づいて、根本的に、これらのシステムは深層学習モデルと上に置かれた合成エンジンの組み合わせであり、私はこれらを本当のAIシステムと考えるのが正しいと思います。もはや単一のモデルではありません。
あなたに同意します。コミュニティでの批評を見るのは本当に面白いです。なぜなら、ゲイリー・マーカスは今「自転車の絵を描いてパーツにラベルを付けることができない」と言っていますが、私たちはO1 ProとO3を見ると、それは本当に知的システムに向けての劇的な動きのように見えます。
マイク、テスト方法について簡単に話すことができますか？あなたたちが行った本当の作業は、大量の被験者を集め、400人のテスト対象者がいて、少なくとも2人の人がすべてのタスクを解決する必要があるという実験設計を行い、タスクの複雑さなどのバランスを取る必要がありました。それをどのように行いましたか？
はい、これはRCGI 1で修正したかった最大のことの一つでした。これらのことに人間が実際にどのように対処するかについての正式な人間キャリブレーション研究を行っていませんでした。逸話に頼っていました。
サンディエゴにテストセンターを設置し、地元コミュニティから多くの人々を募集しました。Uberのドライバーから、シングルマザー、UCSDの学生まで、これらの人々を招き、ノートパソコンでARCパズルを解いてもらいました。これらのテストショットの写真を共有するのは本当にクールです。何十人、何百人もの人々がノートパソコンでARCタスクを解いている様子が写っています。
データセットの元の目標は、ARC A2に入れるすべてのタスクが少なくとも1人の人間によって解決可能であることを確認することでした。そして実際に私たちが発見したことは、さらに高い基準だったと思います。新しいV2データセットの各タスクは、少なくとも2人の人間によって2回の試行で解決可能であることがわかりました。
これらは、ベンチマークで、コンテストおよび公開リーダーボードの両方で、AIシステムに提供するのと同じルールです。これは、「これらのタスクは人間にとって簡単で分かりやすいですか？はい。AIにとって難しいですか？はい」という、簡単な比較ができるようになりました。前述のように、最先端システムは一般的に、これらのタスクではゼロまたは一桁パーセンテージに近づいています。
しかし、考え方としては、それはよりパラドックスのXです。基本的に、人間にとって簡単でAIにとって難しい問題を選ぶことができますが、まだAGIには到達していません。しかし、あなたのチャレンジのいくつかを見てみると、それらの一部は非常に難しいと感じました。深く考えるのに5～6分かかったと思います。人間にとって簡単でAIにとって難しいものをまだ見つけるのは簡単だと思いますか、それともある程度限界に近づいていると思いますか？
人間にとって簡単でAIにとって難しいというのは相対的な表現だと思います。事実、これらのARCv2タスクは、タスク解決あたり5ドルの予算内で人間によって解決可能でした。5分程度で解決可能で、AIは現在これらを全く解決できません。
だから、はい、タスクを見ると考える必要があります。考えを入れて法則を確認する必要がありますが、データ自体が物語っていると思います。V2データセットの公開評価セットから準プライベートセット、そしてプライベートデータ評価セットまで、すべてのタスクが少なくとも2人の人間によって2回の試行内で解決可能です。
そして、はい、これらの最先端システムはこれらを全く解決できないか、または解決できても非常に高価な予算で、あなたが先ほど言ったように、タスクあたり数千ドルかかります。
あなたたちはもう準備を進めています。すでにARCのバージョン3に取り組んでいるとのことですが、それについて何を教えてくれますか？
私がマルチバージョンについて考える方法は、AR1が再びディープラーニングをパラダイムとして挑戦するように設計されたのに対し、RG2はこれらのAI推論システムに挑戦するように設計されています。RG2はRI1ほど耐久性があるとは思いません。RI1は5年間持続しましたが、RI2がそれほど耐久性があるとは思いません。
今後1～2年は研究者にとって非常に有用なシグナルであり続けると思いますが、はい、R AI3に取り組んでいます。R AI3について話す方法は、それが現在世界にまだ存在しないAGIシステムに挑戦するというものです。
あなたが設立している財団について教えてください。
これは2024年のARC賞から生まれた大きな素晴らしいことの一つだと思います。私たちが立ち上げたとき、それは非常に実験的なものでした。私たちの野望は当初考えていたほどではありませんでした。
2024年に入った時の主な目標は、このベンチマークが存在するという事実を認識してもらうことだけでした。そして、私が個人的に発見したのは、ARCを取り巻くコミュニティに何度も驚かされたということです。
O1プレビューが出たとき、数千人の人々がTwitterで「この新しいモデルをARCでテストすることを要求している」という本当に特定の瞬間を覚えています。それはこのベンチマークや、コミュニティがどのようなものであるかという私の精神的なモデルではありませんでした。そしてそれは非常に素晴らしかったです。その瞬間はコンテストが終わったときにも再び起こり、O3の結果を発表したときにも再び起こりました。
これは、ARCが提供しているものへの実際の需要があることを示していると思います。人間とコンピュータの間のこれらの能力ギャップを確認する、このようなベンチマークへの本当の需要があります。
そこで、基本的にAGIの北極星となり、人間にとって単純、分かりやすく、簡単でありながら、AIにとってはまだ不可能または非常に難しいものは何かという精神で、有用で興味深く耐久性のあるベンチマークを継続的に生産するために、この財団を設立しました。そして、AGIに到達するまでその松明を掲げ続けるつもりです。
ご覧のように、現在すべての大規模AIラボは推論に焦点を当てています。ARCはその少なくとも一部だったと思いたいです。また、あなたたちはオープンソースにも非常に焦点を当てています。マーク・ゲンは特にOpenAIのポッドキャストで、彼らは何年もの間ARCv1について考えていたと言いました。ほらね！
まさにそうです。しかし、それについて少し教えてください。産業への影響もありますが、あなたたちはオープンソースにも本当に焦点を当てています。この2つをどのように見ていますか？
私の現時点での包括的な哲学は、AGIは人類が開発する最も重要な技術であり、もし私たちがまだアイデア制約のある環境にいる、AIに到達するために新しいアイデアが必要だという状況が真実であれば（そしてRGIIがそれを示していると思います）、それが世界の真実なら、私たちは可能な限り最も革新的なエコシステムと環境を世界中で設計すべきだと思います。
これが最初にARC賞を国際的に立ち上げた理由の一つで、個人の研究者に届くため、再び研究者に刺激を与え、この事前トレーニングレジームを越える新しいアイデアに取り組もうとするためです。私たちは、それがこれを超え、今日私たちが持っているものを超える何かである必要があることを知っていました。
本当に健全で強力なイノベーションエコシステムを見ると、非常にオープンで、多くの共有があり、アプローチの多様性があるものを見るでしょう。これは、非常に閉鎖的で、非常に秘密主義で、非常にドグマティックで、非常に単一文化的なエコシステムとは対照的です。
そのオープンさの価値観、共有の価値観が、ARC賞財団が代表するものであり、AIを早く手に入れる可能性を高めるためです。
では、ARCチャレンジのバージョン2について、概要を教えていただけますか？
ARC 2は基本的にARCの新しいバージョンで、同じフォーマットを維持しながら、ARC 1で見られた主な欠陥に対処しようとしています。例えば、ARCには、タスク間にある程度の冗長性がありました。これは2020年のKコンペティションの時点で非常に早い段階で気づきました。
また、ARCはブルートフォース（総当たり）で解決できすぎていました。2020年にKコンペティション後に行ったことは、コンペティション中に少なくとも一度は解決されたすべてのタスクを調査しようとしました。そして、プライベートデータセットの半分が、実際に最初のコンペティション中に展開された基本的なブルートフォースプログラム検索方法によって解決可能であることがわかりました。
つまり、データセットの半分は実際にAGIについて非常に良いシグナルを提供していなかったことになります。残りの半分は実際には十分に良く、ベンチマーク全体はまだ有用で、その後数年間続きましたが、最初から結構重大な欠陥があったことを示していました。
これは予想されたことです。2018年、2019年にARCの作成を始めたとき、私は手探り状態でした。私は自分の考え、自分の直感を捉えようとしていました。一般化とは何を意味するのか、この推論の抽象化とは何かということが、このベンチマークになりました。しかし、どのようなAI技術がそれに対して使用されるかを予測することはできませんでした。
そうです、判明したように、その多くはブルートフォースで解決できました。ARC 2はそれを完全に解消します。ブルートフォーステクニックを使用してAR 2では、最大でも1～2%以上のスコアを得ることはできません。これは良いニュースです。
それ以外にも、一般的に少し難しくしようとしました。ARC 1で見たのは、人間にとって飽和させるのが非常に簡単だということでした。例えば、STEMの卒業生の場合、100%、または誤差範囲内で100%（97%や98%など）を非常に簡単に獲得できました。
つまり、AIの能力と賢い人間の能力を比較するための有用な帯域幅をあまり得られなかったということです。少し難しくするだけで、より多くの範囲が得られます。あまり知的でない場合は低いスコアを獲得し、非常に知的な場合は高いスコアを獲得し、分布の非常に上位にいるまでは完全に飽和することはあまりありません。
それがAR2です。同じフォーマット、同じ基本ルールです。コア知識のみを使用し、最大30×30のグリッドの入出力ペアがありますが、内容は非常に異なります。1つの基本ルールだけを適用する必要があるタスクは見つかりません。重力などの簡単なルールやシンメトリータスクなど、あらかじめ把握できるものはありません。
すべてのタスクは非常に合成的です。複数のルール、より多くのオブジェクトがあり、グリッドは一般的に大きく、ルールは連鎖したり、相互作用したりすることができます。これにより、ブルートフォース方法では完全に手が届かなくなり、また判明した通り、基本的な事前トレーニングパラダイムでも手が届かなくなります。
あなたはそれらをより合成的かつ反復的にし、人間にとってより難しくしたと言っていますね。詳細をもう少し教えていただけますか？
考えてみると、AIモデルができることとできないことには異なる側面があり、人間ができることとできないことにも異なる側面があります。タスクの特性を多様に探究していますか？あるいはタスクの特性についてもう少し詳しく教えていただけますか？
ARC 1では、1つのルールだけの非常に基本的なタスクが多くありました。例えば、いくつかのオブジェクトがあり、それらを反転させる必要があるとします。これはブルートフォースで解決しやすいタスクの例です。なぜなら、反転は事前トレーニングを通じて概念として獲得できるもの、またはブルートフォースプログラム検索システムでハードコードできるものだからです。
適用する必要のあるルールがそれだけで、それを一度だけ適用するならば、それは合成的ではなく、実際にはかなり予測しやすく、ブルートフォースで解決しやすいです。合成的なタスクは、複数の概念があり、通常はそれらが相互に作用するタスクです。
非常に単純な合成的タスクの例は、オブジェクトの反転があり、さらにオブジェクトが落下しているとします。一度に各オブジェクトに適用する2つのルールがありますが、これもまだブルートフォースプログラム検索で見つけることができるタスクの一種です。DSLの主要要素として重力と反転があれば、ルールが十分な深さまで連鎖しているタスクを作成したいと思います。
単にすべての可能な連鎖を試すことによって、その連鎖を見つけることができないようにするため、コストが高すぎになります。もちろん、人間はまだそれを行うことができます。なぜなら、人間は見るすべての問題に対して、知っているすべての可能な組み合わせを試しているわけではないからです。彼らは理論を検索する非常に効率的で直感的な方法を持っています。
私の共同ホストのキースは、ARCの再帰的バージョンを作るというアイデアを持っていましたが、私たちがこの系統的な合成的推論を行うとしても、ある種の認知的限界があるという考えが浮かびました。例えば、同じ問題内にARCチャレンジを4レベルネストした場合、人間が解決できなくなるという状況に非常に早く達すると思いませんか？
例えば、2つのARCタスクを連結すると、ブルートフォースで解決しにくく、より難しくなります。なぜなら、より多くのルールが同時に進行しているからです。しかし、これは私が合成的と呼ぶものではありません。2つのルールが同時にあっても、それらは相互に作用していないからです。それらを別々に解決し、解決策を連結することができます。
それは全く悪いアイデアではないと思います。ARCをより難しくする方法として機能するでしょう。ただし、実際には合成性の深さをテストしているわけではないという注意点があります。1つの問題は、AIシステムを開発する人がタスクが実際にサブタスクに分解できることに気付いた途端、それで終わりです。
だから、実際には複数のルールが一度に存在するが、それらが一緒に連鎖しているか、何らかの方法で相互作用しているほうが興味深いと思います。例えば、1つのルールが次のルールが読む必要のある情報をグリッドに書き込むようなケースです。
ARCv2で最先端モデルはどのようなパフォーマンスを発揮しますか？
私たちが見たのは、テスト時の適応（テスト時の検索やテスト時のトレーニングなど）を行わないモデルと、行うモデルの間に大きなギャップがあることでした。GPT-4.5のような基本的なLLMは基本的にゼロをスコアしています。
そのうちの1つ、おそらくR1がわずかにゼロ以上、約1%をスコアしましたが、それはノイズ範囲内のゼロです。流動的知能を持たない、テスト時に適応できないモデルは、効果的にゼロから始まります。
その意味では、AR2は実際に流動的知能があることを示す非常に強いサインです。AR1よりも優れていると思います。AR1でもそれを教えることができましたが、完璧ではありませんでした。AR1では、テスト適応を行わなくても、約10%まで達成できます。AR2では実際にゼロです。テストとしてはより良いです。
テスト時適応を行うモデルについては、例えば、昨年のKコンペティションからのいくつかのエントリを試しました。特にテスト時トレーニングを行っているモデル、あるいは何らかのプログラム検索を行っているモデルです。
最高のモデル、Kコンペティションで優勝したモデルは、AR2で3%を達成できると思います。コンペティションの上位エントリのアンサンブルを取ると、4%に到達します。それはあまり高くありません。
また、O3が現在流動的知能を示すAIモデルとして最先端であると推定しています。低計算設定でのO3をテストしたいすべてのタスクでテストすることができませんでしたが、サブセットではテストしました。
それで、テストセットでどのようなスコアを獲得するか推測できます。約4%のようです。それほど高くはありません。それよりさらに高くなるフォームがたくさんあります。高計算設定でのO3を全くテストできていません。
AR1で88%をスコアしたモデルについては、O3 LやからNの観察に基づいて推測できます。コンピュートを最大限に活用し、例えばタスクあたり10,000ドルを費やす場合、おそらく15%、あるいは20%まで到達するかもしれません。しかし、それでも平均的な人間のパフォーマンス、つまり約60%を大幅に下回るでしょう。
O3がARCv2で獲得する4%、それを流動的知能と考えますか、それともAIのギャップとしてですか？おそらく、適切な人間キャリブレーションチャレンジセットを選択すれば、O3でもゼロになるARCv2を設計できたと思います。
絶対にそうです。O3に対して敵対的に選択し、O3がゼロを達成するようにすることは非常に簡単です。4%から0%に行くのは非常に簡単です。変更する必要があるタスクはほんの数個です。
そうです、4%はゼロではない流動的知能があることを示していると思います。これはARC1からもシグナルとして得られたことです。これらのモデルに流動的知能が見られるサインは、テスト時の適応を行わない巨大な事前トレーニングのみのモデルが効果的にゼロ、おそらく1%をスコアし（そしてそのパフォーマンススコア1%は欠陥で実際にはゼロであるべき）、テスト時の適応を行うモデルがゼロではない、3%、4%、5%をスコアすることです。
つまり、モデルがどの程度の流動的知能を持っているかを測定するための有用な帯域幅を提供するデータセットの約95%があるということです。これはARC1では得られなかったものです。ARC1はより二値的で、流動的知能がなければ非常に低い、約10%以下をスコアし、あれば大幅に高いスコアを獲得し、50%を超えることは非常に簡単でした。
しかし、測定値はゼロでない流動的知能を持ち始めるとすぐに非常に急速に飽和するため、ARC2で得られるような有用な帯域幅は得られませんでした。そのため、ARC2は「このモデルは平均的な人間と同じくらい流動的に知的か」という質問に答えることができると思います。これはARC1では得られなかったことです。
これは単に経済的な問題だと思います。例えば10億ドルか5億ドルを費やすと、ARCv2を飽和させることができるのではないでしょうか？そうだとは思わないかもしれませんが、もしそうでないなら、O3がより良いパフォーマンスを達成するのを妨げている特定の要素は何だと思いますか？
それは決して単なる経済の問題ではありません。なぜなら、知能とは単に能力だけでなく、その能力を獲得し展開する効率性も含むからです。そして確かに、何十億、何百億ドルを費やせば、ARC2を飽和させることができるかもしれませんが、それは2020年に非常に原始的なブルートフォースプログラム検索を使用しても既に真実だったでしょう。
もしDSLが実際に真に完全なものであれば、すべてのARCタスクに対して、実際にそれほど長くないプログラムが存在し、タスクを解決することがわかっています。それを見つけるために必要なことは、すべての可能なプログラムを長さの順に繰り返し、最初に見つかったものが一般化するものです。なぜなら、それが最も短く、最も簡潔だからです。
無制限のリソースを費やす場合、純粋なスキルの意味では既にAGIがあります。常に可能なすべてのプログラムを試して、機能するものを見つけることができますが、それが知能ではありません。知能は、非常に少ないホップで、実際に非常に少ない計算を使用してそのプログラムを見つけることです。
例えば、人間がARCタスクを2、3、4分で解決するために費やすエネルギー量はほとんどゼロです。そして、例えば高計算設定のO3を比較すると、3,000ドル以上の計算を使用します。これは決して経済的な問題だけではありません。効率性こそが私たちが問うている質問です。効率性が問題提起なのです。
知能とは知識獲得の効率性です。O3はARCv1で非常に良いパフォーマンスを示し、現在ARCv2でとても悪いパフォーマンスを示していますが、あなたの知能の定義の全体的なポイントは、ある基本知識が与えられた場合、効率的に再結合し、新しいスキルプログラムを生成するということです。
V2の基本知識がない場合、知能はないため、O3は私たちが考えていたほど知的ではないのですか？
O3は、おそらくAI最初かのモデルとして、流動的知能を示す最初のモデルの一つだと思います。ARC2の結果が教えてくれるのは、それが人間レベルの流動的知能ではないということです。しかし、私はまだO3を一種のプロトAGIと考えるでしょう。二つの大きな欠陥があります。
一つは効率性です。効率性は問題提起の一部であり、実際に中心的なポイントです。例えば、データ効率、計算効率、エネルギー効率の観点から効率的でない限り、それは一時的な解決策でしかありません。将来、より良い解決策を見つけるでしょう。
また、それは完全に人間レベルではありません。人間レベルならば、ARC2で60%以上のスコアを予想するでしょうが、正確な数字はわかりませんが、おそらく4〜5%になるでしょう。
一般的知能はカテゴリーかスペクトラムだと思いますか？
一般的流動的知能は、私は両方だと言うでしょう。なぜなら、単に静的でファクト的な多くのスキルプログラムや知識を記憶することと、ゼロではない程度に新規性に適応できることの間には大きな違いがあるからです。それは二値的な区別です。流動的知能があるかないかです。そしてARC1はシステムでその質問に答えることができました。
しかし、ゼロではない流動的知能を持っていれば、あなたが実際にどれだけ持っているか、そしてそれが人間とどれだけ比較されるかという質問があります。それは、あなたが持っているスキルプログラム、知識の再結合の概念、そして再結合の深さに関連しています。
全く再結合をしなければ、流動的知能はありません。ある程度の再結合をすれば持っていますが、問題は、どれだけ深く再結合できるかです。例えば、プログラム合成の類推を使うと、質問は新しい問題に適応するためにその場でどれだけ大きなプログラムを書くことができるかということです。そしてもちろん、どれだけ効率的に、どれだけ速くそれを書くことができるかということです。
それは二値的ですが、スペクトラムでもあります。ARC1は二値的な質問に答えようとしていました：システムは流動的知能を持っているでしょうか？そしてARC2は、人間と比較してどれだけの流動的知能を実際に持っているかを測定しようとする側面にありました。
V2が飽和するまでどれくらいかかると思いますか？そして、V3が登場するまで生き残ると思いますか？
それはリソース効率を考慮に入れる必要がある質問です。例えば、10,000ドル未満の計算を使用して、ARC2で80%以上のスコアを獲得できるシステムが登場するまでにどれくらいかかるかを尋ねているなら、おそらく数年だと思います。
ここで予測するのは非常に難しいです。現在の技術を見て、現在の技術を拡張するだけなら、時間がかかると思います。実際、ARC2は現在の技術ではかなり手が届かないと思いますが、もちろん私たちは現在の技術に限定されていません。
2025年には、昨年のような新しいブレークスルーを見るでしょう。これらのブレークスルーは実際に予測するのが非常に難しいです。個人的に、O3がARC1で獲得できたパフォーマンスには非常に驚きました。それは驚きでした。おそらく今年も新しい驚きがあるでしょう。
しかし、2025年末までにARC2で人間レベルの効率的な解決策が見られたら、私は非常に驚くでしょう。基本的にそれを除外するでしょう。2026年末までなら、もしかしたらかもしれません。だからこそ、もちろん、ARC3が準備されています。
失敗モードの分析について、私が読んだブログ投稿をご覧になったと思います。そこではO3のさまざまな失敗モードをすべて検討していました。もちろん、解決空間予測が行われていました。それが私にとってより驚きだったのです。
私の見方は、失敗した場合でも、解決空間が大きすぎるか、ちょっとした間違いをしていただけで、多くの問題の方向性をかなりよく把握していたので、非常に感銘を受けたということです。同様に、V2の失敗モードについて教えてください。
V2でO3をそれほど多くテストすることができませんでしたが、V1で見たことに基づいて失敗モードについて教えることができます。多くありますが、一般的にこれは問題のサイズによって推論能力が指数関数的に減少するモデルです。
シーン内のオブジェクトが増えたり、ルールやコンセプトが増えたり、相互作用が増えたりすると、能力が指数関数的に減少します。また、これは自然言語プログラムを書くことによって機能するモデルであり、それは見ているものを記述し、問題とそれを解決するための手順を記述します。その意味では、100%自然言語プログラムです。
つまり、問題を解決するためには、言葉を使ってそれについて話す必要があります。その結果、ルールが人間にとってはグラフィカルに非常に単純であるが、言語化できない方法で、言葉で表現するのが非常に難しいタスクがあると、このような思考モデルの方向性ではより難しくなります。
それ以外にも、複数のルールが相互作用する合成性が大きな課題の一つであることが分かりました。また、局所性バイアスもあるようで、グリッド上で一緒に配置された情報の断片を組み合わせる必要がある場合、それは同じことを行うが、合成する必要のある2つの情報の断片がかなり離れている場合よりもモデルにとって簡単です。
また、モデルはルールの実行をシミュレーションし、その結果を読み取ることに苦労しているようです。例えば、ARCタスクを解決していて、あるルールを理解したとします。それを適用し始めたとします。例えば、線の連続などを行っていて、別のルールを取り、最初のルールを実行するプロセスで書いた情報の一部を読むためにそのルールを使う必要があるような場合、そのようなことは思考の連鎖モデルにとって完全に手が届かないものです。
知能がどの程度多次元的だと思いますか？ある考え方では、そしてあなたはこれに賛同するかもしれませんが、宇宙は私たちが住んでいる世界から切り離されたプラトン的なルールで構成されているような感じがあります。あなたが話すカレイドスコープのアイデアがあり、それらが組み合わさって私たちが見ているものになります。
しかし、別の考え方では、常に知能の別の次元があり、常にARCのV4、V5、V6が必要で、各ステップで何かが欠けているということです。
あなたが超える一般性の各ステップで、非線形的な量の能力を獲得します。そのため、数ステップ後には、あらゆる可能な次元で圧倒的に超人的になり、AGIがあると間違いなく言えます。実際にはスーパーインテリジェンスです。
しかし、はい、知能はある意味で多次元的です。ARCが捉えようとしているのは、本当にこの流動的知能の側面、コア知識の構成要素を再結合する能力です。
私の知能の定義では、知能とは効率的にスキルと知識を獲得し、それらを再結合して、明示的に準備できない新しいタスク、新しい状況に適応することです。純粋に、構成要素を取り、それらを再結合する能力、プログラム合成を行う能力、それは一つの側面であり、おそらく最も中心的な側面です。それがARCで注目する理由ですが、それが唯一の側面ではありません。
これは、すでにこの知識の山が利用可能だと仮定しています。この抽象化の獲得は見過ごされています。また、タスクに関する情報の獲得も見過ごされています。ARCではタスクに関するすべての情報を一度に提供していますが、現実世界では、その情報を収集し、行動を起こし、目標を設定して、環境が何についてのものか、その中で何ができるかを発見する必要があります。
そして、もちろんこれらのことを効率的に行う必要があります。この効率性の側面は非常に重要です。なぜなら、知能は進化によって開発されたからです。進化において適応し、世界を探索するとき、あるリスクを負っています。例えば、捕食者に殺される可能性があります。
だから、最小限のリスクで、最小限のエネルギーを使って、環境についての最大量の情報、それによるパワーを得たいと思います。これはARC V1またはV2だけでは測定できないことであり、捉えることができないことです。
O3との解決空間予測の意義について詳しく説明していただけますか？それはほぼ「リッチ・サット」のアイデアに近いように思えます。ほぼ白紙の状態で、非常に経験主義的で、データを取り込んでニューラルネットワークがすべてを行います。
私はいつも、コア知識を考慮に入れた構造化されたアプローチが必要だと想像していました。出力を予測しようとするよりも、出力を得るための手順を書き下ろそうとする方が、実際には私たちが考えていたよりも単純だと思いますか？
それらは完全に別々のものではありません。なぜなら、もちろん、手順を書き下ろしたら、トランザクションのように見えることができるからです。O3は実際の意味でのトランザクションモデルではありません。それははるかにプログラム合成モデルに近いものです。
それはタスクを記述し、それを解決するための手順のシーケンスをリストする正しい思考の連鎖を検索しています。思考の連鎖があれば、モデルを使ってそれを実行し、出力を得ることができます。
外側からシステム全体をブラックボックスとして扱うと、トランザクションのように見えますが、任意のプログラム検索システムでも同じことが言えます。それが実際に行っていること、そして新規性にとてもうまく適応できる理由は、モデルが持つ知識とスキルの再結合アーティファクトとして機能する思考の連鎖を合成しているからです。その再結合アーティファクトは特定のタスクに適応しています。
これはプログラムのモデルにはるかに近いものです。これはコミュニティが非常に混乱したことです。なぜなら、前回のインタビューで、あなたはO1 Proを一種の明示的な検索プロセスとして説明していたと思いますが、実際には事前トレーニングでの強化学習があり、推論時にサンプリングを行っているようです。
推論時には多くの補完を行っていますが、あなたはそれがプログラム検索をしているかのようだと言っているのか、それとも明示的に思考の連鎖やプログラム検索を行っていると言っているのでしょうか？
それは可能な思考の連鎖の空間を検索し、最も適切と思われるものを見つけています。その場合、それはプログラム検索システムと完全に類似しています。合成しているプログラムは自然言語プログラム、つまり英語で書かれたプログラムです。
言語モデルで自己回帰を行うことがどのように検索プロセスとして特徴付けられるのか、少し奇妙に思えます。
O1 ProやO3のようなモデルは単に自己回帰的ではなく、実際にこのテスト時検索ステップがあり、そのために純粋に自己回帰的な基本モデルよりも新規性にはるかに適応しやすくなっています。
そのため、一般的にARCでも、ARCは2019年から2025年まで事前トレーニング、純粋に自己回帰的な事前トレーニングスケーリングパラダイムに完全に抵抗してきました。GPT-2からGPT-4.5まで、これらのモデルを約50,000倍にスケールアップしましたが、ARC1でも0%から約10%に、ARC2では0%から0%になっています。
一方、O1 ProやO3のようなテスト時の適応、テスト時の検索を実際に行うことができるシステムであれば、はるかに優れたパフォーマンスを得ることができます。この大きなパフォーマンスギャップがあります。
一般的に、ARCでのこのパフォーマンスギャップ、この一般化ギャップを見ることで、テスト時の適応を行わないモデルとテスト時の適応を行うモデルの違いを見分けることができます。また、レイテンシーとコストを見ることでも分かります。
もちろん、テスト時検索を行うモデルは回答に時間がかかります。例えば、O1 Proを見ると、クエリに答えるのに10分かかり、また、行っている作業のためにコストもはるかに高くなります。
DeepSeek Claude1モデルをダウンロードして私のマシンで実行していますが、私のマシンにとっては、それは普通のLLMで、貪欲サンプリング自己回帰を行っているだけです。
その通りです。それが新規性に適応しない理由であり、ARCでは基本的にゼロか、おそらく1%しかスコアしない理由です。
では、O3には何か質的に異なるものがあると言っているのですね？
そうです。それは以前のすべてのモデルとは質的に異なります。実際に流動的知能を持つモデルです。ゼロではない量の流動的知能を持っています。そしてR1などはそうではありません。
つまり、推論時に何らかの能動的な検索プロセスを行っているということですね？
そのように見えます。もちろん、実際にどのように機能するかは知りませんが、それが私の推測です。はい、そしてそれはレイテンシー、コスト、もちろんARCのパフォーマンスに見られます。
もし単に自己回帰的な貪欲サンプリングを行っているだけだと分かったら、驚き、ショックを受けますか？
正直言って、それはその特性とまったく互換性がないため、非常に考えにくいと思います。私たちがO1をテストしたときに触れたシステムの特性と。
素晴らしいです。そして、常に人間のギャップがあると思いますか？
おそらく常にではないでしょう。今日、非常に明確で重要なギャップがあります。私たちは今、実際にAGIにそれほど近くないですが、最終的に、私たちがより近づくにつれて、ギャップは少なくなっていき、ある時点で、選択したあらゆる可能な軸に沿って圧倒的に超人的なAIシステムを持つことになるでしょう。
だから、ギャップが永遠に続くとは思いません。
ティム、これをやってくれてありがとう。2週間後に会えるのを楽しみにしています。