スター級AIリサーチャー：シャレーとザピアのヌープ – ARCの攻略、o3と知能の未来

シャレでもショレでもいいから重要なインタビュー
22,937 文字

Chasing Real AGI: Inside ARC Prize 2025 with Chollet & Knoop

In this fascinating episode, we dive deep into the race towards true AI intelligence, AGI benchmarks, test-time adaptati...

マッド・ポッドキャストへようこそ。今回は特に興味深いエピソードで、フランソワ・シャレーとマイク・ヌープをゲストに迎えています。フランソワはこの分野の伝説的人物で、グーグルのシニアスタッフエンジニアとして業界で名を馳せ、その中でも広く普及している深層学習ライブラリ「Keras」を作成しました。マイクは以前Zapierの共同創業者であり、その後AIの責任者を務めていました。二人はARCプライズと新しいAGI研究所「India」の創設でパートナーシップを組んでいます。
会話の前半では、フランソワとともにLLMの初期の限界と進化について深く掘り下げました。現在のモデルは膨大な知識と専門的なスキルを吸収することは非常に得意ですが、その場で新しいものを理解することはあまり得意ではありません。知能とAGIの定義については、「あなたと私が自然にできるのにAIシステムができないタスクを簡単に思いつくことができなくなった時、AGIが実現している」とのことです。また、AGIへの有望なアプローチとしてプログラム合成があります。「フロンティアはテスト適応であり、テスト適応を解決するための最良のアプローチは、深層学習による、または直感によるプログラム探索である」と彼らは信じています。
会話の後半では、マイクとフランソワと共に彼らの最近の大きなニュースについて話し合いました。それはARC AGI 2とARCプライズ2025の発表で、これは「機械のためのIQテスト」として知られ、歴史的に大きな研究所のLLMを悩ませてきたものです。「ARP 2024から多くのテスト時適応メソッドが生まれ、そしてAR 2025に向かうo3から大量の証拠を得ました。人々がそれらのアイデアを持ち込み、応用するのを見るのが本当に楽しみです」
会話の締めくくりとして、Indiaとその非常に野心的なビジョンについて少し触れました。「私たちが構築したいことについてのビジョンがあり、それは他のフロンティアラボが実際に探究しているものとは大きく異なるビジョンです。長期的には、Indiaが基本的に世界の歴史の中で最も革新的な企業となり、私たちが直接構築した技術を使って、最も多くの新技術、最も多くの新しい知識を生み出すことを望んでいます」
それでは、フランソワとマイクとの素晴らしい会話をお楽しみください。
フランソワ、大きなニュースはARCプライズ2025の発表とARC AGI 2の同時発表ですが、まず最初に、ベンチマークとしてのARC AGIとは何で、なぜそれを作成したのですか？
ARCはAIの流動的知能を測定しようとするAIベンチマークで、特定のタスクでのスケールとは対照的です。これは基本的に他のどのAIベンチマークとも非常に異なるアプローチです。ほとんどのベンチマークは、特定の質問に答えたり、特定のタスクを実行したりする能力を見ています。これは事前に記憶できる知識やスキルに非常に依存することになります。しかしARCはそうではありません。ARCは準備できないタスクのセットです。それは何を知っているかを測定しようとするのではなく、見たことのないものにその場でどれだけうまく適応できるかを測定しようとしています。
実はこれは、AIにとって非常に難しいことなのです。現在のモデルは膨大な知識と専門スキルを吸収することは非常に得意ですが、その場で新しいものを理解し、適応することはあまり得意ではありません。これがARCを本当に興味深くしている要因です。
注目すべき点として、昨年、AI研究の世界で大きな転換がありました。研究コミュニティは、事前学習をスケールアップしてから、推論時に事前学習されたモデルを静的な方法で使用するという考え方から離れ始めました。それらは変化せず、新しいことを学習せず、新規性に適応しません。それはGPT3、GPT4、GPT4.5、Geminiなどのモデルです。
そして、代わりにテスト適応、特にテスト時探索を行うことへの転換がありました。これはO3や01 proなどのモデルで見られるものです。これらのモデルははるかにレイテンシーが長く、はるかに高価で、10倍、100倍もコストがかかりますが、はるかに強力な一般化能力を持っています。
この大規模な転換が起きていることについて強いシグナルを提供した唯一のベンチマークはARCでした。他のベンチマークはスキルを見ていたので、単に知識とスキルをより多く記憶するための力任せのスケーリングと実際のIQ向上を区別することができませんでした。ARCは実質的に機械のIQを見る唯一のベンチマークであり、それが非常に興味深いシグナルとなる理由です。
では、なぜARC 2なのかというと、ARC 1はその役割を十分に果たし、特に初めて実際の流動的知能を持つAIシステムへの転換をキャプチャすることができたからです。GPT4.5は流動的知能を持っていませんが、O3は持っているという大きな違いです。ARCはそれをキャプチャした唯一のベンチマークでした。
しかし、ベンチマークにはまだいくつかの欠点がありました。その背後にある考え方は堅実でした。例えば、すべてのタスクが完全にユニークであるため、事前に準備できないという考え、すべてのタスクが核となる知識の上に構築されているという考え方です。つまり、誰もが持っている、LLMももちろん持っている、事実上どんな子供も持っている非常に基本的な種類の知識だけを必要とするものです。
しかし、実行に関していくつかの問題がありました。特に、すべてのタスクが100％ユニークではなく、タスクスペースの多様性が十分ではなく、ほとんどのタスクは実際に力任せで解決可能でした。タスクを見るだけで、あまり考えなくても即座に答えが見えることがありました。これは、例えばタスクを解決するプログラムを見つけるために力任せのプログラム列挙プロセスを使用している場合、スペースがかなり小さいため、それを見つける可能性がかなり高いことを意味します。
そこで、ARC2ではこれを完全に修正しています。今はより力任せで解決しにくくなっています。見るどのタスクも、少なくともいくつかの秒間の深い思考、おそらく数分かかるでしょう。実際、サンディエゴでの実際の人々とのライブセッションで、これらのタスクを数千も実行しました。
分かったことは、誰もがこれらのタスクを解決できるということです。複数の人が実際に確実に解決できるタスクだけを保持しました。1つのタスクを解決する平均時間は約5分でした。これは、それらが些細なものでも非常に簡単なものでもないことを示しています。実際にかなりの思考が必要です。
基本的には、ARC1の改良版です。同じアイデア、同じフォーマット、同じ原則、機械の流動的知能を測定するという同じ目標ですが、実行が改善されています。
これらすべてについて掘り下げていきますが、少し視点を変えて、あなたは世界で最も優れた深層学習の専門家の一人ですが、歴史的には、LLMに関する大きなハイプの中で、LLMについてより微妙な見方をしていた数少ない人の一人だと思います。特に力任せの側面に関して。この会話全体のコンテキストを提供するために、LLMが得意なこと、苦手なことは何でしょうか？また、予告として、これについてすぐに話しますが、O3以前のLLMはRKGI1で非常に悪いパフォーマンスを示し、初期の数字を見ると、AGI 2でもパフォーマンスが特に良くないようです。LLMアプローチの根本的な限界は何でしょうか？単に力任せのアプローチだけですか？
その通りです。最近LLMがARCでうまくいくようになったわけではないことに注意することが重要です。LLMはまだARCで非常に悪いパフォーマンスを示しています。実際に起こっていることは、推論時に静的に使用される単なるLLMからのシステムから、もはやLLMシステムではなく、検索ループの一部としてLLMを使用するはるかに洗練されたシステムへの転換を見ていることです。基本的に、それらはもはやエンドツーエンドの深層学習モデルではありません。
一般的に、LLMは非常にオーバーロードされた用語で、異なる人々が完全に異なるものを意味することがあります。もちろん、基本的なLLMは、推論時に1つの生成だけを行うプロンプトを使用します。次に、いわゆる推論モデルがあり、まず思考の連鎖を生成するステップを経て、プロンプトを改善し、単に答えを出そうとするのではなく、手元のタスクにより適応しようとします。
そして、実際にテスト時探索、テスト適応を実行するモデルがあります。中にはテスト時トレーニングやテスト時ファインチューニングのようなものを行うものもありますが、これは商用モデルでは見られないものです。しかしこの技術は適用できます。そして、テスト時探索を使用する商用モデルがますます見られるようになるでしょう。タスクに適応するために1つのコードを生成するのではなく、実際にこの検索を実行します。例えば、MCTSスタイルの探索かもしれません。タスクに最適な思考の連鎖を合成しようとします。
そのため、これらは非常に異なる種類のシステムで、異なる種類の能力を持っていることを念頭に置く必要があります。基本モデルの限界はまだ同じであり、限界を強調するために設計されたARCのようなベンチマークは、これらの基本モデルのスケーリングアップのパラダイムに完全に抵抗しています。
2019年に最初にARCをリリースしたとき、そこにある最高のLMはGPT2でした。もちろん、ARCには全く役に立ちませんでした。約半年後、GPT3が登場しましたが、これもARCで0％のパフォーマンスでした。今日、最新の基本モデルはARC1で約10％のパフォーマンスを示し、ARC2では0％です。明確にするために、10％のランダムポイントは非常に低いです。あなたは95％以上を達成できるはずですから。
おそらく、いいえ、確かに。エルセットを試してみるべきです。いくつか試しましたが、難しくありません。本当に簡単です。特に時間をかければ、タスクごとに数分かかります。非常に粗い力任せのプログラム列挙を行うだけでも、2020年の最初のコンペティションで見られたように、20％のパフォーマンスが得られます。同じ技術を少し拡張すれば、50％になります。ですから、10％だけでも非常に低いです。
これは、事前学習スケーリングパラダイムに完全に抵抗したベンチマークです。GPT2とGPT4.5の間には基本モデルの50,000倍のスケールアップがありましたが、ARCでは基本的に平らな曲線が結果として得られています。私たちが大きな進歩を遂げたのはテスト適応によってです。
最初の質問は、LLMが得意なこと、苦手なことは何かということでしたが、基本モデルについて言えば、正直なところ、すべてにおいて中程度です。しかし、それらを使用できるのは、例えば非重要な情報検索や、失敗がコストのかからないタスクの自動化などです。なぜなら、それらは何か有用なことをしてくれるかもしれませんが、失敗したり幻覚を見たりする可能性が常にあるからです。
だから、ループに人間を入れて、重要ではないタスクに使用するべきです。それらをブレインストーミングや情報検索などに使用する場合は、出力をチェックすることを確認してください。しかし、それらは非常に幅広い範囲の小さな自動化タスクに非常に役立ちます。
私は毎日、あらゆる種類の小さなことにそれらを使用しています。もちろんコーディングにも、テキストラインの補完メカニズムとして、またはStack Overflowの代替としても使用します。ブレインストーミングにも優れていますし、テキストのタイプミスをチェックするなど、本当に役立つことがたくさんあります。
それらが苦手なのは、よりアルゴリズム的な推論や、見たことのない問題に適応することです。だからこそ、例えばARCで失敗します。
このすべての背景として、ARCは最終的にAGIへの進歩に焦点を当てたベンチマークであり、これはAGIとは何か、知能とは何かという会話全体に繋がります。これはあなたが明らかに何年も考えてきたことです。LLMの力任せの側面の限界に関連して、知能とは何か、どのような種類の知能を開発する必要があるのか、そしてこのテスト時計算が何を目指しているのかについて教えてください。
確かに、知能も非常にオーバーロードされた用語で、異なる人々が非常に異なることを意味します。私が本当に興味を持っている知能の定義は、特定のことをする能力、基本的にスキルの集まりとしての知能ではありません。私は流動的知能、基本的に新しい問題に取り組んで創造的に解決する能力、または新しい領域に取り組んで以前持っていなかったスキルを身につける能力に興味があります。そしてそれを効率的に行います。
効率の概念は知能の核心にあると思います。なぜなら、いつでも高価なことをすることができるからです。例えば、力任せを使って問題を解決することもできます。これは非常に簡単なアルゴリズムです。可能なすべての解決策のスペースを考慮し、一つずつ繰り返しチェックします。最終的には、10億年後に正しい解決策を見つけるでしょう。ARCを含むどんな問題にもそれを適用できます。数十億ドルのコンピュートがあれば、確かにARCを力任せで解決できますが、それが知能ではありません。
知能とは、ショートカットを取る能力、基本的にこれらの非常に難しいことを効果的に解決する能力、これらの非常に難しいNP完全問題を劇的に効率的に、効果的に線形時間で解決する能力です。そして、私たちが知的なのは、速く学び、新しいスキルを速く身につけ、問題を速く解決できるからです。ARCのタスクを解決するとき、おそらく数秒から数分かかりますが、入力から出力に至る1億の異なる可能なプログラムを繰り返し確認する必要はありません。おそらく2、3の可能性を見るだけです。
要約すると、私は知能をスキル獲得効率として見ています。スキルを獲得できることではなく、それをどれだけ効率的に行えるかが知能の測定です。そして適応する能力です。
それはどのように表れるのでしょうか？それはあなたの多くの作業であり、O3はその方向への一歩のように思えます。文脈に置くと、すべてのLLMは以前述べたように、RKGI1で劇的に失敗していました。ARC賞2024の終了後まもなく、OpenAIから連絡があり、「O3に取り組んでいて、面白い結果が出ているようだ」と言われたとのことです。彼らが何をしたのか、あなたが知っている限りで、技術的な詳細を含めて教えてください。彼らはどうやって、例えばAnthropicのClaude 3.5 Sonnetの25%から、O3の75%、そしてスマートプライベートセットでの85%という飛躍を達成したのでしょうか？
リーダーボードに実際に使用している、スマートプライベートセットでのパフォーマンスは、一般的に最大で10%程度でした。なぜこの突然の大きな飛躍があったのかというと、基本モデルのスケールアップからテスト適応に向けたパラダイムシフトがあったからです。O3は、私が知る限り、現時点で最も高度な、最も成功したテスト適応モデルです。
彼らが正確に何をしていたのかについては、推測するしかありません。明らかにテスト適応を行っているため、一般化能力が大幅に向上しています。しかし、それはどのように機能するのでしょうか？私の情報に基づく推測では、おそらく可能な思考の連鎖のスペースに対してある形式のテスト時探索を行っていると思われます。
思考の連鎖を編集するたびに、自己一貫性やタスクとの一貫性などをチェックしています。そのチェックは、グレーダーモデルと呼ばれるもの、つまり思考の連鎖が実際に堅実かどうか、自己一貫性があるかどうか、現在の問題と良く一致しているかどうかを評価することに特化したモデルによって自動的に行われます。
実質的には、プログラムが実際にトークンスペースの自然言語プログラムである形式のテスト時プログラム探索です。そして、正確性を例えばユニットテストのスイートで実行して検証するのではなく、別のモデルに評価を依頼しています。
これが最も可能性が高いと思うのは、観察されることと私たちが持っている情報と一致しているからです。
一般的に、単なる基本モデルやおそらく単一の思考の連鎖生成を持つモデルと、テスト時探索を行うモデルを区別する方法の一つは、回答するための推論レイテンシーを見ることです。さらに長くかかる可能性もあります。また、コストも見ることができます。テスト時探索を行うモデルは、テスト時にはるかに多くのことを行うため、10倍、100倍、1000倍のコストがかかる可能性があります。
例えば、ARCで試した最高のコンピュート設定でのOpenAI O3は、1つの小さなパズルに$10,000から$20,000を消費していました。これは通常、基本的なモデルを使えば数セントで解決できるものです。もう一つ見ることができるのは、一般化力です。ARCは実際に一般化力を調査するための非常に良いベンチマークです。そのため、基本的なLLMからテスト適応を行うモデルへの大きな飛躍が見られます。10%から80%への大きな飛躍です。
彼らがデータセットをファインチューニングしたかどうかご存知ですか？
それは良い質問で、明確な答えはありません。彼らはトレーニングタスクの重要な部分、確か75%ほどを使用してモデルを何らかの方法で適応させていると言っていました。もちろん、それは最初から完全に正当です。トレーニングタスクはそれらでトレーニングするためにあります。だから、トレーニングデータでトレーニングしていれば、それは完全に合法です。それが彼らが特にセミックセットで得ているスコアです。
しかし、それは正確に何を意味しているのでしょうか？これらのタスクで何をしていたのでしょうか？少なくとも2つの解釈があります。一つは、基本モデルの事前トレーニングデータの一部だったというものですが、それはあまり意味がありません。なぜなら、すべてが基本モデルのトレーニングデータの一部だったからです。特に、それはGitHubでトレーニングされたモデルですが、ARCトレーニングデータは75%ではなく、100%GitHubにあります。さらに、公開されている部分もGitHubにあるため、それもトレーニングされているはずです。
その上、GitHubの多くの異なるリポジトリもトレーニングされているはずです。それらは、より多くの生成されたARCタスクを提供したり、トレーニングセットや他のセットからの特定のARCタスクのソリューションプログラムを提供したりしています。おそらく、それが彼らが意味したことではないはずです。特に75%のトレーニングタスクで何か特別なことをしていたはずです。
もう一つの解釈は、例えば強化学習を通じてモデルの数ショットファインチューニングを行うことができるシステムを持っており、基本モデルのインスタンスを作成して、ARCに特化してファインチューニングしたということです。私はこれが最も妥当だと思います。そしてそれは、パフォーマンスの向上の一部を説明するでしょう。しかし、これらはモデルで以前に見たことのない能力です。だから、それがARCに特化したモデルであるか、より一般的なモデルであるかにかかわらず、それは非常に印象的だと思います。これは確かに機能します。
ARC賞2024には他にも非常に興味深く有望なアプローチがありました。それらについて、また一般的にそれがあなた自身の作業とどのように結びついているのかについて話していただけますか？深層学習によるプログラム合成のようなもの、それは何を意味するのですか？プログラム合成とは何を意味し、深層学習がどのように役立つのですか？そして、テスト時トレーニングや、プログラム合成とトランスダクティブモデルを組み合わせるような他のタイプのアプローチについて、それらはすべて何を意味するのですか？
昨年のARC賞は、実際に流動的知能を持つモデルを作成するための現在最高のアプローチが何であるかを強調する素晴らしい仕事をしたと思います。それらはすべてテスト時適応メソッドです。
ARC賞を通じて大きくなった一つのメソッドカテゴリは、テスト時ファインチューニングまたはテスト時トレーニングです。ここでは、トランスダクションを行うLLMを使用しています。つまり、タスクを見て直接答えを予測しようとします。これは、帰納とは対照的と考えることができます。帰納では、タスクを見て、タスクを答えに変換するプログラムを予測しようとします。一方は直接答えを予測し、もう一方は答えを与えるプロセスやプログラムを予測しようとします。
トランスダクティブモデルを見て、テスト時に解決しようとしている現在のARCからインプット・アウトプットのペアを生成し、特にそのモデルをファインチューニングして一つのインプットを出力にマッピングし、そのモデルをテストインプットで実行して何が得られるかを見ます。それが一つのことです。
ARC賞で大きくなったもう一つのアプローチカテゴリはプログラム合成です。プログラム合成とは、作業している言語があり、おそらく問題に特化した言語、ドメイン固有言語（DSL）かもしれません。多くのARC DSLがあります。あるいは、Pythonのような一般的なプログラミング言語を使用することもできます。テスト時にタスクを見て、タスクを解決するプログラムを書こうとします。
そのプロセスで、多くの候補プログラムを生成し、それらをインプットで実行して正しい出力が得られるかどうかを確認します。正しいプログラム、つまり実際にテストペアで動作し、合理的に短いプログラムを見つけた場合、それはテストインプットで一般化するプログラムの良い候補です。
そのアイデアにはいくつかの異なるバリエーションがあります。例えば、LLMを使用してPythonでコードを生成することができます。これは深層学習によるプログラム合成の一例です。また、実際に離散的なプログラム探索を行うこともできます。つまり、DSLの要素のような操作があり、それらをプログラムであるグラフに組み合わせ直そうとします。そしてこの再組合せを離散的な探索プロセスを通じて行います。
これは実際に、競争の以前の版で最もよく機能した種類の技術です。2020年の最初の版では、手作りのDSLと非常にクールな探索プロセスを用いたこの技術が勝利しました。
プログラム合成の特定の技術的課題は何ですか？LLMアプローチがデータによって制約されていると考えるならば、プログラム合成の制約は何ですか？
大きな制約は、プログラムの書き方があまり洗練されていないことです。そのため、最初に試したプログラムが正しいプログラムである確率は非常に低いです。正しいプログラムを見つけるためには、多くの異なるプログラムを試す必要があります。例えば、単に力任せのプログラム探索を行っている場合、ランダムにプログラムを試します。正しいプログラムを見つけるには、検索スペースの潜在的な解決策、またはポイントの何百万もの試行が必要です。
主なボトルネックは、この探索プロセスに非常に長い時間がかかることです。それは非常に大きな探索スペースであり、すべてのポイントを評価するために、各ポイントの評価にはある程度の計算が必要です。何百万ものポイントを評価しなければならず、これは非常に高価です。
もちろん、それは人間のやり方ではありません。人間はおそらくプログラム探索に似たことをしていますが、非常に少ない探索しか行いません。問題を見て、見ているものを説明するためのごく少数の仮説を素早く構築します。おそらく2つか3つです。そしてそれらをテストします。それは一種の探索です。一つのプログラムが機能しなければ、それを精神的にデバッグするか、単に破棄して次の仮説に移ることができます。
しかし、探索の基盤のサイズは非常に小さいです。なぜなら、人間は基本的に、コンピュータが非常に得意とすること、例えば何百万ものポイントを持つ離散的な探索スペースを評価することに、あまり得意ではないからです。人間は直感的に効果的に正しいプログラムを見つけるための何らかのショートカットを持っています。
それは直感の基本的な概念のように聞こえます。あなたが行っていること、そして提案していることの一部は、力任せを再び組み合わせること、またはそれが得意なものに展開し、そして直感の概念をAGIへの道として取り入れようとすることですか？
人間がどのようにそれを行うかは分かりませんが、明らかに直感が絵の一部です。直感とは、経験を活用して推測を減らし、正しい推測を見つける前にチェックする必要のある推測が少なくなるというアイデアです。
その非常に基本的なバージョンがLLMが行っていることです。いくつかのタスク定義に条件付けられたプログラムを生成するとき、効果的にプログラムスペースの形状に関する統計的な事前確率を使用して、より少ない推測を生成しています。あなたの推測のほとんどは、例えば構文的に正しくなるでしょう。これはすでに良い特性です。ほとんどの推測は何らかの形でタスクに関連しているでしょう。
このような統計的な事前確率を使用すれば、おそらく数百万のプログラム、またはそれ以下、おそらく数万、数千のプログラムで正しいプログラムを見つけることができるでしょう。単に力任せのプログラム列挙を行っていれば、何十億ものプログラムを試す必要があるでしょう。
しかし、あなたの直感が洗練されていればいるほど、正しい答えを見つけるために行う必要のある推測は少なくなります。人間のような非常に洗練された直感システムを見ると、我々はただ正しい答えを見ます。我々は非常に少数の仮説を頭の中で立てるだけです。効果的に確認するためだけです。
プログラム探索とプログラム合成、それらは同じものですか、それとも異なる概念ですか？言い換えれば、既存のプログラムの長いリストから選択しようとしているだけなのか、それとも基本的に、以前見たことのない状況にその場で適応するためのプログラムを作成することについて話しているのですか？
それらは通常、同じことです。なぜなら、LLMを使用してインスタンスを生成するなど、どのようなプログラム合成を行っていても、それが正しいことを確認する必要があるからです。最初の試みで正しいことはないでしょう。プログラム合成を行っている場合、何らかの形のプログラム探索を確実に行っています。正しいものを見つける前に、いくつかの推測をテストする必要があります。
フランソワ、この素晴らしい時間をありがとうございます。あなたの共同創業者であるマイクを迎える良い時間です。彼は以前Zapierの共同創業者でした。まず、あなたたちはどのようにして繋がったのですか？どのようにして一緒に働き始めたのですか？
互いの友人が私たちを紹介してくれました。Lucasという、Adviceの最高経営責任者です。私の背景は、あなたが述べたように、Zapierの共同創業者で、基本的に過去10年以上その会社を運営してきました。2022年の初めにAIにより深く関わり始めました。その年の1月頃に出た「Chain of Thought（思考の連鎖）」の論文は、私を本当に驚かせたものでした。
私はAIに緩やかに関心を持っていました。基本的に会社の設立以来ですが、Zapierは自動化会社であり、必ずしも深層学習や機械学習の最前線に投資しているわけではありませんでした。私は会社全体にGPT3についてのプレゼンテーションを行い、1年以上経ってからこの思考の連鎖の論文を見ました。
私はその当時、推論ベンチマークと呼ばれるものすべてが、この「一歩ずつ考えよう」という方法を使用してスコアが段階的に増加していることに本当に驚きました。当時、私は会社の半分を運営していましたが、それを共同創業者であり最高経営責任者のWadeに全て戻し、基本的にZapierでのAI研究に完全に取り組みました。
これがZapierが非常に早期にAIを採用し、市場にAIを展開した理由の一つだと思います。私たちは2年以上AIエージェントを展開しています。何年もの間に気付いた興味深いことの一つは、顧客からのフィードバックでした。私は何百、何千もの顧客と話し、AIを使用してビジネスの自動化を行おうとする試みについて話しました。
フィードバックはいつも同じでした。「このものの約束は理解しています。何に使いたいかは分かっています。でも、それは十分に確実に機能していません。10回中2回はランダムに失敗します。これはChatGPTのような監視された設定では問題ないかもしれませんが、キーボードから手を離し、サーバー上で実行される自動化の場合には機能しません。積極的に監視しているわけではないからです。」
これは、モデルが改善されても、GPT3から3.5、4、4Oまで同じ一貫したフィードバックでした。同時に、2023年と2024年のオンライン上での「AGIスケーリングハイプ」も経験しました。
私にはこの2つの生きた経験があり、それらはうまく一致しませんでした。真実が何なのかを理解しようとしていたとき、フランソワの論文に出会いました。初めてフランソワの作品に触れたのは、Lex Friedmanのポッドキャストでのことだったと思います。そしてZapierでの期間中に再発見しました。
私はベイエリア周辺のAI業界の人々に「このARCベンチマークについて聞いたことがありますか？非常に重要だと思います。今日存在する最も重要な未克服のベンチマークかもしれません」と尋ね回りました。しかし、ほとんど誰も聞いたことがありませんでした。
最終的に、Lucasとチャットしていたら、彼がフランソワを知っていることが分かりました。彼は私たちを紹介してくれ、私は実際にちょうど1年前にシアトルに飛んで行き、ベンチマークを克服するためのいくつかのアイデアを提案しました。また、私の理解をチェックしたかったのです。「本当に認知度が低いですか？」「これが本当に非常に重要な未克服のベンチマークであることにも同意しますか？」
その会話から、両方の質問に対する答えは「はい」だと信じるようになりました。また、前年にN. Friedmanが実施したZubiusチャレンジを見ていました。それは非常に成功した競争の一つで、ほとんどの人が聞いたことがなかったか気づいていなかった問題に注目を集めるものでした。私たちもそれを模倣できると感じ、最終的にそれが初版のARC賞を一緒に立ち上げた経緯です。
それが実際にどのように機能するのか詳細に入りましょう。2024年から始まりましたが、構造は今日も同じです。プライベートバージョンとパブリックバージョンがあり、ペーパー賞もあります。それはすべてどのように機能するのでしょうか？
ARC賞の目標の一つは、飽和していない、本当に重要なAIベンチマークが存在するという認識を高めることでした。これは純粋な言語モデルシステムの50,000倍のスケールアップに抵抗したものです。これは、事前トレーニングだけでは純粋な言語モデルには十分ではないという事実について、公教育を提供するためのものでした。
これは、オンラインで見られたすべてのハイプやドグマと対照的でした。この時代を本当に覚えていない人のために、例えば去年の夏、カリフォルニアで大きなSB1047法案、AI法案がありました。これは主に、このスケーリングが続き、非常に悪い状況につながるという論理に基づいて導入されました。今規制を課さなければ、すぐに手遅れになるというものでした。
GPT4がリリースされたとき、テック業界の普遍的な物語は「GPT4はGPT3の大きなバージョンで、より多くのデータでトレーニングされただけです。同じアーキテクチャ、同じ原則ですが、スケールアップされて、この信じられないほどの段階的な改善を見てください」というものでした。GPT3自体はGPT2の大きなバージョンでした。
そのアイデアでは、GPT5は同じものだが100倍大きくなり、それをトレーニングするために大規模なデータセンターが必要になり、それが真のAGIになるというものでした。AGIはこのものをスケールアップすることから自然に現れるというものでした。
基本的に、すべての証拠がこの方向を指していました。知識とスキルの単なる力任せの記憶に基づくベンチマークを見ていた場合です。ARCを見ていなければ、これが当時持っていた考えでした。そしておそらく一部のより洗練された研究者たちは異なる信念を持っていたかもしれませんが、それが本当に主流の物語でした。
興味深いことに、約1年半後、この物語は消えました。人々は完全に認識するようになりました。事前トレーニングのスケールアップだけですべてが必要なわけではないこと、実際に全く異なるアイデア、そしておそらく適応が実際の流動的知能とAGIを達成するために必要であることを。
最初の大きな目標は、この事実の認識を高めることでした。そして正直に言って、人々を再び鼓舞することでした。前年の過去1年間、研究者や学生たちと多くの時間を過ごしました。聞いた興味深い感情の一つは、多くの落胆でした。「このすべてが解決されていないでしょうか？AIにはあまり興味深いことが残っていないのでしょうか？研究層ではなく、言語モデルのアプリケーション層で仕事をした方がいいでしょうか？」
これは本当に良くない状況だと感じました。私たちはまだAGIを持っていません。そのためのアイデアもまだありません。文字通り今日でもまだアイデアに制約されています。そしてそれが真実であれば、RKGI1と2の両方がそれを示していますが、可能な限り最強のイノベーションエコシステムを設計したいと思います。それは非常にオープンで、多くの共有があり、アプローチの多様性がある環境です。
閉鎖的な環境、共有がなく、ドグマや単一文化的な観点しかない環境は望ましくありません。昨年のARC賞で、私たちは本当に人々に新しいアイデアに取り組むよう鼓舞したかったのです。
そしてこの点に関して、私バージョンの一つ、間違っていなければプライベートバージョンでは、あなたが行ったことを正確に公開する必要があり、計算量に制限があるのは事実ですか？
その通りです。基本的なアイデアは、インターネットアクセスなしの自己完結型アプローチのための一つのトラックがあり、それらは非常に効率的であるため、計算予算が非常に限られています。また、競争の終了時に作者はそれらをオープンソース化しなければなりません。これは本当にオープンな共有を奨励し、可能な限り多くのアイデアを得ることを目的としています。効率に大きな焦点を当てています。私たちは効率がシステムに持つべき良い機能であるだけでなく、知能の中心にあると信じています。
もう一つのトラックは、フロンティアモデルの継続的なベンチマークを提供することです。現在利用可能な最高の商用フロンティアモデル、例えば現在は01 Pro、将来的にはO3、Gemini S3などがどれほどの知能を実際に持っているかを追跡するためです。
主に効率の考慮から独立していますが、効率を監視したいという考えがあります。そのため、2Dプロットで結果を報告する予定です。スコアをスカラーとして見るのではなく、このスコアを達成するために必要なタスクあたりのコストに関連付けられたスコアを見ています。もちろん、同じスコアを得るがタスクあたりのコストがはるかに低いモデルは、よりスマートなモデルです。
コンテストに関してもう一つ付け加えておくべきことがあります。構造に関してですが、今話したスコアトラックがあります。また、昨年導入したもので、2025年も再び行うものとして、ペーパーアワードトラックがあります。
Kaggleコンテストのような批判の一つは、データセットやベンチマークに多くのオーバーフィッティングが発生することです。人々はデータセットのマイニングを行い、おそらく一般化しない非常に狭いアプローチを多く取ります。彼らはコンテストに勝つこと、トップスコアを得ることだけを最適化しているからです。
確かに、私たちは実際にそのようなことを見ました。正当な良い概念的なブレークスルーもありましたが、確かに単なるベンチマークのハッキングと混ざり合っていました。私たちは概念的な進歩を奨励するために、これと並んでペーパーアワードを導入しました。
実際、ARP 2024から生まれた最高の研究のいくつかは、実際にペーパートラックにありました。テスト時トレーニング、テスト時適応アプローチのようなものです。オープンソースで再現可能なコードだけでなく、それをバックアップする理論も完全に得られました。
潜在的にARP 2024が回顧的に記憶されるであろう一つのことは、AIが「ああ、はい、私たちはARCのようなものを解決するためにテスト時適応メソッドが必要だ」と認識した時の瞬間をマークしたことでしょう。それはO3も示していることです。
O3の側面についてフランソワと少し話しましたが、別途トップの結果はJackコールのそのグループでしたか？
彼らはトップにいましたが、競争の終わりまでにドロップアウトしました。彼らは自分たちのソリューションをオープンソース化したくなかったからです。もちろん、それは彼らが賞の対象外となることを意味しました。
このトピックに関して、オープンソースはあなたが行うことの大きな側面です。それについて、そして今年の2025年が去年とどのように違うのかについて話してください。去年は、OpenAIが非常にクローズドソースで、世界やAGIへの進歩を遅らせているという物語がありました。今年は私たちはDeepSeekの時代にいます。これについてどう思いますか？
多くのチームが連絡してきて、実際に新しいDeepSeekのようなシステムや論文からのアイデアをARC賞に使用して試してみることに非常に興奮していると言っていました。
オープンソースで賞を要求する理由は主に2つあります。一つは、2010年から2020年代にかけてのAI研究の学術的環境をより模倣しようとすることでした。言語モデルに至ったのは、4つか5つの異なる人々が4つか5つの異なる企業や研究所にまたがってオープンな進歩、オープンな共有をしたことに基づいて構築されたものでした。それが最終的にトランスフォーマーやGPT2、そこからのスケールアップにつながりました。
私たちはそのようなものをもう少し模倣しようとしました。残念ながら、多くの競争的な市場力学のため、基本的にGPT4がリリースされて以来、フロンティアでのオープンなアイデア共有は本当にありませんでした。それが分野の進歩を本当に後退させていると感じました。
そこで、この賞を使って、小さな方法でフロンティアをオープンさに向けて少し戻し、もう少し共有を促進しようとしました。2つ目に追加したのは、コンテストの終了時から次の年に向けて、コミュニティが一貫して再ベースラインされるようにするためです。
コンテストの特徴と側面の一つは、人々が共有することを望んでいると期待しますが、現実は人々は自分のアルファを保持したいということです。賞を獲得するために、コンテスト中は共有したくないのです。私たちがコンテストを設計した構造的な設計の一つは、毎年実施しており、グランプリが克服されるまで継続するということです。
コンテスト中は、人々は本当に共有しないでしょう。私たちはそれを知っています。しかし、コンテストの終わりに賞を使って、人々に進歩を共有するよう説得し、そのオープンな知識を使ってコミュニティをこのものを実際に克服するために必要なことについて再ベースラインし、その知識を次の年に活用することを望んでいます。
面白いことに、それが今回実際に起こったことです。ARP 2024からテスト時適応メソッドがたくさん生まれ、次にO3からテスト時適応がベンチマークで大きな進歩を遂げる正当な方法であるという大きな証拠が得られました。効率的ではないかもしれませんが、その後、1月にDeepSeekのものが登場しました。これらすべてが今やAI研究者のフロンティア知識セットに入り、AR 20125に向かっています。人々がそれらのアイデアを新しいRGI 2データセットに持ち込み、適用するのを見るのが本当に楽しみです。
そして再び、それに触れていない人のために、85％に達する必要があります。85％が成功の基準で、そこで実際に賞を獲得します。ARC賞2025は、昨年からいくつかの変更があります。大きな変更は、データセットのバージョン1をバージョン2に交換することです。今はRGI2を使用しています。Kaggleの効率制限内で85％を達成する必要があり、85％は人間レベルで、それらの問題を解決することです。
実際にはそれより低いです。新しいRKGI2データセットの素晴らしい点の一つは、冬の間にサンディエゴで大規模な人間の研究を行ったことです。そのため、現在は強く主張できます。データセット内のすべてのタスクが、2回未満の試行で少なくとも2人の人間によって解決されました。これはAIシステムにも適用している同じルールです。
これは実際にバージョン1で自信を持って言えなかったことです。それは逸話的に真実だと思っていましたが、それを示すデータはありませんでした。今では実際にこれを言うためのデータがあります。
私たちが85％と言ったのは、主にいくつかのタスクにおそらく何らかの曖昧さがあり、タスクにいくつかの小さなバグがあるかもしれないと予想しているからです。ただ、100％のバーを目標として設定したくありませんでした。85％のバーは、「はい、ここにはおそらくエッジに沿ってファジーさがある」と認識する良いものだと感じました。
しかし、はい、このデータセット内のすべてのタスクは人間によって解決されています。明確にするために、私たち自身のテストに基づくと、平均的な人は単独では85％のスコアを達成することはないでしょう。私たちのテストサンプルの平均的な人はおよそ60％のスコアを達成するでしょう。しかし、テストサンプルから約10人の小さなパネルを取り、彼らが独立してタスクを解決し、その後、多数決を行うと、そのパネルは集合的に100％のスコアを達成するはずです。
ARC AGI2の新しい点について話す際に、パネルについて少し話しましょう。明らかに質問があり、以前に知能とAGIについて少し話しましたが、人間の間には知能のスペクトルがあります。そのスペクトルを反映するようにタスクをどのようにまとめましたか？人々をどのように選びましたか？プロセスはどのようなものでしたか？
私たちは例えばパズルを解くのが得意な人、ARCが強い人を選ぼうとしていませんでした。本当にランダムな人々を雇いました。科学的テストのために人々を雇うサービスを通じて、多様な群衆を得ることになりました。Uberドライバー、学生、失業中の人など、基本的に副収入を得ようとしている人なら誰でもいました。とても普通の人々です。そして私たちのタスクは普通の人々によって解決可能だということを知っています。
タスク選択プロセスで行ったことの一つは、誰もが解決できるタスクを排除しようとしたことです。なぜなら、何かが普遍的に実行可能であれば、それは実際に非常に強いシグナルを与えないからです。おそらく非常に簡単に力任せで解決できるものです。また、難しすぎるタスクも制限しました。少なくとも2人の人が独立して2回未満の試行で解決できるタスクだけを保持したので、それが解決可能であることを知っています。実際に再現可能に解決可能です。それは単に1人だけではありません。
あなたの文書の中で、シンボリック解釈、合成的推論、文脈的ルール適用を含む特定の能力に焦点を当てていることに注目しました。それらは何を意味するのでしょうか？
お望みであれば、それぞれが実際に何を表すのかについて詳しく説明できますが、高いレベルでの要点は、新しいARCタスクはすべて、ある程度の意図的な深い思考を必要とするということです。データを見て、しばらく考える必要があります。
そして、あなたが考え出さなければならない推論チェーンは、数回のホップがあるでしょう。それは、if文のような制御フローホップがあるかもしれません。これはARC1ではあまり見られなかったことであり、データセットが特にLLMにとって挑戦的である点で大きな違いを生み出します。
RKGI2が飽和すると予想されるのはいつですか？アイデアとしては、3、そして4があり、いつ集合的に「おお、AGIに達した」と言えるでしょうか？
実用的に言えば、あなたと私が自然にできるけれど、AIシステムができないタスクを簡単に思いつくことができなくなったとき、AGIがあります。もしそのようなタスクを思いつくことがもはや不可能であれば、おそらくAGIを持っているでしょう。
V2データセットを作成することがどれほど簡単だったかに驚きました。それは実際に私たちがまだどれほど遠くに行かなければならないかについて幾分か有益だと思います。AGIに近づけば近づくほど、このような問題を思いつくことはより難しくなるでしょう。現時点では、このような問題を思いつくことはまだ難しくありません。だから、私たちはまだ時間があります。
ARC2が飽和するまでどれくらいかかるのかは分かりません。それは85％に達する時期だけの問題ではなく、どれほど効率的に達成されるかという問題でもあります。しかし、私たちはすでにバージョン3の作業を始めています。それは全く新しいフォーマットを持つでしょう。AR2が最後のベンチマークになるとは思いません。その後に次のベンチマーク、そしてその次のベンチマークがあるでしょう。おそらくまだAGIへの道のりにいくつかの重要なマイルストーンがあります。
最終的には予測不可能ですよね。なぜなら驚きが出てくるから。O3は少なくとも個人的には私にとって驚きでした。
これは多くの予測者やAIのコメンテーター、そして読者でさえも認識するのに苦労していることの一つです。スムーズなスケーリング曲線に沿った予測は簡単に作ることができます。トレンドラインを引いて「ここに到達すると予想される」と言うだけです。
はるかに予測するのが難しいのは、段階的な変化がいつ起こるかです。これらは滑らかなスケーリング法則を描いたり、変数を調整したりした結果ではありません。これは「システムがどのように機能するかの基礎となる力学と構造が実際に変わった」というものです。それには鍛造された新しいアイデアが必要です。
そのような予測を行うことについての本当に難しいことの一つは、二つのことが必要だということです。一つはアイデアが世界に存在していること、もう一つは誰かがそのアイデアを実装することです。
まだそれが起こっていない環境では、これらの二つのことのうちどちらが真実なのか実際には分かりません。「まだアイデアがなく、それを構築するための正しいアイデアを生み出すために技術がまだ十分に追いついていないのか」、それとも「いいえ、すべての知識は既に存在しており、誰かがそれをすべて実装に組み立てる必要があるだけなのか」。
これらは両方とも非常に本質的に予測不可能なことであり、回顧的になるまで確認することが難しいです。このことに関する予測を非常に難しくしています。私はいつ段階的な変化が起こるかについて、硬い杭を地面に打ち込むようなことには常に消極的です。これらは非常に驚くべき瞬間であることが多く、O3は確かにその一つでした。
インディアについて少し話したいと思います。というのも、あなたたちはARC賞の共同創設者ですが、より最近、そしておそらくより重要なことに、新しい研究所の共同創設者でもあります。あなたがそれについてあまり話せないことは知っています。しかし、アイデア自体を含め、共有できるものがあれば教えてください。
フランソワ、あなたはグーグルで信じられないほどの旅をし、有名にケラスの創設者です。大企業の快適さにとどまる人も多いですし、会社を設立して大企業に戻る人もいます。マイクとパートナーを組んで独立し、AGIを追求することにした理由は何ですか？
私たちが構築したいビジョンがあり、それは他のフロンティアラボが実際に探究しているものとは非常に異なるビジョンです。私たちにはいくつかの洞察があり、AI研究コミュニティの主流の物語に反する信念があります。そして、それを実行する最良の方法は、独立した小規模な組織としてだと信じています。
私たちにとって非常に重要なことは、速く動き、速く繰り返すことです。それは少なくとも小さくてがむしゃらなチームとして達成する方が簡単です。
あなたたちのウェブサイトに書かれている少しの情報に基づくと、方向性はまさにそのプログラム合成の概念についてですね？
その通りです。私たちは本当にフロンティアはテスト適応であり、テスト適応を解決するための最良のアプローチは深層学習ガイドまたは直感ガイドのプログラム探索であると信じています。それが私たちが達成しようとしていることです。
あなたは実際にAGIに到達することがその一部だと言及しましたが、ビジョンはAGIよりもさらに大きかったと。あなたの言葉を引用すると、「急速な科学的進歩のための工場、新しいアイデアを発明し商業化できる工場を構築している」とのことです。その名前（India）もそこから来ています。これが何を意味するのか、何か追加の情報はありますか？
昨年の夏、ARCに一緒に取り組んでいたとき、私たちは多くの価値観の一致を見つけました。私たちの両方が、AGIのフロンティアを科学的なタイムラインを圧縮するために適用することに本当に興奮していたと思います。
興味深い観察があります。今日の人類とは何かをズームアウトして尋ねると、それは過去10,000世代にわたって人間が経てきた生物学的進化の集合ではなく、私たちが集合的に構築し、その上に追加することができた知識の巨像、技術の巨像なのです。
AGIはその適応率、そのテクノロジーツリー、知識の巨像への追加率を劇的に加速する機会があります。これは実際、まず第一にAGIへの取り組みを動機づけている理由の一つです。
もし私たちが近い将来、次の5年、10年、数十年で持っているすべて、本当に得るすべてが、人間がしたことを模倣し、それに従うことができるようなAIだけであれば、私たちは新しい技術を生産し、新しい知識をその山に追加し、人類に返す速度を劇的に変えることはできません。
常にループ内にいる人間、それをレビューし、ガイドし、チェックする人間によって制約されます。もし本当にこれらのことの変化率を大幅に増加させたいなら、自律的に革新できるAIが本当に必要です。それが今日欠けているものです。それがフロンティアでも欠けているものです。
これは小さな方法でRGI2が示していることでもあります。もし私たちがこれに向けて進歩できれば、その自律的な革新が可能なAGIシステムに向けての進歩をすることになります。
私たちの長期的なビジョンでは、インディアが基本的に世界の歴史の中で最も革新的な企業になることを望んでいます。私たちが直接構築した技術を使用して、最も多くの新しいテクノロジー、最も多くの新しい知識を生産することです。
面白いことに、AGIの創造はいくつかのステップからなるマスタープランの中の一番目のステップです。
それは科学的発見ですね。あなたの成功のビジョンは、人々がより良いメールを書くのを助けたり、ミームを作ったりすることではないようですね？
これは私たちが個人的に興味を持っていることですが、また、私たちが構築している技術が差別的に有利であり、人間によって以前に解決されたことのない問題を解決できる能力を持つということでもあります。これはLLMとは非常に異なります。
しかし実際には検証可能なドメインでのみ、シンボリックなドメインでのみ、数学、物理学、プログラミングなどのものです。創造的な文章ではありません。私たちは人々がより良く書くのを助けようとはしていません。LLMはそれを達成するための素晴らしいシステムです。それは私たちが構築しているものではありません。
これに少し付け加えたいと思います。AGIは多くの問題を解決するために使われることになります。私たちはすでに多くの問題を解決するためにAIを使用しています。Zapierでの私の経験では、Zapierはこれらのシステムからお金を稼いでいます。だから、AIの現状について、人々が重要な問題を解決するのを助けることについて、悪いことは何も言うことはありません。私たちはAGIも問題を解決するために使用するでしょう。それは全く問題ないと思いますし、絶対にそうするべきです。
AGIの創造や発見には本当に興奮することがあると思います。それは、この未知の未来への冒険のようなものです。私たちは正確に知識が何になるのか、将来どのような技術になるのかを正確には分かっていません。
それは個人的に私を非常に興奮させることの一つです。ある意味では、未来への時間機械を作るようなものです。人類の集合的な努力のある部分が、この冒険を前進させようとすべきだと思います。
研究チームが整っているようですが、まだ採用中ですか？
基本的に創設チームは整っています。私たちは基本的に、世界で最高のプログラム合成の才能をチームに集めようとしています。それが私たちが設定した研究プログラムで成功するために必要なことだと思います。創設チームは整っていますが、しかし、プログラム合成に本当に優れた例外的な候補者は常に永遠に考慮します。
もしそれがこれを聞いている誰かであれば、申し込むことができます。india.comに行き、ウェブサイトにjoinリンクがあります。メールを送っていただければ、読むのが楽しみです。
世界のどこからでも応募可能ですか？
はい、ありがとうございます。あなたは私よりも私たちを宣伝するのが上手です。はい、インディアはグローバルにリモートなチームです。
これはプログラム合成の才能が住んでいる場所の分散的な性質によるものです。これはある程度実用的なことです。世界には今、おそらく数百万のディープラーニングエンジニアがいるでしょう。対照的に、世界中に本当に優れたプログラム合成の専門家は数百人しかいないかもしれません。
これらの人々にリーチし、一つのチームに引き込むために、私たちはグローバルにリモートなチームを運営するという実用的な決断をしています。これは基本的に、過去15年間Zapierで運営してきたものの足跡を辿っています。Zapierもグローバルにリモートです。
素晴らしいですね。それは非常に興味深く聞こえます。業界の多くの人と同様に、インディアでどのように進んでいくのかを見るのが非常に楽しみです。ARC賞で達成したすべてのことに祝福を。そして、業界で行っているすべての仕事に感謝します。これらすべてを見るのは素晴らしいことでした。最も重要なことは、今日私たちと時間を共有してくれたことに感謝します。本当に感謝しています。
ありがとうございます。ありがとうございました。