
本稿は、ARC-AGI財団の代表であるグレッグ・カムラット氏が、人工知能における真の知性の測定について論じたポッドキャスト「Vanishing Gradients」の書き起こしである。フランソワ・シャレの知性の定義「新しいことを学ぶ効率性」に基づいて設計されたARC-AGIベンチマークは、従来の暗記型テストとは異なり、人間が数回の試行で解けるが最先端のAIモデルが苦戦するタスクを通じて、真の汎化能力を測定することを目的としている。OpenAIのo3モデルが高いスコアを記録したものの、それには膨大な計算リソースが必要であったことや、現在のAIシステムが人間レベルの効率性から何桁も離れていることが議論されている。また、AGIの到達を判断する実用的な指標として「人間ができてAIができないタスクを作ることができなくなった時点」という基準が提示されている。
32,433 文字
知能に向けて進歩したいのであれば、知能の定義が必要です。そして、私がこの業界にしばらくいて衝撃を受けたことの一つは、私たち全員が依拠する知能の正式な定義を持っていないということです。そこでFrancoisは知能を正式に定義しようと取り組みました。
彼は非常にユニークな知能の定義を持っており、それがここでのARCに繋がります。彼の知能の定義は、新しいことを学ぶ能力です。美しいですね。本当に美しいです。そしてそれに小さな補足を加えると、新しいことを学ぶ効率性です。
つまり、どれだけ速く新しいことを学べるかということです。私たちは単なる記憶や知識ではなく、特に新しいことを測定しています。ですから、アメリカの第5代大統領は誰かと尋ねる質問は見当たりません。これは、私がPhD++問題と呼ぶような極めて困難な問題を問うかもしれない他の多くのベンチマークとは対照的です。
それは本当に天井がどこにあるかを示します。しかし、ここでのARCのようなベンチマークは、人間ができることとAIができないことのギャップがどこにあるかを示します。なぜなら、ここのすべてのデータポイントは人間でテストされているからです。つまり、人間がこれらをできることを知っているのに、AIはまだそれらを行うのに本当に困難を抱えているのです。
これはArc Prize財団の代表であるGreg Camratの言葉でした。今聞いたのは、機械における実際の知能を測定する最良の手段かもしれないベンチマークについてのGregの説明です。テストスコアでもなく、暗記でもなく、感覚でもありません。このエピソードはARC AGIについてです。これはFrancois Choletの知能の定義に基づいて構築されたベンチマークです。
どれだけ知っているかではなく、どれだけ効率的に新しいことを学べるかです。このエピソードで、Gregと私は、なぜほとんどのベンチマークが完全に要点を見逃しているのか、ARCがその失敗を暴露するように設計されている方法、そして最も強力なモデル、GPT-4クラスのモデルでさえ、人間が1、2回の試行で理解するタスクを解決できない場合に何が起こるかについて詳しく話します。
私たちはARCの構造、テスト方法、そしてOpenAIのo3モデルが予期せず良好な性能を示したが、大規模で慎重に設計された計算でのみそれが可能だったことについて話します。それが汎化と言えるのか、そしてこの分野が実際にどこにあるのかについて何を明らかにするのかを掘り下げます。Gregはシンプルだが急進的なアイデアを提示します。人間がAIを困らせるタスクを設計できなくなった時、私たちはAGIに到達したことを知るでしょう。
それまでは、ARCが進歩を追跡するための最良のツールかもしれません。評価に関心がある方、これらのシステムが本当に学習しているのか、それとも単に推測しているのか疑問に思ったことがある方は、この会話がお役に立つでしょう。私はVanishing Gradientsのホスト兼プロデューサーのHugo Bound Andersonです。
皆さんこんにちは。Hugo Bound AndersonがVanishing Gradientsでお送りします。今日はGreg Cameratと一緒にいられてとても興奮しています。元気ですか、Greg?
はい、お招きいただきありがとうございます、Hugo。こうしたことについて話し、こうしたことに取り組むには本当にわくわくする時期ですね。
私は従来の意味では宗教的な人間ではありませんが、ここはイースター金曜日で、みんなビーチに行っていたりしますが、私も後で行く予定ですが、まずは飛び込みましょう。この分野で起こっているエキサイティングなことすべてで、実際に眠るのが困難な時期ですね?
そうですね、ベンチマーク会社でベンチマークプロバイダーとして、新しいモデルがリリースされると、私たちは急いでテストしに行かなければなりません。モデルが多すぎます。あまりにも多くのモデルがここで出てきています。追いつくのが困難です。間違いなくテストインフラへの投資を続ける必要があります。
実際、この準備のために起きて、いくつか他のことをしていたら、Gemini 2.5 Flashのようなものが出ているのを見て、「勘弁してくれ」という感じです。o3やo4 Miniからまだ完全に回復していなかったんです。確かにここでたくさんのことが起こっています。
Greg、Salesforceでの戦略・成長・データインテリジェンスディレクターとしての仕事から、創業者として、そして制作する素晴らしいコンテンツまで、あなたのキャリアですでに非常に多くのことを成し遂げ、今はArc Prizeの代表をされています。あなたの歩みと、AIシステムにおける知能の測定方法に本当に興味を持つようになったきっかけについて教えていただけますか?
それは長い道のりです。クールな部分は最後にお話しします。手短に言うと、私はキャリアの始まりで長い間Excelモンキーでした。その時は気づいていませんでしたが、私は本当にスプレッドシートが好きで、スプレッドシートからデータを取り出すのが本当に好きでした。それが私を興奮させるものでした。それが私のスキルであることがわかりました。それをするのが好きで、素晴らしい組み合わせでした。
しかし、Excelだけをスキルセットの天井にしていたら、困ったことになるということをすぐに理解しました。そこで2014年に、最初のデータサイエンスブートキャンプの一つを受講しました。Zipfian Academyと呼ばれていました。あのクルーに敬意を表します。とてもクールでした。彼らはGalvanizeに買収されました。
2014年、私はサンフランシスコに移り、最初のデータサイエンスブートキャンプの一つを受講しました。そこで私のスキルレベルはExcelが天井だったのが、突然pandasを学ぶようになりました。Pandasです。私は人々にpandasがコーディングの残りの部分への私のゲートウェイドラッグだったと言っています。なぜなら、その後APIからデータを取得し始める必要があり、Pythonで作業することになり、PythonはそこからSさまざまな場所や言語へのゲートウェイドラッグになるからです。
結局その道を進み、Salesforceに行って、数十億ドル規模の製品のいくつかで成長を率いました。これは狂っていてとてもクールでした。そこで本当に楽しいチームと働きました。そして長い話を短くすると、AI分野に向かって働くことになりました。
突然、早送りして2022年11月、多くの人が知っているように、もうすぐ3周年を迎えるというのはワイルドです。ChatGPTがドロップして、APIで遊び始めると、「すごい、これは私が以前にやっていたすべてを変革するだろう」ということがすぐにわかりました。それで飛び込んで、学びながら行う、または行いながら学ぶアプローチを取りました。
私はChatGPTの使い方を開発者の視点から学んでいましたが、実際のユースケースもでした。LinkedInで必要な50のプロンプトのようなものではありません。そうではなく、ここにチュートリアルがあり、LangChainを使って何かクールなことをしている私の様子でした。それは非常にユニークな時期で、Hugo、あなたもこれを覚えていると思いますが、突然世界は言語モデルを持ちました。
もちろん突然ではなく、その前史はたくさんありますが、言語モデルがメインストリームに入ったということです。そして、「これで何をするんだ?これは何をするんだ?」という感じでした。ユースケースを列挙することさえも、それは要約する、分類する、感情分析をするなど、それもすべて新しかったのです。人々はまだそれらを理解しようとしていました。だから、コミュニティと一緒に学び、Twitterで共有し、YouTubeで共有するのは本当に楽しい時期でした。
しばらくそれをしていて、それが実際に私をMike Koipeに導きました。私はある時Mikeのインタビューを聞いて、彼がZapierのAI、内部AI採用について話していました。クレイジーなことの一つは、あなたの会社に千人の従業員がいる場合、彼らにAIを採用させるにはどうすればよいかということです。それはそもそも何を意味するのでしょうか?私はMikeがたまたまのインタビューでそれについて話すのを聞きました。
多分彼はそれについて2つの文を言ったくらいです。そして私は「ちょっと待って、それはとてもクールなトピックだ」と思いました。なぜなら私のバックグラウンドがビジネスで、今AIもあるからです。「Mikeとこれについて話したい」と思いました。それで彼にコールドリーチアウトし、彼か彼のアシスタントのいずれかが、「Mikeはこのトピックについて話すのが大好きです。これは彼の心に近い愛しいトピックの一つです」と言いました。
結局彼とのインタビューをして、とても楽しかったです。そして次に知ったときには、多くの詳細を飛ばしますが、Mikeが私のところに来て「Greg、始めようとしているサイドプロジェクトがある」と言いました。それがArc Prizeで、昨年2024年は主にコンペティションでした。私たちは4人のチームで、Mike、Francois、私、そして素晴らしい同僚のBrian Landersでした。そして私たちはただ楽しんで、Arc Prizeは私たちが思っていたよりも少し大きくなりました。
昨年の終わりに向けて、Mikeは私のところに来て、基本的に今年それを運営したいかと聞きました。そこで私たちはミッションをコンペティションから適切な非営利団体にアップグレードしただけでなく、彼は私にそれを運営したいかと聞きました。この点を言った後で一時停止しますが、これはとても楽しく、私のスキルセットにとってこれ以上クールなレバレッジポイントは考えられませんでした。
私は今していることをする特権と名誉に恵まれています。それは一度きりのことでした。もし私がその時Arc Prizeにノーと言ったら、それは戻ってこなかったでしょう。なぜなら、私たちがAI世界で過ごしているこのような適時的な期間だからです。それで考えて、「この交差点にいること、これを運営すること、楽しむことを望む場所で、やってみよう」と思いました。2025年はとても楽しい年になっています。
素晴らしいですね。面白いことに、人々は私の話を聞くためにここにいるわけではありませんが、ちょっとの間、私の歩みがあなたとどう重なるかについて話したいと思います。なぜなら、同期性と違いがあるからです。私は科学研究、生物物理学、細胞生物学で働いていました。2010年代初頭で、多くのデータをマンジするmunch必要があることを発見し、IPython notebookと呼ばれるものを発見しました。
まだJupyter notebookはありませんでしたが、pandas as pdをインポートして、pd.read_csvできるというこのものがありました。これは最大のことの一つで、インライン matplotlib、pyデータエコシステム、科学Pythonコミュニティがこれらの種類のモジュラーツールセットを持っていて、相互作用できるということです。もちろん、彼らは米国とヨーロッパにいましたが、主に米国でこれらのツールの多くを構築し、Fernando PerezやBrian Granger、そして金融で働いているWes McKinneyから科学者まで、対面でそれを行っていました。
彼らは私たち全員が素晴らしいと思ったツールを一緒に構築していて、それらのツールが産業に入り、特にOpsのこと、全体のOpsのことが起こりました。それは今でも起こっていますが、その後これらすべてのAIツールがあり、あなたの指摘通り、LLMは新しくありませんでした。実際、それはチャットGPTの瞬間をもたらした既存のLLMの周りのかなり基本的な製品ラッパーでした。
私たちはStable Diffusionの瞬間も持ちました。これらのシステムと相互作用することです。そしてあなたの指摘通り、私たちはそれらの生成的側面にあまりにも焦点を当てすぎて、感情分析や要約のようなものをできるフューショット学習能力やインコンテキスト学習に必ずしも焦点を当てていません。そしてあなたの指摘通り、要約はできますが、要約の評価や電子メールをどう行うかをまだ理解しようとしています、そうですよね?
それで本当に初期の段階であり、私はそれを電気を利用できるようになった初期の日と比較しています。もちろん他の人もこれをしていますが、電球やグリッドを持っていませんでした。エジソンがイノベーションラボを形成して何が起こっているかを理解し、彼らは「よし、どうやって理解しよう」と言いました。多くの人がこれを言いますが、私は、もし基盤モデルの開発が今日停止したとしても、明らかにそうしないでしょうが、私たちはそれらをどう使うかを何十年、それ以上でないとしても理解しようとするだろうと信じています。
私はあなたがどう考えているかに興味があります。私は常にAGIはある種の真っ赤な偽物かもしれないと思っていて、あまりにも多くの会話がそれに焦点を当てていて、それを測定する良い方法を持っていませんでした。しかし、Francois Choletが、人々はKerasや彼が行った他の多くの仕事から彼を知っているかもしれませんが、彼の美しい本の一つで、深いテクノロジストであり、多くの面で私たちの社会についての深い哲学者で思想家である数少ない人の一人です。
彼がARC、ARC AGIの開発を始めたとき、私は「これは見てみたいものだ」と思いました。私は常にLLMが基本的に確率的オウムで記憶装置だということを心配していました。しかし、あなたがした多くの仕事の後で、私はもうそれほど確信していません。だから、ARCとARC AGIのTLDRを教えていただけますか?そして、なぜそれが単なる記憶やこれらの種類のことの測定とは異なるのでしょうか?
もちろんです。それはFrancoisの論文から始まりました。私は何度も読んでいます。Francoisはこの全体を通して素晴らしい思想家です。彼と働けるのは本当に素晴らしいことです。それは知能の定義から始まります。彼は実際に論文を抽象の最初の文のように開きます。ここで誤引用することをお詫びしますが、「知能に向けて進歩したいなら、知能の定義が必要だ」というようなことを言っています。
基本的に進歩したいなら、どこに向かっているかを明確に定義する必要があります。それは単純に真実です。論文の中で彼は1900年代、おそらくそれ以前の多くの人々による調査について話し、知能の定義とは何かについて話しています。この業界にしばらくいて私がショックを受けたクレイジーなことの一つは、私たち全員が依拠する知能の正式な定義を持っていないということです。
みんな自分の意見を持っています。確かに、それらを聞きたいと思います。それらのどれも正式ではありません。それらを数学記法やコンピューターサイエンス記法で書き留めることは稀でしょう。そこでFrancoisは知能を正式に定義しようと取り組み、彼はARCに繋がる非常にユニークな知能の定義を持っています。
彼の知能の定義は、新しいことを学ぶ能力です。美しいですね。本当に美しいです。そしてそれに小さな補足を加えると、新しいことを学ぶ効率性です。どれだけ速く新しいことを学べるかということです。
これが擁護される方法は、どんな人でもどんなシステムでも狭いタスクで上手くなることができるということです。チェスが上手くなりたいですか?オーケー、クール。その上でたくさんの強化学習をしてください。囲碁も同じです。どんな分類措置も同じです。一般的に、十分なトレーニングデータがあれば、その一つのタスクで上手くなることができるでしょう。
しかし、その一つのタスクで上手くなっているシステムは、必ずしもチェスをしに行けるわけではありません。車を運転できるわけでもありません。これらすべての他のことをしに行けるわけでもありません。だから知能は、より多くのデータでモデルを詰め込んで、より多くの記憶や従来の深層学習ネットワーク内での補間ができるようにするのではなく、どれだけ上手く新しいことを学習しに行けるかです。それが本当の質問です。
そこでARC AGIが行うことは、AGIは新しいスキルを測定するためにFrancoisが提案したベンチマークです。これは2019年だったということを覚えておいてください。6年前ですね。実際に私たちは一緒に世界的な疫病を経験して以来、本当に長い時間が経っています。彼は本当に深層学習に挑戦するために最初に紹介しました。
ARCの仕組みは、入力と出力のグリッドがあります。ここに例があります。もし画面を見せることができるなら、それは役立ちますか?ぜひそうしてください。
実際に私たちは前にこれについて簡単に話しましたが、あなたがそれを立ち上げている間に、これらのタスクの多くの背後にある直感は本質的に視覚的でもあると言いましょう。だから、その感覚を得ることは有用でしょう。
簡単なものに行きましょう。これは私がいつも実際に、いえ、今はそのバージョンがありません。いずれにしても、ARCの仕組みは例があるということです。これらはトレーニング例で、人間は特に少数ショットの例から学ぶのが非常に得意です。何かを習得するために大量のトレーニングデータは必要ありません。
ここに例があります。入力と出力があります。入力、出力。この全体の目標は、入力が出力にどうマップするかを見ることです。入力を出力に変えるために必要な何らかの変換やルールがあります。それで、それが何かを見たいのです。
ネタバレで申し訳ありませんが、家にいる皆さん、この仕組みは左側にある正方形やピクセルの数を数えて、右側でその分の回数を繰り返すということです。ここに4つの正方形、4つのピクセルがあります。1、2、3、4から始め直し、1、2、3、4から始め直してそこから続けます。
ARCについて本当に興味深いことは、私たちはこれをスキルや何らかのルールや変換と呼んでいることです。別のタスクに行くと、実際に行った最初のタスクとは新しく異なってユニークな別のスキルが必要です。ここに別の例があります。異なるスキルが必要です。ここに3番目の例があります。異なるスキルが必要です。ここに4番目の例があります。異なるスキルが必要です。
ここからが本当に興味深いところです。パブリックデータでは、4つのパブリックセットがあります。これらは本当にトレーニング用で、モデルがどうしているかを見るためのものです。しかし、モデルがどうしているかのスコアを検証するために、実際には2つの隠されたテストセットがあります。
これらの隠されたテストセットで必要なスキルは、パブリックデータで見られたことがありません。だから、これらの隠されたテストセットに勝つAIモデルは、テスト時にその新しいスキルと新しい例を学習し、それ自体でそれらを実行する方法をその場で学習する以外に選択肢がありません。
だから私たちがモデルに強制しているのは、テスト時に新しいことを学習することです。そして、この全体のベンチマークの美しい部分は、私たちが単なる記憶や知識ではなく、特に新しいことを測定していることです。ですから、アメリカの第5代大統領は誰かと尋ねる質問は見当たりません。
これは、私がPhD++問題と呼ぶような極めて困難な問題を問うかもしれない他の多くのベンチマークとは対照的です。そのような極めて困難な問題は、天井がどこにあるかを本当に示します。しかし、ここのARCのようなベンチマークは、人間ができることとAIができないことの間のギャップがどこにあるかを示します。
なぜなら、ちなみに言い忘れましたが、ここのすべてのデータポイントは人間でテストされています。だから私たちは人間がこれらをできることを知っているのに、AIはまだそれらを行うのに本当に困難な時間を過ごしているのです。人間は比較的簡単にそれをできます。簡単というのは主観的な用語ですが、私たちが保持している基準です。
ちょうど出てきた私たちのV2データセットでは、440人をテストしました。それは私が前に知らなかったベンチマークを運営することの一部です。しかし、人間がこれをできるがAIができないという主張をするために、私たちは第一者データを持つ必要があり、権威を持ってそれを言える必要があります。
それで私たちはサンディエゴに行って約400人をテストし、人間が2回以下の試行でできるタスク、少なくとも2人の人間ができるタスクだけを含めました。はい、複数の人間がこれをできます。それで私たちは行って最先端モデル、今のトップモデルをテストしました。これで4、5%を得ているのに対し、人間のパネルはこれらすべてを正解しました。
とてもクールで、仕事でサンディエゴに行けるのも素敵ですね。なんとクールでリラックスした場所でしょう。楽しいです。私はサンフランシスコの北に住んでいて、カリフォルニア生まれの育ちです。だからサンディエゴは私の心に近く愛しい場所です。
素晴らしい。面白いことに、ご存知かもしれませんが、私は以前アメリカに住んでいて、一部のリスナーや視聴者も知っているかもしれませんが、オーストラリア人にとってサンディエゴは多くの面でシドニーに非常に似ており、私たちは冗談でそれを「フィッシュタコスのあるシドニー」と呼んでいます。
国境のすぐ隣で、州全体で私のお気に入りのメキシコ料理のいくつかがサンディエゴにあります。その事実を感謝しています。私たちが話し合った、人間が数回の試行でできることで素晴らしく、AIが歴史的に、AIシステム、基盤モデルが恐ろしく苦手としてきたことを評価します。
これをもう少し深く掘り下げたいと思います。なぜなら、以前のMMML、MMLU、その他の多くのベンチマークには記憶化に関する懸念があり、トレーニングからテストへの何らかの漏洩があるという懸念があるからです。だから、もし私が穏やかに少し悪魔の代弁者を演じることを許していただけるなら、あなたはこれらのことを100%確実にすることはできないと知っていますが、これらの種類の問題がどうにかしてトレーニングデータにあったということを主に確実にするにはどうすればよいでしょうか?
確かに。私が最初に言うことは、ARC1のように、ARC1とARC2は非常に限定されたドメインです。それは文字通り2×2の入力出力JSONですよね?現実とは全く一致しません。だから私たちは、ARCを解く方法についてのブログ投稿がたくさんあることをよく知っています。オンラインでARCを解くコードがたくさんあります。オンラインでARCについての例がたくさんあります。
本当に興味深いのは、パブリックデータのスコアとプライベートデータのスコアを見ると、2つの間に明確な低下があることです。だから、それはすでにパブリック評価セットで過学習が起こっていることを教えてくれます。私たちが行うことは、まず第一に、何がパブリックで何がプライベートかを明確にラベル付けします。
それから、もし私たちがラボとプライベートデータを共有したり、そのようなテストを行ったりする場合、相互NDAであろうと何であろうと、信頼協定を結び、それが機能しないことを確実にします。そして私たちのKaggleでのコンペティションでは、私たちのプライベートデータセットがあるところで、Kaggleコンペティションではインターネットアクセスが許可されていないので、そこからのデータ漏洩は起こっていません。
しかし、ここでのことは、それが完全に完璧なシステムではないことを認識しているということです。これに国家レベルのセキュリティを行っているわけではありません。ベンチマークの精神は、それでトレーニングしないということであり、ルール内で遊びますが、国家レベルのセキュリティではないことを認識しています。
完全に理にかなっており、それを明確にしていただき感謝します。さて、あなたがおっしゃったように、AGI1ベンチマーク2019年、そして過去一年で、正直言ってどこから始めればよいかわかりません。最近立ち上げたことに飛び込む前に、昨年末にOpenAIのo3システムで何が起こったかについて話しましょう。
それは本当に楽しい話で、このようなポッドキャストで公に話したことはまだありませんが、長い話を短くすると、12月上旬に座っていて、OpenAIの密接な連絡先の一人からメールを受け取りました。誰かは言いませんが、OpenAIの密接な連絡先の一人からです。彼らは大体「やあGreg、新しいモデルがあります。やあGregとMike、これでテストしたい新しいモデルがあります」と言いました。
私は彼らと電話に飛び込み、彼らは「これまでのところパブリック評価でこれをテストしました」と言いました。私は「素晴らしい、主張スコアは何ですか?」と言いました。それはかなり高く、OpenAIだと主張する高いスコアに十分高かったのです。私たちは今これを非常に真剣に受け止めるつもりです。
それで私たちは次の2週間にわたって彼らと協力し、基本的に私たちの準プライベートデータでのスコアを検証しました。これはホールドアウトセットで、彼らは私たちと同じことを疑問に思っていました。彼らのモデルはもしあるとしたら、どれだけ過学習していたかです。彼らは過学習対策が最小限であることを確実にするのに非常に勤勉だったと言えるでしょう。OpenAIチームを称賛しなければなりません。それは非常にクールでした。
それから私たちはOpenAIのサンフランシスコオフィスに行きました。火曜日だったと思います。12月20日か18日の火曜日だったと思います。私たちはSamと基本的にOpenAIのトップブラスとミーティングを持ちました。Samだった、Mark、その時のJacob、そして数人の人々、JT、Jerryがいて、とてもクールでした。
私たちは彼らに検証されたスコアを見せたく、特にSamに検証されたスコアを見せたかったのです。それで私たちは彼らと部屋にいて、基本的にこれについて投稿したいブログ投稿を彼らに見せました。それからSamは私たちに向かって「あなたたちは金曜日のライブストリームに参加すべきだと思いますか?」と言いました。これは2日前、3日前でした。
私たちは全くそれを期待していませんでした。私たちの一つの条件は、その金曜日に言うスクリプトを書きたいということでした。もちろん私たちは彼らのライブストリームに参加していたので、そこに行って失礼になるつもりはありませんでした。失礼になりたいなら彼らの縄張りでそれをしなかったでしょう。しかし、私たちは「これが読みたいスクリプトです」と言いたかったのです。
彼らはそれで良いと言いました。承認してくれました。「はい、素晴らしく見えます。参加してください」と言いました。だから私たちはいくつかのリハーサルを行い、次に知ったときには金曜日のライブストリームにいました。素晴らしい時間でした。
素晴らしい。そして、これをo3のこのジャンプにつながった主要なイノベーションは何だったと考えますか?私たちは、私の知識のほとんどがすべて推測であることを前もって認めなければなりません。この分野にいて、Twitterをできるだけ荒らし、これらすべてを見ている情報に基づいた推測ですが、アーキテクチャの変更が正確に何であるかはTBDです。
私たちが事実として知っていることで、これは前もって公開したことですが、o3特に自体で使用された大量の計算と大量のトークンがありました。o3低計算の場合、そして覚えておいてください、o3は今週公に立ち上げられたばかりです。それで私たちが12月にテストしたバージョンをo3プレビューと呼ぶつもりです。
プレビューと呼ぶ唯一の理由は、12月にテストしたモデルが今週出てきたモデルと同じではないことが確認されているためです。これは4月17日の録音です。私たちがテストしたo3プレビューは大量の計算を使用しました。低端では、タスクあたり約20ドルでした。それは約1万ドルで、当時私たちのパブリックリーダーボードに適格でした。
それをo3に実際に価格設定する方法については大きな疑問がありました。私たちは2024年12月に利用可能だったo1価格設定を使用しました。そして低計算で使用したものの約170倍の計算を使用した高計算のo3がありました。そこからそのために起こっていた相当な量の追加計算がありました。
それが単一の思考連鎖だったのか、そこから起こったサンプリングの束があったのか、テスト時にクーツ内で検索が起こっていたのか、それが何であろうと、多くの疑問がありました。しかし、それはすべて純粋な推測であり、それが正確に何であるかはTBDです。
こんなにエキサイティングな時代です。興味があります。2019年がAGI1で、過去一ヶ月で大きな次の反復を見ました。だから、これについて教えてください、Greg?
ARC AGI1の方法は900のタスクと呼ぶもので、それはすべてFrancoisだけによって行われました。これはクレイジーです。今日までARC タスクの束を作ったことを知って、Francoisが最初に900のこれらを作ったということは絶対に狂っています。
それと一緒の2番目のことは、5年後にARC AGI1の特定の欠陥を特定し始めるということです。これは完全に通常のことです。これらのことが通常進む方法であり、より多くの学習があります。だからARC AGI2は、ARC AGI1の最初の5年間で学んだことをすべて取って、ARC AGI2に入れることです。それだけでなく、ニュアンスをテストするためのより敏感な測定です。
AIが良くなるにつれて、これらのモデルが実際に何をしているか、性能が実際にどう進んでいるかを本当に解析し始めることができる、より敏感なツールが必要です。ARK1とARK2の間にはいくつかの主要な違いがあり、誰でもチェックしたいなら、私たちのウェブサイトに全体のチェンジログがあります。
第一は、私たちが実際に人間のパネルがこれらのR2タスクのすべてを行えることを検証したことです。それが第一です。第二は、タスクがそれらを解決するためのルールのより深い適用を必要とすることです。ARC AGI1を見ると、そこには多くの単純なルールがあり、残りのテストセットのためにこの正方形のコーナーを埋めるようなものかもしれません。それは現在のAIにはかなり簡単です。
しかし、マルチコンポジショナルルールやステップバイステップのルールに入り始めると、それはAIにとってより困難になります。V2内にもそれらがたくさんあります。そして、チェンジログを後で引き上げなければなりませんが、ARK1から学んだことをArk 2に適用するアップグレード版と考えてください。
素晴らしい。それで数週間前に立ち上げられました。賞金とは何か、人々がどう参加したかについて少し教えてください。そして何が起こったかに飛び込みたいと思います?
私たちはARCへのオープンソースソリューションを見つけたいと思っています。人々はARCをモデルを測定し、それがどう進んでいるかを見ることとして多く知っているかもしれません。確かに、それは私たちがすることの大きな部分です。私たちがすることのもう一つの巨大な部分は、実際に多くの研究を導くことです。
昨年の私たちのコンペティション、Arc Prize 2024では、論文トラックがあり、この論文トラックで私たちは競争に提出されたトップ論文に87,000米ドルを授与しました。私たちがそれを行うのは、概念的進歩を本当に推進したいからで、ARCをツールとして使って、この方向に向けて概念的進歩を作れと言う大きなターゲットのようなものだと言います。私たちはそれが本当に重要だと思い、そこから来る賞金でそれをインセンティブ化します。
それはうまくいきました。昨年60万ドルのグランプライズがありました。グランプライズは請求されませんでした。人々に望んでいたグランプライズの閾値を誰も打ちませんでした。それで私たちは今年Arc Prize 2025で戻ってきました。
私たちは年末にトップスコアを得る人に与えられるトップスコア賞をまだ持っています。トップ概念的進歩に授与される論文賞をまだ持っています。そして実際に私たちはグランプライズを70万ドルに増やしました。85%の閾値でARC AGI2を倒し、ソリューションをオープンソース化できる人は誰でも、70万ドルを獲得することになります。
素晴らしい。興味深いことに、オープンソースとはあなたにとって何を意味しますか?なぜなら、私たちは必ずしも再現可能ではないオープンウェイトと、いくつかを意味できるオープンソースがある空間に住んでいるからです。だから、それは基本的に非常に広い教会です。
それは非常に広い用語です。この精神は、他の誰かがデータやシステムを取って、基本的にそれを持って走ることができるということです。彼らはそれを再現できます。非常にニュアンスのある部分は、トレーニングプロセスとあなたがそれらの重みをどう得たかについてです。確かに重みをオープンにしますが、トレーニングプロセスから何を意味しますか?
モデルをトレーニングすることは本当に厄介になることができることがよく知られており、誰かがコンペティション全体の過程でモデルをトレーニングするかもしれません。それは8ヶ月間行われます。だから私たちは実際にトレーニングをどう行ったかを一定の十分性レベルで説明するための絶対的な最善の努力の試みを求めます。
誰かが8ヶ月間トレーニングした場合、私たちはここで彼らのコンピューターを没収してこの全体の監査ログを取得する必要はありません。しかし、私たちは誰かが彼ら自身でその作業をすることを選択した場合、モデルを再トレーニングできる必要があります。通常、書面による説明が私たちにとって十分でしょう。
とてもクール。チャットからNatalyiaの素晴らしい質問があり、彼女は実際に自分で発見しましたが、私がこれを前に言わなかったことを後悔しています。ARCは何の略ですか?
Francoisが2019年に最初に紹介したとき、ARCは抽象化と推論コーパス(Abstraction and Reasoning Corpus)を表していました。しかし、昨年の半ば、3月か4月頃、ARCが過負荷用語であることに気づきました。そこにはたくさんのARCがあります。ARCインスティチュートがあります。より多くのARCベンチマークがあります。
それで私、Mike、France、Brianは、ある午後にZoom通話に座って「よし、この名前について何かしなければならない」と言いました。それで私たちはコンペティションをArc Prizeと呼び続けることにしました。組織は今Arc Prize Foundationと呼ばれています。そして、ベンチマーク自体をARC AGIと命名しました。
今、それは少し鋭い用語で、マーケティング用語ではありませんが、私たちが実際にこれらのベンチマークを汎化を測定するために使用しているため、少し内臓的であることを意味しています。そして、私たちがここで追い求めている究極の北極星は、AGIに向けた進歩をどう測定し、最終的に導くかです。
これまでのところ、どんな提出を見ていますか?興味深い戦略や何か驚いたもの、予期しないものはありますか?
私が言うべき2つがあります。いえ、3つです。3つではありませんが、ここで言及する3つがあります。第一は私にとって最も興味深くないものです。私たちはKaggleコンペティションを運営しています。私が学んだことは、Kagglerがリーダーボードを探査することに極めて適していることです。
彼らはリーダーボードに対してできることをすべて行い、そのためのたくさんのテクニックを行います。私はKaggleから得られる唯一の応答があなたのランタイムとスコアを得ることから、人々がランタイムで情報をエンコードしようとするまで、すべてを見てきました。特定のタスク属性を見る場合、weight文やsleep文を入れ、どれだけ長くスリープするかに応じて、特定のタスクについての情報を与えます。
彼らはその情報を使って年間にわたって段階的にスコアを構築します。言うまでもなく、それはコンペティションの精神ではありません。それは私たちが目指しているものではありません。しかし、それはインセンティブの整合であり、賞金を倒すことができる人には現金があることを理解しています。だから、それがそこにある理由を理解しています。しかし、それが最初のクラスです。私たちはそれをブルートフォースと呼んでいます。
2番目のクラスは、昨年のトップチームの多くが行ったもので、テストタイム計算またはテストタイムトレーニングになります。彼らが実際に行ったことは、隠されたテストセットで100の問題、100のタスクがありました。彼らがテストタイムで行ったこと、つまりタスクを見た後、各個別のARCタスクに特化した大量の合成データを生成しました。
隠されたテストセットのタスク第1号を見ました。覚えておいてください、インターネットアクセスは許可されていません。だから、これはすべて自律的です。彼らは今存在する人気のDSLと、おそらく人気のARCタスクジェネレーターを使用して大量の合成データを生成しました。
そして彼らは各ARCタスクで100回異なる言語モデル全体をトレーニングしました。だから、その上に大量の合成データを持つ100の異なるモデルがあり、それはその一つの特定のARCタスクと戦うために特化して調整されています。
人々はそれを行い、昨年の終わりに向けて、ARC AGI1で50年代にスコアしました。昨年のアーキテクツからのYanとDanielという2人の素晴らしい人々からの最高の提出を再テストしたと言うべきです。その提出はARC AGI2で3%をスコアしたと思います。だから、ARC AGI2のスコアはかなり低いです。
今年提出された3番目のクラスの提出は本当に興味深いもので、Isaacという仲間です。申し訳ありませんが、彼の姓は今忘れています。彼は「事前トレーニングなしのARC AGI」と呼ばれる提出があります。だから、最初に起こっている事前トレーニングモデルはなく、彼はすべてテストタイムで行っています。
彼は本当にクールなことを持っており、それだけでなく、私は彼に論文を書いて今年提出することを奨励しています。なぜなら、それはとても斬新だからです。私たちが信じている本当にクールなことは、AGIに向けた進歩は独立した研究者から起こる可能性が高いということです。大きなラボである必要はありません。
私が人々に言うのが好きなことは、計算は多くのアルゴリズム的非効率性を補うということです。多くの計算があれば、それは怠惰ではありませんが、私が使う言葉は、より多くの計算をそれに投げつけるよりも、汚いアルゴリズムのノイズの一部をファジーアウトするということです。だから、多くの計算がないなら、それは大丈夫です。アルゴリズム側でよりブレークスルーを作らなければならないでしょう。
それはOpenAIがGPT-4.5ビデオで出したブログ投稿にも当てはまります。彼らがそれについて話しているところです。誰かが質問をしたか、質問が提起されました。「人間は本当に言語サンプル効率的です。人間は言語が本当に得意です。言語効率の観点から、現在の言語モデルは人間よりもどれだけ非効率的ですか?」
代表者、Danielという名前だったと思いますが、彼は「現在の言語モデルは言語において人間より約10万倍効率が悪い」と言いました。それは私たちがどれだけ多くのアルゴリズム的進歩を作る必要があるかを示しています。だから、それは私がOpenAIと彼らの計算野心に同意する理由の一つです。なぜなら、何があろうと計算が必要だからです。それはアルゴリズムが良くなるだけだからです。
私たちが可能な限り多くの計算を必要としない未来を見ることはありません。だから、今それでペダルを金属に踏むのは大丈夫です。
はい。そして、これは私たちが人間が本質的にフューショット学習でこれらのタスクを達成できるという話と非常に関連しています。これは人々がこの分野で話す明白な例ですが、子供はワンショット学習が得意です。子供に一匹のポニーを見せれば、たくさんのポニーを指摘でき、馬からでも区別できます。それはとても重要です。
AGIの未来と、知能の測定と測定の未来についてのあなたの考えをもう少し深く掘り下げたいと思います。
確かに。私の多くの議論の出発点は、私たちが知っている汎用知能の一つの存在証明があり、それは人間の脳です。それが私たちが知っていることであり、そこから導き出せることは3つのことです。出力を導き出すことができます。人間が何をできるかを知っています。
彼らが新しいことを学べることを見ることができます。それらの新しいことを学ぶサンプル効率がどれだけかを見ることができます。だから、良い出力があります。そして、絶対に魅力的な2つの分母があります。人間の脳が出力することに必要なエネルギーの量を知っています。
文字通りカロリーを測定し、カロリーをエネルギーに変換できます。それができ、それは人間の脳に必要なエネルギーをコンピューターチップに必要なエネルギーと比較できるため魅力的です。はい、それはハードウェア効率についても言いますが、同じ場所から来るアルゴリズム効率についても話します。
人間の脳に入る2番目の分母はトレーニングデータです。人間の脳に入るトレーニングデータの粗い代理を作ることができます。視覚は情報リッチであるためピクセルデータで本当に大きなカーブボールを投げますが、人間にも入るトレーニングデータの粗い代理を作ることができます。
人間の脳の汎用知能の存在証明を使用して、それが私たちが人間に簡単で、AIに困難な問題を選ぶのが好きな主な理由の一つです。なぜなら、それができるなら、汎用知能の知られた存在証明に対するギャップを特定するからです。汎用知能に向かうなら、人間の脳をベンチマークとして、または少なくとも出発点として使うのは本当に良い場所です。
私がこれについて多くの反発を受けることは、「やあGreg、人間の脳は実際にはそれほど効率的ではありません。知能の普遍的に最適なアルゴリズムは人間よりもはるかに効率的になると思いませんか?」ということです。もちろんそうです。もちろんそうです。人々はそれで私を困らせるのが好きですが、問題への複数のルートがあります。
AGIを見つけたら、振り返って「うわあ、それは非効率的だった」と言うだろうと完全に信じています。だから、とにかく、それはそこでの出発点です。どこでも他に持って行って嬉しいです。
はい、それが大好きです。これらのタスクに必要なエネルギー量を定量化しようとするアイデアが大好きです。私がそこでの押し戻しは、これらのタスクを行っている人間の大人や10代の若者について話していて、例えば幼児については話していないということだと思います。私はあまりにも還元的や実用的になりたくありませんが、子供を成長させながら衣服や食事、教育に入るエネルギーの量もあります。
そして、フューショット学習で、遺伝的、歴史的、進化的にエンコードされたもの、そしてそれらのエネルギーコストもすべてがあるとします。
それは良い点を提起します。私が例を挙げていたとき、私は孤立した単一の人間について話していました。しかし、私たちは文化的知能の産物のようなものです。私たちができることの多くと私たちが持つ学習メカニズムは文化的知能です。だから、それは時間をかけて積み重ねられた文化です。
だから、私に転送されたそれらの思考に入ったエネルギーをすべて測定することは興味深い思考実験でしょう。私たちがすべてその上に便乗することができましたが、はい、それに対する良い押し戻し、良い質問です。
はい、そして私はこれらがある種の方法で関連していると思いますし、あなた方全員がこれについて考えたと推測します。Francoisがそのようなことを考えることを知っています。これはある意味で抽象的な質問ですが、知能における好奇心の役割は何ですか?
私の心の中の未解決の質問は、私たちがここに持つ知能のどれだけが生物学的人工物対知能それ自体に絶対に必要なものかということです。未解決の質問があり、私はこれらの答えを知っていると主張しません。もちろん知りません。人々が時々尋ねる未解決の質問があります。AGIは意識的になるかならないか?
オーケー、確かに。意識とは何ですか?うさぎの穴を下って、それを理解しましょう。全く異なる質問なので、それに入らないようにしましょう。ここでの質問に似ています。好奇心とは何で、それは知能に必要ですか、それとも生物学的側面ですか?私はそれがTBDだと言うでしょう。それは知能それ自体よりもむしろ人間の研究と知能が人間内でどう役割を果たすかの世界にはるかにあります。
多くの人が私と議論するだろうことを知っていますが、面白いことです。これらの世界、これらの場所に入り始めると、本当に定義と言葉に注意を払い始める必要があります。なぜなら、しばしば下流の議論で意見が合わないことがあることを見ますが、それを最初の単語の定義に意見が合わないことまで根本に戻すことができるからです。
全くその通りです。そして、それがFrancoisが彼の論文で非常に基本的である理由です。チャットにリンクし、番組ノートでインテリジェント測定について、少なくとも彼が定義していることです。この定義に同意しないことができますが、その後別の会話が必要です。少なくともそれを定義しましょう。そして私は意識の質問に同意します。
私は物事、コンピューター、ソフトウェアが意識的になるかどうか知りません。多くの人間がそうかどうか知りません。正直に言うと、私が意識的であるかどうか半分の時間知りません。Francoisは、意識は実際に人間の人生の過程で獲得されるという興味深い見解を持っています。
だから別の興味深い質問で、これはより思考実験ですが、赤ちゃんはAGIですか?Baby AGIではなく、ヨー、でも文字通り子宮から出たばかりの新生児はAGIですか?はいかいいえか?AGIはAGIを持つ能力ですか?なぜなら、それは成長して完全に機能する大人になるからです。それとも状態ですか?
潜在性がそれを定義するのか、それともその現在の状態がそれを定義するのか?そして、もしその現在の状態がそれを定義するなら、「うーん、本当にそうではない。あまりやっていない」という感じです。しかし、その人生の過程で、私の息子でさえ今、彼は11ヶ月です。私は彼が自分の腕が何をするかを理解するのを見ました。
彼はそれをどう理解したのでしょうか?彼の脳内でランダムなニューロンが発火していました。彼の腕は至る所で振り回されていました。そして突然彼は「ちょっと待って、私が持っているこの感情、私は腕をコントロールし始めることができる」と学びました。だから、このランダムなプロセスがその周りで少しより組織化され始めるのを見ることができます。
だから、その場合にはAGIがあるかもしれません。これはただもっと大きなうさぎの穴です。
全くその通りです。ARCに戻ると、人々がそれを解読することにどれだけ近いと思いますか?
私たちが今年行った重要な物語の転換は、効率性がARC報告内での第一級市民であるということです。昨年、私たちは文字通りスコアのあるリーダーボードのような1次元ベンチマークだけを持っていました。推論時間計算の世界では、出力に対応する入力を報告する以外に選択肢がありません。
私の以前の理論の線に沿って、私は直接エネルギー使用量および/または直接トレーニングデータの入力を持ちたいと思います。それがあなたのARC出力を得るものです。なぜなら、人間はインターネット全体のデータでトレーニングされていませんが、ARCで本当によくやっています。一方、LLMはインターネット全体のデータでトレーニングされています。彼らはそれほど素晴らしくありません。だから、トレーニングデータはこれの重要な部分です。
あなたの質問に答えるために私が向かっているところは、ARCで非常によくやるモデルがあるということです。12月にo3プレビューを見ました。我々が見たモデルは高セットでパブリック評価で87%をスコアしました。これは狂っています。しかし、それを達成するために6桁、潜在的に7桁の合計が費やされました。
知能は効率性ゲームであるため、私たちがここで見ているものを理解する必要があります。だから、あなたの指摘に、それが単なる能力実証であるなら、私たちはARCで非常に非常によくやるいくつかのモデルを見ました。人間レベルの効率性のARCという点で言えば、私たちはまだそれから数桁離れています。
だから、まだそこに到達していません。もし人々が聞いていて興奮しているが、どこから始めればよいかわからない場合、人々がどう参加できるか、どう提案しますか?ノートでリンクするDiscordもあることを知っています。
ここに状況があります。Discordには多くの情熱的な人々がいて、それは素晴らしいことです。時々ついていくのが困難です。そこでたくさんのことが起こっています。それがあります。arcprize.orgが私たちのウェブサイトで、そこに私たちは文字通り初回ユーザー体験になるようにウェブサイトを書きました。
ARC AGIについて知りたい場合は、ARC AGIタブに行って、そこで読み始めてください。実際、私が自分でそのページを書いたかもしれないので、タイポがあるかどうかわかりません。そこから始めることができます。それだけでなく、Twitterでも大きなエネルギーがあります。
だから、もしTwitterに興味があるなら、Arc Prize、私、Mike、Francois、Brianと、それに取り組んでいる多くの人々をフォローしてください。Twitterに興味がないなら、私たちのウェブサイトにもリソースページがあります。私たちが見つけることができるすべてのYouTubeビデオについて、私たちはそれをそこに投げつけます。見つけることができるすべての論文、私たちはそれをそこに投げつけます。すべてのコードとすべて。
だから、そこにはおそらく観客に良いだろうARC紹介のたくさんの本当に素晴らしいリソースがあります。
ベンチマークのより広いエコシステムに精通している人々のために、MMLU、Helm、Big Bench、これらすべての種類のもの、Aloe AIでやっているような人々のすべての素晴らしい仕事について考えていますが、この広いベンチマークのエコシステムにARCがどう適合すると見ていますか?
私が持っている核心的な信念は、一つのベンチマークだけでモデルについての全体の話を伝えることはできないということです。ポートフォリオアプローチを持たなければならず、私たちが政府と一緒に行う仕事の一部でも。実際、私たちはそれに関して科学技術庁OSTPにAIアクションプランと戦略に関する推奨を提出したばかりです。
そこで私たちが言及した重要なことの一つは、ポートフォリオアプローチを持たなければならないということでした。だから、多くの異なるカテゴリのベンチマークのための明確なユースケースがあると思います。ARCでは、私たちは抽象化と推論またはロジックと推論タイプのベンチマーク内に自分たちを置いています。なぜなら、私たちのベンチマークには言葉がありません。文化的知識がありません。認識する形状やそのようなものは何もありません。
だから、それは純粋に抽象化と推論からです。私たちは汎化ベンチマークであることも誇りに思っています。他の多くのベンチマークは既知の既知についてあなたに話します。SAT やトリビアスタイルの試験を与える場合、特定のモデルが知っているかもしれないトリビアの量を確信できます。
もしモデルがARCでよくやるなら、一定量の汎化が起こっていることを確信できます。汎化は未知の未知に入り始めることを意味し、多くの場所で汎化する可能性があります。これらのモデルが行って汎化する方向をまだ知りません。
申し訳ありません、私の心はいくつかの場所に行きました。Discordでの人々の構築と会話について言及しましたが、私もコミュニティを構築しているDiscordを持っています。私たちが前に話したLM駆動のもののコースと教育のもので、Discordで人々が構築し、会話するのを見るのは信じられないことです。
それは完全に圧倒的でもありますし、特に現在この分野で見ている電気の種類では。だから、私の心が行ったところは、その体験はどのようなものですか?より一般的に、これまでに何を学びましたか?Discordのノイズについて、ただより一般的に実際にこのベンチマークを追いかける人々を見ています。
Discordに新しい紹介があるときに私たちに通知するSlackチャンネルがあるので、みんなのバックグラウンドが何かの感覚を得ます。私たちがすべきことは、これはどんなタイプの人かと言う分類器を接続することです。ニュースレターにサインアップするすべての人について、私たちは実際にあなたのバックグラウンドは何かと尋ねます。
私たちは一度それをLLMを通して実行し、実際に私たちに来るすべての異なる人々のペルソナ分析を得ます。だから、DiscordとニュースレターからARCに参加している人が一体誰なのかについて学んだことの一つは、来て見ることが絶対に魅力的なことです。他に何を学んでいますか?
それについて多くのエネルギーがあります。公衆自身よりも良い検証者や採点者はいません。私たちはARC AGI 2をリリースしたばかりです。トレーニングセットにいくつかの異なるタスクがあり、私たちの検証プロセスを通り抜けることになりました。それは、コミュニティがこのために来ることを見るのがとてもクールです。
だから、私たちを助けてくれるそれらの人々に本当に感謝しています。しかし、彼らは情熱的で、私たちは彼らがアーケオンについて話し合う火の周りのようなスポットを持ちたいと思っており、私たちはそれを喜んでいます。
とてもクール。そして、ペルソナや代表される人々の種類について話すことが許可されていますか?
はい。大きなバケツを言います。大きなバケツの第1号は、MLリサーチまたは大きなラボの同僚のようなものです。大きなラボが誰であろうと。彼らはアーケオンについて聞きます。ベンチマークゲームにいることで、ベンチマークの周りにも多くの光学があります。特に大きなラボにとって、多くのお金があり、多くの投資があり、これらのモデルがどれだけ良いかについて決定が下されています。
人々はTwitterで人々が言うことのバイブスや、そのようなものによってこれらのモデルがどれだけ良いかを伝えますが、ベンチマークによっても。それが言われていることで、多くの光学があり、考慮すべき多くのことがあります。だから、彼らはARCについて多く話さないかもしれませんが、私たちが持った多くのプライベートな会話を通じて、まだ公に話すことができない多くの大きなラボがARCについて考えているということがあります。それが第1号です。
第2号は、非大ラボでのMLリサーチャーになります。だから、昨年Arc prizeに参加したNvidiaの数人がいました。おそらくスタートアップで働いていて、サイドでアーケオンに情熱を持っていて、それに取り組みたい数人の独立研究者がいて、それは素晴らしいことです。
グループ第3号は専門のkagglerになります。だから、彼らのプロフィールを見ると、グランドマスターと言い、彼らは多くのコンペティションに参加したと言います。だから、彼らは深いARC バックグラウンドを持っていないかもしれませんが、彼らはコンペティションとデータサイエンスが得意で、だから彼らはそれを追いかけたいのです。
そして、クレイジーで私のお気に入りのペルソナの一つは、ARCを北極星として使用している少なくとも10の異なるスタートアップを知っているということです。だから、彼らは文字通り「私たちは7から10人の小さなAGI研究会社です」と言いました。彼らはARCを北極星として選択し、それに対して開発します。なぜなら、ARCを倒すインハウスのクローズドソースソリューションを思いつくことができれば、商業的に収益化できるものを持つだろうと信じているからです。
だから、彼らはそれを追いかけたいと思っており、それは話すのが楽しい別の巨大なペルソナです。
魅力的です。その点に、私はあなたが甘いスポットを占める必要があると思います。十分に困難だが不可能ではない場所です。だから、これはおそらくFrancoisからの最初のデザイン選択、その後コラボレーションに帰結しますが、重要でありながら全く不可能にしないように、ベンチマークのバランスをどう考えていますか?
ARC AGI1は最初の5年間、かなり多くの引用符で「不可能」でした。それを言うのは、私たちが作ったビデオの一つにスライドがあることです。2019年から2022年か何かまで生き残った。それにはほとんど進歩がありませんでした。
Kaggleで起こっていた目的構築されたソリューション内でいくつか興味深いことがありましたが、それでうまくできる一般化されたモデルからは何もありませんでした。ChatGPTが出てきたとき、最初に出てきたときのGPT-3.5やDa Vinci 03か何かのように、おそらく0%をスコアしました。
数ヶ月前のGPT-4でさえ、8%のようなものをスコアしていました。だから、それは長い間基本的に不可能のために生き残りました。推論モデルを見始めるまで、ARC AGI でスコアが跳ね上がり始めませんでした。
それがベンチマークについて本当に興味深いことです。そして、ベンチマークが有効性を持つ方法の一つは、基盤となるモデルで何が起こっているかについて能力主張を行うからです。それが私たちがそれを愛する理由の一つです。
ARC AGI 2を設計したとき、人間がこれらのタスクをできるが、AIができないと権威を持って主張できる限り、私たちはそのためにタスクがどれほど困難かを気にしませんでした。あなたがおっしゃるように、AIで絶対にクレイジーな時代です。このテストを既にそうであるよりも簡単にすることは、私たちにとって全く有利ではありません。
ARC AGI2を倒すものが極めて特別であるという権威ある主張をできるようにしたいと思います。可能な限り困難にすることができるが、人間がこれをできるということを維持しながらであれば。だから、それは必ずしもゴールポストを動かすことではなく、それの方向性を変えることです。私たちは手にしている特別なものがあると信じています。
それが私たちを次の点に導きます。あなたは1を出し、2を出しました。AGI 3とは何ですか?それで何が起こっているのですか?私たちはすでにARC AGI3について考え始めており、それがいつ出てくるかはTBDです。来年、2026年3月よりも早く出てくることはありません。
しかし、再び、その一つで、甘いスポットがあるでしょうが、私たちはそれに対して控えめにするつもりはありません。
私は本当に、あなたがほとんどの人間ができないPhD+というあなたの用語に対して、人間ができるタスクに引き続きインデックスしているのが大好きです。なぜなら、彼らはトレーニングや専門知識を持っていないからです。しかし、AIはよく適しています。だから、その計算を回転させて、それに焦点を当ててもらうことです。
この点をさらに家に持ち帰るために、そこに一つのベンチマークがありました。o3がスコアしたと思います。私はここで数字を作っていますが、o3が10%をスコアしたと思います。オーケー。今、もしo3にインターネットアクセスを与えたら、そのベンチマークで20%をスコアしました。
だから、それがあなたに教えることは、そのモデルが必要だったすべては外界へのより多くのアクセスでした。実際に持っていた知能の量を増やす必要はありませんでした。外界からの情報と文化的知識がより必要でした。
だから、それはそのテストが基礎となる知能についてそれ自体多くを教えてくれないということを私に教えます。外界へのアクセスについて教えてくれます。それは完全にそのスコープのことを測定するのに良いです。私たちがしようとしていることは、特に知能を測定することです。だから、私たちは外部情報を必要としません。ARCでうまくやるためにインターネットを検索する必要がないようなものです。
Kaggleで人々がハッキングや過学習をしようとする、私がゆるくその用語を使っていて、それらのリスクをどう考えるかについて、その他の方法を見たことがありますか?
それは、私たちに来る人々と信頼するが検証するようなものの一つです。面白いことは、時々「Greg、私たちはARC AGIで100%を主張する」のようなメールを受け取ることです。100%。それはすでに完了していて、私の最初の考えは、明らかにあなたのモデルに答えを入力したか何かだということです。なぜなら、誰もまだARC AGIで100%を得ていないからです。少なくとも私たちはまだそれを見ていません。
他の過学習をどう考えるか?私たちは、それが起こらないことを確実にするためにデータセットに対して前もって行う過学習テクニックをいくつか持っています。秘密を漏らすことになるので、それらに入りたくありません。しかし、それは私たちの心の上にあることです。
しかし、ここでのことは、これにアプローチするいくつかの方法があります。セキュリティの人が語彙の単語をこれに置き、それについて私を教育してくれると確信していますが、私たちはデータセットに関して前もって対策を取ります。オーケー、クール。
私たちの隠されたデータセットでは、反応的対策も行います。だから、誰かが私たちに来ることになった場合、私たちは多くのスコアを検証することにノーと言わなければなりませんでした。実際、私たちのところに来て「やあGreg、私たちはスタートアップの資金調達ラウンドを上げようとしています。ARCで本当に良いスコアを発表したいと思います。私たちのモデルをテストして、レポートを与えてもらえませんか?
投資家のところに行ってそれをするために?」と言う人々がいました。私たちは彼らを知りません。私たちは彼らを信頼していません。彼らはソーダスコアを主張していません。それはブラックボックスです。彼らは私たちが基本的にただそれを彼らに与えて、フェンスの上にデータを投げることを望んでいます。
だから、彼らへの私たちの推奨は、パブリック評価でそれを行ってください。それについて言いたいことを何でも言ってください。それは公にそこにあります。私たちはプライベートデータをテストできません。だから、前もってと反応的対策です。
私はここで少し詮索していますが、興味があります。私の耳はただ立ち上がりました。もしあなたが答えられないなら、もちろんしないでください。テストセットに何があるかを知っている人がどれだけいるか、そしてそれの周りのセキュリティをどう考えるかを理解しています。金曜日の夜の飲み物で、パートナーに話したりしますか?
それを言葉で説明するのは困難でしょう。これらのことを言葉で説明するのは困難です。だから、それは大丈夫だと思います。ARC AGI1については、それにアクセスできる6人程度がいると言うでしょう。Francoisがその一人です。Kaggleはそこから来る別の当事者です。だから、それほど多くありません。
ARC AGI 2については、もっと多くの人がそれにタスクを提出しました。だから、私たちが行うセキュリティ対策の一つは、誰かがタスクを提出するかもしれませんが、タスクの全体のリポジトリにアクセスできないかもしれないということです。だから、ARC AGI 2については、少し高いですが、信頼要因をできるだけ低く保とうとしています。
私が言ったように、Francoisが知能の比較的堅固な定義を思いついたことが本当に好きです。あなたの指摘も、クレイジーなことの一つは、なぜ実際の定義をもっと持っていないのかということです。私は知能のどんな定義にも耳を澄ませ続けており、見るすべては何かのテストでよくスコアすることです。
しかし、どんな単一のテストも、ARC AGIのようなメタベンチマークやメタテストでない限り、本当にそうなるでしょう。しかし、そこにより多くの知能の定義がないことに絶対にショックを受けています。
絶対に。そして、多くのコミュニティや心理学や至る所からの知能研究者がいましたが、私たちはまだそれに着地していません。それはある意味で触れることができないように見えます。
それは触れにくく見えます。私はどちらがどちらかわからない2つのシナリオが展開するのを見ることができます。第1号は、それは定義できません。定義されないものの一つです。または第2号は、天文学的はしごと距離の測定についての非常に良い最近のYouTubeビデオがあります。
昔、彼らが太陽への距離を測定したいとき、彼らは月を見て、それがどれだけ遠いかについて極めて粗雑で極めてハックでした。実際、最初の推定は桁違いにほぼ外れていました。6倍外れていたようなものでした。
知能の測定はそのようなものかもしれません。だから、私たちは新しいことを学ぶ効率性で最善の試みを取っています。私たちは非常に粗雑なツールであるARC AGIを持っています。言ったように、それは非常に限定された狭いドメインですが、それはそのようなものかもしれません。まだ測定するツールを持っていないだけかもしれません。
私はLLMと多く働き、多くのAIシステムを構築しています。そしてLLMのように、LLMと会話し、それらの会話インターフェースがありますよね?そしてAPIは製品が行うような方法でメモリを持っていません。だから、システムを構築するとき、メモリを追加することを考えます。
検索とRAGについて考えます。これは情報を得る一つの例です。ツール使用について考え、検索できることでそれらを拡張し、それは多くの面でエージェント的連続体で起こっています。エージェントは多くの点でまだマーケティング用語だと正直思います。しかし、検索と記憶とツール使用が本質的にARCスタイルの課題を解決する上でどのような役割を果たすと思うかについて会話を導きたいと思いました。
計算競争では、ツールを使うかどうか気にしません。メモリを使うかどうか気にしません。そのようなものは何でも気にしません。それについて取り締まり役になるのは嫌ですが、記憶とは何かのような言葉を定義しなければなりません。特定のARCタスクで100の異なるモデルをファインチューニングすることは記憶の一形態ですか?
なぜなら、タスクについての情報をあなたの実際の重みにエンコードしているからです。はいの議論を見ることができます。だから、私たちが見てきたのは、ただ答えを出力するベースLLMはARCでうまくやらないということです。それは私たちが見る絶対的な事実です。
GPT-4oやGPT-8のようなベースLLMがそれでうまくやるでしょうか?多分。私たちはまだそこにいません。誰が知っているでしょうか?これまでのところ、ARC AGI1でうまくやるには推論が必要であることがわかりました。推論はツールですか?私たちがツールをどう定義し始めるかによります。
あなたの思考連鎖内で自分のPythonスクリプトを立ち上げることは、o3がクーツ内でPython呼び出しを行うような方法です。それはツールを使うことですか?それはARCであなたを助けるつもりですか?はい、確実にARCであなたを助けるでしょう。
だから、それについて少し粗雑ですが、代替アプローチが必要だと思います。はい、ARCを解決するためにツールが必要ですが、それはそもそも知能についての部分です。あなたはそれ自体で出力するだけではありません。
はい、理にかなっています。そして、人々が重要なマルチモーダルモデルやそのようなもので実験するのを見たことがありますか?
はい、多くの人が「マルチモーダルモデルが本当にうまくやるために必要で、それがそれを理解するだろう」と言います。マルチモーダルの台頭でさえ、私たちはまだARCでうまくやる成功を見ていません。そこから来るビジョンモデルでさえ、それは別のツールです。それは別のテクニックです。
その核心で、ARCデータは人間がそれを色とグリッドなどの観点で見るのが好きですが、その核心では、それはJSONのリストのリストです。だから、私たちはコンピューターがそれ自体をどう見るかについて気にしませんし、無関心です。
コンピューターがそれを画像に変換してそこからそれを追いかけたいなら、クール。JSONとして扱いたいなら、素晴らしい。それについて何か高次の数学をしたいなら、素晴らしい。何でも使いたいものを使ってください。
ここでのことは、あなたが実際にどう答えを実装するかについてあまり心配していないということです。パズルが実際に何をしようとしているかについて推論できるかどうかの方です。それが私たちが興奮している部分です。
全くその通りです。見てください、再びJSONを見る必要がなくなったら、AGIが存在すると信じるでしょう。面白いことに、あなたはまだAGIをどう定義するかを尋ねていませんね?
はい、お願いします。そこに向かっていました。
はい。非公式に、これは非公式な定義ですが、楽しいものだと思います。Arc prizeが人間ができるがAIができない問題を思いつくことができなくなったとき、すべての意図と目的のために、私たちはAGIを持っています。
私たちがそれを見る方法は、現在ギャップがあるということです。それは人間ができることとAIができないことの間です。そして、私たちはギャップがあることを知っています。なぜなら、文字通り人間ができるがAIができない問題があることの証拠点としてARC AGI 2を持っているからです。だから、ギャップがあります。
そのギャップは最終的に閉じることになります。なぜなら、AIがより良くなるからです。そのギャップは近く、近く、近くなることになります。そして最終的にもうギャップがなくなります。その時点で、組織として私たち、多くのスマートな人々と一緒によく資金提供された組織が、それのためのベンチマークを作るために彼らの最善を尽くそうとしています。
その時点で、私たちがもうそれをできなくなったとき、すべての実用的な目的のために、その時点で私たちは実質的にAGIを持っています。
今、それは正式な定義ですか?いいえ。しかし、それはほとんどそれらのもののようなものです。フライパンが熱いかどうかをどう伝えますか?それを行う多くの異なる方法があります。反応的に、前もって、それを測定する多くの異なる方法です。しかし、それは、はい、まさに。それが私たちがそれを測定するのが好きな方法の一つです。
私はそれが大好きです。なぜなら、チューリングテストのような雰囲気も持っているからです。そして、それは非常に実用的です。どこまで私たちがこれを確信させることができるかのようです。そして、それは本質的に非常に科学的なアプローチでもあります。なぜなら、科学では仮説を立て、検証でき、すべてを証明することはできません。そして、もし私たちが人間ができるがそれができないことをもう作ることができないなら、それは本当に良いヒューリスティックであり、実用的なヒューリスティックです。
私はそれがワンオフタスクのようなものがあることに気づきます。ストロベリーにRがいくつあるかを数えてください。オーケー、クール。それは一つの問題で、はい、AIはそれを行うのに困難な時間を過ごしますが、第一にその問題を定量化し、第二に類似ドメインのその他の400から500の問題を思いつくために、実際に測定とスコアを得ることができ、分散を減らすことができるようにするのは困難です。
しかし、それはベンチマークを運営する運用部分です。それは良いアイデアを思いつくだけで十分ではありません。人類の最後の試験のように、彼らは組織しなければなりませんでした。何人組織したか忘れましたが、3、400人の異なる人々を組織して質問を思いつき、検証し、テストに入れるなどです。それは困難な運用作業で、それはARC prizeを運営する仕事の半分のようなものです。良いアイデアを思いつくだけではありません。それは出発点で、その後実際にそれを実行する必要があります。
絶対に。私たちは分で終わらなければなりませんが、先を見据えて、今後の数週間、数ヶ月、または言うなら一年でこの分野で最も興奮していることは何ですか?分野で起こっているすべてを考えると、それは少し強気ですが、何があなたを興奮させていますか?
真実は、より良いモデルが出てきているということです。それはただそういう風に進むのです。年が始まったばかりのように感じますが、私たちはすでに4分の1が終わっています。だから、私たちはすでに2025年の25%または30%くらいを通っています。
クレイジーなのは、しばらくこれにいる人々にとって、Darioが2026年末までにAGIがここにあると信じていると言ったのを覚えています。それは18ヶ月先です。だから、AGIが実際にここにあるかどうかについてのその主張を裏付けるか否定するかのために私たち自身を位置づける方法について考えることは私たちの心にあることです。
V3を開発すること、それは長いプロジェクトですが、私たちは今それに取り組んでおり、それは狂ったことになるでしょう。私たちはちょうど立ち上げられたo4 Miniを見ていると期待しています。o4は今年のある時点で出てくるでしょう。o4 Proは今年のある時点で出てくるでしょうか?わかりません。それは本当に良くなるつもりですか?はい、それはそれについて素晴らしくなるつもりです。
だから、ラボと一緒に働き、それがどう進むかを見ることなどです。しかし、それだけでなく、Arc Prizeは非営利団体です。だから、私たちは公衆からの寄付を通じて自分たちを資金調達します。私たちは2025年の良い塊のために私たちを助けてくれた資金調達をちょうど行いました。
私たちは今年の終わりまたは2026年に別の資金調達を行うつもりです。だから、ミッションに参加したい、これに関与したい、知能と進歩の測定の最前線にいたい、より多くの人々を乗せることが私たちにとって重要な部分です。
私たちはArchウェブサイトと参加方法のガイドにもリンクしています。しかし、人々が参加できる少なくとも2つのアプローチがあると思います。第一は競争に参加し、ウェブサイトをチェックアウトし、Discordをチェックアウトし、人々と話し、それがあなたのものならKaggle競争をチェックアウトすることです。
別の側では、もしあなたが組織で働いているか、スポンサーシップに関与することを個人的に感じているなら、TwitterでGregとArcをフォローし、Discordに参加し、そのようなこともしてください。興味があります。人々はARCベンチマークの開発側でも関与できますか?
私がそれについての運用上の課題について話していたように言うでしょう。残念ながら、この全体を運営している非常に小さなチームです。だから、私たちが乗せたいと思うすべての人を受け入れるオープンな機会を持っていません。
しかし、V2の開発や私たちとの特別プロジェクトの推進に興味がある非常に選ばれた少数の人々のために。私が話すのが大好きなユーザーの大きなコホートの一つは、論文を書いている大学院レベルまたはPhDレベルの人々で、今年研究時間を何に費やすかを理解している人々です。
私たちが実際に行きたいと思う本当にクールなARCアイデアがたくさんあります。実際、Francoisと一緒に今年後半にコンテンツピースとして研究の呼びかけを行うつもりです。「やあ、私たちが行う価値があると思うクールなアイデアがここにあります。もしやっているなら教えてください。私たちがそれらのいくつかに資金提供することさえあります。
それらのいくつかを推進するために資金提供を与えます」のようなものです。だから、ARCに興奮しているなら私たちと連絡を取ることを言うでしょう。やることはいつでもたくさんあります。
素晴らしい。参加してくれたすべての人に感謝したいと思います。ライブストリーム中に100人以上が参加してくれました。だから、参加してくれたすべての人にありがとう、そして後で見ている人もありがとうございます。
Greg、あなたが行うすべての素晴らしい仕事と本当にエキサイティングで画期的な仕事だけでなく、あなたの時間と寛大さに感謝します。ARCと11ヶ月の子供と少なくとも2人の子供がいます。だから、本当にあなたの時間と寛大さと知恵を感謝します。
素晴らしい。これはとても楽しかったです。Hugo、お招きいただきありがとうございました。
調整してくれたすべての人、そしてエピソードの最後まで付き合ってくれてありがとう。正直に言うと、番組で何があなたに響くか、何が響かないか、そして私に話してもらいたい人について聞きたいと思います。また、より多く聞きたいトピックについても。
現在私に知らせる最良の方法はTwitterです。Vanishing Dataがポッドキャストハンドルで、私はHugo Boundです。次のエピソードでお会いしましょう。


コメント