⚡️ARC-AGI-3:対話型推論ベンチマーク

AIベンチマーク
この記事は約37分で読めます。

ARC-AGI-3は、従来の静的ベンチマークから対話型ベンチマークへの進化を表す革新的な知能測定システムである。ARC Prize Foundationが開発したこの新しい評価手法は、100の異なる2Dゲーム環境を通じて、AIシステムの抽象的推論能力と学習効率性を測定する。従来のARC-AGI V1・V2が静的な問題解決を扱っていたのに対し、V3では探索、計画立案、長期戦略が必要な対話型タスクが導入され、人間の学習効率と直接比較可能な新たな知能指標を提供する。このベンチマークは、AGI宣言が対話型評価を通じて行われるという仮説に基づいており、現在のAIモデルが16%程度の性能にとどまる中、人間レベルの汎用知能実現への道筋を明確に示している。

⚡️ARC-AGI-3: The Interactive Reasoning Benchmark
Greg Kamradt, President @ ARC Prize Foundation, joins us for a sneak preview of the ARC AGI 3 benchmark, how they are ap...

ARC-AGI-3の革新的アプローチと対話型ベンチマークの意義

皆さん、こんにちは。また新しい「Latest in Space Learning Pod」へようこそ。私はDesibleのパートナー兼CTOのAlessioです。そしてSmall AIの創設者であるSpixと一緒にお届けします。こんにちは。

私たちは皆、Grok 4のライブストリームからまだ回復中です。そして今日は、ARC AGI Foundation、正確にはArc Prize Foundationから、ARC-AGI挑戦ベンチマークのスポンサーであるGreg Comradeさんをお迎えできて大変嬉しく思います。

私たちはこの収録を、Grok 4のリリースから1日後に行っています。あなたはその場にいらっしゃって、イーロン・マスクとARC-AGIでの進展について話されましたね。また、来週にはARC-AGI V3のローンチイベントも予定されており、私たちも参加予定です。

今回は少しプレビューとして、少し振り返りとして、そして人々にARC-AGIを紹介するものとして位置づけています。昨年のこの時期には、人々はARC-AGIをそれほど真剣に受け止めていませんでしたが、今では本当に注目されています。

まず、正しい選択をされたことにお祝いを申し上げます。そして次に、最近ARC-AGIをどのように紹介されているか、高レベルな視点で教えていただけますでしょうか。

ありがとうございます。ARC-AGIについてですが、私たちはAGIに向けた北極星として機能したいと考える非営利団体です。

そのために私たちがしていることは、ベンチマークを構築することです。ベンチマークについて私が考える方法は、それは空にある標的のようなもので、「ここが私たちが向かうべき場所であり、研究をここに向けてインセンティブを与える必要がある場所です」と示しているのです。

最初のベンチマークは、François Cholletが2019年に考案しました。彼は「知能の測定」という論文を発表しましたが、これはベンチマークを提示する興味深い方法でした。なぜなら、彼はまず知能を定義しようとし、その後でその知能の定義を実際に測定できるベンチマークを定義したからです。

それが2019年のことで、2024年にはArc Prizeの共同創設者の一人であるMike Koopが、Françoisのもとに行きました。そして彼は言いました。「François、私が間違っているか、このベンチマークが大幅に過小評価されているかのどちらかです」と。

実際にMikeは自分のお金から100万ドルを拠出し、「このベンチマークを打ち破った人には100万ドルの賞金を出します」と言いました。それが2024年にArc Prizeコンペティションが生まれた経緯です。

そして今年、私たちは使命を拡大し、本格的な非営利団体になりました。現在はコンペティションだけでなく、リーダーボードの管理も行っています。また、別のベンチマークを構築しており、そのベンチマークとの対話のための最初のプラットフォーム、少なくともそのプレビューを間もなく公開予定です。

知能効率性という新しい指標の重要性

この1年ほど取り組まれて、最も驚いたことは何でしょうか。過小評価されていた状況から、Seanが言ったように明らかに非常に人気になりました。テストしているモデルについて根本的に何か違いがあると思いますか。それとも人々の関心、あるいは単に適切なタイミングで業界が成長しているということでしょうか。

何事も真空状態では起こらないと思います。適切なタイミングで業界が成長しています。しかし、私たちの会社について、もし私たちを会社や非営利団体と考えるなら、スタートアップに例えれば、私たちの製品はベンチマークです。

そして、適切に設計されたベンチマークを通じてコミュニティを説得することはできません。でたらめな方法では通用しないのです。Françoisが行った素晴らしい仕事、彼が行った基礎研究と彼が立てた旗こそが、それを差別化する要因だったのです。

2024年には認知度を高めることが目標でした。昨年末の結果には非常に満足しています。2024年を終える時、OpenAIが私たちを招待してo3モデルのプレビューに参加し、結果を共同発表することになりました。ですから認知度は解決し、今度はさらに多くのことを解決しなければなりません。

私も思うのですが、推論パラダイムとARC-AGIの間には少し適合性があります。ある意味で、ARC-AGI 1は早すぎたかもしれませんし、実際には既に確立されたベンチマークだったため、うまいタイミングだったかもしれません。人々は「実際にこれは抽象的推論をテストしているし、その場で知能を獲得する学習をテストしている」と発見したのです。

Françoisの特定の用語、AGIの定義を忘れてしまいましたが。

ここで本当に興味深い話になりますが、これで私も熱が入りそうです。Françoisの知能の定義は、必ずしも任意のテストでどれだけうまくやるかということではありません。

任意のスキルレベルで上達することは可能です。もっと練習すれば、あるスキルで上手になります。すみません、一つのスキルで上手になります。Françoisの知能の定義は、新しいことを学ぶ能力です。新しいことを学べるかということです。

私たちは既にAIがチェスで人間を打ち負かし、囲碁でも勝利することを知っています。自動運転もできます。しかし、これらのシステムは訓練データ以外の他の領域に汎化することができません。そして重要な部分は、実際に汎化できるかということです。

Françoisがこれを呼ぶ方法はスキル習得です。しかし、これに伴う重要な要素は、スキル習得効率性です。

新しいことを実際に学ぶ効率性はどの程度でしょうか。効率性について話すとき、それは比率であり、分母があります。では、知能の分母は何でしょうか。

二つのことがあります。第一は、実際に新しいことを学ぶのに必要なエネルギー量です。

これが非常にクールで重要な理由は、ARC Prize Foundationが汎用知能とは何かのベンチマークとして人間を使用しているからです。なぜなら、それが私たちが持つ汎用知能の唯一の証明点だからです。人間の脳です。

そして私たちは人間の脳がどれだけのエネルギーを消費するかを知っています。人間の脳が実際に消費するカロリー数やワット数を文字通り測定できます。

本当にクールなのは、これによって知能の出力とエネルギーの入力があることです。だからその量がわかり、現在のAIに必要なエネルギー、つまり彼らがどれだけのエネルギーを消費するかと直接比較できるのです。

さて、第二の分母は、そこから見える知能を出力するために必要な訓練データの量です。人間は訓練データとしてインターネット相当の訓練データを持っていませんが、それでも一般的に知的なことができます。一方、現在のAIではそれが見られません。エネルギーと訓練データが、私たちが知能に使用する二つの分母です。

汎化能力とゲーム環境による新しいテスト手法

もしかすると誰かがこれに対する建設的な反論として、「エネルギーコストはゼロに向かうし、人間は生涯という時計時間によって学習が制限されるが、機械はすべてを並列化できる」と言うかもしれません。なぜ実際に汎化が重要なのか話していただけますか。誰かは「すべての異なる領域でRLを行えばよい」と言うかもしれませんが、それはデータがないからでしょうか、環境を構築するのが難しいからでしょうか。そして、あなたが新しい挑戦のために構築しているゲームとどう関係するのでしょうか。

その議論はよく聞きます。「何でもRLできる」という議論ですね。適切な環境があれば、たくさんのことでRLできると議論できるかもしれません。そして人間は、可能な限り究極の評価エンジンである物理学、現実でRLを行っています。それが私たちすべてが目指している究極の評価エンジンです。

物理学や評価エンジンを使わない場合、製造されたシミュレーションRL環境が必要になります。そして往々にして起こることは、人間や開発者の知能がその環境自体に注入されることです。そうするとモデルは実際には知的ではありません。開発者から知能を取り出し、環境に注入し、それをそこからAIに転送しているようなものです。

知能の定義の重要な部分は、新しいことを学ぶ能力です。しかし、それは未見のタスクについてです。予期できないことのための環境を作ることは非常に困難ですが、人間はそれが得意です。私たちは生まれた時から、すぐにではありませんが、生涯を通じて運転を学び、チェスを学び、英語を学び、これらすべての異なることを学ぶことができます。

そして汎化がその重要な要素です。しかし、あなたが持ち出していることは、今日、このポッドキャストの収録でいつになるかわかりませんが、私たちが発表していることです。私たちはARC-AGI 3を発表します。

これは100の異なる新しい環境、または単純に私たち自身が作成している100の異なる新しいゲームのシリーズになります。

これらはシンプルなゲーム、2Dゲームで、人間ができて、人間が遊んで直感的に理解するのは非常に簡単ですが、AIにとってはまだ非常に困難なものです。

実際のゲームに移行している理由は、静的ベンチマークから対話型ベンチマークへの動きがあるからです。私の仮説は、AGIが宣言される時、それは対話型ベンチマークを通じて起こるということです。

静的ベンチマークだけではAGIがここにあることを知ることはできません。その理由は、人間は環境を直感的に理解し、目標が何かを理解し、計画を立て、長期的な計画を立てることが得意だからです。静的ベンチマークからはそれを得ることはできません。対話型ベンチマークが必要なのです。それがARC-AGI 3になります。

Locksmithゲームのデモンストレーション

共有できるものを一通り見てみましょう。多くの人がYouTubeで視聴していることを知っているので、ついていけるのは常に良いことです。

もちろんです。開発者からSeanがこれに良いアクセスを持っているはずだと連絡がありました。Seanはいますか。画面を共有してこれを試してもらえますか。Seanはここにいないようです。彼からテキストをもらいましたが、あなたが共有できます。やってみましょう。

素晴らしい。ここに私たちのゲームの一例があり、各ゲームにはそれに伴う楽しい名前があります。プレビューの一部として、5つのゲームをローンチします。

そのうち3つは初日に公開され、2つは非公開になります。2つが非公開である理由は、エージェント競技会を開催しているからです。コミュニティがこれらを打ち破ろうとすることに対してどれだけ優秀になれるかを見たいのです。そして競技会の終わりに追加の2つをリリースします。

期間は30日間だけなので、すぐに入手できます。今、私たちはLocksmithを見ています。この一つのスクリーンショットを見るだけでは多くの意味をなしませんが、それは意図的です。何が起こっているかを直感的に理解するために探索する必要があるからです。

AIにも同じものを示しますが、AIはJSONグリッドのリストのリストを取得します。つまり、64×64の数字の束を受け取り、必要に応じてそれを画像に変換することを選択できます。私たちは不可知論的で、マルチモーダルをやりたければ何でもしてください。

私が始めることは、クリックして回り、環境のルールが何かを理解しようとすることです。

何種類かの壁があることがわかります。この暗いものの上に行ってみます。何もありません。こちらに行ってみましょう。

ここで左下のこのオブジェクトが変化し、今ここの黒い領域にあるものと一致することがわかります。よし、そこに行ってみましょう。良い感じです。それがそうだったようです。

私の推測では、この左下にあるものを、ここの黒い四角にあるものと一致させる必要があるのでしょう。やってみましょう。一致させてみます。よし、クール。一致しました。下に行ってみます。

おや、だめだ。エネルギーが切れました。ライフが切れました。あ、この紫のものがあります。あ、これを取る必要があります。

今、環境についてのルールがあり、何であるかを理解するために探索を強制することがわかります。ライフをもっと拾いました。今度は下のこの暗いものへ無事に行くことができます。

現在、私たちが持っているのは、各新しいレベルが新しいゲームメカニクスを導入すべきだということです。

新しいゲームメカニクスを導入する理由は、その場で学習する能力をテストしているからです。今、環境について新しいルールがあります。そして、これは人間が得意とすることで、サンプル効率的学習です。

今度はここを通って行きましょう。これを試してみます。この暗い四角が右下にあるものとは異なる色であることに気づくでしょう。

だから今度は、このもののカラーをこれと一致するように変更する必要があります。ライフを気にしなければなりません。だから、そこでもう少し取得してみます。それから、オブジェクトを変更します。下に行きましょう。確認してみます。見てください、ライフが切れてしまいました。私はこれをずっとやっているのに、やり直す必要があります。もう一度やってみます。

よし、これを持っています。上に行ってみます。よし、このオブジェクトを一致させようとします。あ、これは何をしているのかわからない場合、おそらく迷惑なデモでしょう。よし、もう一回やります。ライフをもっと。

ゲームを知っていてもクリアするのに苦労するのは、ポジティブなことだと思います。

ここで興味深いのは、私がゲームを知っているにもかかわらず、何をする必要があるかを事前に計画する必要があるという事実を省かないということです。このゲームではいくつかの計画が必要で、それが人間の得意とするところだからです。

だから、COTや推論について考え始めると、AIにおける推論は彼らの行動を計画し、何をする必要があるかを計画しなければならないでしょう。

今、シンボルを一致させました。よし、良いです。今度は最後のものに行きます。ここで止めておきます。これが一致するようにします。正しい色を取得します。

よし、ライフをもう少し取得します。形を一致させます。よし、形は一致しました。しかし今、回転がずれていることに注意してください。

今度は最後のものに行き、実際にこのオブジェクトを回転させる必要があります。ライフをもう少し取得します。ここを通って、ずっと下まで行きます。

だから私たちは探索を強制しています。長期計画を強制しています。異なる行動が何をするかを理解し、行動が行動空間にどうマップされるかを理解することを強制し、実際に何かを行った場合の最小限のスパース報酬を得ています。

とにかく、これが私たちの最初のデモ、Locksmithです。

ゲーム設計の技術的仕様と制約

2Dで、テキストに翻訳しやすい環境のみに制限されていますか。それとも、残りのゲームの設計についてどのように考えていますか。

API、エージェントがこれをプレイする時に何を得るかについてですが、ここから出てみます。エージェントが得るのは一連のフレームで、それらのフレームは64×64になります。

一般的には一つのフレームだけですが、連続する2つや3つを取得できる場合があり、それがアニメーションを示すでしょう。つまり、開始状態、中間状態、終了状態で、そこから時間の経過の知覚を得ることができます。

私たちが戻りとして求めるのは、1から6までの一連の1から6の行動です。それは本当にただの整数です。1、2、3、4、5、または6を返します。

1、2、3、4、5、これらを基本行動と呼んでいます。そして6はクリックを表すことができます。6の行動を提出し、画面上のどこかの座標を指定すると、それは実際にそこにある何かをクリックしたことを表します。

私たちは非常に範囲が限定された環境が好きです。それは大量の、人間とAIの学習効率を分析するのが本当に簡単になるよう、環境を適切に範囲を絞るからです。

あなたの指摘通り、はい、最初は2Dだけになります。

もう一つ、私が知っている人々からの一貫した発見で、確認したいことがあります。あなたは常にビジュアル表現を強調しますが、ほとんどのモデルはビジュアル学習から恩恵を受けません。それはまだ当てはまりますか。

私たちはその押し戻しをいつも受けます。私たちは、モデルがデータを自分自身にどう表現するか、または誰がそれを表現するかについて不可知論的です。

だから私たちはJSONグリッドを提供します。人々がそれを絵文字に変換した例があります。さまざまなテキスト表現がありました。人々がそれを画像に変換した例があります。やりたければ何でも受け入れます。

私たちがこれらのパズルを人間に伝えるのは画像を通じてです。なぜなら、ビジュアルを通じて行う方がはるかに簡単だからです。それは有効な押し戻しで、いつも聞きます。

私たちはデータをモデルにどう表現するかについて不可知論的なので、心配していません。

私は押し戻しについて聞いているのではありませんでした。これは私がARC-AGIの解決策についての事前知識を使っているもので、明らかにほとんどの人がマルチモーダルビジョンを追加しても実際には役立たないと言います。それがまだ当てはまるかどうか疑問に思っているだけです。

はい、まだ当てはまります。

私たちはまだ、これらのゲームのいずれのレベルでも、AIが成功的に任意のレベルを打ち破ったことはありません。まだ起こっていません。

私が考えるのは、以前のARC-AGIを見ると、例えばあなたが示したゲームでは、ライフを表現し、ある種の計画を表現しています。おそらくこれは、人々がA*アルゴリズムか何かのようなパス計画アルゴリズムを最終的に直感的に理解するか、明示的にプログラムしなければ見つける必要があるでしょう。彼らは基本的にそれをモデル化しなければなりません。

ビジョンがどれだけ役立つかという質問があり、私は確実に解決にそれを多く使っていますが、言語モデルは異なって動作するかもしれません。

エージェント競技会と足場の役割

それが私たちがエージェント競技会も開催している理由の一つです。なぜなら、コミュニティの集合知能を使用したいからです。これで競争力を持つために必要な足場のタイプは何か、どのタイプのスコアを得ることができるかを知りたいのです。

エージェント競技会を判定する方法は、汎化スコアを持つことです。つまり、プライベートテストセットでどれだけうまくやるかです。人々は公開されたものに過学習することを知っているので、プライベート側により高い重みを置きます。

それは良い指摘で、私が実際に本当に興味を持っていることの一つは、足場が将来のAGIでどのような役割を果たすかということです。少し変な質問のように聞こえるかもしれませんが、AGIは大きく足場に支えられるだろうというのが私の現在の仮説です。

なぜその仮説を持っているのですか。

私の仮説は、望む効果を得るために一緒に働く異なるコンポーネントが必要になるということです。

例えば、このゲームでは、メモリの概念が必要です。なぜなら、その時に取った特定の行動があなたの将来の行動に情報を与えるからです。それがすべてコンテキストウィンドウに保持されるのでしょうか。わかりません。それはそこから来る多くのトークンです。それが最も効率的な方法でしょうか。おそらく違います。おそらく何らかの圧縮をしたいでしょう。

よし、そうすると突然、そこに座っているハーネスの始まりがあります。だから、エージェント競技会に向かって私が持っている質問の一つは、モデルを交換してこれでどうするかを見るために必要な最小限の実行可能なハーネスは何かということです。

そして、ハーネスのポルシェを持つつもりなら、狂ったことをするつもりなら、何をするつもりでしょうか。だから私たちは少し賞金を投入し、人々にインセンティブを与えて、彼らが何をするかを見るつもりです。

それは本当に興味深いオープンな質問だと思います。研究者については確実に言えるでしょう。私たちは特にNoam Brownにこの質問をしました。彼の答えは「はい、足場はすべて死ぬでしょう」でした。だから彼は確実にシンエージェント陣営にいます。

陪審員はまだ外にいると思いますが、私は両方の方向で議論できると思います。

コスト効率性と価格設定の考慮事項

V2では1タスクあたりのドル計算もありました。それをV3でどのように保つつもりですか。そして、V2をモデルの価格下落に基づいて再計算していますか。例えばo3が最も高価だったと思いますが、価格を大幅に下げたことを知っています。

だから、それに対してどれだけ重み付けするかと、どれだけが一時的なものかのバランスをどう取るか興味があります。

その通りです。二つのことがあります。モデル、プロバイダーが価格を下げた場合、はい、私たちは価格を更新し、現実を反映したいだけです。だから私たちは報告で「価格はここにありました、今はここにあります」と言います。それがそれです。

最初の質問は効率性に関するものです。私が言ったように、知能が分数または効率性メトリックである場合、分母はエネルギーと訓練データです。クローズドモデルではそれを得られません。明らかに、彼らはどれだけのエネルギーを消費し、どれだけの訓練データを使用するかを教えてくれません。推測するしかありません。

だから私たちはそのプロキシとしてコストを使用します。理論上、コストは市場効率的だからです。完全ではありません。まだ完全なコモディティではないからですが、理論上、私たちはそこの誤差バッファーで大丈夫です。

V3については、それは異なる質問です。対話性のクールなところは、新しい効率性メトリックを得ることです。

はい、まだコストを得ます、はい、まだ訓練データを得ますが、今度は実際に行動効率性を得ます。

これを実証する方法は、私が今やったLocksmithゲームをプレイしていて、ブルートフォースランダムエージェントがあったと想像してください。実際、それは私たちがローンチする際のテンプレートの一つです。ただのランダムエージェントです。それは非常に非効率的になるでしょう。

私たちが行う品質チェックの一つは、100万ステップでランダムエージェントを実行して、それがそれを打ち破るかどうかを見ることです。そして、いえ、LocksmithやLockstepをまったく打ち破りません。

だから、来年2026年のQ1にARC-AGI 3を発表するとき、何百人もの人々をテストして、彼らがここのLocksmithでどうするかを見るつもりです。素晴らしいのは、x軸で行動数を取得することです。

そしてy軸で、ゲームオーバーまでに完了したレベル数を取得します。そして、上へ上へ上へと上がる小さな線を得るでしょう。その傾きを、学習効率性として考えることができます。

レベルを少し進むために多くの行動を取る場合、あなたは実際にはゲームのルールを学んでいません。そして私たちは誰が最高かを知るでしょう。それがどこに着地するかを知るでしょう。

今、私が話していたブルートフォースエージェント、ランダムエージェントは、ずっと平坦な線になるでしょう。近づくことすらないでしょう。

だから、特にAI対人間について学習効率性を報告するとき、それはすべて環境の目標を完了するために何回の行動を取るかに関するものになります。これは環境が何を含むかを学習することだけでなく、あなたが認識する環境の目標を実行することも含みます。だから、それはほぼ学習と実行がそこにあります。

そのチャートを念頭に置いて意識的に設計し、Françoisが推進してきたAGIの重要な次元として定義したものを具体的に追跡しているのは好きです。それは非常に関連性があると思います。

私がこれを説明している間に頭に浮かんだ一つの批判があるとすれば、それは非常に身体化されているということです。非常に単一エージェントで、それがそうでない場合もあるかもしれません。マルチエージェントをやりたいかもしれません。分岐をやりたいかもしれません。そのようなことに対する回答はありますか。

実際に本当にクールなのは、私があなたに示したゲームはエージェントベースです。小さなものが動き回っているような。私たちは、ゲームが互いに新しくなければならないという要件があります。エージェントベースでないゲームの大きな割合があります。ソリティアやコネクト4、サイモンやメモリーゲームのようなものを考えてください。それらはエージェントベースでないゲームです。

だから、ゲームメカニクスはそれらを通じて完全に異なるでしょう。

あなたの他の指摘については、私たちは目標を完了するために環境内の他のものとの協力を必要とするゲームも設計しています。100の異なるゲームがある場合、異なるゲームの異なるレベルを、そのものを完了するために必要な異なるスキルでタグ付けできると考えることができます。

そのスキルの一つは、共通の目標を完了するために他のものとの協力や整合性かもしれません。例を作り上げるだけですが、囚人のジレンマのようなものです。出口に直接向かうだけなら、協力する場合よりも低いスコアを得るでしょう。または協力しない限りゲームを完了することすらできないかもしれません。そして私たちはそれを測定し始めることができます。

それは実際に非常に興味深いです。そうすると他のエンティティをモデル化し始める必要があり、それは単なるマップではなくなります。

私たちには、2つのLLMが互いに戦うような意味でのマルチエージェントの計画はまだありません。なぜなら、私たちは本当に一つに焦点を当てているからです。

しかし、環境内にはより多くのコードとプログラムベースの決定論的エージェントがあるかもしれません。

学習効率性の測定とゲーム開発プロセス

他にも、学習効率性の部分に戻って、本当に素早く見せたいものがあります。私たちは実際に、2021年だったと思いますが、Josh Tenbombの論文からインスピレーションを得ています。彼らは実際に、これは私たちが持っているのとまったく同じテストではありませんが、少し同じようなことです。

これらのゲームの歩数、エージェントが取った歩数と、彼らができたレベル数を見ることができます。そして彼らは人間プレイヤーとAIプレイヤーを区別し始めました。

私たちのゲームは異なるでしょう。完全に異なる見た目になりますが、これがここで効率性を報告し始める時に念頭に置いているチャートです。

120ゲームという数字は、何らかの数学的根拠を持って選ばれたのですか、それとも単に良い数字でしたか。

統計的有意性のために必要なものと、実際にこれらを実行するための運営観点から現実的なもののバランスです。

各ゲームを構築するために、実際に今7人のゲーム開発者契約者のチームがあります。

だから私たちはそれをアセンブリラインと呼んでいて、文字通り良いゲームアイデアから始まります。そこからさらに遡ってみます。Françoisは基本的にこれが良いゲームを作るもの、なぜそれが知能を測定するのかという建築文書を作りました。私は彼がある時点でそれをオープンソース化することを望んでいます。実際のベンチマークでそれをするかもしれません。

それから私たちはそれを取り、ゲームアイデアとゲーム仕様に変え、ゲーム開発者契約者の一人に渡します。彼らは1週間でそれを作ります。私たちは行ってテストします。軽いテスト、いくつかのQA、良いゲームかどうかなどをします。マーケットは完了し、そこから進みます。

私たちの目標は、来年のQ1までに120を出すことです。つまり、月に20作る必要があります。月には4週間あるので、週に5つ作る必要があります。だから、私たちを助けてくれる5人または6人のゲーム開発者が必要です。アセンブリラインができています。

多くの人々が私たちのところに来て「Greg、プログラマティックゲームを作ってあげます」と言います。「LLMを作って、これらを作らせて、それらを作るか何でもします」と。そしてその問題は、AIにゲームを作ったプログラムを導出することをインセンティブ化したくないということです。

だから人間にゲームを作り続けさせることで、AIは人間の内部にあるGを逆エンジニアリングしようとすることにインセンティブが与えられます。それが私たちがここでやろうとしていることの全体的なポイントです。

とにかく、あなたの質問に長々と答えると、運営上の制限と統計的有意性のために必要なもののミックスです。

今日、ゲーム開発者がいて、ゲームプラットフォームを構築する種のエンジニアリングチームがいます。チーム全体の内訳はどうなっていますか。

Arc Prizeには今3人のフルタイム従業員がいます。私はその一人で、GMや他のすべてのようなものです。だから私は今Arc Prizeを運営しています。

それから非常に素晴らしいゼネラリストエンジニアがいます。彼は絶対的なロックスターです。彼の名前はDavidです。彼はAPIの提供からユーザー認証、管理、ゲーム提供、QA、その他すべての良いことまで、すべてをやっています。

それからリードゲーム開発者がいます。彼の名前はHunterで、彼はそこからのすべての異なるゲーム開発者の品質チェックとアイデアインスピレーションを監督する人です。

MikeとFrançoisはまだ非常に関与していますが、彼らはフルタイムではありません。彼らはそれに付随する理事会にいます。

だから、Arc Prizeでは、私たちのエンジニアリングチームは1人です。

採用の予定はありますか。人々は連絡すべきでしょうか。契約すべきでしょうか。人々への行動呼びかけはありますか。

私たちはそれについて日和見的です。非営利として、私たちはできることについて非常に予算を意識し、気を配っています。たくさんの現金を調達したわけではありません。

だから、それも少し金銭的に駆動されていると言えるでしょう。それも私の皿の上にあることの一つで、慈善寄付者とのArc Prizeの資金調達です。だから人々に連絡を取ってもらうと言いたいです。スポットがないかもしれません。スポットがあるかもしれません。どうなるか見てみましょう。

ARC-AGIの将来ビジョンと現実への道筋

非常に高貴な大義で、これまでにやったことは非常に印象的だと思います。ARC-AGIの将来のロードマップについては常に質問があると思います。おそらく、2と3に本当に素早く移行しました。そして4と5についても考えがあるでしょう。

ARC-AGIが出るたびに常に出る質問は、これが現実世界の状況にどう適用されるかということです。それはますます現実世界になってきています。これはゲームになり始めているので、Dotaをクローンすることで終わるのでしょうか。どこで終わるのでしょうか。どこに向かうのでしょうか。V4、5は何でしょうか。

昨夜のGrok 4ライブストリームで、Elonが実際にこれに沿った何かを言い、私も同意しますが、現実は究極の評価エンジンです。それはそれほど単純です。物理法則を破ることはできません。それが私たちすべてが動作する場所です。

可能な限り任意のベンチマークを持てるなら、私は現実の完璧なシミュレーターが欲しいです。そしてもちろん、誰もそれを望まないでしょうか。しかし、現実の完璧なシミュレーターのようなもので、それからあなたが行ってシミュレートするもの、それがあなたがそのための異なるテストを製造できる環境です。

それに代わって、時々起こる近似があります。

線形スペクトラムがあったと考える方法では、ARC-AGI 1と2は、3つか4つのJSONグリッドの静的リストです。静的は動きません。ARC-AGI 3、反対側は現実のような純粋な現実の表現でしょう。ARC-AGI 3は現実に向けてもう一歩進んでいますが、まだ範囲が限定された環境になるでしょう。

正確な答えを知らずに、ARC-AGI 4や5や何であれ、そこから来る2D 64×64タイプのグリッド以上の自由度の軸をより多く持つことを私たちに許可する必要があることはわかります。

しかし、ここで強調したい一つのことは、私たちを他のベンチマーク作成者から区別することの一つは、誰も理解しない最も困難な可能なものであるPh.D.++問題を目指さないということです。

私たちのアンカーと制約、実際に非常に自由なのは、人間がこれをできるかということです。なぜなら、私たちの仮説とAGIの定義は、人間ができてAIができない問題を考え出すことができる限り、私たちはAGIを持っていないということだからです。そしてその裏側も真実です。

Arc Prizeとして私たちが、人間ができてAIができない問題を考え出すことが私たちの仕事だと考える時、もうそれができなくなった時、すべての意図と目的において、それは実質的にAGIです。

そしてArc 2がまだそこにあり、人間がそれらをできるという事実、Arc V3が出てきて人間がそれらをできるという事実は、私たちがまだAGIを持っていないことを証明しています。

だから、ARC V4について私が知っている他のことは、そしてここで締めくくりますが、ARC 4はまだ人間にとって実行可能ですが、AIにとってはまだ困難になり、しかしテストするためのより多くの自由度の軸を持つ必要があるということです。

V2がいつ50%に近づき、そして100%になるかについてのタイムラインはありますか。なぜなら、昨日のGrok 4が16%に到達し、皆がそれで狂喜していることを知っていますが、まだ16%だからです。

現在のバージョンの飽和をどう考え、いつ次のものを構築するか、そして2026年にV3をリリースする予定です。それはまた1年半、2年続くベンチマークだと思いますか。あなたにとってのおおまかなタイムラインはどうですか。

V3のタイムラインもV2の進捗によります。

だから今、あなたが言ったように、年末に16%のままなら、V3を導入したいかどうかについて、それは異なるダイナミクスです。

V2について必ずしもタイムラインはありません。私の仮説は、2025年には打ち破られないだろうということです。それはたった6か月先です。

しかし、ここで実際にバックアウトすると、それを上回るものは何でしょうか。O4 Pro、いつになるかわからないが、それがそれでしょうか。確信がありません。

GPT5のようなベースLLMがあれば、もしGPT5がルーティングやCOTやそのすべての狂ったものなしのベースLLMだとしたら、私はそれがARC 2を打ち破らないだろうとかなり確信しています。O5が必要でしょうか。わかりません。しかしO5は今年出てこないというのが私の推測です。来年出てくるでしょう。

だから長々と言うと、わかりませんが、次の12か月間は打ち破られないだろうというのが私の推測です。

そしてV3については、私たちの耐久性推定は3年です。

V3について私たちが目指しているのは36か月です。この時間枠では、それはちょっと野生的です。誰にもわかりません。それが私たちの仮説です。それが私たちが目指していることです。

私たちは大きなラボにV3のタイムラインは36か月で打ち破られないと言いました。どのラボかは言いませんが、私たちがそれを言った時、基本的に部屋から出されました。

まあ、それは猫とネズミのゲームだと思います。それはすべて良い大義に向けたものです。だから彼らがあなたが間違っていることを証明するのは彼ら次第で、私たちすべてがそのためにより良くなるでしょう。

それがまさに私がそれについて考える方法です。私はARC-AGIを打ち破るという言葉を言うことすら躊躇します。なぜなら、私たちは「私たちを見て、これを打ち破ろうとしろ」のようなテストを提出しているのではないからです。それは研究をインセンティブ化するツールです。

だから私たちが実際にARC-AGI 2を打ち破るものには価値のあるものがあり、他のタイプのドメインに適用できるという仮説で、100万ドルを出して誰が実際にそれを打ち破ることができるかを見るのです。

ARC Prize 2024では、ARC-AGIを試すために最優秀論文賞に40以上の論文が提出されました。それは私たちにとって最もやりがいのあることの一つです。なぜならそれはそこにあるオープン研究だからです。

そこから出てきたことの一つは、全体的なテスト時間微調整適応でした。テスト時間計算が出てきたとき、その形式の一つはテスト時間微調整で、昨年のARC Prize内でのそれの大きな提唱者でした。

私がそれについて考えるとき、私はARC Prize Vごとに打ち破られることを望んでいるわけではありません。確かにそれが起こることですが、ARC-AGIのために起こるクールな研究、そしてその研究のためにARC-AGIでうまく実行することになることを望んでいます。

理想的には、Mikeは誰かが勝つためだけでなく、より多くの研究を地上に出すために100万ドルを出したのです。

それは持つのに素晴らしい目標だと思います。戦術的に、人々は私に何をしようとしているのか、目標は何かと尋ねます。まあ、AGIが見つかったら、Arc PrizeはAGIが実際にここにあることを宣言する人になるための非常に良い場所に自分自身を設定していると思います。誰かがそれをしなければならないし、それは何かが単に起こって去るTuring Testのようかもしれません。私はそれが実際にそうなるとは疑っています。

前後の瞬間があると思うし、Arc Prizeがそれを検証する場所にいることを望みます。そして第二に、AGIが実際にここにある一度、私はその学習パスと研究パスを振り返って、Arc Prizeがその進歩を加速する役割を果たしたと言えることを望みます。

AGIの定義と二進的vs段階的アプローチの議論

それは非常に良い使命だと言えますが、AGIがここにある瞬間を宣言するのは困難です。なぜそれが価値のある目標なのかわかりません。あなたたちはv1 v2 v3のようにゴールポストを動かしていますし、OpenAIも、少なくとも公的なものでは、Microsoftとの間で何を持っているかはわかりませんが、1000億ドルの利益を上げればそれがAGIだというのは論争的ですが、少なくとも公的には彼らはもはや二進的な「ここにある、ここにない」について話していません。それは単にレベルです。私たちは今レベル2、3にいます。それは大丈夫ではないでしょうか。

それについて健全な議論をし、それに反論したいと思います。最初のものについて、あなたに同意します。お金を含むAGI定義には下心があります。つまりそれは単純です。

お金は知能とは何の関係もありません。とにかく、それはそこからの全く別のサイドコンセプトです。

人工機械が実際の人間の学習効率と汎化に一致できる一度、AGIはここにあると私は議論します。そして私にとって、それはそれに向かうかなり二進的な場所です。

それのスペクトラムとレベルがあることに同意します。私たちは既にARC-AGI 2の進歩でそれを見ています。彼らは流動知能のゼロでないレベルを示しています。確かに、大丈夫。それは受け入れます。

しかし、私たちは機械が基本的に人間と同じレベルでより速く、またはより早く学ぶことができた時点を振り返ることができるでしょう。

あなたはそれを宣言するように設定されています。

Grok 4について、皆の心にホットな状況なので、少し時間を費やすべきでしょうか。あなたはイベントにいました。現場での雰囲気はどうでしたか。地上でのレビューをお聞かせください。

そうですね。今、私は2つのラボのライブストリームに参加する贅沢を持ちました。12月のOpenAIライブストリームとここでのGrokのライブストリームです。

彼らは今日木曜日に電話をかけてきました。火曜日に電話をかけてきて「新しいモデルがあります。テストしたいです」と言いました。私たちは「はい、確かに。良さそうです」と言いました。

私たちは彼らと標準的なテスト手順を持っています。データ保持なし、テストするモデルは公衆に出されるものと同じであるべきで、人々が実際にこれらの結果を再現できるようにです。そして彼らは「はい、クール。問題ありません」と言いました。

彼らは私たちが行うためのクレジットを少し与えてくれました。それは常に非常に喜んで受け入れられます。それからテストしました。

私たちがすることの一つは「あなたたちが主張しているスコアは何ですか」と言うことです。なぜなら彼らは自分自身のテストをし、私たちが検証できるように彼らのスコアが何かを見たいからです。そして彼らは公的評価スコアを言いました。

はい、私たちはセミプライベートで実行しました。うまくいきました。素晴らしく見えました。検証されました。彼らはそれについて興奮していました。そして彼らは「ライブストリームの聴衆にいるべきです」と言いました。私たちは「確かに、素晴らしそうです」と言いました。そしてそこに行きました。

私が期待していなかった一つのことは、これは水曜日の午後でした。私はXAIの場所に歩いて入りました。そこには200人の従業員がいて、ざわめいていて、エネルギーが高かったかもしれません。DoorDashの配達があちこちで起こっていました。皆が絶対的にざわめいていました。

それからライブストリームルームに入り、彼らは適切なライブストリームセットアップを持っていました。素晴らしかったです。そして彼らは1時間遅れました。

1時間遅れではありません。彼らが何をしていたかわかりません。彼らはスライドを練習していたような感じでした。それは全く問題ありません。彼らが言いたいことを理解しようとしていただけで、そこからのアドホックなことではなく、即興で行くようなものでした。

それから彼らは結果を発表しました。素晴らしかったです。私は聴衆席にラップトップを持って座り、Arc Prizeのツイートを準備して、スライドが上がるのを見たらエンターをクリックし、ウェブサイトでマージをクリックしてプッシュしました。

素晴らしかったです。だから私たちはラボが早期に私たちを引き込んでスコアを検証するのを助けることを愛しています。なぜなら、それは本当に公的なブーストと、ARC-AGIがこれらのモデルの知能を記述するのを助ける価値があることを彼らが言っている公的な信頼投票を与えるからです。私たちは絶対にそれを愛しています。

だから私たちはXAIチームがそのアクセスを与えてくれて、ストリームに参加させてくれたことに非常に感謝しています。

それから、ストリームが終わって、カメラが下がった直後に、Elonと話す良い機会がありました。

だから、そこに行ってXAIの創設エンジニアの一人であるJimmyに感謝を言い、Elonのところに行って感謝しました。それから私は彼にV3のピッチをしました。

なぜなら、彼はARC-AGI 1とARC-AGI 2について他の人々ほど詳しくなかったからです。だから私はすぐにそれに気づき、V3の会話に転換しました。

だから私は「来年V3が出てきます。100のビデオゲームのシリーズになります」と言いました。そして彼はすぐに彼のElon的な、私にはできませんが、彼のElon的な眉毛を上げるようなことをビデオゲームの直後にしました。

うーん、はい。実際そうです。なぜなら、彼はプレゼンテーションで終えたばかりで、Grokがビデオゲームをどのように作ったかを終えたばかりだったからです。

そして彼は「Grokがワンショットでビデオゲームを作る。クール。それはちょっと印象的です。Grokが本当にする必要があることは、Grokがビデオゲームをプレイし、ゲームを反復し、それをプレイし、反復し、それをプレイすることです」というような感じでした。

だから私はそれがおそらく彼に当たるだろうと知っていました。そして私は「人間にとって簡単で、AIにとって難しい100のビデオゲームを作っています」と言いました。

そして彼は「いつ出るのか」と言いました。私は「来週開発者プレビューをやります」と言いました。

それから彼はその時点で2番目の眉毛を上げました。だから彼は興味を持っていました。彼は自分自身ゲーマーなので、もっと話すことを期待しています。彼は興奮しています。だからどうなるか見てみましょう。

Elonは人類史においてユニークな人物なので、実際にどれだけ彼に対処しなければならないのか、彼の人々に対してかをいつも好奇に思います。実際に、Jimmyと話すべきで、Elonではなく、しかしElonがいるのは良いことです。

まあ、Elonとのその経験を持つことはクールでした。この分野と一般的な業界における彼の卓越性のためです。握手し、ARCのものについても彼を祝福しました。

しかし、XAIに私たちと一緒に乗って、私たちのこの旅に沿って来てもらいたい場合、Elonは必ずしもそれを実現するための運営上の実行を行う人ではないでしょう。それはJimmyとチーム、その他すべての人々になるでしょう。

だから私たちは、どちらにしてもElonのサポートを得ることができれば興奮しています。私たちはJimmyと残りのチームをサポートすることに興奮しています。

まあ、彼は非営利団体を助成できる大きな小切手帳を持っていて、その歴史があります。

Grok 4からの他の感想はありますか。明らかにみんなが評価で非常にうまくやっていて、これは新しいフロンティアLMなのでしょうか。彼らは無名の状態から来てみんなを打ち負かしたのでしょうか。

今のところそのように見えます。みんなと同じです。ベンチマークを見ると「よし、これをCursorの中に入れて、どうなのか見てみよう。これをチャットの中に入れて、実際にどうするか見てみよう」という感じです。

今のところ雰囲気は素晴らしいようです。そこから来るより多くの採用を見ることに興奮しています。

RLパラダイムの理由についてはまだ調査と研究が必要だと思います。彼らがRock 4の上に置いたRLを10倍にしたことがわかりました。だから、それが実際のパフォーマンスにどう影響し、落とし穴はどこにあり、隅の隙間はどこにあり、スパイキーインテリジェンスが実際にどこでスパイクするのかです。

まだ多くのオープンな質問があると思いますが、どちらにしても、今私たちは素晴らしいパフォーマンスを見ています。

私もそう言うでしょう。Cursorの件については、彼らがcoder特化モデル、dev特化モデルのようなものを別々に出すかもしれないと言及していたと思います。だからコーディング面については特に保留するかもしれません。それは巨大なモデルです。

Grokが他の特定のラボより良くなるまで、コーディングモデルをリリースしたくないという噂を聞きました。だからそのマーケティングポイントを持つことができるように、実際により良くなった時まで待つつもりです。

まあ、確かにそれは理にかなっています。しかし、彼らがスタンディングスタートからそれを信頼できる形で行うことができるという事実は、本当に称賛に値することだと思います。

XAI内部からの多くの物語があると思います。なぜなら、取得しなければならないデータがたくさんあり、Twitterから常に取得できるわけではないからです。神様はTwitterが最高の情報源ではないことを知っています。

良いモデルを出すために何が必要かについてのアブレーション研究を考えると、明らかに人、お金、計算、データ、その他すべてのものがあります。そして外部パフォーマンスに不満を持っているAGIラボがあり、外部パフォーマンスに非常に満足している他のラボもあることは非常に興味深いです。

この2つの違いは何で、彼らはすべて一緒に異なるルートを取りました。無名から来ることについて話していますが、多かれ少なかれです。彼らはこれに長い間取り組んでいませんでした。文字通り、やりながら船を建造しています。だから彼らが持っているものは非常に印象的です。

そして他のラボはこれを見て「一体何が起こっているんだ。私たちもそのタイプの成功が欲しい」と思うかもしれません。

Zuckを知っています。ZuckはここでXAIの研究者たちを見て「非常に興味深い」と思っています。

まあ、Zuckも動きを取らないことを責められることはないでしょう。

それは素晴らしい時代です。

クール。ありがとうございました。他に最後の質問や考えはありますか、AlessioかGreg?

いえ、これは素晴らしかったです。ゲームが出てきたときにプレイするのが楽しみです。

クール。はい、もちろんです。人々への私の唯一の行動呼びかけは、エージェント構築者が欲しいということです。だから私たちは3つの異なるゲームを出すつもりです。

どんな方法でも、どんなツールでも、RLベース、LLMベース、またはそれが何であれ、エージェントを構築してもらいたいです。約1万ドルの賞金プールを用意し、それにお金をかけるつもりです。実際にはもっと価値があるかもしれません。

私たちが持っているすべての単一のソーシャルチャンネルで、すべての上位パフォーマンスエージェントをプッシュするつもりです。だから、皆さんにそれに参加してもらいたいです。聴衆への呼びかけです。

私はそれをハックするのが大好きです。どこまで行けるかわかりませんが、それをハックして宣伝するのが大好きです。本当に楽しい大義だと思います。

美しい。愛しています。参加させてくれてありがとう。ありがとう、Greg。

コメント

タイトルとURLをコピーしました