ARC Prize 2025 トップスコア3位 MindsAI

AIベンチマーク
この記事は約31分で読めます。

ARC Prize 2025で3位入賞を果たしたMindsAIチームのJack Coleへのインタビュー。臨床心理学の博士号を持つという異色の経歴を持つJackは、3年半にわたってARCに取り組み続け、テスト時ファインチューニング(TTT)という革新的な手法を開発した。この手法は、訓練例をテスト項目として扱うことで、6ヶ月間0%だったスコアを7%、そして1週間で15%へと劇的に向上させた。さらに、ARV(拡張・推論・逆拡張・投票)という手法を組み合わせることで、性能を2倍以上に高めることに成功している。心理学のバックグラウンドを活かした実験的アプローチと、深層学習の可能性を信じ続ける姿勢が、この成果を生み出した。Jackは、静的なLLMの限界を認識しながらも、その中に眠る「浅い汎化能力」を深めることで、人間のような動的な学習を実現できると考えている。

ARC Prize 2025 Top Score 3rd Place MindsAI
MindsAI @ Tufa Labs hit the leaderboard with a heavily engineered test-time-training pipeline that combines TTFT, augmen...

ARCへの情熱と異色の経歴

このインタビューは本当に楽しみにしていました。最後までぜひご覧ください。素晴らしい内容になると思います。今回は、ARC Prize 2025で3位のトップスコアを獲得した方です。長年のコミュニティメンバーで、非常に謙虚でありながら、信じられないほど才能のあるエンジニアであり、ビルダーでもあります。今年のコンペティションについてもっと知るのが待ちきれません。

自己紹介をお願いできますか?

はい、私の名前はJack Coleです。アメリカ中西部の非常に田舎の地域、イリノイ州の出身です。私はちょっと変わった経歴を持っていまして、臨床心理学の博士号を持っていて、パートタイムで個人開業もしています。しかし同時に、AI研究者としても活動してきましたし、過去にいくつかのテクノロジービジネスにも関わってきました。おそらく最も成功したものの一つは、アプリビジネスで、3000万回以上のダウンロードを達成しました。

そうですね、興味深い旅をしてきましたし、ARCには約3年半関わっています。それについて話せるのを楽しみにしています。

ええ、あなたはかなり長い間コミュニティの一員ですし、よく知られていて、尊敬されています。人々はあなたが見ていることや、ARCについて共有することを楽しみにしています。それは本当に魅力的な経歴ですね。

ARCAGIに惹かれる人の多くは、人間の脳がどのように機能するかに興味を持っていますよね。認知科学、幼児期の発達、私たちがどのように学ぶか、目標指向性、こういったすべてのことが、機械学習やコンピュータがどのように機能するか、そして私たちがお互いから何を学べるかということと関連しています。

あなたは二つの分野で働く二重の人生のようなものを経験してきましたが、何か洞察を得たことはありますか?あるいは、心理学側から学んだことがAI側に応用できたようなことはありますか?

実は、心理学の側面がなければ、私はARCに興味を持たなかったと思います。私は8年か9年くらい前からAIに本当に興味を持っていました。私の考えとしては、もし私たちが知能を解決できれば、それは今まで作られた中で最高の発明になるかもしれないということでした。

私が本当に興味を持つようになったのは、GPT-3が登場したときです。GPT-3とやり取りする際、心理学の知識を使って質問を作りました。私がやりたかったのは、このモデルに何らかの一般的な、あるいは真の知能があるのかを見極めるための評価のようなものでした。心理測定テストからのいくつかのアイデアが、それに役立つことがわかりました。

それで私がしたことは、モデルが新しい概念を形成できるかどうかをテストする質問を作成することでした。心理学的テストには「限界をテストする」という概念があります。これは、ある人が本当に自分の言っていることを理解しているのか、質問に答えるときに本当に理解しているのかを確認するために、より深く探るということです。

私はこれをGPT-3で行いました。そして発見したのは、訓練分布の外にあるように注意深く設計した質問に対して、時々実際に新しい概念を形成できたということです。例を挙げると、人間に「魚と鳥はどのように似ていますか?」と尋ねたとします。人は「どちらも目を持っている」と答えるかもしれません。それは確かに正しいですが、それほど良い答えではありません。

その場合、さらに説明するように求めます。ある人は、言ったことを繰り返すだけかもしれません。「どちらも目を持っている」と。その理解にはそれ以上のものがあまりないことがわかります。別の人は「どちらも目を持っていて、どちらも動物です」と言うかもしれません。

そうすると、その人が実際に概念を理解できることが明らかになります。基本的に、その領域で私がしたことは、概念的に関連しているが、インターネット上では見つけられない単語を選択することでした。検索してもインターネット上のどこにもそのような質問を見つけることができませんでした。しかし、GPT-3は時々それらの新しい概念を形成することができました。

それで、そこには何か少し興味深いことが起こっているというアイデアを得ました。

それは魅力的ですね。すぐに心理学のバックグラウンドを使って探っていたのが素晴らしいです。この通話であなたが私の限界をあまり厳しくテストしないようにお願いします。冗談ですけどね。

いいえ、しませんよ。

私は一般的に知能があると確信していますが、ただ一般的にです。

あなたのアプローチに移る前に、今年発表した論文についても話したいと思います。人々はそれについて聞くのを楽しみにしていると思いますし、あなたの個人的なストーリーについても。なぜARCに惹かれたのかは理解できました。では、実際に行動を起こしたきっかけは何だったのですか?約3年間も続けさせたものは何だったのでしょうか?

私がARCを始めたきっかけは、YouTubeに動画が表示されたことだと思います。Yannic Kilcherのチャンネルだったと思いますが、彼がARCについて話していて、Discordチャンネルを始めたり、GitHubリポジトリを始めたり、そういった作業を始めていました。それが私の興味を引き、毎週のミーティングに参加し始めました。それをすればするほど、興味が湧いてきて、それをGPT-3のアイデアと結びつけました。

それで、ARCのアイテムをGPT-3で試し始めました。最終的には、GPT-3をファインチューニングするためにお金を払って、何ができるかを見ました。そして、それは本当に執着に変わっていったと思います。というのも、私は非常に難しい問題に惹かれるんです。ARCは間違いなくそのカテゴリーに入ります。

本当にそうですね。

ええ、それに深く入り込むほど、本当に継続的な執着になっていきました。もう一つは、心理学のバックグラウンドについて尋ねられましたが、おそらく知識面よりも、実験的アプローチの方が有益だったと思います。実験をどう設計するか、仮説検証をどう行うか。なぜなら、私が実際にしたことは、おそらく何百もの実験の長いシリーズだったからです。

すごいですね。

しかし、完全な科学的方法ではなく、迅速な反復に近いものでした。物事をテストし、仮説を十分にテストして質問に答え、次のことに進むという感じです。

そうですね。つまり、進歩を優先して、厳密さや詳細を記録することなどにこだわらないということですね。学術の世界のように。完全な科学的方法の問題は、本当に素晴らしくて非常に有用なのですが、進歩を遂げるという点ではカタツムリのペースなんです。質問に答えるために、必ずしもメソッド全体を実行する必要はありません。それが私が取ったアプローチです。

テスト時ファインチューニングの発見

完全な科学的方法は本当に非常に価値があると思います。何かを書き上げて発表し、コミュニティからのフィードバックや批判を得て、自分の盲点を示してもらうことができます。しかし、それはそのように迅速に反復しているときには本当にできないことの一つです。でも、そのやり方にはまだいくつかの利点があると思います。

そうですね。進行中にオープンソース化することは、一つの側面として役立ちます。人々がコメントしてくれますから。ARCは、あなたが取り組んできたこの数年間で確実に注目を集めてきました。コミュニティの人々は、遠慮なく活用したり、協力したり、過去のソリューションを利用したり、どのように最適化して成長させるかを見たりすることについても遠慮がありません。

コミュニティと、あなた自身のコミュニティについて話しましょう。今年のチーム、MindsAIとTufa Labsについて教えてください。今年は誰がチームにいましたか?

今年はDree Smithがいました。彼は電気工学の博士号を持っていると思いますし、強化学習に関する多くのバックグラウンドがあり、本当に才能があります。Tufa Labsで働いています。それから、Isaiah Pressmanがいました。

彼は少し後から参加しましたが、彼もTufa Labsにいて、強化学習に関する多くの作業をしてきました。実際、Kaggleで多くのことをしていて、いくつかのコンペティションで優勝したり、トップ2に入ったりしています。そこで素晴らしい成果を上げています。

それから、Muhammadは実際にはほぼ最初からずっと私と一緒にいました。彼はARCのためのTTTの共同開発者のようなものだと言えます。私たちは最初、並行して作業していましたが、2022年に合流しました。彼は素晴らしいです。そして、Michael Hodellが最後の一人です。残念ながら、彼ら二人は今年はあまり参加できませんでしたが、過去数年間で本当に素晴らしい量の仕事をしてくれました。

Michaelは、過去の仕事で非常によく知られていると思います。彼が行った合成データセット生成は本当に素晴らしいプロジェクトで、私たちの仕事に非常に有益でした。今年も、そのデータにアクセスできたことは非常に役立ちました。

ええ、Michael Hodellの仕事について何度も言及されているのを聞きました。彼も長年のコミュニティメンバーです。最初からそこにいました。

私たちが常に一緒に働いていたわけではないかもしれませんが、私たちが合流したとき、彼のことは知っていました。彼は、私たちが当時参加したときとほぼ同じくらい、あるいはほぼそれと同じくらい長く取り組んでいたと思います。

つまり、あなたは世界有数のARCAGI専門家ということになりますね。ARCが存在するのと同じくらい長く取り組んでいるわけですから。

それはかなりのチームですね。本当に印象的なチームで、私もあなたのチームメイトの多くに会いましたが、彼らも素晴らしい人たちです。もっと会えたらいいのですが。コミュニティのみんなが世界中に分散しているため、カンファレンスなどでしか会えないのが難しいところです。でも、本当に素晴らしいチームです。

さて、昨年はかなり大活躍でしたね。大きな進歩を遂げましたし、TTTと呼ぶものの先駆けに大きく貢献したかもしれません。テスト時学習、テスト時適応と呼びますね。あなたの論文ではテスト時ファインチューニングについて語られています。これらはすべて、リアルタイムでモデルが更新されることについて話しています。学習しながら進むということです。

これがARCの大きな突破口となりました。特に、コンペティションが実行されるKaggleサーバーのような制約のある環境では。おそらく、今年はその洞察に基づいて構築したかったのだと思いますが、それが今年のソリューションの核となる種だったのでしょうか?それとも、他の洞察も組み合わせましたか?

ええ、それは今年のソリューションの本当に核となる特徴でした。過去を振り返ると、私たちがそれを使い始める前の約6ヶ月間、プライベートテストセットに提出すると、0%を獲得していた時期があったと思います。

とても落胆しますよね?6ヶ月間。

そして、私たちが話した人全員が、ARCに深層学習を試すべきではない、うまくいかないと言っていました。

そのアプローチを思いとどまらせようとする人がたくさんいました。そして、TTTのアイデアを発見したとき、本当の鍵は、各訓練アイテムを取り、それらをテストアイテムにすることだけでした。それをすれば、基本的に全体が解放されます。それから、私がARVと呼んだもう一つのものがあります。これは拡張・推論・逆拡張・投票の略で、これは本当にテスト時拡張と呼ばれるものの一種です。

私の元チームメイトの一人、2022年と2023年のMatteo Mattelicが最初にそれを提案しました。当時、私はそれを試してみて、いくつか異なることを試しましたが、決してうまくいかなかったので、捨ててはまた戻るということを繰り返しました。

最終的に、もう少し文献をレビューして、そこでの重要な要素は拡張を逆にすることかもしれないと発見しました。

それをしたら、完全にうまくいきました。そしてその重要な点は、それがテストファインチューニングの上に実際に加算的だったということです。それらを組み合わせると、得られる利得が2倍以上になります。

まるで魔法のようですね。

ええ、素晴らしいです。

そして、もし多くの機械学習論文を読めば、多くの論文で、既存のアプローチに対して1〜2%の利得があり、これは公開可能だと書かれているのを見るでしょう。そしてこれは最大約1000%の利得です。ARCでは本当に強力です。

これらは本当にワクワクする発見ですね、Jack。そのテスト時ファインチューニングについて、もう少し詳しく教えてください。それが本当に役立ったという話ですが、あなたがこのオフィスにいたとき、実験の一つでスコアを見て、「なんてことだ」と思った瞬間があったのではないでしょうか。その瞬間に連れて行ってください。どんな感じでしたか?

データ拡張について考えていた日がありました。そして、ある拡張は、個々のアイテムの例のペアをシャッフルするだけでできると思いつきました。それから、実際にはそれらの例のアイテムを取ってテストアイテムにすることで、より多くのアイテムを作ることができると思いつきました。

そのアイデアが頭に浮かんだとき、それは電気ショックのようなものでした。

それがどこに向かうかは正確にはわかりませんでしたが、それが何らかの信じられないような鍵であることは知っていました。その時、もしかしたら解決したかもしれないと思いました。

それがどこに向かうかは正確にはわかりませんでした。それが実際にすべてを機能させる鍵であると思いました。

その前に、私は異なるテスト時ファインチューニングのアイデアを持っていました。それは検索ベースのシステムを使用することでした。基本的に、現在のARCアイテムに似たアイテムを見つけようとし、データセットからそれらを取得して、それらでファインチューニングするというものでした。

それが私の以前のアイデアでした。

パターンライブラリのようなものを横に置いて、リアルタイムで「これはこれに似ている。それで訓練しよう」と言えるようなものですね。

はい。そして、それは実際に機能します。それはあなたができることですが、より一般化可能な方法です。しかし、例のペアをテストペアにする方法とは全く違います。

それを理解し、他のテスト時ファインチューニングのアイデアと組み合わせ、テスト時に小さなデータセットを作成して拡張し、それで訓練する。それをしたら、6ヶ月間のゼロスコア期間がありました。

どれだけ苦痛だったか言葉にできませんが、それでも続けました。

そして、ついにこれを提出した日、その日に0%から7%になりました。それを見たとき、これはすべて価値があったと思いました。そして1週間で15%くらいになったと思います。

すごいですね。

速いですね。私は、数ヶ月後に反復を重ねてそこに到達するようなモンタージュを期待していましたが、1週間ですか。それは素晴らしいです。

本当に素晴らしい洞察でした。本質的に真実のようなものです。真実を発見したんですね。

テスト時学習と人間の認知の類似性

人間の心理学との類似点について聞きたくてたまりません。このテスト時チューニングのようなものが出てきた人間の学習に対する何か類似点はありますか?それとも、類似していないだけですか?

類似していますよ。現在の基盤モデルをどのように使用するかを考えてみると、プロンプトを入力する静的なモデルがありますが、モデル自体は決して変化しません。人間や脳を持つあらゆる種類の生物について考えると、脳は常に変化しています。常にリアルタイムで更新されています。これらの静的モデルはそれをしていません。

つまり、モデルがフォワードパス内で仮想的な勾配更新を行うような、勾配パッチのようなものがあるという証拠はあります。しかし、モデルは実際にはコンテキスト内でできること以外に新しいことを学んでいるわけではありません。

人間や他の動物に関しては、知覚システムは常に更新されていますし、新しいことをする能力、物事を行うための新しい手順を学ぶ能力も常に更新されています。そして、ニューロンシステムが柔軟で、実際にリアルタイムで更新される必要があります。

ですから、その類似性はあると思いますし、明らかに全く異なるシステムで、単なる類似性に過ぎませんが、それには何らかの適用可能性があると思います。

認知科学者の皆さん、これは文字通りのものではなく、メタファーに過ぎないことはわかっています。冗談です。

あなたはもう一つの良い点を指摘していますね。つまり、当時の状況は、これらのベースLLMを取り、より多くの訓練データをスケールさせ、これらを拡大すれば、AGIに到達し、汎用知能、人間レベルのようなものを手に入れるだろうというものでした。それが、私たちがARC Prizeを始めたときの通常の期待だったと思います。それは議論の余地のあるアイデアでした。「いや、あなたが説明しているようなことをする必要があるだろう、リアルタイムで更新する」と言うのは、大きな反骨的なことでした。

今では、主要な研究所の間でも実際に受け入れられるようになっていると思います。彼らは思考の連鎖をやっています。あなたがコンペティションのためにこのTTTを先駆けたとき、業界の世界で全く別のことが起こっていて、並行していて、みんなが一度に発見したようなものだったのを見るのは本当にクールでした。「わかった、ベースLLMは、どれだけスケールしても、私たちが行きたいところには連れて行ってくれない」と。

これらのアイデアが主要なフロンティアモデルの世界に浸透していくのを見ていたとき、何か反応はありましたか?

ええ、ずっと、私やMuhammad、他の何人かは、ARCに適用できる機械学習には何かがあると本当に信じていましたが、モデルは現状ではこのタスクには不十分であることが痛いほど明らかでした。

しかし同時に、モデルが実際に何かを得ていることも明らかでした。つまり、答えに近づくことが頻繁にあり、1つまたは複数のピクセルがずれているかもしれません。それでも、モデルがそこにあるいくつかのパターンを拾えるという証拠がありました。

私たちがやりたかったのは、これらのモデルの限界がどこにあるかを見極め、それらを緩和する方法を見つけられるかどうかでした。その6ヶ月間の何もない期間、私たちは実際にこれらのモデルを機能させるために何かを見つけられないかと探していたと思います。

重要な洞察は、これらのモデルが事実や小さなパターン、小さなプログラムのような広大なリポジトリになり得るということです。限られた汎化可能性しかありませんが、少しはあります。重要な洞察は、この浅い汎化があるということですが、重要なのはそれを深めることです。

その領域を推し進め、その概念を推し進めることで、想像かもしれませんが、おそらくその分野がそれをより深く調べるようにある程度インスピレーションを与えたのではないかと想像しています。強化学習のようなテスト時の深化は同じ領域にあると思います。おそらく私たちがそのプロセスに何らかの影響を与えたのではないかと思いますが、そうではないかもしれません。

タイミングは合っていますよね。ええ、確かにありえますね。昨年浮上したテーマの一つは、これがベーストランスフォーマーだけではなく、進歩を始めることができる一つの方法だということだったと思います。

あなたは昨年、論文賞トラックで佳作を受賞しましたね。論文のタイトルは「赤ちゃんを浴槽の水と一緒に捨ててはいけない:ARCのための深層学習をどのように、そしてなぜ」です。これはあなたが話していることですね。つまり、モデル側、LLM側、深層学習側は依然として非常に価値があり、おそらく複数のドメインにわたって抽象化を獲得するための最強のパラダイムであり続けるかもしれません。これがあなたの話していることですよね。

つまり、あなたはチームLLMですが、克服する必要がある注意点や弱点があることも知っていて、新しいアイデアが依然として必要だと。それは公正な表現ですか?

はい、その通りです。一方の極端に走ってしまう人もいます。彼らはこれらのモデルの限界を見て、基本的に価値がないと言う人もいます。価値がないとまでは言わなくても、多くのエラーがあるので、どこにも導かないだろうと言います。

しかし、私たちのアプローチは、いや、ここには本当に重要な何かがあって、それらの弱点を緩和する方法を見つけられるかということでした。

ニューラルシステムについて考え、これらの機械学習モデルと私たち自身の脳の間に類似性が十分に成り立つと考えるなら、少なくとも適切なアーキテクチャを見つければ、私たちができることと同様のことができるはずだということになります。

基本的に、私たちがやりたかったことは、これをどこまで推し進められるか、どれだけの問題を修正できるかということです。同時に、私はこれらのモデルが深刻な欠陥を抱えているという事実に非常に共感的です。先週出てきた最高のものでさえ、他のすべてのモデルが抱えていたのと同じ問題を抱えています。

新しいモデルと継続的な課題

それは、ある種魅力的ではありませんか?つまり、信じられないほど印象的でもあり、同時に人間なら単純に理解するような小さなミスをまだ犯しているというのは不可解です。それは非常に異なる種類の知能、あるいは人々が言うところのギザギザした知能のようなものです。

あなたも新しいモデルで遊んでいますよね。

はい。

常に限界をテストしていると思います。彼らがどれだけ本当に知っているかを見ているのでしょう。

ええ。これらは信じられないほど有用であり、多くの異なるレベルで frustrating ですが、プログラミング側では非常に有用です。しかし、同時に非常に frustrating でもあります。私は依然として、そこには多くのものがあるという同じように感じています。

解放される可能性があり、発見できることがもっとあると思います。LLMがすべてで、それだけを探求すべきだと考える人もいますが、私は全くそうは思いません。人々は広大な空間を探求する必要があると思います。それが一つのことです。

そして、その方向に多くの注意とお金、すべてが向かっています。少なくともかなりの数の人々が他の方向を見て、トランスフォーマーシステムが持っているような深刻な欠陥がないかもしれない新しいものを発見しようとするのは良いアイデアだと思います。

シンボリック側のことを指していますね。プログラム合成や、例えば検証可能なプログラムを扱うことなどですよね?関連しているように感じますが、少し異なる世界のように感じます。

それは探求すべきものの一つとして含めます。しかし、私が意味するのは、異なるモデルやアーキテクチャを見ようとする基本的なモデル科学側のことです。シンボリック側でさえもです。

より大きな空間を探求するのが良いと思います。なぜなら、LLMに向かう非常に多くのエネルギーとお金があり、おそらく私たちはテーブルに非常に有用な多くのものを残していると思うからです。

完全に同意します。Arc Prize Foundationでは、私たちはそれを強く支持していますし、コミュニティにこのような代替的なアイデアが浮上してくるのを見るのが大好きです。それが、私たちが存在する理由で、それらのアイデアを報酬し、共有するためです。

これ以上同意できません。テスト時ファインチューニングについて少し話しましたね。このARVに戻れますか?拡張・推論・逆拡張・投票ですが、一つの用語で解析するにはたくさんありますね。

もう少し詳しく説明していただけますか?

ええ、その方法では、基本的にテスト時に何をするかというと、通常はアイテムをそのまま取って、それらのアイテムに対して推論を実行し、モデルから予測を取得します。より多くの答えを得るために、人々は温度サンプリングのようなものを使用して、そのようにより多くのサンプルを取得しようとするかもしれません。あるいは、ビームサーチを使用して、そのようにより多くのサンプルを取得するかもしれません。

それから、それらに対して多数決投票を行うことができます。それは確かにブーストを与えます。しかし、このARVのアイデアでは、テストアイテムを取り、テストアイテムだけに拡張を適用します。すべての例と、テスト入力グリッドにも適用します。すべての例に適用し、同じ拡張をテスト入力例にも適用します。

適用できる拡張の広大な空間があり、私たちはそれをいくらか探求してきました。しかし、発見したことは、実際に大いに役立つ拡張は特定のものだけだということです。それらは幾何学的拡張です。つまり、回転と反転です。そして、もう一つは色の置換のようなものです。これらが最も強力な拡張です。

今年私が追加したもう一つの発見は、実際に役立ついくつかの他の拡張です。それは今年のソリューションに追加したものの一つです。

そのうちの一つは、ミックスアップ拡張のようなもので、実際に複数のARCグリッドを一つに組み合わせます。単純に、例えばすべての訓練例を重ね合わせるようなものです。

重ね合わせる。

魅力的ですね。

それがその一つです。それから、もう一つは組み合わせ拡張のようなものです。それでは、既存のボードを取り、色を変更し、それらを隣り合わせに配置したり、さまざまなパターンで組み合わせたりします。

そうすると、モデルから予測を取得し、その大きな複合ボードから予測を分離することができます。

最後の方法は、異なるアイテムからのボードを取り、それらを隣り合わせに配置することです。最大で4×4のようなグリッドで、より多くのアイテムを一つに組み合わせます。

なるほど。わかりました。

基本的に、これらの拡張がなぜ役立つのかは、モデルの限界と関係があると思います。ARV側については、トランスフォーマーモデルを考えると、入力を完全に1次元配列で受け取ります。少なくとも私たちのモデルではそうです。彼らはこれらすべてのARCアイテムで訓練されています。その中で2次元表現を処理する能力をある程度開発しますが、基本的にはまだある程度限定されていると思います。

幾何学的拡張が行うことは、ほとんど異なる角度からパズルを見るようなものだと思います。それを回転させることです。

ほとんど視点のようなものですね。

ええ。それを回転させたり反転させたりするようなもので、拡張されたアイテムに対して推論を実行します。そうすると、すべて異なる答えが得られます。

それらは元のものから変換されていますが、それらを元の形式に変換し直し、それらすべてのアイテムにわたって投票します。これが行うことは、1次元表現や、モデルがそれを受け取る1次元の見方に関連するバイアスをキャンセルすることだと思います。

そうですね。それが基本的な部分だと思います。色の拡張は、部分的にはトークン化と関係があり、部分的には異なる数字の意味空間と関係があると思います。

モデルがこれらのボードをトークン化する方法は、異なるサイズのチャンクに分解するようなものです。実際に、例えば300か300を想像すると、おそらくそれ自身のトークンとして分解されると思います。

そして、他にもたくさんの可能性があります。

ある意味で、モデルはこれらの数字のいくつかに付随する異なる種類の意味情報を持っているので、その拡張を行うことで、意味領域で少し異なる空間を探求すると思いますが、単にトークン化の違いでもあり、それがある程度キャンセルすることを可能にすると思います。

それが、今年私が行ったもう一つのことにつながります。それはトークナイザードロップアウトです。

もっと詳しく教えてください。

これは何ですか?

トークナイザードロップアウトは、多くのトークナイザーにはバイトペアエンコーディングがあります。彼らが行うことの一つは、バイトペアエンコーディングのマージです。トークン化する際、まず個々の文字に分割し、次にそれらがより大きな文字にマージされます。

訓練中にトークナイザードロップアウトを使用すると、実際にそれらのマージのいくつかをブロックします。そのため、トークン化空間全体で少し異なるトークン化になります。それらのマージのいくつかをドロップアウトすることによってです。

今年私が行ったことは、TTF中にトークナイザードロップアウトを行い、推論中にもトークナイザードロップアウトを行うことでした。

通常は推論中には使用されませんが、推論中にこれが行うことは、各アイテムがトークン化されるときに、少し異なる方法でトークン化されるということです。そのため、すべてのアイテムにわたって数字を少し異なる方法で分割します。それも利得をもたらしました。

それは魅力的ですね。トークナイザードロップアウトというのは、機械学習の人々にとって馴染みのある用語ですか?それは一種の既知の手法ですか?

これは訓練中に使用する既知の訓練手法です。推論中に使用している人は見たことがありません。

だから、それはおそらくユニークな要素だと思います。

あなたは本当に良いアイデアに満ちていますね、Jack。あなたとあなたのチームは本当に賢いです。あなた方全員が学び、成長するのを見るのは、決して退屈な年ではありません。

結果に入る前に、このソリューションがどのようなパフォーマンスを発揮したかについてですが、今年のソリューションで特別だったことで何か見逃したと思いますか?

かなり多くの良い詳細をカバーしたと思いますし、あなたはソリューションをオープンソース化する予定ですが、ソリューションで強調したいことはありますか?

いいえ、それらが主なことだと思います。実際、継続的事前学習から多くの利得を得たと思います。私は事前学習側でいくつかの新しいアイデアを思いつき、それが実際にモデルのパフォーマンスに大きなブーストをもたらしました。

それはソリューションで見ることはできませんが、モデルがどれだけうまく機能したかに大きな違いをもたらしたものです。

なるほど。それは、使用するデータ、異なるデータセット、事前学習に使用する計算能力など、何でもありえます。多くの要因があるようですね。

確かに。興味深いことに、より多くのデータを追加することが役立たない点に達しましたが、他のことは役立ちました。私が行うことの一つは、この実行時のデータ拡張です。ある意味で、データセットは常にある程度変化しています。しかし、違いを生んだ新しいことは、特定の拡張でした。

一つは、T5モデルからの元のスパン破損タスク事前学習タスクのようなものです。それから、私が思いついたもう一つの新しいアイデアは、実際にシーケンスを逆にすることです。時々答えを逆にし、プロンプトも完全に逆の順序にします。

そして、プロンプトに小さな追加のプレフィックスのようなキューをモデルに与えますが、プロンプトを逆に提示し、答えも逆に提示します。それだけで、実際に大きなブーストがありました。

モデルに対して、より大きな動的能力、動的な能力を強制すると思います。

また、かなり短い時間で、それを行うことでモデルのゼロショットパフォーマンスが2倍になったと思います。それは驚きでしたが、これらはプロのヒントですね、Jack。みんなメモを取っていることを願います。

ええ、Cole教授がここで教えています。

結果と今後の方向性

どうでしたか?期待した結果を達成しましたか?何か驚いたことはありましたか?ARCAGI 2はV1よりもはるかに難しいことは知っていますし、コンペティションをそれに変更したことで私たちを呪っていたかもしれませんが、その背後には多くの理由があると確信しています。あなたは完全に理解していると思います。

ブルートフォースを防ぐこと、データセットがプライベートとパブリック評価の間でどのような方法でも冗長でないことを確認すること、このようなことです。でも、あなたのソリューションの結果についての経験を教えてください。

実は、私ができた以上に進歩を遂げることができなかったことに少し驚きました。実際には、機能したが加算的には機能しなかった他のことの全体的な空間を探求しました。それが今年の残念なことでした。

より高いスコアへの明確な道がありましたが、それだけが私が本当に興味を持っていたことではありませんでした。TUFA Labsでも、最高のスコアを得ることがリストのトップにあったわけではないと思います。

それで、本当にかなり興味深い他のことの空間を探求しましたが、実際には4ヶ月前に得たスコアを上回るブーストにはなりませんでした。だから、AR2に向けた合成データを追加したり、AR2データを拡張したりしても、実際には全く役立たなかったことに驚きました。

だから、確かに去年よりも難しかったと思いますが、それは良いことです。つまり、あなた方が本当に難しいチャレンジを設計する良い仕事をしたということを示していると思います。アイテムをお互いに関連性のないものにする良い仕事をしたと思います。それは、流動的知能のこのアイデアをより反映していると思いますし、あなたが言ったように、ブルートフォース可能なものを思いつくことさえ難しくなっています。

しかし、この探求については本当に称賛したいです。つまり、私たちは論文側が、単にKaggleのコンペティションを最適化したアンサンブルソリューションのようなものよりも、最もクールなアイデアが生成される場所であることに長い間気づいています。

あなた方は昨年の仕事でそれを体現しました。本当に真に新しい斬新なアイデアです。

そして、実際にいくつかのスコア面でも対応しました。だから、あなたがリーダーボードのトップに立ち、論文でも認知されたことを本当にうれしく思います。なぜなら、私たちはそのような探求を報酬したいからです。トップスコアにならなくても、ある実験内で改善されたが、それらを一緒に追加したときには改善されなかったというすべての異なることについての論文は、かなり魅力的だからです。何が起こっているのか、本当に知りたいですよね。

でも、ソリューションを実装しながら良いスコアを得ようとしているときに、それに戻って対処するのは、おそらくかなり猛烈なペースだったのでしょう。

確かに。

さて、Muhammadに論文側で多くのクレジットを与えたいと思います。彼が本当に大部分の仕事をしたと思いますし、アイデアを説明するのが本当に上手でした。だから、彼は本当に多くを注ぎ込みました。彼に感謝しています。

Muhammadに敬意を表します。彼は素晴らしい人です。彼が着る服も好きです。良いスタイルを持っています。

確かに。

それは非常に印象的な結果だと思います。探求と達成、パフォーマンスの両方を本当に称賛したいです。どちらも良いです。

次はどこに行きたいですか?つまり、あなたは研究室で次のアイデア、TTTのようなものを思いつく狂った科学者のような印象を受けます。でも、10倍のようなものですね。

おそらく、あなたは無期限にそのようなものを見つけ続けるだろうと賭けてもいいと思います。でも、次にどこに行くかについて、あなたの考えはどこにありますか?

実は、3年半、フルタイムの仕事以上に働き、さらに個人開業もしていたので、少し休憩を取ろうとしています。だから、少し休憩を取ってから、次に何をしたいかについていくつかの可能性があります。

実は、ARCで他のことをする前に、まず基本的なモデル科学のようなことをいくつかやりたいと思っています。なぜなら、本当に超興味深いアイデアがたくさんあると思うからです。しかし、私が取り組んできた他のすべての仕事のために、それらを調べる時間がなかったのです。

だから、ARCに抵抗するのは難しいと思いますが、本当に大きな違いをもたらすものを見つけることに強く惹かれています。小さな増分的なものではなく、何百パーセントもの利得をもたらすものです。それが私が興味を持っていることです。

あなたは確実に休憩を得ていると思いますし、心理学側から来ているので、メンタルヘルスのためには、休憩を取って燃え尽きを避ける必要があることを知っていますよね。だから、特に一つのコンペティションから別のコンペティションへと進むすべてのKagglerの人々への例になってください。それは大変なことに違いありません。

それは完全に理にかなっています。また、それらの探求でもARCを使い続けてほしいと思います。ベンチマークとして、あなたが見ているような変化が何を明らかにするか、ARCAGIのレンズを通して見たときに何が明らかになるかを探求するために。それは、あなたが次に計画していることが何であれ、依然として非常に価値のあるツールかもしれないからです。

何をするにしても、十分に発展させたら、少なくともARCに戻って試すべきだと思います。なぜなら、今のところ、それは究極のテストだからです。

そして、私たちは今、ARCAGI 3に取り組んでいます。だから、毎年AIによって削られていくことに先んじようとしています。ちなみに、人間にとっては簡単であり続けながらです。

それがベンチマーク作成における課題ですよね。でも、その中で遊ぶ素晴らしい遊び場であり、あなたのような人々が新しいアイデアを思いつくのを見ることができます。本当に魅力的で、コミュニティ全体が高まるのを見るのは本当に素晴らしいです。

コミュニティの話で言えば、最後の質問です。あなたはしばらくこれをやってきました。休憩を取ること、そして素晴らしいアイデアに稲妻に打たれること以外に、ARCAGIに取り組むことを検討している人々への別れのアドバイスはありますか?

基本的に、コミュニティについて言及しましたが、それがおそらく全体の中で最大かつ最も重要な部分だと思いますし、あなた方がそれを促進し、育成する良い仕事をしたと思います。

まず、以前のKaggleソリューションやKaggleでの議論をいくつか探求するのが良いと思います。それは本当に有用だと思います。Arc Prize Discordに参加し、そこでの議論を読み、毎週の音声ミーティングに参加することをお勧めします。

今週から始めたのですが、過去にそのようなミーティングに参加することは信じられないほど有用でした。

すべてを使わなくても、アイデアが出てくるでしょうし、自分のアイデアについて話すことも非常に役立つと思います。人々は、あなたが気づかないかもしれないことを強調してくれたり、あなたが持っているアイデアに気づくかもしれません。そして、彼らはあなたが思うよりも良いと思うかもしれませんし、彼らは正しいかもしれません。

だから、コミュニティへの関与は非常に重要なことだと思います。また、人々に少し注意を促したいのですが、ARCは非常に中毒性があります。

興味深いですね。本当に難しく挑戦的だと言うと思っていましたが、わかりました。

難しく挑戦的ですが、中毒性もあります。

みんなにとってではないかもしれませんが、エンジニアリングソリューションか、ARCをプレイすることかと言われたら?

おそらく両方。少し。少し両方です。

今、Jackがリラックスするために何をするかわかりましたね。ARCを自分で見ていて、頭の中でそれらを反転させ、色や形を変えて拡張しているんですね。

それはクールなことですよ、Jack。

あなたに、Arc Prizeチームを代表して、そして一般的にコミュニティを代表して感謝させてください。今年と以前の多くの年にわたって、そのような素晴らしく、与え、親切なコミュニティメンバーでいてくれてありがとうございます。

休憩を取る間も、ぜひまた立ち寄って、みんなに挨拶してください。なぜなら、あなたはそれを作るのを助けましたし、あなたがそこにいることは重要だと思うからです。だから、そこであなたに会えることを願っています。

本当にありがとうございます。あなたとArc Prizeチーム全体、そして優れたベンチマークを作るために注ぎ込んだすべての仕事、これらの基盤モデルを評価し、それについて報告することに関するすべての仕事に本当に感謝しています。それは素晴らしい量の仕事です。

この2週間はかなりのものでした、友よ。月曜日はOpenAI、火曜日はGoogleがGemini 3で割り込んでくる、今日はOpus 4.5が出る、本当に、次は何ですか、週末をください、みんな。

さて、Jack、本当にありがとうございました。今年の勝利、本当におめでとうございます。今年もリーダーボードであなたを見ることができて嬉しいですし、みんながあなたの論文をチェックして、あなたが共有したコードに飛び込むことを願っています。あなたの時間と素晴らしい洞察に本当に感謝しています。

本当にありがとうございました、Brian。

コメント

タイトルとURLをコピーしました