フランソワ・ショレ – なぜ最大のAIモデルが簡単なパズルを解けないのか

この動画では、Google AI研究者でKerasの開発者であるフランソワ・ショレが、現在の大規模言語モデル（LLM）の限界について詳しく解説している。彼が開発したARCベンチマークは、AI システムの真の知能を測定するために設計されており、記憶に依存するのではなく、新しい問題に対して適応的に推論する能力を評価する。ショレは、LLMが本質的に巨大な記憶装置であり、真の汎用人工知能（AGI）への道筋ではないと主張する一方、Zapierの共同創設者マイク・ヌープと共に、ARCベンチマークを解決するための100万ドルの賞金プログラムを発表している。

LLMの本質：記憶か知能か
ARCベンチマークとは何か
LLMによるAGIへの懐疑論
真の適応能力とは
分布外であることの重要性
ARCチャレンジの具体例
マルチモーダルモデルへの期待と現実
LLMの成功例への反論
スキルと知能の違い
補間と創造性について
賞金設立の背景
賞金の詳細と期待
解決策のタイプについて
コア知識と知能の関係

LLMの本質：記憶か知能か

LLMは静的なプログラムの記憶に非常に優れています。データベースのサイズをスケールアップしても、システムの知能は一切向上していません。

記憶という言葉を使っていますが、人間の子供に対しては決して使わない言葉ですね。もし子供が任意の代数問題を解けるなら、代数を記憶したとは言わず、代数を学習したと言うでしょう。

100万ドルの賞金プールがあり、85%のベンチマークに到達した最初のチームには50万ドルが贈られます。ARCが今から3ヶ月生き残れば、賞金を増額します。OpenAIは基本的にAGIへの進歩を5年から10年遅らせました。彼らは最先端研究の公開を完全に停止させ、今やLLMが部屋の酸素をすべて吸い尽くし、皆がLLMをやっています。

今日は、GoogleのAI研究者でKerasの開発者であるフランソワ・ショレと話す機会を得ました。彼は、Zapierの共同創設者であるマイク・ヌープとの協力で、自身が作成したARCベンチマークを解決するための100万ドルの賞金を発表しています。

ARCベンチマークとは何か

最初の質問ですが、ARCベンチマークとは何でしょうか？なぜこの賞金が必要なのでしょうか？なぜ1年後に持つ最大のLLMでは飽和できないのでしょうか？

ARCは機械知能のためのIQテストとして意図されています。現在あるほとんどのLLMベンチマークと異なるのは、記憶に対して耐性があるように設計されていることです。LLMの動作原理は、基本的に大きな補間記憶装置です。

その能力をスケールアップする方法は、可能な限り多くの知識とパターンをそれらに詰め込むことです。対照的に、ARCは多くの知識を全く必要としません。それはコア知識として知られるもののみを必要とするように設計されています。これは基礎物理、物体性、計数などの基本的な知識です。どんな4歳児や5歳児でも持っている種類の知識です。

興味深いのは、ARCの各パズルが新しいということです。それはおそらく以前に遭遇したことがないもので、インターネット全体を記憶していてもです。これがARCをLLMにとって挑戦的にしているものです。これまでのところ、LLMはそれに対してあまりうまく行っていません。実際、うまく機能しているアプローチは、より離散的なプログラム検索、プログラム合成の方向です。

LLMによるAGIへの懐疑論

まず、LLMの懐疑論者として、あなた自身がベンチマークを出したことを嬉しく思います。1年後に持つ最大のモデルがこれで80%を取ることができれば、あなたの見解では、我々はLLMでAGIを得る軌道に乗っていることになるでしょうか？

1年でLLMが80%を達成するのを見ることについては、かなり懐疑的です。とはいえ、もしそれを見ることになれば、それがどのように達成されたかも見る必要があります。

ARCに類似した何百万、何十億ものパズルでモデルを訓練するだけなら、訓練するタスクとテスト時に見ることになるタスクの間に何らかの重複を持つ能力に依存していることになります。まだ記憶を使っています。うまくいくかもしれません。うまくいけば、ARCはこの種の力任せの試みに耐えられるほど良いものになるでしょうが、わからないですね。起こるかもしれません。ARCは完璧なベンチマークではないと言っているわけではありません。欠陥があるかもしれません。そのような方法でハッキングされる可能性があります。

真の適応能力とは

GPT-5がAGIへの道筋にあることを非常に確信させるには、何をする必要があるでしょうか？

これがLLMについて私の考えを変えさせるものです。モデルに以前見たことがないもの – その訓練データの観点から本当に新しいタスク – を見せて、それが実際にその場で適応できる場合の臨界質量を見始める必要があります。

これはLLMに当てはまりますが、実際にはそこにあるあらゆるAI技術について私の注意を引くでしょう。その場で新しさに適応し、効率的に新しいスキルを身につける能力を見ることができれば、非常に興味深いと思うでしょう。これはAGIへの道筋だと思うでしょう。彼らが持つ利点は、すべてを見ることができることです。彼らがそれにどの程度依存しているかについて問題を提起するかもしれませんが、明らかに人間よりもそれに依存しています。

彼らは分布内に非常に多くを持っているので、例が分布内か分布外かを区別するのに苦労するほどです。すべてが分布内にあるなら、我々ができることはすべてできるでしょう。我々にとっては分布内ではないかもしれませんが。

分布外であることの重要性

なぜ彼らにとって分布外でなければならないことがそれほど重要なのでしょうか？彼らがすべてを見ることができるという事実を活用できないのでしょうか？

基本的に、実際の知能 – 準備されていないものに適応する能力 – と純粋な記憶、つまり以前見たものを暗唱することの違いを尋ねています。これは単なる意味的な違いではありません。

大きな違いは、テスト時に見るかもしれないすべてのものについて事前訓練することは決してできないということです。なぜなら世界は常に変化しているからです。それは可能なタスクの空間が無限であるという事実だけではありません。それらの何百万について訓練されていても、全体の空間の0%しか見ていません。世界が毎日変化しているという事実でもあります。これが我々人間種が最初に知能を発達させた理由です。

世界 – 宇宙、我々の生活 – のための分布のようなものがあったなら、我々は全く知能を必要としなかったでしょう。実際、多くの生物、例えば多くの昆虫は知能を持っていません。代わりに、彼らの接続体、遺伝子に硬くコードされたプログラム、いくつかの刺激を適切な応答にマップする行動プログラムを持っています。

彼らは実際に、何も学習する必要なしに、進化的に非常に適合した方法で自分たちの生活と環境をナビゲートできます。我々の環境が静的で十分に予測可能だったなら、起こったであろうことは、進化が完璧な行動プログラムを見つけたということです：硬くコードされた、静的な行動プログラム。それを我々の遺伝子に書き込んだでしょう。

硬くコードされた脳接続体を持っていたでしょう。それが我々が実行していたものです。しかし、それは起こりませんでした。代わりに、我々は汎用知能を持っています。我々は世界について極めて少ない知識を持って生まれます。我々は非常に効率的に学習し、以前見たことがないものに直面して適応する能力を持って生まれます。それが我々をユニークにしているものです。それが機械で再現することが本当に、本当に挑戦的なものです。

ARCチャレンジの具体例

より深く掘り下げる前に、YouTubeの視聴者のために、ARCのようなチャレンジがどのようなものかの例をいくつか重ねます。音声で聞いている人のために、サンプルのARCチャレンジがどのようなものかを説明できますか？

一つのARCパズルは、IQテストのパズルのようなものです。いくつかのデモンストレーション入力出力ペアがあります。一つのペアは二つのグリッドで構成されています。

一つのグリッドは入力を示し、二番目のグリッドはその入力への応答として何を生成すべきかを示します。このようなペアをいくつか得て、タスクの性質と入力に対して何をすべきかをデモンストレーションします。その後、新しいテスト入力を得ます。あなたの仕事は、対応するテスト出力を生成することです。

デモンストレーションペアを見て、そこから何をすべきかを理解します。この新しいテストペアで理解したことを示します。重要なことに、これらの挑戦にアプローチするために必要な知識ベースは、単にコア知識です。それは物体を作るもの、計数、幾何学、トポロジー、対称性などの基本概念を含みます。それは極めて基本的な知識です。

LLMは確実にそのような知識を持っています。どんな子供でもそのような知識を持っています。本当に興味深いのは、各パズルが新しいということです。それはインターネット上の他の場所では見つからないものです。人間であろうと機械であろうと、すべてのパズルを一から取り組み、それを通して推論しなければなりません。メモリから応答を取得することはできません。

マルチモーダルモデルへの期待と現実

ここでの一つの論争は、空間推論を行うように訓練されたマルチモーダルモデルを今になって得ているということです。人間だけでなく我々の祖先も、抽象的な物理的・空間的特性を理解し、そこでパターンを認識する方法を何十億年もの進化を通じて学習しなければならなかったのに対して。

一つの見解は、来年、アドオンとしてではなくネイティブにマルチモーダル能力を持つモデルを得るにつれて、それが我々がネイティブに見るものであるため、これらの種類のパターンを理解するようになるということです。現在、ARCは100100のJSON文字列を見て、そこでパターンを認識すべきです。人間にこれらの数字の連続を見せても、あなたが尋ねている質問を理解するのに困難があるでしょう。

我々が今まさに解放しようとしているマルチモーダルモデルが、ARCタイプの空間推論において非常に優れているのはなぜでしょうか？

それは経験的な質問です。数ヶ月以内に答えがわかると思います。

私の応答は、我々のグリッドは単にシンボルの離散2Dグリッドで、かなり小さいということです。例えば画像をピクセルの連続として平坦化すると、実際に解析するのが非常に困難なものが得られます。ARCについてはそれは当てはまりません。なぜならグリッドが非常に小さいからです。10個の可能なシンボルしかありません。それらは実際に連続として平坦化するのが非常に簡単な2Dグリッドです。トランスフォーマー、LLMは連続の処理に非常に優れています。

実際、LLMがARCのようなデータの処理で良好に行うことを示すことができます。タスクのサブセットでLLMを微調整し、その後これらのタスクの小さな変動でテストすることによって。以前見たことがあるタスクについて、LLMが解法プログラムを十分にエンコードできることがわかるでしょう。入力を解析したり、プログラムを理解したりするのに実際に問題がありません。

LLMがARCでうまくいかない理由は、実際に馴染みのなさの側面だけです。新しいタスクはそれぞれ他のすべてのタスクと異なります。解法プログラムを事前に記憶することはできません。新しいタスクごとに、その場で新しい解法プログラムを合成しなければなりません。それが実際にLLMが苦戦していることです。

LLMの成功例への反論

悪魔の代弁者をもう少しやる前に、少し後退して、なぜ私がこの会話に特に興味を持っているかを説明したいと思います。

明らかに100万ドルのARC賞があり、私自身それで遊ぶのを楽しみにしています。ヴェスヴィオス・チャレンジは、火山に埋まったヘルクラネウム図書館からの巻物を解読するためのナット・フリードマンの賞でした。その勝者は、このポッドキャストを聞いていた22歳のルーク・ファリターでした。このチャレンジが興味深いと感じ、解決策を見つける人がいることを願っています。

最近、LLMについて強気な多くの人々と話をしました。あなたにインタビューする前に、LLMがARCでネイティブにそれほどうまく実行していないという事実をどう説明するかについて彼らと議論しました。彼らの説明はやや作為的だと感じました。彼らの理由のいくつかをあなたに試してみます。これらの問題のいくつかが人間が理解するのに比較的簡単なのに、ネイティブに入力するとモデルが苦戦するという事実は実際に興味深いことです。

それらすべてが人間にとって非常に簡単です。賢い人間なら誰でもARCで90-95%を達成できるはずです。非常に、非常に少ない知識を持つ5歳児でも、確実に50%以上はできるでしょう。

私は賢い人間がこのテストで非常にうまくやるということに同意しますが、平均的な人間はおそらく平凡でしょう。

実際はそうではありません。我々は実際に平均的な人間で試しました。彼らは約85点を取りました。

それはAmazon Mechanical Turkワーカーとでしたか？

正直に言って、Amazon Mechanical Turkワーカーの人口統計プロファイルはわかりません。彼らがAmazonのリモートワークプラットフォームとやり取りすることを想像すると、それが地球全体の中央値人間ではないと推測します。

ここでの広い点は、人間でもスペクトラムが見られ、人間は明らかにAGIを持っているということです。しかし、人間の中でも、一部の人々が比較的頭が悪いスペクトラムが見られます。彼らはIQのようなテストでより悪い成績を収めるでしょう。例えば、レイヴンの累進マトリックスがあります。平均的な人がそれでどのように実行するかを見てください。

当たり外れの種類の質問を見ると – 半分の人が正解し、半分の人が間違える – 我々はそれらがちょっと些細だと思うかもしれません。人間はAGIを持っていますが、比較的小さな調整から、これらの種類の基本的なIQテストの質問を逃す人から、それらすべてを正解する人まで行くことができます。これらのモデルでの以前の性能について話しましょう。Jack Coleは2億4000万パラメータのモデルで35%を得ました。

それは彼らが人間の中に明らかに存在するこのスペクトラムにいることを示唆しており、すぐに飽和するのではないでしょうか？

そこには多くの興味深い点があります。Jack Coleによって先導されているLLMアプローチの分野があり、それは実際かなりうまくいっています。彼らは実際に最先端です。しかし、そこで何が起こっているかを見る必要があります。二つのことがあります。

最初のことは、これらの数字を得るために、何百万もの生成されたARCタスクでLLMを事前訓練する必要があることです。もちろん、それをARCを初めて見る5歳の子供と比較してください。子供は以前にIQテストをしたことがなく、ARCテストのようなものを見たことがありません。彼らが知っていることとテストでしなければならないことの間の唯一の重複は、コア知識です。それは計数、物体、対称性などについて知っていることです。

彼らはまだ本当にうまくやるでしょう。何百万もの類似したタスクで訓練されたLLMよりもはるかに良くやるでしょう。Jack Coleのアプローチについて注目すべき二番目のことがあります。モデルを全く機能させるために本当に重要なことの一つは、テスト時間微調整です。ちなみに、それは現在LLMアプローチに本当に欠けているものです。

LLMを使用するときのほとんどの場合、それは単に静的推論を行っているだけです。モデルは凍結されています。単にそれにプロンプトを与えて答えを得ているだけです。モデルは実際にその場で何も学習していません。その状態は手元のタスクに適応していません。Jack Coleが実際にやっていることは、すべてのテスト問題について、そのタスクのためにLLMのバージョンをその場で微調整することです。

それが実際に性能を解放しているものです。それをしなければ、1-2%のような、完全に無視できるものになります。テスト時間微調整を行い、その上に多くのトリックを追加すると、興味深い性能数値になります。それがやっていることは、現在のLLMの主要な制限の一つに対処しようとすることです：アクティブ推論の欠如。

実際にLLMにアクティブ推論を追加しています。それは実際に極めてうまく機能しています。だから、それは私にとって魅力的です。そこには非常に多くの興味深い隠れ家があります。スケール最大主義者の多くは、適応的/テスト時間計算を解放する必要があるというあなたのより広い視点を共有しています。彼らは、スケーリングに加えて、System 2を動作させるために適応的計算やある種のRLのようなものが必要だと考えています。

彼らの視点は、これがスケールアップされたモデルがより大きなアクセスを持つ表現の上に追加される比較的簡単なことだということです。

それは単なる技術的詳細ではありません。簡単なことではありません。それはすべてです。それは重要な部分です。スケール最大主義者はスケーリング法則について言及します。これは、モデルの訓練にどれだけの計算を費やすかと、ベンチマークで得られる性能の間に描くことができる経験的関係です。

もちろん、ここでの重要な質問は、どのように性能を測定するかです。より多くの計算とデータを追加することによって実際に改善しているのは何でしょうか？それはベンチマーク性能です。性能を測定する方法は技術的詳細ではありません。後付けではありません。なぜなら、それはあなたが尋ねている質問のセットを狭めることになるからです。それに応じて、あなたが探している答えのセットを狭めることになります。

LLMに使用されているベンチマークを見ると、それらはすべて記憶ベースのベンチマークです。時には文字通り知識ベース、学校のテストのようなものです。推論について明示的なものを見ても、よく見ると、それらを解決するために、推論パターンの有限セットを記憶するだけで十分だということがわかります。単にそれらを再適用するだけです。それらは静的プログラムのようなものです。

LLMは小さな静的プログラムの記憶に非常に優れています。彼らはこの種の解法プログラムのバンクを持っています。新しいパズルを与えると、適切なプログラムを取得して適用するだけです。推論のように見えますが、実際にその場でのプログラム合成のようなことは何もしていません。やっているのはプログラム取得だけです。

実際に記憶でこれらすべてのベンチマークを解決できます。モデルと、ここでスケールアップしているものを見ると、それらはデータ分布に適合させた大きなパラメトリック曲線です。基本的に、これらの大きな補間データベース、補間記憶です。もちろん、データベースのサイズをスケールアップし、より多くの知識とパターンをそれに詰め込むなら、記憶ベンチマークで測定される性能を増加させることになります。

それはちょっと明白です。しかし、それをやっている間、システムの知能を一切増加させていません。システムのスキルを増加させています。その有用性、適用可能性の範囲を増加させていますが、知能ではありません。なぜならスキルは知能ではないからです。それが人々が陥る根本的な混乱です。彼らはスキルと知能を混同しています。

スキルと知能の違い

ここで話すべき多くの魅力的なことがあります：スキル、知能、補間。入力データをマップする何らかの多様体を適合させているという点について話しましょう。人間の脳について還元主義的に話す方法は、それは単にお互いに発火する軸索だということです。しかし、我々は還元主義的説明について気にしません。

これらのものが組み合わさったときにマクロスコピックレベルで何が起こるかを気にします。補間に関しては、ベンチマークの一つを見てみましょう。小学校の数学を行うベンチマークがあります。これらは賢い高校生が解けるような問題です。GSM8Kと呼ばれています。これらのモデルはそれで95%を得ます。基本的に、彼らは常にそれを成功させます。

確かに、それは記憶ベンチマークです。それが何を意味するかについて話しましょう。

そのベンチマークからの一つの質問があります：「クラスに30人の生徒がいます。その5分の1が12歳、3分の1が13歳、10分の1が11歳です。11歳、12歳、13歳ではない生徒は何人いますか？」

これがロケット科学ではないことに同意します。紙にこの問題をどのように進めるかを書き下すことができます。賢い高校生がそれを解けるはずです。

記憶について、それでも分数について考える方法、問題全体の文脈、そして最終答えを書くために異なる計算を組み合わせる方法を推論しなければなりません。

あなたが推論をどのように定義したいかによります。使用できる二つの定義があります。一つは、利用可能なプログラムテンプレートのセットを持っているということです。それはパズルの構造であり、その解決策も生成できます。

正しいテンプレートを特定し、それは私の記憶にあり、新しい値をテンプレートに入力し、プログラムを実行し、解決策を得ます。これを推論と言うことができます。私は「うん、確かに、OK」と言います。

推論の別の定義があります。パズルに直面し、それを解決するためのプログラムを記憶にまだ持っていないとき、持っている既存のプログラムの断片に基づいて、その場で新しいプログラムを合成する能力です。その場でのプログラム合成をしなければなりません。それは実際に、記憶されたプログラムを取得して再適用するよりも劇的に困難です。

おそらく我々は人間がそれほどサンプル効率的である程度を過大評価しているのでしょう。彼らもこの方法で訓練が必要です。彼らは特定の種類の問題を通る推論のこれらの経路を掘削しなければなりません。

例えば数学を取りましょう。赤ちゃんに集合論の公理を見せて、今彼らが数学を知っているとは言えません。

彼らが成長するとき、前代数を何年も教えなければなりません。その後、代数で同じ種類の問題を掘削し、通る年があり、その後幾何学、予備微積分、微積分があります。それは同じ種類のことではないでしょうか？一つの例を見ただけで、今プログラムを持っているとは言えません。実際にそれを掘削しなければなりません。これらのモデルも多くの事前訓練データでそれを掘削しなければならませんでした。

確かに。その場でのプログラム合成を行うために、実際に作業する構成要素が必要です。知識と記憶は、そのプロセスで非常に重要です。記憶対推論と言っているわけではありません。効果的な推論を行うために、記憶が必要です。

しかし、あなたの話と互換性があるように聞こえます。多くの異なる種類の例を見ることを通じて、これらのものはそれらの例の文脈内で推論することを学ぶことができます。より大きく、より大きなモデル内でもそれを見ることができます。

それは高校レベルの数学問題の例でした。GPT-3より小さなモデルはそれを全くできませんでした。これらのモデルが大きくなるにつれて、より大きく、より大きなパターンを拾うことができるようになるようです。

実際にはサイズの問題ではありません。この場合、より多くの訓練データの問題のようなものです。

まあ、より大きなモデルはこれらの種類の回路を拾うことができます。より小さなモデルは、この種のデータで訓練したとしても、それを良い仕事をしないようです。それは、より大きく、より大きなモデルを持つにつれて、より大きく、より大きな経路やより一般的な推論方法を拾うことができることを示唆していないでしょうか？

絶対に。

しかし、それは知能ではないでしょうか？

いいえ、そうではありません。データベースをスケールアップし、より多くの知識とプログラムテンプレートを追加し続けるなら、確かにそれはますます熟練になります。より多く、より多くのタスクに適用できます。しかし、汎用知能は、多くのスキルにスケールアップされたタスク固有のスキルではありません。なぜなら、可能なスキルの無限の空間があるからです。

汎用知能は、任意の問題、任意のスキルにアプローチし、非常に少ないデータを使用して非常に迅速にそれをマスターする能力です。これが、あなたが遭遇するかもしれないあらゆるものに直面することを可能にするものです。これが汎用性の定義です。汎用性は、スケールアップされた特異性ではありません。それは、あなたの心を何でも、任意のものに適用する能力です。

これは根本的に、適応する能力、その場で効率的に学習する能力を必要とします。

私の主張は、より大きく、より大きなモデルで事前訓練を行うことによって、非常に効率的に汎化するその能力を得ているということです。例を挙げましょう。あなた自身の会社Google、Gemini 1.5に関する彼らの論文で、この非常に興味深い例がありました。彼らは、200人未満の生きている話者を持つ言語の文法書と辞書を、文脈で、モデルに与えるでしょう。それは事前訓練データにありません。

単に辞書を与えると、基本的にこの言語を話し、それに翻訳することができ、言語が構造化される複雑で有機的な方法を含みます。私に英語からスペイン語への辞書を見せても、文を構造化する方法やスペイン語で物事を言う方法を拾うことはできません。

この事前訓練を通じて得た表現のために、今非常に効率的に新しい言語を学ぶことができます。それは、この種の事前訓練が実際に新しいタスクを学ぶあなたの能力を増加させることを示していないでしょうか？

もしあなたが正しければ、LLMはARCパズルで本当にうまくやるでしょう。なぜならARCパズルは複雑ではないからです。それらのそれぞれは非常に少ない知識を必要とします。それらのそれぞれは複雑さが非常に低いです。それについて非常に懸命に考える必要はありません。

それらは実際に人間にとって極めて明白です。子供でもそれらをできますが、LLMはできません。あなたよりも100,000倍多くの知識を持つLLMでさえできません。ARCを特別にしている唯一のことは、記憶に対して耐性があるように設計されたという意図です。これが唯一のことです。これがLLM性能の巨大な阻害要因です。

LLMをよく見ると、彼らが実際に直面しているタスクを解決するために新しいプログラムをその場で合成していないことは非常に明白です。彼らは非常に記憶に保存したものを再適用しています。例えば、非常に印象的なことの一つは、LLMがシーザー暗号を解決できることです。メッセージをコードするために文字を転置することです。それは非常に複雑なアルゴリズムですが、インターネット上でかなり出てきます。基本的に彼らはそれを記憶しています。

本当に興味深いのは、彼らがインターネット上で提供される例で非常に一般的な数字であるため、3や5のような転置長でそれを行うことができることです。9のような任意の数でそれを試すと、失敗するでしょう。それは、アルゴリズムの一般化された形ではなく、特定の場合のみを符号化しています。アルゴリズムの特定の場合を記憶しています。

もしそれが実際にその場で解法アルゴリズムを合成できるなら、nの値は全く問題にならないでしょう。なぜならそれは問題の複雑さを増加させないからです。

私はこれが人間にも当てはまると思います。人間はもちろん常に記憶パターンマッチングを使用しますが、人間は記憶パターンマッチングに限定されていません。彼らは新しい状況にその場で適応するこの非常にユニークな能力を持っています。

これが正確に、あなたの人生の毎日をナビゲートすることを可能にするものです。チェスグランドマスターが、動きの文脈内で非常にうまく実行するという研究がありました—

それは優れた例です。なぜなら、チェスは最高レベルでは、すべて記憶、チェス記憶についてだからです。

Gemini 1.5が文脈で言語を学ぶことができたという元の質問の私の説明は何でしょうか？複雑な文法構造を含む？それは彼らが新しい知識を拾うことができることを示していないでしょうか？

私は、それが単にその極めて広範囲で、想像を絶するほど膨大な訓練データから必要なテンプレートをマイニングし、その後それを再使用しているだけだと仮定します。

LLMがこのようなプログラムテンプレートをその場で合成したり、既存のものを適応させたりする能力が非常に乏しいことを我々は知っています。彼らは非常に取得に限定されています。

Googleでプログラマーがいるとします。彼らは朝オフィスに行きます。彼らが何らかのテンプレートを取得することに100%起因できないことをやっている点はどこでしょうか？彼らがLLMだったとします。

彼らがプログラムからのテンプレートを取得しただけなら、何ができないでしょうか？彼らがこのいわゆる極端な汎化能力を使用しなければならない点はどこでしょうか？

Googleソフトウェア開発者を忘れてください。すべての人間にとって、彼らの人生の毎日は、彼らが準備されていない新しいことでいっぱいです。記憶だけに基づいて人生をナビゲートすることはできません。それは不可能です。

彼らが単に「記憶」をやっているのではないことにも同意するようですね。彼らが汎化能力が低いということを言っているようです。

彼らがやる汎化の種類について私は好奇心があります。オフィスに入って、この種の汎化をやろうとすると、仕事で失敗するでしょう。プログラマーだとしましょう。その種の汎化をやろうとしたとき、極端な汎化ができないために仕事を失う最初の点はどこでしょうか？

例えば、この状況を取ってください。あなたはこの部屋に来たことがありません。この都市にはたぶん数回来たことがあります。かなりの新しさがあります。私にインタビューしたことがありません。あなたの人生の毎日の毎時間にかなりの新しさがあります。実際、それは大部分、どんなLLMでも扱えるよりも多くの新しさです。LLMをロボットに入れただけでは、あなたが今日やってきたすべてのことはできないでしょう。

例えば自動運転車を取ってください。ベイエリアで動作している自動運転車を取ります。それをニューヨーク市に落とすか、人々が左側を運転するロンドンに落とすことができると思いますか？いいえ、失敗するでしょう。運転ルールの変化に汎化できないだけでなく、新しい都市に汎化させることさえできません。それぞれの特定の環境で訓練される必要があります。

自動運転車がAGIではないことには同意します。しかし、同じタイプのモデルです。彼らもトランスフォーマーです。同じアーキテクチャです。

わかりません。類人猿も神経元を含む脳を持っていますが、より小さいため知能が低いです。

それについて入ることができます。まだこの具体的なことを理解していません。我々も訓練が必要です。

教育が存在するのはそのためです。人生の最初の18年を掘削に費やさなければならないのはそのためです。

我々は記憶を持っていますが、記憶ではありません。単なる記憶に限定されていません。

これらのモデルが必ずしもやっている唯一のことだという前提を否定しています。リモートワークをLLMで置き換えて、彼らがプログラマーだとします。

これは人間ではなく、LLMだと気づく最初の点はどこでしょうか？

ARCパズルを送って、どうやるかを見ればいいでしょう。

いいえ、仕事の一部としてです。常に新しさに対処しなければなりません。すべてのプログラマーが置き換えられ、我々がまだ「ああ、しかし彼らは記憶に満ちたプログラミングタスクをやっているだけです」と言っている世界があるでしょうか。

その世界で、彼らはまだコード形式で1兆ドル相当の出力を生成しているのでしょうか？

ソフトウェア開発は実際に、常に新しさに対処している仕事のかなり良い例です。そうでなければ、何をやっているのかよくわかりません。私は個人的にソフトウェア開発の仕事で生成AIをほとんど使用していません。LLMの前は、Stack Overflowもほとんど使用していませんでした。一部の人々は、Stack Overflowからコピーペーストしたり、最近ではLLMからコピーペーストしたりしているかもしれません。

個人的に、私は問題解決に焦点を当てようとしています。構文は単なる技術的詳細です。本当に重要なのは問題解決です。プログラミングの本質は、解決しようとしている問題の心的モデルと心的表現を設計することです。

これらのシステムと自分でやり取りできる多くの人々がいます。ChatGPTに行って、「欲しいプログラムの種類の仕様がここにあります」と言うことができます。彼らはあなたのためにそれを構築するでしょう。

GitHub、Stack Overflowなどでこのプログラムの多くの例がある限り、確かに彼らは記憶からあなたのためにプログラムを取得するでしょう。しかし、任意の詳細を変更できます。「この異なる種類のサーバーで動作する必要があります」と言うことができます。

それが本当なら、今日ソフトウェアエンジニアはいないでしょう。

我々はまだ完全なAGIにいないことには同意します。これらのモデルは1兆パラメータ未満です。人間の脳は10-30兆のシナプスの程度の桁数のどこかにあります。単純な数学をやるだけなら、少なくとも10倍パラメータ不足です。我々はまだそこにいないことには同意しますが、なぜスペクトラムにいないのか混乱しています。

はい、彼らができない多くの種類の汎化があることには同意します。しかし、人間の中でも見られるこの種の滑らかなスペクトラムにいるように見えます。一部の人間はARCタイプのテストを行うのに困難があるでしょう。レイヴンの累進マトリックスタイプのIQテストでの性能に基づいてそれを見ます。

私はIQテストのファンではありません。なぜなら、ほとんどの場合、IQテストで訓練してそれらで良くなることができるからです。それらは非常に記憶ベースです。これは実際に、ARCが陥らないように試みている主要な落とし穴です。

今後5年間ですべてのリモートジョブが自動化されるとしましょう。人間が話すことを望むセールスパーソンのようなサービスを必要としないリモートジョブという意味です。プログラミングのようなもっとという意味です。

その世界で、それは不可能だと言うでしょうか？なぜならプログラマーは、確実にどんな事前訓練コーパスにもないであろう多くのことをする必要があるからですか？

確かに。5年で、今日よりも多くのソフトウェアエンジニアがいるでしょう、少なくありません。

まだよくわかりません。私はコンピューターサイエンスを学びました。大学からコードモンキーになっていたら、何をやっていたでしょうか？仕事に行きます。

上司が何かをやるように言います？私がLLMだったら、彼はいつ私がLLMだと気づくでしょうか？

おそらく初日に。繰り返しますが、LLMがこのような新しい問題に汎化できるなら – 以前見たことがない問題を解決するソフトウェアを実際に開発する – もうソフトウェアエンジニアは必要ないでしょう。

今日人々がソフトウェアエンジニアリングの仕事でLLMを使用している方法を見ると、Stack Overflowの代替として使用しています。非常に一般的なアクションを実行するためのコードスニペットをコピーペーストする方法として使用しています。彼らが実際に必要とするのは、コードスニペットのデータベースです。実際にソフトウェアエンジニアにしている能力のいずれも実際には必要ありません。

補間と創造性について

補間について後退しましょう。なぜ創造性は、より高次元での補間ではないのでしょうか – MLの言語を使うなら – より大きなモデルがより複雑な多様体を学ぶことができる場合？

科学者の伝記を読むと、彼らは新しい科学理論をゼロショットしていません。既存のアイデアで遊んでいます。頭の中でそれらを並置しようとしています。

知的子孫の木で、わずかに異なる進化的道筋を試します。論文を公開するか何かの観点でそこで実験を実行します。人間がやっていることと似たような種類のことのようです。より高いレベルの汎化があります。

より大きく、より大きなモデルは、より高く、より高いレベルの汎化に近づいているようです。GPT-2は、それが持っていた能力よりも多くの汎化を必要とした小学校レベルの数学問題をできませんでした。GPT-3とGPT-4はできます。

全く違います。GPT-4はより高い度合いのスキルとより高い範囲のスキルを持っています。同じ度合いの汎化を持っています。ここで意味論に入りたくありません。

なぜ創造性は、より高い次元での補間だけではあり得ないのでしょうか？

補間は絶対に創造的であり得ます。あなたの指摘に対して、あるレベルで人間も多くの記憶、暗唱、パターンマッチング、補間も行うと思います。パターンマッチングと真の推論の間には非常にスペクトラムがあります。人間は決してスペクトラムの一端にいるわけではありません。純粋なパターンマッチングや純粋な推論を決してやっているわけではありません。通常は両方の何らかの混合をやっています。

これは、数学的定理を証明するような、非常に推論に重いと思われることをやっている場合でも当てはまります。それをやっている間、心の中でかなりの離散検索とかなりの実際の推論をやっています。また、直感とパターンマッチングによって非常に導かれています。以前見た証明の形、数学の知識によって導かれています。

我々の思考のすべて、我々がすることのすべては、補間された記憶ベースの思考、タイプ1思考、タイプ2思考の混合です。

なぜより大きなモデルがより多くのサンプル効率的なのでしょうか？なぜなら、訓練データで新しいパターンを拾うために頼ることができる、より多くの再利用可能な構成要素を持っているからです。

そのパターンは、より大きく、より大きくなり続けることを続けるでしょうか？

モデルに学習させる新しいパターンが、以前学習したものと良い一致である限りは続きます。実際に新しい、安定した分布にないもの、例えばARCパズルのようなものを提示すると、失敗するでしょう。

この主張をさせてください。プログラム合成は非常に有用な直感ポンプです。なぜこれがトランスフォーマーで起こっていることの場合であり得ないのでしょうか？

初期層は入力トークンをどのように表現するかを理解しています。中間層はこの種のプログラム検索、プログラム合成を行い、モデル内のすべての回路への入力を組み合わせます。低レベル表現からモデルの中間近くの高レベル表現に行きます。これらのプログラムを使用します。

これらの概念を組み合わせます。他端から出てくるのは、その高レベル知能に基づく推論です。

可能です。なぜダメでしょうか？しかし、これらのモデルが実際に新しいプログラムを合成できるなら、どんなに単純でも、ARCができるはずです。なぜなら、どんなARCタスクについても、Pythonで解法プログラムを書き下すなら、複雑なプログラムではないからです。極めて単純です。

人間は理解できます。なぜLLMはできないのでしょうか？

それは公正な点です。質問をあなたに向けて、1年でマルチモーダルモデルがARCを解決できるとします。平均的な人間が得るであろう80%か何でも得るとしましょう。我々はそれからAGIの軌道にあるでしょうか？

かなり可能性があります、はい。正直に言って、私が見たいのは、LLMタイプのモデルがARCで80%を解決することですが、コア知識関連のものでのみ訓練された後です。

しかし、人間の子供たち、我々は必然的に遺伝子に持っているものでのみ訓練されています…

言い換えさせてください。ARCテストセットにあるものを明示的に予想しようとしていない情報でのみ訓練されることを望みます。

ARCの全体的なポイントは、できないことではないでしょうか？毎回新しいタイプの知能テストですか？

はい、それがポイントです。ARCが完璧で、完璧なベンチマークなら、テストセットにあるものを予想することは不可能でしょう。ARCは4年以上前にリリースされ、これまでのところ記憶に対して耐性があります。ある程度、時間のテストに合格しています。しかし、完璧ではありません。

手作業で何十万ものARCタスクを作ろうとするとしましょう。プログラム的に変動を生成することによってそれらを増やそうとします。結局、何億ものタスクになります。タスク空間を力任せでやるだけで、訓練されるものとテストセットにあるものの間に十分な重複があり、実際に非常に高いスコアを取ることができます。十分なスケールで、常にごまかすことができます。

知能を必要とするはずのあらゆる単一のもので、これをできるなら、知能の何が良いのでしょうか？明らかに、知能を力任せできるだけです。

世界が、あなたの人生が静的分布なら、確かに可能な行動の空間を力任せできるでしょう。私が使うのが好きな知能のメタファーがいくつかあります。一つは、知能を未来状況空間でのパスファインディングアルゴリズムとして考えることができることです。

RTSゲーム開発に詳しいかわかりませんが、2Dマップ、マップがあり、それについて部分的情報を持っています。マップに戦争の霧があります。まだ探索していない領域があります。それらについて何も知りません。探索したが過去にどのようだったかしか知らない領域もあります。今日どのようであるかは知りません。

2Dマップについて考える代わりに、遭遇するかもしれない可能な未来状況の空間と、それらがどのように互いに接続されているかについて考えてください。知能はパスファインディングアルゴリズムです。目標を設定すると、最適にそこに到達する方法を教えてくれます。もちろん、持っている情報によって制約されます。何も知らない領域でパスファインドすることはできません。変化も予想できません。

マップについて完全な情報を持っていたなら、AからBへのすべての可能な道筋、すべてのマッピングを記憶するだけで、パスファインディング問題を解決できるでしょう。純粋な記憶で問題を解決できるでしょう。実生活でそれができない理由は、実際に将来何が起こるかを知らないからです。人生は絶えず変化しています。

記憶という言葉を使っていますが、人間の子供に対しては決して使わない言葉ですね。子供が代数を学び、その後微積分を学ぶとき、微積分を記憶したとは言わないでしょう。任意の代数問題を解けるなら、代数を記憶したとは言わず、代数を学習したと言うでしょう。

人間は決して純粋な記憶や純粋な推論をやっているわけではありません。

それは、人間がやることを意味的にスキルとラベル付けしているからです。しかし、これらのベンチマークで測定できるように、LLMがまったく同じスキルを行うとき、それは記憶です。

時々人間はLLMがやっているのとまったく同じことをやっています。例えば、数を足すことを学ぶとき、アルゴリズムを記憶しています。プログラムを記憶し、その後それを再適用できます。その場で加算プログラムを合成しているわけではありません。

明らかにある時点で、ある人間が加算の仕方を理解しなければなりませんでした。子供は集合論の公理から始めて加算の仕方に行くことによってそれを理解するわけではありません。学校で学ぶことは主に記憶です。

私の主張は、これらのモデルが人間の脳に持っているFLOPS数、パラメータ数に対して大幅にパラメータ不足であることです。したがって、最も賢い人間ができるような新しい定理を思いつくことができないのは理にかなっています。ほとんどの人間もそれはできません。

ほとんどの人間がやることは、あなたが記憶と呼んでいるものと似たようなもののように聞こえます。学習したスキルや学習したテクニックを記憶することです。だから互換性があるように聞こえます。

これが間違っているか教えてください。すべてのリモートワーカーがいなくなっているが、我々が合成データを作り出すことができる可能性があるスキルをやっている場合、あなたの世界で互換性があるでしょうか？すべてのリモートワーカーの画面を記録します。そこで実行されているスキルを理解します。今、これらすべてをできるモデルを訓練しました。すべてのリモートワーカーが失業です。AIリモートワーカーから数兆ドルの経済活動を生成しています。

その世界で、我々はまだ記憶体制にいるでしょうか？

確かに、記憶で、それが静的分布である限り、変化に対処する必要がない限り、ほとんど何でも自動化できます。

ほとんどの仕事はそのような静的分布の一部でしょうか？

潜在的に、自動化できる多くのことがあります。LLMは自動化のための優れたツールです。

しかし、自動化は知能と同じではないことを理解する必要があります。LLMが無用だと言っているわけではありません。私は長年にわたって深層学習の巨大な支持者でした。長年、二つのことを言ってきました。深層学習をスケールアップし続ければ、報われ続けるでしょうと言ってきました。同時に、深層学習をスケールアップし続けても、これはAGIにつながらないと言ってきました。

より多く、より多くのものを自動化できます。はい、これは経済的に価値があります。はい、潜在的にこのように自動化できる多くの仕事があるでしょう。それは経済的に価値があるでしょう。まだ知能は持っていません。それで、知能なしですべてのこの経済価値を生成できるなら、結局知能は必要ないのではないかと尋ねることができます。変化、新しさ、不確実性に対処しなければならない瞬間に知能が必要です。

賞金設立の背景

今からZapierの共同創設者、マイク・ヌープと一緒です。この賞金に資金を提供し、フランソワと一緒にこの賞金を運営しています。これがどのようにまとまったか教えてください。この賞金を立ち上げる動機は何でしたか？

私は13年間AI好奇心を持っています。Zapierを共同創設し、過去13年間それを運営しています。COVID中に初めてあなたの研究に紹介されました。隠れ家に入りました。

たくさんの自由時間がありました。あなたが論文「知能の測定について」を発表した直後でした。AGIの概念と、このスキル獲得の効率性が正しい定義であること、そしてARCパズルを紹介しました。最初のKaggleコンテストがまだ行われていたとは思いません。まだ実行中でした。興味深かったですが、アイデアを保留にしました。

Zapierでやるべきより大きな魚がありました。我々は二番目の製品に到達しようとするこの大きなターンアラウンドの最中でした。chain-of-thoughtの論文が出た2022年1月でした。それは本当に進歩に目を覚まさせました。GPT-3の論文について、Zapier全体にプレゼンテーションさえしました。LLMができることすべてを価格に織り込んだと感じました。

その論文は、LLMが持っていた、私が期待していなかったすべてのこれらの潜在的能力の観点で、本当に私にショックを与えました。実際に私の役員チーム役割を放棄しました。その時点で会社の半分を運営していました。個人貢献者に戻って、共同創設者のブライアンと一緒にAI研究をするだけでした。

最終的に、それが私をARCに戻らせました。再びそれを調べていました。MMLUとGMS8Kが持っているこの飽和効果を見ることを期待していました。過去4年間のスコアと進歩を見ると、それに向けてほとんど客観的な進歩を遂げていないことに本当にショックを受けました。本当に重要な評価のように感じました。

過去1年、私のネットワークやコミュニティの人々にそれについて質問を続けると、それが存在することを知っている人はほとんどいませんでした。これが本当にグローバルに、特異的にユニークなAGI評価である – そして、AI技能をより狭く測定する他のすべての評価とは異なる – なら、より多くの人々がこのことを知るべきです。

私も自分自身でARCを打ち負かす方法についてアイデアを持っていました。夜と週末にそれに取り組んでいました。今年の初めにフランソワに会いに飛んで、彼に質問し、私のアイデアを見せました。最終的に、なぜより多くの人々がARCについて知らないのかと彼に尋ねました。あなたが実際にそれに答えるべきです。それは本当に興味深い質問です。

なぜより多くの人々がARCについて知らないと思いますか？

研究コミュニティで牽引力を得るベンチマークは、すでにかなり扱いやすいベンチマークです。ダイナミクスは、ある研究グループが何らかの初期的な突破口を作り、その後これが他のみんなの注意を引くことです。最初のチームを打ち負かそうとする人々とのフォローアップ論文が得られることになります。

これはARCについては実際に起こっていません。なぜならARCは既存のAI技術にとって実際に非常に困難だからです。ARCは新しいアイデアを試すことを要求します。それは非常にポイントです。既存の技術を適用してARCを解決できるべきだというポイントではありません。既存の技術が高原に達したというポイントです。

それを超えて行き、記憶したり以前見たりしたことがない問題に取り組み始めることができるようになりたいなら、新しいアイデアを試す必要があります。ARCは、我々がAGIにどの程度近いかのこの種の測定であることを意図されているだけではありません。インスピレーションの源でもあることを意図されています。

研究者たちがこれらのパズルを見て、「ねえ、これらのパズルが非常に単純で、ほとんどの人間が非常に迅速にそれらをできるのは本当に奇妙です。なぜ既存のAIシステムにとってそれほど困難なのでしょうか？なぜLLMなどにとってそれほど困難なのでしょうか？」と言うようになることを望みます。

これはLLMに当てはまりますが、ARCは実際にLLMが本当にものになる前にリリースされました。当時それを特別にしていた唯一のことは、記憶に対して耐性があるように設計されていたことでした。それがGenAI全般、LLMをこれほどうまく生き残ったという事実は、それが実際に記憶に対して耐性があることを示しています。

これが私をnerd-snipeしました。私は行って、パズルの束を自分で取りました。私のすべての友人や家族にも見せました。彼らは皆、「ああ、はい、これは超簡単です。AIがこれを解決できないと確信していますか？」のような反応でした。それは私にとっても同じ反応でした。より掘り下げるほど、過去4年間で打ち負かされていないという経験的証拠だけでなく、なぜそうなのかの背後にある理論的概念があることがわかります。

この時点で、ARCを打ち負かすために新しいアイデアが必要だということに完全に同意します。実際に現在世界で起こっている多くの現在のトレンドが、それが起こることに対して実際に働いています。我々は実際に新しいアイデアを生成する可能性が低くなっています。トレンドの一つは、最先端研究の閉鎖です。OpenAIからのGPT-4論文は技術的詳細が共有されていませんでした。Gemini論文も技術的詳細が共有されていませんでした、その作業のより長いコンテキスト部分のように。

しかし、そのオープンイノベーションと進歩と共有が、最初にトランスフォーマーに我々を導いたものです。それが最初にLLMに我々を導いたものです。だから、非常に多くの最先端作業が閉鎖されたのは実際にちょっと失望です。これらの個別のラボが突破口を持つであろうという賭けを作っています、エコシステムではなく。

インターネットとオープンソースは、これまでに存在した中で最も強力なイノベーションエコシステムであることを示しました、おそらく全世界で。

実際に、最先端研究がもはや公開されていないのは本当に悲しいことです。4年前を振り返ると、すべてが単にオープンに共有されていました。最先端の結果はすべて公開されていました。これはもはやそうではありません。OpenAIが単独でゲームを変えました。

OpenAIは基本的にAGIへの進歩を数年、おそらく5-10年遅らせました。それは二つの理由です。一つは、彼らが最先端研究公開のこの完全な閉鎖を引き起こしたことです。しかし、彼らはまたLLMの周りでこの初期のハイプの爆発を引き起こしました。今やLLMが部屋の酸素をすべて吸い尽くしました。みんなLLMをやっているだけです。

私はLLMを実際にAGIへの道筋でのオフランプとしてもっと見ています。これらの新しいリソースがすべて、実際にLLMの代わりに行くかもしれない他のすべてのものの代わりにLLMに行っています。2015年や2016年の遠い過去を見ると、当時AIをやっている人は1000倍少なかったです。しかし、進歩の速度は高かったです。なぜなら、人々はより多くの方向を探求していたからです。世界はよりオープンエンドに感じられました。

クールなアイデアを持って、起動し、試し、興味深い結果を得ることができました。このエネルギーがありました。今、みんな非常に同じことの何らかのバリエーションをやっています。大きなラボもARCに手を出しましたが、悪い結果を得たので何も公開しませんでした。人々は肯定的な結果のみを公開します。

賞金の詳細と期待

人々がプロンプトやスキャフォールド、ある種のDevinタイプのアプローチを使って、最先端モデルにARCで良い解決策を生成させようとどれだけの努力を入れたか疑問に思います。1年前だけでなく、今日の最先端モデルです。Claude 3 OpusやGPT-4oのような、より良くするために多くの後訓練が行われました。

このエピソードがすることの一つは、人々にこのオープンコンペティションを試してもらうことだと願っています。競合するためにオープンソースモデルを入れなければなりませんが、おそらくClaudeにあるかもしれない能力が潜在的であることも理解でき、それを示すことができるかもしれません。それは非常に興味深いでしょう。

賞金について話しましょう。ARCで何パーセント取れば、どれくらい勝てますか？最高の提出をしたが、それを破らなかった場合、どれくらい得られるでしょうか？

賞金プールに100万ドル少し持っています。年間ベースでコンテストを運営しています。今日から11月中旬まで開始しています。目標は85%を得ることです。それがあなたたちが前に話した人間平均の下限です。85%ベンチマークに到達できる最初のチームには50万ドルの賞金があります。

今年それが起こることは期待していません。Zapierの初期の統計学者の一人が私にくれたこの言葉が常に私に付いています：「時間がかかるほど、時間がかかる」。ARCが解決されるのに数年かかるだろうという私の事前確率です。

今年も進歩賞に分解するつもりです。10万ドルの進歩賞があり、今年のトップスコアに支払われます。Kaggleリーダーボードでのトップ客観的スコアに5万ドルが行きます。Kaggleでホストしています。その後、達成できたスコアを概念的に説明する最高の論文のために5万ドルのポットを設定します。

興味深いことの一つは、賞金を勝ち取るために、解決策や論文をパブリックドメインに出すことを要求することです。通常コンテストでは、多くの閉鎖された共有が見られます。人々は非公開で秘密です。コンテスト期間中に自分たちのアルファを自分たちに保持したいと思っています。数年かかることを期待しているので、ここでインタラクティブゲームをしたいと思います。

計画は、11月末に10万ドルの進歩賞をトップ進歩賞に授与することです。12月から2月までの休止時間を使って、トップスコアからのすべての知識と人々が取っていたアプローチを共有します。そうすることで、コミュニティを最先端が何であるかまで再ベースラインし、その後来年再びコンテストを実行します。85%を得るまで、年間ベースでそれを続けます。

この賞金がなぜ非常に興味深いと思うかについて、人々にいくつかの文脈を与えます。現在のモデルを非常に信じている友人たちと会話をしていました。まず第一に、彼らがARCについて知らなかったことが興味深かったです。これらは経験豊富なML研究者です。これは数夜前に起こりました。夕食に行って、例題を見せました。

彼らは、「もちろん、LLMはこのようなものを解決できるでしょう」と言いました。それのスクリーンショットを撮りました。ChatGPTアプリに入れただけです。パターンを得ませんでした。

だから、非常に興味深いです。それは注目すべき事実です。あなたに対してこれらの種類の質問で悪魔の代弁者をやっていましたが、これは非常に興味深い事実です。この賞金は極めて興味深いです。なぜなら、どちらにしても魅力的なことを学ぶことになるからです。

85%に関して、この賞金とは別に、誰かがその結果を再現できるかどうか非常に興味があります。明らかに心理学や他の種類の分野で、この結果が類似しているように見える場合、人々の小さなサンプルでテストを実行すると、しばしば再現が困難です。これを再現しようとした場合、平均的人間がARCでどのように実行するかを知ることに非常に興味があります。

また、このベンチマークを破るのにどれくらい時間がかかるかの困難さについても興味があります。現在完全に飽和している他のベンチマーク、MMLUやMATHのことを考えるのは非常に興味深いです。MMLUとMATHをやったダン・ヘンドリックスとコリン・バーンズは、それを作ったときは大学院生や大学生でした。

数年前にそれを作ったときの目標は、それがAGIのテストになることでした。もちろん、完全に飽和しました。あなたはこれらが記憶のテストだと主張するでしょう。しかし、我々が見てきたパターンがあります。実際、Epoch AIには非常に興味深いグラフがあり、このほぼ指数的な曲線が見られます。

モデル全体での計算を増やすにつれて、5%、10%、30%、40%を得て、その後単に急上昇します。GPT-4技術レポートで、HumanEval問題セットの興味深いグラフがありました。これは22のコーディング問題でした。平均ログパス曲線でグラフ化しなければなりませんでした。訓練の初期、または小さなモデルでさえ、この問題を解決する方法の正しいアイデアを持つことができます。

問題全体を解決するために軌道にとどまることを確実にするために多くの信頼性が必要です。少なくとも時々、たぶん1/100や1/1000で正解するシグナルを本当に重視したいと思います。1/1000から1/100、1/10に行き、その後完全に飽和します。

これがすべて導く質問があります。なぜARCで同じことが起こらないでしょうか？人々はより大きなモデルで本当に懸命に試さなければなりませんでした。今、彼らはJack Coleが理解したような技術を理解し、2億4000万パラメータ言語モデルでのみ35%を得ることができます。

他のすべてのベンチマークで見た同じパターンを見るべきではないでしょうか？単にいじって、一般的なアイデアを得たら、100まで全部行くでしょう？

それは経験的な質問です。実際に何が起こるかを見るでしょう。Jack Coleがやっていることは実際に非常にユニークです。単にLLMを事前訓練してからプロンプトするだけではありません。実際にアクティブ推論をやろうとしています。彼はテスト時間をやっていますよね？彼はテスト時間微調整をやっています。

正確に、彼はテスト時間微調整をやっています。これは実際にLLMの主要な制限の一つを持ち上げようとしています。推論時間に、新しいことを学ぶことはできません。見ているものにその場で適応することはできません。実際に学習しようとしています。

彼がやっていることは、事実上プログラム合成の一形態です。LLMは多くの有用な構成要素、プログラミング構成要素を含んでいます。テスト時間でタスクについて微調整することによって、これらの構成要素をタスクに一致する正しいパターンに組み立てようとしています。

これは正確にプログラム合成が何についてのものかです。私はこのアプローチを離散プログラム検索と対比するでしょう。離散プログラム検索では、プリミティブのセットからプログラムを組み立てようとしています。非常に少ないプリミティブを持っています。例えば、ARCで離散プログラム検索に取り組んでいる人々は、100から200のプリミティブプログラムを持つDSLで作業する傾向があります。

非常に小さなDSLですが、これらのプリミティブを非常に複雑なプログラムに組み合わせようとしています。検索の非常に深い深度があります。一方、Jack ColeがLLMでやっていることです。彼はLLMでの何百万もの構成要素のこのベクトルプログラムデータベースDSLを持っています。それらは、LLMを事前訓練することによってマイニングされ、トンのプログラミング問題だけでなく、何百万もの生成されたARCのようなタスクでも行われます。

非常に大きなDSLを持っており、微調整はこれらのプリミティブの非常に浅い再結合です。離散プログラム検索は、非常に小さなプリミティブプログラムのセットで非常に深い再結合です。LLMアプローチは同じものですが、そのスペクトラムの完全に反対側の端にあります。記憶を大規模な要因でスケールアップし、非常に浅い検索をやっています。それらは同じものです、スペクトラムの異なる端だけです。

計算サイクルに対して最も価値を得るところは、その間のどこかだと思います。記憶を活用して、より豊かで、より有用なプリミティブプログラムのバンクを構築したいと思います。典型的なRTSで見たような硬くコードされたものは望みません。例から学習されることを望みます。また、ある程度の深い検索もやりたいと思います。

非常に浅い検索のみをやっている限り、ローカル汎化に限定されます。より遠く、より広く汎化したいなら、検索の深さが重要になるでしょう。

彼が合成データに非常に重く依存しなければならなかった理由は、2億4000万パラメータモデルを使用したためだと主張するかもしれません。

Kaggleコンペティションは当時、P100 GPUを使用することを要求し、H100のFLOPSの10分の1ほどのようなものを持っていました。聞き手の文脈として、今日の最先端モデルは文字通りそれより1000倍大きいです。あなたのコンペティションでは、提出はAPIコールを作ることができず、オンラインに行くことができず、NVIDIA Tesla P100で実行しなければなりません。

それは大幅に強力ではありません。基本的に12時間の実行時間制限があります。評価に効率性の強制機能があります。しかし、ここで重要なのは、100のテストタスクしかないことです。各タスクに利用可能な計算量は実際にかなりあります、特に各タスクの単純さと対比すると。

基本的に、タスクごとに7分でしょう。人間の脳がどれだけのflopを持っているかの推定をやった人々がいます。塩一粒で取ることができますが、アンカーとして、基本的にH100が持っている量のflopです。おそらく人間の脳が7.2分よりも速くこの質問を解決できると主張するでしょう。

計算の10分の1でも、7分でそれをできるはずです。明らかに我々は脳にペタバイトの高速アクセスメモリを持っておらず、H100では29 GBか何かを持っています。より広い点は、最大のモデルでの何らかのスキャフォールディングでこの賞金をテストする方法もあることを願うということです、ARCを解決することがスケーリングへの道筋かどうかをテストする方法として。

絶対に。コンペティションの文脈で、限られたリソースでどれだけの進歩ができるかを見たいと思います。しかし、そこにある最大のモデルが実際にARCで何ができるかは、非常に興味深いオープンな質問だということは完全に正しいです。

実際に、あなたが望む任意のモデルを置くことができるVMを私たちに提出できるプライベートな、一回限りのトラックを利用可能にしたいと思います。そこにある最大のオープンソースモデルの一つを取り、微調整し、何でもやって、画像をくれるだけです。

その後、H100で24時間かそこらでそれを実行します。何が得られるかを見ます。二つの異なるテストセットがあることを指摘する価値があります。誰でも訓練に使用できるパブリックGitHubリポジトリにあるパブリックテストセットがあります。オープンAPIコール、何でも好きなものを入れることができます。その後、実際に最先端を測定している100であるプライベートテストセットがあります。

パブリックテストセットを使用して、少なくとも試すことは、かなりオープンエンドで興味深いです。人々は実際にすでにこれをやっています。

パブリックテストセットに対して報告される任意のスコアにはアスタリスクがあります。なぜならそれはパブリックだからです。どこかの訓練データに漏れている可能性があります。

これは実際に人々がすでにやっていることです。最新のGeminiや最新のGPT-4のような最高のモデルの一つを、パブリック評価セットからのタスクでプロンプトしようとすることはすでにできます。繰り返しますが、問題は、これらのタスクがGitHubでJSONファイルとして利用可能だということです。

これらのモデルはGitHubでも訓練されています。だから、実際にこれらのタスクで訓練されています。それは不確実性を作ります。実際にいくつかのタスクを解決できるなら、それは答えを記憶したからでしょうか、そうではないでしょうか？

おそらく自分の私的な、ARCのような非常に新しいテストセットを作る方が良いでしょう。タスクを困難にしないでください。複雑にしないでください。人間にとって非常に明白にしますが、可能な限りオリジナルにすることを確実にしてください。ユニークで、異なり、あなたのGPT-4やGPT-5がそれらでどのようにするかを見てください。

これらのモデルがこれらのベンチマークで過剰訓練されているかどうかのテストがありました。Scaleは最近GSM8Kでこれをやりました。

基本的に、ベンチマークを複製しましたが、異なる質問でした。モデルの一部は実際にベンチマークで極度に過学習していました、Mistralなどのように。ClaudeやGPTのような最先端モデルは、実際に既存のパブリックベンチマークにあった特定の質問で行ったのと同じように、彼らの新しいベンチマークでうまくやりました。

JSONでの訓練について比較的楽観的でしょう。マイクと冗談で言っていたのは、API アクセスを許可するが、これらのARC質問のさらにプライベートな検証セットを保持することです。API アクセスを許可し、人々がGPT-4スキャフォールディングで遊んでこのコンテストに参加できるようにします。後でAPIで検証セットを実行するかもしれません。

元々APIへのアクセスを許可したテストセットよりも検証セットでパフォーマンスが悪い場合、それはOpenAIがあなたのAPIコールで訓練していることを意味します。これを公開して、「なんてこった、彼らはあなたのデータを漏らしました」と彼らに示します。

ARCデータセットを進化させたいと思います。それは我々がやりたい目標です。フランソワが完璧ではないと言ったように。

そうです、ARCは完璧なベンチマークではありません。ほぼ5年前に、LLMの前の時代に作りました。それ以来、どのような潜在的な欠陥があるかもしれないことについて実際に多くを学びました。タスクのセットには冗長性があり、これはもちろんベンチマークの目標に反しています。すべてのタスクは実際にユニークであることを想定されています。それは完全に真実ではありません。

すべてのタスクも非常に新しいことを想定されていますが、実際にはそうではないかもしれません。オンライン上のどこかで見つけるかもしれないものと構造的に似ているかもしれません。

今年後半にARC 2.0バージョンをリリースして、反復し続けたいと思います。それをやるとき、古いプライベートテストセットを利用可能にしたいと思います。公開してリリースしないかもしれませんが、できることは、タスクを取得し、解決策を提出できるテストサーバーを作成することです。もちろん、そこで望む最先端モデルを使用できます。

実際にこのAPIにクエリしなければならないので、誰もこのデータで誤って訓練しないことを確実にしています。文字通りGitHubにある現在のパブリックARCデータとは異なり、GitHubで訓練するので、それらで訓練されているかどうかの疑問は実際にありません。確実に訓練されています。

このAPIへのアクセスを要求することをゲートすることによって、この問題を避けるでしょう。望む技術を使って、望むリソースを使って、何かを心に描いている人にとって、それは答えを得る方法でしょう。

何が起こるかもしれないかわかりません。確実ではありません。

一つの答えは、彼らが何らかの明示的なプログラム合成でAIのための完全に新しいアルゴリズムを考え出すことです。今、我々は新しい軌道にいます。

別のは、彼らが実際に有効な方法で既存のモデルでハッキーなことをしたことです。これは、おそらく知能が物事を分布の正しい部分に到達させることについてのものであることを明らかにします。そうすれば推論できます。その世界では、それは興味深いでしょう。たぶんそれは、現在のモデルで何かハッキーなことをしなければならなかったことを示すでしょう。それらが良くなるにつれて、ハッキーなことをする必要がなくなるでしょう。

これらのマルチモーダルモデルがARCのようなテストでネイティブにはるかに良いパフォーマンスをするかどうかも非常に好奇心があります。

ARCがここから3ヶ月生き残れば、賞金を増額します。現実との本当に重要な接触の瞬間を作ろうとしており、賞金を爆発させ、それに対してはるかに大きな賞金プールを置きます。低いぶら下がった果実のアイデアがたくさんあるかどうかを本当に迅速に学ぶでしょう。

繰り返しますが、新しいアイデアが必要だと思います。聞いている誰でも、頭の中にアイデアを持っているかもしれません。みんなが試すことを勧めます。

時間が経つにつれて、それは我々が進歩で行き詰まり、ARCを打ち負かすために新しいアイデアが必要だという議論に強さを追加します。

そうです、それがお金の賞金を持つポイントです。より多くの人々を引き付け、それを解決しようとさせます。ベンチマークをハッキングする簡単な方法があるなら、それはベンチマークが欠陥があることを明らかにします。それについて知ることになります。実際、それは2020年のARCの元のKaggleコンペティションのポイントでした。このデータセットをリリースしたので、このコンペティションを実行していて、それがハッキング可能かどうか、チートできるかどうかを知りたかったのです。

当時、小さなお金の賞金がありました。2万ドルのようなものでした。これはGPT-3がリリースされたのとほぼ同じ頃でした。人々はもちろんパブリックデータでGPT-3を試しました。ゼロ点を取りました。

最初のコンテストが我々に教えたのは、明白なショートカットがないということです。今、より多くのお金があります。それを調べるより多くの人々がいるでしょう。見つけ出すでしょう。

ベンチマークが生き残るかどうかを見るでしょう。可能なARCタスクの空間を力任せしようとするようなものではない解決策になるとしましょう。単にコア知識で訓練されています。それが必ずしもそれ自体でAGIになるとは思いませんが、おそらくAGIへの道筋での巨大なマイルストーンになるでしょう。

それが表すのは、単に2つか3つの例から問題解決プログラムを合成する能力です。それだけで新しいプログラミング方法です。ソフトウェア開発のための完全に新しいパラダイムです。頭の中でプログラムの形を考え出してからそれをタイピングすることによってプログラムするのではなく、非常によく汎化する潜在的にかなり複雑なプログラムをプログラミングし始めることができるかもしれません。

単にコンピューターに欲しい出力を見せることによって。コンピューターにそれを理解させる。それが極めて強力なものです。

解決策のタイプについて

ここでどのような種類の解決策が可能かについて少し即興で話したいと思います。そして、どれがARCの目的を破ることになると考え、どれが有効かを。ここで言及するものがあります。私の友人RyanとBuckは、これについて彼らに話したので昨夜徹夜しました。彼らは「もちろんLLMはこれを解決できる」のようでした。

良い。言葉を広めてくれてありがとう。

彼らはこれでClaude Opusをプロンプトしようとしていて、パブリックARCテストで25%を得たと言っています。彼らがやったのは、ARCテストのいくつかの他の例を持ち、文脈で、ある出力から別の出力になぜ行ったかの推論を説明し、今現在の問題を持つことでした。JSONをトークナイザーにより適したように表現することもあったと思います。

別のことは、コードインタープリターを使用することでした。コードインタープリターが、これらのモデルがより賢くなるにつれてより良くなり続けることは、まさにそこでのプログラム合成だと思いますか？彼らができたのは、コードインタープリターを通じて、そのJSON出力、セルの実際の出力を得ることでした、「ここで正しい出力を得るPythonプログラムを書いて」のように。

あなたが話しているプログラム合成の種類の研究は、大規模言語モデルでコードインタープリターを使用するようなものになると思いますか？

どのような解決策を見ても、うまくスコアするであろうものは、おそらく深層学習モデルとLLM特にのいくつかの側面を活用する必要があるでしょう。LLMがかなりうまくできることはすでに示しました。それは基本的にJack Coleのアプローチです。

小さなDSLから純粋な離散プログラム検索が非常にうまくいくことも示しました。Jack Coleの前は、これが最先端でした。実際、それはまだ最先端に極めて近く、これらのモデルには深層学習が全く関与していません。

基本的に重複がない、非常にうまくいっている二つのアプローチがあります。それらは一つのスペクトラムの二つの反対の端に非常にあります。一端では、何百万ものベクトルプログラムの極めて大きなバンクを持っていますが、非常に浅い再結合、単純な再結合です。他端では、非常に単純なDSL、100-200のプリミティブを持っていますが、非常に深い、非常に洗練されたプログラム検索を持っています。

解決策はその間のどこかになるでしょう。ARCコンペティションで勝ち、近期AGIに向けて最も進歩する人々は、深層学習パラダイムと離散プログラム検索パラダイムを一つのエレガントな方法にマージすることを管理する人々になるでしょう。

何が正当で何がチートかと尋ねました。システムにコードインタープリターを追加したいなら、それは素晴らしいと思います。それは正当です。チートになる部分は、テストにあるかもしれないものを予想しようとすることです、可能なタスクの空間を力任せして、それで記憶システムを訓練することのように。何百万、何百万ものタスクを生成しているという事実に依存します。必然的に、生成しているものとテストセットにあるものの間にいくらかの重複があることになります。

それはベンチマークの目的を破っています。なぜなら、そうすればそれでそれを解決でき、記憶された解決策を取得することによって適応するだけで済むからです。うまくいけばARCはそれに抵抗するでしょうが、完璧なベンチマークはありません。たぶんそれをハッキングする方法があります。非常にすぐに答えを得るでしょう。

ここで競合するためにオープンソース言語モデルを使わなければならず、それらはネイティブに言語であるため、いくらかの微調整は有効です。

ARCタイプの方法で考えることができる必要があるでしょう。はい。コア知識、ARCのようなコア知識をモデルに入力したいと思いますが、確実にこれを行うために何千万ものタスクは必要ありません。コア知識は極めて基本的です。

これらのARCタイプの質問のいくつかを見ると、実際に人生を通じて見てきたものに少し依存していると思います。

例えば、何かが壁で跳ね返って戻ってくるパターンを見ます。アーケードゲームをやったことがあり、Pongか何かを見たことがあります。例えば、Flynn効果と人々の知能を見ると、レイヴンの累進マトリックスで測定されるように、これらの種類の質問で増加しています。

おそらく、子供時代から今、我々は実際にTV や何でもでこれらの種類のパターン、これらの空間パターンを見ているという似たような話です。

だから、これはコア知識ではないと思いません。これは実際に、人間が成長するにつれて持つ「微調整」の一部で、異なる種類の空間パターンを見て、それらにパターンマッチしようとすることです。

確実にそれをコア知識の下に分類するでしょう。コア知識には基礎物理学が含まれます、例えば跳ね返りや軌道。それは含まれるでしょう。しかし、そうです、完全に正しいです。人間として、迅速に解決策を理解できる理由は、再結合できる心の中の構成要素のセット、パターンのセットを持っているからです。

コア知識と知能の関係

知能を達成するためにコア知識が必要ですか？

持っている任意のアルゴリズムについて、コア知識は、ある意味で、硬くコードされなければならないのでしょうか？それとも、コア知識でさえ知能を通じて学習できるのでしょうか？

コア知識は学習できます。人間の場合、いくらかのコア知識は生まれ持ったものです。

我々は実際に、住むことになる世界について少量の知識を持って生まれます。白紙状態ではありません。しかし、ほとんどのコア知識は経験を通じて獲得されます。コア知識について重要なのは、例えば学校で獲得されるものではないということです。実際に人生の最初の3-4年で非常に早期に獲得されます。

4歳までに、大人として必要になるすべてのコア知識を持っています。

興味深いです。賞金自体について、Llama（70B）か何かでのオープンソースバージョンと、人々が競争自体でスコアできるものを見ることに非常に興奮しています。

特にスケーリング仮説をテストすることにも興奮していて、ARCのパブリックバージョンでプロンプトできるかどうか非常に好奇心があります。

この競争自体にそれを提出することはできませんが、人々がそれを破ってARCをそこで動作させることができるかどうかを見ることに非常に好奇心があります。それはAGIについてのあなたの見解を更新するでしょうか？

本当に動機になるでしょう。誰かが再現可能なオープンソースバージョンをパブリックドメインに置くまで、コンテストを実行し続けるでしょう。

誰かがプライベートにARC評価を打ち負かしたとしても、誰かがそれを再現してパブリックで再現可能なバージョンを出すまで、賞金を保持し続けるでしょう。

正確に。目標はAGIへの進歩を加速することです。その重要な部分は、進歩の意味のあるビットが共有される必要があること、パブリックである必要があることです、そうすれば誰もがそれについて知り、それを反復しようとできます。

共有がなければ、進歩はありません。

特に好奇心があるのは、賭けを分解することです。これのオープンバージョンを作ることができるか、それとも単にスケーリングで可能なのか。パブリックバージョンとプライベートバージョンの両方に基づいて、両方をテストできます。

これでも現実との接触を作っています。計算の実際の制限が何であるかについて多くを学ぶでしょう。誰かが現れて、「ねえ、ここにクローズドソースモデルがあり、それで+50%を得ています」と言ったら、それはおそらく我々を更新するでしょう。「OK、おそらくバランスを取るために、プライベートテストセットで与える計算量を増やすべきです」と思うでしょう。

最初の決定のいくつかは、人々が何を望むかについて学ぶために多少任意です。

進歩はどのように見えるでしょうか？我々二人とも、可能な限り最高の、または完璧に近いものにするために、時間をかけてそれを進化させることにコミットしています。

素晴らしい。人々が賞金についてもっと学び、たぶんそれに手を出すことができる場所はどこですか？

Arcprize.org。今日ライブです。今日ライブになります。100万ドルが懸かっています、皆さん。

ポッドキャストに来てくれてありがとう。知能についてのすべての議論の核心を通り、異なる視点を得て、ここで賞金を発表することも素晴らしいです。これは素晴らしいです。

ニュースを破るのを手伝ってくれてありがとう。我々を迎えてくれてありがとう。