フランソワ・ショレ：我々はいかにしてAGIに到達するか

皆さん、こんにちは。私はフランソワです。AGIと、我々がそこにどのように到達するかについての私のアイデアを皆さんとシェアできることを非常に嬉しく思います。

そこにあるチャートは、世界について最も重要な事実の一つです。コンピュート（計算能力）のコストは、1940年以来、10年ごとに一貫して2桁の減少を続けています。これがすぐに止まる兆候はありません。そしてAIにおいて、コンピュートとデータは長い間、我々が達成できることの主要なボトルネックでした。

そして2010年代に、皆さんもご存知の通り、GPUベースのコンピュートと大規模データセットの豊富さにより、深層学習が本当に機能し始めました。そして突然、コンピュータビジョンや自然言語処理にわたって、長い間扱いにくいと思われていた問題で急速な進歩を遂げることになったのです。

特に、自己教師ありテキストモデリングが機能し始めました。そしてAIの支配的なパラダイムは、LLMの訓練をスケールアップすることになりました。このアプローチはほぼ全てのベンチマークを圧倒し、驚くべきことに、全く同じアーキテクチャと全く同じ訓練プロセスで、モデルサイズと訓練データサイズをスケールアップするにつれて、予測可能なより良いベンチマーク結果を得ていました。

これが、ジャレドが数分前にお話ししたスケーリング法則です。ですから、本当に全てが解明されたように思われ、多くの人々は、より多くのスケールが全てを解決し、AGIに到達するために必要な全てだと推定しました。我々の分野は、より大きなモデルにより多くのデータを詰め込むことで汎用知能が自発的に出現するという考えに取り憑かれるようになりました。

しかし、一つ問題がありました。我々は、これらのベンチマークが実際に何を意味するのかについて混乱していたのです。静的でタスク固有の記憶されたスキルと、流動的汎用知能の間には大きな違いがあります。流動的汎用知能とは、これまで見たことのないものをその場で理解する能力のことです。

ARCベンチマークの登場

そして2019年、LLMの台頭以前に、私はこの違いを浮き彫りにするためのAIベンチマークをリリースしました。それは抽象推論コーパス、またはARC1と呼ばれています。そして、2019年のその時点から、例えばGPT4.5のようなモデルまで、ベースLLMの約50,000倍のスケールアップがありました。そして我々は、そのベンチマークで0％の精度から約10％まで上がりました。これはそれほど多くありません。

この部屋にいる皆さんの誰もが95％を大きく上回るスコアを出すだろうという事実を考慮すると、ゼロに非常に近いのです。ですから、汎用流動知能を解明するために、我々には事前訓練のスケールアップと静的推論を行うだけでなく、新しいアイデアが必要だったことが判明しました。

このベンチマークは、記憶されたスキルを反芻することについてのものではありませんでした。それは本当に、これまで見たことのない新しい問題をその場で理解することについてのものでした。

しかし、昨年2024年に、全てが変わりました。AI研究コミュニティは、新しく非常に異なるパターンへの転換を始めました。テスト時適応 – 新しいものに適応するために、テスト時に自分自身の状態を変更できるモデルを作成することです。

ですから、これはもはや事前にロードされた知識をクエリすることについてではありませんでした。それは本当に推論時に学習し適応する能力についてのものであり、突然我々はARCで大きな進歩を見始めました。ついに我々は、真の流動知能の兆候を示すAIを手に入れたのです。

特に昨年12月、OpenAIはそのo3モデルをプレビューし、ARCに特化してファインチューニングされたバージョンを使用し、そのベンチマークで初めて人間レベルのパフォーマンスを示しました。そして今日、2025年には、我々は突然事前訓練スケーリングパターンから脱却し、現在完全にテスト時適応の時代に入っています。

テスト時適応とは何か

テスト時適応は、推論中に遭遇する特定のデータに基づいて、モデルが自分自身の行動を動的に修正する能力についてのすべてです。これは、テスト時訓練、プログラム合成、思考連鎖合成などの技術をカバーしており、モデルは手元のタスクのために自分自身を再プログラムしようとします。

そして今日、ARCで良いパフォーマンスを示すすべてのAIアプローチは、これらの技術の一つを使用しています。

ですから今日、私は以下の質問に答えたいと思います。まず、なぜ事前訓練スケーリングパラダイムは我々をAGIに導かなかったのか。わずか2年前を振り返ると、これが標準的な教義でした。誰もがこれを言っており、今日ではほとんど誰もこれを信じていません。では、何が起こったのでしょうか。

次に、このテスト時適応は今度こそ我々をAGIに導くのでしょうか。もしそうなら、おそらくAGIはすでにここにあるかもしれません。一部の人々はそう信じています。

そして最後に、テスト時適応以外に、AIの次には何があるのでしょうか。

知能とは何か

これらの質問に答えるために、我々はより根本的な質問に戻らなければなりません。知能とは一体何なのでしょうか。我々がAGIを構築しようとしていると言うとき、何を意味するのでしょうか。

過去数十年を振り返ると、知能を定義し、AIの目標を定義するために2つの思考の流れがありました。ミンスキー様式の見解があります。AIは、通常人間によって行われるタスクを実行できる機械を作ることについてです。

これは現在の主流企業の見解に非常に近く響いています。AGIは、経済的に価値のあるタスクの大部分、しばしば80％と引用される数字のタスクを実行できるモデルであろうというものです。

しかし、マッカーシーの見解があります。AIは、準備されていない問題を扱える機械を得ることについてです。AIに何か新しいものを扱わせることについてです。

私の見解は、よりマッカーシーの見解に近いものです。知能はプロセスであり、スキルはそのプロセスの出力です。ですから、スキル自体は知能ではなく、任意の数のタスクでスキルを表示することは知能を示すものではありません。

これは、道路ネットワークと道路建設会社の違いのようなものです。道路ネットワークがあれば、特定の事前定義されたAとBのセットについて、AからBに行くことができます。しかし、道路建設会社があれば、ニーズが進化するにつれて、新しいA、新しいBをその場で接続し始めることができます。

ですから、知能は新しい状況に対処する能力です。それは新鮮な道を切り開き、新しい道路を建設する能力です。ですから、本当に結晶化された行動プログラム、スキルプログラムに知能を帰属させるのは、カテゴリーエラーです。あなたはプロセスとその出力を混同しています。道路とその道路を作成したプロセスを混同してはいけません。

これを少し形式化すると、私は知能を、あなたが持っている情報（主にあなたの過去の経験ですが、システムが持つかもしれない開発者によって与えられた事前知識も含む）と、あなたが遭遇するかもしれない潜在的な将来の状況の空間での運用エリアとの間の変換比率として見ています。そしてそれは高い新規性と不確実性を特徴とするでしょう。

ですから、知能は、将来に対処するために過去の情報を運用化する効率性です。それは効率比率であり、これが試験のようなベンチマークを使用してモデルを評価するのが悪いアイデアである理由です。それらは我々がAGIにどれだけ近いかを教えてくれません。なぜなら、人間の試験は知能を測定するために設計されたのではないからです。それらはタスク固有のスキルと知識を測定するために設計されました。

それらは、人間にとっては賢明だが機械にとってはそうでない仮定に従って設計されました。例えば、ほとんどの試験は、あなたが事前にすべての試験問題と答えを読んで記憶していないことを前提としています。

知能の測定における重要概念

ですから、本当に知能を定義し測定したいなら、考慮しなければならないいくつかの重要な概念があります。

最初は、静的スキルと流動知能の区別です。つまり、既知の問題を解決するための静的プログラムのコレクションにアクセスすることと、これまで見たことのない問題に直面したときにその場で全く新しいプログラムを合成できることの違いです。もちろん、これは二進法ではありません。どちらか一方ではありません。両者の間にはスペクトラムがあります。

2番目の概念は、与えられたスキルの運用エリアです。これまで見たことに非常に近い状況でのみスキルがあることと、非常に広い範囲内の任意の状況でスキルがあることの間には大きな違いがあります。例えば、運転方法を知っているなら、特定の地理的フェンス内だけでなく、どの都市でも運転できるべきです。

サンノゼで運転を学び、その後サクラメントに移っても、まだ運転できますよね。繰り返しますが、ここにもスペクトラムがあります。二進法ではありません。

そして最後に、与えられたスキルの情報効率性を見るべきです。そのスキルを習得するのに、どれだけの情報、どれだけのデータ、どれだけの練習が必要でしたか。もちろん、より高い情報効率性は、より高い知能を意味します。

これらの定義が非常に重要である理由は、エンジニアとして、我々は測定するもののみを構築できるからです。ですから、知能を定義し測定する方法は技術的な詳細ではありません。それは本当に認知問題についての我々の理解を反映しています。

それは我々が尋ねる質問の範囲を決定し、したがって我々が得る答えを決定します。それは我々を目標に向かって駆り立てるフィードバック信号です。そして、エンジニアリングで常に見られる現象はショートカットルールです。

これは、単一の成功尺度の達成に焦点を当てると、成功するかもしれないが、尺度によって捕捉されなかった他のすべてのものを犠牲にしてそれを行うだろうという事実です。標的に当たるが、要点を見逃すのです。これは、例えばKaggleで常に見られます。

Netflixプライズでも見ました。勝利システムは非常に正確でしたが、本番環境で使用するには複雑すぎました。ですから、結局使用されることはありませんでした。実質的に無意味でした。

AIでも、チェスプレイでこれを見ました。AIコミュニティが70年代にチェスをプレイできるプログラムを作ろうとした理由は、人々はこれが人間の知能について教えてくれると期待していたからです。そして数十年後、Deep BlueがKasparov世界チャンピオンを打ち負かしたとき、我々は目標を達成しました。そしてその過程で、我々は知能について本当に何も学びませんでした。標的に当たったが、要点を見逃したのです。

新しい目標の必要性

そして数十年間、AIはタスク固有のスキルを追求してきました。なぜなら、それが我々の知能の定義だったからです。しかし、この定義は自動化にのみ導きます。これは正に我々が今日持っているシステムの種類です。

しかし、我々は実際に自律的発明が可能なAIを望んでいます。既知のタスクを自動化することで止まりたくありません。人類の最も困難な課題に取り組み、科学的進歩を加速できるAIを望んでいます。それがAGIの意味するところです。

そしてそれを達成するために、我々には新しい標的が必要です。流動知能そのもの、適応し発明する能力を標的にすることを停止する必要があります。

一つのAGIの定義は自動化のみを包含します。ですから、それは経済生産性を向上させます。明らかに、それは極めて価値があります。おそらく失業も増加させるでしょう。

しかし、他の定義は発明と科学のタイムラインの加速を解き放ちます。そして、本当に気にかけていることを測定することによって、我々は進歩を遂げることができるでしょう。

ですから、我々にはより良い標的が必要です。より良いフィードバック信号が必要です。それはどのようなものでしょうか。

AIシステムにおける知能を測定する方法を作成しようとする私の最初の試みは、ARCベンチマークでした。私は2019年にARC1をリリースしました。それは機械と人間のためのIQテストのようなものです。

ARC1ベンチマークの詳細

ARC1は、ここにあるような1,000のタスクを含んでいます。そして各タスクは独特です。これは、ARCのために詰め込み勉強をすることができないことを意味します。記憶された知識ではなく、汎用知能を使用して、各タスクをその場で理解しなければなりません。

もちろん、任意の問題を解決するには常にある程度の知識が必要です。そして、ほとんどのベンチマークの場合、必要な知識事前情報は通常暗黙的に残されています。ARCの場合、我々はそれらを明示的にしました。

ですから、すべてのARCタスクは、コア知識事前情報の上に完全に構築されています。これは、オブジェクト性、基本的な物理学、基本的な幾何学、位相幾何学、計数などのことです。4歳の子供がすでに習得している概念です。

そして、ARCを解決するには非常に少ない知識が必要であり、それは非常に特化されていない知識です。ですから、ARCを解決するために準備する必要はありません。そして、ARCを独特にしているのは、純粋にパターンを記憶することによってそれを解決することができないことです。それは本当に流動知能を実演することを要求します。

一方、そこにある他のほぼすべてのベンチマークは、固定された既知のタスクを標的にしています。ですから、それらは実際に記憶のみによって解決またはハックされることができます。それがARCを人間にとって非常に簡単にし、AIにとって非常に困難にしているものです。

人間の子供が本当に良いパフォーマンスを発揮できるが、そこにある最も高度で最も洗練されたAIモデルが苦労するような問題を見るとき、それは我々が何かを見逃していること、新しいアイデアが必要であることを告げる大きな赤い点滅ライトのようなものです。

覚えておいてほしいことの一つは、ARCはシステムがすでにAGRかどうかを教えてくれるものではないということです。それはその目的ではありません。ARCは本当に、我々がAGIへの道のりで最も重要な未解決のボトルネックと見ているものに向けて、研究コミュニティの注意を向けるツールです。

ですから、ARCは目的地ではなく、ARCを解決することが目標ではありません。ARCは本当に正しい方向を指す矢に過ぎません。

そして、ARCは事前訓練スケーリングパラダイムに完全に抵抗してきました。事前訓練されたベースLLMの50,000倍のスケールアップの後でも、ARCでのそれらのパフォーマンスはゼロ近くにとどまりました。

ですから、我々は流動知能が事前訓練のスケールアップから出現しないと決定的に結論づけることができます。真の流動知能を実演するためには、絶対にテスト時適応が必要です。

そして重要なことに、昨年テスト時適応の到来が起こったとき、ARCは当時、起こっていた深遠な変化について明確な信号を提供した唯一のベンチマークでした。他のベンチマークは飽和していました。ですから、それらは真のIQの増加と単なる力任せのスケーリングを区別することができませんでした。

ARC2への進化

ですから、今あなたはこのグラフを見て、明らかにこの時点でARC1も飽和していると思っているでしょう。では、これは我々が今人間レベルのAIを持っていることを意味するのでしょうか。まだそうではありません。

このグラフで見ているのは、ARC1がバイナリテストだったということです。それは流動知能の最小限の再現でした。ですから、それは本当に2つの可能なモードのみを与えます。流動知能がない場合、その場合ベースLLMのようにゼロ近くでスコアするか、ゼロではない流動知能がある場合、その場合例えばOpenAIのo3モデルのように即座に非常に高いスコアを出すかです。

もちろん、この部屋にいる皆さんの誰もが100％のノイズ距離内でスコアするでしょう。ですから、ARCは飽和します。ARC1は人間レベルの流動知能を大きく下回って飽和します。

そして今、我々により有用な帯域幅と人間の知能とのより良い比較を提供する、より良いツール、より敏感なツールが必要です。そのツールがARC2であり、今年3月にリリースしました。

2019年に、ARC1は深層学習パターンに挑戦することを意図していました。そのパターンでは、モデルは静的推論に使用される大きなパラメータ曲線です。そして今日、ARC2は推論システムに挑戦します。それはテスト時適応パターンに挑戦します。

ベンチマーク形式は依然として同じです。構成的汎化を調査することにより大きな焦点があります。ですから、タスクは依然として人間にとって非常に実行可能ですが、それらはずっと洗練されています。その結果、ARC2は簡単に力任せで解決できません。

実際には、これが意味することは、ARC1では、多くのタスクについて、あまり考える必要なくそれを見て即座に解決策を見ることができました。ARC2では、すべてのタスクが何らかのレベルの意図的な思考を必要としますが、それでも人間にとって非常に実行可能のままです。

我々はこれを知っています。なぜなら、サンディエゴで数日間にわたって400人を直接対面でテストしたからです。我々はここで物理学の博士号を持つ人々について話しているのではありません。我々は無作為の人々、Uberドライバー、UCSD学生、失業者を募集しました。基本的に副収入を得ようとしている誰でもです。

そして、ARC2のすべてのタスクは、それを見た人々の少なくとも2人によって解決されました。そして各タスクは平均約7人によって見られました。ですから、これが教えてくれることは、多数決を持つ10人の無作為の人々のグループがARC2で100％のスコアを出すだろうということです。

ですから、我々はこれらのタスクが事前の訓練なしに普通の人々によって完全に実行可能であることを知っています。

では、AIモデルはどの程度うまくやるのでしょうか。GPT4.5、Llama 4のようなベースモデルを取ると、それは簡単です。彼らは0％を得ます。純粋に記憶によってこれらのタスクを行う方法は単純にありません。

次に、静的推論システム、つまりタスクのために生成する単一の思考連鎖を使用するシステムを見ると、それらはそれほど良くありません。それらは1から2％のオーダーでやります。ですから、ゼロのノイズ距離内で非常に多くです。

ですから、これが教えてくれることは、ARC2を解決するために、本当にテスト時適応が必要だということです。意味のあるゼロを上回るすべてのシステムはTTAを使用していますが、それでも彼らは依然として人間レベルを大きく下回っています。

ですから、ARC1と比較して、ARC2はテスト時適応システムのはるかに細かい評価を可能にします。例えばo3のようなシステムです。そして、o3やそれに似た他のシステムはまだ完全に人間レベルではないことが分かります。

私の見解では、この部屋にいる誰もができる、人間にとって簡単だがAIがどれだけコンピュートを与えられても理解できないタスクを思いつくのが簡単である限り、我々はまだAGIを持っていません。

そして、我々がAGIを持つことに近づいているのを知るのは、そのようなタスクを思いつくことがますます困難になるときです。我々は明らかにまだそこにいません。

そして明確にするために、私はARC2が最終的なテストだと思っていません。我々はARC2で止まるつもりはありません。我々はARC3の開発を開始しており、ARC3はARC1と2の入力出力ペア形式からの大きな逸脱です。

ARC3：エージェンシーの評価

我々はエージェンシー、探索する能力、インタラクティブに学習する能力、目標を設定し、目標を自律的に達成する能力を評価しています。ですから、あなたのAIは、コントロールが何をするのか分からない全く新しい環境に落とされます。目標が何なのか分からない。ゲームプレイメカニクスがどこにあるのか分からない。ゲームで何をすることになっているのかも含めて、すべてをその場で理解しなければなりません。

そして、すべてのゲームは完全に独特です。それらはすべて、ARC1と2のように、コア知識事前情報の上にのみ構築されています。ですから、我々はこのような何百ものインタラクティブ推論タスクを持つでしょう。

そして、効率性はARC3の設計の中心です。ですから、モデルはタスクを解決できるかどうかだけでなく、どれだけ効率的に解決するかで評価されます。そして我々は、モデルが取ることができるアクションの数に厳格な制限を設けています。我々は人間で観察するのと同じレベルのアクション効率性を標的にしています。

ですから、我々は2026年初頭にこれをローンチする予定です。そして来月7月には、それで遊び始められるよう開発者プレビューをリリースする予定です。

真の知能に必要なもの

ARC2を解決するのに何が必要でしょうか。我々は今日、それからまだ非常に遠いです。その後ARC3を解決し、我々はそれからさらに遠いです。おそらく将来的にはARC4を解決し、最終的にAGIに到達します。我々はまだ何を見逃しているのでしょうか。

私は、知能は絶えず変化する未来に直面するために過去を運用化する効率性であると言いました。しかし、もちろん、あなたが直面する未来が過去と本当に何の共通点もなく、これまで見たことのあるものとの共通基盤がなかったら、どれだけ知的であってもそれを理解することはできないでしょう。

しかし、ここがポイントです。何も本当に完全に新しいものはありません。あなたの周りの宇宙は、すべてが互いに似ている多くの異なるものでできています。一つの木は別の木に似ており、それはあなたのニューロンにも似ており、電磁気学は流体力学に似ており、それはまた重力にも似ています。

ですから、我々は同型写像に囲まれています。私はこれを万華鏡仮説と呼んでいます。世界についての我々の経験は、終わりのない新規性と複雑性を特徴とするように思えます。しかし、それを記述するのに必要な独特の意味の原子の数は実際には非常に小さいのです。

そして、あなたの周りのすべては、これらの原子の再組み合わせです。そして知能は、多くの異なる状況、多くの異なるタスクにわたって再利用できるこれらの意味の原子を特定するために、あなたの経験をマイニングする能力です。

これには、不変性、構造、繰り返されるようにみえる原理を特定することが含まれます。そして、これらの構成要素、これらの原子は抽象化と呼ばれます。

新しい状況に遭遇するたびに、状況に適応した全く新しいモデルを作成するために、あなたのコレクションからの抽象化をその場で再組み合わせすることによってそれを理解するでしょう。

知能の実装における2つの要素

ですから、知能を実装するには2つの重要な部分があります。まず、抽象化取得があります。例えばデータのフィードから、あなたの過去の経験から、再利用可能な抽象化を効率的に抽出できるようになりたいです。

そして、その場での再組み合わせがあります。現在の状況に適合するモデルに、これらの構成要素を効率的に選択し再組み合わせできるようになりたいです。

そして、ここでの効率性への強調は極めて重要です。あなたがどれだけ知的であるかは、何かができるかどうかだけによって決定されるのではありません。それは、過去の経験から良い抽象化をどれだけ効率的に取得できるか、新規性をナビゲートするためにそれらをどれだけ効率的に再組み合わせできるかによって決定されます。

ですから、単純なスキルを取得するのに何十万時間も必要なら、あなたはあまり知的ではありません。または、チェス盤上のすべての動きを列挙して最良の動きを見つける必要があるなら、あなたはあまり知的ではありません。

ですから、知能は高いスキルを実演することだけではありません。それは本当に、これらのスキルを取得し展開する効率性です。それはデータ効率性とコンピュート効率性の両方です。

なぜ単なるスケーリングでは不十分だったか

この時点で、なぜ単純にAIモデルをより大きくし、より多くのデータでそれらを訓練することが自動的にAGIに導かなかったのかが分かり始めるでしょう。我々にはいくつかのものが欠けていました。

まず、これらのモデルにはその場での再組み合わせを行う能力が欠けていました。ですから、訓練時には、彼らは多くを学習していました。多くの有用な抽象化を取得していましたが、テスト時には、彼らは完全に静的でした。事前に記録されたテンプレートを取得し適用するためにのみそれらを使用できました。

そして、それはテスト時適応が対処している重要な問題です。TTAは我々のAIに再組み合わせ能力を追加します。そして、それは実際に、我々をAGIにずっとずっと近づける巨大な前進です。

それは唯一の問題ではありません。再組み合わせは欠けている唯一のものではありません。他の問題は、これらのモデルが依然として信じられないほど非効率的であることです。

例えば勾配降下法を取ると、勾配降下法は単純な抽象化を蒸留するために膨大な量のデータを必要とします。人間が必要とするより約3から4桁多くのデータです。

そして、再組み合わせ効率性を見ると、最新の最先端テスト時適応技術でさえ、人間レベルでARC1を解決するのに数千ドルのコンピュートが必要です。そして、それはARC2にさえスケールしません。

ここでの根本的な問題は、深層学習モデルには構成的汎化が欠けていることです。そして、それがARC2が測定しようとしているものです。

2種類の抽象化

その理由は、抽象化には複数の種類があるからです。そして、これは本当に重要です。私は、知能はデータから抽象化をマイニングしてそれらを再組み合わせすることについてだと言いました。本当に2種類の抽象化があります。タイプ1とタイプ2です。それらは互いに非常に似ています。それらは互いを映し出しています。

ですから、両方とも物事を比較し、特定の詳細を削除することによって個々のインスタンスを共通のテンプレートにマージすることについてです。基本的に、一群のものを取り、それらを比較し、重要でない詳細を削除すると、残るのは抽象化です。

2つの間の重要な違いは、一つは連続ドメインで動作し、他方は離散ドメインで動作することです。

タイプ1または値中心の抽象化は、連続距離関数を介して物事を比較することについてです。そして、それは知覚、パターン認知、直感、そしてもちろん現代の機械学習の背後にある抽象化の種類です。

タイプ2またはプログラム中心の抽象化は、離散プログラム、つまりグラフを比較することについてです。それらの間の距離を計算しようとする代わりに、正確な構造マッチングを探すことになります。正確な同型写像、部分グラフ同型写像を探すことになります。

そして、これは人間の推論の多くを基礎としているものです。それはまた、ソフトウェアエンジニアがコードをリファクタリングするときにやることでもあります。ですから、ソフトウェアエンジニアが抽象化について話すのを聞くと、彼らはこの種の抽象化を意味しています。

2種類の抽象化、両方とも類推作成によって駆動されます。価値類推またはプログラム類推のいずれかです。そして、すべての認知は、これらの2つの形式の抽象化の組み合わせから生じます。

それらを覚えることができます。左脳対右脳のメタファーを使って。知覚、直感のための半分、そして推論、計画、厳密さのためのもう半分です。

Transformerはタイプ1抽象化において優れています。タイプ1が効果的なすべてのこと、知覚、直感、パターン認知を行うことができます。それらはすべてうまく機能します。ですから、その意味で、TransformerはAIにおける主要な突破口ですが、それらは依然としてタイプ2には適していません。

そして、これが、これらのモデルの一つを訓練して、リストをソートしたり、トークンの列として提供された数字を加算したりするような非常に単純なタイプ2のことをさせるのに苦労する理由です。

プログラム探索による発明

では、どのようにしてタイプ2に到達するのでしょうか。純粋に連続的な補間された空間を勾配降下で操作するのとは対照的に、離散プログラム探索を活用しなければなりません。

探索は、単なる自動化を超えた発明を解き放つものです。何らかの発明、何らかの創造性が可能なすべての既知のAIシステムは、離散探索に依存しています。

90年代には、すでに巨大な探索を使用して新しいアンテナ設計を思いつくことをしていました。またはAlphaGoのムーブ37のような離散探索を取ることができます。より最近では、DeepMindのAlphaFoldシステム、すべて離散探索システムです。

深層学習は発明しませんが、探索は発明します。

では、離散プログラム探索とは何でしょうか。それは基本的に、何らかの言語、何らかのDSLから取られたオペレータのグラフにわたる組み合わせ探索です。

それをよりよく理解するために、プログラム合成と、あなたがすでに知っている機械学習技術との間でアナロジーを描こうとすることができます。

機械学習では、あなたのモデルは微分可能なパラメータ関数です。ですから、それは曲線です。プログラム合成では、それは離散グラフ、何らかの言語からの象徴的オペレータのグラフになります。

MLでは、モデルを作成する方法である学習エンジンは勾配降下です。これは非常にコンピュート効率的です。ちなみに、勾配降下はデータに適合するモデルを非常に迅速に、非常に効率的に見つけることを可能にします。

プログラム合成では、学習エンジンは組み合わせ探索であり、これは極めてコンピュート非効率的です。明らかに、機械学習では、あなたが遭遇する重要な障害はデータ密度です。モデルを適合させるために、データ多様体の密なサンプリングが必要です。多くのデータが必要です。

プログラム合成は正反対です。プログラム合成は極めてデータ効率的です。わずか2つまたは3つの例を使用してプログラムを適合させることができます。しかし、そのプログラムを見つけるために、潜在的なプログラムの膨大な空間をふるいにかけなければなりません。そして、その空間のサイズは問題の複雑さと組み合わせ的に増大します。ですから、この組み合わせ爆発の壁に遭遇します。

私は先ほど、知能は2つの形式の抽象化の組み合わせであると言いました。タイプ1とタイプ2です。そして、私は本当に、そのうちの一つだけにオールインするなら、タイプ1のみまたはタイプ2のみにオールインするなら、あまり遠くに行かないと思います。

本当にそれらの潜在能力を解き放ちたいなら、それらを一緒に組み合わせなければならないと思います。そして、それが人間の知能が本当に得意としていることです。それが本当に我々を特別にしているものです。我々は知覚と直感を明示的な段階的推論と組み合わせます。我々は思考、行動のあらゆる場所で両方の形式の抽象化を組み合わせます。

例えば、チェスをプレイしているとき、あなたはタイプ2を使用しています。心の中で段階的にいくつかの潜在的な動きを展開するときに計算するときです。しかし、もちろん、可能なすべての動きに対してこれを行うつもりはありません。なぜなら、それらの数が多すぎるからです。よね。いくつかの異なるオプションに対してのみそれを行うつもりです。よね。ここでは、ナイト、クイーンを見ることになります。

そして、これらのオプションを絞り込む方法は、直感を介して、ボード上のパターン認識を介してです。そして、あなたは非常に経験を通じてそれを構築します。よね。あなたは無意識のうちに過去の経験をマイニングしてこれらのパターンを抽出しており、それは非常にタイプ1です。ですから、あなたはタイプ1の直感を使用してタイプ2の計算を扱いやすくしています。

タイプ1とタイプ2の融合

では、タイプ1とタイプ2の間の融合はどのように機能するのでしょうか。重要なシステム2技術は、プログラムの空間にわたる離散探索であり、あなたが遭遇するブロッカーは組み合わせ爆発です。

一方、重要なシステム1技術は、曲線上の曲線適合と補間です。ですから、多くのデータを取り、それを何らかの補間多様体に埋め込んで、対象空間について高速だが近似的な判断コールを可能にします。

そして、大きなアイデアは、これらの高速だが近似的な判断コールを活用して組み合わせ爆発と戦い、プログラム探索を扱いやすくすることです。

これを理解するための簡単なアナロジーは、地図を描くことでしょう。ですから、例えば地下鉄システムでの経路探索のような、通常組み合わせ探索を必要とする離散オブジェクトと離散関係の空間を取り、これらのオブジェクトを潜在空間に埋め込みます。そこでは、これらの素晴らしい関係について高速だが近似的な推測をするために連続距離関数を使用できます。

そして、これにより探索をしながら組み合わせ爆発を抑制することが可能になります。

新しいAIシステムの全体像

これが全体像です。これが我々が現在取り組んでいるシステムです。AIは、新しいタスクにソフトウェアを書くことによってアプローチするプログラマーのようなシステムに向かって動いています。

新しいタスクに直面したとき、あなたのプログラマーのようなメタ学習者は、タスクに適応したプログラムまたはモデルをその場で合成します。そして、このプログラムは、例えば知覚のようなタイプ1サブ問題のための深層学習サブモジュールと、タイプ2サブ問題のためのアルゴリズムモジュールをブレンドします。

そして、これらのモデルは、プログラム空間の構造についての深層学習ベースの直感によってガイドされる離散プログラム探索システムによって組み立てられます。

そして、この探索プロセスはゼロから行われるのではありません。それは、抽象化の再利用可能な構成要素のグローバルライブラリを活用するつもりです。そして、そのライブラリは、入ってくるタスクから学習しながら絶えず進化しています。

ですから、新しい問題が現れたとき、システムは関連する構成要素を求めてこのライブラリを探索するつもりです。そして、新しい問題を解決する過程で、新しい構成要素を合成するたびに、それをライブラリに戻すアップロードをするつもりです。

ソフトウェアエンジニアとして、自分の作業のために有用なライブラリを開発したら、他の人がそれを再利用できるようにGitHubに置くのと同じようにです。

そして、ここでの究極の目標は、完全に新しい状況に直面できるAIを持つことであり、それは豊富な抽象化ライブラリを使用して、人間のソフトウェアエンジニアが既存のツールとライブラリを活用して新しい問題を解決するためのソフトウェアを迅速に作成できるのと同じように、機能するモデルを迅速に組み立てるつもりです。

そして、このAIは、抽象化のライブラリを拡張し、プログラム空間の構造についてのその直感を洗練することの両方によって、時間とともに自分自身を改善し続けるつもりです。

Tendiaでの取り組み

このシステムが、我々が新しい研究ラボであるTendiaで構築しているものです。我々がTendiaを始めた理由は、科学的進歩を劇的に加速するためには、独立した発明と発見が可能なAIが必要だと信じているからです。

知識の最前線を拡大できるAI、その中でのみ動作するのではないAIが必要です。そして、我々は本当に、新しい形のAIがこの加速の鍵になると信じています。

深層学習は自動化において優れています。自動化にとって信じられないほど強力ですが、科学的発見にはそれ以上のものが必要です。そして、Tendiaでの我々のアプローチは、このプログラマーのようなメタ学習者を構築するために、深層学習ガイド付きプログラム探索を活用することです。

そして、我々の進歩をテストするために、我々の最初のマイルストーンは、ARCについて全く何も知らないことから始まるシステムを使用してARCを解決することです。そして、あなたは究極的に、人間の研究者に力を与え、科学のタイムラインを加速するのを助けるために科学のための我々のシステムを活用したいと思います。