François Cholletは、ARK Prizeの創設者であり、フロンティアAI研究における新しいパラダイムを探求するラボNDIAを設立した人物である。彼は現在のAIの進展を理解し、今後の方向性を見通すうえで世界で最も優れた専門家の一人とされている。ショレは、ディープラーニングのスケーリングだけではAGIに到達できないと主張し、シンボリックモデルに基づく全く新しい機械学習の分岐を構築している。彼の開発したARKベンチマークは、AIシステムの流動的知性を測定する指標として業界で注目を集めており、V1からV3へと進化を続けている。AGIの実現時期については2030年前後と予測しており、現在のLLMスタックとは根本的に異なるアプローチの重要性を強調している。

AGIの到来と新しいパラダイムの必要性
2030年頃にはAGIが実現するだろうと考えています。その頃にはARK 6かARK 7をリリースしているかもしれません。AIの進歩を止めることはできないと思います。もう手遅れです。ですから次の質問は、AIの進歩が現実のものとなった今、それをどう活用するか、どうレバレッジをかけるか、どう波に乗るかということです。
本日は、ARK Prizeの創設者であるFrançois Cholletさんにお越しいただきました。ARK Prizeは、ARK AGIベンチマークを解決するための世界的なコンペティションです。彼の最新プロジェクトはNDIAで、フロンティアAI研究における新しいパラダイムを探求するラボです。
フランソワさんは、現在のAIの状況と今後の方向性を理解するうえで世界で最も優れた専門家の一人です。本日はご参加いただきありがとうございます。そしてARK AGI V3のローンチおめでとうございます。
お招きいただきありがとうございます。ここに来られてとても興奮しています。AIについて語るには非常にエキサイティングな時期ですね。
NDIAの目指すもの
フランソワさん、NDIAについて少し教えてください。具体的にはどのようなものですか?何を達成しようとしているのですか?
NDIAは新しいAGI研究ラボです。私たちは非常に異なるアイデアを試しています。私たちの目標は基本的に、ディープラーニングとは違って、最適に近い機械学習の新しい分岐を構築することです。
私たち全員が今、コードで起こっていることに魅了されています。私は今朝、40,000スターを獲得したという、ある種のバイラルな瞬間を経験しました。GitHubでのことです。これは今や最大級のオープンソースプロジェクトの一つで、コントリビューターから100以上のプルリクエストに対応しなければなりません。あなたはこの話をするのに最適な人物の一人だと思います。なぜなら、あなたは文字通り、全く異なる道筋を考え出しているからです。
その通りです。NDIAで私たちが行っているのは、プログラム合成の研究です。プログラム合成について話すと、よく「コード生成をしているのですか?コーディングエージェントの代替を構築しているのですか?」と聞かれますが、実際には全く違います。
プログラム合成という新しいアプローチ
私たちはそれよりもはるかに低いレベルで作業しています。実際に行っているのは、ディープラーニング自体の代替となる機械学習の新しい分岐を構築することです。コーディングエージェントではありません。コーディングエージェントは、スタックの最上層にある非常に高レベルな部分です。私たちは実際に、異なる基盤の上にスタック全体を再構築しようとしています。
つまり、パラメトリック学習やディープラーニングとは全く異なる新しい学習基盤を構築しているのです。機械学習の問題に立ち返ると、入力データとターゲットデータがあり、入力をターゲットにマッピングする関数を見つけようとしています。そしてそれが新しい入力に対しても一般化することを期待しています。
ディープラーニングを使っている場合、関数やモデルとして機能するパラメトリック曲線があり、勾配降下法を使ってその曲線のパラメータをフィッティングしようとします。基本的にはこれが私たちのやっていることですが、パラメトリック曲線をシンボリックモデルに置き換えています。このモデルはできるだけ小さく設計されています。データを説明し、何が起こっているかをモデル化するための、可能な限り最もシンプルなモデルです。
もちろん、これを行う場合、勾配降下法は適用できません。ですから私たちは「シンボリック降下法」と呼ぶものを構築しています。これは勾配降下法のシンボリック空間における等価物です。このアイデアは、入力されたデータの極めて簡潔なシンボリックモデルを提供する新しい機械学習エンジンを構築し、それをスケールさせることです。
今日機械学習で行っているすべてのことを、将来的にはシンボリックモデルを使って、最適性にはるかに近い形で実行できるようになるはずです。最適性に近いというのは、モデルを得るために必要なデータがはるかに少なくて済むという意味です。モデルは非常に小さいため、推論時にはるかに効率的に動作します。
そして小さいため、はるかに良く一般化し、より良く構成されます。最小記述長の原理によれば、データに対して最も一般化する可能性が高いモデルは最も短いものです。パラメトリック学習を行っている場合、このようなモデルは見つけられないと思います。シンボリックアプローチを試す必要があります。
それは魅力的ですね。
なぜ代替アプローチを探求すべきか
業界の他の部分は、何年も前に設定されたアプローチに何十億ドルも注ぎ込んでいます。現在のアプローチにさらにお金を投入し続けるのではなく、代替アプローチを探求することが正しい理由について、説明していただけますか?
今では誰もがLLMスタックの上に構築しています。それは理にかなっています。なぜなら、実際にリターンが得られているからです。実際に機能しているので、誰もが現在最も生産的に見える道を進むのは非常に理にかなっているように思えます。
しかし実際には、全員が同じことに取り組むのは逆効果です。個人的には、50年後の機械学習やAIがまだこのスタックの上に構築されているとは思いません。これは非常に価値のあるスタックで、もしかしたらAGIにさえ到達させるかもしれませんが、あるべき姿ほど効率的ではありません。
AIの世界が時間とともに最適性に向かって進化していくのは避けられないと思います。ですから私は、最適なAIの基盤を今日構築することで、直接最適性に飛躍しようとしているのです。しかし一般的に言って、私たちのビジョンは非常に野心的で、成功すると言っているわけではありません。成功する確率は10%から15%程度かもしれませんが、それでも試す価値は十分にあります。
一般的に、リスナーの皆さんの中で、大きなアイデアを持っていて、成功の確率は非常に低いけれども、うまくいけば大きなインパクトがあり、他の誰も取り組んでいないようなことがあれば、人気のあることでもなく、あなたがやらなければ誰もやらないようなことであれば、チャンスを試すべきです。それが基本的に私たちの状況です。この状況にある場合は、チャンスを試して取り組むべきです。
それはY Combinatorのミッション声明のようなものですね、あなたが今言ったことは。
そうですね。リピートしますが、重要な理由は、私たちがやらなければ他の誰もやらないからです。ですから試す価値があります。たとえ成功しなくても、試す価値があります。
コーディングエージェントの成功について
特にLLMスタックの上に構築されたコーディングエージェントの成功は、あなたを驚かせましたか?特に過去6ヶ月ほどで?
はい、絶対に。多くの人を驚かせたと思います。私も確実に驚きました。コーディングエージェントがなぜこれほどうまく機能し始めているかを見ると、それはコードが検証可能な報酬シグナルを提供するからです。
今私たちは、提案するソリューションが形式的に検証でき、報酬シグナルを実際に信頼できる問題であれば、どんな領域でも、単なるモデルの推測ではなく、現在の技術、LLMベースのスタックで完全に自動化できるという状況にあると思います。コードは最初に陥落する領域のようなものですが、将来的には他にも多くの領域があるでしょう。
数学も同じ理由で、今後数年間で革命を見ることになると思います。ドメインが検証可能な報酬を提供するからです。
形式的に検証されたドメインの課題は、どうにかしてドメインを検証可能にしなければならないことです。つまりそれがトリックですね。コードは非常に自然で、テストができて、バグがあって、コンパイルできるなどです。数学も同様で、すべての定理と証明が機能します。自然に形式的に検証されていない領域から数段離れると、より曖昧になってくると思います。そこでは報酬を検証可能にする何らかの関数を考え出す必要があります。英語や完璧なエッセイを書くような非常に曖昧なものでは、どうやって形式的に検証可能にするのですか?
検証可能な領域と検証不可能な領域
そうですね。エッセイを書くことは、検証不可能な領域の典型的な例です。ですから、推論モデルやこの種のドメインでのベースモデルの進歩は非常に遅くなるでしょう。なぜなら、私たちが使用しているスタック、LLMスタックは、トレーニングデータに非常に依存しているからです。
基本的にはトレーニングデータを操作可能にしているだけです。エッセイを書く場合、トレーニングデータは人間の専門家が回答にアノテーションを付けたものから来ており、それはコストがかかります。ですから、非常に遅い進歩を見ることになるでしょう。もしかしたら停滞するかもしれません。
しかし、コードのような検証可能な領域では、大きなアンロックは、人々がポストトレーニングのためのコードベースのトレーニング環境を作り始めたときでした。検証シグナル、検証信号は、ユニットテストなどによって提供されます。
つまり、モデルは単に人間が提供したアノテーションから作業しているだけではありませんでした。実際に独自のことを試し、答えを検証し、そのプロセスでさらに多くのトレーニングデータを生成していました。問題空間のはるかに密なカバレッジです。そして、答えが正しいか間違っているかだけでなく、実行トレースのモデルを構築し始めました。
モデルが実行モデルを組み込み始めることができたのです。人間のプログラマーがコードを見るときと同じように、彼らはある種、頭の中でコードを実行しています。変数の値などを追跡しています。これもモデルが今やろうとしていることで、これが今非常にうまく機能している理由です。完全に検証可能な非常に形式的な環境で作業しているため、これが可能なのです。エッセイではできません。法律やその他多くの問題でもできません。
知性の定義とARKの歴史
あなたが知性をどう定義し、それをどう測定するかという点が本当に気に入っています。それはARKの歴史を共有していただくことにも繋がりますね。
私の一般的知性の定義ですが、業界の多くの人々は最近、AGIは経済的に価値のあるタスクのほとんどを自動化できるシステムになると言っています。私にとって、その定義は自動化に関するものであり、知性についてではなく、一般的知性についてではありません。
私の定義では、AGIは基本的に、あらゆる新しい問題、新しいタスク、新しい領域にアプローチし、それを理解し、モデル化し、人間と同じ程度の効率で能力を獲得できるシステムになります。つまり、基本的に人間が必要とするのと同じ量のトレーニングデータとトレーニング計算が必要になります。これは非常に少ないです。人間は本当にデータ効率が良いのです。
ですから、一般的知性とは、人間が潜在的に対処できるタスクと同じ範囲において、人間レベルのスキル獲得効率です。
最初のAGIの定義、つまり経済的に有用な仕事のほとんどを自動化するという定義を、あなたの定義よりも先に達成することは可能だと思いますか?
絶対に。私たちが今進んでいる軌道はまさにそれだと思います。そして、原理的には現在の技術で、検証可能な報酬がある領域であれば、人間レベル以上で完全に自動化できることは既に真実だと思います。コードが最初のものです。
そして、人間レベルの学習効率を任意のタスクで実現するAGIを解明することは、おそらく異なる種類の技術、異なるマインドセット、異なるアプローチが必要になるでしょう。
LLMが人間と同じサンプル効率を持つように曲げることができると思いますか?それとも、それは根本的に不可能で、新しいアプローチが必要で、それがあなたが解決しようとしていることだと思いますか?
計算と最適性について
十分な計算があれば、すべてが他のすべてのように見え始めます。計算は偉大なイコライザーです。すべてのアプローチが同じように見え始めます。原理的には、LLMスタックの上にAGIに非常に似たものを構築することは可能だと思います。しかし、それはLLM自体ではありません。この新しい層、おそらく1つの層だけでなく、数層上になるでしょう。しかし、LLMの上に構築できます。なぜなら、LLMは一種のコンピュータだからです。
しかし、これは間違ったことだと信じています。非常に非効率的だからです。AI研究は、効率性だけでなく、実際には時間とともに最適性に向かって進化しなければならないと思います。そしてこの理由から、数十年後の未来のAIは、推論モデルの上にこのハーネスを重ねたベースモデルではなく、はるかに低レベルなものになるでしょう。
ディアナの質問に対して、ARKを実際にどのように設計したか、そしてそれがなぜ良い指標なのかについて話していただけますか?
私はディープラーニングを非常に長い間やってきました。当初、私の考え方は、ディープラーニングがすべてを実行できるというものでした。
あなたは他のすべてのフレームワークが人気になる前に、Kerasのクリエイターでしたね。
その通りです。実際、私は2014年に自然言語処理のためのモデルをデプロイしていました。その仕事から、実際にこのオープンソースライブラリの開発を始めました。それを正確に11年前、2015年3月にリリースしました。
それがKerasで、人気が出て、その後、Kerasを始めた研究よりもフレームワーク自体の作業をするようになりました。本当に良いプロダクトマーケットフィットがあったからです。
2015年、2016年頃の私の考えは、ディープラーニングが非常に一般的で、ディープラーニングで何でもできる、他に何も必要ないというものでした。チューリング完全でした。
私の考えは基本的に、ディープラーニングは微分可能プログラミングだというものでした。ソフトウェアで行うことは何でも、原理的には適切な入力と出力でディープラーニングモデルをトレーニングして同じことをさせることができます。
2016年に、私はGoogle Brainで推論問題、特に一階述語論理の問題、定理証明などでディープラーニングモデルを訓練する研究を行っていました。
そして、勾配降下法ではクレスピングスタイルのアルゴリズムをエンコードすることができないことがわかり始めました。モデルがこれらのアルゴリズムを表現できないからではありませんでした。勾配降下法がそれらを見つけられなかったからです。
問題はディープラーニングがチューリング完全でないということではありませんでした。問題は勾配降下法でした。勾配降下法は一般化可能なプログラムを見つけることができませんでした。代わりに、入力トークンのシーケンスに対する過学習パターンマッチングを行うことになってしまいました。
人々は、それが今起こっていることだと主張できると思います。今起こっていることの少し高レベルなバージョンです。
ARKベンチマークの誕生
はるかに多くのデータがあるので、過学習のようには感じません。データがはるかに多くの分布を持っているからです。
はるかに多くのデータがあり、また今日のモデルはデータに対してはるかに圧縮的だと思います。それが彼らがより良く一般化する理由です。
すべてのモデルは間違っているが、一部のモデルは有用であるということですね。そして、あなたの方法が正しいモデルを見つけるかもしれないということを聞いているように思います。
その通りです。そこからアイデアが生まれました。2016年、2017年当時、私は、このアイデアを捉えるためのベンチマークが必要だと思いました。
プログラム合成ベンチマークが必要だと。そして、私のメンタルモデルはImageNetでした。推論のImageNetを作ろうと思いました。それで、2017年頃にいくつかのアイデアをブレインストーミングし始めました。多くの異なることを探求しました。
セルラーオートマトンを使った設定で作業しようとしました。モデルにセルラーオートマトンの出力を見せて、それを生成したプログラムを再作成しなければならないようなものです。そして最終的に、2018年初頭にARK AGIフォーマットに落ち着きました。
これはサイドプロジェクトとして行っていました。主なプロジェクトはGoogleでKerasを開発することでした。あまり速く進んでいませんでした。2018年夏にARKタスクエディタを書き、その後、手作業で多くのタスクを作り始めました。約1年後には10,000のタスクを作成しました。
それで、これが何であるか、大きなアイデアが何であるか、スキル獲得効率としての知性について説明する論文を書き、2019年にすべてを公開しました。
並行して、GPT-3が2020年に登場し、2022年末のChatGPTの瞬間まで兆候を示し始め、業界はそれで飛躍しました。これはベンチマークの一つで、本当に性能が悪く、非常に無名でした。
多くの人がそれについて知っていたとは思いません。主にニッチな研究コミュニティで、おそらくあなたの論文を読んだ人たちです。
プログラム合成に取り組んでいる人々はそれについて知っていました。しかし、ディープラーニングやLLMのスケールアップに取り組んでいる多くの人々は、それをあまり気にしていませんでした。その理由の一部は、LLMがベンチマークでうまく機能しなかった、あるいは全く機能しなかったからです。
研究コミュニティの注目を集めるためには、ベンチマークが少し機能し始める必要があります。難しすぎると、人々はそれを却下してしまいます。
明らかにあなたは時代を先取りしていました。なぜなら、もうARK AGI 1ではなくなっていて、2は飽和に達しつつあるからです。
その通りです。
そして3が今出ています。
はい。
ARK AGIが業界にとって非常に良い指標であったことの素晴らしい点は、推論モデルが登場した2025年まで、V1は長い間全く機能しなかったからです。大きな変化が起こったときのバロメーターとして機能してきました。
ベンチマークの進化
絶対に。ARK V1、そしてV2でのパフォーマンスを見ると、ベースモデルはV1で非常に低いスコアを記録していました。基本的に10%未満です。オリジナルのGPT-3がゼロスコアだったのは事実ですが、今日の最新のベースモデルでも同じです。3月現在でもそうです。
推論なしで?
推論なしで、はい。ベースモデルです。V1でのベースモデルのパフォーマンスは、その間に50,000倍スケールアップしたにもかかわらず、非常に低いままでした。
これは本当に、事前トレーニングだけをスケールアップしても、ベンチマークをクラックするには十分ではないことを示していました。モデルが流動的知性を持っていることを示すには十分ではありませんでした。
そして、モデルがARK 1で良いパフォーマンスを発揮し始めた瞬間は、特にOpenAIのO1、そして03モデルといった最初の推論モデルでした。ちなみに、これらはARKでOpenAIによってデモンストレーションされました。なぜなら、これは1つの未飽和の推論ベンチマークで、このモデルが異なっていること、これまで見たことのない新しい能力を持っていることを本当に示していたからです。
推論モデルで、ARK 1で突然のステップ関数的な変化が見られ始めました。ARK 1は本当に、この時点で何かが起こっていることを示したベンチマークでした。
何か大きなことが。
大きなことです。推論のような新しい能力が出現していました。それは当時実際には明らかではありませんでした。OpenAIが03プレビューを発表したときのことを覚えていますか?
それは実際には2024年末でした。
2024年12月で、ARKでのステップ関数的な進歩は確かに巨大でしたが、非常に高価で、効果的にプロダクトマーケットフィットはありませんでした。しかし、ARKの結果を見れば、これが大きく重要であることがわかりました。
そして、ARK 2をリリースしました。これは同じフォーマットですが、より難しく、推論チェーンのレベルでより多くの合成がありました。
最も初期の推論モデルはARK 2で非常に低いスコアから始まり、コーディングエージェントが機能し始めたのとほぼ同時期に、
数ヶ月前のごく最近ですね。ARK 2の非常に速い飽和が見られました。ARK 2は再び、新しい能力のセットが出現していることを示しました。
ベンチマークは推論モデルの登場と、エージェンティックコーディングの進歩、つまり検証可能な報酬があればドメインを基本的に完全に自動化できるこの新しいパラダイムを捉える上で本当に良い仕事をしたと思います。ちなみに、これはARKにも当てはまります。ARKは検証可能な報酬を提供します。
V2の原因は何だったのでしょうか?1つは明らかに推論でした。ベンチマークは解決方法を気にしません。あなたが言ったことに埋め込まれているように、人々はコード生成を使って解決していたのですか?
ARK V2の飽和とRLループ
その通りです。必ずしもコード生成自体ではありませんが、フロンティアラボはARK V2をターゲットにしてきました。ARK V2で見た進歩は、実際にはこの非常に大規模なターゲティングの結果です。
ARK 2を解決するためにできることは、推論モデルにベンチマークにあるようなタスクをもっと作らせることです。そして、例えばプログラム帰納法を使って、それでも推論モデルを使って、それらを解決しようとします。そして、ソリューションを検証します。検証可能なので、答えを信頼できます。
そして、成功した推論チェーンでモデルをファインチューニングします。そして、これを繰り返し続けます。新しいタスクを生成し、それらを解決し、ソリューションを検証し、推論チェーンでモデルをファインチューニングします。これを何百万回も続けることができます。もっとお金を使うだけです。
これが起こっているRLループですね。
そして、AIにおける新しいパラダイムは基本的に、この種の真の検証シグナルを結合する能力がある領域であれば、この種のループを実行できるということです。この種のループを実行できれば、空間全体をブルートフォースでマイニングし、非常に高いパフォーマンスを得ることができます。
これは基本的に、ARK 2が飽和したプロセスです。これが示しているのは、モデルが最初のモデルよりも高い流動的知性を持っているというよりは、ポストトレーニングの新しいパラダイムがあるということです。そして、これがまさにエージェンティックコーディングにつながったものです。それは重要です。価値があります。有用です。
モデルが賢くなったわけではない。突然より有用になったということです。より賢くならなくても、特定の領域でより有用になることは可能です。
そうですね。明らかにそれは私にとって良いことです。45歳の今、私はもう賢くなっていませんから。でも、物事のやり方を学ぶことはできます。それが最近モデルで起こっていることのようなものです。
絶対に。能力に関しては、常に知性と知識のトレードオフがあります。より多くの知識があれば、より良いトレーニングがあれば、能力を得るために必要な知性は少なくて済みます。
それがまさにコーディングエージェントの台頭で起こったことです。モデルは必ずしも高い流動的知性を持っているわけではありません。いわゆる高いIQを持っているわけではありません。
ただ、はるかに良くトレーニングされているのです。そして、2つの方法ではるかに良くトレーニングされています。単にコードを自動補完しようとしているだけではありません。真の報酬シグナルを持つポストトレーニング環境で試行錯誤を通じて実際にトレーニングされています。
また、コード実行のモデルを埋め込むようにトレーニングされています。実行サイクル全体で変数の値を追跡することを学習しています。それが今日のエージェンティックコーディングの非常に強いプロダクトマーケットフィットにつながっているもので、ソフトウェアエンジニアリングを完全に変えています。
ハーネスとAGI
この飽和はそれほど昔のことではありません。実際、Poeticの創設者が来て、このアプローチについて話しました。
これは本当に、LLMに性能を発揮させる新しい方法のように聞こえます。エージェントハーネスを構築することです。ハーネスは基本的に、問題領域を形式的に検証できるものに構造化することです。彼らは基本的にARK V2のためにそれを行いました。リリースしたとき、彼らはベンチマークのトップにいましたが、驚くべきことに、私は実際にWinter 26バッチでConfluence Labsという会社と一緒に仕事をしました。それほど前のことではなく、彼らは実際にV2の結果を97%で飽和させました。タスクコストもはるかに効率的だったと思います。
彼らが基本的に取ったアプローチはこれに似ています。LLMに異なるタスクを構築させ、それをプログラムさせるために、その上にハーネスを構築したと思います。
それで私は、わあ、このバッチで、そしてバッチの間、彼らは数ヶ月しか取り組んでいなかったのに、長い間存在していたこのバッチを飽和させることができたと思いました。何か特別なことが起こっています。
今、多くの進歩があります。それはタスク周辺のカスタムハーネスによって推進されています。ハーネスは基本的に、人間のプログラマーがモデルに高レベルのソリューション戦略を入力する方法です。
ハーネスをエンジニアリングするために人間が必要だという事実は、私たちが今日AGIに不足しているサインでもあると思います。なぜなら、AGIがあれば、AIは独自のハーネスを作るでしょう。問題の解決方法を教えられる必要はありません。自分で理解するでしょう。
しかし、それは非常に効果的です。ハーネスがAGIに近づけるとは思いませんが、大規模なタスク自動化につながる可能性があるため、非常に価値のある研究分野です。
YCの次のバッチは現在申し込みを受け付けています。スタートアップを持っていますか?yccombinator.com/applyで申し込んでください。早すぎることはありません。アプリを記入することであなたのアイデアがレベルアップします。さて、ビデオに戻りましょう。
ARK V3の特徴
リリースされたばかりのV3が何を測定するのか教えていただけますか?
はい、絶対に。V1、V2を見ると、与えられたパターンの因果モデルを生成する能力に本当に焦点を当てていました。データが与えられていました。静的で受動的で、モデリングに本当に焦点を当てていました。
V3は完全に異なります。私たちはエージェンティックインテリジェンスを測定しようとしています。インタラクティブでアクティブです。データは提供されません。自分で取得しなければなりません。
アイデアは、あなたのエージェントがミニビデオゲームのような新しい環境に落とされるということです。指示は提供されません。何をすべきか教えられません。ゴールが何であるか、コントロールが何であるかさえ教えられません。試行錯誤を通じて自分ですべてを理解しなければなりません。
AIの環境をモデル化する能力だけでなく、探索効率、独自にゴールを獲得する能力、つまりゴール設定、そしてもちろん、作成した環境のモデルを通じて計画し、計画を実行する能力も見ています。
これらすべての能力を合わせて、エージェンティックインテリジェンスと呼んでいます。私たちは、これらのゲームをプレイすることを学習し、人間と同じ程度のアクション効率でそれらをクラックできるAIシステムを探しています。
人間を見ると、彼らはこの新しい環境に落とされます。いくつかのことを試します。物事がどのように機能するかを理解し始めます。数百から数千のアクションで環境を解決できます。
私たちは、この効率に匹敵できるAIシステムを探しています。ちなみに、ARK 3のすべてのテスト環境が事前トレーニングなしで人間によって解決可能であることを知っています。なぜなら、実際に一般の人々でテストしたからです。
最初は、この画面を見て、これらのキーが利用可能ですが、それらが何をするかわかりません。ゼロからすべてを理解しなければなりません。
人間はそれが本当に得意です。効率的に探索し、新しいものを理解し、最終的にゲームをクラックすることに本当に優れています。そして、今日のフロンティアモデルは、それがあまり得意ではありません。
推論モデルがV1をクラックし、強化学習環境がV2をクラックしたとすれば、V3をクラックするには新しい進歩が必要ですか?現在の最良の技術でさえ機能しませんか?
V3に対してフロンティアラボがどのように反応し、どのようにターゲットを開始するかを見るのが非常に興味深いです。V2で見たのと同じ種類のハーネス戦略に対してより耐性があるように設計されています。
もちろん、ARK 3のようなゲームをもっと作って、そこでエージェントをトレーニングすることもできます。しかし、問題は、パブリックセットとは大幅に異なるプライベートセットの環境を意図的に作成しようとしたことです。パブリックセットを見ることができますが、プライベートセットに何があるかについてはあまり情報を提供していません。
プライベートセットには、非常に異なる概念を持つ非常に異なるゲームがあります。
また、パブリックセットは実質的に簡単であるように設計されています。パブリックセットでのパフォーマンスは、実際には、システムがプライベートセットでどれだけうまく機能するかを代表していません。
この理由から、ターゲットにするのが難しくなります。
それは、どれだけの努力をクラックすることに費やしたかのテストではなく、流動的知性のより良いテストになります。
これらのゲームをどうやって思いつくのか、とても興味があります。とてもクリエイティブです。
ゲームスタジオの設立
ビデオゲームスタジオ全体を立ち上げました。250以上のゲームがあります。プレイするのはかなり速いです。各ゲームは、最初の接触からプレイするのに10分かそれより少し短い時間がかかります。250以上あります。
私たちは、任意の週に複数のゲームが進行中のこの非常に生産的なゲームスタジオを立ち上げました。このパイプラインには、デザイン、実装、レビュー、人間テスト、そしてゲームが正しく出てくることを確認するための多くの反復サイクルが含まれています。
誰がスタジオで働いているのですか?
ゲーム開発者のチームを雇い、独自のゲームエンジンを構築しました。
わあ。
以前ビデオゲーム業界で働いていた人たちですね。
その通りです。しかし、覚えておくべきことの1つは、ARK 3のゲームはユニークだということです。以前のビデオゲームから要素や概念を借りようとはしていません。基本的な物理学、オブジェクトの理解、エージェントの概念、つまりゴールと意図を持つオブジェクトとしてのエージェントの理解など、コア知識の事前知識の上に完全に構築されています。
しかし、言語や、矢印や、緑色が進めを意味し赤色が停止を意味するような文化的シンボルは組み込んでいません。これらのゲームには外部知識は関与していません。
パターンマッチングだけのIQテストの1つのようですが、今度は時系列があります。
時系列だけでなく、インタラクティブです。ゲーム空間を通じて独自のパスを作成しなければなりません。ARK 1と2のようなIQテストの問題では、モデル化する必要があるデータが提供されます。既にデータがあり、それを説明するための因果ルールを見つけるだけです。ARK 3では、実際にデータを収集しなければなりません。
そして、効率的に行う必要があります。もちろん、すべての可能なゲーム状態の空間をブルートフォースでマイニングして解決策を見つけることもできますが、それを試みた場合、たとえレベルを解決できたとしても、非常に低いスコアになります。効率性でスコアリングされるからです。
人間レベルの効率に匹敵しなければなりません。
ゲームとAGIの関係
面白いことに、ゲームでのこのレベルのAGIは、ほぼ完全に循環しているようです。OpenAIの書き方とマッチペアです。Tom Brown、Anthropicの共同創設者の1人は、OpenAIでGPT以前のAIがStarcraftをプレイできるようにするためのハーネスコードを書かなければなりませんでした。
そうですね。OpenAIはDota 2に取り組んでいました。OpenAI Fiveモデルがあり、記憶が正しければ、これはChatGPTだけでなく、トランスフォーマー以前でもありました。記憶が正しければ、LSTMレイヤーのスタックで作業していたからです。
OpenAIの前でも、DeepMindはディープラーニングを介してビデオゲームを解決することに多くの取り組みをしていました。2013年にAtariゲームを最初に行いました。非常に早い段階で、まだ非常にモダンな方法で、非常に早い時期にこの問題に取り組むという点で非常に先見の明がありました。
大きな違いは、ゲームを見ると、テストに使用するのと同じ環境でトレーニングしているということです。効果的には、最良の戦略を記憶しようとしているだけです。
トレーニング時に可能なゲーム状態の完全な空間を探索し、その知識をモデルに生産可能にし、操作可能にしようとしています。そして、推論時には基本的にその知識を思い出しているだけです。
ARK 3では、これを明示的に避けようとしています。以前に見たことのあるゲームをプレイしているのではありません。数百万回トレーニングされたゲームをプレイしているのではありません。OpenAI Fiveモデルは、制限されたバージョンのDota 2をプレイしており、数万時間のゲームプレイでトレーニングされていました。おそらく数百万時間です。狂気のトレーニングデータ量です。
ARK 3では、初めて見るゲームで評価されます。探索に費やすすべてのアクションは、効率性スコアにカウントされます。
ですから、本当に流動的知性、効率的に探索する能力、環境の世界モデルを効率的に生成する能力、そしてこのモデルを使用してゴールを推論し、これらのゴールに向けて計画し、最終的にゲームをクラックすることに焦点を当てています。
インドのアプローチとモデルサイズ
インドに関する議論の1つは、ARKタスクに対してすべてのインテリジェントタスクを0.3セントで実行できるということですが、LLMの基盤モデルで同じタスクに対して1ドルから10ドルかかります。
そして、私たちが追跡してきた別の側面があります。少なくともLLM側では、より多くの知性がますます小さなモデルに蒸留できるようです。
一方でスケールアップしていますが、一方でより賢く小さなモデルを蒸留しています。あなたのアプローチは、数十億のパラメータのようなものではないことを示唆しているかもしれません。AGIの達成は、本質的にスケールの問題ではないかもしれません。AGIを達成するインドモデルのプラトニックな理想があります。
フロッピーディスクに収まるだろうと考えたことはありますか?
分離すべきことが2つあります。流動的知性エンジンのようなものがあります。
それは非常に非常に小さなコードベースになると思います。それに関連する非常に小さなモデルのセットで、おそらくメガバイトのオーダーになるでしょう。そして、この流動的知性エンジンの下に階層化される知識ベースがあります。流動的知性は何らかの知識を引き出さなければならず、その知識ははるかに多くのスペースを占めます。2つを区別することが重要だと思います。
AGIを作成したとき、振り返ってみると、10,000行未満のコードベースであることがわかるだろうと信じています。
そして、もし1980年代にそれについて知っていたら、当時利用可能だった計算リソースを使って1980年代にAGIができたかもしれないということです。
わあ、それはクレイジーな予測ですね。
振り返ってみると、これは真実であることがわかると思います。
わあ。つまり、40年間、私たちの鼻の下に隠れていたようなものです。私たちがそれを理解するのに40年かかりました。
その通りです。
2番目のことは、Douglas Lenatのサイクプロジェクトのように聞こえます。それとも、それは間違った考え方ですか?世界についての知識のようなものがあり、それから方法のようなものがあります。プログラムのように、私が聞いているのは、プログラムが10,000行かもしれないということで、それから非常に大きな知識ベースで動作するということです。
サイクの問題は、多くの問題がありましたが、大きな問題の1つは、学習が関与していなかったことです。
知識だけです。
知識は手作業で作られました。
純粋にシンボリックな知識で、おそらく不正確でした。
AGIを構築したい方法は、改善ループから人間をできるだけ排除したいということです。システム能力のすべての改善に人間エンジニアが何かをする必要があるシステムは望ましくありません。
そして、それは実際にディープラーニングと基盤モデルの強みです。知識ベースをスケールアップできます。LLMは効果的に知識ベースです。入力トークンのパターンを出力トークンのパターンにマッピングするモジュラーなベクタープログラムのバンクです。
そして、人間の関与をさらに加えることなく、トレーニングデータとトレーニング計算を追加するだけで、その知識ベースをスケールアップできます。もちろん、トレーニングジョブが完了することを確認する際にまだ少しの人間の関与がありますが、それはわずかです。改善ループから人間をできるだけ排除することに成功しました。
それは私たちのシステムにも欲しいことです。改善が複合化する自己改善システムが欲しいのです。つまり、システムが能力を増やすたびに、能力を増やす速度も増やしているということです。
エレガントなソリューションと科学
これはPGism(ポール・グレアムの言葉)だと思います。申し訳ありません、エッセイがとても長いです。もっと時間があれば短くしたでしょう。
難しい問題を見ているとき、実際には、乱雑で過剰に設計されたソリューションよりも、短くてエレガントで簡潔なソリューションを生み出す方が難しいです。
ブルートフォースすることはできますが、より洗練されたバージョンは非常に短いです。それがあなたが言ったこととどのように出現するかのようなものです。
これは文字通り、私たちが作成しているAIアプローチのタイプの形です。そして、これは科学自体の形でもあると思います。科学は根本的にシンボリック圧縮プロセスです。空の惑星の位置のような観測の大きな混乱を見て、それを非常にシンプルなシンボリックルールに圧縮しています。
これらの数千の観測は、実際にはすべてこの1つのシンプルな方程式だと言っています。それがシンボリック圧縮です。そして、これを行うには、ちなみに、モデルがシンボリックである必要があります。曲線をフィッティングして、その曲線が私のモデルだと言っても、決して最適ではなく、決して簡潔でエレガントではありません。それは科学がやっていることではありません。
科学は曲線フィッティングについてではありません。科学は方程式を見つけることについてです。観測の山の最も圧縮的なシンボリックモデルを見つけることについてです。そして、それがソフトウェア形式で再現しようとしているプロセスです。NDIアプローチのプログラム合成は、科学の化身、科学的方法をアルゴリズム形式で構築していると言えます。
生物学と比較するのが興味深いです。明らかに、LLMは人間が学ぶ方法では学びません。赤ちゃんはインターネット全体を読みませんから。プログラム合成は人間が学ぶ方法に近いと思いますか?それとも、それはプログラム合成が正しい場合でも、まだ発見されていない第3の分岐があり、それが私たちがやっていることだと思いますか?
人間はある程度のプログラム合成を行っていると思います。人間が学ぶ方法と人間の心が機能する方法は非常に乱雑です。すべての背後に1つのシンプルでエレガントな原理があるわけではありません。知性の基本原理の実装です。
これらの原理を特定し、人間の脳よりもはるかに効率的な方法で、ゼロから第一原理から知性を再実装できると思います。
人間の脳は乱雑で、AIのインスピレーションの良い源になり得ますが、単に観察して再実装しようとするだけでは逆効果だと思います。生物学的にもっともらしくするようなことです。それは私たちがインドでやろうとしていることではありません。私たちは本当に知性の第一原理が何であるか、そしてそれらを最もよく実装するシステムは何かを見つけようとしています。
しかし、人間の心は最高レベルで、プログラムに非常に似たことを行っていると信じています。私たちの周囲の因果モデルを構築しているようなものです。私たちの周囲を、オブジェクトとエージェント、そしてオブジェクト間の関係として心の中で記述しています。それらは根本的にシンボリックで因果的な性質です。
これはまさに、私たちが非常によく一般化し、その場で新規性に非常によく適応できるプロセスです。
インドの創業と研究アプローチ
インドという会社について、そしてそれを構築する際のことについて興味があります。私たちは皆、OpenAIの創業ストーリーを聞いたことがあります。初期の頃は、実際に何をすべきかわからなかったので少し奇妙だったとSamとGregの両方が言っていることが常に印象に残っています。アパートでたむろしている人たちの集まりのような感じでした。
インドではそれがどんな感じだったかをぜひ聞きたいです。1日目はどんな感じだったか、研究的な背景を持っていない、異なるアプローチを始めたい意欲的な研究者のために、彼らはそれについてどう考えるべきですか?
私たちは1日目からシンボリック学習のビジョンで始めました。基本的に、パラメトリック曲線を可能な限り短いシンボリックモデルに置き換える機械学習の新しいアプローチを作りたいと知っていました。
そして、大きな質問は、では、これらのモデルをどうやって見つけるのか、でした。私たちは基本的なアイデアから始めました。それは今日も従っているアイデアですが、ディープラーニングガイド付きプログラム検索を行うということです。探索するシンボリック検索空間があり、それは大きく、実際には組み合わせ的です。ブルートフォースを使うだけでは進歩できません。スケールしません。組み合わせの壁を破る必要があります。
それを行う方法は、ディープラーニングのガイダンスを追加することです。これは実際に、AlphaGoやAlphaZeroのようなものを終わらせる原理に非常に似ています。それが私たちの出発点でした。
どうやってそれを構築するかについては、非常に明確なアイデアを持っていませんでした。多くの異なることを試しました。多くの異なるアイデアを試しました。良い基盤に到達するのに約半年かかりました。そこから、複合化するシステムを構築し始めることができました。
これが、このようなラボを行う際に本当に重要だと思うことです。常に新しいことを試している状況にいたくないのです。以前のアプローチからの学習や発見を再利用していません。複合化するスタックが欲しいのです。再利用可能な基盤を構築し、次のレイヤー、次のレイヤーと構築したいのです。
もちろん、正しい基盤の上に構築したいので、基盤レイヤーにあまり早くコミットしないでください。しかし、ある時点で、この複合化する構造を構築していることを確認してください。それが私たちが今いる状況です。
ARK 3が終わりですか?それともARK 4、5、6が続きますか?より難しくし続けることができますか?
絶対にARK 4とARK 5があると思います。実際、現在ARK 5を計画しています。ARK AGIベンチマークシリーズのポイントは、これがテストで、これに合格すればAGIだと言うことではありません。
代わりに、私たちが行っているのは、フロンティア能力の残余ギャップをターゲットにしていることです。フロンティアは前進しており、私たちは、人間の能力と比較すると、今うまくやっていないすべてのタスク、すべてのことがあると言っています。だから、それをターゲットにするベンチマークを作成します。
それは動く標的です。固定点ではありません。動く標的です。ですから、ARK 4があります。ARK 3の精神に基づいていますが、より長い時間スケールでの継続学習とカリキュラム学習に焦点を当てています。ゲームは少なくなりますが、はるかに多くのレベルがあり、レベルは複合化されます。つまり、各レベルで以前に学んだことを再利用する必要があります。
それからARK 5があります。ARK 5については本当に本当に興奮しています。非常に新しく異なっていて、すべて発明に関するものです。それが何を意味するかはわかるでしょう。
最終的には、テストすることがなくなると予想しています。AGIに近づくにつれて、最終的には人間の能力、人間の学習効率とフロンティアAIの間に測定可能な差がなくなります。
測定不可能になったとき、効果的にギャップを測定することが不可能になったとき、それがAGIの瞬間です。
AGIのタイムラインと今後の展望
それでは、マシンが引き継いで、ARK ASI 1を作成します。
ASIです。
そして、そこから続きます。
もし推測しなければならないとしたら、年数、十年、月数。現在の進歩の速度と、LLMスタックだけでなく、うまくいく可能性のあるサイドアイデア、サイドベット、例えばインドのようなものへの投資額から外挿しようとすると、AGIは2030年、2030年代初頭を見ていると思います。
おそらくARK 6またはARK 7をリリースする頃、それがおそらくAGIになるでしょう。
あなたたちはLLMとは異なるアプローチをしています。他の新しいアプローチを探求するスタートアップの余地があると思いますか?また、有望だと思うけれども自分で探求する時間がない他のアプローチはありますか?
絶対に。試すことができる多くの異なるアプローチがあります。計算は偉大なイコライザーだと言いました。ディープラーニングと勾配降下法、そしてそのスケールアップに投入した計算とリソースの量を見ると、他のほぼ何にでも同じ量の投資を投入していたら、非常にエキサイティングな結果も見られたでしょう。
例えば遺伝的アルゴリズムです。遺伝的アルゴリズムをスケールアップしようとすれば、それで信じられないことができると確信しています。実際には新しい科学ができるかもしれません。それは検索に基づいており、検索は科学的方法を自動化するのに最も適合しているからです。
今、現在のスタックの上に構築されるわずかに異なるアプローチもあります。状態空間モデルなど、XLSTMアーキテクチャのようなものです。基本的に、現在のフロンティアはものスタックで、スタックの任意のレイヤーを取り、代替を提案することができます。
代替アーキテクチャを提案する場合、トランスフォーマーの代わりにリカレントモデルのようなものを行うことができます。さらに低レベルに行くこともできます。パラメトリック曲線をまだトレーニングするつもりですが、勾配降下法を取り除きます。検索を使うかもしれません。
神経進化をするかもしれません。それはより低レベルです。そして最も低いレベルは、私たちが操作しているレベルで、曲線を忘れ、パラメトリックを忘れ、勾配降下法を忘れると言っています。完全に異なることをするつもりです。
最適なAIを構築したい場合、スタックの基盤に戻ることをほぼ強いられると思います。山の上に追加された1つのレイヤーのようなものではいけません。
若い研究者へのアドバイス
では、新しいアプローチで異なるネオラボをやりたい意欲的な研究者にとって、彼らは70年代や80年代の研究論文を読んで、現在あまり投資されていないアプローチで深く入り込むべきでしょうか?
それは実際に素晴らしいアイデアです。なぜなら、AI研究のタイムラインの歴史の早い段階では、人々はより多くのこと、非常に異なることを探求していたからです。すべてが1つのアプローチに崩壊したのです。実際にはちょっと悪いアイデアです。
20年ほど前、SVMへの崩壊もあったことを考えてください。
崩壊とは言いませんが、SVMをやっている人がそれほど多くなかったからです。そして、当時AIははるかに小さな分野でした。しかし、ニューラルネットワークは失敗したアプローチで、ニューラルネットワークは機能せず、試し続けるのは時間の無駄だという広範な理解がありました。
2000年代後半でさえ、基本的にこれは既成事実のようなものでした。私がAIに入ったとき、人々は私に、ニューラルネットワークはやめておけと言っていました。でも、脳がやっていることに非常に似ているように見えるから、それに興味があると言いました。
全員が何かに取り組んでいる場合、実際には非常に生産的なアイデアであることが判明するアイデアを捨てていることになります。70年代、80年代には、人々はより多くのことを試していました。遺伝的アルゴリズムは実際に非常に良い例だと思います。これは途方もない可能性を持つアプローチだと思いますが、それを深くスケールアップすることに取り組んでいる人はあまり多くありません。
あなたが探している特徴はありますか?スケーリング法則が起こり得るのであれば、たとえ異なっていても、それは単純すぎますか?それとも、類推で考えすぎですか?
スケールするアプローチを探していると思います。
それはノンスターターだと思います。何かに取り組んでいて、システムの能力を増やす唯一の方法が人間のエンジニアと研究者がそれに時間を費やすことである場合、それはうまくいきません。
アイデアが非常に賢く非常にエレガントで本当にうまく機能しても、能力は限定されます。人間の投資によって制限されます。
人間がループにいない、人間がいなくても、システムが能力を向上させることができるセットアップにいたいのです。10年前にやった方法でやらないでください。再帰的自己改善が最初から組み込まれているというアイデアでやってください。
必ずしも再帰的自己改善ではありません。例えばディープラーニングは再帰的に自己改善していませんが、人間のボトルネックなしにスケールアップするというアイデアで行います。
改善ループから人間を排除したいのです。ディープラーニングの大きな強みは、トレーニング計算とトレーニングデータを追加するだけでモデルがどんどん良くなったことです。もちろん、これらの要素を追加するには多くの人間の関与が必要ですが、基本的にはそのアイデアです。改善曲線と、システムに注入する必要がある人間の努力の量との分離があります。
または、人間の努力が既に起こっているからでしょう。LLMは実際には莫大な人間の努力を必要とします。ただ、インターネットを構築するための人間の努力であり、私たちは既にそれを構築していました。
実際、今ではますます少なくなっています。インタラクティブで検証可能な環境でトレーニングを行っているからです。
その後。
環境を作成するのに少量の人間の努力だけが必要で、その少量の努力から指数関数的に多くのトレーニングデータを作成しています。しかし、最初は、マシンをプライムするために、テキストデータにエンコードされた人間が生成した抽象化の膨大な量が必要だと思います。それから始めなければ、システムをこのループに入れることはできません。
オープンソースプロジェクトの運営
オープンソースプロジェクトを始めることについて何かアドバイスはありますか?AI分野ですべきこと、すべきでないこと。なぜなら、私は過去14日間で、これにどうやって登録したのかわかりませんが、毎日10,000から30,000人のオーダーでGStackを使用していると思います。
すごいですね。
どうだったかわかりません。Kerasを始めて、それを維持し続けるのはどうでしたか?良いメンテナーとは何ですか?それから何を学びましたか?これは1時間全体になるかもしれません。
Kerasを成長させることから多くの学びがありました。
たくさんのこと。
Kerasを成長させることから。今は、それにあまり関与していません。Googleには大きなチームがあり、彼らは素晴らしい仕事をしています。ですから、人々を集めることは可能です。
何かを始めることは可能です。何かを始めて、より多くの人々を巻き込み、ある時点でそれが独自のものになります。
かつてはあなたの赤ちゃんでしたが、今はすっかり成長して、大人になって、独自の人生を歩んでいます。Kerasを本当に成功させた要因について聞かれたら、まず第一に、APIをシンプルで直感的にすることに大きな焦点を当てたことです。
ユーザビリティに大きな焦点を当てました。これはscikit-learnにインスパイアされました。scikit-learnは、Pythonのオリジナルの機械学習ライブラリのようなものでした。それを成功させたのは、始めるのが非常に簡単だったことです。最初は、この本当にシンプルなAPIの下に、私が作成したすべての機能をパッケージ化するつもりだと思いました。scikit-learnのようなAPIになります。それが大きなアイデアでした。
ユーザビリティへの焦点は、APIをシンプルにすることだけではありません。オンボーディング体験全体が素晴らしく簡単であることを確認することでもあります。ドキュメントは非常に有益であるべきです。ドキュメントは、これの使い方だけでなく、実際にはドメイン全体について教えるべきです。
ウェブサイトに来る人々は、既にディープラーニングの専門家ではありません。ディープラーニングを使い始めようとしている人々です。ですから、ツールの使い方だけでなく、ツールが何に適しているか、そしてそれを取り巻く分野全体について教えなければなりません。
そして、コミュニティ構築に多くの投資をしなければなりません。GoogleでやったことがありますRが、Googleがやや難しくして悲しかったことの1つは、パワーユーザーを雇うことです。
ファンを雇ってください。
これは本当に本当に良いアイデアです。コミュニティから最も熱心なユーザーを見つけて、チームに雇ってください。
素晴らしい。
彼らは常に最高の人々です。
素晴らしい。さあ、gstack.orgを始める時です。自分のお金をたくさん投入して、それに取り組む人をたくさん雇います。いいですね。
あなたはパイオニアのリーダーであり、私たちと一緒に座っていただけて本当に幸運です。見ている人たちの中には、成人期の始まり、確実に職業人生の始まりにいる人々、または実際に世界中の人々がいます。
知性が広く適用可能になるにつれて、これが何を意味するのかを理解しようとしているようなものです。もし今18歳だったら、彼らに何を伝えますか?
今日、多くの人々が非常に悲観的で、能力の上昇について非常にネガティブな見方をしています。すぐに仕事を失う、大規模な失業が起こる、AIが完全に引き継ぐと言っています。
私の考えは実際には、プログラミングなどについてより多くの専門知識を持っているほど、自分の利益のためにこれらのツールをより良く使用しレバレッジをかけることができるということです。適切な種類の専門知識があれば、このすべてのAIの進歩は実際にはエンパワーメントです。自分のためにレバレッジをかけることができるものです。それはまさにあなたがプロジェクトでやったことですよね。
より多くの人々が、AIについてだけでなく、AIを適用したいドメインについてもできるだけ多くを学ぼうとするこのマインドセットを持つべきです。彼らは、この新しい発展を、自分自身の生活を改善するために使用できるツール、機会に変えようとすべきです。
それが正しいマインドセットだと思います。なぜなら、AIの進歩を止めることはできないからです。もう手遅れだと思います。
ですから、次の質問は、AIの進歩がここにあるということです。実際にはさらに加速し続けます。それをどのように活用しますか?どのようにレバレッジをかけますか?どのように波に乗りますか?それが尋ねるべき質問です。
数時間続けられたらいいのにと思います。確実にできると思います。フランソワさん、お時間をいただきありがとうございました。
お招きいただき本当にありがとうございました。


コメント