Francois Chollet + Mike Knoop | ARC Prize @ MIT

AIベンチマーク
この記事は約19分で読めます。

本動画は、ARC Prizeの創設者であるFrancois CholletとMike Knoopが、MITで開催されたファイアサイドチャットの模様を収録したものである。彼らはARC Prize V3の発表に際し、このベンチマークが目指すものは単なるAGI達成の判定ではなく、人間レベルの効率的なスキル獲得能力の測定であることを強調している。V3では、ゴールの発見、時間的計画、インタラクティブな学習といった新たな能力が追加され、より実世界に近い問題解決能力を評価する設計となっている。Cholletは、大規模言語モデル(LLM)単体ではAGIに不十分であり、効率的な情報抽出とスキル獲得こそが真の知能の定義であると主張する。また、ゲームデザインの哲学として、学習速度を最適化し、プレイヤーに成長と進歩の感覚を提供することの重要性が語られている。将来的には、より複雑で長期的な継続学習を測定するベンチマークへの展開も視野に入れており、AGIの進化とベンチマークの共進化を目指している。

Francois Chollet + Mike Knoop | ARC Prize @ MIT
ARC Prize Co-Founders, Francois Chollet & Mike Knoop, share a fireside chat around ARC-AGI-3 and measuring intelligence*...

ARC Prizeの1年後の再訪

それでは、Francois CholletとMike Knoopをステージにお招きしたいと思います。お二人はこれからファイアサイドチャットを行います。

ありがとう、Greg。素晴らしいキックオフでしたね。そして、このような場を提供してくださった皆さん、ありがとうございます。さて、Francois、ちょうど1年前のことですね。MITへようこそ、お帰りなさい。ちょうど1年前、私たちはARC Prize大学ツアーでここにいました。

そうですね。随分時間が経ちましたね。私たちはARC PrizeとARCAGIを宣伝するためにここに来ていました。主な目標の一つは、AGIに向けた新しいアイデアに取り組むよう人々を鼓舞することでした。そして、私たちには独自のビジョンがありますし、昨年からの大きな進展の一つとして、Joshが触れたように、私たち独自のインテリジェント・サイエンス・ラボを立ち上げました。Indiaという名前です。そして、ARCを北極星的な指標の一つとして使っています。そこに到達するために、私たちは今、業界で最高のプログラム合成の人材チームを構築しようとしています。私たちには、そうした才能の一部を獲得できたという主張があると思います。

ちなみに、私たちは人材を募集しています。もしあなたがビルダーで、プログラム合成に興味があるなら、ぜひ私たちに話しかけてください。しかし、この数ヶ月で実際に進展を見せ始めています。深層学習とプログラム合成を融合させるというアイデアを、ARKV1とV2に向けて進めています。

そして、できればすぐにでもV3に目を向け始めたいと思っています。Gregが尋ねた質問は、V1とV2でも頻繁に受けた非常によくある質問だと思います。V3について、あなたの見解を聞きたいのですが、つまり、皆さんは今、3つのバージョンのベンチマークを持っていますよね。それらすべてに名前にAGIが入っています。もし私たちが進展を遂げて、V1、V2、V3をクリアできたとしたら、それは私たちがAGIを持っているということなのでしょうか。もしそうでないとしたら、それが二元的なものでないとしたら、正確には何を意味するのでしょうか。ARK 1、2、3に対して進展を遂げることが何を意味するのか、整理するのを手伝っていただけますか。

ARCベンチマークの真の目的

そうですね。まず第一に、Gregが述べたように、V3においても、V1やV2と同様に、これがAGIを持っているかどうかの決定的なテストであるという主張はしていません。V1を解くこと、V2を解くこと、V3を解くことは、必ずしもAGIを持っていると言うための十分条件ではありません。それがこのベンチマークの目的ではないのです。

さて、V3を解くために何が必要かを見てみると、特にV1やV2と比較すると、私たちはいくつかの非常に重要な能力を追加しています。自分自身の経験から目標を発見する能力、つまり自分自身で目標を獲得する能力を追加しています。時間的計画を行う能力、そしてもちろん、インタラクティブな学習の能力です。

V1やV2では、受動的なモデル構築を行っていました。データを見て、それを説明するモデルを思いつこうとしていました。ここでは、環境と相互作用することによって、自分自身でデータを収集しなければなりません。これらのことを人間レベルの情報効率、人間レベルの行動効率で行えるシステムを作ることが何を意味するかというと、新規環境でのエージェント的なインタラクティブ学習において本当に優れており、非常に効率的であるということです。私にとって、これは基本的にマイクロAGIです。これらは、AGIシステムで見たい特性ですが、非常に小さなスケールでのものです。

では、なぜ非常に小さなスケールなのか。それは、これらのゲームが本当にシンプルで、本当に簡単だからです。この部屋にいる皆さんの誰もが、これらのゲームをプレイしに行けば、非常によくできるでしょう。超知能は必要ありませんし、また、複雑さやサイズ、つまりビット数の観点からも、これらは小さなゲームです。非常に小さな環境であり、非常に小さな知覚空間であり、非常に短い時間スケールでプレイしています。数分間にわたって学習しているのです。

しかし、もちろん、人間レベルの汎用知能として、あなたは実際には生涯を通じて、膨大な知覚空間を持ち、信じられないほど複雑なタスクを学習しています。ですから、このような種類のマイクロ環境から現実世界までには、非常に長い距離があります。しかし、私たちが測定しようとしている特性は同じです。効率的に世界と相互作用し、その根底にある原理を発見し、それを理解し、それに基づいて行動し、それを形作ることができるかどうか。

同じ原理ですが、小さなスケールでのものです。ですから、もしあなたがARKV3を正しい方法で解くことができれば、効率的なシステムで、ショートカットを取らず、ブルートフォースを使わずに理想的には、あなたのソリューションは単にスケールアップすることができ、AGIに非常に似たものを得られるという考えです。しかし、そのソリューション自体は即座に完全なものではないでしょう。少なくとも、それは人間レベルではないでしょう。

大規模言語モデルの限界

今、Twitterで大きな議論が起こっています。Rich SuttonのDareshとのインタビューに触発されたもので、今週公開されました。LLMが人間のように見えるシステムを生み出すための基盤として十分かどうかについてです。V3をクリアするために、あなたが今言ったような生涯にわたる継続学習を行うための基盤として、あなたの見解をお聞きしたいです。

LLM単体では、確実に不十分だと言えます。LLMは基本的に、プログラムを取得してエンコードする方法です。つまり、それは多くの再利用可能なベクトルプログラムのためのリポジトリです。

それらを取得する方法は、人間のデータに対する確率的勾配降下法を通じてです。そして、それはAGIではありません。それはAGIの構成要素である可能性があります。メモリコンポーネント、知識とスキルの表現コンポーネントのような種類のものになり得ると思います。しかし、汎用知能の決定的な特徴は、スキルと知識をどれだけ効率的に獲得するかです。

基本的に、世界から、あなたの経験から、どれだけ効率的に情報を抽出し、それをできるだけよく汎化すべきこれらのプログラムに変えるかということです。そして、それはLLMがすることではありません。つまり、LLMの世界では、この役割を果たしているアルゴリズムは、ただの確率的勾配降下法であり、確率的勾配降下法は、スキル獲得において人間の知能よりもおそらく4つか5つの桁、効率が悪いのです。ですから、これは私たちが探しているものではありません。LLMは解決策の一部である可能性がありますが、それ自体が解決策では確実にありません。

視覚的認識の誤解

昨年ARC Prizeを立ち上げたときに、非常によくあった批判やフィードバックのもう一つは、私たちがARCで本当に進展を遂げていない理由、LLMがここで進展を遂げていない理由は、これが視覚的ベンチマークだからであり、ここで進展を遂げるためには何らかの視覚的な進歩が必要だというものでした。12月頃の推論モデルを考えると、そうではないという非常に強力な証拠があると思います。

V3についてはどうお考えですか。V3をクリアするためには、知覚側に向けたさらなる進歩やブレークスルーが必要だと思いますか、それとも、これはあなたの目には依然として根本的にプログラム合成のベンチマークなのでしょうか。

そうですね、これは根本的に推論のベンチマークだと思います。視覚的認識のベンチマークではまったくありません。実際、V1やV2と同様に、このように設計されました。私たちは認識の必要性を取り除こうとしていました。なぜなら、認識が私たちが気にかけていること、つまり効率的な汎化、実質的には効率的なスキル獲得の測定の邪魔をしていたからです。V1、V2、さらにはV3でも同様です。

ゲームの状態のようなデータは、すでにコンピューターで処理できる形式になっています。それはすでに実質的にトークン形式です。LLMに入れることもできますし、私たちがするように、プログラムエンジンに入れることもできます。ビジョンモジュールは必要ありません。

そして、V1、V2で見たこと、そしてV3でも同じパターンを見続けることは確実だと思いますが、VLMのような視覚対応モデルは、実際には純粋なシーケンス、つまりテキストモデルよりも著しく悪い結果を出しました。

その理由は、これらの2Dグリッドをシーケンスとして扱うことができ、実際には情報を失っていないからです。同じ情報なのです。さて、もし2D空間のネイティブな理解を持ちたい場合、トランスフォーマーを再配線して、シーケンスの代わりにグリッドのネイティブな理解を与えることもできます。

もちろん、そうする場合、グリッドデータで事前学習する必要がありますが、それは広く利用可能ではありません。ですから、うまく機能しないでしょう。そして実際には、ARCV1、V2で見ているすべての最先端モデルは、通常コードなどで訓練された純粋なシーケンスモデルです。ですから、これは確実に認識の問題ではまったくなく、認識はこれらのベンチマークで実際の進展を遂げるための障害ではありません。

データ拡張の役割

それに関連して、ARC2024の多くのソリューションは、実際には多くのデータ拡張技術に大きく依存していました。V3を解くためにも、それが重要なことになると思いますか。これらを取り、V3のように見える多くのゲームを作って、それをクリアすることが重要だと思いますか。

そうは思いません。そして、実際には、人間を見ると、多くのゲームをプレイした人間は、他の人よりも少しうまくやっているかもしれませんが、それほど多くはありません。

そして、ゲームをまったくプレイしない人でも、これらのゲームをクリアすることができます。それらがどのように機能するかを理解することができます。ですから、それは本当に練習の問題ではないということがわかります。これは獲得したスキルを測定しているベンチマークではありません。それは本当に、インタラクティブにその場で、自分自身で何か新しいことを理解する能力を測定しているのです。

ゲームデザインの哲学

ゲームデザインについて話してきたので、話題を変えましょう。なぜなら、これは今の私の仕事の中で最も好きな部分の一つだと思うからです。毎週水曜日、数時間、ゲームをプレイしてフィードバックを与えることができます。

時々少し大変なこともありますよね。まだすべてのゲームが良いわけではありませんが、でも文字通り、私たちはゲームをプレイするために報酬を得ているのです。

集合的に、おそらく100以上のゲームをプレイして、フィードバックを与えていると思います。これらの初期プレビューゲームをプレイしてゲームデザインチームにフィードバックを与える中で、私たちが見つけている一般的なフィードバックについて少し話していただけますか。

そうですね、世界で最も生産的なゲームデザインスタジオがあります。1年未満ですでに100以上のゲームを作っています。ですから、実際には、小さなゲームを大規模に作り、それらをプレイテストすることは非常に楽しいです。なぜなら、例えば、何がゲームを楽しくするのかといったことについて、本当に深く考え始めるからです。楽しさの理論を思いつこうとし、良いゲームを作るものを逆設計しようとします。

私たちが観察したことの一つは、最も楽しんでいるときは、ゲーム、環境が、あなたが学習している速度を最大化しようとしているときです。楽しくあるためには、ゲームは何らかの挑戦を提供すべきです。それはあなたが理解しなければならないもの、あなたがまだできないことであるべきです。もしあなたがすでに何をすべきかを認識し、それを実行するだけなら、それは非常に退屈です。

非常に反復的です。あなたは単に実行モードにいるだけです。ですから、何らかの挑戦、何らかの新規性の要素があるべきです。それは何らかの方法であなたを驚かせるべきです。しかし同時に、それは取り組みやすいものであるべきです。あまりにも挑戦的であったり、あまりにも新規的であってはいけません。なぜなら、そうすると、あなたは単に行き詰まってしまうからです。

それを理解することができなくなるでしょう。ですから、ゲームが本当に楽しくあるためには、学習速度をこのスイートスポットに保つ必要があります。そこでは、それは挑戦的ですが、ちょうど適切な量です。あなたが挑戦を克服し、そのプロセスで学習し、そのプロセスで成長するのに十分なほど挑戦的です。

そして、この進歩、成長の感覚を確立することも非常に重要です。そして、それは単にゲームをプレイするスキルを磨くことだけではありません。ゲーム自体も、進歩の感覚を直接伝えるべきです。例えば、力の進歩です。ゲームをプレイするにつれて、何らかの方法でより強力になるべきです。

できることが増え、より多くのアクションがあるべきです。そして、それを行う方法は、ゲームが進むにつれて新しいゲームダイナミクスを導入し、それらをマスターし、それを使用することで、後のレベルで新しい可能性が開かれるのです。ですから、これが本当に楽しさの本質だと思います。

それは学習速度を最大化し、この成長と進歩の感覚を作り出すことです。

もう一つ興味深いことは、指示が一切ない設定において、人間にとってプレイしやすいこのようなゲームを作ることがいかに挑戦的かということです。

何も伝えられません。実際、例えば、ゲームにはテキストもなく、テキストラベルなどもありません。それらをプレイするために、獲得した知識を活用することはできません。それらは完全に新しいものです。ゲームに持ち込めるのは、核となる知識の事前知識だけです。そして、難しすぎるゲームになってしまうのは非常に簡単です。

ゲームメカニクスが複雑すぎるから難しすぎるのではなく、単に十分に学習可能ではないから難しいのです。そして、私たちはゲームの初期レベルを可能な限り学習可能にするために、意図的に作り込むことに多くの労力を費やさなければなりませんでした。

一度に一つの概念だけを導入するように。コントロールが発見可能であることを確認するように。

初期に抱えていた問題の一つは、プレイヤーが理解できないからではなく、コントロールを発見できないから、ゲームを完了できないことがよくあったということです。例えば、矢印キーを試すと何も起こらず、物をクリックすることになっているゲームだったので、物をクリックすることを決して試さないのです。

ですから、コントロールUIについて何度も繰り返し作業しなければならず、最終的にははるかに発見しやすいものになりました。

楽しさと発見可能性のバランス

私の多くのユーザーテストでは、人間にとって簡単でAIにとって難しいということと、楽しさの概念との間に興味深い緊張関係があると思います。人々や私自身が聞いた最も楽しいことのいくつかは、少し探索するまですぐには明らかではないゲームをプレイすることで、その後にアハモーメントがあり、そのアハモーメントが実際にあなたの楽しさを大幅に増加させます。

ですから、レベル1であまりにも明白ではないことと、それでも簡単に発見できることとの間のこの交換は重要だと思います。最初の数レベルではおそらく、なぜ私たちはARCが楽しいことを気にするのか、これは非常にユニークなデザイン目標だったと思います。V1やV2でも念頭にあったと思いますが、ほとんどのベンチマーク、特にAGIベンチマークは楽しさを最適化しませんよね。なぜこれがARCが持つべき重要なことなのか、受け入れ基準の中にあるのですか。

非常に基本的な方法で、ベンチマークは楽しければより成功すると思います。魅力的であれば、人々が実際にそれと相互作用することを楽しみ、ゲームをプレイすることを楽しめば、それはより広まるでしょう。より多くの人々がそれに引きつけられ、より多くの人々がそれに取り組みたいと思うでしょう。人間のストーリーのように、インスピレーションを与えます。

まさに。それは文化的な成果物として魅力的である必要があります。科学的な成果物としてだけでなく。

そしてまた、AGIに向けて進展を遂げるためには、人間がこれらのゲームをどのようにプレイするかについて多くの考察をする必要があると思います。このデータを得るため、例えば、人間のテストデータや、ゲームをプレイするときのあなた自身の人間の内省、知覚などです。あなたがどのようにして物事を理解しているのかを自問します。

あなたの戦略は何ですか。メタ認知を活用してAGIの洞察を生み出そうとします。それを行うためには、ゲームは楽しくなければなりません。退屈であってはいけません。退屈であれば、あなたはそれらをプレイしたくないでしょう。そして、人間のテスターは、彼らのベストを尽くさないでしょう。

将来のビジョン

さて、最後の質問です。未来を見据えて。V3を超えても、私たちはすでにV4、V5など、今日のランチでさえも会話を始めています。このスライドには捉えられていない、あなたの希望や夢のようなものは何でしょうか。将来のAIシステムで能力的にテストしたいと考えている他の興味深いことは何でしょうか。

そうですね。V3は基本的に正しい要素を持っていると思います。その場での学習、インタラクティブな学習、目標獲得などですが、非常に小さなスケールでです。例えば、この種のインタラクティブな学習は、あなたが継続学習と呼ぶようなものではありません。なぜなら、各ゲームにカリキュラムがあるとはいえ、それは5分間のプレイのスケールだからです。

そして、人間として、私たちは何十年にもわたって継続学習を行っています。ですから、明白なことの一つは、同じ要素を取り、それらをスケールアップすることだと思います。150の静的なゲームを持つ代わりに、はるかに複雑な環境を持つこと、終わりのない新規性を持つこと、ゲーム環境を実際にはより生きているもの、知的なもののようにすること、おそらく競争したり協力したりする他のエージェントと一緒に。

そして、エージェントの発展を5分間ではなく、ゲーム時間で何年にもわたって測定しようとすべきです。できれば実時間ではなく、ですよね。そして、これほど野心的な環境を構築するためには、すでにAGIに向けて進展を遂げている必要があると思います。なぜなら、そのような環境は、プレイヤーが環境に適応するのと同じように、プレイヤーに適応する環境になるからです。プレイヤーがゲームをプレイすることを学び、ゲームに住むエージェントと相互作用するなどすると。

そして、それは知的な成果物であり、すでにプロトAGIです。そして、私はソリューション、つまりAGI自体と、あなたがターゲットとして使用しているベンチマークを共進化させることを強く信じています。AGIに向けた進展は、この次世代のベンチマークを作成するのに役立ち、それが今度は、より高いレベルのAGIに向けてより速い進展を遂げるのに役立つと思います。

素晴らしい。さて、最初のスピーカーの準備をしている間に、2つ質問をしましょう。部屋のこちら側から1つ、あちら側から1つにしましょうか。マイクを渡したいですか。

質疑応答

利用可能なすべてのゲームを見たわけではありませんが、それらはすべてある意味で2Dであり、ターン間で状態を凍結できます。本質的に。知能または学習獲得スキルは、3D環境に、またはターンのこのシーケンスではなく、もう少し流動的なゲームに、あるいは時間においてもう少し連続的な物理エンジンがあるゲームに変換されると期待しますか。

そうですね。ゲームフレームがピクセルのグリッドであるという事実は、実際には重要ではありません。シーケンスとして扱うことができます。3Dでも、4Dでも、根本的には重要ではありません。それは単に、離散的な特性を持つ離散的なシンボルの集合です。

それらがたまたま2Dグリッドとして組織されているだけです。根本的には重要ではありません。しかし、あなたが提起した、これが実質的にステップバイステートの環境であり、次の状態に入るためにアクションを取らなければならないという事実については、それは確実にリアルタイムの連続環境とは大きく異なります。

本当に良いV3ソルバーを作ったとしたら、原則として、それをロボットに載せることができると思います。それがあなたが必要とする唯一のものではないですよね。連続的なライブデータを、ARCソルバーが処理できる高レベルの離散的な概念に変換するための知覚システムも必要でしょう。また、おそらく、ARCソルバーによって生成されたモデルを利用するための、より長期的な計画エンジンも必要でしょう。しかし根本的には、実世界のアプリケーションにも進展をもたらすことになると思います。

これはV3でも本当に意図的なデザイン選択でしたよね。知覚をストレステストするのではなく、推論の側面に挑戦するためです。私たちは意図的に、時間ギャップがゲームプレイの要素であるゲームを望みませんでした。なぜなら、私たちは例えば、多くのゲームは、ゲームで何が起こっているかを理解することによってではなく、単に実行の難しさ、例えばタイミングの難しさによって、人間にとって挑戦的だからです。そして、私たちは意図的にそれに巻き込まれたくありませんでした。なぜなら、これは実際には知能ではないからです。

素晴らしい。もう1つ質問をこちらでどうぞ。これは素晴らしいですね。あなた方がこれをやっていることを本当に嬉しく思います。非常に広範な概念的な質問があります。知的エージェントが汎化することを期待するスキルの分布は何ですか。スキルの分布とは、能力の種類のことですか。

そうです。スキル獲得効率。あなたはスキル獲得効率と言いましたね。それがあなたの知能の定義です。そして、あなたはいくつかのゲームセットを作りましたよね。そして、テストゲームがあり、知的エージェントがそれらのテストゲームに汎化することを望んでいます。ですから、あなたが汎化したいそのテストセットによって暗示される分布は何ですか。

暗黙的に、分布はありません。ARCV1とARCV2では、有効なARCタスクを構成するものは、人間がそれを解けることです。それが私たちが持っている唯一の制約であり、獲得した知識を活用すべきではありません。核となる知識のみです。ですから、核となる知識だけで構築できるもので、人間ができることは、分布内にあり、分布のより狭い定義は他にありません。

では、分布の定義は、人間が効率的に解決できることのセット、またはタスクの分布ですか。それは正しいですか。

そうです。基本的には無限です。

わかりました。しかし、それはすべての可能なタスクにわたる均一な分布ではありません。私が言いたいのは、汎用知能とは正確に何を意味するのかということです。なぜなら、あなたが定義しているように聞こえるのは、実際には汎用ではなく、人間の知能だからです。

そうですね、その通りです。なぜなら、人間の知能は、私たちが持っているAGIの存在証明の唯一のものだからです。

しかし、人間の知能について汎用的なものは何ですか。人間の知能は汎用的ではありません。つまり、実際には、ノーフリーランチの原理に基づいて、汎用というものは存在しないと主張できます。

人間のテスターにこれらのゲームのいずれかを見せると、彼らはそのゲームを初めて見ており、それを理解できないという意味で汎用的です。そして、彼らが理解できるゲームの空間は無限で、非常に多様です。ですから、その意味で汎用的です。それは普遍的ではないかもしれません。

人間に見せることができて、彼らが理解できない多くのタスクがあるのは確かですが、それでも、彼らが理解できるタスクの空間は、フロンティアAIが実際に存在できるものよりもはるかに大きいです。V2でもそのための実例が存在します。V2で、人間にとって難しすぎるタスクを作りましたよね。

ですから、それは大きいですが、何でもできるという意味で汎用的ではありません。ですから、私たちは普遍的な知能を目標としているわけではありません。それはどんなタスクでもあるでしょう。私たちは人間の汎用知能について話しているのです。

その通りです。

さて、ここで終わりにしましょう。ありがとう、Francois。ありがとうございました。MikeとFrancoisに拍手をお願いします。

コメント

タイトルとURLをコピーしました