「知能をどう測定するか?」6名の研究者による討論

AIベンチマーク
この記事は約38分で読めます。

本ディスカッションは、知能の定義と測定方法をめぐって6名の研究者が白熱した議論を展開したものである。幼児発達研究者のローラは、現在のAIが深く「反発達的」であり、子どもが示す遊びや思考の豊かさを捉えきれていないと指摘する。一方、ARC-AGIの開発者フランソワは、効率的な学習と汎化能力こそが知能の本質であると主張する。認知科学者のジョシュやサム、ジェイコブらは、ベンチマークの有用性を認めつつも、人間の知能には目標設定能力や探索行動、概念の一貫性への欲求など、単純な課題解決では測れない側面があることを強調する。議論は学習と思考の区別、遊びの価値、世界モデルの役割、そして魚からアリストテレスまで多岐にわたり、知能研究の奥深さと複雑さを浮き彫りにしている。

"How to measure intelligence?" | Six researchers debate
A panel of six researchers debate on if measuring intelligence is possible, if so, how do you do it?* Francois Chollet: ...

知能測定をめぐる議論の幕開け

私たちはインディアでプログラム合成のポッドキャストを始めていまして、インタビューした方の一人にベル研究所で形式的手法の研究をされているカダー・ナモシさんがいらっしゃいました。彼は幸運にもダイクストラの大学講義を受講したことがあって、その授業では論文読解グループのようなことをやっていたそうです。誰かが論文の全ページを読む担当になるんですが、実際には3ページくらいしか進まなかったとのことです。なぜなら目標は、自分が同意できないと思う点があれば何でも議論することだったからです。

今日のパネルディスカッションも、そういったダイナミックなものにしたいと思っています。誰でも割り込んで発言したくなったら遠慮なくどうぞ。論争的である必要はありませんが、率直な考えを共有していただければと思います。

素晴らしいパネルだと思いますし、ここにいる全員を明らかに結びつけているものは、知能への情熱であり、それを探求すること、人間の知能や人間の脳に触発されること、そしてそれがテクノロジーにどう応用されるかということです。

幼児発達から見たAIの課題

ローラ、まず最初にあなたから始めさせてください。あなたのTEDトークを先ほど見ていました。素晴らしかったです。人間の知能の違いについて言及されていましたね。幼い子どもたちが示していたような知能と、現在の人工知能との違いは、量の問題ではなく種類の問題だとおっしゃっていました。AI分野で働いている人々は、あなたの幼児期の発達研究から何を学べるでしょうか。

私が発達の入門クラスで長年教えてきたことの一つは、まるで樽の中の魚を撃つようなものだったんです。その時代のAIが常識推論の面でできることを提示すると、どれも笑えるようなものばかりでした。

そして素晴らしいディープラーニングモデルが登場して、もはや「AIとのやり取りで得点稼ぎ」みたいなことは全く楽しくなくなりました。でも今でも本当に当てはまることは、それが深く反発達的だということです。

ある意味で最も興味深いのは、大量データ対少量データの話をたくさん聞くと思いますが、それも全て真実です。でも最も興味深いのは、私たちが持っているこの非常にギザギザしたAIシステムです。地球上でほんの一握りの人しか解けないような数学的証明を12秒で完全に生成できるのに、13秒かけて「カートンがあって卵3個分のスペースがない場合、カートンには穴がいくつありますか」という質問をすると答えられない。

難しい問題から簡単な問題へのスケーリングがないんです。学習の道筋がない。人間の知能が発達する方式がない。言語モデルには最初の言葉というものがありません。

つまり最も興味深いことの一つは、今日のAIがいかに深く非発達的かということです。人間にとってそれは不可能です。私たちはどこかから始めて、そこから進歩しなければならないのです。

知能の定義をめぐる問い

私もローラに質問があります。先ほどフランソワに尋ねた質問に何度も立ち戻ってしまうんです。フランソワは知能を定義する特定の方法を提案しました。人間が効率的に学習できる、汎化できるタスクの集合という観点からです。

その定義によれば、ローラが話していることは知能ではありません。つまり、あなたが子どもたちがやっていることとして指摘しているものを知的だとすることに、私は異議を唱えたいのです。その定義によれば、それらは知的ではありませんよね。

ということは、知能の定義が間違っているのか、何かが欠けているのか、不完全なのでしょうか。

子どもたちが遊びの行動を示している動画について話しているんですよね。物事に好奇心を持ったり、探索したりするような。それは知能ですよね。あなたの定義にどう当てはまるんですか。

ローラの要点の一部は、あなたが見た動画の中で積み重ねカップで遊ぶようなことは、伝統的に人々が探索や物事について学ぶことを意味するものではなかったということです。少なくとも伝統的な指標ではそうです。

遊びと学習の関係

まあ、実はこういうことなんです。私たちは皆それが真実であってほしいと思っています。私もそうでした。遊びは学習だと。私たちは皆これを信じていて、私は何年もそれを研究してきました。でも実際には、その主張を立証するのは極めて難しいんです。

行動の豊かさを見ることはできます。「まあ、当然彼らは学んでいるに違いない。だってたくさんのことをしているから」と言えます。見てください、彼らは人形を作っていて、それに耳を傾けていて、私の子は母親とタコについてこんなゲームを作って、その中に入れています、と。

でも実際、4歳児がプレイドーでソファの下にヴェロキラプトルを捕まえているとき、彼らはより良いネズミ捕りの作り方を学んでいるわけではありません。ヴェロキラプトルについて学んでいるわけではありません。目標指向的な行動について学んでいるわけではありません。プレイドーの性質について学んでいるわけではありません。彼らはそれら全てを知っているんです。だからこそ彼らはこのゲームを発明して遊んでいるのです。

だから非常に難しくなってきました。繰り返しますが、私は遊びが学習であるという主張をする論文を何十本も書いてきました。だからそれも行っているんです。私はそれを否定しているわけではありません。遊びの中でたくさん学びます。特に幼児がブロックで遊んだり、基本的な物体の性質について探索的に学んだりするときには。

でも4歳、6歳、10歳、私たちのような年齢になると、学んでいるとは思いません。やっていることは思考なんです。

思考しているからといって、より良い計画立案者になっているかはわかりません。でも確かなのは、新しいアイデアを生成し、それらのアイデアを解決し、新しいアイデアを生成し、それらのアイデアを解決するというプロセスに対して報酬を得ているということです。

これについて言いたいことはたくさんありますが、問題は私たちが本当にそれら全てを見て、学習や目標達成に変えたいと思っていることです。でも私はもうその話は成り立たないと思います。

遊びこそが学習の全て

それには強く反対します。遊びが学習なのではありません。これが学習の全てなんです。これらが学習を促進する行動なのです。

例えば、ARC AGIゲームに放り込まれたとします。目標は与えられていません。ターゲットも与えられていません。ただ環境が与えられるだけです。コントロールが何をするのかわかりません。達成すべき目標が何なのかわかりません。そして実際、望むなら自分で目標を設定することもできます。

ゲームを終わらせるには、好奇心を発揮しなければなりません。いろいろ試したり、意味がないように見えることをしたりしなければなりません。自分にとって興味深いものを追いかけることになります。そして実際、この種の行動を導いている非常に具体的なものがあります。

歯車のついた箱と子どもたちが相互作用している動画を見せていたとき、彼らは箱が音を出していることに気づいて、好奇心を持って、それと相互作用しようとして、テストしていましたよね。これがARC AGIで成功するための行動の種類なんです。

実際、これらの行動を示さなければ、これらのゲームを解くことはできません。

探索の目的

でもちょっと反論させてください。なぜなら、確かにそれらのゲームで成功するにはある程度の探索が必要ですよね。でも、ローラが話している全ての行動を、何らかの探索に包含できるとは思いません。

他の誰かから与えられたタスクを解決するために探索することと、根本的な違いがあると思います。実際、それはあなたのゲームに定義されて組み込まれています。現実世界では、指示は与えられません。具体的な目標は与えられません。

でも私が言っているのは、もし本当にあなたのゲームで思いついたことを何でもやったら、あなたが設定した指標では成功しないということです。

それは絶対に真実ではありません。私たちはプレイヤーに「これをする必要がある」とは言っていません。目標についての指示を与えていません。

いや、でもあなたたちはグラフを出しましたよね。私たちの論文からグラフを取りました。だから私たちはこれの専門家です。

待って、待って。これは実は深遠な点です。深遠な点があるんです。私たちは人々に何をすべきか言っていないし、彼らはどんな目標でもつかむことができるんです。どんな目標でも、何でも望むものを。

ゲームと開放的領域の違い

一度に一人ずつ。わあ。私は本当に求めていたものを正確に得ましたね。気をつけて。気をつけて。

ここには本当に重要な区別があります。他の誰かが作ったゲームと、完全に開放的な領域との間の区別です。ゲームには、どんな人間のプレイヤーにもゲームのルールとゲームの目標があることを示唆する含意があって、あなたの仕事は実際にそれらが何かを理解してゲームを解くことです。それに対して、ゲームと呼びたくもないような完全に開放的な領域があります。

それがまさにローラの要点です。つまり、ベッドの上にカップやおもちゃの束があります。子どもがゲームを作るんです。彼らは他の誰かのゲームを解いているわけではありません。

探索行動の実験的研究

私がやった全ての実験では、数年前にマックス・シーガルと一緒にやった実験が、学習と長い話の繋がりの最良の例だと思います。私はいつもそれを見せます。

箱にビー玉を入れるんです。子どもの仕事は、箱の中に9個のビー玉があるのか2個のビー玉があるのかを推測することです。箱を振って、中に何が入っているか推測できます。本当に簡単です。ただ音を聞くだけです。

でも時には9対2だったり、9対8だったり、9対4だったりします。実際、これらの識別問題がどれくらい難しいかを正確に教えてくれる目的関数があります。そして驚くことに、子どもたちが箱を振る時間は箱の中のビー玉の数では予測されず、その識別問題の難しさの線上で予測されるんです。

最後の4つを事前登録できましたし、子どもたちがどれくらい探索するかを呼び出すことができました。これは素晴らしいことです。

でも、もし私が子どもたちをその箱とビー玉と一緒に放っておいたら、彼らは決してそれをしなかったでしょう。箱にビー玉を投げたかもしれません。箱の下でチューチュートレインを作ったかもしれません。何でもできたんです。

そして科学者としての私の問題は、20年間遊びを研究した後でも、その非常にシンプルなパラダイムと非常にシンプルな問題空間で、どんな子どもが何をするか、あるいは何を学んでいるかについて、始める前よりも何も言えないということです。

だから私たちが世界を創造できることは疑いませんし、あなたが絶対に正しいことも疑いません。私が見せた全てはARCゲームで成功するために必要です。問題は、確かにゲームを解くために目標を理解し、あなたのゲームで物事を行うために開放的な方法で探索する必要があるということです。

でも実際にその行動を広く見ると、実際にはそれらのARCゲームを解く目的でほとんど使われていないんです。彼らがそれを使っているのは、まったく新しいものを発明するためです。彼らはあなたのようになるためにそれを使っているんです。

思考の価値と測定

私は知能をテストするためにゲームを作ろうとしています。どうやってそうすることに決めたのか。まあ、知能を理解してゲームを使うのは良いアイデアだと思いました。同じことです。

あなたは自分ができることを探索しています。自分にとって興味深いものを探索しています。そしてあなたの可能性と世界モデルを使って自分の目標を設定し、それを続けて、より多くの目標を設定し続けています。

これは同じ行動であり、実際にゲームで成功し、人生で成功することを可能にする同じ構造なんです。

ジュニーにエールを送りたいと思いますが、もう一つ言いたいことがあります。成功することが問題なんです。成功するとはどういう意味ですか。

あなたはソファのクッションの下でヴェロキラプトルを捕まえることに成功するわけではありません。具体的な目標に成功しているわけではありません。

時間の経過とともに可能性が拡大していれば成功なんです。何かについてより良い理解を得ていれば、新しいスキルを得ていれば、より多くのことができるようになれば、力を得ていれば、それが成功です。そしてそれが私たちが従っている成功の勾配なんです。

ベンチマークの役割

ジュニーに移る前に、知能の測定とベンチマークについて戻りますが、ジュニー、これについて何か共有したいことはありますか。

はい、実は私はローラとフランソワが多くのことで同意していると感じています。人々がたくさんの異なるタスクで成功するために展開する行動の豊かさについて同意していますし、それを測定するかもしれない様々な方法について同意しています。

そして私はほとんど疑問に思っています。私たちは知能のベンチマークについて話すためにここにいて、タスクを考え出さなければならないからでしょうか。明確に定義されたタスクのようには見えない、AIのための新しい目標を定義する方法はありますか。サンドボックスのような、あるいはより開放的な方法で。

Minecraftで遊べます。そう、サンドボックスみたいな。

つまり、そう思いますが、まあMinecraftは良い例です。でもより一般的には、成功の基準はただゲームをプレイし続けたいと思うことだと想像できます。

ゲームをプレイすることですよね。成功は死を意味すると思います。つまりゲームが終わることを意味します。もう楽しくないということです。そして子どもたちがこれらの開放的なゲームを作るときにやっているのがそれです。潜在的に永遠に続けられるんです。

ベンチマークと研究の進歩

さて。ジョシュに質問したいと思います。この人間らしい知能に向けた進歩についてですが、私たちは皆それが存在することに同意できると思います。人間は知的です。はい、人間は人間らしいです。

まあ、それは確かに興味深いですね。そして知能というものがあるとすれば、とりあえずの間、研究の進歩を遂げるには測定が重要であるように思えます。

まず、ベンチマークは人間らしい知能の研究において重要だと思いますか。そしてベンチマークはその分野を前進させる上でどんな役割を果たせるでしょうか。

そうですね、ここでの議論は課題を示していると思います。なぜなら、AI、特に機械学習の多くの人々が、機械学習は最近ではAIとほぼ同義になっているか、少なくともAIが機械学習ベースのアプローチと同義になっていますが、ベンチマークを持ち始めてから初めて分野が進歩し始めたと言うからです。

彼らはこれをImageNetやそれ以前のもの、そしてその後のものなどに遡らせます。そういった種類のベンチマークやリーダーボード、コンテストを持つことによって、分野は以前は測定やメトリクス化が難しかった何らかの進歩の概念を測定できるようになったことは確かに安全で公平だと思います。

でもだからといって、私たちが進歩していなかったわけではありませんし、それらのベンチマークがあるときに、必ずしも私たちが望む正しい種類の進歩を遂げているわけでもありません。

だから私は、ARC AGIや財団のようなものの課題の一部は、どうやってこれをやるかということだと思います。物事を測定できることの価値は見えますし、計算認知科学者として、私やここにいる同僚たちがやることの多くは、実験を行い、何かを測定し、それを定量化することです。

人間の認知のモデルを構築したり、AIでモデルを構築しようとしたりするとき、単に論文を出版するためだけでなく、定量化できるものから学んでいると感じます。それは重要ですし、異なるモデルを比較して評価したり、話すときに比較したりできることが重要です。

ベンチマークというものは、一晩で蒸発するのではなく、ある程度の永続性を持つもの、少なくともある程度のものを意味します。異なるものを置いて、レベルの競争場を持つことができる場所です。私はこれら全てのものを評価します。

同時に、人間の知能とは何かについて話すとき、サムとローラが言っているようなことの一部に私は非常に共感しますし、しばしば言ってきました。それを一つのベンチマークに変えようとするとき、特に私たちが測定した方法、あなたが測定している方法、そして私たちが論文で長い間測定してきた方法で成功を測定する場合、行動効率のようなもので、それは素晴らしい測定だと思います。だから私たちはそれを考え出しました。

でもそれはあなたを制限します。そして私たちは分野として、ジュニーが言うように、どうやってそれを測定したり、それが何を意味するにせよ評価したりする方法を考える必要があります。固定されたタスクセットについてではなく、問題作成のようなことについて、人間の知能のはるかに開放的な方法で。

思考の喜びと学習の測定

つまり、そう思いますが、これは実際に広く、神経科学においても問題です。私たちの測定は実際に学習進捗率や権限付与、EIGのようなものになります。いろんな異なる指標があって、私が何か押しているものがあるんですが、もっと良い言葉がないんですけど、私たちは明らかに物事について考えることを楽しんでいます。

それらが想像上のものであっても、それらが偽の前提だとわかっていても、物事について考えることを楽しんでいます。現実世界の類似物がなく、実行可能性や目標達成の可能性がなくても。

次の新しいアイデア、次の新しい計画を生成する報酬について実際に話す何らかの測定が必要です。アイデアについて、それらが間違っているとわかっているときでも、素晴らしいアイデアだと言えます。

子どもが女の子はママのお腹に生まれて、男の子はパパのお腹に生まれると推測するときのように。それは間違ったアイデアであり、良いアイデアです。

良いとはどういう意味でしょうか。そのような場合に良いとは何を意味するのでしょうか。そしてそれらは無数にあります。

思考を考える能力、内的一貫性についてのこの美徳を持つ思考を作る能力、それは常に最も確率が高いわけではありません。アイデアが完全に間違っているように見えるときでも、素晴らしいと考えることができます。

そしてときどき、私たちの事実が間違っていたために、それらが正しいことが判明します。ダーウィンのアイデアは当時の物理学と完全に両立しませんでした。熱核反応について知るまで、地球は進化を許すほど長く存在していませんでした。事実が間違っていました。アイデアは正しかったんです。

だから私は、その一貫性の測定が私たちが思っているよりも重要だと思いますし、思考対思考の関係、思考対世界の関係ではなく、本当に重要だと思います。そしてそれによって報酬を得ること、それを報酬と感じることが重要です。

言語モデルと世界モデル

ジェイコブに質問があります。あなたの講演での世界モデルは本当に魅力的でした。このことについて素晴らしいブログ投稿もありますので、皆さんぜひチェックしてみてください。

現在の言語モデルは世界モデルを持っていると思いますか。それは非常に素早く答えるのが難しい質問かもしれません。そして世界モデルは、私たちが先ほど見た人間らしい知能と現在のAIとのギャップについて何を教えてくれるでしょうか。

そうですね。まあ、いくつかの点があると思います。最も基本的な意味では、明らかにそうではありません。あなたがこういった種類の質問をして、人々が何であれ、これらのモデルが世界の何らかの一枚岩的な根底にある一貫したモデルを持っているという観点では説明できないような種類の応答パターンを得るという意味では。

同時に、おそらく人々も、あなたが望むような最も洗練された形ではそれを持っていないと思います。

私たちが通りの向こうの建物から隣の建物に引っ越したとき、約6ヶ月間、レスリー・ケーリングのオフィスは32号館にありますかと聞かれたらイエスと答えていましたし、51号館にありますかと聞かれてもイエスと答えていました。

これは、いくつかの事実をキャッシュして、いくつかの小さな事実を記憶しなければならないという類のものだと思います。声明の一つまたは別の値を見つけ出すたびに、宇宙の歴史をゼロから要約しているわけではありません。

だから、言語モデルのように見えるもの、一般的なAIシステムのように見えるものが構築しようとしている内部表現の種類について持ちたい心的モデルという観点では、全てを説明する単一の一枚岩的な根底にあるモデルを持つことは、望ましいかもしれませんが、おそらく計算上も実行不可能です。

そして、絶対的な意味で一貫性を維持するためにできることと、実際に効率的に質問に答えるためにできることの間には、常にトレードオフがあります。そして私たちは今持っているモデルでそれを見ています。人々の中にそれを見ています。

ゲームプレイとAIの能力

魅力的なことです。ここで聞いたことをまとめると、現在の言語モデルは世界モデルを持っておらず、人間は疑問符ということです。

サム、あなたに質問があります。ビデオゲームについて話していますが、これは今日のテーマのようなものですね。AI分野でビデオゲームは新しいものではありません。

ビデオゲームをプレイする超人的なAIは、おそらくもっと前からあったかもしれませんが、2014年、2015年のAtari用DQNのようなものがありましたし、それ以来たくさんの例があります。でも確かにAIによるゲームプレイに新たなエネルギーがあるように感じられます。

それは、このテクノロジーの次の領域を解き放つ鍵なのでしょうか。

すみません、どのテクノロジーですか。

ああ、すみません。AGIと言おうと思いましたが、まだそこに到達していないと思いますし、到達すべきだと思いますが、AIが現在示していない新しい能力とだけ言いましょう。

最初の講演で示されたパフォーマンスプロファイルが、その点を非常に明確にしていると思いました。人々が得意なことで、これらの機械学習システムが得意でないことが明らかにあります。

そして繰り返しになりますが、私たちの知能の定義が人間が得意なことであるなら、それが私たちが埋めたいギャップであり、そうですね、あなたが言うことは真実でなければなりません。

でも認知科学者として、ここで何かが欠けていると感じます。なぜなら、人間がこれらのゲームでやっていることを基本的に学習曲線に煮詰めることに非常に焦点が当たっているからです。

そして人々がやっていることは、それよりもはるかに豊かです。もちろん、エージェントがやっていること、人工エージェントがやっていることも、潜在的にそれよりもはるかに豊かです。

そして彼らが異なっている特定の方法や同じである方法、そしてそれが彼らがやっていることについて何を教えてくれるかについて、ほとんど精査されていません。

例えば、先ほど話していたEMPOの研究では、これを何も見せませんでしたが、エージェントがどんな種類の物体との相互作用を求めているか、あるいは彼らがどんな探索パターンを行っているかのようなことを見ました。

特定の領域でエージェントがどこに行っていたかのヒートマップを作成しました。人間と人工の両方で、それを学習効率だけでなく、彼らがやっている具体的なことについて何かより具体的なことを言う基礎として使いました。

これは私たちが人間と実験を行い、彼らが何をしているかを理解しようとするときに定期的にやる種類のことです。

学習と思考の関係

認知科学が機械学習に方法論的に貢献できるかもしれないことの一つは、エージェントが実際に何をしているかを本当に理解しようとするこの種の態度だと思います。ただエージェントを構築して、それを数字で要約するのではなく。

ところで、あなたはビデオゲームへのこの情熱のようなものは、あなたもビデオゲームをプレイしますか、それとも学術的な設定だけですか。

いいえ、つまり、自分をゲーマーと呼ぶかどうかわかりませんが、はい、ビデオゲームは好きです。

それは超クールですね。ただ興味がありました。副次的な点です。どうぞ。

質問してもいいですか。ここで出てきているテーマの一つは、学習と思考の間で行われているこの区別のようです。それについてかなり話してきました。学習の喜び対思考の喜びについて話してきました。

そして私は、実際の関係と区別が本当に何なのか疑問に思っています。例えば、思考は学習を助けるべきですよね。あなたは自分の一貫性や物事が矛盾しているかどうかについて考えています。それは世界について何が真実かを学ぶのを助けるはずです。

そしてジェイコブの研究はそれを示していますよね。メタ認知的反省が有用であることを。そしてもちろん、世界について学ぶ事実が多ければ多いほど、より良く考えられるようになり、新しい思考を考えられるようにもなるはずです。

私が辿り着いている質問は、彼らの間の関係が実際に何なのか本当にわかっているのかということです。例えば、ARC AGIを本当にうまく解けるこれらのモデルがあれば、それによって拡張として無料で、新しいゲームを生成するのも得意になるということもわかっているのでしょうか。

これらのものに入っていくコンポーネントは全く同じものなのか、それともどこで分岐し始めるのでしょうか。

そうですね。素晴らしい質問です。ゲーム生成について。ARC AGIソルバーは、実際にこれらのゲームのバリアントを設計したり、与えられたゲームの新しいレベルを設計したりすることもできるでしょうし、実際にできるはずです。

そしてこれがゲームのモデルを持つということの意味です。

それならなぜそれをベンチマーク3.5の一部にしないのですか。

実際にゲームを解く唯一の方法、そして効率的に解く方法は、それらのモデルを構築することだと思います。そして良いモデルがあれば、それは生成的モデルでもあるでしょう。それはモデルのようなもので、あなたはできるのです。

もちろんそれには同意します。でも私が言っているのは、もし学習進捗のモデルと、私が提起しようとしていた似たような質問の間のギャップを埋めるための一歩を踏み出そうとしたいなら、でもあなたの方が私が考えることさえできたよりも良く表現しました。

思考の進捗とは何なのか。どうやってそれを測定できるのでしょうか。

これはそれを測定する一つの方法かもしれません。もしあなたがベンチマークを拡張して、学習効率だけでなく、ジュニーが彼女の講演で話していた他の全てのことや、ローラが話してきたことをシステムにやらせる能力もテストするなら。

つまりそれが私たちの研究でやっていることです。だからなぜやらないのですか。

これらは非常に良いアイデアです。それには異なる種類の測定が必要です。完全に開放的な環境に手を伸ばすだけではありません。目標の質をスコアリングできます。

例えば、そうですね。ちょっと慎重になりたいと思います。なぜなら、人間について興味深いことの一つは、他の動物よりもはるかに多くを学べるということですが、他の動物よりもはるかに多くの方法で間違うこともできるということです。

だから深く真実ではないアイデアを考えることができます。あらゆる種類のものを生成できます。科学者として人間は世界を見回します。それは人間の認知の特徴でもあり、バグでもあると思います。

でも私たちの思考が世界を正しく捉えることや、物事を改善したり良くしたりすることに繋がる必要はないんです。非常にしばしばそうなりません。

私たちが書いた論文が「愚行礼賛」と呼ばれたのには理由があります。巨大な価値があると思います。私たちがそのように柔軟に考える能力は、私たちがそういう種類の学習者であり知性であるために極めて重要だと思います。

でもそのような存在であることが、私たちをより良くしたり、より正確にしたりするだけだと考えるのは間違いだと思います。それは明らかにそうではありません。

そして本当に重要なことの一つは、私たちが自分自身の目的関数を設定できるということだと思います。何を評価するかを決められます。どんな目標でも追求できます。その目標が真実と効率であろうと、全くその逆であろうと。

そして私は、AIに自分自身の目的関数を設定させたいかどうかわかりません。

知能と目標設定

もし知的なら、そうしなければならないんです。知的であって、目標設定能力を持たないことはできません。

今のところ、あなたの目標は私たちが設定する目的関数にかなり密接に結びついています。

それは真実ではありません。それは真実ではありません。ここには目標に焦点が当たりすぎています。ゲームの要点は勝利条件に到達することではありません。

スーパーマリオか何かのような。ゲームの要点はプレイする体験なんです。

私たちは皆それに同意します。でもあなたは実際にはまだそれを測定していませんよね。だから質問は、あなたはそれを測定しようとすべきか、それともシフトさせようとすべきかということです。

そして私はローラの挑戦と注意の両方を真剣に受け止めています。人間のように知的であるためには、本当にこれらのことができなければならないというあなたに完全に同意します。

そして私たちは本当に機械に自分自身の目標を設定する完全に開放的な能力を持たせたいのでしょうか。どうやってそれをナビゲートするかは、私たちが真剣に受け止める必要がある本当の挑戦です。

それは極めて深刻です。これはまた、サムが最初に尋ねた、汎用知能または普遍的知能と人間の知能の違いは何かという質問にも関連していると思います。

人間データによる学習

確かに、今これらの種類のベンチマークでうまくいっているシステムの種類を見ると、私たちは膨大な量の人間が生成したデータで最初にそれらを訓練し、その後おそらくこれらのタスクで少しファインチューニングを行うことで、それらを構築します。おそらくしないかもしれません。

でもローラが以前に言っていたことに対して言えば、これは知的システムを構築する発達的に完全に妥当性のない方法です。

進化は最初の近似として、英語や他のどんな言語も見たことがありません。インターネット上の全てのテキストのようなものは確実に見たことがありません。

そして、一方ではこれはベンチマークが持つべき望ましい特徴かもしれません。私たちは一般的な目標やタスクを気にしているのではなく、人々が解く方法を知っていて、解くことに関心を持っている種類のタスクを気にしているということです。

したがって、これらの種類のベンチマークでうまく機能するシステムを構築する正しい方法、あるいは今持っている最も効率的な方法が、たくさんの人間のデータをモデリングすることから始めることであるという事実を良く感じるべきです。

あなたたちが言及したように、人々にとって難しすぎるために捨てたこれらの問題全ても、実際にベンチマークにそれらの問題も含めて見ることは非常に興味深いと思います。

それらも解けるシステムを構築できる程度、そしてそれがたくさんの人間の行動データを見ることでスケールする行動なのか、それとも完全に異なるスキルセットを必要とするのかを見ることです。

そしておそらく、私たちは実際にそれらのモデルを訓練したくないかもしれません。あるいはしたいかもしれません。

ローラはノーと言っています。

それらはGitHubリポジトリにあります。消えていません。まだそこにあります。

観客からの質問

観客から質問を受けましょう。パネルの全員が質問をしましたね。皆さんはどうですか。誰か質問がありますか。マイクがあちらにあります。

私の質問は、これらの推論について全て、思考の連鎖のようなものです。

質問がモデルが生成したものを追跡して、最も効率的な方法で特定の問題に取り組むための思考プロセスとペアにして、基本的にベンチマークをスコアリングし、問題の質を使って進捗を測定する何らかの方法はありますか。

2つ目はレッドチームについてです。つまり、もし実際に全てのCWE CVEの表面攻撃にパッチを当てようとしているなら、実際にその方法を試しました。でも私はそれが実際にAIセキュリティ問題を解決する正しい方法だとは思いません。

実際にオフラインであなたたちと話したいだけです。あまり時間を無駄にしたくありません。でもそれが本当に私の質問です。

興味深いですね。AIとセキュリティはこのパネルであまり出てきませんでした。

ローラ。

こんにちは、ローラ。セキュリティの問題。

ああ、わかりました。もう一つ質問があります。これはあなたの汎用知能の定義に適用したように見える目標設定基準についてでした。なぜなら、魚がARC AGIプライズの要件のほとんどを満たしているように見えるからです。

彼らは人間が設定したパズルの中で、食べ物やより好ましい条件を求めてパスファインディングができます。そして魚は本当にそれらの目標を設定しないように見えますが、あらゆる種類の問題を一般化できます。

あなたは魚がこれらのゲームを解けると言っているんですか。

似たようなゲーム。そうです。

そうですね、私は確信していません。それを見たいと思います。

魚のテストは来週始めます。ただマウスを押すのが本当に難しいんです。

だから魚のタンクの右側にライトが点いていて、もう片方は消えているようなものがあって、魚が通れるプラスチックの間に穴を置くと、数回の試行、5回くらいの試行で、魚は…

これは良い指摘だと思います。ローラとジュニーが書いた論文を参照したいと思います。私もその中で小さな役割を果たしました。インプラ論文です。

あなたがおっしゃっている通りだと思いますし、私たちが捉えようとしている、あの論文で私たち全員が共著者として捉えようとしている、ある種の知能という意味があると思います。

それは世界モデルを持ち、それを使ってある種の効用や目標を達成するために行動を素早く学習し更新し、それを使って計画できるということです。それが根本的に脳がやっていることです。脳はそれをするための器官です。

脳を持つ全ての動物は、それぞれのユムウェルト、それぞれの経験の中で、何らかの形でそれを行っています。

でも人間について特別なことがあります。それは私たちが、これらの認知能力全てを進化が私たちのために用意した直接的なニーズから切り離して、信じられないほど開放的な目標のセットに付け加える能力を持っているということです。

そしてそれがローラとジュニーが彼らの遊びの研究で部分的に捉えようとしてきたことだと思います。それの性質は何なのか。なぜ私たちはそれを持っているのか。それはどう機能するのか。

私たちの直接的な、あるいは明らかに進化的な成功とは何の関係もない、開放的な可能な目標のセットを取って、何らかの形でそれらについて考え、それらについて考えることを何が報酬的にするのかという感覚を持つその能力の役割は何なのか。

だから人間の心にはその点で特別なことがあります。それが彼らが引き出そうとしていることです。

動物も遊べますよ。

努力と報酬の関係

こんにちは、私の名前はレイチェルです。今コロンビアのピーター・バルサムの研究室で、努力と、身体的努力がマウスの報酬の価値を調整できるかどうかについて、興味深い研究が行われています。

比較認知の領域に戻って申し訳ありませんが、より多くの努力が費やされるものは、実際にマウスの報酬の好みを、彼らがどれだけの努力を費やしたかに応じて変えることができます。

本当にクールです。後で話したいと思います。でも好奇心があります。とにかく、ジュニーに質問があります。これはジュニーとローラへの質問です。あるいは本当にこれについて洞察を持っている人なら誰でも。

あなたのプレゼンテーションで、ジュニー、ゲームを楽しんだかどうかと実際にそれを解いたかどうかの間に観察された相関関係があることを示しましたね。解いた場合に楽しんだという強い好みがありました。

非常に好奇心があります。ゲームが難しくて解けるものであれば、より楽しいと考えられると想像します。

そして私は好奇心があります。これらの線に沿って、ゲームの楽しさにおける認知的努力の役割について、子どもたちと、潜在的に仮想ゲームと大人の両方で聞きたいと思います。

その質問をありがとうございます。だからローラとジョシュと一緒に書いたあの論文では、努力について少し書きました。

努力は費用がかかることも、報酬になることもあります。そして私たちは時々、ある種の努力を世界に出すことを評価することを学ぶことができます。

同時に、私たちはまだ怠惰で努力を出したくないこともあります。だから努力がいつ費用がかかり、いつ実際に報酬として、あるいはタスクが価値があることのシグナルとして扱うかについて、本当に興味深いパズルがあると思います。

私が示した特定のタスクでは、パズルは本当に本当に難しかったです。人々はこれについて、努力と楽しさのU字型曲線のようなものについて話しています。まさに挑戦のゴルディロックスのスイートスポットにいるときで、それが最も楽しく、最も報酬的であるべきです。おそらく学習の機会も最も多いでしょう。

最初の研究では、私たちは本当に難しさの末端にいました。だから私たちはタスクを解けたかどうかとの強い相関関係を見つけたのだと思います。

そして今、私たちはスキルのもう一方の端を研究しようとしています。だからそれは私たちが設計している測定や実験デザインの問題のようなものです。

でも私たちはまた、概念と戦略の種類にも本当に興味があります。先ほど私が示したグラフは、x軸が取られたステップの数でしたね。それは物事について考えるのがどれくらい難しいかを反映するかもしれない物理的な行動コストの一種ですが、必ずしもそうではありません。

だから他の方法があると思います。今日聞いた抽象化のレベルや、低レベルの行動や高レベルの概念と戦略の観点でタスクをどう表現するかについて考えるような。だから私はそれに飛び込むのが本当に楽しみです。

クールですね。もっと見るのを楽しみにしています。

複数の努力の概念

そうですね、つまり、これに追加すると、これは最初の思考の連鎖についてのコメントにも関連していると思います。定量化できる努力の異なる概念がたくさんあります。

一つは世界で取った行動の数です。一つは世界で観察した新しい状態の数です。どれだけ見たかというより情報理論的な測定です。

一つはあなたが実際にどれだけ懸命に考えなければならなかったかです。そしてこれらのタスクの一つでシステムをベンチマークすることを、データ効率だけでなく、計算効率の観点からも想像できます。

そして、より少ない努力で以前に見た解決策に対してパターンマッチできる程度、または以前に見た解決策を再導出することを避けられる程度まで、システムはより賢いです。

だから進歩の測定としての学習効率について話すときでさえ、それはかなり複雑な多次元空間だと思います。そして様々な場所に計算努力を追加するための現在のモデルのノブの数が増えるにつれて、より複雑になっていると思います。

ベンチマークの有用性

このベンチマークが人間の知能を捉えているかどうかについて多くの論争があるように思えますが、私が好奇心を持っているのは、パネルの皆さん、このベンチマークは有用だと思いますか。これは私たちにとって有用ですか。

はい。

はい。

はい。

絶対に。

フランソワでさえ、つまりあなたは自分で話せますが、あるいは話しました。

フランソワはこれが知能を定義することを意図していないと言うのはかなり明確だと思います。これは知能の構成要素を捉えることを意図しています。

そしてその一つの構成要素が全体像のどれくらいか、あるいはその構成要素のセットがどれくらいかについて議論できますが、それは重要な構成要素です。

ベンチマークはただ実用的であることを意図しています。知能を理解し、知能を実装することに向けたある程度の進歩につながる有用なツールであることを意図しています。

それは全体としての人間の知能を捉えることを意図していません。

概念学習と認知発達

一般的な認知科学の質問があります。私が概念の理論ベースのモデルを構築しようとしているときにやっていることのように感じます。例えば、今私が正しいと思っていないものに遭遇したとき、一般的に満足できる全体的な世界観を維持するために事前確率を更新します。

例えば、私が子どもで鳥が何かを理解しようとしているとします。今私の鳥の概念は、ああ、あれのような、飛べる、空中にいる、というようなものです。

そして飛べなくて翼がない別のものがあります。だからそれは鳥で、それは鳥ではありません。そしてある日ダチョウを見ます。

正しいです。そして明らかに鳥が何かという私の世界モデルから、ダチョウは飛べません。だから「ああ、それは鳥じゃない」と思います。

そして後でそのダチョウへの分類ラベルに遭遇して、実際にダチョウは鳥だとわかったら、私は鳥が何かという私の定義を更新するために以前の事前確率を再割り当てしています。それは常に鳥が何かというセットの中にあるように。

そしてそれは羽を持つものというような新しい離散的なルールか、鳥が実際に何であれ何でも良いのです。そして私はARCで多くの類似点に気づいたと思います。

パズル番号は正確には覚えていませんが、最初に遭遇するとき、この場合は反転するというルールがあります。でも次のパズルでは何らかの理由で反転しません。

そしてより多くのデータに遭遇するにつれて、以前のパズルが全体を説明するこのより一般的なルールのインスタンスであることに気づきます。例えば、あなたのDSLプリミティブが垂直反転ではなく、反転括弧方向イコール垂直のようなもので、それがより多くの自由度を与えることに気づきます。

だから私の質問は、これは人間に訓練されているのか、それとも赤ちゃんは生まれたときからこの満足不可能性の概念を持っているのでしょうか。それとも赤ちゃんを訓練して、ああこれは不可能な物理だ、これを見たら泣き始めるようにしなければならないのか、それとも生まれたときから既にそれを知っているのでしょうか。

満足不可能性というのは論理的不可能性のようなものですか、それともただのエラーですか。

この世界モデルを存在させることができる真偽値の割り当てはありません。

あなたは例から模型を合成する能力を持って生まれていると信じています。そしてそれはあなたが人生の毎日行使する能力です。

でもあなたはもっと具体的なことについて話していました。それは一般的な世界モデルについてではなく、基本的に論理的矛盾を認識する能力についてですよね。単調なような。

そうです。でも私はジェイコブが以前に言っていたことに戻ると思います。大人でさえ矛盾している例がたくさんあります。

でもそれは私たちを悩ませます。

悩ませますが、私たちは常にそれに気づくわけではありません。

それは正しいです。私たちは常にそれに気づくわけではありません。私の質問は、もし誰かがそれを指摘したら、少なくとも私が知っている全ての文化には、それについて何かをするという何らかの命令があるということだと思います。

理解への欲求

あなたはそれを無視しようとすることもできますが、この満足可能性のウィンドウのようなもので、明らかに、新しい数学的なものを見たとき、私は事前確率を足し算まで完全に更新しているわけではありませんが、私の脳の中で何かを再訪しなければならないというトリガーになるこのウィンドウがあります。

そして私の推測は、私たちはそれを持って生まれているのか、それともモデルにそれを誘導できるのかということです。

私たちがなぜ理解したいのか、それは本当に興味深い質問だと思います。ジョシュはこれについてたくさん話してきましたね。私たちはただ物事を知るだけではありません。ただ物事を学ぶだけではありません。物事を理解したいんです。

つまり、満足のいく一貫した抽象的な説明が欲しいということです。私たちが使うこれら全ての言葉です。

そしてそれは必要ないんです。多くの場合、ほとんどの時間、非常に正確な予測にかなり遠くまで行けます。この本当の理解し意味を作りたいという欲求を持つことなく。

そして私は、それが本当に豊かな質問だと思います。その種の表現の性質は何なのか。赤ちゃんについて私たちが知っていることの一つは、ピアジェは間違っていたということです。

感覚と運動学習や具体的な事実から始めるわけではありません。どちらかといえば、それは逆です。私たちは非常に抽象的な知識から始めるか、非常に抽象的な表現を導き出して、それから程度の差こそあれ、詳細を埋め始めます。

でも私たちが詳細を知らないものはたくさんありますが、やっていくのに十分な抽象的知識を持っています。

だから抽象化の最高レベルは実際には最初に来ます。でもそれは、なぜ私たちが一貫したフレームワークと説明と理解に駆り立てられるのかという質問には完全には答えていないと思います。

それは人間の知能について非常にユニークなことだと思います。

概念の複雑さ

それに追加すると、理論を構築したり世界モデルを構築したりすることについて、今日私たちの多くが話してきたことは、何らかの事実に適用して、この事実が真実であるかないか、あるいはこの次の状態が何らかのモデルの下で期待されるかされないかと言える、離散的なルールベースや言語ベースなどの構造のようなものだと思います。

そして実際には、知的な行動を支える概念の多くや、世界を通り抜けるために必要なものは、これらの素敵で綺麗なルールベースの定義に単純に還元できないものです。

つまり、適切にも、それをその方法でできないものの有名なヴィトゲンシュタインの例はゲームです。

そしてそれは、これらの素敵なルールベースの環境、素敵なシンプルなルールセットに支配された環境について考えているときに、心に留めておくことが重要な知能のもう一つの側面だと思います。

それに追加しようと思っていました。つまり鳥の例は適切です。なぜなら、心理学の分類と概念学習についての研究がかなりあって、人々が昔、典型性勾配と呼ばれるものがあることに気づいたからです。

だからコマドリは、ダチョウよりもはるかに鳥のカテゴリーの典型的な例だと考えられます。彼らは両方とも鳥の論理的定義を満たすかもしれないにもかかわらず。

そして実際、それが基本的に古典的な概念理論を殺したものです。なぜなら研究者たちは基本的に実験的に、人間の概念学習を基本的に概念の論理的定義を満たすルールを見つけるという観点では合理化できないことを理解したからです。

でも実際にジョシュやノア・グッドマンのような人々のおかげで、ある種の第二の人生を得ました。これらの典型性勾配のいくつかの側面を捉えることができます。概念を純粋に論理的なものとして扱う代わりに、申し訳ありません、概念は論理的ですが、概念が何であるかについて不確実性があるとすることで。

だからその不確実性によって、あなたの推論が段階的になります。そしてそれはジェイコブが話していることに到達するための少なくとも一つの道ですが、唯一のものではありません。

それはあなたが物事の理解の異なる側面を問い合わせているようなものだからですよね。知覚的に似ている2つのものを見て、その2つを区別しようとしている場合。

このものが何かという知覚的な言葉のモデルを問い合わせていますが、理論ベースの表現を問いているわけではありません。そしてそれが勾配である理由ですよね。

それは部分的にはそうですが、確率的な勾配の概念だけではありません。理解のようなことについて話しています。ローラが言っていたようなことだと思いますし、あなたがダチョウの例で考えると、ダチョウが鳥かどうか本当にわかっているかどうかを考えさせるのは、しばしば誰かがダチョウを鳥とラベル付けすることではなく、ダチョウが走っているときに翼を羽ばたかせるかもしれないけど飛び立たないのを見ることです。

おお、翼があったのに。何をしているんだろう。鳥のように見えるけど飛ばない。へえ。興味深い。

それがあなたの好奇心をキューにするかもしれない種類のことで、それは鳥が飛べるようにする原因は何かというあらゆる種類の因果的理解と関係があります。なぜ鳥は翼を持っているのか。翼を持つこと、飛ぶこと、そして動物や種がそのニッチで役割を占めることを作る他の全てのものとの関係は何か。

そしてあなたが生物学の歴史を見ると、動物がどこから来たのかを理解しようとしている人々、それが彼らが考えている種類のことです。

この問題についてローラが言ったこと、フランソワが言ったこと、これが私たちの中でどれくらい深いかについてだけ言います。

アリストテレスはこれについて考えた最初の人々の一人でした。少なくとも私たちが持っている方法でそれについて書いた人で、それは本当に彼の思考の中心になりました。そして私は、それが西洋哲学の創設的なアイデアになったと主張したいと思います。

それは全ての人間が理解したいと望むことで本性上生まれているということです。

人間の定義は、アリストテレスの他の行のように、私たちが羽のない二足歩行だとか、そしてダチョウがあるとかいうことではなく、むしろそれが私たちの本性の中で最も根本的なものだということです。

私の研究室にいた人々は、私がこの屋内のものに入っていることを知っていますが、皆さんへの読書提案です。

もしアリストテレスの形而上学を最近、あるいはこれまでに読んだことがないなら、少なくとも最初の本を読むことを強くお勧めします。ここで話しているほとんど全てのアイデアを見ることができるでしょう。遊びの価値、本当の遊び、そしてそれが子ども、芸術家、数学者の間で深く共通しているものとして、知能の推進力であることも含めて。

そこでそれを見ることができるでしょう。そしてもし明確でなければ、ジョナサン・リアの本『アリストテレス、理解への欲求』もお勧めします。これはこのアイデアのより現代的な説明です。

そこで素晴らしいまとめの点があります。今日のパネリストの皆さん、講演をありがとうございました。この活気ある会話に参加してくれて。

皆さんが新しいアイデアのいくつかを拾ったり、飛び込むべきものや、これらの非常にトピックについてのあなた自身のホットテイクのアイデアが湧いたことを願っています。

arcprize.orgに行ってください。トレ、ああ申し訳ありません。わあ。

いくつかゲームをプレイしてください。本当に試してみてください。フィードバックを教えてください。そしてプレイできるAIを作るかもしれません。そして今行われている活発なARC Prize 2024コンペティションに参加することもできます。

ありがとうございました。ただの推測です。いいえ、いいえ、これは…

タイムトラベルについて話しませんでしたか。ああ、それが次のレベルの知能ですね、ジョシュ。

まあ、そうですね、全てチェックしてください。もし誰かに質問したいなら、私たちは少しの間ここにいます。わかりません、グレッグ、15分くらいかな。

もしまだあれば、ピザもあるかもしれません。でも今夜来てくれた皆さん、本当にありがとうございました。本当に感謝しています。パネリストの皆さんに拍手を送りましょう。

コメント

タイトルとURLをコピーしました