
4,478 文字

さて、Mike NとFrançois Cholletが提案したARC-AGIテストについて、多くの質問を受け、コメントを求められています。少し背景を説明すると、Mike Nについてはあまり詳しくないのですが、François Cholletの深層ニューラルネットワークに関する本は実際に読んだことがあります。これは彼がKerasで働いていた時期のもので、Kerasは現在の世代のTransformersの先駆けとなったものです。François Cholletは非常に優秀なコンピュータサイエンティストで、深層学習や人工知能の専門家です。
これから言うことの前置きとして、私は彼を尊敬していて、彼が非常に賢いことは認めています。しかし、彼は知能についての理解が十分ではありません。ARC-AGIテストを見た瞬間から、これは実際には知能のテストではないと思いました。その理由について、メモを取っていたので、一つずつ説明していきましょう。
まず、このテストについて説明させてください。これは四角形と色とパターンに基づいたテストです。これは非常に自閉症的なテストです。これは侮辱的な意味で言っているのではなく、自閉症者として、パターン変換を含む知能テストを受けた経験から言うと、これは非常に非常に狭い種類の知能を測るもので、たった一つの非常に小さな種類の推論、一種の知能しか測れません。そしてそれは主にパターン認識に関するものです。
すべての知能はパターン認識だと言えるかもしれません。しかし、知能はパターンの合成でもあります。このテストには少しの抽象化は含まれていますが、それほど多くはありません。別の言い方をすれば、このテストはパーティクルフィルタや、ルールを一般化する進化的アルゴリズムで解くことができます。
そのため、私はこれにはあまり感心していませんが、メモを見ながら説明していきましょう。まず第一に、最大の問題点は、これが制約のある空間だということです。実際の知能は制約がありません。自然界にグリッドは存在するでしょうか?人類の進化の過程で、火を作り出すことを学んでいた時に、グリッドは関係していたでしょうか?小さなチェッカーボード上のカラフルなパターンが、人類が火や石器の加工、動物のパターンを理解するのに役立ったでしょうか?
私たちの脳の働きの大部分は、パーティクルフィルタにずっと近いものです。Jeff Hawkinsの「千の脳」を読んでください。信じられないなら。基本的に、脳には数千の皮質微小コラムがあり、それらすべてが投票し、異なるアイデアを出し、そして正しいものに集約されていきます。これが、単一のモデルよりも専門家の混合モデルの方がはるかに優れた性能を示す理由です。なぜなら、神経科学や認知について本当の知識を持たないコンピュータサイエンティストたちが、ゆっくりと逆エンジニアリングしているのは、実際の人間の脳の働き方だからです。
このテストは制約があり、オープンエンドではありません。もう少し攻撃的に言えば、これは80年代や90年代の数学者が考えそうな方法です。完全なシミュレーション環境を作るのは難しすぎるので、非常に単純な数学的ルールを持つ、非常に小さな制約のあるシミュレーション環境を作ろうというものです。そして、数学的ルールが基本的にすべての問題空間の良い一般化、良い代用になると暗に仮定しています。
実世界において、数学エンジンで何かを再現しようとする時、ハンマーを持つ人にとってはすべての問題が釘に見えます。そして、古典的なコンピュータサイエンティストや古典的な人工知能エンジニアにとって、これがFrançoisの立場です。彼は純粋に数学的な視点からアプローチしており、世界全体を数学的なレンズを通して見ています。
しかし、人間の脳がその低いレベルでそのように働いているという証拠はあまりありません。その証拠として、動物研究や人間研究を見ることができます。基本的に、トレーニングなしでは、私たちの算術能力は単純な足し算と引き算、基本的に片手か両手で数えられる程度です。それ以外では、脳は数学的には働きません。
おそらく非常に低いレベルでは、個々のニューロンやシナプスの活性化関数で少しの対数的な線形代数はできるかもしれませんが、機能的なレベル、パフォーマンスと出力のレベルでは、私たちの脳は数学的な実体ではありません。
これは隠れマルコフ問題のように見えます。隠れたルールがあるという点で、これは長い間、音声認識にアプローチしてきた方法と似ています。つまり、空気の音を音素にマッピングし、それを単語にマッピングし、さらに意味にマッピングするというものです。
いくつかの層の隠された意味があり、古典的なコンピュータサイエンティストとして、François Cholletがこれを抽象的推論をテストする素晴らしい方法だと考えるのも理解できます。なぜなら、彼の視点からすると、抽象化の層をテストする唯一の方法は隠れマルコフ連鎖だからです。しかし、これも実際の人間の脳の働き方ではありませんし、実際の知能の働き方でもありません。
そして、これが抽象化と推論のテストだと彼が言うのを聞いて、さらに驚きました。神経科学、認知、人間の知能、動物の知能を研究していない人にとって、抽象化が何であるかを本当には理解していないのです。抽象化には、メタファー、下位語、上位語の使用、そして領域を超えた洞察の変換が必要です。
しかし、いくつかの色付きの四角形が、どのように領域を超えて変換されるのでしょうか?このテストを解けば、良いダンサーになれるでしょうか?このテストを解けば、核物理学に洞察を加えることができるでしょうか?非常に単純な制約のある数学的な意味以外では、これは抽象化や推論を全く表していません。
実世界はオープンエンドで、混沌としていて、騒々しく、ノイズに満ちています。だからこそ、人間の脳の大部分は信号対ノイズの選別に関するものです。信号対ノイズの選別とは何かというと、蝸牛や視交叉、後頭葉など、脳のすべての入力経路、すべての入力皮質が行っているのは、信号を明確にし、脳に入ってくる情報を単純化することです。もっと詳しく知りたい方は「The Forgetting Machine」という本を読んでください。
実際の知能は、まず最初のレベルでは信号対ノイズ比の蒸留に関するものです。それは入り口に過ぎませんが、その先には、メタファーや上位語、下位語を使用して、意味的抽象化の層を作り出すことが含まれます。これは純粋に数学的なアプローチです。
明らかに、脳が行っていることの一部を数学で近似することはできます。それは私たちがしなければならないことです。しかし、これは実際の知能の働き方ではなく、厳密な論理です。そして厳密な論理は実世界にはめったに当てはまりません。だからこそ、私は常にパーティクルフィルタに立ち返るのです。
パーティクルフィルタは基本的に、コンピュータを使用して一連のパーティクルを生成し、この場合、パーティクルは単なる一つの可能性です。そして、可能な答えをランダムに大量に生成し、明らかに機能しないものをフィルタリングします。この種の推測と確認の方法はロボット工学で広く使用されています。
そしてロボットは実際に実世界で動作しなければならず、ロボット工学におけるパーティクルフィルタは、厳密なシミュレーションモデルや、厳密に数学と論理に基づいたものよりも優れた性能を示します。なぜなら、実際の知能が重要な実世界は、混沌としていて、ノイズに満ちているからです。そして十分に近い答えを得られれば良いのです。
もう一つ気付いたのは、これは単純な進化的アルゴリズムで解けるかもしれないということです。これで答えられるか?いいえ。これで答えられるか?いいえ。そして、より良く答えられるものを選ぶだけです。
このビデオの作成を控えていましたが、「これは明らかにAGIへの道だ」「これがAGIをテストする」と言う人々を十分に見てきました。これがどのように現実を反映しているのでしょうか?反映していません。現実を反映しているのではなく、数学者が考え出した非常に狭い、高度に制約された、いくぶん恣意的な問題空間しか反映していません。
私は数学者や物理学者を大いに尊敬しています。私の親友の何人かは数学者や物理学者です。しかし、私が言いたいのは、実際にAGIを設計したい場合、実際にAGIをテストしたい場合、私たちが持っている強い知能の唯一の例である人間を研究する必要があるということです。
私は常に本を紹介しています。この話題では、Jeff Hawkinsの「千の脳」、V.S. Ramachandran、「The Forgetting Machine」、David Badreの「On Task」などを挙げました。知能にはさらに多くの次元があり、これが非常に狭い数学的なレベル以外でどのように適用されるのか、私には理解できません。
これは決して人工汎用知能をテストするものではありません。別の言い方をすれば、このチャレンジを解決できる機械を想像できますか?それは経済的には全く無用のものかもしれません。これは言語を解決しません。外交を解決しません。工学を解決しません。これはIQテストの一つの小さな部分に過ぎません。
私もIQテストを受けたことがありますが、このようなものはIQテストで見られるでしょう。しかし、他の種類の推論、他の種類のテストも期待されます。では、これには価値があるのでしょうか?このテストは特定の種類の視覚的推論には価値があるかもしれません。なぜなら、これは非常に特定の種類の視覚的推論だからです。
しかし、どの神経学者を研究するかによって、知能の次元は8から5,000まであり、視覚的推論はそのごく小さな要素に過ぎません。そのため、私は感心していません。この意見は一部の人々にとって非常に刺激的に受け取られるかもしれません。
しかし、私はこのテストを気にしていません。私にとって興味深いものではありません。これは90年代後半から2000年代初頭に、私のいとこと一緒にロボティクスチャレンジのために見ていたようなテストに似ています。Cでプログラム的に解決できる方法を想像できます。
実際、私ならこうアプローチします。「Claude、これらのチャレンジを見て、これを解決するPythonスクリプトを書けますか?」と聞いてみるでしょう。Claudeならできる、あるいは少なくとも近いところまでいけるでしょう。
これはAGIテストではありません。これをAGIテストと呼ぶのは非常に傲慢です。これを作った人々は神経科学と実際の知能について十分な知識を持っていません。申し訳ありませんが、この議論に水を差すようですが、私は単に感心していません。
ご視聴ありがとうございました。


コメント