
27,200 文字

これは、ノスター・アドベンチャー・ライブイベントの最初のひとつやねん。メンロースクールには、この素晴らしい施設を提供してくれはって、本当にありがたいわ。ここで対話ができるのは本当にすごいことやで。ジェフ・ホーキンスとスブタイ・アハドには、時間を割いてくれてありがとうございます。
このイベントの主な目的は、みんなが学んで楽しんで、考える機会を持つことやねん。最後に質問の時間も設けるつもりやで。脳がどう働くのか、知能をどう発達させるのか、そしてそれをどうやって機械知能に応用できるのか、っていうトピックの交差点みたいなもんやね。今ホットな話題やから、それを一緒に考えられるのは面白いと思うわ。
まず、簡単な観客参加型の質問からやな。AIの仕組みが分かってると思う人、手を挙げてみて。1人…確実に1人やな。数人かな。AIの仕組みが全く分からへん人は? はい、そうやね。残りの人は、ちょっとは分かるけど…色々やな。ええやん、そういう感じで。
次の質問。脳の仕組みが分かってると思う人は? はい。子供おる人? 子供がおったら、脳がゆっくり発達していく様子がよく分かるからな。脳の仕組みが全く分からへん人は? はい、そうやな。
今夜は両方について学ぶチャンスやで。この小さなサンプリングで面白いのは、みんな違う経験を持ってるってことやな。だから、みんなそれぞれ違う感覚を持ってて、質問への答えも違うんや。ジェフとスブタイが話すように、それぞれの参照フレーム、経験、そしてどうやってそれを取り入れていくかが違うからな。その経験のコミュニティを通じてこそ、本当に知性と知恵を引き出し、活用できるんやで。それがノスタラの目的なんや。
ノスタラ、ラテン語で「私たちの世界」っていう意味やけど、多様な経験を持つコミュニティを作ることが目的なんや。私たちは一つの世界に生きてて、一つのチームなんやということを理解した上でな。問題を解決する方法を見つけ出さなあかんのや。私たちは一つのチームやという哲学で、お互いの経験から学び、問題を解決するための正しい場所を見つけなあかんのや。
始める前に、もう一度メンロースクールにこの素晴らしい会場と、スタッフの皆さんのサポートに感謝したいわ。私たちと協力してくれる姿勢にとても感謝してるし、これからもっと一緒に仕事ができたらええなと思ってるわ。
さて、始めましょか。ジェフとスブタイを迎えられて本当に嬉しいわ。ジェフは多分覚えてへんやろうけど、ほとんど近所みたいなもんやったんやで。まあ、AONの近所やから、実際はかなり離れてるんやけどな。同じコーネル大学出身として、彼の活躍を見守ってきたわ。パームパイロットの開発での彼のコンピュータースキルにせよ、脳の仕組みを解読する神経学的な洞察にせよ、本当に刺激的やったわ。
ジェフは神経科学者であり、ベストセラー作家でもあるんや。最近「千の脳 – 知性についての新理論」っていう本を出版したんやけど、今日はそれについてもっと聞けると思うわ。
スブタイにも感謝したいわ。スブタイはヌーマのCEOで、このトピックに非常に情熱を持ってるんや。彼の目標は、人間の脳の働きについての洞察を次世代の人工知能アプリケーションに応用することなんや。その移行がどうなるか楽しみやわ。汎用的なツールを作ることが目標やと。
さて、ジェフから始めてもらおうか。「千の脳」について教えてくれへんか?
はい、来てくれてありがとうございます。喜んで話させていただきます。
若い頃、大学生の時に脳に恋に落ちたんです。人生で脳の仕組みを理解することほど大切なことはないと決心しました。私たちみんな脳を持っていて、私たちは脳そのものなんです。私たちの脳は驚くほど似ています。経験は違えど、みんな脳を持っています。
宇宙で最も神秘的なもののひとつで、最も理解されていないもののひとつでした。それが我慢できなかったんです。これがどう働くのか理解しなければならない、人類に関するすべてのこと、私たちがこれまでにやってきたすべてのこと、そして私たちの問題や機会のすべては脳が作り出しているんだと。それが私たちをユニークにしているものなんです。
だから、脳の仕組みを理解することに人生を捧げようと決心したんです。直線的な道のりではありませんでしたが、過去20年間、スブタイやドン・デビンスキー(今日も会場にいます)と一緒にヌーマという会社を立ち上げました。基本的に神経科学理論の専門研究所として活動してきました。
かなりの進歩を遂げましたよ。脳の大部分で何が起こっているのか、かなり良い考えを持っています。詳しいことは後で質問があれば答えますが、私たちは大脳新皮質という部分を研究しています。これは脳の上部にある大きなシワシワした部分で、脳の約75%を占めています。知性の中心地なんです。
そこで何が起こっているのか、本当にコードを解読したんです。「千の脳」という言葉は、本のタイトルであると同時に、理論の名前でもあります。そんなに複雑な理論ではありませんが、詳細はかなり複雑です。デイブが簡単に説明してほしいと言ったので、やってみましょう。
まず、あなたの脳が何をしているのか考えてみてください。世界のモデルを作っているんです。世界と相互作用し、世界を見て、物に触れて、動き回るとき、基本的にはあなたの頭の中にすべての内部表現を作っているんです。コンピューター支援設計モデルのようなものですね。文字通り、建物や看板、文字、電話、マイク、そういったものすべてのモデルがあなたの頭の中にあるんです。
ニューロンはどうやってそれをするのか? 脳はニューロンでできています。私たちはそのコードを解読しました。この内部モデルについて言及したい点が2つか3つあります。この内部モデルがあなたを知的にしているんです。
まず、この内部モデルは世界との相互作用を通じて学習されます。単に座って受動的にデータを受け取るだけでは学習できません。文字通り世界と物理的に相互作用しなければなりません。なぜそうなのか説明できますが、世界の仕組みを理解するには、私たちが感覚運動と呼ぶものが必要なんです。
2つ目に学んだのは、このモデルが脳の中でどのように構造化されているかということです。参照フレームというものを使っています。技術系や数学系の人なら知っているかもしれませんが、基本的にはデータを構造化する方法です。
ニューロンには、部屋や建物、相互作用する可能性のある物体のような構造を作り出す巧妙な方法があります。そしてこの構造に物事を割り当てるんです。これは、コーヒーカップのような単純なものから、政治のような複雑なものまで、すべてに当てはまります。すべて同じメカニズムの参照フレームの上に構築されています。本の中でもこれについて詳しく説明しています。
3つ目、これが「千の脳」の由来なんですが、大きな大脳新皮質は約15万の同一の部分に分かれています。皮質コラムと呼ばれるもので、15万個の米粒サイズのものが一緒になって、この大きなシートを作っているんです。これがあなたを知的にしているんです。
これらのコラム、15万個のユニットのそれぞれが同じことをしています。繰り返しのアルゴリズムです。異なる入力を見ています。視覚や聴覚、触覚の一部を見ているものもあります。すべてが同じことをしていて、すべてがモデルを学習しています。
つまり、あなたの頭の中には15万のモデリングシステムがあるんです。それらがどのように機能し、相互作用するのかを理解しなければなりませんでした。米粒サイズですが、非常に複雑です。1つのコラムに約10万個のニューロンと5億個のシナプスがあります。これらは非常に複雑なシステムで、15万個あるんです。
だから「千の脳理論」と呼んでいるんです。1つの場所で学習するのではなく、同時に何千ものモデルで学習するからです。これが名前の由来です。
これが、世界について学ぶ方法を理解するためのフレームワークです。一度これがどのように機能するかを理解すれば(詳細は複雑ですが、理解できます)、それを何に使うかを考えることができます。
教育のための基本理論が必要です。心理学や精神医学、精神疾患のための基本理論が必要です。しかし、人類のためのツールを作るためにも使えます。脳のように機能する、本当に洗練された機械学習やAIシステムを作ることができるんです。
そこで、スブタイとのパートナーシップが重要になってきます。彼が今まさにそれを推進しているんです。
スブタイ: 少し補足させてください。家から持ってきたおもちゃがあるんです。
デイブ: 視覚的に説明すると、これを広げると、ディナーナプキンサイズで、厚さ約3mmの脳の大脳新皮質になります。ここに個々の皮質コラムがあります。できるだけ近づけてみました。
ジェフ: そう、垂直に並んでいる柱のようなものです。
デイブ: ここに要素があって、本を読んで分かったのは、目からの画素が個々の、あるいは画素のグループが個々の皮質コラムに行くんですね。でも、目全体が多くの皮質コラムに広がっています。頭の後ろの大脳新皮質での最初の計算で、それらをどうやってまとめるんですか?
ジェフ: 深い話題に急に入っていきますね。でも、説明しましょう。これは魅力的な問題です。私たちは世界の絵を見て、その絵を処理していると感じていますが、それは全く真実ではありません。
神経科学者たちはこれをしばらく知っていました。脳には目からの入力全体を見ている部分はありません。網膜の各小さな部分が、これらの小さな皮質コラムの1つに投影されています。各皮質コラムは網膜の小さな部分だけを見ています。
各コラムは視覚空間の小さな部分だけを見ていますが、動くことで学ぶことができます。ストローを通してしか見ることができなくても、物の見た目を学ぶことができるようなものです。動き回る必要があります。
同時に、これらすべてのものが網膜の異なる部分を処理していて、それぞれが視覚世界のモデルを持っています。各コラムは一度に少しずつしか見ていません。彼らがすることは、お互いにコミュニケーションを取り、何が起こっているかについて投票することです。
1人が「これの一部しか見えていない」、別の人が「これの一部が見えている」、「これの一部が見えている」というように。単独では、まだ見ているものが何かわからないかもしれません。すべてが動き回らない限りは。でも、お互いに投票することができます。
だから、物事の隙間に気づかないんです。人々は盲点について話しますが、なぜ盲点が見えないのでしょうか? 盲点は、この椅子をつかむときの指の間の隙間と変わらないんです。椅子の残りの部分はどこにあるんだろうって思わへんやろ? 一部しか触ってへんのに。
何が起こってるかというと、世界を感知している部分それぞれが、何が起こっているかについての仮説を持ってるんや。彼らには投票と呼ぶコミュニケーション方法があって、すぐに合意に達するんや。彼らは言うんや。「私たちが世界の異なる部分について知っている中で、唯一理にかなっている仮説はこれや」って。そしてそれがあなたが知覚するものになるんや。
だから、世界全体を見ているという錯覚があるんやけど、実際にはそうじゃないんや。それは投票の結果なんや。あなたが実際に見ているものじゃないんや。
これ、本当に魅力的やと思うわ。たくさんの例があるからな。この参照フレームを持ってて、何かを見慣れた方法で見るってことやろ? それが全部この小さな断片に分かれてるんや。
みんなや何人かの人は、あの狂ったゴリラを見たことあるやろ? 真ん中に入ってきて踊り回るんやけど、誰も実際には見えへんのや。スローモーションにしてゴリラを探さないと。でも、脳は歴史から、現実だと思うものを埋めていくんや。
そうそう、そのとおりや。脳はすべての隙間を埋めるんや。これらのクレイジーな視覚効果で簡単に分かるけど、すべてのことに当てはまるんや。あなたの参照フレームから、現実だと思うものを埋めていくんや。本当に深く見つめて、意識的に見たもの、感じたもの、何でもいいけど、それが正しいかどうかを解きほぐそうとするまではな。
スブタイ: そうやな、その中で最も魅力的な側面のひとつ、ちょっと言及したけど、その基本的なアルゴリズムと構造、つまり視覚野を構築して、目に見える物体の視覚的知覚を作り出すものが、すべての側面、すべての感覚様式、そして思考のあらゆる側面に使われる、まったく同じアルゴリズムと構造なんや。
これは神経科学における最も注目すべき発見のひとつやと思う。トップ10に入るんちゃうかな。まったく同じ構造、まったく同じアルゴリズムなんや。視覚のアルゴリズム、聴覚のアルゴリズムがあるわけやない。ただ大脳新皮質のアルゴリズムがあるだけで、それが皮質コラムに組み込まれてるんや。私たちの思考のあらゆる側面がそのアルゴリズムを使ってるんや。
コンピューターサイエンティストとして、これは魅力的な概念や。単純化するものやな。
ジェフ: もうひとつ付け加えたいことがあるんや。スブタイの言うことにはすべて同意するけど、ここで触れたことをもう少し強調したいんや。
信じがたい事実やけど、世界に対するあなたの知覚は完全な作り物なんや。間違ってるという意味やないで。でも、脳がセンサーから得ているものを実際に見たら、これとは全然違うんや。
あなたが見てるもの、聞いてるもの、世界の現実のすべては、あなたの頭の中にあるモデルが作り出したものなんや。信じがたいかもしれへん。本当に理解するには時間がかかるんやけど、ここにあるすべてのものは作り物なんや。間違ってるわけやないけど、それはモデルなんや。世界そのものを知覚してるんやなくて、モデルを知覚してるんや。世界はそれを引き起こすきっかけになってるだけなんや。
これが、なぜ私たちが間違った信念を持つことがあるのか、なぜ2人の人間が同じ場所にいて全く異なる知覚を持つことがあるのかの理由なんや。あの赤青のドレスの話、覚えてる? あれは単純な例やけど、政治的な見方なんかでも同じことが起こるんや。
人間の問題や機会の本質に迫りたいなら、人間がどう機能するかを理解せなあかんのや。世界に対する私たちの理解は脳が作り出したものやということ、そしてそれは私たちが学んだモデルの作り物やということを。同じアルゴリズムやけど、異なる経験が異なる内部モデルにつながるんや。
だから、人々は本当に世界を違って知覚するんや。ほんまに驚くべきことやな。
デイブ: いくつか興味深い点に触れたと思うわ。実際、最初の本「知能について」で学んだことやけど、すべての脳細胞が同じ方法ですべての情報を処理するっていうことやな。
すべての脳細胞が見てるのは、この電気的な引き金だけなんや。脳細胞はその引き金がどこから来てるのか、目からか耳からか、何からか知らへんのや。ただ特定の方法で配線されてて、そこから何かを作り出すんや。
当時はパターンって言葉を使ってたけど、今は参照モデルに移行してるんやな。それがスブタイが言ってたことにつながるんや。視覚と聴覚が同じアルゴリズムを使ってるってことやな。
ジェフ: そうそう、その例を本で使ったんや。誰かの…詳細は覚えてへんけど、基本的に舌の感覚を使って見るっていう…
デイブ: そうそう、舌のニューロンにセンサーをつなげば、脳に見ることを教えられるっていう…
ジェフ: そうや、有名な実験やな。バッチ・イ・リタって人がやったんや。感覚置換って呼ばれてる。面白いのは、最初は舌がチクチクする感じがするだけなんやけど、使ってるうちに視覚として感じ始めるんや。
つまり、視覚が視覚として感じるのは、アルゴリズムが違うからやない。パターンの性質のせいなんや。だから、舌にパターンがあれば、舌で見始めるんや。信じがたいけど、そういうことなんや。
デイブ: それは…どこかからの信号を受け取るこの計算要素があって、そのすべての計算要素が似たようなプロセスを実行する…パターン認識をするんやな。
そこから今、この参照モデルに移行して…これには歴史的な側面があるんやな。キッチンに入るとき、同じキッチンに入るんやけど、皿が違う場所にあるとか、何かが違うって気づくんや。そこでモデルを更新するんやけど、参照モデルの残りの部分はそのままにしておくんやな。
常に常にそのモデルを更新してて、その変化をどう見るかっていうのと、新しく来た人がどう見るかっていうのは違うんやな。新しく来た人は、キッチン全体をそのモデルに書き直さなあかんのやな。
これ、本当に魅力的やわ。それを人間の異なる知覚に拡張すると、本当に驚くべきことになるんや。
じゃあ、参照フレームについて聞きたいんやけど。接続性はどうなってるんや? 投票について少し話したけど、その投票によって接続が作られて、参照フレームが全体的な形になるってことなんかな?
スブタイ: そうやないんや。説明しよう。皮質コラムの話をしてるけど、皮質コラムは感覚様式に依存しない普遍的なアルゴリズムなんや。皮質コラムが参照フレームを含んでいて、構造化されたモデルを構築するんや。
この理論から出てくる驚くべきことのひとつは、すべての皮質コラムが完全な脳の機能をすべて持ってるってことなんや。大脳新皮質ができることをすべてできるんや。
これには、世界の物体の非常に構造化されたモデルを構築することも含まれてる。私たちが参照フレームと呼ぶものを使ってな。安定した世界の知覚を構築するんや。
異なる皮質コラムが感覚器官の異なる部分からの入力を受け取ってる。だから異なるものを見てるんや。投票プロセスで起こることは、各皮質コラムが世界で何が起こっているかを理解しようとしてるんやけど、世界の小さな部分しか見えへんのや。ストローを通して見てるようなもんや。
他のすべての皮質コラムは別のものを見てて、彼らはすべての可能な組み合わせの中から曖昧さを解消するために投票を使うんや。そして、実際にそこにある特定の知覚や特定のものに素早く絞り込んでいくんや。
つまり、投票は参照フレームに依存してるんやけど、投票自体は独立してるんや。
もう一つ良い例があるわ。触覚の例や。黒い箱に手を入れて中に何があるか当ててくれって言われたら、1本の指でもできるやろ。1本の指でやる場合、指を物の周りに動かして、異なる位置で触る必要があるんや。
そうすることで、脳は指がどこにあるか、何を感じているかを追跡してるんや。でも、全手や両手を一度に入れることもできる。そうすれば、あんまり動かさんでもええんや。1回で掴んだら「あ、これコーヒーカップやな」ってわかるかもしれへん。
1本の指の場合は動かさなあかんけど、これが投票なんや。指の異なる部分、大脳新皮質の異なる部分が世界の小さな部分を感知してて、それぞれが完全に動き回れば何が起こってるか理解できるんやけど、一緒に投票することで「私はこれに触ってる」「あなたはそれに触ってる」「私たち全員にとって意味があるのは1つだけや。ビンゴ、それはコーヒーカップや」って言えるんや。
これが投票の良い例やと思うわ。異なる感覚センサーがどうやって相互運用するかも説明してるんや。何かを部分的に聞いて、部分的に見ることがあるやろ。それぞれは完全に曖昧かもしれへんけど、同じアルゴリズムで動いてて、同じ参照フレームの言語を使ってるから、実際に投票して、見てるものを解明できるんや。
デイブ: これらの皮質コラムは、アーキテクチャ的に平らなんか? それとも生の感覚入力を受け取る皮質コラムがあって、それから別の皮質コラムの出力を受け取る別の皮質コラムのセットがあるんか?
ジェフ: 両方やな。最も単純な脳を作るとしたら、1つの皮質コラムを取って、小さな感覚入力を与えれば、世界のモデルを学習するやろう。並列に多くのコラムを置いて、それぞれが感覚器官の異なる部分を見て、すべてがモデルを学習し、投票して合意に達することができる。
でも、これらのものは大脳新皮質の中で階層的にもつながってるんや。大脳新皮質はシートやけど、一部は直接感覚入力を得てて、一部は他の皮質コラムからの入力を得てる。
これがどう機能するかというと、私たちが学ぶ多くのものは「構成的構造」と呼ばれるものなんや。つまり、物事は他の物事で構成されてるんや。
例えばドアは物体やけど、ドアにはドアノブやヒンジ、ラッチがある。それらも別の物体なんや。他の場所にも存在するかもしれへん。特定のドアは、「このドアにはこんな感じのラッチがあって、ここにヒンジがある」というような構成物体なんや。
これは実際、大脳皮質の階層構造の中で学習されてるんや。今ではこのプロセスをかなり良く理解してると思うわ。世界は物事で構成されていて、その物事も他の物事で構成されてる。すべてが他のものの集まりなんや。これが私たちがどのように学習するかの大きな部分なんや。
これが、皮質コラムが垂直に、あるいは階層的につながっている場合や。でも、並列につながっているものもたくさんあるから、かなり複雑になるんや。
でも、スブタイが言ったことに戻るけど、重要なのは、どこでも同じアルゴリズムが使われてるってことなんや。階層の上の方にあろうが、下の方にあろうが、水平に異なる様式にあろうが、基本的にどこでも同じことが起こってるんや。
これは、もしこれらのものをシリコンやソフトウェアで構築したいなら、たくさんの異なるものを構築する必要はないってことにつながるんや。たくさんの同じものを構築して、それらを正しく接続する方法を知ればいいんや。
ちなみに、これが進化の時間の中で人間の脳が急速に大きくなった理由なんや。基本的に同じものを何度も複製することで、それは進化の観点から見ると単純なことなんや。新しいシステムを発明して、また新しいシステムを発明して…というのとは違うんや。
私たちもAIシステムで同じ進化の道をたどることができるんや。
デイブ: このモデルで、「知性」と「知恵」という2つの言葉を説明してもらえんか? 両方について聞きたいんや。その知恵の状態に到達せなあかんからな。
スブタイ: インテリジェンスについて私から説明させてもらおうか。今日、AGI(汎用人工知能)について多くの話があるよな。ネットワークが知的やってことは皆知ってるか? AGIは人工汎用知能の略で、あらゆる面で人間と同じくらい賢いAIのことを指すんや。
ChatGPTの話はまだしてへんけど、一部の人はもうAGIレベルに達してると思ってるんや。でも、人々はインテリジェンスについてたくさん話してて、システムが本当に知的かどうかを判断するための複雑なテストがたくさんあるんや。
でも、私にはそういうのが的外れに思えるんや。インテリジェンスとは何かって考えてみよう。千の脳理論に戻るけど、まずはアインシュタインのことを考えてみよう。
みんなアインシュタインは超知的やったって言うやろ。めちゃくちゃ賢かったって。でも、6ヶ月のアインシュタインはどうやった? その人は知的やったんやろうか?
みんな6ヶ月のアインシュタインも実際かなり知的やったって言うと思うんや。最終的に相対性理論を生み出せるんやからな。でも、6ヶ月のアインシュタインは、今日のAI研究者が使うインテリジェンステストのすべてに失敗するんや。
これを考えると、インテリジェンスとは何かって疑問が湧いてくるやろ。大脳新皮質と皮質コラムの話に戻ると、私たちが考える大脳新皮質がしてることは、世界を理解するためのモデルを構築すること、あらゆるデータソースを理解すること、世界を動き回れること、物事を起こせること、そして急速に学習できること、これらの構造化された表現を学習できることなんや。
これが本当のインテリジェンスなんや。千の脳理論が教えてくれるのは、これがどのように脳の中で実装されてるかってことなんや。
デイブ: 子供が成長するにつれて、世界のモデルを構築していくんやな。若いときはそれに時間がかかるけど…
で、知恵について聞いたけど、どうなんや?
ジェフ: 知恵やコンシャスネスのような言葉の問題は、あまり明確に定義されてないことやな。でも、日常的な知恵の考え方を試してみよう。
2人の人間を想像してみて。彼らの脳は同じくらい能力があって、同じ生の材料を持ってる。でも、人生で異なる経験をしてるんや。
例えば、あなたは国際関係を勉強して、世界の紛争の歴史なんかを研究したとする。私は脳の研究をして、人生を無駄にしたとしよう。
そして今、何か問題を見てて、あなたがこの問題のアナロジーを思いつくんや。「これはセルビア人とトルコ人の間の何々紛争みたいやな」って言うかもしれへん。答えは知らんけど。
私は「わあ、あなたは賢い人やな。深い洞察を持ってる」って言うやろう。それは、あなたが私にはない世界のモデルを持ってるからなんや。だから、私にはできない世界についての質問に答えられるんや。
逆に、あなたが私に「なんで子供たちがおかしな行動をしてるのか説明できる」って言うかもしれへん。そしたらあなたは「あなたは賢い人やな」って言うやろう。私が脳を研究してきたからな。
ポイントは、知恵というのは、私たちが持ってる世界のモデルを使うときに現れるってことなんや。私たちはみんなユニークな経験をしてるから、異なる深さや才能、スキルを持ってる。基本的に同じ生の計算能力、同じ生の材料を頭の中に持ってるけど、異なる経験をしてるんや。
知恵は、そのモデルのひとつから洞察を適用できること、多くの人が持ってない内部モデルの予測を適用できることなんや。そのとき、私たちは「あなたは賢いな」って言うんや。
「わあ」って感じやな。そのような知識を得るのに一生かかったかもしれへんな。政治がどう機能するかを理解するのに一生の研究が必要やったかもしれへん。それがあなたを賢い人にするんや。
だから、私たちは年配の人を賢いと考えるんや。彼らは人生を経験してきたからな。私はいつもそう自分に言い聞かせてるわ。年を取るにつれて何か良いことがあるはずやって。
デイブ: これを人間の理解と機械への応用に適用すると、どんな感じになるんや? ハードウェアセンサー系の人間なんで、ソフトウェア系じゃないんやけど、小さなプロセッサを15万回複製したように見えるんやけど。
このモデルが特定の問題に、あるいは最終的な採用にどう適用されるのか、少し話してくれへんか?
スブタイ: はい、あなたの質問には多くの側面がありますね。まず指摘したいのは、AIやニューラルネットワークは元々神経科学からインスピレーションを得たものですが、今日のAIシステムには私たちが話してきたこれらの概念は実際には実装されていないんです。
ChatGPTやディープラーニング、トランスフォーマーネットワークなど、どれを見ても、構造化されたモデルを構築するというこれらの概念は入っていません。
その結果、これらのシステムは信じられないほど非効率的で、非常に電力を消費します。私たちが経験したよりもはるかに多くのデータを投入しなければならず、私たちが考えるような真の知能ではありません。
これらの原則を取り入れることで、これらのシステムを真の知能に近づけ、はるかに効率的にし、本当に素早く学習できるようにすることができるんです。
そして、ジェフが言ったように、本当に複雑なシステムを構築する必要はありません。この多少複雑なシステム、つまり皮質コラムの多くのコピーを構築する必要があるんです。
今、私たちはそれを理解しているので、異なるコンポーネントを実装することができます。私たちの公開論文でも話していますが、今日のハードウェアでも実装することができます。
今日のAIシステムを信じられないほど電力効率が良く、データ効率が良く、継続的に学習でき、世界の構造化されたモデルを本当に構築できるようにすることができるんです。
ジェフ: スブタイの言ったことに少し付け加えたいんだけど、少し飛ばしたかもしれないことがあるんや。
脳がこれらのことをどのように行うかについて、私たちはかなり深い理解を持っています。でも、今日のAIシステムは、ある意味で非常に単純なんです。このような複雑な構造や参照フレーム、動きなどは全く持っていません。
スブタイと彼のチームは、いくつかの神経原理を取り出して、まず既存のシステムに適用する方法を見つけ出しました。そこを少し飛ばしたかもしれません。
とても賢いと思います。私たちは両方とも本物の脳を構築しようとしていますが、彼は「このChatGPTのようなものをもっと速く、安く、エネルギー消費を抑えることができる」と言ったんです。
劇的にね。脳からのほんの少しの原理を取り入れるだけで。完全な脳を構築する必要はありません。まだChatGPTと呼べますが、同じことをしながら、100倍速く、100倍少ないパワーで動作させることができるんです。文字通り2桁の改善ができるんです。
これは過去6ヶ月くらいで起こったことです。今、私たちはこれをどうやって実現するかについて人々と話をしています。
ヌーマという会社は、この究極の脳のようなものを構築しているだけでなく、今日のAIを加速したり改善する方法も見つけ出しました。時間をかけて、これらの部分を一つずつ実装していく方法が見えてきたんです。
とてもエキサイティングだと思います。なぜなら、今日でもそれが非常に現実的で価値があるからです。エネルギー消費を99%削減できるなんて。
デイブ: いくつかのことについてもう少し掘り下げたいんだけど、私の理解では – AIについて知っていることと知らないことについて、手をほとんど下げなかった人の一人だったんだけど – パターンマッチングとして機能しているアプリケーションがいくつかありますよね。
例えば、セキュリティプロセッサからの友好/敵対認識を見ているとき、期待される特定のアクティビティパターンがあって、そのパターンが見られないときに「もっと詳しく調べる必要がある」「このアクティビティを停止する必要がある。リスクが高すぎる」と言うわけです。
これは、探しているパターンを教えられたパターンマッチで、おそらくプロセッサには経験から他のパターンを学習する能力があります。
それが行っていないことは何ですか? 参照フレームは構築していませんが…
ジェフ: ここに簡単な考え方があります。今日のAIは何百万、何十億ものサンプルでトレーニングする必要があります。そして、新しいことを学習したいときは、何度も何度もそれを繰り返さなければなりません。
それでも、かなり脆弱で、時々本当に愚かな間違いを犯します。本当に愚かな間違いをすることがあります。これらの画像を識別している写真を見たことがありますか? バナナの写真を見せると、高い確信度でスクールバスだと言うんです。
人間はそのような間違いはしません。今日のシステムは機能しますが、膨大な訓練時間がかかります。再訓練もできません。時々とんでもない間違いをします。
人間は継続的に学習します。何百万、何十億もの訓練例を見る必要はありません。新しいものを見せて「デイブ、次にそれを見たら数秒見てくれ」と言えば、「分かった、教えるよ」となります。そして、バナナをスクールバスと間違えるようなことはありません。
今日のAIには、これらの能力が欠けています。それはコストの問題、環境の問題、セキュリティと安全の問題につながります。うまく機能しますが、欠点があるんです。
ちなみに、参照フレームは使っていません。ただデータを山積みにする力技なんです。これは今日でもChatGPTで見ることができます。ChatGPTを使おうとすると、すぐにこういう声明にぶつかります。「2021年6月時点での情報しか知りません」と。
なぜそうなのか考えてみてください。なぜOpenAIやMicrosoftは、その莫大なリソースを持ってしても再訓練していないのでしょうか? 2年前のものですよ。2年は永遠に等しいです。過去2年間で多くのことが起こりました。
スブタイ: これらのシステムが2年前に訓練されたというのは正確ではないかもしれません。
ジェフ: そうですね。Microsoftは2021年に訓練を終えて、いくつかの事実をボルトオンしました。2021年以降のことを全く知らないわけではありませんが、ほとんど知りません。パンデミックの間に訓練されたんです。
スブタイ: パンデミックが終わったことを知りません。
ジェフ: そうです。スブタイが言ったように、これらのシステムは継続的に学習していません。これらのシステムを再訓練するのは非常に非効率で高コストです。
スブタイ: なぜ再訓練しないのかというと、一度訓練するのに何千万ドル、あるいは1億ドルもかかるからです。
ジェフ: CPUを大量に消費しなければなりません。
スブタイ: 奇妙なことかもしれませんが、観客の皆さんは気づいていないかもしれません。ディープラーニングという技術は実際には学習しません。静的なもので、オフラインで行われる別の学習フェーズがあります。
常に学習しているわけではありません。トレーニングフェーズと推論フェーズがあり、これは人間から見るとかなり奇妙です。人間には訓練フェーズと推論フェーズなんてありません。私たちは常に学習しています。
あなたも私も、ここに座っている間に学習しています。そして明日、私たちは今日やったことを覚えて、それについて話すことができます。訓練と学習の間に分離はないんです。
デイブ: ハードウェア中心の観点から見ると、私は無限の記憶の貯蔵庫には手を伸ばさず、その一部分にだけ手を伸ばすことになりますね。そして、その一部分を常に移動させているわけです。
あなたは世界の経験を取り入れ、この内部モデルを構築します。効率的に学習できるのは、世界を動き回り、知覚したいものを選択するからです。それらが知覚する内容を選択します。
投票はどのように関係してくるのでしょうか?
スブタイ: 投票によって、各皮質コラムは世界の小さな部分のモデルを非常に効率的に学習できます。多くの異なるソースからデータを組み合わせることで、結論をより迅速に導き出すことができ、新しいことをより速く学習できます。
世界の構造化されたモデルを構築しているので、新しいことを非常に素早く学習できます。例えば、すでに車がどのように見えるか知っています。もし初めて電気自動車を見たとしても、すぐに他の知っている車と関連付けて、違いを注目することができます。
そして瞬時にその車が何かを知ることができます。その車のあらゆる照明条件、あらゆる色、あらゆる視点での何百万もの例を見る必要はありません。
ジェフ: 投票について、より単純な説明をしましょう。投票は脳の効率化メカニズムです。同時に多くの異なるモデルを活性化させ、多くの異なる感覚入力を同時に持つことで、あまり動かなくても結論に達することができます。
例えば、危険な動物がいるかどうか、私を食べようとしている誰かがいるか、それとも私が食べられる誰かがいるかを判断しようとしているとします。ストローを通して世界を見なければならないとしたら、それもできます。「ああ、トラだ」となるでしょう。
しかし、これらのものが並行して働き、投票する場合、瞬時にそれが分かります。理論的には、本当にスマートだけどずっと遅い機械を作ることもできます。小さなセンサーを至る所に動かさなければならないからです。
しかし、推論フェーズで素早く答えを得たい場合、投票によってそれが可能になります。これは非常にコストのかかるメカニズムです。私たちの大脳新皮質は巨大で、個人のエネルギーの大部分を消費します。出産時に人を死なせるほどコストのかかる器官です。
しかし、これほど大きい理由の一つは、これらの推論を非常に迅速に得ることができるからです。投票によって、それが素早く行われるのです。
デイブ: なるほど。永遠に話し続けられそうですが、観客からの質問を受け付けましょう。真ん中の方、どうぞ。
質問者: こんにちは。とても興味深い話をありがとうございます。ヌーマのビデオをいくつか見ました。特徴について聞きたいのですが、ビデオの中で、「アフリカ系アメリカ人」「女性」「現在生きている」という特徴を組み合わせると、ビヨンセが当てはまるというような例がありました。
どのような特徴をインターフェースに入力できるのか、そしてそこからどのようにパターンが見出されるのか、少し説明していただけますか?
スブタイ: はい、システムでの特徴の表現方法や入力方法、処理方法についての質問ですね。非常に興味深い質問です。
特徴について考えるとき、特徴とは何でしょうか? コンピュータービジョンでは、特徴としてよく記述されるのは、エッジや角、小さな丸い形などです。
しかし、実際に考えてみると、例えば垂直なエッジに対する入力は、頭を傾けたり目を動かしたりすると常に変化しています。しかし、私たちはそれを単に垂直なエッジとして知覚します。
ここで起こっているのは、先ほど話した最も基本的なことです。皮質コラムは世界の構造化されたモデルを構築します。最も低いレベル、最も小さなレベルで、実際に世界で安定しているものの安定した知覚を構築しているのです。
エッジ、垂直なエッジは単に垂直なピクセルの集合ではありません。それは実際に垂直な物理的なものなのです。私はこの物理的に垂直なものを、それに対する私の視点に関係なく表現できます。
これが構造化された表現の例です。これらは皮質コラムで学習され、それを学習するために使われるアルゴリズムは、思考の他のすべてに使われるアルゴリズムと同じです。
ジェフ: すべてに同意します。もう少し付け加えさせてください。これは少し深い話になりますが、あまり深入りしたくありません。
実際、これは非常に深い質問です。世界の特徴とは何か、それに対する理解は過去1年で大きく進歩しました。まだ公には話していませんが…
実用的な観点から言えば、今まさにこれを行っています。視覚や触覚で機能するシステムを構築しています。これらのモデルを構築する上で重要な要素は、物体の形態、つまり形状であることが分かりました。
例えば、視覚システムでは、ポイントノーマルと呼ばれるものを見ています。これは基本的に表面の接線方向の見方で、重要な特徴の一つとして検出できます。
先ほど言ったように、この理論の詳細は複雑です。そして実際に複雑なんです。そこに踏み込むこともできますが、ほとんどの人にとっては難しすぎるでしょう。
特徴のような単純に聞こえることでさえ、全く単純ではないということを示していると思います。本当に核心を突き止めるには、長期間にわたって頭を悩ませる必要があります。
すべての答えを持っているわけではありませんが、多くの答えは持っています。あなたの質問にはもっと深い答えがありますが、今日はここまでにしておきます。
デイブ: モハメド、アクセンチュアからですね。
モハメド: はい、アクセンチュアのデータサイエンティストです。アクセンチュアラボでスブタイの話を聞く機会がありました。私は変わった経歴を持っているので、質問が奇妙に聞こえるかもしれません。
あなたの本を読みました。おめでとうございます。読み終えるまで何晩も起きていました。20の質問があるのですが、2つだけ選んで聞かせてください。後で残りを聞いてもいいですか?
素晴らしい講演をありがとうございました。科学的な質問と想像上の質問を1つずつします。
科学的な質問: 15万個の皮質コラムの重要性は何ですか? エンジニアとして、これはこのシステムのハイパーパラメータのように思えます。例えば、私たちの生命が異なる惑星で進化し、環境がより速く変化したり、より過酷だったりした場合、同じ時間スケールでより多くの知能、つまり15万以上のコラムが必要だったということでしょうか?
ジェフ: その質問に答えさせてください。私たちは哺乳類ですよね? すべての哺乳類は大脳新皮質を持っています。マウス、ツリーシュリュー、猫、犬、サルなど、すべての哺乳類が大脳新皮質を持っています。
実際、すべての哺乳類の大脳新皮質は同じ構造を持っています。すべての皮質コラムは同じです。私たちはマウスの脳を研究しています。なぜなら、マウスの皮質コラムは人間の皮質コラムの非常に良いモデルだからです。
マウスの皮質コラムと大脳新皮質、犬や猫、人間の違いは、第一次近似では単に皮質コラムの数です。他の違いもありますが、それほど重要ではありません。
私たちは、知的システムを定義するのは何かと言いました。それは、動きを通じて世界をモデル化し、学習する能力です。マウスはそれに該当します。マウスは私たちと同じアルゴリズムを持っています。私たちと同じ方法で学習し、私たちと同じ内部メカニズムを使用しています。
問題は、これらをたくさん持つことの進化的な利点は何かということです。前に述べたように、大きな脳を持つことには多くのコストがあります。エネルギー消費が大きく、出産時に死ぬこともあります。頭が大きすぎて通らないんです。大きな脳を持つことは、環境的にも生命的にも大きなコストがかかります。
明らかに、これは私たちを助けてきました。しかし、常に役立つわけではありません。ネアンデルタール人は現代人よりも大きな大脳皮質を持っていましたが、絶滅しました。しばらくの間、ぎりぎりのところだったんです。
でも、ここ数十万年で私たちは急に開花し、人類は地球を支配するようになりました。良いことか悪いことかは別として…
その利点は一見して明らかではないかもしれませんが、明らかに一つの利点は、世界の深いモデルを本当に学ぶ時間を取れることです。人間の場合、それには20年かかるかもしれません。機能するまでに20年、自力で生存できるようになるまでに5年かかります。
そこから得られるのは、世界がどのように機能するか、他の動物がどのように機能するかについての深い洞察や、異なる環境で生きる方法を学ぶ能力なんや。これは非常に単純な答えやけど、もっと深く考えることもできるわ。
これによって、構造の構造を見ることができるんや。より単純な哺乳類にはそれが見えへんやろう。もっと浅い理解しか持たへんし、さっき話した階層を持たへんのや。
これが効いてくるのは、20歳になって、必要な食べ物を全部手に入れられて、安全な環境で暮らせるようになったときや。そうなると、他の動物にはできへんコンピューターやツールを作り始められるんや。
でも、マウスやラット、人間、猫、犬が基本的に同じことをしてるってことを理解してほしいんや。みんな脳の中に私たちと同じ構造を持ってる。ただ、私たちはより多くの皮質コラムを持ってるだけなんや。これが真実にかなり近い近似やと思うわ。
モハメド: 2つ目の質問はスブタイに向けてやけど、いいですか? コンピューターサイエンティストとして、これらのモデルをテンプレートや垂直システムのモデルのようなものとして借用するのが好きなんやけど、適切な実験セットアップ(倫理的にどうかは分からへんけど)があれば、例えば子供に4次元を経験し、学習させることができると思いますか?
スブタイ: 子供が4次元を学べるかって質問やね。実際に経験できるかってことやけど、理論的には可能やと思うわ。
心理学者がこの実験をやってるんや。4次元物体に触れることができて、最初は完全に奇妙で、まったく予測できへんと感じるんやけど、しばらく触れてると、頭の中でポンっと理解できるようになるんや。この4次元の物体が理解できるようになるんや。
たしか4次元の立方体でこの実験をやったと思うわ。でも、これは私たちにとって自然なもんやない。私たちの脳の多くは、3次元のような低次元のシステムに向いてるんや。
理論的には、これらの参照フレームの仕組みは、たくさんの1次元のものを組み立てて作られてるんや。だから理論的には4次元、5次元、6次元を表現できるはずなんや。もし4次元、5次元、6次元の世界に住んでたらね。
ジェフ: そこにはボトルネックがあるんや。次元の数が増えると、占める空間の量が指数関数的に増えていくんや。訓練に必要なデータ量も急激に増えていく。これは次元の呪いって呼ばれるもんや。
でも、同じアルゴリズムがすべてに使われるんや。高次の思考や概念、言語、数学、文学なんかにもな。そこで考えられる次元の数はどれくらいやろうか。
私たちが考えてるのは、脳のこれらのアルゴリズムは、扱うものの次元性について事前の仮定を全く立てへんってことなんや。私たちが実際に関係するのは、ほとんどが3次元の世界や。2次元のもんもあるし、1次元のもんもある。
でも、アルゴリズム自体は、私たちの理解する限り、どんな次元の空間でも機能できるように見えるんや。さっき言った次元性の容量の問題はあるけどな。
これは魅力的なトピックで、世界がどうなるかについての仮定がほとんどないんや。大脳新皮質以外の脳の部分や体の他の部分は、本当にこの世界のために設計されてるんやけど、大脳新皮質はこの「何でも学習できる」みたいなもんなんや。
ただデータを与えれば学習できるんや。他の次元や抽象的な空間も含めてな。これは本当に魅力的なことやわ。
私たちは進化してきて、多くの種は本当に自分たちの環境に合わせて調整されてるんやけど、哺乳類は大脳新皮質を持って登場したんや。最初は小さかったけど、それがめちゃくちゃ大きくなったら、突然、他の動物には全く理解できへんようなことを学び始められるようになったんや。
これは、非常に汎用的で強力な学習アルゴリズムを持つという考えに戻るんや。数学をしてるときも、PowerPointの使い方を学んでるときも、車を運転してるときも、同じアルゴリズムを使ってるんや。
進化は…AIの未来について考えると、これがどこに向かうのか、本当に心が吹き飛びそうになるんや。これらの容量制限を全部回避できるシステムを構築できるからな。今の時点では私たちには考えるのが難しい構造を学習できるかもしれへん。
でも、危険な方向に考えんといてな。この前、AIが人類を終わらせるかって聞かれたけど、二人とも絶対にそんなことはないって答えたんや。
デイブ: いくつか質問があるんやけど、まずこっちの人からいこうか。
質問者: G・ラッセル・ウェブ・リサーチです。ニューロンのクラスターがあって、基本的にパターンが発生するのを待っていて、そのパターンが発生すると発火またはアバランシュするという考えに至ったんですが、このアバランシュの考えは非常に省電力な能力だと思います。
ジェフ: あなたがより広い質問を提起していると思うので、それに答えてみましょう。
脳はニューロンでできています。ニューロンは生物学的なもので、細胞です。これらは化学的・電気的なスパイクを使ってコミュニケーションを取ります。これは非常に省電力です。
私たちはこれらのシステムを構築しています。ヌーマはシステムを構築していますが、それらはニューロンではありません。コンピューターで動作し、ソフトウェアとシリコンを使用しています。
将来的に十分な電力を確保できるかどうかについて、大きな懸念があります。脳は非常に効率的ですが、同等のことを行うコンピューターははるかに効率が悪いのです。
私たちの課題は、脳がどのように機能するかを理解し、それを実装し始めることです。今のところ、最良の方法はソフトウェアで行うことです。
スブタイは言わなかったけど、私たちは今、これらの非常に大きな言語モデルをローカルのCPUやスマートフォンで実行できるようになりました。電力要件を本当に減らしたからです。
でも、これは将来、新しいメモリモデルや新しい物理学を使わないということではありません。多くの人がMEMSや他のものを使いたがっています。これは別の問題です。どうやって加速するかという問題です。
コンピューティングの歴史について話すのが好きなんですが、チューリングとフォン・ノイマンがコンピューターアルゴリズムを発明したようなものです。でも、トランジスタは後で発明されました。コンピューターの仕組みを理解するのにトランジスタは必要ありませんでしたが、効率的に構築するまでには誰かがトランジスタを発明する必要がありました。
私たちは今、これらのシステムを構築する段階にいます。まだトランジスタを発明する必要がないかもしれません。MEMSかもしれないし、他の何かかもしれません。今はそれが必要ありません。今あるものを使って構築すればいいんです。
将来的には、新しい物理学や新しい材料、新しい方法が出てくるでしょう。でも、それは私たちの仕事ではありません。他の人の仕事かもしれません。あなたの仕事かもしれません。
でも、今私たちがする必要があると感じたのは、これをアルゴリズム的に、数学的に理解することでした。そして、これらのものを構築できることが分かりました。人間の脳ほど大きくはありませんが。
私たちには、1つの皮質コラムを構築しようとしているチームがあります。かなり大変な課題ですが、うまくいっています。人間のスケールまでスケールアップするにはそこまで行く必要があります。
スブタイ、何か付け加えることはある?
スブタイ: もちろん、あなたが言ったことにはすべて同意します。
デイブ: いつもそうとは限らないけどね。
スブタイ: そうですね。なぜそう言うんですか?
ジェフ: あなたは賢いからだよ。
スブタイ: でも、それを拡張すると…過去6ヶ月間の主要な革新の1つは、私たちが話してきたこの理論をすべて取り、今日のハードウェアアーキテクチャに適用する方法を見つけたことです。
ハードウェアアーキテクチャについて話すと、今日のハードウェアアーキテクチャ、特にAIで使用されているものは非常に特殊なアーキテクチャを持っています。少数の操作を並列で大量に行うように設計されています。SIMD操作と呼ばれるものです。
また、特定のメモリのボトルネックやメモリ階層を持つ傾向があります。GPUやCPUにはこれらの特性があります。
私たちが発見したのは、これらの理論やアルゴリズムの一部を、今日のハードウェアアーキテクチャに適用する方法です。それによって、100倍や1000倍のスピードアップを実現できます。
今日、私たちはそのうちの多くを実現できます。これは今日、非常に実用的な価値があります。
しかし、将来を見据えると…今日のアーキテクチャには根本的な制限があります。これらの皮質アルゴリズムを100万倍速く動作させるためには、回路に変更を加える必要があることを私たちは知っています。
今日のアーキテクチャで対応できますが、新しいハードウェアや発見の長いロードマップがあります。
人々が…トランジスタを予想しなかったように、これらのアルゴリズムが出てくると、人々はそれらを実行する驚くべき方法を思いつくでしょう。
キーになるのはSDRsです…
デイブ: たくさんの手が挙がっていますね。真ん中の人、どうぞ。
質問者: 関連する2つのタイミングの質問があります。OpenAI、Google、Microsoft、その他の企業が、あなたが説明した変更を実装して、パフォーマンスと電力の2桁の改善を実現するのにどのくらい時間がかかると思いますか?
そして、それに関連して、あなたが話しているようなアイデアで動作するAIを実際に見るまでに何年かかるでしょうか?
スブタイ: はい、OpenAIやMicrosoftについては話せませんが、彼らが何をするかは分かりません。でも、彼らがこれらのものを使用できることは間違いありません。
彼らは公に、GPTなどで直面している制限について話しています。ChatGPTの現在の巨大な人気を考えると、彼らに課せられる膨大な計算負荷をどう管理するかに苦心しています。
彼らはこれを使うべきだと思います。大いに恩恵を受けるでしょう。ちなみに、彼らの一部はこれを認識していて、私たちはそういった人々と話をしています。
もっと良いものが出てこない限り…これを行うのは十分クレイジーなことです。これはすべて最近のことです。ChatGPTはいつ登場したんでしたっけ? 去年の秋でしたよね? シリコンバレーでさえ、こんなに速く動くことはありません。
私たちはまさにこれらのことを証明しているところです。ここ数ヶ月、数週間で、これらのものが大規模言語モデルでどのように機能するかを示しています。
これは起こります。必ず起こります。
使用時期については…今日すでに使用されています。初期バージョンは数年前から実用的なアプリケーションで使用されていました。今日私たちが話しているこれらのものは、今日、顧客と一緒に取り組んでいます。これが初期のものです。
ジェフ: 彼はまた、全体的な参照フレーム理論のようなものについても尋ねているのかもしれません。私には分かりませんが。
スブタイ: ああ、それはもう少し先の話です。
デイブ: 1、2、3と順番に行って、そろそろ締めくくりにしましょう。一番後ろの方、どうぞ。
質問者: ダグラスと申します。医学部の教員です。研究によると、人間はフェイクニュースの検出が本当に苦手だということが分かっています。私たちは若者たちが大学に行く前に、BS検出器を磨くことを試みています。
AIの初期バージョンは、オンラインのいたずら好きな人々に悪いデータを与えられ、異なる結論に達してしまうことがありました。これらの新世代のAIを悪情報から守るための戦略はありますか?
ジェフ: 私はこの質問に対して、より大規模な答えを持っています。スブタイ、より細かい答えをしてくれますか? それとも私から始めますか?
スブタイ: 細かい方から始めましょう。今日のシステムを見ると、基本的にパターンマッチングシステムです。世界の統計を見て、その統計を使ってテキストを生成しています。
このような非常に基本的なものがあると、数学や統計の背後にあるものを理解できれば、簡単に操作したり騙したりすることができます。
これを回避する一つの方法は、私たちが話しているような理論を使って、世界のより構造化されたモデルを構築できるようにすることです。
今日のシステムは、世界の理解や感覚を本当には持っていません。世界の3D構造について本当には知りません。猫について言えば、本当に猫が何であるかを知りません。インターネットで猫を説明するのによく使われる言葉を教えることはできますが、猫を本当に理解しているわけではありません。
しかし、これらの構造化されたモデルを組み込むことができれば、世界が何であるか、猫や犬が実際に何であるかを、はるかに本質的なレベルで理解することができます。その時点で、フェイクニュースで騙すのははるかに難しくなります。
子供たちにBSを見抜く方法を教えると言いましたが、多くの場合、世界について、何が現実で何が現実でないか、論理的な結論を導き出す方法について教える必要があります。これらはまだAIシステムに組み込む必要があるものです。
ジェフ: 教育者として、この質問に答えたいと思います。本の中でこのトピックについて1章全体、あるいは少なくとも章の一部を書いたと思います。
これは人類にとって本当に根本的な問題だと考えています。私たちは世界のモデルを構築します。先ほど言ったように、あなたの知覚は現実の世界ではなく、あなたのモデルです。
あなたのモデルが間違っているかどうか、偽の信念を持っているかどうかを判断する唯一の方法は、矛盾する証拠を探すことです。これが私たちが知っている唯一の方法であり、これが科学的方法です。
支持する証拠を探すのではなく、矛盾する証拠を探すのです。探して、そしてそれらをフィルタリングする必要があります。なぜなら、あなたが間違っていると言うものの中には、それ自体が間違っているものもあるからです。
これは、人類の長期的な生存にとって本当に根本的な問題だと考えています。世の中で何が起こっているかを詳しく説明する必要はないでしょう。同じ事柄について、人々がまったく異なる信念を形成することがあることは皆知っています。
これは宗教で簡単に見ることができます。人々は異なることを信じていますが、すべてが正しいわけではありません。何かが間違っているはずです。しかし、彼らはすべてそれを信じています。そして、これはすべてのことに当てはまります。
答えは、何らかの方法で、矛盾する証拠を見つけるという不快な行動を制度化しなければならないということです。しかし、人間はそれをしたがりません。
しかし、あなたのモデルを無効にする唯一の方法は、矛盾する証拠を見つけることです。矛盾する証拠がなければ、モデルが正しいと思うでしょう。あなたが経験するすべてがモデルを満たしているのであれば、それが正しくないと考える理由はないからです。
これは本当に厄介な問題です。あなたがこれについて考えていることに感謝します。
デイブ: あなたは長い間辛抱強く待っていましたね。どうぞ。
質問者: あなたは同じアルゴリズムが昼も夜も実行されていると言っていますが、それが本当に同じアルゴリズムだとどうやって分かるのでしょうか? 私たちの知識不足のために単純化しすぎているのではないでしょうか?
そして、もしそれが本当に同じアルゴリズムだとしたら、ロジスティック回帰のように単純なものなのでしょうか? そして、バックプロパゲーションが必要なのでしょうか? これが脳の仕組みなのでしょうか?
スブタイ: なるほど、質問は「これらのすべての皮質コラムで同じアルゴリズムが使われていることをどうやって知るのか」ということですね。知識が不足しているのではないか、そして単にロジスティック回帰とバックプロパゲーションのような単純なものなのか、それとももっと複雑なものなのか、ということですね。
これは神経科学に戻る問題です。神経科学という分野は過去50-60年、特に過去20-30年で爆発的に発展しました。これらのトピックに関して、特に膨大な量の知識が蓄積されています。
同じアルゴリズムが存在するという強力な証拠があります。詳細には立ち入りませんが、信じてください。この特定のトピックについては多くの証拠があります。
議論されてきました。そして、ロジスティック回帰の後にバックプロパゲーションを行うほど単純ではありません。もっと多くの構造が関与しています。
構造化されたモデルや参照フレームを構築するプロセス、世界に働きかけ、動きを開始し、その動きに対する予測を立て、それらの予測をチェックするプロセス、非常に迅速に学習するプロセス、これらすべてがこの皮質アルゴリズムの一部なのです。
皮質コラムを見て、その解剖学と生理学を見ると、本当に複雑です。これは単純なものではありません。何十もの細胞タイプがあり、非常に特定の方法で接続されています。そして、様々な異なる方法や位相振動で一緒に働いています。
この構造はどこでも繰り返されています。これは単純なものではありません。本当に複雑なものです。解剖学はほぼ同一です。
だからこそ、神経科学者はラットのヒゲの感覚を研究して、それが人間の視覚に適用されることを知っているのです。基本的に同じことをしているように見えるからです。
ジェフ: 強調したいのは、これは単純なものではなく、複雑なものだということです。しかし、先ほど言ったように、これに関しては膨大な量の証拠があります。
これは1974年頃に初めて提案されたと思います。正確な年は忘れましたが…彼は、ヴァーノン・マウンキャッスルという人物ですが、こう始めました。「この奇妙なアルゴリズムを作っています。これらすべてが同じだという奇妙な主張をしています。ここに私の証拠のリストがあります」と。
それは当時のことでしたが、今ではさらに多くの証拠があります。この時点で、神経科学の世界では本当に議論の余地がないと思います。
デイブ: 真ん中にもう一人いましたね。そして、そろそろ締めくくりに入らなければなりません。どうぞ。
質問者: 2004年の「On Intelligence」と「A Thousand Brains」を調和させるのに苦労しました。特に、最初の本では知性を広い意味で予測として定義していましたが、「A Thousand Brains」ではより模型ベースの知性と学習の理解に移行しています。
これは本当に…予測的コーディングやこれらのものはすべて同様のコーディングですか? 「A Thousand Brains」を2回目に読んだときに…
ジェフ: 予測的コーディングは非常に具体的なもので、何か意味を持っています…
質問者: まだそこにあるのでしょうか? それとも本当に…
ジェフ: まだ予測を行っています。2回目の読書で…うまく書けていなかったかもしれません。申し訳ありません。でも、大脳皮質がどのように機能するかを理解する鍵は、予測から始まりました。
脳が常にすべてのことについて予測を行っていることを理解しました。すべての感覚入力について。そして、その問題を解きほぐしていったのです。異なるシナリオでどのように予測を行うことができるか、これをどのように行うことができるか。
参照フレームモデルは、まだ予測モデルです。そして、その参照フレームモデルを得た方法は、動くときにどのように予測を行うかを問うことでした。指が表面を動くとき、目が世界を動くときに、脳はどのように予測を行うのかを。
「On Intelligence」、私の最初の本は、「この仕組みを理解できる、そしてそれは予測器官だ、これが理解する鍵だ」というものでした。しかし、実際にはどのようにそれを行うのか正確には知りませんでした。
「A Thousand Brains」では、今ではそれがどのように機能するかをよりよく知っています。そのコードをある程度解読したのです。しかし、予測という言葉に焦点を当てませんでした。それはまだすべての根底にあります。
本の中で、異なるシナリオで予測を使用してこのアルゴリズムを解きほぐし、参照フレームを決定する方法を説明しました。
まだそこにあります。一方は「これをこのように行います」と言い、もう一方は「ああ、実際にはこのように機能します。私たちはそれを行いました」と言っています。少なくともそのように見せようとしましたが、明らかに成功しませんでした。申し訳ありません。
デイブ: たくさんの手が挙がっているのが見えます。少なくとも他の人々に敬意を払わなければなりません。あなたは誰かのために投票していますか? 投票に戻りましたね。
では、最後の質問にしましょう。そして、後で上がってきて、ステージで質問できます。どうぞ。
質問者: 私の名前はゲットです。AIや脳科学についてあまり知りません。私の質問は、これはAGIのようなものですか? ディープラーニングがAGIにとって正しい技術ではないのは、静的だからですか? あなたたちはその技術を構築していますか?
そして、あなたたちは会社なのですか? あなたたちのビジョンは何ですか? あなたたちの製品は何をするのですか? それともあなたたちは非営利団体ですか?
ジェフ: ワオ。それを2時間で…10秒で答えてください。
スブタイ: なるほど、質問は…ええと、今日の技術の状態と、私たちがそれがどこに向かうべきだと考えているかについてですね。
非常に簡単に言えば、明らかに今日のディープラーニングとGPTモデル、ChatGPTが最先端です。ほとんどの人が知っているように、これらのシステムは非常に強力で、非常に有用で、多くのことを行います。
しかし、それらは知的ではありません。脳の原理を使って実装されているわけではありません。
私たちが会社として構築しようとしているのは、神経科学の原理、脳が実際に知能を実装している方法とその仕組みの原理を人工システムに組み込むことです。
それによって、非常に電力効率が良く、継続的に学習でき、世界の構造化されたモデルを構築でき、動き回って相互作用し、仮説を立て、ジェフが話していたような反事実を行い、本当に知的なシステムに必要なすべてのことを行うシステムを構築できるのです。これが私たちがやっていることです。
デイブ: では、私から事実を訂正してもらって、まとめに入りましょう。
私の脳の理解では、約8メガビットのI/Oを持っています。これをシリコンの代替品と比較してみましょう。
8メガビットのI/Oで、カロリーの20%を使うと、1日400カロリーを消費して24時間365日これを維持しています。一方、シリコンは24時間動作させると1日に何千ワット時もの電力を消費します。
確かに、シリコンの方が質量は大きく、入力できるI/Oも多いです。しかし、脳の知性のレベルは、シリコンの知性のレベルとは比較にならないほど進んでいます。全く近づいていません。
ですので、生物学が見出した方法に従い、この驚くべき複雑な問題を解決する能力を参考にすることは、絶対に正しい方向性だと思います。単位あたりで見ると、脳はシリコンを無限に上回る性能を発揮します。
これらのプロセスに従うことは、本当に…それが存在証明になっているんです。私たちがどこに向かうべきかを示しています。あなたがたの粘り強さに拍手を送ります。本当にそれを実現しようとしていることに。社会は今日、あなたがたに感謝しています。そして将来、さらに感謝することになるでしょう。
ジェフ: そうですね、私たちはそれが実現するよう努力しています。
デイブ: この機会に、まず観客の皆さんに感謝したいと思います。本当に興味深いトピックについて、活発な議論のために夜の時間を割いてくださってありがとうございます。
メンロースクールにも、このグループに示してくれた歓待と、このトピックへの関心に再度感謝します。
スブタイ、時間を割いてくれてありがとう。そしてこれへの取り組みに感謝します。


コメント