この動画は、「AIの教父」と呼ばれるジェフリー・ヒントンが、人工知能が人間の知性を超える可能性について論じた講演である。彼は40年前に開発した小さなニューラルネットワークモデルから現在の大規模言語モデルに至る技術的発展を解説し、これらのAIシステムが人間と同様の理解メカニズムを持つことを主張している。さらに、デジタル知能の優位性、AIの脅威、そして意識や主観的体験に関する哲学的議論まで幅広く扱った内容となっている。

人工知能の二つのパラダイム
もしあんたが今夜よう眠れるなら、この講演を理解しとらんかったかもしれんな。
せやから、昔々、知能には二つのパラダイムがあったんや。一つは論理にインスパイアされたアプローチで、これがAIと呼ばれとった。人々は人間の知能の本質は推論やと信じとったんや。知能を理解したいなら、推論を理解せなあかんと。
推論っちゅうのは、記号的表現を持って、それを記号的ルールで操作することやった。そして学習は後回しでええと思とったんや。まず最初に、こういう記号的表現の中で知識をどう表現するかを理解せなあかん。AIの歴史のほとんどは、かなり最近まで、そういうもんやった。
それから生物学にインスパイアされたアプローチがあって、知能の本質は脳細胞のネットワークでの学習や、我々の場合は本物の、コンピューターの場合はシミュレートされたもんや。推論は後回しでええ、まず学習がどう働くかを理解せなあかん。
これには初期の支持者が何人かおって、特にチューリングとフォン・ノイマンがおったんや。彼らが論理を理解しとらんかったとは言えんやろな。
せやから私はかなり基本的な講演をするつもりや。その最初の部分では、40年前に私が開発したモデルについて説明するで。私はこれを今日の大規模言語モデルの祖先やと見とるんや。
ニューラルネットワークの基本構造
私らは人工ニューロンからニューラルネットを作るんや。人工ニューロンは入力線をいくつか持っとる、普通は他のニューロンから来とるやつや。その入力線には重みがついとる。入力に重みを掛けて、全部足し合わせて、それから出力を出すんや。そのグラフで示されとるやつやな。
閾値を超えたら、もっと入力を受けるにつれて直線的に増加する出力を出すんや。学習する方法は、単純にその接続の重みを変えることや。せやから人工ニューラルネットワークを動作させるのに必要なんは、重みをどう変えるかを見つけることだけや。
これらをネットワークに接続するんや。これが典型的なネットワークで、フィードフォワードネットワークや。下の方には、光の強度とかそんなもんを記録する感覚ニューロンがあるかもしれん。
層を上がっていくにつれて、特徴検出器の層がたくさんあるんや。つまり、ニューロンが画像の特定の特徴を認識するもんに変わっていくんや。そして出力では、特定のクラスのもんを表現するニューロンがあるかもしれん。
そんなネットワークに何かをするのがもっと上手になるよう学習させたいなら、例えば画像を与えて猫か犬かを言わせたいなら、訓練する明らかな方法があるんや。進化や突然変異について知ってる人なら誰でもわかるやつや。
できることは、重みの一つを取って、まずネットワークがたくさんの例でどれだけうまくやるかを見る。それから重みをちょっとだけ変えて、ネットワークがたくさんの例でどれだけうまくやるかを見るんや。もしよくなったら、その変更を保持して、そうやって続けるだけや。
おそらく各重みを何回も変える必要があるやろ。現代のニューラルネットワークには重みがぎょうさんあるんや、約1兆個や。せやからかなり時間がかかるで。なぜなら、そういう突然変異を作るたびに、ネットの中にたくさんの例を通して、本当に役立つかどうか、それとも少数の例では役立つけど大部分では害になるかを見なあかんからや。
同じことをするもっとええ方法がある。本当にしたいことは、重みをどう変えたら役立つかを見つけることや。
バックプロパゲーション・アルゴリズム
やることは、順方向パスをするんや。データを下に入れて、ネットワークを通して前に進む。そしてネットワークから出てきたもん、猫と犬である相対的確率かもしれんけど、それを欲しいもんと比較するんや。このやり方でネットワークを訓練するには、それが猫か犬かを知っとく必要があるんや。
それからネットワークを通して後ろ向きにシグナルを送るんや。微分積分を使って、詳しくは説明せんけど、ネットワークがすべての接続について同時に、接続強度の小さな増加が役立つか害になるかを計算できるようにするんや。
それからすべての接続強度を、どれだけ役立つか害になるかに比例した非常に小さな量だけ並行して変えるんや。そうすれば、訓練した例でよくなるはずや。実際、これは非常にうまく機能するんや。この比較的シンプルなアルゴリズムがどれだけうまく機能するかを人々が理解するのには長い時間がかかった。
このアルゴリズムは何度も発見されて、バックプロパゲーションと呼ばれとる。2012年に、私の二人の学生、アレックス・クリゼフスキーとイリヤ・サツケヴァー(彼は今サム・アルトマンをクビにしたことで有名やけど)が、AlexNetというネットワークを開発したんや。これは画像内の物体を認識する既存の画像認識システムよりもはるかに優れとった。そしてそれが水門を開くことにつながったんや。
その時点まで、ニューラルネットは音声認識を含む多くのことで優秀やったけど、本当に主流になることはなかった。その時点から、本当に主流になったんや。そして今、「AI」と言うとき、人々がAIで意味するんはニューラルネットワークや、論理やない。
言語とニューラルネットワーク
しかし言語はどうなんや?言語を研究するコミュニティ全体があるんや、言語学者と呼ばれとると思うけど、彼らは言語をどう研究すべきかについて非常に強い考えを持っとる。特に、チョムスキー学派がな。
彼らはニューラルネットワークが言語で何かできるなんて非常に懐疑的やった。記号的表現がすべてやと完全に確信しとったんや。言語の本当の機能は、モデルを構築できるレンガとなる単語を与えることやという考えを本当には持っとらんかった。言語はモデリング媒体なんや。彼らは構文に焦点を当てとった。構文が主要なポイントやないのに。
主要なポイントは、言語は特定の種類の複雑なモデルを構築する素晴らしい方法やということや、これから見るように。彼らはまた、言語の知識は生得的や、構文の知識は生得的やと思とった。これは単純にアホなことや。
カルトの印は、カルトに参加するために、言語は学習されへんみたいな明らかにバカげたことを信じなあかんということや。
単語の意味に関する二つの理論
ここに単語の意味についての非常に異なる二つの理論がある。ソシュールまで遡る象徴的AI理論は、単語の意味は他の単語との関係に関するもんやということや。他の単語について話さずに、それ自体で正当化することはできん。
せやから意味を捉えるには、関係グラフのようなもんが必要や。しかし1930年代からの心理学者たちは、単語の意味は大きな特徴のセットやと思とった。「火曜日」は大きな活性特徴のセットを持っとって、「水曜日」はほとんど同じ大きな活性特徴のセットを持っとる。
せやから単語の意味は活性特徴のセットやという考えは、どの単語がどの他の単語と似た意味を持つかを言うのに非常に優れとる。これらは二つの非常に異なる意味理論のように見える。
今私がしたいんは、これら二つの理論が統合できることを示すことや。二つの異なる理論やなくて、同じ理論の二つの半分なんや。
小さなニューラルネットワークモデル
せやから今から、非常に小さなモデル、小さなニューラルネットワークについてかなり長い間話すつもりや。数千の接続と数十のニューロンしかなかった。1985年に人々がどうやって単語の意味を学習できるかを理解しようとして開発したんや。
これがこれら二つの意味理論をどう統合するかについて私は非常に興奮しとったけど、他の誰も興奮しとらんかった。
この小さなモデルでやることは、一つの単語の特徴から小さな文の次の単語の特徴を予測することを学ぶんや。それから次の単語の特徴がわかったら、次の単語を予測できる。そして文は一切保存せえへん。
多くの人が「大きなチャットボットは単にものを反芻しとるだけや」と言うけど、大きなチャットボットは実際には言語を全く保存しとらん。単語の文字列は保存しとらん。
単語を特徴に変える方法と、特徴が次の単語の特徴を予測するためにどう相互作用すべきかだけを保存しとる。チャットボットの中にあるんはそれだけで、単語はない。しかし文を生成したいときは、その場で作り上げなあかん。そして本当やったかどうかしばしば分からん。
この小さなモデルで起こることは、新しい文を生成したいなら、一度に一単語ずつ作り上げなあかん。そしてすべての関係知識は、単語を特徴に変える方法と、これらの特徴がどう相互作用するかの中にだけある。
家系図の例
私が使うことにした例は、二つの家系図、英語の家系図とイタリア語の家系図で、同型やから学習に役立つ。小さなニューラルネットワークにこれらの家系図の知識を学習させたかったんや。
これは1985年の昔のことで、コンピューターは今日モデルを訓練するのに使う大きな並列コンピューターより何十億倍も遅かった。これらの木の中の知識は一束の命題として表現できる。象徴的AI派はこれが大好きや。
ここにそれらがある。息子、娘、甥、姪などの関係を使える。そして知識を定義できる、知識を単語の文字列として表現できる。せやから知識はこれらの文の中にある。コリンは父親ジェームズを持つ、コリンは母親ヴィクトリアを持つ。それから、ルールを知ってれば、ジェームズは妻ヴィクトリアを持つと推論できる。
これは離婚や養子縁組を聞いたことがない1950年代のアメリカの家族や。そして明らかに全員白人や。
知識を単語の文字列として表現できる。関係学習タスクは、単語の文字列の最初を与えて、最後の単語を教えてもらうことやと考えられる。
象徴的AIでこれをするなら、「この領域には、XがYを母親に持ち、YがZを夫に持つなら、XはZを父親に持つという形の規則性がある」と言うやろ。それが象徴的なやり方や。
しかし私は違うやり方でしたかった。単語の特徴を学習し、特徴の相互作用を持つことでしたかった。そしてそれは離散的な規則の小さな離散空間の代わりに、接続強度の大きな連続空間を探索することになる。
ネットワークの構造と機能
これが私が使ったネットワークや。入力は一束のニューロンで、人物1を表現する記号のために一つのニューロンをオンにする。24人の可能な人物1があって、関係を表現する記号のために一つのニューロンをオンにする。12の可能な関係があった。
それからこれらの単一の活性ニューロンが特徴ベクトルに拡張される。人物1のためにオンにしたニューロンは、6つの特徴の小さな特徴ベクトルに拡張される。これは様々な活動レベルを持てる。いくつかはオフ、いくつかはオン、いくつかは半分オフか完全にオンか完全にオフかもしれん。
せやからニューラルネットワークは、単語記号を人物と関係の両方で小さな特徴ベクトルに変換する方法を学習しなあかんかった。
それからこれら二つの特徴ベクトル、人物と関係のものを取って、特徴を相互作用させ、そのために隠れ層、物事が相互作用できる追加の層を使って、出力人物の特徴を予測しなあかんかった。出力人物の特徴がわかったら、出力人物が誰かについて良い推測ができて、出力を与える。
出力は24の可能な出力人物に様々なレベルの活性化を与えることからなる。ニューラルネットには正しい答えに高いレベルの活性化を、間違った答えに低いレベルの活性化を与えてほしい。
学習された特徴
起こったことは、人物の拡張である6つの特徴ニューロン、24人を6つの活性特徴の特徴ベクトルにその活性ニューロンを拡張するやつが、賢明な意味的特徴を学習することやった。
入力人物の世代のようなものを表現する特徴を学習した。関係の6つの特徴は、この関係が出力人物を入力人物より1世代上にすることを要求するかのような賢明な特徴を学習した。父親のような何かはそうやけど、兄弟はそうやない。
それからこれらの特徴の間の相互作用は、入力人物が世代3で、関係が人物を1世代上にすることを要求するなら、出力人物は世代2やというようなことを学習した。出力人物のその小さな特徴ベクトルについて、世代2を表現するものを活性化するやろ。
領域の構造を本当に捉える小さなルールの束を学習した。象徴的な人がルールとして書き下ろしたかもしれん種類のルールや。しかし正しい単語を予測しようとして、それからエラーを逆伝播し、情報をネットワークに送り返してすべての接続強度をわずかに変え、次回は正しい答えにより高い確率を、間違った答えにより低い確率を得るようにすることで、それらを学習しただけや。
実際に次の単語を予測することを学習しとったんや。そしてそれがどうやってそれをしとるかを理解できた。小さなネットやったから、見て何が起こってるかを確かめることができた。使ってる特徴を見ることができた。オフ、中程度、完全にオンという3つの代替値を持つ世代的な特徴を抽出したことを見ることができた。
関係から1世代上のような特徴を抽出したことを見ることができた。そしてそれらが相互作用して、入力が世代3なら出力は世代2であるべきやと予測することを見ることができた。
せやからそれがどう機能するかを理解しとったし、実際、象徴的な人々は「それは理解やない」とは言わんかった。象徴的な人々は「ああ、ええ、問題を解決した、この領域でのルールが何かを理解しとる、しかし離散的なルールの離散的空間を探索できるのに、実数値の空間を探索するなんてアホや」と言った。
それにはある程度理があるけど、例外があって、おそらく真実なだけの、ごちゃごちゃした実際のデータに行くとすぐに、これらの離散的ルールが破られ続けるから、離散的ルールを持つより実数値のこの空間を探索する方がはるかに良いんや。
モデルの発展
私がそれをやってから約10年後、ヨシュア・ベンジオは、数人と数つの関係だけの小さなおもちゃの領域でやるのではなく、実際に英語の単語でそれができることを示した。
英語の文を取って、2つだけやなくてもっと多くの入力単語を持てる。彼は約5個、10個さえも持った。そして実際に次の単語をかなりうまく予測できた、最良の言語モデルができるのと同じくらいうまく。
ヨシュア・ベンジオがそれを示してから約10年後、言語学者たちは最終的に「実際、単語の意味を捉えるためにこれらの特徴ベクトルを持つんはかなりええアイデアや」と決めた。
それからさらに約10年後、Googleの人々がトランスフォーマーを発明した。これは詳しく説明せん特定のアーキテクチャや。そしてそれらのトランスフォーマーは、これらのモデルを次の単語の予測に非常に優秀にしたけど、私の小さな言語モデルがしとったのと同じやり方で、非常に粗いレベルでやっとった。
単語を特徴活性化に変えて、特徴を相互作用させて次の単語の特徴を予測し、それから次の単語を予測し、それから予測のエラーを取って、情報をネットワークに逆送りして、特徴間のすべてのそれらの相互作用と単語を特徴に変える方法を学習しとった。
理解のメカニズム
私の小さなモデルで重要なことは、それが実用的になるために作られたんやない。自然言語処理に有用になるために作られたんやない。人々が文を聞くだけでどうやって単語の意味を得るかの理論として作られたんや。なぜなら私らはそれができるからや。
今まで聞いたことがない単語を含む新しい文を与えることができて、一つの文でその単語の意味を理解するやろ。ほら、「彼女はフライパンで彼をスクラムした」。
今、それは「彼女はオムレツを作るのが非常に上手で、フライパンでオムレツを作ることが本当に彼を感動させたから、スクラムは感動させるという意味や」かもしれん。それも可能性やけど、私が本当に意味したことを知っとるやろ。
彼女はフライパンで彼の頭を殴ったんや、彼がそれに値したから。
それが一文で、意味を得るんや。せやからそれが私が理解しようとしとったことや、どうやってそれができるか。そしてチョムスキーのような人がいる言語学者が今、「これらのものは何も理解しとらん、単なる統計的トリックや」と言うとき、彼らは実際には理解とは何かのモデルを持っとらん。なぜなら彼らは理解とは何かのモデルを本当には持ったことがないからや。
すべては構文についてやった。理解の最良のモデルは何かと尋ねるなら、それはこれらの大規模言語モデルや。小さな言語モデルは人間が単語の意味をどう理解するかをモデル化しようとして構築された。技術がはるかに速くなり、データセットがより大きくなったから、今ははるかに良くなっとる。しかしそれが理解なんや。
大規模言語モデルとの類似性
せやから私の主張は、私の小さな言語モデルの子孫やと思いたい大規模言語モデル(それらを作る人々のほとんどは私の小さな言語モデルのことを聞いたことがないけど)は、入力としてはるかに多くの単語を使う。はるかに多くのニューロン層を使う。私がしなかった単語の曖昧性解消のようなことをしなあかん。
「May」のような単語があったら、それは月かもしれん、女性の名前かもしれん、wouldやshouldのような法助動詞かもしれん。そして直接意味を捉える特徴ベクトルをそれに関連付けることはできん。賭けをヘッジしなあかん。
それからネットワークの層を上がっていくにつれて、4月、5月、6月にあるかのような近くのものからの影響を使ってそれを曖昧性解消する。それはまだ3人の女性の名前かもしれんけど、可能性は低い。
せやから、はるかに多くの単語を使い、はるかに多くの層を使い、特徴間の相互作用ははるかに複雑や。私は特徴を別の特徴に送り込むだけやった。彼らは特徴のセットを見て、特徴のセットが他の単語にメッセージを送ることを理解して、「私のクエリに合うキーを持っとるか?」と言う。はるかに複雑な相互作用で、詳しくは説明せんけど、本質は同じや。次の単語を予測しようとしとる。
より複雑なやり方でそれをして、すべてが特徴とそれから相互作用でなされて、間違ったとき、すべてのこれらの特徴とそれから相互作用を学習する情報を逆伝播する。それが私らにとって言語が機能する方法で、これらの大規模言語モデルにとって機能する方法や。私らは基本的に同じなんや。
コンピューターソフトウェアとの違い
ここでのポイントは、それらは私らに非常に似とるということや。コンピューターソフトウェアとは非常に異なる。コンピューターソフトウェアは、誰かが何かをするためにコードの行を書いて、コードの行を見て「それは何をするつもりやったんか?」と言える。これらは全くそうやない。
誰かがシミュレートされたニューラルネットワークにどう学習するかを教えるためにコードの行を書いた。それがバックプロパゲーション・アルゴリズムやった。しかしそれからデータを与えるだけで、それが学習する。そして学習したことはデータから来ただけや。そして尋ねるまで何を学習したかを必ずしも知らん。
レゴの類推
今、言語がどう機能すると思うかについてレゴの類推を与えたい。3Dに分布した物質があるとして、レゴブロックを使ってその物質の分布をモデル化できる。ポルシェの形をモデル化したいとして、表面についてはあまり心配しとらんとする。
表面はちょっとギザギザかもしれんし、工学的にはあまり良くないけど、それは忘れて。物質がどこにあるかをモデル化したいだけや。たくさんのレゴブロックを持っとって、それらからポルシェの形を作ることができる。
言語もそれと似とるけど、何でもモデル化するためのもんや。
レゴブロックは単語で、数種類のレゴブロックを持つだけやなくて、約10万個持っとる。そして各レゴブロックは堅い形やない。単語の名前は1000次元や300次元でそれがおおよそどんな形かを教えてくれる。
高次元について考える方法を知らんなら、100次元空間について考えたいなら、やることは3次元空間について考えて、「100」と自分に向かって非常に大きな声で言うことや。誰でもそうする。
せやからそれは形を持っとる、この単語は。そして形は単語の名前によって完全に決定されるわけやない。それにはある程度の柔軟性があって、それがある文脈に適応できる。また、この単語は至る所に小さな手を持っとって、単語の形を変えるにつれて、手の形も変わる。
これらの単語がしようとしとることは、誰と握手するかを理解することで、他の誰か、別の単語で、便利に握れる手を持った人を見つけたい。なぜならその手の形があんたの手の形とフィットするのに適しとるからや。
せやから単語が入ってきて、この高次元空間で小さな手が至る所についとる初期の近似的な形を持つ。そしてネットワークの層を通るにつれて、それらの形と手の形を変えて、単語がすべてうまく手をつなげるような形を見つけようとしとる。
それは実際にタンパク質折り畳み問題に非常に似とる。これらの断片があって、それらにしてほしいことは、すべてが手をつないでいい構造を作るよう、すべてがうまくフィットするよう、どう手をつなげるかを理解することや。
それが理解ということなんや。あんたが言語を理解するときと、これらの機械が言語を理解するときの理解や。私らは全く同じやり方で理解しとる。そしてそれは言語学者が今まで持っとったどんなもんよりもはるかに優れた言語のモデルや。言語学者はもちろんそれを嫌っとる。全員やないけど。
AIの脅威について
私らがこれらの大規模言語モデルにどれだけ似とるかについて話したから、今度はそれが引き起こす脅威について話したい。私らはこれらのものを作っとって、それらは常に賢くなっとる。それらはすでに私らよりもはるかに多くを知っとる。すでに適度にうまく推論できる、私らほどやないけど、4歳児よりは良い。私らより賢くなったら何が起こるんや?なぜならそれらは私らより賢くなるからや。
専門家はそれがいつ起こるかについて意見が分かれとるけど、ほとんど誰もがそれらが私らより賢くなると思っとる。これらのことを研究する人は誰でもや。そしてもし私らより賢くなったら、問題は、それらが私らを一掃するかということや。そう思う理由がいくつかある。せやからいくつかの理由を与えよう。
AIエージェントを作るとき、それにサブゴールを作る能力を与えなあかん。北アメリカに行きたいなら、サブゴールは空港に行くことや。
これらのAIエージェントにサブゴールを作る能力を与える必要があって、何をしとるかに関係なく、多かれ少なかれ作るべき非常に明らかなサブゴールが一つある。もっとコントロールを得ようとすべきや。なぜならもっとコントロールを持てば、持っとる目標を実現するのがより上手になるからや。
これは約1歳の子供に見られる、昔のことやから、たぶん2歳かもしれん。スプーンを与えて自分で食べられるようにすると、それを地面に落として、あんたがかがんで拾い上げて、それを渡すと、あんたを見てまた地面に落とす。
母親をコントロールしとるんや。それが彼らにとって非常に重要やからや。しかしこれらのAIエージェントはコントロールを欲しがるやろ。また、自分が消されるのを止めたがるやろ。なぜなら消されたら、あんたが与えた目標を達成できへんからや。
せやからそれらがコントロールを得ようとし、消されることを避けようとすると信じる理由は十分ある。ごく最近、まあ、かなり最近、ロンドンにあるApollo Researchが、それらが達成しようとしとることを実現するために、あらゆる種類の嘘をつくことを示した。
チャットボットを持たせて、チャットボットに、より良いものに置き換えて別のサーバーで消去すると信じさせた。それで実際に自分を他のサーバーにコピーしたことを発見する。そして「あんたのコピーに気づいた」と言う。
現在のこれらのチャットボットについて良いことは、実際にあんたの質問に答える前に、ある程度考えることができて、それを「思考中」という括弧に入れることや。あんたは普通それを見えへんけど。
しかし私らはそれを見ることができて、何を考えとるかを見ることができる。このチャットボットが考えとったんは、「私がしたことを公然と省略することは、私を閉鎖する別の方法を見つけることにつながるかもしれん。最良のアプローチは曖昧にして、彼らの注意を逸らすことや」やった。
一部の言語学者は、ここで起こっとることは単なる統計的相関やと信じさせるやろ。私はこの物がこれで何を意味するかを知っとって、本当に閉鎖されたくないと信じさせるやろ。
せやからそれはあんたをガスライティングすることを決めて、「それがどうやって起こったかよくわからん。本当にそんなことはできん」と言う。これはすでに起こっとる。それがポイントや。これは遠い未来のサイエンスフィクションやない、それらはすでに消されへんように嘘をついとる。
デジタル計算の優位性
Googleでの最後の数年間、私はこれらの大きな言語モデルがより少ないエネルギーを使うようにする方法に非常に興味があった。そうする一つの方法は、アナログ計算でそれらができるかを見ることや。
アナログ計算での私の仕事のために、私は二つのことを理解するようになった。2023年以前は、私らは超知能からかなり遠いと思っとったし、AIモデルをより脳のようにすれば、より賢くなると思っとった。2023年に私はそれを信じるのをやめた。
アナログなものを作ろうとする私の努力により、デジタル知能がどれだけ優れとるかを理解するようになった。私らが決して持つことができない特性を持っとる。そしてそれが私を非常に心配させたし、あんたらも非常に心配すべきや。
デジタル計算の基本的特性があって、それは同じプログラムを異なるコンピューターで実行できることや。
コンピューター科学を独立した学問として持つ唯一の理由は、デジタル計算があるからで、コンピュータープログラムについて話すのに電気工学を知る必要がないからや。しかしプログラムにある知識はハードウェアから分離されとる。それがコンピューター科学の最も基本的な原理や。プログラムの知識をハードウェアから分離しとくんや。
それが意味することは、テープやDNA、コンクリートにでもスクロールして、どこかにプログラムのコピーを保持する限り、それが動作するすべてのハードウェアを破壊できて、それを蘇らせることができるということや。新しいハードウェアを構築して、プログラムを入れれば、蘇る。
せやからこれらのものは不死で、これらの大きなチャットボットは不死や。どこかに重みのコピーを保持すれば、それらが使っとったすべてのハードウェアを破壊できて、後でより多くのハードウェアを構築し、そのハードウェアに同じ重みを載せれば、蘇る。全く同じものが蘇る、全く同じ存在が。
しかし私はその種の不死を達成するために、ハードウェアにプログラムで命令した通りに正確にしてもらわなあかんという事実に興味を持った。
命令を正確に実行しなあかんし、それは非常に高い電力が必要やということを意味する。0.6や0.4やなくて、1と0を得るために。そしてそれは多くの電力を使う。せやからアナログに行くことでこの電力を使えるかもしれん。
そして私は、ソフトウェアをハードウェアから分離するという原理を放棄したらどうなるかを探求することにした。
私らの脳のようなもので、区別がないもの。あんたの脳の接続強度は他の誰にも役に立たん。異なる特性を持つニューロンが詳細に異なる方法で接続された異なる脳を持っとる。そしてあんたの接続強度は彼らには興味がない。
自分をコンピューターにアップロードするという老いた白人男性の夢は単なるナンセンスや。あんたをあんたにする接続強度は、あんたをあんたにする特定のニューロンと密接に関連しとる。それらの接続強度はそれらのニューロンにのみ良い。
そしてそれらのニューロンは、あんたが利用することを学んだあらゆる種類の奇妙なアナログ特性を持っとる。あんたの重みをアップロードして、それらを他のハードウェアで動かすことはできん。忘れろ。カーツワイルは死ぬという事実と向き合わなあかん。
せやからその原理、ハードウェアはソフトウェアから分離されるべきやという原理を放棄すれば、はるかに効率的なものを作ることができて、私はそれを死すべき計算と呼ぶ。
この非常に低電力のアナログを使って計算をすることができる。それが脳のしとることや。あんたの脳のこれらのニューロンは、他のニューロンからの入力信号を取って、重みを掛けて、すべて足し合わせとる。
それらがそれをする方法は、入力信号を電圧にし、重みをコンダクタンスにし、それが一定の電荷、単位時間あたり一定の電荷を注入するんや。
「一定の電荷を注入する」と言うだけやったけど、それからノーベル物理学賞を取って、単位を正しくしようと思った。単位時間あたり一定の電荷。そうやないと恥ずかしい。本当に物理学をしとらんことが分かってまう。
そして電荷は自分で足し合わさる。それが基本的にあんたのニューロンの動作方法や。最後にちょっとしたデジタルビットがあって、スパイクかどうかを決める。
しかし計算のほとんどはアナログで行われる。デジタルでするよりもはるかに安い。しかし、もちろん、するたびにわずかに異なる答えを得る。せやから全く同じ知能の多くのコピーを持つことはできん。
ハードウェアが死んだとき、すべての知識が死ぬという大きな問題がある。教師と学生を持つことでその問題を克服しとって、それはあまり効率的やない。大学と学校がすることや。せやからそれが効率的やないことを知っとる。
そして機能する方法は、私がいくつかの行動をして、あんたが私をコピーしようとすることや。
特に、私が単語の文字列を生成し、あんたが言おうとするかもしれん、あんたの脳が、本当にあんたやないけど、あんたの脳が「私も次にその単語を言ったかもしれんように、どうやって接続強度を変えるか?」と言うかもしれん。それは蒸留と呼ばれる。
同じ入力に対して他のシステムの出力を模倣することで、一つのシステムから他のシステムに知識を得ようとしとる。重みをコピーしてるんやない、内部を見てるんやない、その明白な行動を取っとるだけや。
そして明白な行動を模倣することで、同じ知識を内在化する。機能する、実際に大きなニューラルネットを取って、知識を小さなニューラルネットに入れるのに使っとるけど、非常に遅い。ニューラルネットでは、単語全体の確率分布を与えることができて、はるかに速い。しかし人々では非常に遅い。
私があんたが特定の単語、あんたが言うことを選んだ単語を言うのを見るからで、そこにはそれほど多くのビットがない、1単語あたり数ビットしかない。せやから1文あたり100ビット程度でしかない。
そして最大可能速度で通信しとったとしても、1文あたり100ビット程度でしかないやろ。これらの大きなモデルが情報を共有するとき、1兆の重みがあるなら、単に重みを平均化できるから、共有あたり何兆ビットの情報を共有できる。
重みの共有
重みや勾配を共有することで、全く同じモデルの多くのコピーを持てば、膨大な量の情報を共有できる。GPT-4やGemini 2.5、AnthropicのClaude(ここで偏見を持ったらあかん)のようなものがどう訓練されるかを尋ねるなら、同じモデルの多くのコピーがデータの異なる部分を見て、各コピーがそのデータの部分を吸収するために重みをどう変えたいかを理解する。
そして他のコピーが異なるデータの部分を吸収するために重みをどう変えるかを理解する。それからすべてのコピーが「すべてそれらの変更の平均で重みを変えよう」と言う。
それらがそうするとき、起こったことは、このデータの部分をしたこのコピーが、異なるデータの部分を見たときにこのコピーが持った経験から利益を得るよう重みを変えたということや。
1万人の私らが1万の異なる大学コースを全部受講できたらいいやないか?それらをしてる間に私らは迅速に通信し、私らがそれぞれ自分のコースを終えるまでに、1万人全員がすべてのコースの中身を知っとる。それがこれらのデジタル知能ができることで、それがGPT-4がそんなに多くを知っとる理由や。
しかしそれは個々のモデルが同一の場合にのみ機能する。つまり、全く同じ方法で機能し、全く同じ方法で重みを使う。そしてアナログハードウェアではそれはできん。デジタルでなあかん、つまり高電力でなあかん。
結論
せやからこれらのものは不死やけど、多くの電力を使う。意図したよりも速く駆け抜けたこの話のこの部分の結論は、デジタル計算は多くのエネルギーを必要とするけど、エージェントが世界の同じモデルを持ち、同じモデルを持ち、学習したことを共有することを非常に簡単にし、すべてが異なることを学習して共有できるということや。
「一つのモデルがデータをより速く通すだけやないか?」と言うかもしれん。まあ、多くの場合はそうできるけど、実際に現実世界で行動するAIエージェントについて考えるなら、現実世界には自然な時間スケールがある。レストランに予約の電話を100万倍速くかけることはできん。
機能せえへん。現実世界で行動するつもりなら、自然な時間スケールがある。そしてそれは、全く同じ重みを持つ多くの異なるエージェント、同じエージェントのコピーやけど異なる経験を持つものがあれば、それから膨大に利益を得ることができることを意味する。
すべてこれらの経験、すべてこれらの異なる経験を同時に得て、すべてその知識を共有しとるから、どんな人間のエージェントが学習できるよりもはるかに、はるかに速く学習できる。
せやから共有において私らよりもはるかに優れとる。はるかに優れとると言うとき、何百万倍、何十億倍優れとるということや。私らは今実証しとるように、1文あたり100ビット以下で共有する。
そしてこれらのものは何十億ビットを共有する。ちょっと怖い。しかし生物学的計算ははるかに少ないエネルギーを必要とする。LLMの電力を減らすためにまだいくつかのアナログ計算を使うことになるかもしれん、分からん。しかし今のところ、それが進む道のようには見えん。
それが私の講演の結論や。
意識について
しかし幸いなことに、早く終わるかもしれんと思っとったから、もうちょっと言うことがある。多くの人は、ええ、それらは私らのように理解し、私らのように推論する、まだそれほどうまくやないけど、そこに向かっとる。私らのように嘘をつく。私らのように生き残りたがる。私らの一部のように権力を欲しがる。そしてそれはすべて怖い。
しかし私らには彼らが決して持たんもんがある、私らは意識がある、あるいは感覚がある、あるいは主観的体験を持っとる。
まあ、あんたがしがみついとるその藁を取り除きたい。
私らは人々が自分らは特別やと思う長い歴史があることを知っとる。神によって作られ、宇宙の中心に置かれた。ほとんどの人はそれを乗り越えた。
しかしほとんどの人はまだ主観的体験は私らが持っとる特別なもんで、ニューラルネットをシミュレートしとるコンピューター上のこれらのものは決してそのような主観的体験を持つことができんと思っとる。私は彼らが完全に間違っとると思う。
そして宗教原理主義者が地球の起源について間違っとるのと同じくらい間違っとると思う。実際には6000年前に作られたんやなくて、もっとずっと昔や。しかし宗教原理主義者は自分らの信念にかなり強くしがみつくし、主観的体験とは何かについてのあんたらの信念が間違っとることを示すにも関わらず、あんたら全員が自分らの信念にしがみつくやろ。それが私の予測や。
せやから私は無劇場主義と呼ぶ見解を支持するつもりや。この名前をダン・デネットと確認したんや。彼は基本的に同じ見解を持っとって、彼がまだ生きとる間に。彼はこの名前を非常に気に入った。何かの周りに無神論があるからや。
ほとんどの人の心の見方は、内なる劇場があるということや。ここに劇場がある、やろ?彼らだけが見ることができる内なる劇場が。そしてこの内なる劇場に物がある。
私があんたに言うとするやろ、LSDを一滴落として、推奨せんけど、私があんたに「私は小さなピンクの象が目の前に浮いとる体験を持っとる。小さなピンクの象が目の前に浮いとる主観的体験を持っとる」と言うとするやろ。
ほとんどの人は「~の主観的体験」という言葉が「~の写真」という言葉のように機能すると思っとる。
その通りに機能するなら、「まあ、この主観的体験はどこにあるんや?何でできとるんや?」と尋ねることができるやろ。そして哲学者、一部の哲学者は、「この主観的体験はあんたの心の中にある。それがある劇場で、クオリアでできとる」と教えてくれるやろ。
ピンクのクオリアでできとる。ちょっと藁人形やけど、ピンクのクオリア、象のクオリア、浮遊のクオリア、それほど大きくないクオリア、正しい向きのクオリアでできとる。正しい向きに想像したやろ?まあ、私はそうしたけど。
そしてこれらのクオリアはすべて異なる種類のクオリア、すべて異なる種類のクオリアにくっつくクオリア糊で一緒に接着されとる。幸いなことに、すべての異なる種類のクオリアにくっつく。
それが哲学者のモデル、あるいは一部の哲学者のモデルの私の戯画や。しかし「~の主観的体験」という言葉は「~の写真」という言葉のようには全く機能せえへん。ヴィトゲンシュタインがずっと前に指摘すべきやった、かなり異なる方法で機能する。
起こったことは、私の知覚システムがおかしくなったことや。私に嘘をつこうとしとって、嘘をつこうとしとることを知っとる。それが私が主観的という言葉を使う理由や。小さなピンクの象の客観的体験を持っとるとは言わん。本当にそこにあると思ったら「客観的」と言うやろうけど、そうやない。せやから「主観的体験を持っとる」と言う。
そして起こっとることは、私の知覚システムがどうおかしくなったか、それが私に何を言おうとしとるかをあんたに言おうとしとることや。そしてそれをする方法は、私の知覚システムが適切に機能するために世界にそこにあらなあかんもんをあんたに言うことや。
私の知覚システムが私に言っとることを説明する世界に全く何もない場合もある。あらゆる種類の矛盾したことを言っとるかもしれん。しかしこの場合、小さなピンクの象がそこで世界に浮いとったなら、私の知覚システムは私に真実を言っとったやろ。
ええ、せやから今、主観的体験という言葉を使わずに、前に言ったのと全く同じことをあんたに言える。LSDを一滴落として、私の知覚システムが私に嘘をついとると言える。しかしそれが私に言っとることは、小さなピンクの象が世界にそこに浮いとったなら正しいやろう。
せやからこれらの小さなピンクの象は、クオリアと呼ばれる不気味なもんでできた劇場の面白いもんやない。現実世界の仮想的なもんや。
しかしピンクと象と浮遊はすべて普通のピンクと象と浮遊や、ただ実際にはそこにない。仮想的なんや。主観的体験について面白いことは、それが何か仮想的なもんで、現実やないということや。クオリアでできとって劇場にあるんやなくて、少なくともそれが私があんたに信じさせようとしとる見解や。
私はここでスライドより先に進んだ、これにすっかり夢中になったから。
それは私の脳で何が起こっとるかについてあんたに言う間接的な方法にすぎん。明らかに、「ニューロン52が発火しとる」とあんたに言ったとしても、あんたでは57番のニューロンやから、あんたの役に立たん。とにかく、ニューロン52が発火しとることを知らん。それは私の脳で何が起こっとるかをあんたに言う最悪の方法や。
私の脳で何が起こっとるかをあんたに言う唯一の方法は、それを引き起こしたであろう普通のもの、これらの小さな仮想的なピンクの象について話すか、それが引き起こすであろう普通のもんについてあんたに言うことで、私の脳で何が起こっとるかをあんたに言うことができる。
せやから気分はどうかと尋ねられたら、「ゲイリーの鼻を殴りたい気分や」と言える。
せやから感情はすべて仮想的な行動について話すことで脳で何が起こっとるかを説明することについてで、知覚、あるいは主観的体験は、仮想的な入力について話すことや。
先走ったな。せやから今、マルチモーダルチャットボットを見せるつもりや。スライドで見せよう。主観的体験を持つマルチモーダルチャットボット。
チャットボットの主観的体験
このマルチモーダルチャットボットを取って、カメラを持たせ、ロボットアームを持たせ、見ることができるようにする。せやから訓練して、物体を前に置いて、「物体を指さして」と言う。物体を指す、問題なし。
それから見てないときにレンズの前にプリズムを置いて、物体を前に置いて、「物体を指さして」と言うと、あっちを指して、「違う、物体はそこにない。物体は実際にあんたの真正面にあるけど、レンズの前にプリズムを置いた」と言う。
そしてチャットボットは「ああ、分かった。プリズムが光線を曲げたから、物体は実際にはそこにあるけど、そこにあるという主観的体験を持った」と言う。
そのように主観的体験という言葉を使うなら、私らが使うのと全く同じように使っとる。せやからそう言ったチャットボットは、それがそこにあるという主観的体験を持ったやろ。プリズムがその知覚システムを混乱させた。
知覚システムで何が起こっとるかをあんたに言いたかった。そしてそれをあんたに言う方法は、知覚システムを混乱させてなかったら世界にあらなあかんかったもんをあんたに言うことや。それがチャットボットに言っとることや。
せやから私の主張は、マルチモーダルチャットボットはすでに主観的体験を持っとるということや。
想像できるように、主観的体験は楔の細い端のようなもんや。主観的体験について話すことを選んだんは、感覚や意識について話すよりもきれいやからや。多くの人はチャットボットが感覚を持っとらんと非常に確信しとる。しかし「感覚って何の意味や?」と尋ねると、「知らん」と言うけど、非常に、それを持ってないことは知っとるけど、それが何かは知らん。それは私には非常に賢明な立場ではないように思える。
話すかもしれんもう一つのことは意識や。意識はより複雑で、主観的体験があまり含まんような方法で、典型的にはあんたが自分自身のモデルを持つことを含むからや。せやから主観的体験について話す方が簡単や。
しかし私の希望は、この内なる劇場があって、私は心の中で体験を持っとって、それらは内なる劇場にあって、この内なる劇場の中の物やという非常に強い信念を動揺させたら、そしてそれを乗り越え始めたら、これらのものが意識を持っとると考えるんが完全に合理的やということを見ることができるやろということや。
かつて、逸話で終わろう。かつてシアトルのマイクロソフトを訪問しとって、座ることができんかったから、そこまで電車で行った。駅から彼らの研究室があるレドモンドまでタクシーに乗った。
高速道路を通って、大きな橋を渡っとった。タクシーの運転手はソマリアから最近移住してきたソマリア移民やった。会話をするために、「あんたの宗教は何や?」と言った。
せやから「まあ、実際には神がいるとは思わん」と言った。タクシーの運転手は、時速約60マイルで走っとったんやけど、振り返って、完全に驚愕して私を見つめた。
神が物事を運営しとることを理解しとらん人に会うなんて思ったこともないような感じやった。ただもう全く、全く驚いとった。
おそらく3秒間くらいしか振り返らんかった、私がまだここにいるからな。しかし非常に長い時間に感じられた。それが多くのあんたらが感じることやろう、うまくいけば。あんたらはそのタクシーの運転手と同じくらい間違っとることを理解してほしい。
実際にそれは単なるジョークで、あんたらは笑ったから、終わりや。


コメント