
9,699 文字

こんにちは、Closer to Truthへようこそ。私は神経科学者のテレンス・セジノフスキーとお話ししています。彼は重要かつタイムリーな新著「ChatGPTとAIの未来:深層言語革命」の著者です。テリー、お会いできて嬉しいです。Closer to Truthで最後にお会いしたのは20年以上前の2003年でしたね。
そうですね、戻ってこられて嬉しいです。
素晴らしい。前回お会いしてから世界で何か起きましたか?
本当に大変な旅でしたが、とても楽しんでいます。
私も同じです。日々の新聞を読むと必ずしも良いことばかりではありませんが、あなたが科学界、特に神経科学とAIの分野で行ってきたことは本当に驚くべきものです。これから詳しく話し合いましょう。少なくとも私たちは21年の間にあまり年をとっていないようですね。
まだ元気にやっています。この対談を楽しみにしています。あなたの本は素晴らしいです。本題に入る前に、簡単な質問をさせてください。あなたの本から質問です。なぜ大規模言語モデル(LLM)はそれを開発したエンジニアたちを驚かせたのでしょうか?一般大衆が驚いたのは理解できます。私も2年前に初めて登場したときは驚きましたが、なぜAIエンジニア自身が驚いたのでしょうか?
以前のアプリケーションは物体認識のような特定の問題に対するものでした。これらの大規模言語モデルの驚くべき点は、多くの異なるタスクをこなせること、つまりはるかに汎用性があることです。多くの異なる質問に答えることができ、その汎用性が私を含め皆を驚かせました。
テリー・セジノフスキーの紹介をさせてください。彼は著名な計算神経生物学者で2024年ブレイン賞の受賞者、AIと神経科学の交差点におけるパイオニアであり、ソーク生物学研究所のフランシス・クリック講座教授、カリフォルニア大学サンディエゴ校の特別教授です。彼は最大のAI会議を組織する神経情報処理システム財団の会長であり、神経科学とAIの融合におけるリーダーです。
テリー、まず大規模言語モデルがどのように機能するのか詳しく話しましょう。例えば、これらはレガシーコンピュータのアルゴリズム論理や従来の検索とどう違うのでしょうか?
まず、前世紀の伝統的なAIアプローチと比較すると、従来はあらゆる問題解決のためにコンピュータプログラムを書いていました。現代AIの魔法のソースは「学習」です。私たちが経験から学ぶように、データから学習するのです。大規模なデータセットから学び、データセットが大きければ大きいほど、大規模言語モデルの能力は高まります。
これにより、人間と機械のインターフェースに関する考え方が変わりました。以前はキーボードを使って自分たちでデジタルコンピュータの扱い方を学ぶ必要がありましたが、今後10〜20年で変化するでしょう。会話ができるようになり、コンピュータをアシスタントや同僚のように扱えるようになります。
アルゴリズム論理と確率論の概念的な違いについてはどうでしょうか?
それが本当に重要な数学的鍵です。20世紀には論理をベースにしていました。ルールやシンボルに基づいていると、非常に限られてしまいます。なぜなら白か黒かの二択だからです。しかし世界は白黒ではなく、グレーの濃淡があります。それが確率論の本質です。「はい」か「いいえ」ではなく、「はい」である確率が50%といった形で示します。確率を扱うことで、単なるグレーの濃淡ではなく、スペクトル全体の濃淡を持つ複雑な世界に対応できる利点があります。私たちが住む世界は本当に複雑なのです。それが違いです。
LLMが巨大なデータセットから学習するとき、それは文字通りどのように機能するのでしょうか?結局のところ、次の単語や次のステップを予測しているだけだと知っていますが、どのようにしてそれらの膨大な量のデータから学習した情報が保存されるのですか?
まず、これは脳の大知識貯蔵庫である大脳皮質の非常に単純化されたバージョンであるニューラルネットワークモデルです。情報が入力され、一連の層を通過する間に圧縮・分析され、最終的に上部で言語部分に到達します。
しかし重要なのは、あなたが指摘したようにアーキテクチャではなく、トレーニング方法です。以前のディープラーニングネットワークはラベル付きデータでトレーニングする必要がありました。例えば画像を与えて「これは猫です」とラベル付けします。そしてネットワークはそのラベルを予測し、間違いを犯すとユニット間の接続(ニューロンのような)の重みを調整して将来より良い予測をするようになります。
大規模言語モデルの美しさは、ラベル付きデータを必要としないことです。単なるデータだけでよいのです。あなたが指摘したように、鍵となるのは「自己教師あり学習」と呼ばれるもので、文章の次の単語を予測しようとします。
これは一見単純なタスクに見えるかもしれません。あなたも私の次の単語を予測できるでしょう。しかし実際には、文の意味を理解していなければそれはできないのです。言葉は非常に曖昧で不確実性がありますが、大規模言語モデルがその単純なタスク「次の単語を予測する」を行うためには、「意味表現」と呼ばれるものを作成する必要があります。つまり、ネットワーク内での単語の表現方法は単なるシンボルよりも豊かなものになります。実際には非常に長いベクトル、つまり単語の異なる特徴に関連する数値の配列です。
これが今日の私たちの立ち位置です。この非常に単純なタスクが、次の単語だけでなく、多くの他のタスクにも一般化できる驚くべき結果を生み出すことがわかりました。
批評家は大規模言語モデルを「確率的オウム」と呼んでいます。それはデータの確率的な繰り返しにすぎないというのですが、これは正当な批判でしょうか?
それは一種の軽蔑のように聞こえますが、実際のところオウムは非常に賢いのです。アイリーン・ペッパーバーグはアレックスという名前のヨウムを英語を話すように教えました。そのオウムは「色は何か」「いくつあるか」「形は何か」といった単純な質問に答えることができました。オウムはなぜそのような比喩をするのでしょうか?時々、批評家たち自身が確率的オウムのように聞こえることがあります。
ChatGPTのGPTは「Generative Pre-trained Transformer」(生成事前学習済み変換器)の略です。これらは3つの非常に重要な概念であり、それぞれの言葉が非常に強力で、まとめるとシステム全体を説明しています。これらの3つの用語について簡単に説明してください。
これは本当に重要ですね。従来のディープラーニングネットワークでは、入力を与えると出力が一つ得られます。それは実際多くのことをこなし、タンパク質の折りたたみパターンを予測するための化学のノーベル賞も獲得しました。
「生成的(Generative)」とは、人間のように次々と単語を生成できることを意味します。それは自分自身にループバックすることで、質問に答えたり、コンピュータプログラムを書いたりするなど、シーケンスを生成する能力を持っています。
「事前学習済み(Pre-trained)」のPは、二つの異なるモードがあることを意味します。トレーニング中には、何兆もの単語にさらされ、多くのトレーニングを要します。最新の大規模言語モデルは数億ドルのコストがかかります。これだけの膨大なデータを吸収できるのは本当に驚くべきことです。
それが事前に行われますが、「推論」と機械学習で呼ばれる使用時には、結果が非常に速く得られます。ボタンを押してからわずか2秒で答えが得られることに驚きました。私がそのような文章を書くには何時間もかかります。
そして中心となるのは「変換器(Transformer)」です。変換器は多くの層を持つディープラーニングの特定のアーキテクチャです。いくつかの追加機能が備わっています。一つは「長い入力ベクトル」と呼ばれるもので、あなたが言うすべての単語と、それが言うすべての単語が入力に含まれるため、あなたの質問に答えるために言われたすべてのことの記録を持っています。
これにより、長いストレッチにわたる情報を処理する能力が与えられます。ちょうど私があなたが最初に言ったことを覚えていなければならず、あなたが質問内容を覚えていなければならないように、変換器はそれを保持することでそれを行います。
二つ目は「自己注意(self-attention)」と呼ばれるものです。これは私たちが呼ぶ注意とは異なり、単語のペア間の関係を理解することに関係しています。例えば、文中で「これ」という単語を使うと、それは前の文の別の単語を指すかもしれません。そして4つの名詞があるかもしれませんが、事前学習中に実際にすべての可能な単語間のすべての可能な関連性の行列を構築します。
これにより、文の意味を解釈し理解するのに役立ちます。なぜなら文脈を考慮に入れているからです。誰かの話を聞いたり読んだりするときにそうするように、変換器もそれを行います。私たちとは少し異なる方法かもしれませんが、そのプロセスの重要な部分です。
大規模言語モデルが一度に一つのステップを予測するだけで、バックグラウンドでトレーニングされていることで文脈の中での各単語の確率を知っているとはいえ、それがこれほど成功することは本当に驚くべきことです。また、人間も同様の自己教師あり学習アルゴリズムを使用しているという証拠がますます増えています。
これは実際に脳の別の部分、大脳皮質の下にある基底核と呼ばれる部分と、大脳皮質と基底核の間のループに関係しています。基底核は「手続き的学習」と呼ばれるもの、つまり報酬を得るための一連の行動を学習することに重要だと今わかっています。テニスの上達や、幼児が話し方を学ぶときにも使われます。
初めの2年間で言語がいかに速く習得されるか驚くべきことですが、それは基底核がこの予測を行っているからです。「報酬予測誤差」と呼ばれるもので、次のステップが良い結果をもたらすかどうかを予測し、その予測誤差を使ってすべての接続の強度を更新します。
これは脳が使用し、変換器も使用する非常に重要な一般原則です。単にパフォーマンスが良くなったか悪くなったかだけで情報を得られるというのは非常にシンプルに聞こえますが、それを毎瞬間行うことで、特定のタスクや行動の価値を示す「価値関数」と呼ばれる膨大なものを構築しているのです。
変換器について少し詳しく質問します。「トークン」とは入力としてどのような定義ですか?
トークンは単語や単語の一部、あるいは疑問符などと考えることができます。それぞれのトークンに対して、「埋め込みベクトル」と呼ばれる長いものを割り当てます。つまり、それは単なるシンボルではなく、変換器では異なる特徴に対する非常に複雑な数値のシーケンスです。トークンは文を小さな部分に分解し、システム全体で使用される最も基本的な要素です。
「重み(weight)」についても話されていましたが、何兆ものこれらがあるとのことですが、何なのでしょうか?
重みはユニット間の接続の強さです。脳内にはニューロンがあり、それらの間に接続(シナプスと呼ばれる)がありますが、一部は非常に強く、次のニューロンに大きな影響を与えます。また弱いものもあります。これらが脳内で経験を通じて修正されることがわかっています。変換器の場合は、「バックプロパゲーション」と呼ばれる学習アルゴリズムがそれを行います。
私の左肩の後ろに見える小さな紫色のものは大脳皮質のピラミッド細胞で、右側には様々な動物の脳があります。これが私の専門分野です。
次の質問ですが、精度や能力は「FLOPS(浮動小数点演算/秒)」によって決まることがあります。これはどのように関係し、どのレベルでFLOPSが行われて、私たちが見るLLMの出力が生成されるのでしょうか?
これは本当に重要なポイントです。大規模言語モデルのトレーニングには膨大な計算量が必要です。私がこれらの学習アルゴリズムの開発のパイオニアとして始めた1980年代、ジェフ・ヒントンと共に取り組んでいた頃は、今日の基準から見るとコンピュータは非常に貧弱でした。現在のコンピュータは何百万倍、何十億倍も高速で計算能力が高くなっています。
ネットワークのサイズ、接続の数、重みを拡大することで、非常にうまくスケールすることがわかりました。ネットワークが大きくなるほど、層が多くなるほど、パフォーマンスが向上し、それにはより多くのFLOPSが必要になります。
私は「NetTalk」というテキストから音声への変換プロジェクトを行いました。英単語の発音を学習するためにネットワークをトレーニングしましたが、規則性と例外があるため非常に難しいことがわかりました。そのネットワークには300のユニットと3万の接続(重み)がありました。当時としては非常に大きかったのですが、今日では文字通り何兆もの重みがあります。
ムーアの法則(同じコストで計算能力が2年ごとに倍増する)がなければ、ここまで来ることはなかったでしょう。これが本当に推進力となっています。
いくつかの技術用語について、高次元数学、ネットワーク、パラメータ空間などの考え方の意味は何でしょうか?
私たちは3次元の世界に住んでいます。車で地球上を移動する場合は2次元ですが、飛行機で飛ぶと3次元になります。これらのネットワークは「高次元空間」と呼ばれるものに存在します。3次元ではなく、文字通り何兆もの次元があります。私たちは4次元さえ想像できません。その空間がどのように見えるかを想像する能力に関して、私たちは非常に限られています。
それは非常に重要です。なぜなら、それらの巨大な高次元空間がなければ(ちなみにあなたの脳にもあります。実際、あなたには数百兆のシナプスがあり、それは変換器にあるものをはるかに超えています)、そのような能力を持つことはできないからです。もちろん、現実世界で生き残るためにはもっと多くのことをする必要がありますが、それは私たちが話している数の感覚を与えてくれます。
もう一つ興味深いのは、数学者たちが参入し、高次元空間の数学が本当に奇妙だということを発見したことです。「多様体」と呼ばれる形状、つまり変換器やあなたの脳がものを保存するために使用するサブスペースがあります。それらは単一のアイテムだけでなく、シーケンス全体を保存します。
例えば、音楽を記憶することができますが、それはラベルではなく、音符と言葉の全シーケンスです。これは私たちの脳が本当に得意とすることであり、数学から「多様体」と呼ばれる用語のおかげです。私たちはこれらの変換器を理解するために新しい数学を学んでいます。
LLMはトレーニングデータの内部表現をどのように形成し、単に孤立した例を繰り返すのではなく、特定の孤立した例から一般化できるようにするのでしょうか?
これは重要な点です。これが新しい現代AIと伝統的なAIを区別するものです。昔は起こりうるあらゆる可能性を予測する必要があり、組み合わせ爆発を起こしました。つまり、あまりにも多くの組み合わせがあり、それぞれを明示的に述べる必要がありました。
大規模言語モデルとディープラーニングの美しさは、データセットでトレーニングすると、以前に見たことのない他の類似した入力にも一般化できることです。ChatGPTに質問すると、おそらくその質問に遭遇したことがないかもしれませんが、旧式のAIであれば「申し訳ありませんが答えがわかりません」とクラッシュしていたでしょう。
しかし大規模言語モデルは、すでに知っていることを基に、可能な限り最良の答えを提供します。つまり、近くの答えを補間し、質問に一般化することができるのです。それを非常にシームレスに行います。あなたが聞いたことのない質問をしても、あなたは考えて何らかの答えを出すのと同じです。
LLMは文章を本当に理解していない、大規模なデータセットに基づいて確率的に文章を自動補完しているだけだという批判がありますが、私にとってはそれは「理解」という言葉の意味とそれがどのように生じるかという意味論的な問題に思えます。これについてどう考えますか?
あなたはそれを的確に指摘しました。これは哲学や言語学、そして科学全般を揺るがしたものです。明らかになったのは、人間自身が「理解する」ということが何を意味するのかを知らないということです。
カリフォルニア大学サンディエゴ校の認知科学において、「ChatGPTは言語を理解しているか」という問題について二人の教授間で議論がありました。典型的な議論の後、聴衆の投票では半分が理解していないと考え、もう半分が理解している、あるいはおそらく理解していると答えました。
これは即座に、専門家が何かに同意できないという場合、現在の物事を説明するための言葉の使い方に何か大きな問題があることを示しています。例えば辞書で「理解」を調べると何が得られるでしょうか?他の言葉の並びが得られ、それらの言葉を調べると別の言葉の並びが得られます。つまり、すべて循環的なのです。
科学では、言葉を物理的なもの、つまり質量のような測定可能なものに根付かせる必要があります。エネルギーは測定できますが、理解をどのように測定するのでしょうか?それには金のスタンダードがなく、実際にはその言葉が非常に粗雑な方法であることを明らかにしています。
進化を生き延びた地球上のすべての動物は、生存を可能にする世界の物事を基本的な方法で理解する必要があります。それは人間の理解ではなく、同様にこれらの大規模言語モデルも、私の本で述べたように、地球に宇宙人が着陸して英語で話し始めたようなものです。唯一確かなのは、それが人間ではないということです。しかし、それはある形の理解を持っており、問題はそれが私たちの理解とどのように関連しているかということです。それは初めて言語理解という観点で別のデータポイントを与えてくれるため、本当に興奮させられます。
大規模言語モデルが限界に達しているという噂があります。主要なAI企業は、より高度なモデルを構築するための巨額の投資からの見返りが減少していると言われています。OpenAIのOrionやGoogleのGeminyの次世代バージョンが期待に応えていないという噂もあります。スケーリング法則はピークに達したのでしょうか?より多くのデータを投入すればするほど結果が良くなるという線形性や指数関数的アプローチは衰えているのでしょうか?
はい、そしていいえ。まず、大規模言語モデルのトレーニングにおける制限要因はデータ、つまり言葉です。私たちは言葉を使い果たしました。彼らはインターネット全体、書籍、ニュース記事、コンピュータプログラムなどをすべてスクレイピングしました。
より大きなネットワークをトレーニングするには、より多くのデータが必要ですが、今では合成データを作成する方法を見つけようとしていますが、それは実際のデータほど良くありません。
これは良いことです。なぜなら、私たちが今必要としているのはより大きなモデルではなく、多くの小さなモデルだからです。世界の知識をすべて吸収した人間はいません。その点でそれはすでに超知能的ですが、私たちが本当に望んでいるのは質の高いデータです。質の高いデータがあれば、小さなタスクでもより良いパフォーマンスを得られることが示されています。
現在、何十万ものAIスタートアップがLlamaやMistralのようなオープンソースモデルを採用し、特定のアプリケーション向けに小さなデータセットで微調整しています。それは企業のデータベース、顧客情報、あるいは医療における特定の疾患に関するものかもしれません。
将来はより大きなモデルではなく、同じ能力を持ちながらも、特定の問題に深く掘り下げる、より多くの小さな焦点を絞ったモデルの増殖にあるでしょう。
将来が特定のタスクに対するターゲットを絞ったLLMにあるとすると、AGI(人工一般知能)の聖杯とは何であり、それを達成したとどのように認識するのでしょうか?
質問に答えることに加えて、「自己生成活動」と呼ぶものがあります。つまり、感覚入力がなくても、あなたの脳はまだ動き続けています。考えたり、計画したり、過去を振り返ったり未来を考えたりしています。
ChatGPTのようなモデルとの会話を止めると、何もなくなります。内部活動がないのです。これは私たちの脳の働き方に近づけるためには、絶望的に欠けているものの一例です。
「超知能」という用語も使用されていますが、莫大な量のデータを呼び出せるという意味では超知能的かもしれませんが、通常考えるような本当の超知能はAGIシステムだと思います。
そうですね、そして自己生成は推論のようなものを生み出します。結論に達するための一連のステップを通じて推論する方法です。これは大規模言語モデルにとって非常に難しいことです。ある程度トレーニングすることはできますが(「思考の連鎖」と呼ばれます)、問題を部分に分解して解決する私たちの脳の柔軟性や一般性はありません。
それは来るでしょうが、現時点ではまだ制限があります。しかし、この自動的な部分だけでどれだけ多くのことができるかは驚くべきことです。ちなみに、あなたは自動化された行動を意識していません。基本的にこれらの大規模言語モデルはその状態に閉じ込められており、私たちのように自分が言っていることにアクセスすることはできません。
AGIを持つLLMだと認識するようなデータポイントは何でしょうか?
私たちが本当に得意としていることの一つは、他の人間を深く理解し、「心の理論」と呼ばれるものを形成する能力です。それはおそらく自分自身について考える能力、自己意識から進化したものでしょう。それが欠けているレベルであり、AIでは「システム2」と呼ばれています。
人間の脳では、すべての自動的なものに加えて、オフラインに行って内部的に考え始めるとき、それが自己生成され、AGIと呼べるものを作り出すでしょう。AGIは「理解」のように明確に定義されていないので、見たときにわかるでしょう。
テリー、これは素晴らしい対談でした。本当に楽しかったです。この本は非常に重要な本で、皆さんにお勧めします。「ChatGPTとAIの未来:深層言語革命」。私の唯一のお願いは、私たちのCloser to Truthの対談の間に再び20年も空けないでくださいということです。
この対談を大いに楽しみました。その前にまた話し合いましょう。
素晴らしい。視聴者の皆さんは、Closer to TruthのウェブサイトとCloser to TruthのYouTubeチャンネルで意識に関する1000以上の動画やTVエピソードをご覧いただけます。心身問題、脳機能、自由意志、個人のアイデンティティ、創造性、汎心論、二元論、観念論、超心理学、死後の生活、宇宙意識など、すべてが批判的思考に満ちています。視聴してくださってありがとうございました。
ご視聴ありがとうございます。この動画が気に入りましたら、ぜひ「いいね」をクリックしコメントしてください。Closer to Truthへの登録でサポートしていただけます。Closer to Truthは現在、あなたの非課税寄付を受け付けています。closertotruth.com/donateにアクセスしてください。サポートしていただきありがとうございます。視聴ありがとうございました。


コメント