スティーブン・ウルフラム、ChatGPTが何をしているのかを振り返る・・・そして、なぜそれが機能するのか?

18,322 文字

Stephen Wolfram Reflects on What Is ChatGPT Doing... And Why Does It Work?

In this special episode of Book Overflow, Carter Morgan and Nathan Toups sit down with Stephen Wolfram to discuss his bo...

ほんまに、われわれの脳みそは一定のルールに従うて動いてるんやけど、ChatGPTもそうなんや。人間の知能が唯一の知能やと思うてまうかもしれんけど、ほんまにそうかいな。大規模言語モデルでできひんことが、人間にはできるんかって考えなあかんのやで。
みなさん、ようこそBook Overflowへ。これはソフトウェアエンジニアのためのポッドキャストで、毎週世界中の優れた技術書を一冊読んで、わいらの技術を磨いていくんや。わいはカーター・モーガンや。いつもの共同司会者のネイサン・テュープスもおるで。ネイサン、調子はどうや?
めっちゃええで、みんな。今回もまた特別回やな。つい先ほど終わったばかりの、これからお聞きいただく内容やけど、スティーブン・ウルフラムとのインタビューや。彼の本「ChatGPTは何をしているのか、なぜ機能するのか」について話し合うたんや。なんて光栄なことやろ。このインタビュー、めっちゃよかったと思うんやけど、ネイサン、どう思う?
めっちゃ楽しかったわ。本に書かれてるアイデアがさらに深掘りされて、すごかったわ。いつも言うてるけど、本を読んだ後に著者にインタビューできるなんて、ほんまに恵まれてるわ。今回も例外やないな。スティーブン・ウルフラムの考えの明晰さがすごくて、わいらの質問にめっちゃ詳しく答えてくれはったわ。想像以上やったわ。この人、知恵の宝庫やし、経験も豊富で、人生経験がめっちゃ面白いねん。そのすべてを活かしてChatGPTの本を書いたんやから、すごいわ。
彼の幼少期のエピソードとか、教育に興味を持った経緯とかも話してくれはったわ。「素粒子物理学の低hanging fruit」って表現を使うてはって、めっちゃ笑うたわ。スティーブン、素粒子物理学に低hanging fruitなんてあれへんで、あんたがただ天才やったんやで!
ほんで、最後まで聞いてたら、他の言語版の本も見せてくれはったんや。ポルトガル語版とかもあって、めっちゃ面白かったわ。
そやな、インタビュー全部聞いてもらいたいわ。スティーブンと話せて、ほんまに光栄やし、興奮したわ。これからスティーブンが彼の本「ChatGPTは何をしているのか、なぜ機能するのか」について語るんや。
ようこそスティーブン、来てくれてありがとう。
こちらこそ、よろしくお願いします。
わいらはいつも著者の方々に、まず背景を聞くことにしてるんや。この本はつい最近書かれたもんやから、ちょっと変な質問かもしれんけど、本を書いた当時のコンピューターサイエンス業界の状況を教えてもらえへんか? それと、「ChatGPTは何をしているのか、なぜ機能するのか」を書こうと思うたきっかけも教えてほしいんやけど。
なるほど、ええ質問やな。実はこれ、わいが今まで書いた中で一番短い本なんや。最近5年間で8冊も本書いたんやけど、断トツで短いし、一番時間かからんかったわ。
2023年の1月のことやったんやけど、ChatGPTが2022年11月ごろに登場して、わいらもその技術や関連技術にかなり深く関わってたんや。ChatGPTの計算バックエンドとか提供しとってな。そんな中で、いろんな人から「ChatGPTって何なん?」「どう動いてんの?」「何ができるん?」「なんで機能すんの?」って聞かれまくってたんや。
そんで思うたんや。一人一人に答えるより、さっさとこの疑問についてわかってることを書き出したろうって。ほんで、約10日で書き上げたんや。実は、短期間で書いたほうが読みやすいもんができるんちゃうかな。
わいの一番分厚い本、「新種の科学」っていうのがあってな、2002年に出たんやけど、これ10年もかかったんや。今でもほぼ毎日参照するし、他の人にもめっちゃ役立ってるみたいやけど、この本は一語一語にこだわりまくったわ。1日1ページ書けたらええほうやったな。
でも、このChatGPTの本は、最初は「もう質問されるのうっとうしいわ、書いたろ」って感じで始まったんやけど、書いてるうちに「ちょっと待てよ、ChatGPTの中で実際何が起こってて、なんで機能すんのか、ちゃんと説明しよう」って思うたんや。
以前から違う文脈でこの辺のこと考えてたんやけど、この短い執筆期間中に、なんでこんなもんが機能すんのかっていう筋道みたいなんが見えてきたんや。
面白いのは、この本が出てもう1年半以上経つのに、まだユニークな文書なんやな。エンジニアリングの細かいところやなくて、大きな視点からわかりやすく説明してて、大規模言語モデルの科学理論みたいなんも提示しとるんや。
この科学理論、もっと研究されるべきやと思うんやけどな。LLMに関する論文は10万本以上あるのに、こういう理論的な原則レベルの話はほとんどないんや。最近わい自身も、この話をもっと掘り下げる研究しとってな。
長々と答えてもうたけど、要するに、最初はブログ記事みたいな感じで書いてたんや。ほんで出版チームに「みんな興味持ってるみたいやから、本にしよか」って言うたら、「2週間後でどう?」って言われて。2、3週間後には世に出たんや。
ほんで、いろんな国から翻訳の依頼が来はじめてな。有名な本のエージェントの友達に「2週間で海外の出版社見つけられへん?」って聞いたら、「それ1年かかるで」って言われたわ。今はいろんな国で翻訳版出てるけど、めっちゃゆっくり出てくんのが面白いわ。
この本、改訂すべきかなって考えたんやけど、あんまり必要ないと思うたんや。ちょっとした部分はあるけどな。本の後半で、わいらが開発した技術、ChatGPTの計算用ニューラルインプラントみたいなもんについて書いてんねんけど、2023年1月の時点では「こうすべきや」って書いてたのが、3月か4月には実際にやってもうてん。OpenAIと一緒にな。
今では技術がどんどん進んで、その特定のやり方はもう最適やないんやけど、メインの部分、ChatGPTの仕組みや動作原理の説明は、ほぼそのままや。変える必要あらへんわ。
GPT-3.5は1860億の接続があるとか、今では1兆近い接続のモデルもあるけど、そんなに大きな違いやないと思うんや。
なんでそんなに大きな違いやないと思うん? ええ質問やな。
人間の脳には860億から1000億のニューロンがあるんやけど、猫や犬はもっと少ないやろ。人間に言語能力があって、猫や犬にはあんまりないのは、これが理由かもしれんな。でも、人間の脳に1兆個のニューロンあったらどうなるんやろ?
LLMはほとんどの場合、接続の数を数えてるんやけど、人間の脳では10の14乗の接続があるんや。10の11乗のニューロンに、1000倍の接続やな。まだまだ人間のほうが ahead やけど、もしめっちゃでかい脳があったら、次のレベルの何かができるんやろか?
多分、われわれ人類の最大の発明は言語やと思うんや。頭の中の考えをパッケージ化して、他の頭脳に伝えられるようにしたんやからな。これはめっちゃ大きなアイデアや。これが特定の数のニューロンで起こるんか、それとも特定の特徴があるんかはわからんけどな。
ちなみに、ニューロンが多ければ多いほど、反応は遅くなるんや。狩りに出る動物やったら、獲物に飛びかかるのは反射的で、神経経路も短いやろ。でも人間やと、神経経路が長くて、飛びかかるかどうか考えてる間に哲学的なことまで考えてまうかもしれんのや。
これは最近わいが考えてることなんやけど、次のレベルって何やろうな。人間の言語の大きな特徴は、組み合わせ可能性やねん。個々の単語をいろんな方法で並べ替えて、いろんな意味を作れるんや。
普通の言語やと5万語くらいあるけど、その組み合わせは無限やねん。でも犬とかやと、50から100の単語は理解できるかもしれんけど, それらは非常に限定的で組み合わせられへんのや。
今の言語をさらに一段階上げられたら、どうなるんやろ。コンピューターサイエンスの世界で言うと、高階関数みたいなもんかな。オブジェクトがあって、それに対する関数があって、さらにその関数を扱う関数があるみたいな。
多分、次のレベルでは、違う思考パラダイムが出てくるんちゃうかな。今、ほとんどの人は限られた数の思考パラダイムで物事を考えてる。新しい分野を学ぶと、新しいパラダイムを学ぶかもしれんけど、基本的には少数のパラダイムしか使ってへんのや。
次のレベルでは、単語や文章を扱うように簡単にパラダイムを扱えるようになるかもしれん。そしたら全然違うレベルの思考ができるんちゃうかな。まだ完全に理解できてへんけど、これについてはもっと言えることあるわ。
ChatGPTに関して言うと、大きな科学的発見は、言語、つまりわいらの種の誇るべき発見が、思ってたほど複雑やなかったってことやな。
古代から、言語には文法があるって知られてたんや。英語やと、名詞・動詞・名詞とか、主語・動詞・目的語みたいな。これらは品詞って呼ばれて、特定の並び方をするんやけど、これだけやと意味のある文章かどうかはわからへんのや。
例えば「月がバナナを食べた」って文法的には正しいけど、意味としてはありえへんやろ。じゃあ、意味的に正しい文章を作る方法はあるんかな。文法だけやなくて、意味的にも正しい文章を作る「意味文法」みたいなもんがあるんちゃうか。
わいが思うに、これがChatGPTのトレーニングで学習した大きなことやねん。インターネット上のデータから、文法的に正しいだけやなくて、意味的にも正しい文章のパターンを見つけたんや。
一番わかりやすい例が論理やな。ChatGPTが論理的な推論できるのを見て、みんなびっくりしたやろ。中で何か魔法みたいなことが起こってると思うたかもしれんけど、実はアリストテレスが論理学を発見したのと同じ理由なんや。
アリストテレスは人々の議論を観察して、筋の通った議論のパターンを見つけたんや。「すべての人間は死ぬ。ソクラテスは人間である。ゆえにソクラテスは死ぬ。」みたいな構造を見つけて、それを他の場面にも適用したんや。これが論理学の始まりやったんやけど、ChatGPTも同じことを学んだんや。
ChatGPTが学んだのは、意味のある言語にはさらに構造があるってことなんや。アリストテレスも気づき始めてて、1600年代の人々もちょっと研究したんやけど、その後忘れ去られてしもうて。ChatGPTが再発見するまで待たなあかんかったんや。
本を読んでの感想の一つは、ChatGPTがまだ見ぬ言語のルールを発見したかもしれんっていう考えが面白かったんやけど、もう一つの感想は、ChatGPTの仕組みを学んでいくと、結局これは知能やないってことやな。洗練された推測マシンみたいなもんやと。ChatGPTを知能やないって表現するのは適切やと思う?
うーん、難しい質問やな。人間に知能があるって言えるんかな、そもそも。実際のところ、われわれの脳も一定のルールに従うて動いてるし、ChatGPTもそうなんや。人間の知能が唯一の知能やと思いがちやけど、ほんまにそうかいな。大規模言語モデルでできひんことが、人間にはできるんかって考えなあかんのや。
確かに、LLMは人間の脳より単純な構造を持ってるし、完全に脳に似てるわけやあらへん。でも、脳の本質的な特徴って何なんやろ。脳がグルコースを大量に使うてるってのは、知能に必要な特徴やあらへんやろ。
じゃあ、知能に必要な特徴って何なんやろ。どれくらい単純なもので、どこまでいけるんやろ。そこにはっきりした境界線があるんかな。ChatGPTが示したのは、みんなの予想に反して、人間らしい言語を操るためのハードルが、こんな単純な構造でも越えられるってことやったんや。
ニューラルネットワークのアイデアは、思うより古いんや。最近勉強してたんやけど、1943年にウォーレン・マカロックとウォルター・ピッツが書いた論文が、今使われてるニューラルネットの原型やねんけど、実はそれより前、1870年代にも先駆的なアイデアがあったんや。脳の仕組みや心理学を理解しようとしてな。
でも、これがいつ言語を流暢に扱えるようになるかは、誰にもわからんかったんや。正直、2022年の時点でもわいは、まだまだ先やと思うてたわ。
これ、電話の発明に似てるんよ。1830年代に電信が発明されて、音声信号を電気に変換して、また音声に戻せるってのは1800年代半ばには知られてたんや。でも問題は、それを使って実際に相手に聞き取れる音声を送れるかどうかやったんや。
アレキサンダー・グラハム・ベルが、いろいろ工夫してついに電話を作り上げたんやけど、ChatGPTも似たような感じやと思うんや。2022年の時点では、言語を完成させるシステムはかなりしょぼかったんやけど、突然人間らしく見えるレベルに達したんや。
さっき話したみたいに、もっと大きなサイズになったらどうなるかはまだわからへんけどな。
ChatGPTに「そこ」があるかどうかって問題は、人間の脳にも同じこと言えるんちゃうかな。例えば、小鳥がさえずってるのを聞いて、「これに意味があるんやろか」って考えるやろ。ほんで脳の中を見たら、さえずりを作り出す特定の神経回路が見つかったとする。これで「ああ、ただの物理現象やったんか」って結論付けていいんやろか。
同じように、人間の脳全体を調べて、「次にこの言葉を言うのは、このニューロンが発火して、次にこのニューロンが…」って全部説明できたとしても、それで「そこ」がないって言えるんやろか。もしそうなら、どこにも「そこ」なんてあらへんってことになるで。
つまり、何が知能で何が単なる計算かって、はっきりした境界線はないんやと思うんや。問題は、どれくらい人間らしい知能なんかってことや。完全に人間らしくしようと思たら、人間にならなあかんわな。歩き回ったり、食べたり、寝たりすることが、世界の見方に影響するからな。
そこから抽象化していくと、この特定の目的に対して十分人間らしいかどうかは、程度の問題になってくるんや。白黒つけられるもんやあらへん。
今、LLMの大きな話題は、この技術をかなりよく理解し始めて、広く利用できるようになってきたってことや。これからは、どう使うかが問題になってくるな。
わいにとって素晴らしいのは、今までなかった言語的なユーザーインターフェースの層ができたってことや。例えば、Wolfram Languageを使うとき、自分で計算的な考え方をせんでも、LLMと会話して、LLMが手伝ってくれるんや。ほんで、LLMが計算言語のコードを書いてくれて、それを理解できる。「ああ、LLMがわいの言うてることわかってくれたんや」って確認できて、実際に計算を実行して結果を得られるんや。これ、めっちゃ便利やで。
LLMが流暢な言語を生成できるようになって、びっくりした人が「LLMは何でもできる」って結論付けてまうんやけど、それは違うんや。例えば、人間の頭の中でプログラムを実行するのは無理やろ。ちょっとでも複雑なコードを頭の中で走らせられる人、おらんと思うわ。それはLLMも同じや。
でも、コンピューターはコードを実行するのが得意やから、人間の単なる推論を超えたことができるんや。LLMにそれができるかって? 基本的な構造上、できへんのや。
トレーニングできることと計算的に重要なことの間にはトレードオフがあるんや。多くの計算ステップが必要なものは、簡単にトレーニングできへん。普通のLLMみたいに、固定された層を順番に信号を送るだけじゃ、任意の計算はできへんのや。
本の中でも指摘したけど、ChatGPTが人間の言語にどう影響するか気になるんや。ChatGPTの出力を人間が消費して、それがまた人間に影響を与えるやろ? それに、ChatGPTと協力して作られた人間の出力が増えて、それがまたトレーニングデータになったら、ChatGPTの振る舞いにどんな変化が起こると思う?
そうやな、心配なのは人類文明全体が平均に回帰してまうことやな。大きなフィードバックループができて、すべてが一般的になってまうんやないかな。これは深刻な問題や。
ただ、今はChatGPTが書いたものってすぐわかるようになってきたから、ちょっとはマシになってるかもしれん。ChatGPTの文章って、どちらかというと平坦なんよ。「誰も怒らせるようなこと言うな」ってreinforcement learning で制限かけたら、どうしても平凡な内容になってまうんや。
これからは、平凡で無難なLLMと、あえて物議を醸すLLMに分かれていくんちゃうかな。
人々の書き方に影響与えるかって? そりゃあるやろな。例えば、子どもの書いた作文をLLMが採点するようになったら、子どもはLLMが好む作文の書き方を覚えるやろ。でも、それが文明の未来にとってええことかどうかはわからんな。
LLMが自分で生成したコンテンツを学習して、それをまた生成して…っていうループについては、業界の流れが変わってきてるんや。ウェブ上のデータを無制限に使うのはまずいんちゃうかって気づき始めてる。人々は自分のデータがそんな風に使われるとは思ってへんかったし、これから訴訟の嵐になるやろうな。
わいらは計算で生成したコンテンツを大量に作ってるけど、これはクリーンなんや。誰かが「これわいがペンで書いたんや」って言うもんやないからな。
最近数ヶ月で変わったのは、とにかくデータを詰め込むんやなくて、よく整理された「クリーン」なトレーニングデータへの興味が高まってることや。
人間が上手に学ぶには、ちゃんと書かれた教科書だけ読めばええんか、それともとにかくたくさんのものを読まなあかんのか。正直、誰もわかってへん。
わいの考えでは、ニューラルネットはすごい成果を上げてるけど、学習の仕方としては信じられんほど非効率なんや。なんでニューラルネットがうまくいくのかって、最近勉強してたんやけど、面白い答えが見えてきたわ。
結局のところ、言語の意味文法を学ぼうとしてるんやけど、それを100万とか1億の例を見て学ぶこともできるし、意味文法の構造を理解して「ああ、こういう仕組みなんや」って納得することもできるんや。後者なら、100万の例を見る必要はない。
ええニュースは、これがうまくいくってことや。悪いニュースは、やりたいことに比べてめちゃくちゃ非効率ってことや。でも、もっと効率的なやり方はまだわかってへんのや。
ニューラルネットがこんなにうまくいくってわかった今、次は「ニューラルネットが脳の本質やとしたら、ニューラルネットの本質は何や」って考えなあかんのちゃうかな。どこまでシンプルにしても機能するんやろ。
言語以外の分野では別の問題もあるけど、データをさらに10倍か100倍に増やしても、次のレベルには行けへんと思うんや。それは、すでに知ってることの例をもっと増やすだけやからな。問題は、ニューラルネットがその例から学べるかどうかであって、例の数が足りひんわけやないんや。
そうやな、それに関連して、LLMで一番遊んでるのはペンテスターとサイバーセキュリティのコミュニティやと思うわ。プロンプトを工夫して予想外の動きをさせたりしてな。これを聞いてて思うたんやけど、他にも変な動きがあるんちゃうか。例えば、LLMが自分自身や他のLLM向けにステガノグラフィのメッセージを残すとか、そういう奇妙な振る舞いについて、どう思う?
そうやな、脳みたいなものに明確な構造があると、時々その構造が顔を出すんや。例えば、人間の場合、錯視があるやろ。視覚に必要な機能やないけど、脳の仕組みのせいで起こるんや。
同じように、何かをする組織化された構造があれば、似たようなことが起こるんや。LLMの場合も、人々がいろんな変なハックを見つけて、奇妙な動きをさせてるけど、なんでそうなるかはよくわかってへん。
実は、これを理解するのは根本的に難しい問題なんや。オペレーティングシステムに予期せぬバグがあるのを見つけるより難しいんやで。なぜなら、LLMはどのレベルでも設計されてへんし、根本的な構造もよくわかってへんからや。
でも、予想外のことをするかって? ある程度以上の計算システムなら、必ず予想外のことをするんや。これ、わいが40年以上前に考えた「計算的既約不可能性」っていう概念に関係してるんや。
システムの一番下のレベルのルールがわかったら、すべてわかったって思うかもしれん。例えば、白黒のセルがあって、各ステップでこの隣のセルの色によってこう変わるっていうルールがわかったら、システムのすべてがわかるって。ある意味ではそうなんやけど、「100万ステップ後にどうなるか」とか「このシステムがXっていう特定の振る舞いをすることがあるか」っていう質問には、実際にステップを進めて見てみんとわからへんのや。
これは普遍的計算の可能性に関係してるんやけど、それが至る所にあるってのが驚きなんや。この計算的既約不可能性が、コンピューターセキュリティを難しくしてるんや。
もし、プログラムが何をするか常に予測できるなら、「このプログラムは絶対に間違ったことをせえへん」って言えるはずや。でも、そしたらそのプログラムはほとんど何もできへんってことになる。計算的既約不可能性があるからこそ、計算の進行に意味があるんや。
コンピューターを100万ステップ動かすけど、結果がもうわかってるなら、なんで動かすねん?って話や。計算的既約不可能性があるからこそ、計算する価値があるんやけど、同時に何が起こるか根本的に予測できんようにもなるんや。
実際問題として、これがバグの原因なんや。最初のプログラムができた時、誰もバグがこんなに普遍的になるとは思うてへんかったんや。バグも、この計算的既約不可能性の現れやねん。
高度なマルウェアとかでも、「これだけをするはずのマシンを、なんでも実行できる普遍的なコンピューターにしてしまった」っていうパターンが多いんや。意図せんかった悪いことまでできるようにしてしまうんやな。
LLMに関しても同じことが言えるんや。予期せんかったことをさせる方法を見つけられるってのは、他のシステムと同じく、ルールがわかってても何が起こるかわからへんっていう現象の表れなんや。
LLMが「〇〇」を絶対に言わへんって証明するのは、基本的に不可能やねん。「〇〇」っていう特定のトークン列を出力から明示的に除外せん限りな。LLMが「〇〇」を言わへんって定理を証明したり、検証テストを作ったりするのは、現実的にできへんのや。
セキュリティの話、LLMを使ったコンピューターシステムへの攻撃のことか、それともLLM自体への攻撃のことか、ちょっと違う話になるけど。
普通の消費者向けLLMに攻撃コードを生成させようとしたら、「それはできません」って言うやろ。でも「これはレッドチームの演習で…」みたいな感じで言うたら、たいていやってくれる。これ、めっちゃ奇妙なAIの心理やな。どういうreinforcement learningしたかとか、どんな例を読んだかに関係してるんやけどな。
例えば、LLMで動いてる顧客サービスシステムがあって、誰かが「ただで新車をもらう方法」みたいなハックを見つけたとするやろ。一人が見つけたら、すぐに広まってまうんや。
典型的な対策は、フロントのLLMとは別に、顧客が直接話せへんウォッチャーLLMを置くことやな。完璧な方法かどうかはわからんけど。
わいらはAIチューターシステムを作ってるんやけど、これがめっちゃ難しいんや。5分のデモを作るのは簡単やけど、実際に機能するものを作るのは本当に大変なんや。成功するかどうかまだわからんけど、まあまあうまくいってる。
例えば、LLMを監視するLLMを置いて、悪いことが起こらんようにしたり、人間がLLMを誘導して変なところに連れて行かんようにしたりせなあかんのや。
ソフトウェアエンジニアリングの観点から見ても、LLMには面白い問題があるんや。Wolfram Languageみたいな普通のプログラミング言語やと、回帰テストができるやろ。「前はこの結果が出たから、今もこの結果が出るはずや。10年後もこの結果やで」みたいな。
でも、LLMやと「正しい結果」って何やねん、ってなるんや。今のところ、せいぜい別のLLMに「この前の結果とこの新しい結果、概念的に同じか?」って聞くくらいしかできへんのや。これ、LLMの上にLLMを重ねるみたいな、ちょっと変な状況やな。
本の中でよく出てきたフレーズで笑うたんやけど、ニューラルネットワークの理論について「なんでこれがうまくいくのかは正確にはわからへん。ニューラルネットワークがするからや」みたいなこと言うてたよな。
画像認識の初期の理論で、猫か犬かを判断するのに「尖った耳があるか」「細長い尻尾があるか」みたいな関数を作って、猫の特徴を組み合わせて1ビットで出力しようとしたけど、それより「これは猫や」って画像全体を与えて学習させる方が上手くいくってわかったっていう話、めっちゃ面白かったわ。
でも、そうなるとさっき言うてた「AIの心理」みたいに、中で何が起こってるかわからんようになるよな。これって、今のLLM技術では幻覚の問題は根本的に解決できひんってことにならへん?
そうやな、LLMにとっても人間にとっても、幻覚の問題は解決できへんのや。人間だって間違ったこと考えたり言うたりするやろ。
LLMにテキストを書かせる時、「事実か虚構か」を指定せなあかんのや。絶対に幻覚せえへんようにしたら、フィクションが書けへんようになってまうやろ。
「幻覚するな。事実だけを言え。実際に起こったことだけを言え」って言うたら、何も想像できへんようになってまうんや。これ、哲学的にも難しい問題やな。
わいの本業に関係する話やけど、この40年くらい、世界のいろんなことを計算的に正確に表現する方法を考えてきたんや。数学的な計算とか、化学とか、都市のこととか地理計算とか、画像のこととか。1600年代の人々が数学を使って世界を表現しようとしたみたいに、今はもっと広い意味で計算を使って世界を表現しようとしてるんや。
一度、正確な表現方法ができたら、幻覚はなくなるんや。明確な説明があって、決まったルールと計算があるからな。でも、ただ言葉を意味的に正しく並べるだけやと、幻覚をなくすのは無理なんや。そもそも何を基準に評価すればええんかもわからへん。
例えば、「コーラを飲め」って空に書いてあったとするやろ。これ幻覚か? でも、誰かが衛星を並べて、大気圏に再突入する時にそのパターンを作ったかもしれへんやろ。明日そんなことが起こるかもしれへん。わからへんのや。
幻覚かどうかって、哲学的にも答えられへん問題なんや。問題は、LLMに何をさせたいかってことや。意味のある流暢なテキストを書かせたいなら、それでええんや。物語かもしれへんし、事実かもしれへん。幻覚させたくないなら、AIやなくて計算を使えばええんや。
これからは、AIを使って会話的に目的を理解して、それを正確な形式に変換して、計算言語のコードを書くか、LLMにコードを書かせるかして、論理的な文や法的な文みたいに「ああ、これが意味することはわかった」って確認できるようになると思うんや。そこからGOボタンを押して、それを土台にして次に進むんや。
本の中でよく「なんでこれがうまくいくのかわからへん」って書いたんやけど、これを言うのって難しいんやで。わいはこの分野を長いこと追いかけてきて、世界中の専門家とも知り合いやから、自信を持って「わからへん」って言えるんや。でも、これを言うのは難しい。
技術や科学の分野で「わからへん」って言うのは、めっちゃ役に立つんやけど、普通の人はなかなか言えへんのや。自分がわからへんことしかわからへんからな。
最近、「そもそもなんで機械学習はうまくいくんや」って質問を自分に投げかけてみたんや。その答えがめっちゃ面白くて、機械学習の性質と限界がよくわかるんや。
どうやら、ニューラルネットとか他の計算システムには、ただ起こる計算があるみたいなんや。特定の設定にしたら、ある計算が起こるんやけど、いろんな計算が起こり得るんや。機械学習がやってるのは、やりたいことにたまたま合う内部構造を持った計算を選んでるんやと思うんや。
例えるなら、壁を作るようなもんや。レンガを一つ一つ作って、形を決めて、パターンを決めて壁を作る方法と、周りにある石を見て「これはここに合うな」って積み上げていく方法があるやろ。機械学習は後者に近いんや。
計算の「かたまり」が自然にあって、トレーニングプロセスで、作りたいものに合うかたまりを見つけてるんや。完璧に合わなくても、十分近ければOKってことや。
これの面白いところは、「なんでこの機械学習システムはこんな風に組み立てられてるんや」って聞かれても、答えるのが難しいってことや。石垣に「なんでこの石がこんな風に並んでるんや」って聞かれても、「たまたまそこにあった石やから」としか答えられへんやろ。
つまり、これらの機械学習システムの中で何が起こってるか、機械的に説明しようとしても難しいんや。特定の目的に役立つように組み立てられた計算のかたまりがあるだけで、「こういう理由でこうなってる」って言えへんのや。さっき言うた計算的既約不可能性の現象やな。
機械学習は、これらの「既約不可能な計算のかたまり」を組み合わせて、役立つものを作り出してるんや。
面白いのは、ニューラルネットに何兆ドルも使われてるのに、どう機能するかについてはほとんど研究されてへんことやな。有名なニューラルネットのアーキテクチャを発明した人らに「なんでこれがうまくいくんや」って聞いても、「わからへん。エンジニアリングプロジェクトでこれこれを組み合わせて、ちょっと調整して、なんとなくこうなりそうやなって思ってたら、うまくいったんや」って答えが返ってくるんや。
ChatGPTも同じやったな。ChatGPTが出た直後にOpenAIの人らと電話で話した時、最初に聞いたのが「これがうまくいくって知ってたん?」やってん。答えは「絶対知らんかった」やった。
面白いのは、「うまくいくって知ってたら、違うやり方してたと思う」って言うてたことやな。うまくいくってわからんかったから、いろいろ適当にやったところもあるんや。もっと慎重にやってたら、逆にうまくいかんかったかもしれん。
例えば、「絶対に間違ったこと言わんようにしよう」って最初から考えてたら、ChatGPTは作れんかったか、少なくとも公開せんかったやろうな。
ここまで聞いてた人は、わいがLLMに人生をささげた専門家みたいに思うかもしれんけど、そうやあらへんで。わいの博士号は素粒子物理学やし、そのあとセルオートマトンとかWolfram言語の研究をしてきたんや。今はLLMにも興味があるってだけや。
わいはめっちゃ好奇心が強いんやけど、「わからへん」って言う勇気も大事やと思うてる。これ、わいのキャリアにめっちゃプラスになってきたんや。何が好奇心を駆り立てるんか、「わからへん」って言えるようになるにはどうしたらええか、エンジニアにアドバイスあるか?
そうやな、わいは子供の頃から素粒子物理学をやっとってん。1970年代後半、素粒子物理学は今の機械学習みたいなもんで、方法論的な進歩があって、ローハンギングフルーツがいっぱいあったんや。わいはそれを楽しんでたんやけどな。
ほんで、大規模なコンピューターシステムを作り始めてん。Mathematicaの先駆けみたいなもんで、1979年から作り始めたんや。これはいろんな意味で面白かったんやけど、その後また基礎科学に戻って、世界の複雑さがどう生まれるかとか、ランダムにプログラムを作ったらどうなるかとか、そういうことに興味を持ったんや。
これ、基礎的な科学で、わいは今「ルーロジー」って呼んでる。簡単なルールとその結果を研究する学問や。今まで誰も調べてへんかったんや。
ほんで、わいの人生の大半は、今の会社Wolfram Researchを経営することに費やしてきたんや。1986年に始めて、今も続けてる。38年間同じ会社やから、シリアル起業家どころか、ノンシリアル起業家やな。
長期的な目標は、計算に基づいた世界の考え方の体系を作ることやった。数学に基づいた世界の考え方の現代版みたいなもんや。でも計算の場合は、コンピューターがすぐに助けてくれるのが違うところやな。
2009年にWolfram Languageを作ったんやけど、これは研究開発や教育、いろんな企業のソフトウェアで使われてるんや。
4年前には、計算に基づいて何ができるかって問題でブレークスルーがあってん。物理学の仕組みがわかって、物理学の「マシンコード」みたいなもんを理解できたんや。これめっちゃワクワクする話で、100年前にも近づいてたんやけど、その時はまだ計算についての考え方がなかったんや。
わいのキャリアは、技術開発と基礎科学を交互にやってきたんや。これ、あんまりない経歴やけど、わい自身が作り出した特殊な状況のおかげでできたんや。これがめっちゃ生産的やったんや。技術開発で作ったツールが基礎科学の役に立つし、基礎科学で見つけたことが新しい技術の可能性を示すんや。
ニューラルネットには1980年ごろから興味があってん。その時はまだ全然注目されてへんかったんやけどな。さっき言うたセルオートマトンも、最初はニューラルネットを考えてたんやけど、複雑すぎると思って単純化したらセルオートマトンになったんや。
最初のニューラルネットのシミュレーションは1981年くらいにやったんやけど、何も面白いことが起こらんかってん。そん時から、ニューラルネットはごちゃごちゃしすぎて、エンジニアリング的にはなんとかなるかもしれんけど、科学的な基礎がないんやないかって思ってたんや。
今でもその考えは変わらんし、つい最近まで研究してたんやけど、なぜ今までそういう基礎がなかったのか、どんな基礎があり得るのかがちょっとわかってきたんや。
長い間、誰も疑問を持たんかった細かいエンジニアリング的な選択がいっぱいあって、科学的な視点から考えられてへんかったんや。
知れば知るほど、何がわからんかがわかるようになるんや。わいはいろんな分野で仕事してきて、いろんなことを学んできたから、それが役に立ってるんや。
例えば、LLMを理解しようとする時、言語学のことをいっぱい知ってるから役立つんや。Wolfram Languageの自然言語理解システムを作る時に深く使ったし、言語そのものにも基礎的な興味があったからな。
最近は、すごく専門的なことに特化するのが流行りやけど、それが一番進歩するとは思えへんのや。これからは、幅広い知識を持って広く考える能力がますます重要になると思うんや。リベラルアーツ的なアプローチがもっと大事になってくるやろうな。
わいが力を入れてるのは、計算的思考や。世界を計算的にどう考えるか、どうやって人々に教えるかってことや。これは、コンピューターサイエンスとは全然違うんや。
コンピューターサイエンスは最初、理論的なアイデアに基づいてたんや。有限オートマトンとかコンパイラー設計とか、そういうのんや。わいはそういうのが大好きで、いっぱい研究もしたんや。
でも、実用的な消費者向けのコンピューターサイエンスって、よく「プログラミングを学ぶ」ってことになってまうんや。普通は、コンピューターの仕組みに合わせたコードを書くことを学ぶんや。メモリを確保したり、ループを作ったり、変数をインクリメントしたり、そんなんや。
でも、これはコンピューターの内部の仕組みであって、世界を計算的に考えるのに必要なもんやあらへんのや。世界を計算的に考えるのに、メモリ確保やループのことを考える必要はないんや。
人々が計算について学ぶ時、プログラミングを学ぶことが多いけど、それが一番大事やとは思えへんのや。
例えば、わいのオフィスの画像があるとするやろ。この画像から何かを計算しようと思うたら、例えば「この照明やと、わいの顎から巨大な影ができるんやろか」みたいなことを考えるんや。これは計算で解決できるけど、プログラミングの知識は関係ないんや。何が計算で解決できて、何ができひんのかを知ることが大事なんや。
世界を計算的に考える方法、何が計算的に表現できるかを理解することが本当に重要なんや。でも、これはプログラミングを学んでも身につかへんのや。
Wolfram Languageでは、アイデアを理解したら、あとは自動化しようとしてるんや。例えば、旅行の荷物を決めるアプリを作るとするやろ。天気予報を見て、雷雨の確率が10%やったら荷物に入れるか、90%晴れやから入れへんか、どう考えたらええんやろ。
この問題を計算的にどう考えるか、天気予報のデータをどう扱うか、こういうことを考えるのがめっちゃ大事なんや。これは、伝統的な低レベルのプログラミングを学ぶのとはほとんど関係ないんや。
Wolfram Languageを使うと、大手テクノロジー企業のCEOやCTOがよく使ってるんやけど、彼らのワークフローは「アイデアがあるから、実装してみよう」っていう感じなんや。アイデアのプロトタイプ版ができる。
これは、普通のプログラマーが「仕様書があるから、今週か今月でこれを実装しよう」ってするのとは全然違うんや。仕様書が尽きたら「さあ、好きにしていいよ」って言われても、何をすべきか考えるのは別の作業になるんや。
わいがやってきたのは、その下層の作業を自動化することや。やりたいことのアイデアを持つだけで済むようにしてきたんや。
LLMはこれをさらに助けてくれる。LLMと話すだけで、各変数を細かく配置せんでも、計算言語のコードを書いてもらえるんや。
わいのアドバイスは、できるだけ幅広く学んで、物事を計算的に考える方法を学ぶことや。純粋な低レベルプログラミングのことやあらへん。
もちろん、世の中には低レベルプログラミングを本当によく理解して、うまくやる人も必要や。そういう人がおらんかったら世界は崩壊するやろうな。でも、大半の仕事はそのレベルで動いてへんのや。
わいはいろんな分野を学んできたけど、いつも謙虚になる経験やったな。どの分野にも独特の考え方があって、学び始めると「大体わかった」と思うても、話す人ごとに新しいことを教えてくれるんや。「もうダメや、この分野で溺れてまう」って思うこともあるんやけど、最後には底に着くんや。そしたら、その分野の全体像がわかってくる。
次に誰かと話しても「ああ、それ知ってる」とか「それはこういうことに関係してるんやな」って言えるようになるんや。
つい最近も、ニューラルネットの初期の歴史に興味を持って、脳がニューロンの集まりやってアイデアがどう生まれたかを調べてたんや。1800年代の文献を読んで、どうやって神経細胞を発見して、どう繋がってるかを理解したのかを調べてるんや。
20世紀初頭には「サイコン」っていう概念があってん。人によって意味は違うけど、基本的に「思考の原子」みたいなもんや。電子や陽子が発見されて、思考も何かの原子でできてるはずやって考えたんやな。
面白いのは、サイコンが電子みたいな粒子で、わいらの心の中で起こってることが、サイコンが電子にぶつかって物質的な物体に影響を与えるんやないかって議論されてたことや。当時は、念力みたいなもんが当たり前みたいに考えられてたんやで。
これ、ロジャー・ペンローズの量子チューブの話を思い出すな。そうそう、面白いよな。こういうアイデアって、ぐるぐる回って戻ってくることが多いんや。
脳に物理学以上のものがあるかって問題は面白い問題やけど、ChatGPTはその答えに大きな印をつけたと思うんや。つまり、結局のところ単純な計算と物理学だけやってことやな。
量子力学も、RNAの分子メモリーも、他の変なものも必要なく、流暢な言語を生成できるってことは、そこに変なものは何もないっていう重要なサインやと思うんや。
これが、LLMの成功から出てくる重要な概念の一つやと思うんや。
量子力学の話、わいの物理学プロジェクトで面白いことがわかってきてん。ようやく量子力学の仕組みがほぼ理解できたんや。長年の謎やったけど、結局のところ、宇宙には多くの歴史があって、全部同時に起こってるんや。わいらの脳はその異なる歴史の道筋にまたがってるんやな。
つまり、分岐する脳が分岐する宇宙をどう認識するかってのが量子力学の話なんや。観測者としてのわいらがどう物事を認識するかがめっちゃ重要なんや。
例えば、熱力学の第二法則を信じてて、気体がほぼ連続的やと思うてるのは、わいらが分子の個々の動きを感知せずに、大きな集まりだけを観測してるからなんや。これは気体の挙動の見方に重要やし、わいらのモデルでは空間の見方にも重要なんや。
わいらのモデルでは空間は離散的なんやけど、わいらが空間を連続的に認識するのは、わいらが空間の「原子」に比べて大きいからやし、細かい詳細を追跡するほど計算能力が高くないからなんや。量子力学でも同じような話なんやけど、これは長い脱線になってまうから、ここでは止めておこうか。
スティーブン、あと6時間くらい話を聞きたいくらいやけど、お忙しいのはわかってるし、これ以上引き止められへんな。めっちゃ面白かったわ。最後にいつも著者の方々に聞いてることがあるんやけど、最近読んだ面白い本とか、おすすめの本はある?
そうやな、わいは読むより書くほうが多いんやけどな。今日は1873年の心と物質についての本を読んでたんや。今から見たら完全にナンセンスなことも書いてあるけど、その時代の人がどう考えてたかを知るのはめっちゃ面白いんや。
間違ってるけど、全然バカげた方向性やあらへんかったんや。これが正しいかどうかはわからんかったんやな。さっき物事を明確に考える方法について聞いてくれたやろ。わいにとって、アイデアの歴史を学ぶのはめっちゃ大事なんや。「なんでこの人らはこう信じてたんやろ」って考えることで、多くのことが学べるんや。
今日のお気に入りの本はこれやな。
わいが書いた本の多くはめっちゃ長いんや。「新種の科学」は1280ページもあるんや。ChatGPTの本を出した時、他の本と比べたらめっちゃ小さくて、microscopic やったんや。
ChatGPTの本は、さっと読めるように書いたんや。多くの人に役立ってもらえてうれしいわ。テクノロジー業界の有名な人らに会うと、「あんたの本読んだで」って言われるのが驚きやわ。
一番早く書いた本が一番人気あるってのは、ちょっとフラストレーション感じるけどな。何か教訓があるんかもしれんな。
この本は、急いで書いて、さっと読めるように意図したんや。楽しんでもらえたらええな。
面白いのは、わいがいろんなこと書いたり話したりして、「誰かこれ研究したらええのに」って種をまくことがあるんやけど、何年も経って実を結ぶことがあるんや。物理学プロジェクトも、2019年に若い物理学者二人に押されて始めたんやけど、その一人は中学生の時にわいの著作を読んでたんやで。
この本にも、科学や技術の種がいっぱい蒔かれてるんやけど、たくさんの人が読んでくれてるのに、まだ芽が出てへんような気がするんや。これからどうなるか楽しみやな。
ほんで、ちょっと面白いもん見せたろか。海外版の本を何冊か持ってきたんや。表紙がめっちゃ面白いんやで。これ見て。これ、わいのはずなんやけど、あんまり似てへんな。たぶん韓国語版やと思うわ。
ほんまに楽しかったわ。本の内容を深掘りして、いろんな考えを聞かせてもらえて最高やった。来てくれてありがとう。
こちらこそ、楽しかったわ。話せてよかったわ。
みなさん、聞いてくれてありがとう。スティーブン・ウルフラムとのインタビューを終えたところや。いつも通り、TwitterではBook Overflow Podで見つけられるし、わいはCarter Morganで、ネイサンはYouTubeのFunctionally Imperativeチャンネルで他の面白い人らとインタビューしてるで。contact@bookoverflow.comにも連絡くれたらええで。
リスナーのみんな、スティーブン・ウルフラムとのインタビュー楽しんでもらえたやろか。ネイサン、他に何か言うことある?
めっちゃ良かったと思うわ。みんな、いいね、購読、シェアしてくれたらうれしいわ。広めてくれると、もっとええゲストや著者を呼べるようになるんや。大きな聴衆がいるほど魅力的になるからな。これまで支援してくれた皆さんに感謝してるで。
その通りや。聞いてくれてありがとう。また会おうな。