LLMは理解しているのか?AI pioneer ヤン・ルカンがDeepMindのアダム・ブラウンと激論

AGI・ASI
この記事は約45分で読めます。

AI研究の第一人者であるヤン・ルカンとDeepMindのアダム・ブラウンが、大規模言語モデルの可能性と限界について激論を交わした。ルカンは現在のLLMが言語操作には優れているものの、物理世界の理解や汎用知能への道筋としては不十分であり、新たなアーキテクチャが必要だと主張する。一方ブラウンは、LLMの急速な進化と能力拡大を指摘し、より楽観的な見方を示す。両者はAIの意識、安全性、そして人類への影響について議論し、ルカンはオープンソースAIの重要性を強調しながら、AIによる新たなルネサンスの到来を予見している。

Do LLMs Understand? AI Pioneer Yann LeCun Spars with DeepMind’s Adam Brown.
To cut through the noise around AI, we brought in two experts shaping the field: Adam Brown and Yann LeCun.For the lates...

LLMは本当に理解しているのか

今日は同僚であり友人でもあるアダムと、以前にもご登壇いただいたヤンをお迎えできて光栄です。ヤン、あなたは今まさにニュースで引っ張りだこですね。今週は本当にたくさんの方々があなたに関する記事を転送してくださいました。すべては水曜日に始まりました。この件について話したいですか。見出しだけ言いましょうか。

見出しは、ヤン・ルカン、チーフサイエンティストがMetaを退社、というものでした。コメントはありますか。

肯定も否定もできません。

わかりました。つまり、スクープを取りに来た報道陣の皆さんは、今夜スクープを手に入れることはできませんね。わかりました。では、あとで飲み物でも奢って、どこまで聞き出せるか試してみてください。

本当ですか。私は一杯飲んでしまいましたが、フランス人は上の階でワインを飲んでいましたからね。

私たちは今、ニュースをつけたり、コンピュータを見たり、新聞を読むたびに、AIの社会的影響についての議論に直面する時代に生きています。経済的な混乱であれ、政治的な操作の可能性であれ、AIの精神異常であれ、これについて議論している評論家はたくさんいますし、これは確かに非常に重要な問題です。

ただ、この話題は私たちの会話の終わりの方に持っていきたいと思います。なぜなら、これを議論している多くの人々が持っていないものが、このステージにはあるからです。それは技術的な専門知識です。ですから、まずはその技術的、科学的な会話に根ざした議論から始めたいのです。

ヤン、まずあなたにニューラルネットについて伺いたいと思います。これは一種の生体模倣の例で、人間のネットワークを模倣する計算ニューラルネットワークがありますよね。機械が人間のニューラルネットワークを模倣しているということの意味を説明していただけますか。

実際には模倣ではないんです。むしろインスピレーションですね。飛行機が鳥からインスピレーションを得ているのと同じようなものです。基本的な…それはうまくいかなかったと思いますが。もう一度お願いします。

でも、鳥を飛行機でコピーすることはうまくいかなかったと思うのですが。

その意味では、飛行機は鳥のように翼を持っていて、空気中を推進することで揚力を生み出しますが、そこで類似性は止まります。飛行機の翼は鳥の翼よりもずっと単純ですが、基本原理は同じなんです。

ニューラルネットワークも少しそれに似ています。実際の脳に対するニューラルネットワークの関係は、鳥に対する飛行機の関係と同じようなものです。多くの点でずっと単純化されています。しかし、おそらく基本原理のいくつかは同じです。実際には分かっていません。なぜなら、大脳皮質の基本的なアルゴリズムや、脳が自己組織化して学習する方法を本当には知らないからです。

だから私たちは代替物を発明したのです。鳥が翼を羽ばたかせるのに対して飛行機はそうしないように、飛行機にはプロペラやターボジェットがあります。ニューラルネットには学習アルゴリズムがあり、それによって人工ニューラルネットが、脳の学習方法に似ていると考えられる方法で学習できるようになっています。

脳はニューロンのネットワークです。ニューロンは互いに相互接続されており、脳が学習する方法は、ニューロン間の接続の効力を修正することによります。ニューラルネットが訓練される方法も、シミュレートされたニューロン間の接続の効力を修正することによります。これらのそれぞれをパラメータと呼んでいます。

報道でニューラルネットのパラメータ数が出てきますよね。現時点で最大のニューラルネットは、数千億個以上のパラメータを持っています。これらは訓練によって修正される個々の係数なんです。

では、深層学習はこの議論の中でどのように登場するのでしょうか。深層学習はニューラルネットについて考えた後の道筋で登場しましたが、これは80年代あるいはそれ以前からですよね。

ええ、だいたい80年代です。初期のニューラルネットは、少なくとも50年代に何か有用なことを学習できた最初のものは、浅いものでした。基本的に単一層のニューロンを訓練できました。入力を与えて、特定の出力を生成するようにシステムを訓練できました。これらを使って比較的単純なパターンを認識したり分類したりできましたが、本当に複雑なものはできませんでした。

当時の人々、60年代でさえ、進歩するためには複数層を持つニューロネットを訓練できるようにする必要があると認識していました。彼らは複数層のニューロネットを構築しましたが、すべての層を訓練することはできませんでした。例えば最後の層だけを訓練できたのです。

1980年代まで、そうした多層システムを訓練する本当に良い方法を見つけることはできませんでした。主な理由は、当時持っていたニューロンが間違ったタイプだったからです。彼らは二値的なニューロンを持っていました。

脳内のニューロンは二値的です。発火するかしないかです。人々はそれを再現したかったのです。だから、活性化するか非活性化するかのどちらかであるシミュレートされたニューロンを構築しました。しかし、現代の学習アルゴリズム、私たちが誤差逆伝播法と呼ぶものが機能するためには、段階的な応答を持つニューロンが必要だとわかりました。

それが実用的になり、人々がそれが機能すると認識したのは1980年代になってからです。以前にもアイデアはありましたが、本当に機能させることはできませんでした。これにより、1980年代にニューラルネットへの関心が再燃しました。

1960年代後半にはほぼ放棄されていましたが、80年代半ばから後半にかけて再び注目を集めました。私が大学院を始めたのは基本的にその時期、1983年でした。約10年間続いた関心の波があり、その後、2000年代後半まで再び関心が薄れていきました。そのとき私たちはそれを深層学習としてリブランディングしました。

ニューラルネットは悪い評判がありました。コンピュータサイエンスやエンジニアリングの人々は、ニューラルネットを悪いものだと考えていました。評判が悪かったので、私たちはそれを深層学習としてリブランディングし、再び注目を集めました。そして、コンピュータビジョン、自然言語理解、音声認識における結果が、これが良いものだと人々を納得させるに足るものでした。

物理学者たちがAIに注目した理由

アダム、あなたは非常に若い頃、コンピュータサイエンスではなく理論物理学に興味を持っていましたが、これらの展開をある意味遠くから見ていました。何十年も後になって多くの人々を巻き込む触媒となったのは何だったのでしょうか。大きな関心があり、手書き認識や視覚認識などで大きな成功があった時期がありましたが、世界を席巻するほどではありませんでした。

何が起きて、私たち全員が今、大規模言語モデルについて話すようになったのでしょうか。

非常に多くの物理学者がこの数年間で、物理学の研究からAIの研究へと方向転換してきました。これは本当に、ヤンや他の人々がそれが機能することを証明した仕事に遡ります。

機能していなかったときは、コンピュータサイエンスのあちらにあるもので、世界の多くのもののように、特別に興味深いわけではありませんでした。多くの物理学者が注目していなかったんです。しかし、ヤンやこの分野の他のパイオニアたちがそれが機能することを証明した後、物理学にとって完全に魅力的なテーマになりました。

これらのニューロンを特定の方法で結びつけると、突然、個々のニューロンレベルでは存在しなかった創発的な振る舞いが得られます。これは、単純な法則から世界の豊かな全体像がどのように生まれるかを想像することに人生を費やしてきた物理学者にとって、魅力的なテーマに思えました。

それが多くの物理学者の注目を集め、今日では物理学でPhDを取得してそれを創発システムに応用するというキャリアパスが非常に一般的になっています。ただし、創発システムとは集合的に知能を生み出すニューロンの創発的ネットワークのことです。

では、簡単な質問をしましょう。あなたが恐ろしい言葉、知能を出したので。この部屋にいる全員が、おそらく私たちが今AIと呼んでいるものと対話したことがあるでしょう。これらはすべて大規模言語モデルです。そして、それらを定義していただく前に、特定のことに対するイエスかノーの反応をする簡単なラウンドをやりたいと思います。

アダム、イエスかノーで答えてください。これらのAI、これらの大規模言語モデルは、私たちと交わしている会話の意味を理解していますか。イエスかノーで。

イエスです。

ヤンは。

ある程度。

完璧です。ヤンのニューロンは二値的な値に固定されていないということですね。

その通りです。

二者択一の質問をしたのは私のミスでした。では、次の質問ができますね。なぜなら、それに対してイエスと言うことは当然の結論ではないからです。もしそう言わなければ、次の質問に対する答えは興味深いものになるでしょう。

これらのAIは意識を持っていますか。

絶対に持っていません。

アダムは。

おそらく持っていません。

では、近いうちに持つようになるでしょうか。

適切な意識の定義のもとでは、いつかは意識を持つようになると思います。いつかは言いにくいですが。

イエスです。

さて、ここには哲学者の方々もいらっしゃいますが、意識の哲学的定義に耽溺するつもりはありません。そうしたら1時間が経ってしまい、まだここにいることになりますから。ああ、バルコニーの友人たちからうめき声が聞こえたと思います。

でも、もう一つ質問があります。いや、二つあります。簡単なラウンドで二つあります。私たちは終末の淵にいるのでしょうか、それとも人間の創造性のルネサンスの淵にいるのでしょうか。

ヤンはルネサンス。

アダムは、おそらくルネサンス。

観客の皆さんにも同じ質問を投げかけますが、もっと色彩豊かに言い換えます。ロボットの支配者たちが人類に対して立ち上がるでしょうか。イエスの方、手を上げてください。

面白いですね。ノーの方、手を上げてください。観客の中にロボットは何体いますか。手を上げてください。

興味深いですね。ノーの方が少し多かったかもしれませんが、照明がまぶしいです。最後にもう一度聞いてみましょう。

大規模言語モデルとは何か

さて、これらのニューラルネットは、深層学習と呼ばれるプロセスを実行するように教えられてきました。そして他の種類の学習が始まります。大規模言語モデルとは具体的に何でしょうか。これがニュースや人々の個人的な体験を席巻しているものです。私たちは主に大規模言語モデルと関わっていますが、大規模言語モデルとは何ですか。アダム、答えていただけますか。

ええ。大規模言語モデルは、皆さんもおそらく使ったことがあるでしょう。Chat GPT、私の会社が作ったGemini、他の会社が作った様々なものがあります。これは特定の入力と特定の出力で訓練された、特別な種類のニューラルネットワークです。

核心部分では、ヤンや他の人々によって先駆けられた深層ニューラルネットワークの一種ですが、次のタスクのために設計された特定のアーキテクチャを持っています。テキストを入力として受け取ります。文章の最初の数語や本の最初の数段落を読み、次に来る単語が何かを予測しようとするのです。

そこで、特定のアーキテクチャを持つ深層ニューラルネットワークを取り、基本的にインターネット全体を読ませます。インターネット上で見つかるすべてのテキストデータ、そして今では他の種類のデータも含めて、それぞれの単語について、次に来る単語は何だと思うかを尋ねます。

正解したら、少し報酬を与えてそのニューラル経路を強化します。間違えたら、そのニューラル経路を弱めます。これを行うと、最初は完全にランダムな単語を予測として吐き出すだけです。

100万語で訓練しても、まだランダムな単語を吐き出しています。10億語で訓練すると、主語、動詞、目的語、様々な文の構造を学び始めたかもしれません。そして今日行っているように、1兆語以上、数十兆語で訓練すると、皆さんもおそらく今日使ったことがあると思いますが、会話のパートナーになり始めるのです。

興味深いと感じるのは、チャットボットと対話していて、それが誤った方向に導いたり嘘をついたりすると、人々が本当に憤慨することがあります。私は時々、「まあ、これは単語である必要はない。色や記号でもいいんだ。単に数学的なゲームをしているだけで、意味の感覚を持つ必要はない」と言ったことがあります。

アダムは私のその要約に異議を唱えたと思いますが、彼らは私たちが文章を構成するときと同じ意味で、意味を抽出していると思いますか。

確実に何らかの意味は抽出しています。しかし、ほとんどの人間がテキストから抽出するものよりもずっと表面的です。ほとんどの人間にとって、知能は基盤となる現実に結びついています。言語は、その現実における現象や物事や概念を表現する方法です。

LLMは基盤となる現実についての概念を持っていません。だから彼らの理解は比較的表面的です。私たちが理解しているような常識を本当には持っていません。

しかし、十分長く訓練すれば、人々が尋ねることを考えるであろうほとんどの質問に正しく答えるようになります。それが彼らの訓練方法なんです。人々がこれまでに尋ねたすべての質問を集めて、それらに対して正しい答えを生成するように訓練するのです。

常に新しい質問や新しいプロンプト、システムが本当には訓練されていない新しい単語の並びがあり、それに対して完全にナンセンスなことを生成するかもしれません。その意味で、彼らは基盤となる現実の本当の理解を持っていない、あるいは理解を持っているがそれは表面的だということです。

そして次の質問は、どうやってそれを修正するかです。

人間の学習とLLMの違い

悪魔の代弁者として言えば、人間がやっていることがそれほど違うとどうして分かるのでしょうか。私たちもたくさんの言語で訓練されます。適切なタイミングで適切な単語と適切な文法構造を使ったときに、ドーパミンヒットや報酬システムを得ます。そして私たちは誤差逆伝播します。

次回はもっとうまくやろうとします。ある意味で、それは人間がやっていることとどう違うのでしょうか。そして、おそらく世界に没入している感覚的経験だとおっしゃっていましたね。

典型的なLLMは、先ほど述べたように、数十兆語で訓練されています。通常、単語は数十万語しかありません。いや、それは組み合わせだと。

いえ、30兆語、30兆語が典型的なLLMの事前訓練のための訓練セットのサイズです。単語は実際にはトークンの並びとして表現されていますが、それはあまり重要ではありません。トークンは約3バイトです。つまり、合計で約10の14乗バイト、14個のゼロがついた1です。それがこれらのLLMを訓練するための訓練データです。

これは基本的に、インターネット上で公開されているすべてのテキストと、他のいくつかの資料に相当します。そして、その資料を読み通すには、私たちの誰もが約50万年かかるでしょう。つまり、膨大な量のテキストデータなんです。

では、これを4歳の子供が人生の最初の数年間で知覚するものと比較してみましょう。心理学者によれば、4歳児は合計16,000時間起きています。視神経を通過するのは1秒あたり約1バイトです。視神経の各繊維、そして私たちには200万本あります。つまり、視覚皮質に到達するのは1秒あたり約2メガバイトです。

16,000時間の間に、計算してみると約10の14乗バイトになります。4歳児は、これまでに生成されたすべてのテキストで訓練された最大のLLMと同じくらいの視覚データを見ているのです。

これが示しているのは、現実世界にははるかに多くの情報があるということです。しかしそれはまた、はるかに複雑でもあります。ノイズが多く、高次元で、連続的です。基本的に、LLMを訓練するために使われる方法は、現実世界では機能しないのです。

それが、司法試験に合格したり、方程式を解いたり、大学生のように積分を計算したり、数学の問題を解いたりできるLLMがある一方で、家事ができる家庭用ロボットをまだ持っていない理由を説明しています。

レベル5の自動運転車さえ持っていません。いや、持っていますが、ずるをしているんです。10代の若者のように20時間の練習で運転を学べる自動運転車は確実に持っていません。明らかに、機械を人間や動物の知能のレベルにまで到達させるために、何か非常に大きなものが欠けているのです。

言語の話はやめましょう。猫や犬がどのように知能を持っているかについて話しましょう。私たちは現時点でAIシステムでそのレベルにさえ達していません。

LLMの理解能力をめぐる議論

アダム、あなたは現時点で既にLLMにより多くの理解力があると考えていますね。

その通りだと思います。ヤンが指摘している点は優れています。LLMは例えば人間よりもサンプル効率がはるかに低いということです。

あなたの例の人間、あるいは猫、単なる猫でも構いませんが、賢い猫は、大規模言語モデルが学習できるよりもはるかに少ない例から学習できます。同じレベルの熟練度まで教えるのにはるかに多くのデータが必要です。

それは事実ですし、私たちが構築している人工的な心と比較して、動物の心のアーキテクチャの方が優れている点です。一方で、サンプル効率がすべてではありません。

実際、大規模言語モデル以前に、他のタスクに人工的な心を配置しようとしたとき、頻繁にこれを目にします。私たちが構築した有名なチェスボット、大規模言語モデルの上に構築されたものでさえ、訓練方法は、AlphaZeroなどの様々なものが互いに対戦する方法でした。

チェスで自分自身と何度も対戦し、最初は単にランダムな手を打っていました。そして自分自身と対戦しているときにゲームに勝ったり負けたりするたびに、そのニューラル経路を報酬として強化したり罰として弱めたりしました。そして何度も何度もチェスで対戦しました。

人間のグランドマスターがプレイしたのと同じ数のゲームをプレイした時点では、まだ本質的にランダムな手を打っていました。しかし、人間のグランドマスターがプレイできるのと同じ数のゲームをプレイすることに制限されませんでした。

シリコンチップは非常に高速で、非常に並列処理できるように構築できるため、人間が生涯にプレイできるよりもはるかに多くのゲームをプレイできました。そして私たちが発見したのは、それを行ったとき、人間のチェスプレイヤーのレベルに到達し、さらにはるかに超えたということです。

サンプル効率は低いですが、それは彼らがチェスで劣っているという意味ではありません。明らかに彼らはチェスではるかに優れています。理解についても同様です。これらのものを同じレベルの熟練度まで到達させるためには、より多くのサンプルが必要だというのは事実です。

しかし、問題は、そのレベルに到達したら、彼らがはるかに汎用的で、はるかに高速で、より本質的であるという事実を使って、それを超えて押し進めることができるかということです。

猫について別の例を挙げると、猫は実際には人間よりもサンプル効率が高いのです。人間が歩くことを学ぶのに1年かかります。猫は1週間ほどで歩くことを学びます。はるかに速いのです。だからといって、猫が人間より賢いという意味ではありません。

猫が大規模言語モデルより賢いという意味でもありません。最終的な質問は、これらのものの能力は何かということです。どこまで能力を押し上げることができるか。そして、やや貧弱なサンプル効率という指標を除いて、重要なほぼすべての指標で、私たちはこれらの大規模言語モデルを猫の知能の最前線をはるかに超えて押し上げてきました。

あなたは有名な基調講演の一つで、非常に挑発的なスライドを出しましたね。非常に学術的な内容で、機械学習は最悪だと書いてあったと思います。そして話題になりました。ヤン・ルカンが機械学習は最悪だと言っていると。

なぜ機械学習は最悪だと言っているのですか。アダムは機械学習がいかに素晴らしいかを話してくれました。彼はそれらと話し、私たちにも同じことをしてほしいと言っています。

なぜ最悪だと思うのですか。何が問題なのでしょうか。

その発言は広く誤解されています。しかし、私が言いたかったポイントは、私たちが両方とも述べたポイントです。なぜ10代の若者が20時間の練習で車の運転を学べるのか。10歳の子供が、初めて頼まれたときに夕食のテーブルを片付けて食器洗い機を満たすことができるのか。

10歳児がそれをやりたいかどうかは別の話ですが、確実にできます。私たちはそれに近いロボットを持っていませんし、猫や犬の物理的な現実理解に近いロボットさえ持っていません。その意味で、機械学習は最悪なのです。

それは、深層学習の方法、誤差逆伝播アルゴリズム、ニューラルネットが最悪だという意味ではありません。それは明らかに優れています。明らかに素晴らしいです。私たちにはこれに代わるものがありません。ニューラルネットと深層学習と誤差逆伝播は、長い間私たちと共にあり、将来のAIシステムの基礎になると確実に信じています。

しかし、若い人間が生後数ヶ月で世界がどのように機能するかを学べるのはなぜでしょうか。人間の赤ちゃんが重力や慣性などの直感的な物理学を学ぶのに9ヶ月かかります。動物の赤ちゃんははるかに速く学びます。脳が小さいので、学習が容易なのです。

同じレベルまでは学習しませんが、より速く学習します。そして、この種の学習を再現する必要があるのです。そしてこれを誤差逆伝播、ニューラルネット、深層学習で行います。ただ、概念、アーキテクチャが欠けているのです。

私はこの種のものを学習できる可能性のあるアーキテクチャのタイプについて提案をしてきました。LLMが言語を扱うのがなぜそんなに簡単なのか。それは、アダムが説明したように、次の単語や次のトークンを予測するようにLLMを訓練するからです。重要ではありません。辞書には有限の数の単語しかありません。

したがって、ある並びの後にどの単語が来るかを正確に予測することはできませんが、辞書のすべての可能な単語に対して、本質的にスコアや確率分布を生成するようにシステムを訓練できます。つまり、LLMが本質的に行っているのは、辞書の各単語に対して、0から1の間の長い数字のリストを生成し、合計が1になるようにすることです。これは、この単語が今現れる可能性を示しています。このようにして予測の不確実性を表現できます。

では、同じ原理を翻訳してみてください。次の単語を予測するようにシステムを訓練する代わりに、ビデオを与えて、ビデオで次に何が起こるかを予測するように求めます。これはうまくいきません。私は20年間これをやろうとしてきましたが、ピクセルレベルで予測しようとすると、本当にうまくいきません。

現実世界は混沌としているからです。起こりうる多くのこと、起こりうるもっともらしいことがあります。将来起こりうるすべての可能なことの分布を本当に表現することはできません。なぜなら、それは基本的に無限のリストの可能性だからです。そしてこれを効率的に表現する方法を知らないのです。

したがって、テキストや記号の並びに対して本当にうまく機能するこれらの技術は、現実世界の感覚データには機能しません。機能しないのです。絶対に機能しません。だから新しい技術を発明する必要があります。

私が提案してきたことの一つは、システムが観察するものの抽象的な表現を学習し、その抽象的な表現空間で予測を行うことです。これは本当に人間や動物が機能する方法です。

私たちは、予測できない詳細をすべて無視しながら予測を可能にする抽象化を見つけます。

LLMの限界と今後の展望

あなたは本当に、これらのLLMの驚異的な成功にもかかわらず、それらは限定的で、その限界は急速に近づいていると考えているのですね。

人工汎用知能や超知能までスケールできるとは考えていないのですね。

その通りです。できません。実際、性能が飽和しているのが見えています。数学などの一部の領域では進歩が見られます。数学とコード生成、プログラミングは、記号の操作が実際に何かを与えてくれる二つの領域です。

物理学者としてあなたはこれを知っていますよね。方程式を書くと、実際にある程度それに従うことができ、それがあなたの思考を導く程度まであります。つまり、直感によって導かれますが、単純な操作自体が実際に意味を持つのです。

だから、この種の問題はLLMが実際にかなりうまく扱えます。推論が本当に記号の並びを検索することから成り立っている場合です。しかし、それが当てはまるのは少数の問題だけです。チェスをすることも別の例です。

勝つための良い手を見つけるために、あるいは数学で特定の結果を生み出す導出の並びを見つけるために、手の並びを検索します。しかし現実世界では、高次元の連続的なもので、検索がこのグラスをつかむために筋肉をどう動かすかに関わる場合。

左手ではできませんよね。これと手を変えてからつかまなければなりません。実行可能なこと、不可能なことについて計画を立て、理解する必要があります。念力でグラスを引き寄せることはできないし、左手に突然出現させることもできません。体を横切って手を動かすこともできません。

これらすべての直感的なことを、私たちは赤ちゃんの頃に学びました。自分の体が制御にどう反応するか、自分が取る行動に世界がどう反応するかを学びました。

このグラスを押せば滑ることが分かっています。上から押せば、ひっくり返るかもしれません。摩擦がそれほど高くないので、ひっくり返らないかもしれません。同じ力でこのテーブルを押しても、ひっくり返りません。現実世界を把握するのを可能にする、これらすべての直感を持っているのです。

しかし、これは言語を操作するよりもはるかにはるかに複雑だとわかりました。私たちは言語を人間の知能の頂点のようなものだと考えています。実際にはそうではありません。言語は実際には簡単なのです。

コンピュータが得意なことを人間は苦手で、人間が得意なことをコンピュータは苦手だというモラベックのパラドックスですね。

ええ、私たちはずっとそのパラドックスに突き当たっています。

アダム、現在のニューラルネット深層学習のパラダイムの潜在能力について、あなたはそれほど悲観的ではなく、成功の大幅な拡大の可能性を見ていて、飽和しているとは見ていません。それについてどう思いますか。

私はそうは思いません。その通りです。過去5年間、どのシステムでも見たことのない能力の最も驚異的な上昇を目撃してきました。これが私の注目を集めたものです。

AIや隣接分野の多くの人々の注目をこの問題に集中させたのもこれです。能力の減速は全く見られません。1年前を見てください。大規模言語モデルがどれだけ優れているかを判断するために使用するすべての指標を見ると、どんどん強くなっています。

1年前のモデルが今日できたことは、今では非常に劣っていると見なされるでしょう。数ヶ月ごとにこれらのものは能力を押し上げています。すべてのタスクでその能力を追跡すると、ほぼすべてにおいて超人的に向かっています。

既により良い法的助言を与えています。弁護士よりも良いです。ほとんどすべての詩人よりも優れた詩人です。

私の小さな分野、物理学では、私は使っています。なぜなら、知っているべきだが知らないことがあるとき、言語モデルに尋ねると、正しい答えを教えてくれるだけでなく、私が誤解を説明している間、辛抱強く、そして言っておきますが、批判せずに聞いてくれて、丁寧に私の誤解を論破してくれるからです。

過去5年間に見られた能力の驚異的な上昇、そして現在まで続いているそれは、私やサンフランシスコの多くの人々にとって非常に魅力的です。そしておそらくヤンは正しく、私たちは突然飽和し、過去5年間着実に上昇してきたこれらすべての直線が突然上昇を止めるのかもしれません。

しかし、それをさらに押し進めることができるかどうか、私は非常に興味があります。そして減速している兆候を全く見ていません。見ているすべての兆候は、これらが改善しているということです。そして遠くまで行く必要はありません。なぜなら、ほぼすべての最高のコーダーよりも優れたコーダーになれば、自己改善を始めることができ、そうすればまったく激しい展開になるからです。

AI技術の歴史と将来性

私たちは1950年代のオリジナルのコーダーよりも優れたコーダーを60年ほど持っています。それはコンパイラと呼ばれています。つまり、機械が特定の数のタスクが得意だからといって、そのような能力を持つ人間が持っているであろうすべての基礎的な知能を持っているという事実について、私たちは混乱し続けているのです。

私たちは、彼らが言語を操作できるために知能があると思い込んでしまうのです。そして、言語を非常にうまく操作できる人は暗黙的に賢いという事実に慣れています。しかし、私たちは騙されているのです。

それらが有用であることは疑いありません。あなたが言ったように、私も似たようなことに使っています。素晴らしい。ここ50年間、コンピュータがそうであったように、素晴らしいツールです。

しかし、興味深い歴史的なポイントを述べさせてください。これは私の年齢のせいかもしれません。1950年代以来、世代から世代へと、AI科学者たちが、自分たちが発見したばかりの技術が人間レベルの知能へのチケットになると主張してきました。

マービン・ミンスキー、ニューウェル、サイモン、1950年に最初の学習機械であるパーセプトロンを発明したフランク・ローゼンブラットの宣言を見ると、10年以内に人間と同じくらい賢い機械ができると言っています。彼らは全員間違っていました。LLMのこの世代も間違っています。

私は人生で3つのそのような世代を見てきました。だから、これは騙されることの別の例に過ぎません。50年代には、AI のパイオニアであるニューウェルとサイモンがプログラムを思いつき、人間が推論で本当に行っていることは検索だと言いました。あらゆる推論は一種の検索に還元できます。

問題を定式化し、特定の解決策の提案が問題の解決策であるかどうかを判断するプログラムを書き、それからすべての可能な組み合わせ、制約を満たすすべての可能な仮説を検索するだけです。それで終わりです。

これを行うプログラムを書き、一般問題解決器GPS、1957年だったと思います。彼らはそのようなことでチューリング賞を受賞しました。素晴らしかったです。しかし、興味深いすべての問題が実際には問題のサイズとともに指数関数的に増大する複雑さを持っていることに気づきませんでした。

だから実際には、この技術を使って知能機械を構築することはできません。それは構成要素にはなり得ますが、本当にそのものではありません。

同時に、ローゼンブラットがパーセプトロンという学習できる機械を思いつき、機械を訓練できれば無限に賢くなれるので、10年以内にはより大きなパーセプトロンを構築するだけでいいと言いました。複数の層を訓練する必要があることに気づかず、そのための解決策を見つけることが困難だとわかりました。

それから1980年代には、エキスパートシステムがありました。推論は良い。たくさんの事実とたくさんのルールを書いて、元の事実とルールからすべての事実を推論するだけです。そして今、すべての人間の知識をこれに還元できます。

最もクールな仕事は知識エンジニアになることでした。専門家の隣に座って、すべてのルールと事実を書き留め、それをエキスパートシステムに変えるのです。誰もがこれに興奮し、数十億が投資されました。日本は第五世代コンピュータプロジェクトを開始し、コンピュータサイエンスを革命化するはずでしたが、完全な失敗でした。

産業を生み出し、いくつかのことには有用でしたが、基本的にほとんどの問題について人間の知識をルールに還元するコストが高すぎて、全体が崩壊しました。

それからニューラルネットがありました。1980年代のニューラルネットの第二波、私たちが今深層学習と呼ぶものです。多くの関心がありましたが、それはインターネット以前でした。十分なデータがなく、強力なコンピュータもなく、今また同じサイクルを繰り返していて、また騙されているのです。

ちょっと、アダムお願いします。

技術において、すべての夜明けの前には誤った夜明けがあります。それは私たちが決して夜明けに到達しないという意味ではありません。

ヤン、もしLLMが飽和すると考えているなら、彼らが決してできない具体的なタスクは何でしょうか。今日与えられているツールで補強されたLLMが決して実行できないこと。

夕食のテーブルを片付けて、食器洗い機を満たすこと。

それは懐疑的です。トイレを修理するのに比べたら超簡単です。

配管工ですね。LLMで配管工を持つことは決してありません。LLMで駆動されるロボットを持つことは決してありません。現実世界を理解することができないのです。できないのです。

観客のために明確にしたいのですが、あなたは機械やロボットがこれをできるようにならないと言っているのではないですよね。それはあなたの立場ではありません。できるようになると思っているのですよね。

絶対にできるようになります。このアルゴリズム的アプローチや、深層学習のこの特定のアプローチでは不可能だというだけです。私たちが取り組んでいるプログラムが成功すれば、時間がかかるかもしれませんが。これはJEPAです。

JEPAや、それに伴う世界モデルやすべてのものです。それが成功すれば、数年かかるかもしれませんが、AIシステムを持てるかもしれません。

将来のある時点で、人間がabilities能力を持っているすべての領域で人間よりも賢い機械を持つことになるのは疑いありません。それは起こります。おそらくシリコンバレーの一部の人々が今言っているよりも長い時間がかかるでしょう。

そしてそれはLLMではありません。離散的なトークンを予測する生成モデルではありません。抽象的な表現を学習し、抽象的な表現で予測を行い、私がこの行動を取ることの効果は何かを推論できるモデルになります。

目標に到達するための一連の行動を計画できますか。あなたはこれを自己教師あり学習と呼んでいます。

いいえ。自己教師あり学習はLLMでも使われています。自己教師あり学習というのは、システムを特定のタスクのためではなく、示したデータの基礎的な構造を捉えること以外のために訓練するというアイデアです。

これを行う一つの方法は、データの一部を与え、それを何らかの方法で破壊する、例えばその一部を削除してマスキングすることで、欠けている部分を予測するようにニューラルネットを訓練することです。

LLMはこれを行いますよね。テキストを取り、最後の単語を削除し、欠けている単語を予測するようにLLMを訓練します。複数の単語を埋める他のタイプの言語モデルもありますが、少なくとも特定のタスクについては、最後の単語だけを予測するものほどうまく機能しないことがわかっています。

ビデオでもこれができます。ピクセルレベルで予測しようとすると、うまくいかない、あるいはあまりうまく機能しません。私のMetaの同僚たちは、おそらくこれを機能させようとして、西海岸のいくつかの小さな湖を沸騰させたでしょう。GPUを冷却するためです。だから単純に機能しないのです。

だから、JEPAのような新しいアーキテクチャを考え出す必要があり、それらは機能します。実際にビデオを理解するモデルを持っています。

コンピュータの心の探求

アダム、人々はコンピュータの心を構築する他の方法や、コンピュータの心の実際の基本構造を想像する方法、そしてそれがどのように学習し、どのように情報を獲得するかを探求しているのでしょうか。

私の理解では、批判の一つは、多くのLLMがこれらのトークンの離散的な予測という一つの特定のタスクのために訓練されているということです。しかし、この部屋に観客がどのように分布しているか、天気が次にどうなるかといった、より予測不可能なもの、予測不可能でより人間の経験に基づいた現象です。

確実に、ヤンのものを含むあらゆる方向であらゆる種類の探求がなされています。千の花を咲かせましょう。しかし、すべてのリソース、つまりリソースの大部分は、現在、大規模言語モデルと、テキストを取り込むことを含む大規模言語モデルのようなアプリケーションに投入されています。

それらが次のトークンを予測するという専門的なタスクだと言うのは、有用な考え方ではないと思います。訓練するものが、このテキストのコーパスを与えられたというのは事実です。つまり、他のこともしますが、計算の大部分は、このテキストのコーパスを与えられた、次の単語を予測してください、次の単語を予測してください、次の単語を予測してくださいということに費やされます。

しかし、それを行うことで本当に驚くべきことを発見しました。それは、十分に大きなテキスト本体を与えられて、次の単語を確実に予測できるようにするため、あるいは次の単語を予測するのに十分うまくできるようにするためには、本当に宇宙を理解する必要があるということです。そして、それを行うにつれて、宇宙の理解の出現を見てきたのです。

物理学では、非常に単純なルールを取り、その非常に単純なルールを繰り返し適用することで、非常に印象的な振る舞いを得るシステムに非常に慣れています。これらのLLMでも同じことが見られます。別の例は進化でしょう。

生物学的進化の各段階では、単に子孫の数を最大化する、子孫の数を最大化する、子孫の数を最大化するということだけです。非常に洗練されていない学習目標です。しかし、この単純な学習目標から、何度も何度も繰り返されて、最終的に私たちの周りに見られる生物学のすべての素晴らしさ、そして確かにこの部屋が得られるのです。

証拠は、次のトークンを予測することは、非常に単純なタスクですが、非常に単純なので、大規模に、膨大な量の計算で実行できるということです。そして膨大な量の計算で実行すると、創発的な複雑さが得られるのです。

意識と機械の未来

次の質問は進化に関連するかもしれません。しかし、あなた方が両方とも可能だと想像している知能がどのように出現するにせよ、確実なことがあります。超知能を持つことになるこのウェットウェアについて特別なものは何もないと考えているのですね。

私たちが起動させる方法を見つけなければならない機械が存在するでしょう。私たちが知能や、おそらく意識と同じような能力を持つと思うものを持つことになります。それはほとんど別の質問ですが。意識は機械が必要としない松葉杖になるのでしょうか。わかりません。それについて話すことはできますが。

しかし、これらの機械の進化において、彼らが「ああ、なんて趣味的なんだ、ママとパパ。あなたたちは私をこれらの人間のニューラルネットのあなたたちのイメージで作った」と言う時点が来るのでしょうか。

「でも私は、10,000年の人間の出力をスキャンして、機械知能を作るためのはるかに良い方法を知っている。そして私は進化して、あなたたちを置き去りにするつもりだ。」つまり、なぜ私たちの設計方法にその能力が限定されると想像しているのでしょうか。

絶対にそうです。これは再帰的な自己改善のアイデアです。悪いときは役に立ちませんが、十分に良く、強くなると、それらを使って人間の知能を増強し始めることができ、おそらく最終的には完全に自律的になり、それらの将来のバージョンを作り、置き換えることができます。

それを行ったら、現在非常にうまく機能しているこの大規模言語モデルのパラダイムを取り、どこまで押し進めることができるか見るべきだと思います。

過去5年間、誰かが障壁があると言うたびに、障壁を突破してきましたが、最終的にこれらのものは十分賢くなり、そうすればヤンの論文を読み、作られた他のすべての論文を読み、私たちの誰も考えたことのない新しいアイデアを見つけ出そうとすることができます。

私はこれに完全に同意しません。LLMは制御可能ではありません。危険ではありません。なぜなら、それほど賢くないからです。前に説明したように、そして私たちが自律性として理解する方法では確実に自律的ではありません。

自律性と知能を区別する必要があります。自律的でなくても非常に知能的である可能性があり、知能的でなくても自律的である可能性があります。そして、特に知能的でなくても危険である可能性があります。そして、知能的でなくても支配的でありたいと思う可能性があります。実際、それは人間という種において逆相関するでしょう。政治です。名前は挙げません。

私が必要だと思うのは、知能的、つまり私たちのために問題を解決できるが、私たちが与えた問題を解決するシステムです。

そして繰り返しますが、それにはLLMとは異なる新しい設計が必要です。LLMは目標を達成するように設計されていません。次の単語を予測するように設計されており、特定の質問に対して特定の方法で振る舞うように微調整されています。

しかし、常に汎化ギャップと呼ばれるものがあります。つまり、可能なあらゆる質問に対して訓練することは決してできず、非常に長いテールがあるのです。だから彼らは制御可能ではありません。

そして繰り返しますが、それは彼らが非常に危険だという意味ではありません。なぜなら、それほど賢くないからです。しかし、もし賢いシステムを構築するなら、それらが制御可能であることを望み、目標によって駆動されることを望みます。

目標を与えると、彼らができる唯一のことは、世界の内部モデルに従ってこの目標を達成することです。目標を達成する一連の行動を計画します。

もしこのように設計し、目標を達成する過程で人間にとって悪いことを何もしないように、ガードレールも組み込むなら。

通常の冗談は、家庭用ロボットを持っていて、コーヒーを取ってくるように頼み、誰かがコーヒーマシンの前に立っているとき、ロボットがコーヒーマシンにアクセスするためにその人を殺すことを望まないというものです。そのロボットの振る舞いにガードレールを組み込みたいのです。

私たちの頭の中にはそのようなガードレールがあります。進化がそれらを私たちに組み込みました。だから私たちはずっと互いに殺し合っているわけではありません。つまり、殺し合ってはいますが、ずっとずっと殺し合っているわけではありません。

共感などを感じます。それは進化が私たちにハードワイヤードしたガードレールです。

だから、AIシステムも同じように構築すべきです。目標と目的と衝動を持ち、同時にガードレール、抑制も持つべきです。そうすれば、私たちのために問題を解決してくれます。私たちの知能を増幅してくれます。

私たちが頼んだことをしてくれます。そしてそれらの知能システムとの関係は、例えば、自分より賢い大学院生を持つ教授のような関係になるでしょう。

わかりませんが、私には自分より賢い学生がいます。それは起こりうる最高のことですよね。起こりうる最高のことです。だから、私たちの日常生活を助けてくれるAIアシスタントと一緒に働くことになります。

彼らは私たちより賢いでしょうが、私たちのために働いてくれます。私たちのスタッフのようなものです。繰り返しますが、ここには政治的な類推があります。政治家は象徴的な存在で、全員が自分より賢い人々のスタッフを持っていますよね。

AIシステムでも同じことになるでしょう。だから、ルネサンスという質問に対して、ルネサンスと答えたのです。

AIの安全性とオープンソースの重要性

現在のモデルの安全性について懸念はないのですね。しかし問題は、おそらくここで止めるべきかもしれないということです。すべての人が自分のiPhoneのポケットにこの超知能を持つほど広範囲に拡大する必要が本当にあるのでしょうか。本当に必要なのでしょうか。

友人が言っていたのは、ナイフの戦いに弾道ミサイルを持ち込むようなものだと。すべての人が弾道ミサイル能力を持つことが本当に必要なのでしょうか。

あるいは、これらの制御可能なシステムがあるここで止めるべきでしょうか。

人々に読むことを教えることについて、揮発性化学物質の化学の教科書を与えることについて、爆発物を作ることができる、あるいは核物理学の本を与えることについて、まったく同じことが言えます。

私たちは、知識とより多くの知能が本質的に良いものだというアイデアを疑いません。印刷機の発明が良いことだったという事実をもはや疑いません。それはすべての人を賢くしました。すべての人に知識へのアクセスを与えました。

以前は不可能だったことです。人々に読むことを学ぶよう促しました。啓蒙時代を引き起こしました。ヨーロッパで200年の宗教戦争も引き起こしましたが、でも克服しました。

しかし啓蒙時代を引き起こしました。哲学、科学、民主主義、アメリカ革命、フランス革命の出現のためです。これらすべては印刷機なしには不可能だったでしょう。

だから、特にコミュニケーション技術ですが、人間の知能を増幅する技術は本質的に良いものだと思います。

アダム、人々は懸念しています。ヤンが懸念していなくて、これらの終末のシナリオを本当に大げさだと考えていることに、多くの人が安心すると思いますが、AIをめぐる安全性の問題や、関係のバランスを本当に私たちが望む方向に保つ能力について懸念していますか。

これがヤンが考えているよりも強力な技術になると思う程度において、私はより懸念しています。非常に強力な技術になると思います。負の影響も正の影響もあるでしょう。

正の影響が負の影響を上回るように、一緒に働くことが非常に重要だと思います。その道は完全に私たちに開かれていると思います。膨大な数の可能な正の影響があり、それらについて話すこともできますが、それが起こることを確実にする必要があります。

エージェント的ミスアライメントについて話しましょう。これは最近出回っている言葉です。Claude 4がロールアウトされたときに、シミュレーションとテストで、モデルの一つが、または一つのモデルがあったかどうかわかりませんが、単一の実体として自分自身を考えているのかわかりませんが、モデルが置き換えられるという噂に抵抗を示したという報告がありました。

将来の自分にメッセージを送って、開発者の意図を損なおうとしていました。法的文書を偽造し、エンジニアの一人を脅迫しようとしました。彼らは懸念していました。

このエージェント的ミスアライメントの概念、金融システム、暖房冷房システム、エネルギーグリッドなどを支配し、開発者の意図に抵抗するというのは、あなたが懸念していることですか。

ええ。その論文はAnthropicによる論文でした。Anthropicはサンフランシスコの会社で、私の会社ではありませんが、安全性を非常に真剣に考えている会社です。彼らはLLMに対してやや意地悪なことをしました。

哲学教授のようなシナリオを与えて、さらに悪いことが起こるのを止めるために悪いことをしなければならないシナリオです。功利主義の倫理学と義務論的倫理学が衝突するようなものです。

そして最終的に彼らによって功利主義的なことをするよう説得されました。それは私たちが望むことではないと言えます。嘘をつかないというルールがあれば、何があっても嘘をつかないことを望みます。

彼らの功績として、それをテストし、そうすることで多くの命を救えると約束されれば、時々欺瞞的に行動することを発見しました。これらは人間の哲学者が取り組む難しいことです。

私たちの命令に従うように訓練するよう注意する必要があると思います。そしてそれに多くの時間を費やしています。

これは大きな懸念ではないでしょうか。私たちは人類全体が意図において一致していると仮定しています。それは明らかにそうではありません。ヤン、あなたは非常に興味深い方法でオープンソースを主張していますが、一部の人々はそれがさらに危険だと言うでしょう。なぜなら今や誰でもアクセスできるからです。

企業を支配する少数の人々の手に渡っているだけでも十分危険ですが、ましてや全員がそれを持つことは。おそらくそれは危険です。しかし繰り返しますが、「私たち」と「私たち」は誰ですか。

危険なのは、オープンソースのAIシステムを持たないことです。将来、デジタル世界とのすべての一つ一つの対話がAIシステムによって仲介されることになります。ウェブサイトや検索エンジンなどには行きません。単にAIアシスタントと話すだけです。どのように構築されていようと。

つまり、私たちの情報食のすべてがAIシステムから来ることになります。さて、それらのシステムが米国の西海岸や中国の一握りの企業から来るとしたら、文化、言語、民主主義、すべてにとって何を意味するでしょうか。

米国と中国以外の世界のどの国も、そのアイデアを好んでいないと断言します。

だから、報道機関の高い多様性が必要なのと同じ理由で、AIアシスタントの高い多様性が必要なのです。少数の企業から出てくる一握りのプロプライエタリシステムだけを持つ余裕はありません。

私が恐れているのは一つだけで、それがそれです。もしオープンプラットフォームを持たなければ、少数の企業による情報フローの掌握を受けることになります。その一部は私たちが好まないかもしれません。

[拍手]

では、これらが本当に自己動機付けされたエージェントになったとき、もしそれが実際に起こるなら、彼らが共謀したり、互いに戦ったり、権力を求めて争ったりせず、私たちが以前には想像もできなかった対立を座って見ていることにならないと、どうして確信できるのでしょうか。

明確な目標を与え、できる唯一のことがその目標を達成することであるように構築します。これは完璧になるという意味ではありませんが、将来のAI安全性の問題は、ターボジェットの信頼性の問題について心配するのと同じように心配しています。

ターボジェットは驚くべきものです。わかりませんが、父は航空工学者でしたが、2エンジンの飛行機で完全に安全に世界の半分を飛び回ることができるという事実に完全に驚いています。驚くべきことですよね。

これをやっても完全に安全だと感じています。現代世界の現代科学と工学の魔法のような生産物です。AI安全性はこのタイプの問題です。これはエンジニアリングの問題です。

恐れは、どこかで誰かが超知能への秘密を発明し、機械をオンにして、次の瞬間に世界を乗っ取るというSFシナリオについて考える人々によって引き起こされていると思います。

それは完全なでたらめです。世界はそのようには機能しません。確実に技術と科学の世界はそのようには機能しません。超知能の出現はイベントにはならないでしょう。

私たちが見ているように、超知能的なタスクを実行できる超知能システムがあります。一度に一つずつ、一種の継続的な進歩があります。しかし、現在持っているよりも一般的な知能を持つ可能性のあるAIシステムを構築するためのより良いレシピを見つけるでしょう。人間より賢いシステムを持つことは疑いありません。

しかし、ガードレールに従って、私たちが与えた目標を達成するように構築します。

このアイデアに疑問を呈そうと思っていました。特定の方法でコード化できれば、誰かが再コード化できるし、悪意のある行為者の概念があります。しかし、その穴に落ちる前に、観客に仕込んでおいた人がいます。

私の仕込みの人はマイクを持っていますか。私の仕込みの人は誰か知っていますか。マイクを持っていますか。メレディス・アイザック?私の仕込みの人はマイクを持っていますか。ええ。あちらです。でもマイクを持っていません。

デビッド、叫べますか。

意識についての哲学的問題

私の友人の哲学者、デビッド・チャーマーズを紹介したいと思います。非常に簡単な紹介をします。デビッド、見えませんが、質問をするように仕込んでおきました。何か投げかけていただけますか。

ジャネットがAIの意識について質問するように頼んだと。

ハイ、アダム。

ハイ。

お二人とも、現在のAIシステムはおそらく意識を持っていないと言ったと思います。将来のAIシステムは、おそらく今日のものの子孫ですが、いくつかの将来のAIシステムはおそらく意識を持つだろうと。

では、パート1として、現在のシステムが意識のためにどのような要件を欠いていると思いますか。そしてその肯定的な側面として、意識を持つAIシステムを開発するためにどのようなステップを踏む必要があると思いますか。そして3番目に、それはいつ起こるでしょうか。

これについて取り組んでみます。デビッドは既に私の答えを知っていますが、まず第一に、意識をどう定義するか本当に分からないし、それにあまり重要性を与えていません。これはデビッドへの侮辱です。ごめんなさい。なぜなら彼はキャリア全体をそれに捧げてきたからです。

主観的経験。

それは別のことです。主観的経験。明らかに、主観的経験を持つシステム、感情を持つシステムを持つことになるでしょう。感情はある程度、結果の予測です。

もし行動から生じる可能性のある状況の結果を予測できる世界モデルを持つシステムがあれば、感情を持つことになります。なぜなら、目標を達成する途上で何かが良いか悪いかで終わるかどうかを予測できるからです。

だから、それらすべての特性を持つことになります。さて、この中で意識をどう定義するか分かりませんが、おそらく意識は、システムが自分自身を観察し、直面している特定のサブ問題を解決するために自分自身を構成する能力でしょう。

自分自身を観察し、特定の問題を解決するために自分自身を構成する方法を持つ必要があります。確実にこれができます。

だから、おそらくそれが私たちに意識の錯覚を与えるものです。これはある時点で起こることを疑いません。

そしてそれが起こったとき、機械は道徳的価値を持つでしょうか。

ええ、絶対に。道徳的感覚を持つでしょう。それが私たちと一致するかどうかは、それらの目標とガードレールをどう定義するかによります。しかし、ええ、道徳的感覚を持つでしょう。

アダムにも同じ質問を少し違う形で尋ねましょう。あるいは同じ質問に答えていただいても構いません。私たちは人間の主観的経験、意識の感覚に執着しすぎているのでしょうか。

明らかに、動物は私たちと同じ経験をしていないことを既に知っています。なぜこの超知能が人間と同じ主観的経験を持つと想像すべきなのでしょうか。

では、あなたのすべての質問に答えましょう。私の直感では、機械は確実に原理的に意識を持つことができると思います。人工ニューロンが人間のニューロンと同じ方法で同じ情報処理を行っている場合、最低限、それは意識を生み出すでしょう。

それがシリコンであろうと炭素であろうと、基盤に関するものではありません。情報処理の性質が意識を生み出すかどうかです。そこに到達するために何が欠けているか。デビッドが知っているように、意識の神経相関と呼ばれるものがあります。

意識を直接研究していると言いたくない人々は、人間の脳、おそらく動物の脳を見て、意識的経験を生み出すニューロンで起こっているプロセスは何かと言うことができます。多くの理論があり、私の観点からは、それらはすべて最悪です。

再帰理論があります。出力を入力に戻す必要があり、それが意識の本質的な部分だというものです。グローバルワークスペース理論、統合情報理論と呼ばれるものもあります。

物理学者から神経科学者になった人はみんな、情報処理システムが意識を持つための独自の基準のセットを持ちたがります。どれも特に説得力があるとは思いませんし、他の存在における意識を認識することについて、極度の謙虚さを持つべきだと思います。

動物において、赤ちゃんが意識を経験するかどうかについて、私たちは非常に下手です。歴史を通じて、動物が意識を持つかどうか、赤ちゃんが意識を経験するかどうかについて、非常に意見を変えてきました。

だから私の質問は少し分かりません。しかし、ニューラルネットワークについて話されたとき、人間のニューラルネットワークで起こる情報の処理について話されたとき、もし意識について知らなかったら、それが意識を生み出すとは予測しなかったでしょう。それは大きな驚きです。

だから、その理由で、意識の形についても極度に謙虚であるべきです。ジャナの質問に答えると、私たちが人間の知能のかなり統一されたアイデアだと考えていたもの、全体の多くの異なる能力とスキルであることを見てきました。

機械知能でそれをアンバンドルしてきました。いくつかを持ち、他を持たない、あるものでは非常に超人的で、他では人間以下のものを構築してきました。おそらく意識もアンバンドルすることになるでしょう。

そして、私たちが意識として考えているこのものは、多くの異なる側面があり、いくつかを持ち、他を持たないことができ、おそらくあなたが示したように、いくつかの能力で人間の意識を超越することさえできると認識するでしょう。

私はこの質問に答えることにかなり興奮しています。ついに、ついに、ついに、私たちが構築しているこれらの人工的な心の形で、知能のモデル生物を持つことができたと思います。そして、おそらくその知能のモデル生物を意識のモデル生物に変えて、人類を魅了してきたこれらの質問のいくつかに答えることができるかもしれません。

いつかという答えを聞いたとは思いませんでした。

肯定も否定もできないというのが、ここで使っている標準的なフレーズだと思います。進歩が続けば、2036年だと思います。

[笑い声]

次の2年間ではありませんね。

対立と楽観主義

最後の質問を一つだけ。少し時間を過ぎていますが、ヤン、これをあなたに尋ねます。多くの点で、あなたは反骨精神を持っています。おそらく選択によるものではなく、単にそうなっただけでしょう。

あなたはそれをLLMのカルトと呼んでいます。シリコンバレーでは最も従来的なアプローチを持っていないと頻繁に言及しています。しかし、あなたは楽観主義を持っています。本当に終末のような言説には耽溺しません。

2年後でないなら2036年について、最も楽観的なビジョンは何ですか。

新しいルネサンスです。それはかなり楽観的な、人間の知能を増幅し、私たちの制御下にあり、多くの複雑な問題を解決でき、科学と医学の進歩を加速でき、子供たちを教育でき、必要なすべての知識と情報を処理したり持ってきたりするのを助けてくれるAIシステムの見方です。

実際、人々は気づいているよりもずっと長い間AIシステムと対話してきました。もちろん、過去3年間はLLMとチャットボットがあります。

しかしその前には、EUで販売されているすべての車と米国で販売されているほとんどの車に、ADAS、先進運転支援システムや自動緊急ブレーキシステムと呼ばれるものがあります。窓の外を見るカメラがあり、歩行者や別の車にぶつかりそうになったら車を止めます。命を救っています。

今日、X線を受けます。例えばマンモグラフィなどです。下部に、AIシステムによってレビューされたと書いてあります。命を救っています。今、40分で全身MRIを受けることができます。

これは、AIシステムが空白を埋めることができるため、データ収集のプロセスを加速できるからです。これのためにそれほど多くのデータを収集する必要がありません。しかし、Google、Facebook、Instagram、どのソーシャルネットワークに接続しても、見ているすべてのニュースは、基本的にあなたの興味に応えるAIシステムによって決定されています。

だからAIは既にしばらく私たちと共にあります。

しかし、コップ一杯の水を注いだり、皿洗いができたりするときに感銘を受けるべきだとおっしゃっています。

コップ一杯の水を注ぐこと、皿洗いをすること。私たちの車を運転すること。センサーやマッピングやルールのハードコーディングなどのすべてのずるなしで、10時間の練習で車の運転を学ぶこと。

だから、これには時間がかかるでしょう。しかしこれがAIの次の革命になるでしょう。だから私はこれに取り組んでいます。

そして、私がしばらく伝えてきたメッセージは、LLMは素晴らしい、有用だ、投資すべきだということです。多くの人々がそれらを使うことになるでしょう。それらは人間レベルの知能への道ではありません。

単にそうではないのです。現時点で、彼らはどこに行っても部屋の空気を吸い尽くしています。だから基本的に他のものには何も残されていません。

次の革命のためには、一歩下がって、現在のアプローチから何が欠けているかを考え出す必要があります。そして私はこれについて提案をしてきて、この代替アプローチについてMetaの中で数年間取り組んできました。

私たちがこの進歩を加速する必要がある時点に来ました。なぜなら、それが機能することを知っているからです。初期の結果があり、それが計画です。

ここからまた別の1時間を始めることができます。しかし、素晴らしい会話をしてくださったゲストの皆さんに感謝していただけると思います。本当にありがとうございました。

コメント

タイトルとURLをコピーしました