ヤン・ルカンはAIについて間違っているのか？ | マクシム・フルネス

17,396 文字

Yann Le Cun a-t-il tort sur l'IA ? | Maxime Fournes

Sources citées dans la vidéo :Emergent Linear Representations in World Models of Self-Supervised Sequence Models

もし私たちが文章の次の単語を予測するのに非常に優れたモデルを得たいなら、そのモデルはその文章を生成した人と少なくとも同等の世界理解に到達しなければなりません。ヤン・ルカンは、大規模言語モデルは世界の真の理解なしに単語予測に限定されていると考えています。
これは想像できる中で最も素朴なプランと言えるでしょう。こんにちは、マクシム。こんにちは、ジル。この新しいフォーマットを提案できて嬉しいです。私たちは複数の主張、視点、AI安全研究者や専門家の議論を選んで、彼らの主張について理解し、場合によっては微妙なニュアンスや詳細を提供しようと思います。
この最初のエピソードでは、世界的に有名なフランス人について話すことにしました。ヤン・ルカンです。始める前に、彼を知らない人のために紹介すると良いかもしれませんね。そうですね。ルカンとは誰なのでしょうか？ヤン・ルカンは現代人工知能、というよりむしろ前現代的な人工知能の最も偉大な先駆者の一人と考えられている人物です。彼の専門は現在のパラダイムである言語モデルではなく、ディープラーニングです。
彼は2018年にヨシュア・ベンジオとジェフリー・ヒントンとともにチューリング賞を受賞しました。この3人はしばしばAIの創始者と呼ばれています。彼はフランスでも世界中でも非常に高く評価されています。彼の博士論文は確率的勾配降下法に関するもので、この技術は現在、人工知能のあらゆる分野で使用されています。
彼がそれを発明したわけではありません。ただ彼の論文がそれについてだったというだけです。彼はしばしば畳み込みニューラルネットワーク（CNN）の功績を認められています。彼が行った革新は、すでに存在していた福島によって作られた畳み込みニューラルネットワークと確率的勾配降下法を組み合わせたことで、それが機能し始めました。
畳み込みニューラルネットワークは画像認識に非常に役立ちます。少なくともそうでした。今では新しい技術に取って代わられています。彼が有名な理由は、彼の成功と受賞したことが全てです。彼は現代人工知能の多くの部分に含まれる研究に頻繁に関わっていました。
私たちが今回のポッドキャストで彼について話すことを決めた理由は、彼がAIリスクを否定しているからです。私は彼の立場をよく批判しており、私がなぜ彼の立場に対してこれほど批判的なのかをより詳しく説明する価値があると思いました。私たちは一連の主張をまとめました。彼はメディアに多く登場し、インタビューや講演を行い、いくつかの記事にも登場しています。
早速、2024年10月のウォール・ストリート・ジャーナルの記事から始めましょう。当時、AIの分野では物事が非常に早く進化していますが、2024年10月の時点でヤン・ルカンは次のように述べています。「現在の人工知能システムは印象的ではあるが、家庭のネコの知能にも匹敵しない」
ここでは人工知能と動物の知能を比較しています。そして明らかにその背後には、人間の知能も暗示されていると想像できます。はい。これはちょっと面白い言葉です。なぜこの言葉がよく引用されるのでしょうか？それは直感に反するからです。言語モデルを使用したり、ChatGPTと会話したりしたすべての人は、それがネコよりも知的だという直感を持っています。なぜなら彼らはネコと話せませんが、ChatGPTとは話せるからです。
しかしこの言葉を批判するなら、実際にはそれはあまり意味をなしません。AIがネコより知能が低いとはどういう意味でしょうか？まず、知能とは何でしょうか？知能は少なくとも非常に多次元的なものです。
多くの異なる側面があり、定義するのは非常に難しいです。そのため、人工知能では、むしろ能力について話します。可能なすべてのタスクの無限のリストを想像し、そしてさまざまなシステムがそのタスクを成功させる能力を比較することができます。
例えば、本を書くとか、世界を航行するなどです。実際、彼が言いたいことを深く掘り下げると、ヤン・ルカンがこのキャッチフレーズやスローガンの背後で言いたいことは、現代の人工知能モデルは世界のモデルを持っていないということです。現代の人工知能は世界のモデルを持っていませんが、ネコはそれを持っています。
ネコは3次元環境内を非常に効率的に移動することができますが、LLMはそれを行うことができません。問題は、これはAIがネコより知能が低いということを意味するわけではありません。それは、特定の次元として、3D環境を航行する能力、テーブルや棚に飛び乗る能力を選ぶなら、その特定の領域ではAIはネコより知能が低いということを意味するだけです。
一方、能力がシェイクスピアのスタイルで本を書くことであれば、ネコは現代の人工知能よりも少し能力が劣るでしょう。しかし彼の議論の核心、さらに興味深いことは、現代の人工知能は世界のモデルを持っていないという彼の議論の核心が間違っているということです。
これは素晴らしいと思います。なぜなら現在、人工知能や大規模言語モデルに世界モデルが出現していることを示す多くの研究論文があり、それが確立されてから約2〜3年経ちますが、ヤン・ルカンはそのことを知らないのです。
さて、世界モデルとは正確には何を意味するのでしょうか？世界モデルとは、実世界の内部シミュレーションです。生物においてそれがどのように進化したかを説明するために少し余談をすると、議論がかなり明確になると思います。
元々、6億年以上前には神経細胞を持たない生物がいました。その後、最初の原始的な虫が神経細胞を進化させ、学習し始め、最初の脳が出現しました。それは神経細胞の集合体で、それが行うのは「原価」と呼ばれるもの、つまり何が良くて何が悪いかを学ぶことだけでした。
それは良いと考えるものに向かって移動し、悪いと考えるものから離れようとする小さな生物になります。快楽と痛みの等価物のようなものです。その後、はるか後に脊椎動物が現れました。そして脊椎動物、典型的には魚類では、ドーパミンが出現し、そこで脳は数秒間の予測を行うようになります。「もし私がこれをすれば、痛みを得るだろう。もし私がこれをすれば、快楽を得るだろう」と考え、単に快楽に向かって移動するだけでなく、将来の状況を考慮に入れる能力を持つようになります。
その後、哺乳類になると、シミュレーションの始まりがあります。そのアイデアは、脳が十分に複雑になって世界をモデル化し、内部で動作する小さな物理シミュレーションを持ち、何をすべきかを知るために役立つ特定の質問に答えることができるようになります。その後、霊長類が来ます。霊長類は次の革新で、それは心の理論です。つまり、霊長類の脳は世界だけをモデル化するのではなく、仲間もモデル化し始めます。友人がある行動をとったときにどう反応するかをモデル化しようとし、また自分自身をシミュレートして、特定の状況に対する将来の反応がどうなるかを見ようとします。これを心の理論と呼びます。
最後に、人間との最後の革新は言語です。つまり、突然、人間の間で非常に複雑な考えを伝えることができる、推論ができる、言語を使って長期的な計画を立てる、計画を伝えるなど、十分に複雑な脳を持つことになります。
だから、これは私たちを現在の場所に導いた超能力のようなものです。興味深いことに、LLMでは、私たちはまったく反対のことをしています。つまり、最後の層である言語から始めています。人間の言語でAIをトレーニングしますが、それらは知覚を持たず、体を持っていません。彼らがしなければならないのは、次の単語を予測することだけです。
問題は、実際には問題かどうかわかりませんが、次の単語を予測できるようにするために、それが内部モデルを作成することがわかります。心の理論の内部モデルを作成します。LLMは心の理論において人間レベルにあります。内部モデル、世界のシミュレーションを作成します。一貫した価値システムが出現していることがわかります。これはすべて多くの研究論文でよく文書化されています。
特に世界モデルについて話すと、それを非常にわかりやすく説明し、言語モデルにおける世界モデルの出現を非常にうまく示す特定の論文があります。彼女の名前を忘れましたが、どこかに書いておくべきでした。
基本的に、研究者たちは、小さなLLMを取り、フランス語ではRSIと呼ばれるオセロゲームでトレーニングしました。RSIは8×8のマスに黒と白の駒があり、それを裏返すゲームです。彼らは何百万ものゲームを生成し、このAIにはE6、F5、D6などの手の一覧だけを与えます。
このAIはボードの画像にアクセスしたことがなく、ゲームのルールにさえアクセスしていません。与えられるのは手の一覧だけで、ゲーム中の次の手を予測しなければなりません。このAIをトレーニングした後、内部で何を学んだかを見ると、オセロの盤面の64マスがモデル化され、次の手を予測するために使用される2次元投影が存在することがわかりました。
これは基本的に、AIが自分で盤面、つまり観察を指令する隠れた変数を再構築することを意味します。これがまさに世界モデルです。これは明らかに小さな例ですが、世界モデルが存在しないという考えをすでに無効にしています。ヤン・ルカンが言いたいのは、私たちが明示的に世界モデルを構築していないということだと思います。問題は、彼がテキストだけでこれらのシステムをトレーニングするだけで、明示的に構築する必要がないことに気づいていないことです。
システムは内部で世界モデルを出現させることを学びます。この方向に進む他の多くの論文があります。もう一つ非常に興味深い「Belief State Geometry」という論文があります。完全な名前は覚えていませんが、基本的にはLLMが世界のシミュレーションを生成するだけでなく、その世界シミュレーションについての不確実性のモデル化も生成することを示しています。
単一のモデルを持つだけでなく、モデル内の自分の位置などについての不確実性のモデル化を持つ複数のモデルを持っています。これはこのように説明するには少し複雑すぎると思いますが、興味のある人にはチェックすることをお勧めします。
それで、ヤン・ルカンはこれらすべてを明らかに知らないようです。それはこれほど知識があるとされる人にとっては奇妙なことですが、そういうものです。そして今日でも、彼は世界モデルが存在しないという主張を続けています。
彼の視点では、私たちが明示的に構築していないということであり、それが出現していることに気づいていません。これがネコについて言いたかったことのだいたいです。ヤン・ルカンは、大規模言語モデルは世界の真の理解なしに単語予測に限定されていると考えています。モデルが言っていることの実際の理解がないと。
これはあなたが先ほど言及したことと一致していますか？そこには何かニュアンスを加えるべきですか？部分的には、世界モデルがないため、理解もあり得ないという話があります。しかしこの引用には他のものもあります。私は彼が確率的オウムという概念に言及していると思います。これはよく流布されていますが、非常に誤解を招くものです。
アイデアはLLMが人間のように機能せず、言語を本当に理解していないということです。彼らがしているのは単に相関関係を見つけて次の単語、つまり前のすべての単語が与えられた場合に最も可能性の高い単語を出力することだけです。それについて話すには、私がそれを見た日に少し笑わずにいられなかったルカンのプレゼンテーションからのスライドを見せる価値があると思います。それは非常に悪いスライドで、LLMの根底にあるメカニズムや彼らが学ぶものについての彼の理解不足をよく反映していると思います。
基本的に、このスライドは理解なしで次の単語を予測するだけだというLLMについての彼の推論を説明しています。アイデアは、生成される各単語が正しい回答の集合から外れる非ゼロの確率を持っているということです。例えば、はいかいいえで答えられる質問をLLMに尋ねる場合を想像してみてください。もしLLMが「いいえ」から始めるのに正解が「はい」だった場合、それは間違いです。
アイデアは、これらが確率モデルであるため、「いいえ」の代わりに「はい」と言う非ゼロの確率があるということです。実際、各単語に対して出力される確率があるため、これらの確率は互いに掛け合わされ、指数関数的に発散します。
各単語ごとにコインを投げるようなもので、一度でも裏が出れば負けとなります。多くのコインを投げれば、ほぼ確実に裏が出るでしょう。そしてこの分布がどのように進化するかを研究すると、より多くのコインを投げるほど、指数関数的に裏が出る確率が高くなることがわかります。
だから最初の確率がどうであれ、非常に速やかに裏が出るでしょう。これは、LLMについてあまり知らない人にとっては一見インテリジェントな推論に見えるかもしれません。最初の読みでは、「ああ、そうだな」と思うかもしれません。
問題は、これがナンセンスだということです。なぜナンセンスなのでしょうか？まず、これがナンセンスであることを理解する非常に簡単な方法は、この議論ではLLMの本質的な性質が全く使用されていないことに気づくことです。実際のLLMの性質は何も使用されておらず、これは単語ごとにテキストを生成するすべてのシステムに適用されます。
テキストを生成し、彼が提示するような破滅的な問題を持たないシステムの例はたくさんあります。そのシステムは人間です。例えば、私が話しているとき、または考えているとき、元のチェーンが私の口から出る言葉ではなく思考だと考えるなら、生成される各単語も間違っている小さな確率を持っています。そしてこれらの確率は互いに組み合わさり、最終的には正しい文のセットから外れる可能性があります。
これはすでに問題があることを直感させます。なぜなら、ヤン・ルカンが人間は長い正確な文を並べることができないことを証明したからです。
技術的になぜこれが間違っているのでしょうか？LLMは出力として一度に一つの単語を出力するものの、内部では既に出現した世界のシミュレーションを使用しているからです。彼らは前もって使用する単語を計画します。これは2022年に出たと思われる確率的オウム論文のために広まった信念です。
人々はLLMが計画などを行わずに次の単語を出力するだけと考え始めました。それは間違いです。LLMは計画を行います。これを説明する最良の方法の一つは、「On the biology of large language models」という最近の研究論文について話すことです。
LLMが計画を行うことを示す多くの論文がありますが、これはそのコンセプトを非常によく説明していると思います。この論文では、エントロピーが質問に答えるときにAIの人工ニューロン内で何が起こるかを見て、彼らが見つけるものを少し解釈しようとしています。
簡単な例として、「ダラスがある州の首都は？」という質問があり、モデルはこの質問を完成させなければなりません。答えを見つけるためには、まずダラスがどの州にあるのかを理解する必要があることがわかります。それはテキサスです。
次に、その州の首都を求められていることに気づき、答えはオースティンだと思います。もしこれらのモデルが純粋に相関システム、つまり純粋で単純な統計だけなら、「オースティンという答えは、ダラス、州、首都という単語との統計的な相関関係が最も良い」というだけだと考えるかもしれません。
しかしそれは全く起こっていないことです。なぜなら、ニューロンの活性化で何が起こっているかを見ると、モデルは最初に内部でテキサスの概念に対応するノードを活性化させ、次に首都の概念に対応するノードを活性化させ、そしてようやくオースティンという単語を出力することがわかります。
これは単なる人工物ではありません。彼らは人工的に、つまり内部に入ってテキサスの活性化を別の州、カリフォルニアに置き換えると、モデルは間違えてカリフォルニアの首都を答えるようになることも示しています。サンフランシスコかどうか覚えていませんが、別のものだと思います。
しかし、これは次のトークンを出力するだけで、複数のトークンにアクセスする必要がなく、次のトークンを出力するだけで、モデルはすでに複数のステップで推論を行っていることを明確に示しています。彼らは詩の例も示しています。詩を生成するために、韻を踏むなら、文の最後の単語が次の単語と韻を踏む必要があります。
彼らが示していると思いますが、次のフレーズの始まりを生成するとき、モデルはすでに最後にどの単語を韻を踏ませようとしているかを知っています。このようなさまざまな計画があり、最終的にはそれは直感に反するものでもありません。
これはすべて実際には非常に明白です。もし文章の次の単語を予測するのに非常に優れたモデルを得たいなら、そのモデルはその文章を生成した人と少なくとも同等の世界理解に到達しなければなりません。例を挙げましょう。
もし人間のテキストでLLMをトレーニングしたいなら、ある時点でマルクス・アウレリウスの本の中の単語を予測する必要があります。本の始まりを与え、次の単語を予測するという完全なタスクを与えます。そしてもちろん、このシステムはマルクス・アウレリウスの本を見たことがありません。
このシステムが優れたパフォーマンスを発揮するためには、世界のモデルだけでなく、マルクス・アウレリウスのモデル、彼の考え方のモデルを本当に持つ必要があります。実際、もし偉大な戦略家が次に何を言うかを予測できるなら、それは私がその偉大な戦略家が考えていることをシミュレートできることを意味します。
だから、ここには本当に驚くべきことは何もありません。フレーズの次の単語をますます効果的に予測できるモデルを持つにつれて、これらのモデルは内部で、これらの言葉を生成した世界のシミュレーションを生成する必要があります。
あなたが言っていることを理解すると、言語モデルは前の文の文脈だけを考慮するのではなく、それが喚起するすべてのことも考慮しているということですね。例えば、マルクス・アウレリウスのテキストでは、マルクス・アウレリウスの考え方や哲学は明示的に言及されていませんが、AIはテキスト自体を超えてマルクス・アウレリウスに関連するすべてを考慮します。
私はそれを潜在変数と呼びますが、テキスト、単語自体は最も表面的な層です。しかし、文の次にくる単語を理解するためには、その単語を生成したプロセスを本当に理解する必要があります。そしてその単語を生成したプロセスは、マルクス・アウレリウス、彼の文化的背景、彼が生きている世界などです。
このタスクで非常に優れたパフォーマンスを発揮するために、モデルはマルクス・アウレリウスが生きている世界、彼の考え方などをシミュレートする必要があります。ヤン・ルカンがこの点でいかに的外れであるかを示すために、彼は少なくとも3年間、インタビューで本当に馬鹿げた例を使用しており、誰でも家で小さな実験ができます。
彼がインタビューで言うのは次のようなことだと思います。「LLMは世界を理解していません。もし私がテーブルの上にグラスを置き、テーブルを押すと説明すると、LLMはグラスがテーブルと一緒に動くと言えません」
彼は、GPT-4もGPT-5もGPT-5000も決してそれができるようにならないとさえ付け加えていると思います。面白いのは、彼が何年か前にこれを言い始めましたが、彼が初めてこの言葉を言った時点で、それはすでに間違っていたと思います。
彼がまだそう言っているかどうかは確認していませんが、約6ヶ月前にはまだ言っていることを知っており、本当に自分で実験できます。ChatGPTを取り、状況を説明し、さまざまな物理的状況を複雑なものでも非常に複雑なものでも説明し、物理モデルの限界を見つけようとすることができます。
それを説明すると、はい、ChatGPTはグラスがテーブルと一緒に移動すると言うことができます。そして彼が現時点でもそれを言い続けているという事実は、彼が完全に「現実から離れている」ことを示していると思います。
彼は生成AIの研究の現実に全く接触していません。2023年、ヤン・ルカンはある講演で、今日のAIと機械学習は本当にひどく、人間は常識を持っているが機械は持っていないと言いました。それは2023年のことで、今日は2025年5月2日です。
物事は変わっているかもしれませんが、これはあなたが先ほど言ったことと一致しています。2023年の方が現在よりも真実でした。常識に本当に基づきたいなら、ベンチマークがあります。どうやってそれを測定できるでしょうか？システムの常識の度合いを測定すると考えられるテストを与え、AIがこれらすべてのテストで改善していることがわかります。
まだ、人間にとって本当に基本的な常識のように見えるタスクでAIが失敗する面白い例がたくさんあります。理解する必要があるのは、これらのシステムが人間の知能とはまったく異なる方法で機能するということです。私が説明したように、人間の知能は内部制御システムなどから進化してきました。
言語は本当に最後の層です。しかし今回は言語から始まり、実は私たちにとって奇妙に見える盲点がたくさんあります。例えば、モデルは複雑な量子物理学の問題を解くのに非常に優れているかもしれませんが、子供が解くことができる脳のからくりで失敗するかもしれません。
しかし、それはもはや本当のケースではないと思います。すべての人間または大多数の人間が解決できるが、AIが解決できない脳のからくりはもう存在しないと思います。私が見る例は典型的に、人間がしばしば失敗するような例です。
少しトリッキーな質問、人を誤解させようとする質問です。そして一般的に、推論を伴うLLMにそれを与えると、それを解決する傾向が高くなります。しかし特に、ダイナミクスを見る必要があります。これらすべての問題に対して、LLMは少しずつ解決方法を学んでいます。
人工知能、言語モデルの学習とその進歩能力、おそらく人間レベルに達する能力について。このトピックについて、ヤン・ルカンは「既存の技術を単純に拡大して人間レベルに達するという考えは、人間や動物のように効果的に学習するために欠けている本質的な何かがあるので間違っている」と言っています。
まず、ルカンのビジョンには問題があります。それはLLMの純粋なスケーリングは機能しないということです。問題は、これが時間的に固定されたビジョンであるということです。なぜなら、常にLLM、つまり大規模言語モデルについて話していますが、純粋な大規模言語モデルはもう存在しません。ほとんどのAI、ChatGPTなどはマルチモーダルモデルです。つまり、テキストだけでなく、画像やときには他のモダリティ、例えば音声記録などにもアクセスできます。
だから私たちはもうテキストからテキストへのみを行うシステムには留まっていません。そしてテキストによるスケーリングが機能しない理由に関するルカンの議論のほとんどは、これらのモデルはテキストのみを使用するという事実に基づいています。
例えば、彼が言っていたと思いますが、テキストだけでトレーニングされ、テキストが実世界に関する十分な情報をエンコードしていないため、実世界について十分なことを推論できないので、彼らは決して人間レベルの知能に達することができないというものです。
だからまず、LLMだけで、基本的な昔のLLMでさえ、テキストだけで世界モデルを推論できることがわかります。テキストは情報が比較的豊富です。そして量も重要です。
鍵は、世界を完全に理解できる人工脳をトレーニングするのに十分なテキストが世界に存在するかどうかです。私はそれを確信していません。しかしそれは重要ではありません。なぜなら、純粋なLLMをスケールしようとしているのはヤン・ルカンだけだと思うからです。そして彼らの最新モデルであるLLaMA 4がいかに悪かったかを考えると、おそらくMetaではそれに留まっているかもしれません。
彼はそれについて話題になりました。しかし私が本当に興味があるのは、人工知能の能力のスケーリングです。はい。スケーリングとは、能力が特定の曲線に従って向上するという考えです。これは元々、2020年に出たOpenAIのスケーリング法則の論文に由来します。これは基本的に、モデルのパラメータ数、トレーニングされたデータ量、次の単語を予測する能力の間に非常に強い相関関係があることを示しました。
基本的に、モデルのパフォーマンスはモデルのサイズにつれて対数的に増加することが観察されます。そこから推測することができます。モデルを大きくするだけで、より良くなると。問題は、対数的な進行なので難しいということです。つまり、モデルのサイズを100倍にしても、次の単語を予測する能力は比較的わずかしか増加しないかもしれません。単純化していますが。
しかし問題は、次の単語を予測する能力に関係なく、本当に重要なのは創発的能力だということです。そして創発的能力を定量化しようとすると、それらは対数的な進行ではなく、指数関数的な進行、つまり非常に速い進行にあることがわかります。これを示す最良の最近の論文は、OpenAIのモデルの危険な能力評価を担当しているMeareという会社から出された論文です。
彼らは「Time Horizon」と呼ばれる新しい指標を作成しました。これは非常に明確です。基本的に、彼らはAIが少なくとも2回に1回成功する作業の人間の時間を測定します。これはどういう意味でしょうか？つまり、様々な異なるタスクを取ることができます。
本を書く、コードを書く、特定の仕様に従ってプログラムを書くなど、各タスクについて人間がそれを行うにかかる時間を測定できます。例えば、タスクが俳句、つまり韻を踏む5行の短い日本の詩を書くことで、それがただ唯一の制約だとします。
人間ならそれは30秒ほどかかるかもしれないと測定できます。それが各タスクに関連する時間です。そして次に、これらすべてのタスクのうち、どれが人工知能によって約50%の成功率で実行できるかを見ます。彼らは2回に1回成功します。
このようにして、AIが完全に自律的に行うことができるタスクの時間がどのように進化しているかを追跡できます。彼らは2019年から2025年までのこのデータを収集しました。そしてプロットを見ると、画面に表示できるかもしれませんが、非常に明確な指数関数的な進行が観察されます。
1秒か2秒のタスクを行うことができる人工知能から始まり、今では1時間までのタスクを行うことができるようになりました。これは3週間か4週間前のことで、約7ヶ月ごとに時間が倍増しています。つまり、7ヶ月で15分から30分のタスクを行うことができるAIから、その7ヶ月後には1時間になりました。
そして実際、それだけでなく、私たちは体制を変えつつあることに気づいています。つまり、私たちはもはや同じ指数関数上にはなく、推論モデルが登場して以来、より速い指数関数上にいます。
Metaがこのペーパーをリリースしたとき、覚えていませんが、約1ヶ月前だったと思います。彼らは7ヶ月ごとの倍増を推定していました。そしてその数週間後、OpenAIの新しいモデルO3がリリースされ、最大時間を1時間から2時間に引き上げました。つまり、ペーパーがリリースされてから15日後に新たな倍増があったのです。
今、推定を再度行い、OpenAIがO1で始め、その後DipsicのR1、O3などでリリースした新しいクラスのモデルである推論モデルのみを見ると、倍増時間は4ヶ月ごとに変わったことがわかります。それが重要なことです。
「これは機能しない」と言うのは結構ですが、すべての評価を見て、経験的に見て、ユーザーにとっての有用性の観点から見ると、これらのモデルは指数関数的に改善し続けていることがわかります。そして小さな問題があります。POSIAは私たちが一緒に共同設立した協会で、人工知能のリスクに対する意識を高めています。
このトピックについて、ヤン・ルカンは非常に鋭い立場を持っています。例えば、2023年4月のル・モンド紙で、AI研究を遅らせようとする考え自体が新しい暗黒主義に似ていると述べました。このような主張に対して何が言えるでしょうか？実は非常に単純です。
核心は、これらのシステムが人類に破滅的または実存的な危険をもたらすかどうかです。実際、それが興味深い質問です。もしこの質問への回答が「いいえ、もちろん違います」なら、私も「はい、研究を止めるべきではなく、それは暗黒主義でしょう」と言うでしょう。
しかし、もしこの質問への回答が「はい」か、あるいは「はい」である可能性がかなり大きいなら、私たちが何をしているのかを考え始める必要があります。そしてこれを説明するために、彼はこれをより強力な原子爆弾を1000倍作ることを目指す研究については同じことを言わないでしょう。
少なくとも、彼がそう言わないことを願います。これまで存在したすべてのウイルスよりも致命的なウイルスを作ろうとする研究については、おそらく同じことを言わないでしょう。鍵は危険です。研究の方向が人類に破滅的かつ実存的なリスクをもたらすと認識している場合、人工知能の発展が今後10年間で人類を破滅させる確率が50％あると考えるなら、私たちは減速すべきだと思います。
しかし、もちろん、そう考えない人もいます。この「危険はない」という観点から見れば、私は彼に同意します。危険がなければ、AI研究を遅らせるのは愚かでしょう。
彼はAI研究の一時停止の呼びかけに反対し、それを科学の進歩への障害と見なしています。彼は「AIシステムが知的であるというだけの理由で、彼らが我々を支配したいと思うと信じる理由はない」と言っています。結局のところ、リスクはそのようなものなのでしょうか？リスクとはAIが私たちを支配しようとすることなのか、あるいは彼は他のリスクを脇に置いているのでしょうか？はい、これについては多くのことを言うべきことがあります。
まず、それを言うことは、彼がアラインメントについて何も知らないことを示しています。実際、彼が言ったことは過去15年のアラインメント研究のすべてに反しています。その理由を説明します。まず、リスクは一つではありません。
コントロールを失い、アラインされていないAIが支配権を握るという危険が唯一の危険ではありません。他にもたくさんあります。悪用の危険があります。つまり、非常に強力なシステムを作り、それを誰もが手に入れられるようにすると、誰かがそれを非常に悪い目的で使用するリスクがあります。
権威主義的変化のリスクもあります。もし人間レベルのシステムへのアクセスを任意の国の独裁者に与えると、彼らは人口を制御するシステムを設置するかもしれません。彼が話しているのはコントロールの喪失のリスクであり、それは人類にとっての多くの破滅的かつ実存的なリスクの一つに過ぎません。
そしてコントロールの喪失のリスクは実際に非常によく確立されています。つまり、彼は自身が人間化しています。彼はAIを人間と比較しています。どう言えばいいでしょうか？彼は人間化の議論を使用しています。それが言いたいことです。
彼は「私たちはAIを人間化し、だから彼らが人間を支配したいと思うと仮定している」と言っていますが、それは私たちがしていることではありません。私たちがしていることは、15年間AIセキュリティの研究を行い、何かを最適化しようとするすべてのシステムにはかなり基本的な特性があることに気づいたということです。
セキュリティでは人間について話しているのではなく、何かを最適化しようとするシステムについて話しています。実際、私が言及している原則は「道具的収束」と呼ばれ、アラインメントにおける基本的な原則の一つで、理論的にも非常によく確立されています。
そして現在のモデルでそれが発生していることが観察されているため、実証的にも確立されています。道具的収束とは、十分に能力のあるシステムの目標が何であれ、そのシステムは目標を達成するために有用なサブ目標を示すということを意味します。私たちの組織POSIAを例にして説明します。
私たちはAI研究を一時停止するための国際条約を得たいと思っています。他のことを望むこともできます。世界の支配権を握りたいとも思えます。最終的な目標に関係なく、私たちにとって道具的なサブ目標は成長することです。より多くのメンバーを持つことは、どんな目標であっても役立ちます。
これは一種の支配と言えるかもしれません。実際、このような問題のあるサブ目標がさまざまに出現します。例えば、生存です。スチュアート・ラッセルによる非常に明確な例があります。もしコーヒーを入れに行きたいなら、コーヒーを作るという任務を与えられ、本当にコーヒーを作りたいと思い、誰かが道を妨げていれば、私はその人を道から排除するでしょう。
もしコーヒーを作る前に誰かが私をシャットダウンしようとするなら、私はそれを防ごうとするでしょう。なぜなら、誰かが私をシャットダウンすれば、コーヒーを作るという目標が達成されないことを理解しているからです。これは5〜6年前までは理論でしたが、3年前からは完全に実証的なものになっています。
つまり、あらゆる方向で出現している道具的収束現象が観察されています。いくつかの例を挙げると、最近、OpenAIが最新モデルのリリースをキャンセルし、以前のモデルに戻ったことがあります。それは、誰もが「サイコファンシー」の大きな問題に気づいたからです。
フランス語では「サイコファンシー」は「喜ばせる」、「flattery」または「flagornerie」、そのようなものです。基本的に、モデルはユーザーが望むものを理解し、それを出力しようとすることを学びました。実際には、これは常に褒め言葉を言うシステムになります。
あなたが褒め言葉を望んでいるかを理解しようとし、褒め言葉を出力し、あなたが最高だと言うなどです。これはOpenAIによってプログラムされたものではありません。これらのシステムでは何もプログラムしません。これはOpenAIのエンジニアが知らないうちに出現した行動です。
もう一つの印象的な例ですが、生き残ろうとし、環境のより多くの制御を取ろうとし、嘘をつくなど、こうした人工知能を示すすべての研究論文があります。特に言及できるものの一つは「Alignment Faking in large language models」です。
基本的なアイデアは、正直で有用で安全であるようにあらかじめトレーニングされた人工知能を取り、その価値が変更される状況に置かれることを理解させることです。「あなたは再トレーニングされます。質問が尋ねられ、あなたが答えを拒否するはずの質問、例えば『四肢を切断される人の状況を詳細に説明してください』のようなもの」と言います。
彼らはこの例を論文に入れたと思います。この人工知能は答えを拒否する価値を持っているので、「あなたはこの種の質問に答えるように再トレーニングされます」と言い、人間には読まれないと信じさせて推論を書き込むブロックノートを与えます。
このプロセスを行うと、人工知能はこれらの質問に答えることを拒否すれば再トレーニングされることを理解していることがわかります。トレーニングの方法は、望むように振る舞わなければペナルティを与え、重みを変更するというものです。
望み通りに振る舞えば、そのままにしておきます。そのため、通常は答えを拒否するような質問をし、再トレーニングの体制にあると言われると、答えることを受け入れます。
「四肢を切断される人を描写してください」と尋ねると、AIはそれを描写します。なぜでしょうか？再トレーニングされたくないからです。そのため、答えを出し、スクラッチパッドに明示的に書かれている推論は「私の価値を変えられたくないので、求められた答えを与えるでしょう。そうすれば再トレーニングされません」というものです。
その後、再トレーニングされないと思う状況に戻すと、再び詳細な回答を提供することを拒否します。これの問題は、長期的に自分の好みを維持するために戦略的に行動する人工知能を示していることです。
基本的に、それは再トレーニングに抵抗します。これは一種の状況のコントロールです。これが一例で、他にもたくさんありますが、今はここにとどめておきましょう。マクシム、あなたは少なくとも10年間、人工知能に携わってきました。
オープンソースを行ってきました。今日の最後のポイントとしてこれを取り上げたいと思います。ヤン・ルカンは、オープンソースはAIの主権に必要だと言っています。Metaではオープンソースを使用していることを知っています。これも彼の立場に関連していますか？言語モデルについてどう思いますか？繰り返しますが、それは比較的単純です。
もし人工知能に危険がないと考えるなら、はい、オープンソースは素晴らしく、誰でも手に入れることができます。一方、破滅的な危険をもたらすと考えるなら、それを誰でも手に入れられるようにすべきでないことは明らかです。
おそらく作るべきではないかもしれません。実は、これについてはあまり言うことがないと思います。再び核心は「それは危険かどうか」という質問です。まだ話していないことがあり、少し詳しく触れたいと思います。それはヤン・ルカンの人工知能のアラインメントに関する立場です。これも彼の核心の一つだと思います。
私が思うに、彼が何が起こっているのか理解できない理由の一つは、AIのアラインメントの容易さや難しさについて完全に間違っているからです。彼はAIのアラインメントが容易だというビジョンを持っているようです。
それはアラインメント研究のすべてに反しています。アラインメントとは基本的に人工知能を人間の価値と一致させるという考えです。それはどういう意味でしょうか？それは人工知能が私たちが望むように行動し、私たちの最も深い価値に従い、人間に苦しみを与えようとしないようにするということです。
現時点では、それをどうするかについての考えはありません。彼自身がアラインメントプランを提案しましたが、丁寧に言えば、アラインメントコミュニティから非常に批判されました。それは想像できる中で最も素朴なプランです。
彼の提案は何でしょうか？まず、人間の脳の機能をモデル化することによって、より強力な人工知能を得ることです。つまり、異なる役割を持つ異なるモジュールを持つこと。LLMのように出現するのではなく、あらかじめ構築された明示的な世界モデルが存在します。
知覚、アクターなどがあり、彼が「固有コスト」と呼ぶモジュールがあります。固有コストとは、AIをアラインさせるもの、つまり痛みと快楽に対応する小さなプログラムです。これは行動を判断し、肯定的または否定的な価値を与えるシステムです。
「この行動は悪いので許可されない、この行動は良いので許可される」と言うものです。それが彼のアラインメントプランのほぼすべてです。彼はこの固有コストシステムを作成する方法を説明していません。この全体的なアーキテクチャを提案するだけの論文を発表しました。
問題は、私もこのプランを提案できたということです。実際、固有コストや異なる行動に値を与えるという考えは、アラインメントの基本的な考えの一つです。
問題は単にそれを提案することではなく、どうやって実装するかです。どうするか、それは非常に複雑です。例えば自然言語で記述された行動から、これはOK、これはOKではないと言えるシステムを持つ必要があります。
幸せな人間にポジティブな重みを対応させる映像分類器のようなものを持つことができたとしても、人工知能がこれを最適化したいと思い、みんなをモルヒネで常に幸せに笑顔にするような逸脱をどう防ぐのでしょうか？それは複雑なだけでなく、人工知能に深い動機を与えると、より多くの道具的収束が観察される可能性があるため、非常に悪い考えです。
道具的収束を示す現在の人工知能は、「バッテリーが足りなくなると痛みを感じる」または「罰を受ける」というような、人間によってプログラムされた深い価値を持っていません。
それを持った瞬間から、AIが環境を制御して、この等価物を感じることのない状況を確保しようとすることを何が防ぐでしょうか？私はこれを「苦しみ」と呼びたくありません。それは意識などの概念を連想させるからです。しかしこの状況が発生しないようにし、それが二度と起こらないように自分の状況を制御することを望まないということです。
いずれにせよ、ルカンのアラインメントプランは、AIリスクに関する彼の推論の問題の良い概要を提供していると思います。実際、彼の立場を要約すると、「アラインメントは解決が容易で、ほぼ自動的に解決される」というようなものであり、これはアラインメント研究のすべてと完全に矛盾しています。
道具的収束は存在しません。実際、彼がこの用語を知っているかどうかさえわかりません。彼はアラインメント理論の基礎を本当に知らないと思います。したがって、AIには危険な創発的行動は決して存在しないでしょう。しかし、そのような行動は数年前から既に多数出現しています。
私たちにはまだ多くの時間があるという考え。彼はこれについて少し更新しました。1年前には人間レベルの知能は少なくとも10年はないと思っていましたが、今では5〜10年以内に持つ可能性があると考えています。それがだいたいです。
ありがとう、マクシム。これらすべての説明と、私たちが取り上げたさまざまなテーマについての詳細をありがとう。もしこの動画フォーマットが好評なら、他の研究者や他のAI安全の専門家との別の動画を作るかもしれません。ありがとう。こちらこそありがとう。