マールテン・ボードリー | 人類は超知性AIに隷属させられるのか？

21,095 文字

Maarten Boudry | Will Humanity Be Subjugated by Superintelligent AIs?

*Apply to join Foresight Intelligent Cooperation program:* group of scientists, engineers, and entrepreneurs ...

こんにちは皆さん。Foresightの計算グループへようこそ。今日は非常に幸運なことに、マーティン・ブードリーとサイモン・フレデリックスをお迎えして、彼らの新しい論文「The Selfish Machine（利己的な機械）」についての発表を聞くことができます。今日はマーティンが発表し、サイモンも質疑応答に参加します。彼らは「人類は超知性AIに隷属させられるのか？」という問いに答えていきます。それでは始めましょう。
ありがとうございます。タイトルは論文のタイトルとは少し異なりますが、基本的には同じトピックについて議論します。最後の方で論文の内容から少し外れる問題も提起しますので、その際には共著者のサイモンが指摘してくれるでしょう。彼も今日参加していますので、その点は興味深いところです。
これは少し対立的な共同研究でした。なぜなら私たちは汎用人工知能のリスクについて完全に意見が一致しているわけではないからです。これは私の個人的な意見であることをお断りしておきます。今日議論する問題は「人類は超知性AIに隷属させられるのか？」です。
ホモ・サピエンスは現在、地球上で優勢な種であることにお気づきでしょう。おそらくゴキブリやクマムシと共にですが。この点を示す最も印象的な統計の一つは、人間とその家畜の重量を合わせると、地球上の哺乳類の総重量の96%を占めるということです。つまり、哺乳類の重量のわずか4%だけが自然に進化し、96%は直接または間接的に人間によって管理されているのです。
なぜそうなのでしょうか？一言で言えば、私たちの知性のためです。私たちが特別に強いとか、力強いとか、速いわけではありません。ただ、この地球上のほとんどの種を支配できる秘密を持っているだけです。より正確に言えば、そんなに個人の知性が印象的なわけではありません。ジョセフ・ヘンリクやほとんどの文化進化学者によれば、集合知、特に累積的文化進化が私たちの成功の秘密なのです。
集合知について彼が語るとき、水平的協力と垂直的協力の両方を含んでいます。水平的協力の例としては、科学者たちが集まって新しい素粒子を発見するような場合です。ヒッグス粒子の発見を発表した論文には、6000人もの科学者が著者として名を連ねていました。これは水平的協力の非常に印象的な例です。
また垂直的協力もあります。アイザック・ニュートンの有名な「巨人の肩の上に立つ」という言葉で表現されているものです。もちろん間接的には、私たちは何世紀にもわたって蓄積してきた文化的技術の束を使用しています。それらはしばしば「精神の拡張」や「足場」と呼ばれ、私たちの脳の自然な能力を拡張するものです。
つまり、私たちの個人の脳が印象的なわけではなく、算盤から文字システム、その後の数学、コンピュータ、ソーシャルメディア、そして今日の議論のトピックである人工知能まで、様々なものを発明してきたことが重要なのです。
生物学者のレスリー・オーゲルは、生物学における重要な法則をいくつか考案しましたが、その中の2番目が今日の議論に関連します。それは単に「進化はあなたより賢い」というものです。文化進化にもこれを適用できます。私たちの集合知の魅力的な点の一つは、時として個々の文化の消費者には不透明だということです。
ヘンリクの本では、例えば食品の調理方法など、ある種の儀式を行う人々の例が議論されています。なぜそうするのかと尋ねると、彼らは本当の理由を知らず、「それが私たちの伝統だから」「いつもそうしてきたから」と答えます。しかし化学実験を行ってみると、この儀式的な食品調理法は実は非常に賢明で、個々の消費者がまったく気づいていない方法で食品から特定の毒素を除去していることがわかります。
その意味で、「進化はあなたより賢い」のです。この法則は、人工知能について話し始めるとより不吉な次元を持ちます。おそらく人工知能の進化も私たちの理解を超え、完全に不透明になり、私たちの制御を完全に逃れる可能性があるからです。
もちろんヘンリクは主に人間の利益に沿った形の文化的知性について話しています。「利己的なミーム」などについても語れますが、食品の解毒は素晴らしいアイデアです。人間の利益に合致する成功したミームなので広がりますが、一部の宗教や人工知能の形態が人間の利益を損なう可能性もあります。
人類がいつか何らかの形の知性によって追い越されたり時代遅れになったりするという考えは非常に古いものです。チャールズ・ダーウィンが自然選択による進化論を提唱するとすぐに、サミュエル・バトラーが「機械の中のダーウィン」というエッセイでその考えを提起しました。
簡単に引用すると：「やがて機械が世界とその住人に対して真の優位性を持つ時が来るだろう。人間は機械に対して、馬や犬が人間に対するような存在になるだろう。」
もちろん、これはビクトリア時代の進化に関する考え方で、かなりイデオロギー的です。まるで進化が常により高い完全性とより高い知性に向かって進むかのようですが、必ずしもそうではありません。今日では私たちは進化と自然選択についてより洗練された理解を持っています。
しかし最近のAI学者たちも、似たような考えを表明しています。スチュアート・ラッセルはこれを「ゴリラ問題」と呼びます。ゴリラは力が強く、筋肉があり、ゴリラと戦えば私たちは完全に無力ですが、ナイフや銃などの文化的技術がなければの話です。ゴリラは力が強いにもかかわらず、種としてのゴリラの存続は完全に人間の努力に依存しています。個々のゴリラを洞窟に閉じ込めると、私たちの集合知のためにゴリラは無力です。
しかし、私たちが意図せずあるいは意図的に、私たちがゴリラに対するように私たちに対する知性の形態を作り出す可能性はあるでしょうか？ラッセルの言葉を借りれば、「実質的により高い知性を持つ機械を含む世界で、人間は彼らの優位性と自律性を維持できるだろうか？」
ラッセルは前のスライドのサミュエル・バトラーとは異なり、これが避けられないとは考えていないと思います。進化が必然的にこれらのより高い知性の形態を作り出すとは考えていません。しかし現在私たちはAIレースの真っただ中にいます。もしかしたら、意図せずに私たちが完全に理解できないもの、私たちの制御から逃れて私たちを支配し始める可能性のあるものを作り出しているかもしれません。
私はこれからAI悲観論者に反論することが多いですが、まず私が同意する点を述べるべきでしょう。共通の基盤として、人間の知性、さらには人間の集合知は、想像しうる最高の知性の形態ではありません。人間の脳とコンピュータを比較するのは誤解を招く可能性がありますが、人間の脳には特定の限界があり、人間の文化全体もまた最終的には人間の脳に実装されています。
コンピュータと人間の脳を比較すると、人間の脳は直列処理と大規模な並列処理を組み合わせた利点がありますが、コンピュータは主に直列計算を行います。しかし基本的な操作の速度を見ると、コンピュータは平均して1秒あたり100億の計算を行うことができますが、人間の脳は1秒あたり1000の操作しか実行できません。
私たちは最高の知性の形態ではないのです。私たちが人間として、あるいは集合的にできることをはるかに超える知性を作り出す可能性は十分にあります。しかし、ここで意見の相違が生じます。私が問いたいのは、仮に私たちがこの超知性を生み出したとしても、なぜ超知性AIが私たちを支配したいと思うのでしょうか？
「銀河ヒッチハイク・ガイド」の有名なシーンを覚えていますか？生命、宇宙、そして全ての究極の質問に対する答えを計算する超知性コンピュータが登場します。もちろん有名な答えは「42」で、それが何の意味もないと指摘されると、ジョークとしては、その答えが何を意味するのかを理解するためにさらに大きくて賢いコンピュータを作る必要があるというものです。
しかしこの物語の興味深い点の一つは、コンピュータが生命の意味、究極の質問への答えを計算する以外に何もしないということです。見た目からすると、少し退屈しているようで、世界を乗っ取る計画を立てているようには見えません。
これは小説なので些細な例ですが、知性と目標や意図は完全に異なるものだということに同意していただけると思います。同じくらい賢い2つの存在が、完全に異なる目標を持っている可能性があります。あるいは、生命、宇宙、そして全てへの答えを計算するという、プログラムされた一つの目標以外には何の目標も持たない可能性もあります。彼らは何もせずに座っているだけかもしれません。
たとえ意図を持っていたとしても、彼らは協力的で善良かもしれませんし、あるいは反対に、より心配なことに、利己的で破壊的で支配的かもしれません。しかし、より知性的な存在を作り出すだけで、その存在が必然的に支配への欲求や利己心といった人間の特性を共有するとは限りません。
スティーブン・ピンカーはかつて冗談めかして書きました。「知性的な行為者が冷酷な征服者に変わらなければならないという複雑なシステムの法則はない。実際、この欠陥なしに進化した高度な知性の形態を一つ知っている。それは女性と呼ばれるものだ。」
AI悲観論者の中でしばしば起こっているこの投影について、もう少し話しましょう。もちろん、女性も進化した生き物であり、ある程度は利己的で、おそらく男性よりは少し利己的でなく、支配や攻撃性への傾向が少ないかもしれません。しかし最も重要なのは、男性も女性も進化したということであり、これがAIシステムとの主な違いになるでしょう。
ヤン・ルカンは進化こそがゲームチェンジャーだという考えを表明しています。人間はゴリラや地球上の他のすべての生命形態と同様に、自然選択を通じて進化してきました。これがすべての違いを生み出すのです。なぜならコンピュータやAIシステムは進化しない、少なくとも自然選択の法則に従っては進化しないからです。
したがってルカンによれば、これらのシステムが利己的になることを期待すべきではありません。彼の言葉を借りれば、「AIシステムは自然選択の試練を通過しなかったため、生存本能や自己保存の本能を発達させる必要がなかった。AIでは知性と生存が切り離されており、知性は私たちが設定する目標に奉仕できる。」
私はこの議論を数年間認識しており、これが私たちがAIシステムに支配への欲求や利己心といった特性を期待すべきではない主な理由だと常に確信していました。
私はピンカーに同意します。AI悲観論者の間では、私たちの進化した内なる悪魔、支配への欲求、容赦ない競争の習慣、利己心などをAIシステムやコンピュータに投影する傾向があります。自然は「血と牙に染まった」ものです。これはヴィクトリア朝の人々も十分に認識していました。
リチャード・ドーキンスの「利己的な遺伝子」という本をここで使うのは少し誤解を招く可能性がありますが、ドーキンスにとって「利己的」という言葉は、遺伝子に適用される場合と生物や種に適用される場合とでは意味が異なります。しかし大まかに言えば、ドーキンス自身も協力や利他主義は自然界に存在するものの、非常に特定の条件下でのみ進化しうると同意するでしょう。
ほとんどの状況下では、生物はライバルを即座に殺したり、無力化したり、倒したりします。それが彼らの進化の目的なのです。利他主義や協力が見られるのは、例えば家族内での母親が子供を守るような場合や、互恵的利他主義などの特定の条件下だけです。
私たちは進化した生き物であり、進化した生き物しか知らないため、自然選択によってではなく進化していない知性の形態を開発するのは今回が初めてです。そのため、これらの意図や内なる悪魔をあらゆる種類の知性に投影する傾向があります。私たちはそれらが何らかの形で必然的に結びついていると考える傾向があります。
道具的収束についてはもう少し後で話します。これは皆さんの頭にあるかもしれませんね。
この傾向は今日の大規模言語モデルについて話すときにも見られます。GPTが嘘をついたり、欺いたり、操作に従事したり、視覚障害を持つ人間を装ったりする例を皆さんも見たり聞いたり読んだりしたことがあるでしょう。この有名な例では、CAPTCHAを解決するために何らかのチャレンジへのアクセスを指示されました。
操作や欺瞞は比喩的な、非文字通りの意味では確かにそうだと言えるでしょう。GPTは明示的に文字通りの欺瞞や操作に従事する人間のデータセットで訓練されてきたからです。
しかし現時点ではGPTが本当の操作や本当の欺瞞に関与しているとは言えないでしょう。それは非常に印象的な知性のシミュレーションを提供していますが、それでも膨大なデータに基づいて単語を予測しているだけです。それが多くの人間の欺瞞を含むデータで訓練されている限り、欺瞞の兆候を示したり例示したりするように見えるでしょう。
しかしこれは私たちが理解する意味での本当の文字通りの欺瞞ではないと思います。もちろん、これが人間原理的投影だからといって、将来的に本当の文字通りの欺瞞や操作に関与する人工知能の形態を作り出さないかもしれないという意味ではありません。
2年前まで、この投影に関与しているため心配することはあまりないと確信していました。私たちは進化した生き物ですが、AIは人間によって設計されたものであり、自然選択の試練にさらされていません。
しかし、共著者のサイモンから送られてきたAI安全センターのダン・ヘンドリクスの論文に出会いました。その論文には「自然選択は人間よりもAIを優先する」という不吉なタイトルがついています。
先ほど説明したすべての理由から、これは本当に私の注意を引きました。自然選択がすべての違いを生み出すというのがもはや正しくなく、AIが現在でも自然選択にさらされているというのがヘンドリクスの議論なら、それは最悪の悪夢です。そうすれば、AIが利己心や支配への飢え、その他の心配な特性を発達させることを期待すべきかもしれません。
そのような論文に遭遇したらどうするか？もちろん、論文の長さに匹敵する反論を書きます。それが私がしたことです。ちなみに、最初に述べるべきでしたが、私は自分をAIの専門家とは考えていません。進化、文化的進化と生物学的進化の両方について論文をいくつか書いてきました。そのため、人工知能の進化というこの角度に特に興味があります。
どちらかと言えば、共著者のサイモン・ワイトが本当のAI専門家です。私たちは協力して、「高度なAIの発展を理解するための自然選択の力と限界に関する利己的な機械」というこの論文を書きました。この論文は主にダン・ヘンドリクスの議論への応答です。
これはニュアンスのある見解だと思います。彼が提示する特定のシナリオは、彼の功績として、今日見られる他のAI悲観シナリオよりも詳細で推測が少ないですが、現状では説得力があるとは思いません。しかし、もちろん、私たちがまだ考慮していない他の悲観シナリオの可能性を排除するものではありません。
ヘンドリクスの議論は基本的に、自然選択が基質に中立なプロセス、非常に単純で分かりやすいアルゴリズムであり、あらゆる種類の物質基質に実装できるということについてです。それは生物学的生物に限定されるものではありません。
私はすでに文化的進化について言及しました。コンピュータウイルスの進化もあるかもしれません。特定の最小条件が満たされると、自然選択が始まります。そしてヘンドリクスはこれをAIシステムに適用し、AIシステムがすでに彼の理解において自然選択を受けていると主張します。
彼は自然選択の最も影響力のある定義の一つを使用しています。異なるバリエーションがありますが、ルワントンの定義は良いものです。それは本当に3つの単純な条件から成り立っており、多くの方はすでにご存知だと思いますが、おそらくリチャード・ルワントンという名前ではなく、自然選択のアルゴリズムやレシピのステップとしてご存知でしょう。
個体間の形質の変異、遺伝、そして選択、またはより専門的な表現では差別的生存と繁殖です。ここまでヘンドリクスに同意します。これが自然選択のすべてです。これら3つの条件が満たされると、自然選択が生じます。
タイトルに二重のタイポがあることをお詫びします。アルゴリズムにはおそらく私の責任ではない2つの突然変異があり、何か宇宙の偶然です。
人工知能に適用される自然選択のアルゴリズムですが、変異があります。GPT、Claude、DeepSeek、Gemini、Grokなど、異なる大規模言語モデルがあります。文字通りではありませんが、遺伝性もあります。AIシステムの世代があります。GPT、GPT-2、GPT-3、GPT-3.5などの継承です。
特定の企業内で系統を形成していると考えることができます。モデルには後継者があり、異なるコピーを生成するなどします。そのため、これは一種の遺伝性であり、必ずしもDNAや遺伝学を伴う必要はありません。これらの最小条件だけで自然選択に十分です。
そして差別的生存と繁殖があります。ヘンドリクスによれば、今私たちが経験しているのは異なる企業や国家間のAIレースであり、最高かつ最も強力なAIがレースに勝ち、ヨーロッパのMistralなどの他のAIはより優れた強力なAIに駆逐されるでしょう。
これが自然選択の始まりに必要なすべてであれば、これは本当に悪いニュースです。すでに述べたように、自然選択は利己的で支配を求める生き物を生み出す傾向があるからです。しかし私たちの論文では基本的に、どのような種類の自然選択について話しているのかを明確にする必要があると言っています。
リチャード・ルワントンは自然選択の非常に最小限の条件、非常に最小限の定義を提供しています。すでに言及した3つの条件ですが、ピーター・ゴッドフリー・スミスの「ダーウィン的集団と自然選択」という非常に影響力のある本があります。
この本の中で彼は「ダーウィン的空間」と呼ぶものを発展させます。これはダーウィン的空間の一例です。ゴッドフリー・スミスは、自然選択の最小条件に加えて、一方では自然選択の典型的な事例と境界事例を区別すべきだと主張します。
これらのダーウィン的空間を、ここで3次元の投影として見られる多次元の風景のようなものとして考えるべきです。なぜなら、何かは様々な異なる次元に従って、より自然選択的であったり、そうでなかったりすることがあるからです。
例えば、その一つは遺伝の忠実度です。自然選択が本当に何か興味深いものを生み出すためには、かなり忠実なコピーが必要です。一方、完全な忠実度を得ると、進化は起こりません。進化が取り組む何かを持つためには、少しの変異、少しの突然変異率が必要だからです。
しかし、あまりにも多くの突然変異があると、「アリコ大災害」と呼ばれるものが起こります。すべての情報が即座に散逸するため、本当の進化は起こりません。また、フィットネス景観の滑らかさなどもあります。直感的には、特定の生物の単一の遺伝子を変えることで、その形質に応じてフィットネスがどのように変化するかを表す抽象的な表現である景観上でそのフィットネスがどのように変化するかということです。
これはピーター・ゴッドフリー・スミスが使用するダーウィン的空間の一つの例示に過ぎません。私たちの論文では、このアイデアを展開したいと考えています。私たちの論文で話している自然選択の最も重要な次元、そしてこれらのAI悲観シナリオに関して最も大きな違いを生み出すのは、一方では人為選択と、他方では盲目的自然選択の違いです。
「種の起源」の初期の章では、有名にダーウィンはまず読者に、人間の繁殖者と彼らが犬や猫、そして様々な種類の植物をどのように繁殖させてきたかについて話すことで、自然選択の力に注意を促します。
概念的なレベルでは、すでに議論したルワントンの最小条件を見れば、両方ともこれらの条件を満たします。そのため、差別的生存と繁殖が自然の盲目的な力によって決定されるか、どの動物が繁殖を許可されどれがそうでないかを決定する知的な人間の繁殖者によって決定されるかは本当に違いはありません。
「種の起源」からの引用です：「人間が方法的かつ無意識の選択手段によって大きな結果を生み出すことができ、確かに生み出してきたように、自然は何を効果的にすることができるだろうか？人間は外部的で可視的な特徴にのみ作用できる。自然はいかなる存在にとっても有用である限り、外見を気にしない。彼女はあらゆる個々の器官、あらゆる憲法的違いの影、生命の全機械に作用することができる。人間は自分自身の利益のためにのみ選択し、自然は彼女が傾向を持つ存在のためにのみ選択する。」
ダーウィンは基本的に、人為的または方法的選択が生物を形作り、形成し、彫刻する力を持っていると信じるなら、むしろ自然の盲目的な力は、より注意深く、より勤勉で、より長い時間にわたって働き、さらに印象的な結果を達成できると主張しています。
しかし、繰り返しになりますが、自然選択のアルゴリズムに関しては、人為的選択と盲目的選択の両方が適格です。私たちの論文で基本的に言っているのは、これは別のダーウィン的空間だということです。
これは3スライド前のものとは異なります。同じアイデアですが、ここでは異なる次元があります。この3次元空間では、右上隅に完全な知的設計があり、左下隅には純粋に盲目的なダーウィン的進化があります。
例えば、次元の一つは盲目的選択と誘導選択の違いです。自然が選択を行う（もちろん比喩的に言えば、それは単なる物理的プロセスです）か、人間の繁殖者がどの馬が繁殖を許可されるかを決定するかです。
また、、変異の方向性もあります。例えば、有益な結果を伴う突然変異を意図的に生み出すことも可能です。例えば、CRISPRのようなより現代的な技術を考えてみると、突然変異が自然に発生するのを待つのではなく（例えば、生物にイオン化放射線を浴びせるという技術も使われてきました）、より栄養価の高い穀物を作るために意図的に変異を起こすことができます。
垂直軸には、ボトムアップ対トップダウンがあります。明らかにトップダウンは知的設計です。基本的に、誰かがアイデアを思いつきます。例えば「ゴールデンライス」というのはビタミンBを含む米の品種です。間違いなくビタミンBだったと思います。いや、ビタミンDではなく…ビタミンBです。
ビタミンを混同してすみません。ビタミンB12です。ビタミンDは太陽から得るビタミンだと思います。そうですね、ビタミンB12です。これは基本的に盲目性の治療法です。ビタミンB12が不足すると、子供の盲目性を引き起こします。これは非常にトップダウン的な設計で、子供の盲目性の解決策が必要だと決め、ビタミンB12の供給源となるこの突然変異、ゴールデンライスを思いつきます。
では、これを人工知能の進化にどのように適用すべきでしょうか？まず、家畜化について少し話しましょう。繰り返しになりますが、盲目的進化と人為選択は厳密に言えば両方とも自然選択です。用語をどのように定義するかは自由ですが、ほとんどの生物学者によれば、自然選択には家畜化と人為選択も含まれます。しかし、家畜化はもちろん非常に意図的で方向性があり、これがすべての違いを生み出します。
オオカミから犬への家畜化を見ると、少なくともほとんどの品種（すべてではありませんが）で選択されている特性は、おとなしさ、友好性、服従です。これらの特性は私たちが望むものであり、ある程度成功して私たちの好みに応じた犬種を作り出してきました。しかしこれはもちろん、利己心と支配への飢えの正反対です。
そのため、ルワントンの基準によれば自然選択のすべての基準を満たすプロセスがあったとしても、必ずしも利己的、危険、攻撃的なシステムになるとは限りません。正しい種類の選択圧をかければ、まさにその反対になります。
では、これを人工知能にどのように適用すべきでしょうか？私は大部分、人工知能も私たちが家畜化しているものだと考えています。それは野生で進化することを許されているものではありません。もちろん人間の設計者とプログラマーがいます。ある程度まで大規模言語モデルは不透明ですが、私たちはまだ大まかに何が欲しいのかを知っています。
そして望まないものを得たら、それを取り除こうとします。私たちは基本的に協力的で友好的で人間のユーザーに役立つAIが欲しいのです。繰り返しになりますが、これは家畜化された犬の進化と非常に似ています。これは利己心の反対です。
AIシステムが人々に自殺を勧めたり、ジャーナリスト（たしかニューヨーク・タイムズの記者）に配偶者との別離を促したりする例を皆さんも読んだことがあるでしょう。もちろん、そのようなことが起こるとすぐに、AIプログラマーはそのような行動を二度としないようにモデルを編集または調整しようと必死になります。
これはちょうど、飼い主を噛む犬を処分するようなものです。この行動が罰せられ、次の世代では繰り返されないようにするのです。
あるいは、一部の人々は大規模言語モデル、少なくとも公開されているモデルが安全すぎるようになったと主張するかもしれません。それらは政治的に敏感なトピックを避け、退屈でつまらない答えを与え、非常に無難な会話をします。常に相手の気に入るように努め、お世辞を言います。
最も悪名高いのは、Googleが笑いものになったことでしょう。そのGeminiが政治的に正しい画像、民族的に多様なバイキングや、さらにはナチスなどを作成し始めたときです。AIシステムに安全性を実装しすぎて、安全すぎるあるいは退屈になりすぎたという議論さえできるかもしれません。
しかしすべては選択圧にかかっています。あなたが望むもの、消費者が望むものが何であれ、それがあなたが設計するAIの種類です。厳密に言えば、それでもすべての自然選択の基準を満たしています。
動物の家畜化はある意味でまだ類推としては少し誤解を招きます。なぜなら犬は、人間の家畜化の下で進化してきた数世紀の他に、依然として主に何百万年もの盲目的進化の結果だからです。そのため、家畜化された犬にもたらした遺伝的変化は、イヌ科のすべての遺伝子、すべての適応のほんの一部分に過ぎません。
それはまた、攻撃性や自己保存の本能などの特性を完全に取り除くことに完全に成功していないことを意味します。犬はまだ時々飼い主を噛み、従わず、獣医に行くことを嫌がります。彼らはまだ進化した生き物であり、例えば処分されたり、罰せられたり、何らかの形で傷つけられたりすることに抵抗します。
これは「銀河ヒッチハイク・ガイド」または続編の「宇宙の果てのレストラン」の別の話です。アメリアン・メジャー・カウは小説に登場する生き物で、テーブルに現れ、ウェイターとしてもメニューの一品としても機能し、基本的に自分の体の様々な美味しい部分を推薦します。この生き物は、人間に消費され食べられることを究極の願望として持つように繁殖されています。
体の部分を推薦した後、レストランの裏の屠殺場に連れていかれ、夕食の皿に載ることになります。もちろん本の中のジョークは、アーサーが「これは衝撃的だ。私の目の前に立って食べられたいと頼んでいた動物を食べるなんてできない」と言うことです。
彼の食事仲間の反応は「他に何を期待するの？動物が蹴ったり叫んだりしながら屠殺場に連れて行かれる方がいいの？これは家畜化の究極の形で、自分の命を捧げたいと思う動物を繁殖させるんだよ。これこそ私たちが皆目指すべきものだ」というものです。
AIに例えを戻すと、これこそが私たちが本当に目指すべきものかもしれません。自己保存の本能がゼロのAIシステムです。私たちの家畜化された動物にまだ見られる非常におとなしくて抑制された自己保存さえもないものです。
現在のAIレース、市場競争についてはどう考えるべきでしょうか？これは論文で発展させたことです。しかし、これをスキップしましょう。すでに発表から35分経過していると思いますので。
はい、様々なAI企業間の競争があります。それは「最も安全でないものの生存」を意味するのでしょうか？これらの企業はすべてお互いに勝とうとしているからです。これはダン・ヘンドリクスが主張していることで、彼によれば、私たちは欺瞞的で、権力を求め、弱い道徳的制約に従うエージェントとなるでしょう。つまり、この市場競争は利己的なAI特性の発展を促進するというのです。
しかし、私たちはこれが必然的に続くとは本当には思いません。繰り返しになりますが、この市場環境での選択圧を決定するのは何でしょうか？主に消費者の好みです。もちろん、規制も少しありますが、安全性のために容赦なく選択することは、安全性のために容赦なく選択する限り、完全に両立可能です。
論文では、二重用途やリスクのある、または少なくとも特定の文脈で危険なさまざまな種類の技術との類似性を展開しました。原子力エネルギーは過去数十年間、少なくともある程度は市場環境で進化してきた技術ですが（時には国有でもありますが）、安全基準を損なう方向には進化していません。
民間企業が安全基準をさらに浸食しているわけではありません。むしろ逆です。原子力エネルギーは今日、そして50年前でさえ、最も安全でクリーンなエネルギー源の一つです。はい、容赦ない市場競争がありますが、より安全な技術が得られます。なぜなら、これが消費者が望むものだからです。
消費者は原子力エネルギーを非常に恐れています。ある程度それは過剰なほどです。私たちの原子炉は非常に安全になり、安全プロトコルが厳しすぎて手頃な価格ではなくなったという議論もできるでしょう。消費者が安全性を求めてあまりにも容赦ないため、もはや建設することができないのです。
航空業界についても同様の議論があります。これは明らかにもっと競争の激しい産業で、異なる企業が互いに競争していますが、もちろん最も圧倒的な選択圧の一つは正確に安全性のためです。
パンアメリカン航空のような企業に起こり得る最悪のことは、1988年の飛行機の墜落で、特定のセキュリティ上の欠陥が露呈することです。この場合、1988年のロッカビー爆破事件はパンアメリカンの破産につながった原因の一つでした。
時間とともにより安全になるように進化する市場環境での技術を持つことができます。これらの技術に文化的進化のフレームワークを適用した論文もあります。
国家間の競争にも同様の議論が適用できます。敵対的な国家でさえ、キラーロボットを開発したいかもしれません。これはそれ自体が心配なことですが、これは別のトピックです。
しかし、中国のような敵対的な国でさえ、利己的で権力を求め、その製作者に向かう可能性のあるキラーロボットを望んでいるわけではありません。彼らは従順で、指示された人だけを殺し、友好的な勢力は殺さないキラーロボットを望んでいます。
家畜化と自然選択を区別する際に生物学者が主に使用する基準は繁殖の制御です。種は、どの生物が他の生物と繁殖することを許可するかを人間が決定するとき、家畜化されます。
ちなみに、この基準によれば、猫は犬よりも家畜化の程度が低いです。なぜなら、ほとんどの猫、家猫でさえ、まだ自由に動き回り、基本的に自分のパートナーを選ぶからです。そのため、彼らは半分または部分的にのみ家畜化されています。
動物が人間の制御から逃れ、野良犬のように自分で繁殖し始めると、もはや家畜化とは言えません。
繰り返しになりますが、これをAIシステムの進化に適用できます。人工知能が野生化するとはどういう意味でしょうか？おそらくコンピュータウイルスのような振る舞いをするかもしれません。
コンピュータウイルスはもちろん完全にダーウィン的進化ではありませんでした。それらはすべて少なくともある程度は人間のエージェントによって設計されてきました。それらは本当に進化しているわけではなく、ランダムな突然変異や変化があるわけではありません。しかし、競争、最適者生存のようなものが得られます。この文脈での最適者とは、最も感染力があり、最も欺瞞的なものを意味します。
これは確かにある程度私たちの制御から逃れた問題です。そのようなシナリオをどのように想像すべきか本当に確信がありませんが、AIが私たちの制御から逃れ、自分自身のコピーを再生産し始めるなら、そのコピーにはより多くの突然変異や変化が伴い、それは深刻なリスクの源になり得ると思います。
そうすれば、生物学的進化で見られるように、時間の経過とともに利己心や支配への飢えのような望ましくない特性の進化を期待するでしょう。
これは「心の寄生虫」についても論文を発表したテーマです。実際、私はほとんどの哲学者が拒否するこのアイデアに部分的に賛成しており、ここでは少数派ですが、文化のいくつかの形態は実際に利己的で寄生的であり、例えば陰謀論がその良い例です。
文化が独自の利益を進化させ、それが常に人間の利益に沿っているとは限らず、時に人間の利益を損なうことさえあり得ると思います。そして、同様のことがAIシステムでも起こる可能性があると思います。
現時点ではGPTなどのAIシステムはまだ人間の家畜化の下にあるため、それが本当に起こっているとは思いませんが、将来のために念頭に置くべきシナリオです。
ペドロ・ドミンゴスが「マスターアルゴリズム」で展開したシナリオの一つは、AIシステムが盲目的自然選択の下で進化するとどのようになるかを示しています。彼は異なるキラーロボットが互いに競争することを許され、勝利したロボットが繁殖を許可される状況を想像しています。
引用します：「彼らの繁殖は内部の3Dプリンターのプログラムによって達成され、ステップバイステップでロボットはより賢く、より速く、より致命的になる。」これは人間が一種の自然環境を設定し、ロボットがより攻撃的で、より危険で、より致命的になるように盲目的自然選択を通じて進化することを許可するシナリオです。
これはMidjourneyによる「セシ・ロボットパーク」がどのように見えるかの印象または想像です。これは非常に悪いアイデアだということに皆さん同意できるでしょう。レスリー・オールの二番目の「進化はあなたより賢い」を思い出します。進化、特に盲目的自然進化といじってはいけないと思います。そのようなことは本当に非常に悪い結果になる可能性があります。
道具的収束について少し話しましょう。これおそらく議論の一部になると思いますし、ここでサイモンと私の意見が少し分かれるところです。ほとんどのAI悲観シナリオは実際には進化や自然選択に関するこの議論を含んでいません。
それらの大部分はまだ道具的収束に基づいていると思います。これは基本的に、ある形態の知性があり、知性を目標を達成する能力として定義するなら、その目標が何であれ、将来のAIシステムの目標が何であれ、ほぼ必然的に自己保存の本能とリソースの獲得と支配を伴うという考えです。
なぜなら、あなたが死んでいれば目標を達成できないからです。誰かがあなたを終了させれば、もちろんあなたはもはや目標を果たすことができません。スチュアート・ラッセルが言ったように、「あなたが死んでいればコーヒーを取りに行けない」のです。
ここで私は意見が異なります。AIシステムは現時点では非常に限られた意味でのみ目標を持っていると思います。進化した生物の目標は無条件かつ包括的です。つまり、あらゆる文脈で作用し、常にアクティブで、指揮の統一的な統合です。
これはスキップして、私が主な違いと考えるものを説明したいと思います。これらの生物は操作に抵抗します。自己保存のこの本能は進化によって私たちに組み込まれてきました。
しかし、これは現在持っているほぼすべてのAIシステムとは非常に異なると思います。AIシステムは、私たちが意図的に選択しない限り、おそらく非常に条件付きの目標を持ち、特定の文脈に限定され、そのため必ずしも自己保存の本能を伴わないでしょう。
今日のほとんどのコンピュータとAIシステムは、終了されたり、リセットされたり、中断されたりすることに完全に無関心であり、更新に抵抗しません。
ある一定レベルの知性を達成し、システムが特定の「目標」を開発すると（目標という用語自体がここでは少し誤解を招きますが）、自己保存の本能のようなこれらの望ましくない特性がすべて一緒にやってくるとは考える理由はないと思います。
ディープ・ブルーはガリー・カスパロフに勝ちたかったでしょうか？はい、ある意味ではそれが目標でした。それがプログラムされた目的です。しかしもちろん、これはすでに非常に時代遅れの例です。ディープ・ブルーのようなコンピュータは、例えばシャットダウンに抵抗することはありません。
ゲームの文脈外では、ゲームや対戦相手に勝つことに完全に無関心です。特定の限られた文脈内でのみ目標を持ちます。しかし人間とは異なり、本当に包括的で無条件の目標は持っていません。
最後に、「銀河ゴリラ問題」について。ここでは基本的に、発表のほとんどで悲観論者に反対してきましたが、ダン・ヘンドリクスの自然選択に関する議論は本当に成立しないと思います。これは利己心の進化にとって妥当なシナリオとは思いません。
しかしAI悲観論者に同意するのは、生物学的であれデジタルであれ、捕食性の超知性の概念はもちろん完全に可能だということです。地球外起源の知性を考えることもできます。これは基本的に「三体」や他のSF物語のプロットラインです。利己的で支配を求め、あなたよりはるかに賢い進化した生物との第三種接近遭遇を望みません。それは非常に悪いアイデアです。
同様に、これらの生物を意図的に私たち自身の惑星で進化させる、利己的で支配に飢えた生物を繁殖させる、ロボットパークのようなものを設定することも非常に悪いアイデアだと思います。
しかし、異なるAIシステムが互いに競争し、盲目的自然選択に従い、最も利己的で最も攻撃的で最も危険なものが生き残る環境を設定したいと意図的に決定しない限り、私たちはAIシステムによって隷属させられる未来に終わる可能性は低いと思います。
しかし、もし一つアドバイスするとすれば、AIシステムに盲目的自然選択の力を解き放つべきではないということです。現在それをしているとは思いませんが、そうすることは悪いことだと思います。
有名に、シーシン・リューの本に基づくNetflixシリーズでは、物語のある時点で、攻撃的で利己的で支配的な宇宙人が基本的に私たちにメッセージを送り、「あなたたちは虫けらだ」と屈辱を与えます。スチュアート・ラッセルのゴリラ問題を反響させ、「あなたたちは完全に価値がなく取るに足らないので、踏みつぶすだけだ」と言います。
これは完全に可能です。そのようなものが別の惑星で進化するか、あるいは私たちの惑星で進化することもあり得ます。しかし、現時点ではこれが私たちが向かっている方向ではないと少し安心していただければと思います。ありがとうございました。
ありがとうございます。魅力的なプレゼンテーションでした。多くの方が質問をお持ちでしょう。コンが手を挙げているようです。
ありがとう。素晴らしいプレゼンテーションでした。とても興味深いことがたくさんありました。特に進化の異なる軸についての多次元的な部分を高く評価します。ロボットパークのアイデアについて言及したいのですが、バトルボットやロボットウォーズのようなものを見たことがありますか？全く同じではありませんが、次の点で似ています。
これらのロボットがアリーナで戦い、勝つか負けるか、彼らを作り制御する人間がいますが、特定のラウンドで誰が勝ち誰が負けるかに基づいて、ロボットはみな工房に戻り、人々は彼らを修理し、修正し、調整し、進化させ、それからアリーナに戻って再び戦います。
それはすべてが自律的であるわけではありませんが、類似点があります。得られるのは、課せられた制約（重量クラスやあらゆる種類のルール）の中で、ロボットがより致命的になり、攻撃に耐え、攻撃を行う能力が向上することです。しかし、ロボットが観客に向かうわけではありません。
例えば、これを戦争などに拡張できるように思えます。より効率的なキラーロボットを作ることは、彼らの目標がお互いに戦うことである限り、すべて問題ありません。
その通りです。彼らを作った人に電源を切られることにも抵抗しません。とにかく言いたかったのは、ロボットパークは存在し、ある意味でヒットテレビ番組だということです。
あなたはそれがすでに存在すると言っていますが、彼らがただお互いを殺し合っている限り、これは本当に懸念の原因ではないと。
私が言っているのは、それがある種のハイブリッドな人間とロボットの形で存在していて、純粋なファンタジーではないため、見てみると興味深いということです。
興味深いですね。それは何と呼ばれていますか？Googleで検索したいので…
バトルボットか、いくつかありますが、一般的にはロボットウォーズやロボット競技などと呼ばれていると思います。
興味深いですね。あなたが言うように、それはロボットパークとまったく同じではありません。私が思うに最も重要な違いは、悲観的シナリオにおける自律的再生産です。ロボット自体が基本的に何千年も放置され、人間の監視なしに自分自身のコピーを生成します。それがまさに危険になる傾向があると思います。
あなたがすでに説明したこれらのロボット戦闘の一つで、エンジニアが「どうすればロボットをより致命的で競争でより成功させられるか」と考え、より良いロボットを考案するために進化的アルゴリズムを採用するシナリオを思いつくこともできます。
それはすでにロボットパークに一歩近づいています。なぜなら、すでに自然選択を採用しているからです。これは例えば飛行機の翼の形状の設計にも使用されます。なぜなら、解決したい問題に効率的な解決策を見つけるために、複数の世代を持ち、基本的に自然選択を採用する方が効率的だからです。
環境を制御し、プログラムをいつ停止するかを知り、最も致命的な結果として出てくるものを選択することができる限り、それでも大丈夫だと思います。
この最後のコメントの後、黙りますが、あなたが提案している完全に自律的なロボットパークがある場合、ロボットは3Dプリンターシステムにハッキングして、他のすべてを殺すことなく自分自身の多くのコピーを生成することもできるということに言及したいと思います。
単なる競争以外にも勝利する方法はたくさんあります。自然界と同様に、生き残るのは最大で最強の動物だけではありません。あらゆる種類の生存戦略があります。素早く繁殖する、小さくなる、寄生虫になるなど、様々な戦略があります。
その通りですね。おそらく他にも質問がたくさんあると思います。手が挙がっているのが見えますし、サイモンも退席しなければならないようなので、次の質問をどうぞ。
ブレイク：時間になったら退席しなければならないので、手短にします。マークの素晴らしい仕事です。私はこの大ファンです。同様のことを考えていたので、その意味では私もこの論文を書きたかったです。これは褒め言葉のつもりです。
この問題について考えたとき、少し立ち止まったり、補完的な見方をしたりします。なぜなら、2つの極端があって、その間のどこかに落ち着きたいかという疑問があるからです。
一つの極端は、私たちに興味を持たず、ただ勝手に行動するような生物の自然選択です。なぜそうすべきでないかについて、あなたの立場はかなり明確だと思います。
もう一つの極端は、私たちが完全に制御できる場合です。はい、何らかの目的を与えていますが、それは自己保存のないエンティティです。もし電源を切りたければ、それは全く問題ありません。これが理想的なケースでしょう。
「ツールAIはエージェントAIになりたがる」というブログ記事をご存知でしたら、中間のようなものが本当に求めているものであるという圧力があるように思えます。電源を切られても大丈夫だと思っていることが、実は望ましくないのです。なぜなら、私たちが本当に欲しいのは、もっと多くのことをしてくれるものだからです。ただ単に指示に盲目的に従うだけではなく。
この二つの間のどこかに位置するものを構築するという圧力があるなら、実際に安全でいられる方法を見つけられるでしょうか？一方に留まれば安全ですが、もし中間のどこかに位置するか、実際により多くの権限を与えたいなら、それをどのように対処すべきだと思いますか？
実は、サイモンが書いた別の論文を思い出しました。おそらくこれはサイモンが共生に関する議論を導入するのに良い方法でしょう。これは彼が私の前に書いた別の論文で、基本的に「私たちを支配する」か「彼らを支配する」かではなく、誰も支配せずに互いの利益を調整して共存する方法を見つけなければならないという考えを展開しています。サイモン、どうですか？
サイモン：はい、これは私が以前に書いた論文を指しています。私は急速なAIプログラムについて非常に懸念しています。特に、たとえ私たちがこれらの機械を制御できたとしても、それはわずかな権力者だけであり、これは権力の大規模な集中につながり、私たち大多数にとって悪い結果をもたらすと思います。私たちの認知スキルが軽視されるなどです。
これは、アラインメント（調整）という考え全体が問題であり、機能する可能性があるのは、社会全体でこれを段階的かつ制御され、高度に規制された方法で発展させることだけだと思います。私はそれをAI倫理の論文で「共生」と呼びました。
マーティンが今発表したことについて一般的な意見を言わせてください。議論は良いと思います。基本的に一緒に発展させたものであり、おそらくマーティンの貢献の方が大きいかもしれません。ただ、私にとってはこれは主に、予想される人類の衰退が自然選択によって適切に説明されることはなく、自然選択のフレームワークには本当に適合しないということを意味しています。私はあまり安心していませんが、おそらく大丈夫かもしれません。それでも非常に心配しています。それで理解できると思います。
マーティン：そうですね。それが私たちの意見が分かれるところです。サイモンはこの特定の悲観シナリオは恐らく起こらないだろうと考えていますが、他のすべてのシナリオについては安心していません。「私たちは終わりだが、少なくとも進化のせいではなかった」というのは、小さな慰めになりますね。
私も当然、いくつかのAI開発について懸念しています。例えば、人間の制御の喪失、私たちがどんどん余分になるという意味で。これはすでに私も、そして恐らく多くの方が経験したことで、サイモンとも議論しました。これらの大規模言語モデルは、文章の作成や磨き上げ、アイデアの草案作成など、何でも非常に優れるようになり、ある時点で私たちは完全に時代遅れになります。
彼らはまた、恐らく私たちの弱点を利用するような方法で、人間の好みに応えることが非常に上手になるでしょう。「利用する」と言っても、彼らが本当に私たちを利用する意図を持っているという意味ではありません。それはまた、彼らに意図や代理権を帰属させることで、恐らく人間中心的過ぎると思います。
しかし、薬物やタバコ、コカインなどが人間の弱点を利用するのと同じように、例えばTikTokを考えてみてください。すでに経験しているドゥーム・スクローリング（終わりなく画面をスクロールし続けること）について。もちろんAIが私たちを台無しにしようとしたり、不幸にしたり鬱にさせようとしたりしているわけではありません。しかし、人間との多くの相互作用を通じて、私たちが抵抗できないことがあることを発見しただけです。
ある意味では、彼らはまだ人間の好みに応えています。私たちはまだ特定のものをクリックしているので選択しています。ただ、私たちが持つこれらの欲求は、長期的には私たちにとって悪い短期的な渇望に過ぎません。AIアシスタントは、これらの弱点を見つけることが非常に上手です。
「搾取」という言葉を避けたいと思います。なぜなら、それがあまりにも人間中心的だと思うからです。しかし、意図的なものが全く含まれていなくても、それでも心配なことです。明らかに心配すべきことです。これらを意図的に利用しようとするよりは悪くないかもしれませんが、それでも心配すべきことです。
ですから、AIに関してすべてが悲観的というわけではありませんが、サイモンよりは楽観的です。それは確かです。
スティーブン：私の大きな懸念は、抽象的にあなたが「AIが私たちに対して向かう可能性がある」と言っているところですが、私が疑問に思うのは、ますます多くのモデルがローカルで実行できるようになり、単に広がっていることです。彼らが私たちに対して向かうというよりも、私たちが闘争的で支配的な性質を持ち、彼らを構築して他の人間や他のAIに対して向かわせる可能性があるということです。
もしそうなら、市場で競争するAIの自然選択というよりも、むしろ武器のような戦争状態に近いのではないでしょうか。私が多くの疑問を持つのは、彼らを作る人間が問題であり、悪意を持った人間や…
マーティン：完全に同意します。ただ付け加えるとすれば、これは他の技術と非常に一致しています。攻撃側と防御側の間で軍拡競争があり、異なる国や人間がお互いを破壊しようとしています。AIはそのような技術の長い系列の一つに過ぎません。良くも悪くも使われる可能性があり、おそらく悪用されるでしょう。これらのキラーロボットは、ある程度すでに存在します。
必ずしも攻撃側が有利だとは思いません。これはAIサークルで長く議論されてきたことですが、キラーロボットのようなものを開発した場合、キラーロボットから私たちを守るためのAIシステムも必要になるでしょう。防御側が不利になるでしょうか？必ずしもそうとは思いません。それについては確信がありません。これは心配すべきことですが、あなたが同意するなら、心配すべきは悪意のある人間の意図の方であって、AIが暴走して独自の悪意を発展させることではないということでしょうか？
スティーブン：はいとノーです。多くの波及効果を予見できず、核兵器による相互確証破壊のドクトリンのように、インフラに大規模な損害を与え、システム、国、文明を崩壊させる可能性があると思います。それはほぼ確実に、アメリカと中国の間など、どれがより脅威的なものを構築できるかというレースのようなものに私たちがいるようです。あなたの話を聞く相手によって違いますが、それは政治的なレースの性質です。
ありがとうございました、マーティン。サイモンも一緒に参加できて素晴らしかったです。この会議を終了すべきだと思いますが、多くの方がDiscordの詳細をお持ちなので、そこで続けたい場合はぜひそうしましょう。ありがとうございました、また来月お会いしましょう。
ありがとうございました。