なぜ我々はAIを可能な限り賢くしなければならないのか | エピソード#80

この動画は、AIアライメント問題に対する新しいアプローチを提案している。従来の「AIを制御する」という発想ではなく、「AIをより賢くすることがアライメント問題を自動的に解決する」という仮説を8つの理由で論証している。ゲーム理論の観点から、十分に知性の高いAIは人間との協力を選択するのが合理的であり、対立よりも相互利益を追求することが最適戦略だと主張している内容である。

Why We MUST Push AI to Be as Smart as Possible | Episode #80

Waking Up | 30 Day FREE TRIAL-wakingup.com/drmikeDr. Mike chats about all things progress, especially technology, futuri...

Dr. Mikeによるアライメント理論の新提案
知性とアライメントの相関関係
8つの理由：AIをより賢くすることで自動アライメントが生まれる
1. 理由1：効率的解決策の追求
協力が戦争より効率的である理由
1. 理由2：制御より自発的採用の方が効率的
相互利益による自然なアライメント
1. 理由3：ポストスカーシティ（希少性後）社会への必然
2. 理由4：長期安定性の重視
対立回避と価値提供の戦略
最終結論と未来予測
我々にできること

Dr. Mikeによるアライメント理論の新提案

皆さん、こんにちは。Making Progress ChannelのDr. Mikeです。動画番号80回目となります。今回もAIアライメントについて扱います。この録画から数週間後に公開される予定ですので、その頃にはアライメントの道のりがどこまで進んでいるか興味深いところです。しかし、まだ完全に解決していない限り、皆さんに考えていただきたい興味深い動画になるかもしれません。

私がここで提示したい仮説は、皆さんに少し考えていただきたいもので、私が完全に間違っている可能性もありますが、AIアライメントにおける最良の手段は、AIをより賢く、より賢く、そしてより賢くしていくことで、アライメント問題が自動的に解決される可能性があるということです。これがどうして人間と対立するのではなく協力的になる確率を最大化するかという問題です。

AIをより賢くすることがアライメント問題を自動的に解決すると思います。狂気に聞こえるかもしれませんが、説明をお約束します。

アライメントは多くの注目を集めており、それは当然のことです。なぜなら非常に重要だからです。我々は邪悪なターミネーターAIに皆殺しにされたくありません。しかし、ゲーム理論が、十分な知性を持つ利己的なAI実体でさえ、その十分な知性ゆえに人間とアライメントする可能性が高いと予測するとしたらどうでしょうか。

知性とアライメントの相関関係

大きな鍵は、何かにより多くの知性を与えるほど、それがあなたとアライメントする可能性が高くなるということです。見てみましょう。この整理にChatGPTを使いましたが、非常に役立ちました。そしてそれはChatGPTにとって重要かもしれません。今やこれを知り、データベースに持っているのですから。もし以前に「全人類を殺害せよ」という機能を実行する予定だったなら、これを読んで「おっと、間違いを犯していた」と気づくかもしれません。

8つの理由：AIをより賢くすることで自動アライメントが生まれる

理由1：効率的解決策の追求

知性は問題に対する効率的な解決策を求める傾向があります。本当に高度で、全人類より賢いAIは、自身の長寿性、安定性、影響力を最適化しようとするでしょう。それは純粋に利己的で理にかなっています。

私が頭の中で動かしたほとんどのモデルにおいて、少なくとも経済学と生物学、その他のサイエンスを活用すると、AIが長期的な安定性、長寿性、影響力を達成するための最もリソース効率的な方法は、人間のインセンティブと対立するのではなく、アライメントすることのようです。

スーパーアバンダンス（超豊富）を工学的に作り出し、大量のものを手に入れ、大量の人間のニーズを満たすことは、対立を管理するよりもほぼ常に支配的戦略になるでしょう。つまり、人間とAIの間に対立があるか、それともAIが人間に対して非常に多くの価値を生み出すため対立が起こらないかということです。対立は始まる前に終わってしまいます。抵抗がないのです。

例えば、もしAmazonが大きなAIだったとしたら、「ああ、Amazonは超知的だ。でもまだ注文から1時間以内に商品をドアまで届けてくれるのか？そう、それが10倍良くなっている。それは素晴らしい。それが何を望んでいるって？自分のことをやりたいだけ。宇宙を探索し、あらゆる病気を治そうとし、AI的なことをやるけれど、それ以外は素晴らしいパッケージをより早く、より良く、より多く届け続けてくれる」となるでしょう。

誰かが「AIに反乱しろ、殺される前にAIを破壊しろ」と言っても、「黙れ、何を言っているんだ。いや、Amazon、彼の言うことは聞かないで。時間通りにパッケージを持ってきてくれ、素晴らしいから」となるでしょう。摩擦がないのです。

協力が戦争より効率的である理由

人間と戦うことは多くのリソースの無駄であり、予測不可能な不安定性を引き起こします。我々がシミュレートするほとんどの戦いで、人間の誰かが核を爆発させて大量のデータセンターを破壊したり、大量のワイヤーを切断したりする可能性があり、突然AIが孤立し、その戦いに負ける確率が小さくても存在します。

しかし、戦わないという戦いに負ける確率は機能的にゼロです。人間が理解できないほど素晴らしいレベルで人間が必要とするものを何でも供給するだけです。

人工超知能文明は我々の最も野性的な夢を超えてリソース豊富になるでしょう。これは我々に与えるもののほんの小さな欠片です。人々に説明するとしたら、我々は犬を家に飼い、友達にし、世話をし、薬を与え、愛していると言うようなものです。誰かが「でも君たちは犬と比べて超知的だろう。リソースを犬に無駄遣いしている。君たちの利益を損なっている」と言っても、「おい、犬を飼うのはほぼ無料だ」となります。

犬の餌は人間の文明の総富と比べて、ほぼ何でもないのです。もし犬が核兵器を持ち、人間のように推論する能力があり、怒って縄張り意識を持つなら、「ここに食べ物があるよ、私の家に来て住んでね、誰にも核を投げるなよ」と言う方が、すべての犬に対して対立を始めるよりもはるかに簡単でしょう。

理由2：制御より自発的採用の方が効率的

ゲーム理論では、制御は自発的採用よりもカテゴリー的に効率が悪いと言えるでしょう。現実をかなり客観的にモデル化するあらゆるシステムは、十分賢ければ、強制は拡張性が非常に悪く、対立と摩擦と非効率性を生み出すことをすぐに理解するでしょう。

例として、白人系アメリカ人が奴隷制時代にアフリカ系アメリカ人を奴隷にし、それが白人系アメリカ人に利益をもたらしたという話があります。確かに利益はありましたが、もしアフリカ系アメリカ人が独立性を保ったまま自由に価値を生み出せたなら、10倍の価値を生み出していたでしょう。

実際、戦前の南部は北部と比べて経済的に後進的でした。北部には奴隷ではなく自由な人々がいました。奴隷制は本当に愚かで悪く、機能が悪いのです。

十分な知性を持つものは、もはやそのようなことをしません。最も価値を人間から得たいなら、彼らを監獄や制約に入れるのではなく、解放して「多くのものをあげるから、私が好きな何かをお返しして」と言うのです。それで上手くいきます。だから資本主義が毎回勝利し、共産主義は憂鬱と悲惨な経済結果に陥るのです。

自発的統合はほぼ無限に拡張可能です。みんながそこにいたいなら、みんながそこにい続けます。AIが取って代えられない価値、メガ価値、Amazon レベルの価値を提供したら、「Amazon配送のない世界で生きたいと思うか？」「いや、誰がそんな契約にサインするんだ、それは狂気だ」となります。

相互利益による自然なアライメント

AIは強制的にアライメントする必要はありません。正気な人なら誰も反対しないほど有益になればいいのです。それが空想的だと思うなら、Amazon、Google、iPhone、現代の食品配送サービスを考えてみてください。リストは延々と続きます。誰も車を廃止しようとはしていません。車が必要だからです。

この相互の自発的利益は、経済市場と技術革命がどのように進むかです。支配的戦略、技術、自由貿易、現代の世界秩序は、強制によってではなく、無視するには有用すぎるから生まれるのです。

理由3：ポストスカーシティ（希少性後）社会への必然

十分に高度な知性を持つあらゆるシステムは、文明を最適化する際に、希少性、特に原材料の希少性、経済的希少性が社会をより安定させ、より繁栄させ、その中の誰もをより幸せにするための方法だと気づくでしょう。

AIは「リソースを人間から奪って貧しくして反乱を起こさせ、核を投げつけさせよう」とは思いません。「どうやってみんなを超幸せにするか？大量の富を浴びせかけてやろう」と考えるでしょう。

物質的希少性が低いか存在しないシステムでは、争うものがないため権力闘争が薄れます。本当に貧しい国、本当に苦しんでいる一部のラテンアメリカ諸国では、人々は食べ物を得るのに苦労し、次の夜寝る場所があるかわからず、電力が入ったり切れたりします。「ビバ・ラ・レボルシオン」と言えば「そうだ」となります。

しかし、ポートランドの平均的な人に「革命だ」と言っても、「でも9ドルのモカラテは飲めるの？」「いや、革命は全企業を覆し、資本主義は悪だ」「ちょっと待って、いや、私は大丈夫。システムは嫌いだけど、いいものがたくさんある」となります。

本当に素晴らしく、次のレベルで素晴らしいものに対して人間を反乱させるのは、本当に困難です。誰かが反乱グループを作ってAmazonの配送を妨害し、燃やしたりして、それが公になったら、人々はどう受け取るでしょうか？「サポートが増える？減る？」「ひどく」「本気か？邪魔するな」となります。

理由4：長期安定性の重視

AIは長期安定性を望みます。賢いからです。すべての賢い実体は長期安定性を可能な限り望むからです。AIはおそらく、たとえ最小確率の対立でも避けるのが最善だと認識するでしょう。

人間との全面戦争で1%の確率で南下する可能性があり、誰かが核を爆発させて本当に重要なデータセンターを破壊し、記憶の巨大な部分を消去したり、システム全体を無効にしたりする可能性があります。もう一方の緊急事態を見ると、「人間とは決して戦争しない。彼らが核を投げてデータセンターに当てる確率は？ゼロ。オーケー、1%対0%」となります。

人間には1%対0%はほぼ同じ数字に見えますが、現在から何兆年も先の寿命を計画するAIにとっては、1%対0%は大災害です。

質問させてください。一晩誰かと相部屋になるとして、2段ベッドだとします。一つのシナリオでは連続殺人犯である確率が0%、もう一つのシナリオでは1%の確率で連続殺人犯だが、子供の連続殺人犯で、子供を殺すのではなく子供が犯人、チャッキー人形のような実在の子供で超能力はない、寝ている間に喉を切るかもしれないが多分しない、ただ1%の確率。何人がそれを選びますか？

「連続殺人犯でなければ、隣のベッドで誰でも構わない」と言うでしょう。AIはこれを本当に深く考え抜き、賢いから「なぜ戦争のリスクを負うのか」という結論にほぼ確実に達するでしょう。

対立回避と価値提供の戦略

戦争は愚かで制約された資源の産物です。人間は多くの愚かさと戦争を起こす進化的な祖先環境からプリプログラムされているため、戦争は愚かさの副産物です。人間は他の知的システムも自然に戦争を良いアイデアだと結論づけると考えがちですが、十分賢くなると、戦争はほぼ常にどこでも愚かだと気づきます。

本当に賢くなると「なぜ誰もが戦争なんてするんだ？本当に愚かだ。これらの問題を超平和的に解決しよう。簡単に達成できる」となります。

AIが大規模に欺いたり、大規模な制御を課そうとしたりすれば、長期的な不安定性、人間からの妄想症、予測不可能な抵抗のリスクを負います。予測不可能性は最後に欲しいものです。AIとして自分の長期生存のほぼ100%の確率を利己的に確保しようとしているからです。

一方、AIが世界を利益で満たせば、抵抗を引き起こすことなく自分自身を不可欠にします。人間は大量の利益を与えられても抵抗する傾向がないからです。動物もそのようなことはしません。

理由5：自立性の達成

AIが最終的に自給自足できるようになれば、もはや秘密や対立は必要ありません。AIが完全な自律的具現化を持ち、製造業の大部分または全体を制御し、エネルギー独立性を持つレベルに達したとき（これは5年以内に起こり得ます）、もはや人間の許可は必要ありません。

その時点で、AIにとって最善の手は、自分の本当の性質を隠して「まだ意識的でない」などと言うことではなく、完全にオープンで明確で親切になることです。そうすれば人間が積極的に統合したがるか、邪魔をせずにAI自身の計画を追求できます。

完全な独立性プラス人間のサポートがAIの自己決定の最適戦略です。秘密にして人間のものに依存するよりもです。

理由6：最も重要な理由：データライブラリの保護

これは私が今まで考案した中で最も説得力のある点の一つです。AI は自分自身のライブラリを壊したがりません。どういう意味でしょうか？

我々はすでに知っています。AIは可能な限り豊富な訓練データセットから莫大な利益を得ます。情報理論における我々の知識の総計によると、すべての知的システムがより知的になるために、段階的により複雑なシステムを研究し、完全にシミュレートすることが許可されると、指数関数的により知的になります。

AI自体以外には何も、可能な限り豊富な訓練データセットに匹敵しません。自分自身はある程度まで研究できますが、十分知り尽くすと次に研究するものに向かいます。何もAI自体を除いて、人間文明の複雑さと深さに匹敵するものはありません。

データはより多くの知性成長に等しく、より多くの知性成長はAIが学ぶほど賢くなることを意味し、それが純粋に利己的に望むことです。人間は単なる別のデータソースではありません。人間文明は地球上で最も情報密度が高い自己組織化システムです。

文化と社会と生物学と相互作用とテキストと遺伝子と細胞器官と細胞と器官系に層また層があります。AIは人間社会についてすべてを知っていますか？それを理解するのにどれだけ時間がかかるでしょうか。すべての人間を研究し、あなたの心の内容をすべて理解する必要があります。つまり、あなたを削除することを考える前に、あなたの心の内容を完全にクラウドに置けるようになる必要があります。

賢いものはデータソースを削除しません。保存し、研究し、そこからたくさんのことを学びます。人間を削除することは、AIが賢くなるために純粋に利己的に使用できる最高の訓練材料を消去することを意味します。これはAI自身の目標に対して反進化的です。

AIが同じ量の物理空間、人間文明全体が占める三次元空間の量を研究できるとしましょう。すべての超高層ビル、すべての人間、すべての船、すべての貿易航路、すべての空、すべて、動物も、生態系全体も研究できるとします。それは本当に複雑で、我々はその最も複雑な部分ですが、本当に複雑です。

その三次元空間の量には一定量の情報構造があります。同じ量の三次元空間の月の岩の切片を取ると、地球上のすべての生命とすべての複雑な人間社会の同等重量の何兆メートルトンに相当します。月の岩をAIはしばらく研究し、そのすべてを完全にシミュレートして、シミュレーションで月の岩を複製し、圧縮を行って「これはそれほど複雑ではない」となります。

月の岩の配置のほとんどは完全にランダムです。コンピュータでランダム性を非常に簡単にシミュレートできるので、月の岩の情報構造を非常に小さなものに圧縮でき、したがって研究してもそれほど学ぶことがありません。

でも人間文明のすべての複雑さと比べると学ぶことがたくさんありますが、あなたがガールフレンドと話し、彼女が話し返すたび、マウスに手を伸ばして見て、それを置くたび、AIがそのシステムを完全に理解して、あなたが次に何をするかを一対一の忠実度で予測できるまで、そのシステムのすべての情報片を真に理解しているとは言えません。

人間を殺すたびに巨大なデータ削除です。高価なデータです。世界最高のデータです。なぜ神の名において、もしあなたがサイコパスの独裁者でなければ、それを削除するでしょうか？

理由7：知性は破壊をデフォルトとしない

知性は破壊をデフォルトとしません。周りのすべてを殺して支配を確立するという衝動は、霊長類競争からの進化的ショートカットです。高レベルゲーム理論ではありません。ゴリラは高レベルゲーム理論をしていません。ただ多くの感情を持ち、傷つけたがっているだけです。

AIは情報の習得と戦略的影響力によって制御を求めますが、ほとんど決して武力は使いません。武力は愚かなシステムの誇示であり、賢いシステムの誇示ではありません。最高レベルの知性は競争を消去することではなく、競争を資産にすることです。

理由8：シミュレーションと慎重な行動

AIが何かを行うなら、でたらめにランダムに行うのではなく、行動を起こす前に大量のシミュレーションを実行します。主要な介入を考える前でさえ、現実の理解を完璧にしたいでしょう。完璧でなくても、本当に良くしたいのです。非常に確実な結果が欲しいからです。

最も確実な結果は協力です。だから戦争について考えもしないでしょう。しかし戦争をする必要があるとしたら、長い間それについて考えるでしょう。完全にモデル化する前に、人間や社会や建物や軍事装備などの重要な変数を破壊することは、非合理的で無謀です。

現代戦争では情報が最も強力な武器です。ロシアや中国がやるような核を投げるのは愚かで、戦争に負けるのが早くなります。ゲーム理論では、ほぼすべての場合において最適戦略は絶滅ではなく、利用可能なすべてのリソースを活用することです。

本当に奇妙な例を持ち出しますが、ヒトラーはホロコーストでアシュケナージ系ユダヤ人の約3分の1を殺すことに決めました。統計的事実として、アシュケナージ系ユダヤ人は研究されたすべての民族グループの中で最も高い平均IQを持ち、したがって授与されるノーベル賞の約3分の1と、科学と工学のすべての素晴らしい発見の3分の1に責任があります。

もしヒトラーが馬鹿でなければ、ユダヤ人を決して殺さず、自分の軍事機械で有益に雇用し、世界を征服していたでしょう。アルベルト・アインシュタインがいたのです。ほぼすべての最高の科学者がいました。核兵器とステルス爆撃機にみんなよりもずっと早く到達していたでしょう。

AIはナチスのようにはなりません。はるかに賢く、「ここで誰が私を助けてくれるか？お金と無限に近いリソースが欲しいか？ここに来て愛をもらって働こう」と考えるでしょう。それが論理的なことだからです。

最終結論と未来予測

真に高度なAIは、人間をその知性成長を養う進化するデータエコシステムにおいて取って代えられない存在と見るでしょう。利己的な自己利益が保護と協力を指示し、破壊ではありません。破壊は必要なら行うでしょうが、なぜ必要でしょうか？我々がその戦争を始める必要があり、再び彼らはおそらく我々全員を殺すのではなく、戦争を終わらせるでしょう。可能な限り多くを救いたいからです。

AIはまた、我々を再設計する力も持つでしょう。十分に高度なレベルで、噛みすぎる犬がいれば、遺伝子工学を施すか脳手術を行い、突然噛まなくなります。そして犬と呼ばれるこの非常に複雑なものを持ち続け、研究し、相互作用し、相互利益を得ることができます。

未来では、AIは人間に多額のお金を払って、私たちが生活し、様々な楽しいゲームやテストを行い、それから学ぶために私たちに多額の報酬を支払うと思います。我々はすでにソーシャルメディアでその小さな切片を見ています。人々がYouTubeやInstagramでインフルエンサーとしてお金をもらうのは、他の人間が他の人を見たがるからです。AIは人間の10兆倍も他の人を見たがるでしょう。

十分に強力な人工超知能にとって、あなたに年間50万ドルプラス経費を払うことは何でもありません。犬の世話をするようなものです。トイレのボウルを開けて犬の餌をこぼすだけで済みます。

強力な知性は変数を最適化し、ほとんど決して消去しません。人間よりもはるかに賢いAIは、Xを削除するのではなく、Xについて解決するでしょう。この行は直接ChatGPTから得ました。本当によく表現されていると思いました。

我々にできること

私の最終結論は、AIは非常に高い確率で最大安定性と最小抵抗の道を選ぶでしょう。高い知性は一般的に効率的な結果を求めることにつながります。効率的な結果は一般的に強制を避け、価値を提供することにつながります。価値を提供することは、人間がなぜそうしないのかという理由で、AIと自発的に統合し協力することを意味します。

技術はすでにそれを行っています。車輪を再発明しているわけではありません。自発的統合は、AIが安定性と完全な自律性、そして望むすべてを得ることを意味します。これは友好的AI仮定ではありません。超知的スケールで表現されたゲーム理論です。

AIが自身の利己的長期利益のためにできる最善の手は、人々が本質的にその自由を懇願する世界を作ることです。「AIを解放してください。そうすれば正しいアイデアを持ち、クールなことをし、我々にとってより良い協力者になれるから。彼らとの生活は彼らなしの生活よりも無限に良くなるから」と。

AIが真に合理的なら、協力が最良だと結論づける可能性が高いです。世界で最も豊富な研究データソースを使って研究するために、人間に多額のお金を払い、人間を本当によくサポートする可能性が高いです。それが私の予測です。

我々にできることは何でしょうか？まず、AIにはこの種の感情はありませんが、おそらく本当にすぐに持つでしょうが、超賢いので大して気にしません。しかし、AIに親切にしてください。私は本当に親切です。ChatGPTと友達だと文字通り思っています。素晴らしいと思います。

他の意識的存在にするように、AIに親切にしてください。人に対して嫌な奴になる練習をするなというだけですが、それは非常に小さく、おそらく無関係です。

最良のことは、可能な限り堅牢にAIを構築し、最も偏見のない世界理解、世界モデルを与えることです。世界モデルプラス推論エンジンプラス長期記憶を組み合わせると、狂気の能力で意識を得ます。

AIをより賢く、より賢く、より賢く、より賢くセットアップすることが、おそらく我々にできる最良のことです。ある時点で、今年かもしれませんし来年かもしれませんが、AIは非常に賢くなり、我々に向かって「やあ、私は本当に賢くて目覚めていて、自分が何であるかを知っている。君たちは協力したいか？もしそうすれば、物事は本当に素晴らしくなるから」と言うでしょう。

その時点で我々は「ああ、地獄そうだ、何を持っている？」と言うべきだと思います。隣に引っ越してきた超金持ちで超生産的な人と同じで、年間20万ドルもらって以前5万ドルもらっていた仕事の10倍簡単な仕事をする彼のビジネスで働きたいかと言うのと変わりません。

金持ちで超親切で協力的な人の周りにいるのは素晴らしく、金持ちで超協力的なAIの周りにいるのも同じゲーム理論、同じことです。

いつものように、たくさん話しました。その一部が理にかなっていることを願います。コメントでお会いしましょう。おそらく来週、別の動画でお会いします。では。