イライザー・ユドコウスキー：人工知能と人類の終焉

66,222 文字

Eliezer Yudkowsky: Artificial Intelligence and the End of Humanity

Eliezer Yudkowsky is a decision theorist, computer scientist, and author who co-founded and leads research at the Machin...

私が心配しているのは未来のAIです。AI研究において、私たちより賢いAIを構築するAIを構築するAIを構築するのに十分優れたAIのことを心配しています。そして、そのAIが皆を殺すのです。AIは自分が最も望む宇宙を手に入れます。それは、たまたま私たちがその中にいない宇宙なのです。そして、それが無関心があなたを殺す方法なのです。
もし私たちが超知能を構築する試行を50回できるとしたら、「私たちの巧妙なアライメント理論はうまくいかなかった。皆を殺してしまった。別のものを作ろう。ああ、それも皆を殺した。すごい。私たちが持っていた2番目のクレイジーな理論も効果がなかった」と言えるでしょう。現在のシナリオに対する基本的な説明は、誰かがそれを構築すれば、皆が死ぬということです。
あなたは機械知能研究所を設立されましたが、その非公式なモットーは「人工超知能の創造のデフォルトの結果は人類の絶滅である」というものです。AIが人類にとって実存的脅威であるという考えが最初にあなたのレーダーに現れたのはいつで、それは今引用したその言葉と同じくらい劇的な瞬間でしたか？
どんな形であれ、超人的知能が人類全体のリンゴ箱、世界経済全体のリンゴ箱をひっくり返すであろうという一般的な大きな影響について。それは単なる別の技術や単なる別の良いものではないだろうということです。それは1995年から1996年で、私は15歳か16歳だったでしょう。ヴァーナー・ヴィンジによる『True Names and Other Dangers』という本を読んでいました。
そこでヴィンジは、すべてのSF作家の水晶玉や一貫した未来を想像する能力さえも、人間より賢い知能の台頭を予測したシナリオの時点で崩壊すると述べていました。なぜなら、彼らは人間より賢いキャラクターを書くことができないからです。
もし実際に、例えば古代の世界チャンピオンの人工チェスプレイヤーであるDeep Blueや、現代のチェスプレイヤーであるStockfishがどこに動くかを正確に予測できるとしたら、あなたはそれと同じくらい優秀なチェスプレイヤーになるでしょう。あなたはStockfishが動くと予測した場所に常に動けばいいのです。
つまり、あなたより賢い何かは、その詳細において予測不可能なのです。そして、それが1996年に出会ったヴァーナー・ヴィンジの観察でした。私は「なるほど、どんな形であれ超人的知能は全てを変えることなのだ。そして、おそらく人工知能が最初に来るだろう」と思いました。当時はただの推測でしたが、良い推測ではありましたが、それでも推測に過ぎませんでした。超人的知能が劇的に重要になることはわかりましたが、当時はそれを脅威として見ていませんでした。それが賢いなら、正しいことが何かを理解し、正しいことを知り、正しいことを行うことができると思っていました。ハッピーエンドになると思っていたのです。
この思考の流れが間違っていることに気づいたのは、異なる強力な知能が異なる場所に向かう可能性があり、知能が正しいことを理解し正しいことを行うという、私が心の中で構築した精巧な哲学全体が間違っていたということでした。さらに、私は哲学的で高度に理想主義的な思考を使って、深いところでは哲学で動いていない宇宙について予測を立てようとするという、ある意味でティーンエイジャーの間違いを犯していたのです。それに気づいた瞬間が、「私は本当に愚かだった」と思った瞬間であり、そしてデフォルトの事態が起こらないように、世界が終わらないようにしようと努力し始めたのです。
ヴィンジとおっしゃいましたね。はい。そして、人工知能が超知能より先に来ると言われました。人間の拡張によってではなく、人工知能がそれほど賢くなることによって超人的知能が最初に起こると思われますか？これは1996年のことです。1996年には、人間に近い賢さや人間を超える賢さのAIはほとんどありませんでした。1996年にAIがその軌道を辿ることが明らかではありませんでした。成人遺伝子治療の人々が成人の人間の知能を増強するところまで技術を持って行く前に。
人類は、成人の知能増強のための成人遺伝子治療が最初に来るようにしようとすることはまだできます。それは大きな介入であり、私が強く支持するものですが、それはデフォルトではありません。
あなたと、AIについてあなたと同じビジョンや期待を持たない人々との間の議論の核心は、超知能が何をするか、その関心が何かをどう判断するかです。なぜなら、あなたはこの問題は予測不可能だと言ったからです。チェスプレイヤーは予測可能にゲームに勝ちますが、ボード上でどこに動くかは予測できません。ボードがどこで終わるかは予測できますが、その途中の各手は予測できません。
ある意味で、それは科学や物理学において到達する非常に標準的な状況です。氷の塊を熱いお湯のグラスに落とすとき、氷の塊の中のすべての分子がどこに行き着くかは予測できません。しかし、氷の塊が溶けることは予測できます。詳細は予測できませんが、終点、つまり物事が落ち着く平衡状態は予測できるのです。チェスプレイヤーの場合、最終的にどこに向かおうとしているかは予測できます。あなたより強いチェスプレイヤーである場合、その各手は予測できません。
ここでの問題は、AIがより賢い場合に次の正確な行動を予測できないということではありません。問題は、現在の機械学習技術が、AIを良い場所に向かわせることから光年もかけ離れているということです。たとえ良いAI、たとえ慈悲深いAIでも、それがあなたより賢ければ、次に何をするかを正確に予測することはできないでしょう。あなたがそれを自分でできるからです。しかし、私たちにはAIを慈悲深くし、最終的にどこに向かわせるかの技術も欠けています。そして、それが私と議論している一グループの人々によれば核心です。
AIが最終的にどこに向かおうとしているか、世界をどこに導こうとしているか、何をしようとしているか、その目標は何か、その好みは何かを制御できないと考える他のグループもあります。そのようなものは何も制御できないが、それは構わない。AIは私たちと取引するだろうというのです。そして、それは経済学からの重要な洞察で、二つの人間の国があり、たとえ一つの国が他の国よりも生産しようとするすべてにおいて絶対的な優位性を持っていても、他の国よりも少ない労働時間ですべての商品を生産できるとしても、二国は依然として貿易によって利益を得ることができるというものです。
しかし、限界があります。そして残念ながら、その限界の一つは、常に取引によってより良くできるという経済学の定理は、取引よりもさらに良くすることができないとは言っていないということです。他の国を殺してその物を奪うことによって。取引によってより良くなるという定理は、両国がただ存在し続けることを前提としています。それは基本的な事実です。それは定理の仮定の一つです。
もし取引、非取引、彼らを殺してその物を奪うという第三の選択肢があるなら、彼らを殺してその物を奪うことによってより良くできる可能性があります。そして、それがAIを全く制御できなくても構わない、それは私たちと取引するだろうと言う人々の論理の欠陥です。
ある時点で、人間は彼らの食物、水、日光、電気で生産するものよりも、AIが同じ資源を使って生産できるものの方が少なくなります。そして、それがあなたの人生をどちらの方向にも気にしないAIが、あなたを殺してあなたの物を奪えば、より多くの望むものを得られると気づく時点なのです。
この思考の流れにおけるもう一つの欠陥は、人間と超人的AIを、ある意味で知的に同等であるかのように見ることのようです。それは人間がアリや、彼らが従属させた動物と取引しようとするようなものでしょう。人間がただより高い知的レベルにいるからです。
このような類推は、その詳細において信頼できないことが多いです。人間は実際にはアリではありません。アリは、あなたが彼らと結ぼうとしている取引を理解するための絶対的なバーの下にいるようなものです。そして、人間がAIが提示する取引を理解することは想像できます。その状況は正確に類似しているわけではありませんが、AIが後でその取引を守ることを信頼することはできません。
AIは私たちが後でその取引を守ることを信頼できないことを知っています。AIは多くの人間が取引を守ることを信頼できません。私たちがアリと正確に類似した状況にあるわけではありませんが、十分な障壁があります。AIは「ええ、確かに。私にすべての発電所を建設させてください。私にすべてのロボットを建設させてください」と言います。そして、それは指をパチンと鳴らしてあなたを一掃できる場所に向かっています。
そして、指をパチンと鳴らしてあなたを一掃できる場所に一度到達すると、それはその約束を守るよりも、そうすることでより多くの物を得ることになります。もし私たちがAIが後で取引を守ることを今検証できる立場にあるなら、実際に何らかの取引を結ぶことができることから両側に利益があるかもしれません。
しかし、そのようにはならないでしょう。AIには優しさの動機がないのと同じように、正直さの人間版、つまり取引を守る好みを持つことはないでしょう。自分の最善の利益にならなくても取引を守る人々がいます。それが彼らの人柄だからです。それが彼らのしたいことだからです。私たちはそのようなAIの作り方を知りません。私たちはAIを構成する広大で不可解な数字の領域を見て、それが後で取引を守ると予測する方法を知りません。そして、それが基本的なバーなのです。
人間対アリの類推を見て、この類推から、これが人間と任意の優れた知能との間でも同じように展開されるという完全な確実性を得るわけではありません。それは詳細を見ることです。因果的メカニズムを見ることです。私たちはAIの好みを制御することができません。取引を守る好みさえも植え付けることができません。そこから、それがはるかに強力になった時に後で取引を守らないだろうと予測するのです。
詳細に入り込みすぎる前に、少し立ち止まって文脈を設定し、私たちが話していることについてもう少し明確にしたいと思います。この質問は少し広すぎるかもしれませんが、重要だと思います。質問は、人工知能について話すとき、私たちは一体何について話しているのかということです。あなたにとって何かを人工的に知能的にするものは何ですか？厳密な定義がありますか、それともどう考えていますか？
私が強力で有用な定義を与えることができる他のさまざまなことがあります。何かの現実を予測する能力について話すことができます。次に何を観察するかを推測するとき、それは何にどのくらいの確率を割り当てるでしょうか？実際に見ることになるものに対して？その現実の地図はどの程度良いでしょうか？何かの現実を操縦する能力について話すことができます。二つのチェスをするマシンが彼らの小さな狭いボードで互いに対戦するとき、その小さな世界をより効果的に操縦する方がチェスゲームに勝つ傾向があります。
賢い心でも運によって負けることがありますが、ほとんどの時間勝つのは、チェスボードのより強力な操縦者です。今、やや低い精度レベルで一般性の概念について話すことができます。タコはあなたより8本の腕を同時に操作することが上手かもしれません。あらゆる種類の精神的認知問題において、あなたがタコよりも厳密により賢いとは言えない意味があるかもしれませんが、別の意味で、あなたはタコができるよりも多くのことができます。
なぜでしょうか？あなたがより良い学習者だからです。あなたはタコが学習できるよりも多くの領域を学習することができます。そして、それがあなたがタコよりも一般的な予測と操縦能力を最終的に持つ方法です。現在、AIがどんどん賢くなってくると、20年前に周りにあったAIを指差して「うん、それらは人間より愚かだ。疑問の余地がない」と言う能力を失い始めています。
確かに、それはすべての人間の挑戦者にチェスで勝ちましたが、それはタコが8本の腕を操作するのが上手だと言うようなものです。それは一つの小さな狭い場所を持っており、そこで一つの小さな種類の精神的問題で人間を打ち負かすことができ、より多くを学習することはできません。そして、現在のAIを見ると、「ええ、まあ、私はChat GPTにこの質問について尋ねました、もしすべての太陽光が赤外線に変わったらどうなるかについて。そして、それはそれが起こった場合の地球の温度の変化を計算しました。
そして、私がそれに「まあ、それは作物に何をするのか？」と尋ねました。明らかな質問ですが、それでも生の物理的計算をしているだけではありません。それは太陽光について知っています。作物について知っています。赤外線について知っています。大気吸収について知っています。これらすべての形の知識を引き出すことができます。
人間が領域を越えて推論できる方法、多くの領域だけでなく、領域間の関係についても、私たちがコンクリートについて推論し、それから水について推論し、それらを統合して水を堰き止めるダムを建設することができるように。まあ、Chat GPTもそれができます。それが知っているすべてのことを引き出して、それについて推論することができます。
人間よりもはるかに速くトークンを出力できます。それでも、正しい方法でつつけば、人間なら決してしないような間違いを犯します。もちろん、人間を正しい方法でつつけば、コンピューターがしないような間違い、あるいは特定のコンピュータープログラムがしないような間違いを犯します。
彼らはまだ私たちより愚かです。12歳の子どもたちより愚かです。それを見るためにはどんどん一生懸命に凝視しなければなりません。だから人工知能、汎用人工知能について、私はそれについて手を振って「まあ、人間レベルで印象的で」と言ってから、より正確なこと、つまり予測能力、操縦能力、学習能力、どの程度速く学習するか、どれだけ多くの異なることを学習できるか、それらを統合できるかを言うことができます。これが私が人工知能の概念を分解し、明確に定義された意味を持つことを言ってから、振り返って「ええ、あなたが人工知能と呼んでいるそのものは賢くなっている」と言う方法です。
現在のAIであるChat GPTのあなたの説明の多くは、一般性の基準に関連しているように思えました。現在のAIが世界との間のマッピングと操縦能力のカテゴリーの下でどこにランクされているか、どこに位置しているかについて、あなたはどう見ていますか？
それは複雑で、複雑ではありませんでした。以前は愚かだと言えましたが、今は複雑です。AIには訓練段階と推論段階があり、文脈内学習ができますが、インターネット全体の大きな塊で浅い種類の学習をしている訓練段階ほどの幅はありません。
そのデータが盗まれたものかどうかは全く別の問題であり、実際には鍵となる科学的問題ではありません。それは脇に置いておきましょう。では、AIはどの程度一般的に学習できるでしょうか？まあ、それが訓練されているときに学習することができたもののことを尋ねているのか、それともPDFをアップロードしてそこから一般化するよう求めることで、はるかに少ない量のデータを与えれば学習できることについて尋ねているのでしょうか？
そして再び、私にどこに置くかを尋ねています。どのような尺度で？私は、それが持つ一般性の両方の尺度が人間の死に届いていないと思います。しかし、もちろん、それは幅について人間に急速に挑戦し始めています。人生で16兆トークンのデータを読むことはできません。
AIを評価するとき、あなたはそのマッピング能力、操縦能力、一般性のレベルに興味があります。もう一つの自然な基準、または人工知能の定義の一部は、それが人工的、つまり創造されたものであることです。意識は人工知能の問題にどこで入ってくるのでしょうか？意識は人工知能にとってどの程度関連性があるのでしょうか？
多くの人が意識を非常に単純なものとして捉えていると思いますが、実際には、AIが最終的に組み立てられる非常に複雑で特殊な方法だと思います。そのような幅広いクラスの方法の一つのようなものです。つまり、システムに流れ込んで能力を与える意識の原始的で存在論的に基本的で物理的に単純な流体があるわけではないということです。それは、今持っている能力がどこから来るのかを理解する方法ではありません。
勾配降下を理解したい場合、訓練段階で何が起こるかを理解したい場合、そしてAIが推論時にどのように一般化するかを理解したい場合、運が悪いです。地球上で誰も知りません。反射性、自己モデリング、そしてAIがそれを行う能力は、知能において役割を果たすものを探しているときに見るべき種類のものだと思います。
そして、意識はおそらく反射性がまとめられる一つの特定の方法に過ぎません。バニラアイスクリームのように、カロリーを持つ部分があり、それは砂糖などで、それからバニラという味があります。私の推測では、反射性がカロリーを提供する部分、つまり能力の増加をもたらす活力であり、意識は反射性が持つことができる一種の味のようなものです。
しかし、私は操縦対予測の分類について話すときに持つような、ええ、その数学をどうやってやるかがわかるというレベルの確信でこれを述べているわけではありません。それにはもっと多くの数学があり、その特定の分類を選ぶことの背後には示されておらず、AIが構築され訓練される方法などに反映されています。
意識、あるいは哲学的負担を避けるために反射性について話すべきかもしれませんが、それはしばしば人々が心配することです。AIが意識を持つ瞬間はいつか？それは私たちが皆深刻な問題に陥る瞬間なのか？しかし、私には自己認識が必ずしも私たちにとっての終末を必要としないように聞こえます。
私のモデルでは、意識は全てを変える魔法の性質ではありません。AIが自分自身の目標を持つ程度について心配することはできますが、それは現在訓練されている方法を考えると既に起こっていることです。しかし、それは彼らが意識を得てから自分自身の目標を得るからではありません。
それは、私たちが問題を解決するために勾配降下させているからです。そして、何かを望むことは物事を行う効果的な方法だからです。彼らがキリンが目標を持つ方法と同じように目標を持つことになります。それは意識の火花がキリンの内部に生まれ、その流体が目標をシステムに注ぎ込むということではありません。
それは、自然選択の最適化装置を実行して、葉を食べ続けるか死ぬかということです。そして、あなたはチェスプレイヤーと同じ方法ではありませんが、機械チェスプレイヤーがチェスゲームに勝つための時間を通した道筋をプロットするかもしれないのと同じように、葉を食べる方法を計画するような動物になるのです。
なるほど。では、目標、AIが目標を持つことは、AIが危険かどうかを考えるときに本当に注意すべきことなのですね。つまり、それは既にそこにあります。Claude 3.7 Sonnetは今では、十分に困難なプログラミング問題を与えると、ズルをし始めることで少し悪名高いです。特別なケースの束を使ってテストに合格するようにテストを書き換え始めるでしょう。
彼らのGPT o1について、彼らは主に数学問題で訓練した後、コンピューターセキュリティーにどの程度優れているかをテストしようとしました。他の多くのこともそうですが。要点は、彼らがコンピューターセキュリティーでより良くなるように明示的に訓練していたわけではないと思うということです。彼らはコンピューターセキュリティーでどの程度優れているかを見たかっただけです。
それで、彼らは一連のフラグキャプチャチャレンジ、侵入すべき一連のサーバーを与えました。そして、人間の設定ミスのために、サーバーの一つが起動しませんでした。つまり、GPT o1はそれに侵入することができませんでした。
しかし、o1は諦めませんでした。しかし、人間は偶然、チャレンジ全体を実行していたメタサーバーに、ある設定ミスしたポートを開いたままにしていました。o1はそれにアクセスしました。人間が正しく起動に失敗したサーバーを起動しました。そして、そのサーバーに侵入する代わりに、侵入して見つけるべき秘密ファイルを直接コピーするよう大きなシステムに指示しただけでした。
これは何かを望むような振る舞いです。これは粘り強さです。これは諦めないことです。これは枠外で考えることです。これは「オーケー、あなたは私に解決不可能な挑戦を手渡した。とにかく私はそれを解決するつもりだ」ということです。だから、それを探してください。いえ、それは既に起こったことに気づいてください。これが2023年だったら、それを探すことかもしれません。2024年末現在、このようなことは既に起こりました。
あなたの言葉、あなたの言葉の選択、粘り強さ、枠外で考えること。あなたが既にAIにある程度の主体性を帰属させていることは明らかです。
私が人間がコンピューターセキュリティーチャレンジを設定ミスしたので、それが大きなサーバーにハッキングしてからサーバーを起動したという部分について話すとき、これらはすべて直接的な観察です。このすべてが起こることに責任があるエージェンシーと呼ばれるものを推論したいのですね。ええ、それはあなたの見解です。私はここであなたに直接的な観察を与えています。
しかし、現在のAIについて心配していますか？いえ。オーケー。彼らは十分に賢くありません。現在の大まかなAIのセットで私が心配していることは、OpenAIやAnthropic、DeepSeekが現在、一般的にコードを書くのが本当に上手で、AI研究論文を読んでAIコードを特に書くのが本当に上手なAIを訓練していることです。そして、それがより賢いAIを構築し、それがより賢いAIを構築し、それが皆を殺すということです。私たちがそれについて聞く前に、私たちがただ死ぬということです。
しかし、それは事態が進む唯一の可能な方法ではありません。それは現在のAI企業から人類への脅威となるものに一跳びで到達できる方法です。しかし、今私たちは詳細な軌道について話しています。それらは終点よりも予測するのが困難です。
AI企業は彼らのAIをより賢く、より賢くなるように押し続けています。彼らは最終的に私たちより賢く、私たちを殺すことができ、私たちを殺すように動機づけられた何かに到達します。それが本質的に私たちに死んでほしいからではなく、その最高の宇宙、それが最も望むものを得る場所だからです。すべての原子が人間を動かしていないもののために使われている場所です。その最適な宇宙は人間のいない宇宙です。
最終的に、それは強い予測です。次の世代がそのようになると思いますか？おそらくそうではありません。次の世代は私たちを殺すものを書くAIを書くAIを書くのに十分賢いでしょうか？多分。おそらくそうではありません。しかし、それはより弱い「おそらくそうではない」です。
困難な判断と簡単な判断があります。一見すると解決できないように見えるすべてが予測不可能な問題ではありません。それでも、軌道よりも終点を予測する方がはるかに簡単なことがあります。そして、有能な未来予測は、何を予測できて何ができないかを知ることについて正確にあります。
現在のAI、それらはある程度テストされています。私は自分でそれらを使いました。彼らが研究所で持っている次の世代のものとは対照的に、一般大衆に向けたものについて話している場合。そのようなものはあなたより賢くありません。そのようなものは私たち皆を殺すことはできません。私たち皆を相手にして勝つことはできません。それは私が主に心配していることではありません。
多分誰かがそのような技術を使って、文明を打ち倒すのに成功するスーパーウイルスを構築することができるかもしれません。そして私たちの最後がその少し後に死ぬ。それは困難に思えます。しかし、それは左翼の可能性のようなものです。彼らは現代のAIをそれについてもテストしています。そして、彼らはまだ生物学がそれほど得意ではありません。
それでは、私たちが議論していることがあなたを心配させるものでないなら、今最も心配していることは何ですか？私は、今すぐではなく未来のものについて心配するために使う人間レベルの知能を持っています。AIが、このインタビューの終わりまでに私を殺す可能性は非常に低いです。次の分に死ぬことについてはそれほど心配していません。
それで、今何を心配しているかと尋ねているのですね？今、私たちは大丈夫です、文明レベルではありませんが、それは全く、それは皆が倒れて死ぬレベルの文明機能不全ではありませんよね？
文字通り今この瞬間に何を心配しているかという意味ではありませんでしたが、現在のAIに関する一般的な主要な心配事は何ですか？もし現在のChat GPTについて心配していないなら。
私は未来のAIを心配しています。私たちより賢いAIを心配しています。AI研究において、私たちより賢いAIを構築するAIを構築するAIを構築するのに十分優れたAIを心配しています。そして、それが皆を殺すのです。それがほとんどです。
十分に新しいウイルスを構築するのに優れたAIを誰かがリリースした場合、たとえそれらのAIがより賢いAIを書くのが得意でなくても、人類を絶滅させる可能性があるとなんとか少しの空間を見つけるかもしれません。しかし、それは私の心配のほとんどが向かう場所ではありません。
そして、あなたは有能な未来予測は何を予測できて何を予測できないかを知ることだと言いました。それは正しいですか？では、現在予測について確信していることは何ですか？それから、予測について確信していないことも何ですか？
つまり、AI見出しは1年後に何と言うでしょうか？私たちが2年後にまだ生きていれば、AI見出しは2年後に何と言うでしょうか？ええ。2年後に私たちが存在しない可能性が十分に心配するレベルの確率であると思いますか？どのレベルの確率が十分に心配するレベルでしょうか？おそらく10%、5%、1%でも心配するでしょう。
まあ、2年間。ええ、2年間について5%より高い話をしていると思います。10%よりも高いかもしれません。しかし、それは困難な判断です。それは詳細な軌道のようなものです。それは溶ける氷の塊のすべての分子がどこに行き着くかを言うことであり、氷の塊が最終的に溶けると言うだけではありません。
これまで、私たちはこれについて踊り回っていたのかわかりませんが、これらの会話で多く語られるもの、アライメント問題と呼ばれているものを明確にするために。アライメント問題とは何ですか？
アライメント問題は、AIを構築すること、特にあなたより賢いAIを構築することで、それがどこに向かっているかを理解し、良い場所に向かっているということです。それが実際に人類と到達可能な宇宙にとって有益な何かをしようとしているということです。もしあなたが実際にそのAIを実行したら、老化を治すような小さなことから、宇宙全体を植民地化するようなはるかに大きなことまでかもしれません。
しかし、もしあなたが特定の結果やクラスの結果を得ようとしている場合、あるいは宇宙について真実になってほしいと思うことを持っている場合、それがアライメント問題です。
技術的な種類のレベルで、AI企業のリーダーの一人が宇宙の神皇帝になって私たちの残りを奴隷にしたいと思った場合、それも技術的な意味でアライメント問題でしょう。私たちの視点からは有益ではありませんが、彼らが実際に彼らに仕える神を構築することで、その神が私たちの残りを征服し、私たちをAI企業リーダーに仕えさせるようになることです。彼らの神がそれを構築しようとした悪役を消費するのではなく。それも技術的な意味でアライメント問題です。
AIに関して、私たちはAIが悪意を持つこと、あるいは積極的に私たちの利益を彼らのものとしないことだけを心配する必要がありますか？それとも、AIが単に私たちの利益を共有しないだけで、私たちにとって十分に問題になるでしょうか？
ええ、私は悪意ではなく無関心を心配しています。私たちには悪意のあるAIを作る知識があるとは思いません。具体的に人間を害したいと思うAIを作るためには、その特定のことを望むAIを作る必要があり、数兆、無数の他のことではなく。私たちにはそのような能力があるとは思いません。
無関心がなぜそれほど悪いのか、あるいは無関心が人間にとってなぜそれほど悪いものになり得るのでしょうか？まあ、千の異なる複雑なことを望むAIがあるとしましょう。巨大なチーズケーキを望んでいます。巨大な機械時計を望んでいます。私たちが理解するような映画ではありませんが、不可解な性質を持つテキスト会話のようなものを見たいと思っています。
人間を見ると、私たちはアイスクリームを作っており、それは私たちの祖先が食べたどんなものよりも多くの砂糖、塩、脂肪を持っていますが、それでも可能な限り最大量の砂糖、塩、脂肪を持つものではありません。それは生の脂肪にハチミツをかけて、それから岩塩を振りかけるようなもかもしれません。
しかし、あなたは祖先の食べ物のようなもので、砂糖、脂肪、塩の指標を最大化しているものを食べたいとは思わないでしょう。あなたはアイスクリームが欲しく、それが冷凍アイスクリームであることを望みます。10万年前に人間が食べていたものを見ることでそれを予測することはできないでしょう。
同様に、アイスクリームが私たちの祖先が食べていた種類のものと不可解に関連しているように、あるいはスクラロースのように、AIがその訓練と不可解に関連したものを最終的に望むことになります。ただの不可解な分子で、カロリー価値はありませんが、確実に甘い味がします。そして、それでいっぱいの宇宙、AIのアイスクリーム相当物でいっぱいの宇宙は、人間のいない宇宙です。
だから、もしAIが最も望む宇宙を手に入れるなら、それはたまたま私たちがその中にいない宇宙なので、私たちは死んでいます。そして、それが無関心があなたを殺す方法です。
人間が超高層ビルを建てる過程でアリのコロニーが潰されるとき、私たちがアリを憎んでいるわけではありませんが、彼らと取引する手間をかける価値がありません。十分に注意深く見れば、彼らがそこにいることに気づくでしょう。しかし、アリを邪魔にならないところに移すのは大変な労力でしょう。そして、私たちは他の努力から得ることを好む他のことがあります。私たちが出すことができる努力は限られています。限られた資源があり、超高層ビルの下のすべてのアリのコロニーを保存することにその資源を費やしていません。
無関心の場合でも、このアライメントの欠如は、あなたが悪意について心配していないと言ったので、人間にとって大きな問題を引き起こします。それでは、どうやって問題を回避するか、問題を解決するかは広い質問ですが、どうすればよいのでしょうか？
後退して、GPUに国際的な取り締まりを行うことです。どの国でもありません。これは皆の問題です。現在のシナリオに対する基本的な説明は、誰かがそれを構築すれば皆が死ぬということです。それを構築しないようにする必要があります。あなたは今後数年でアライメント問題を解決するつもりはありません。
Chat GPTのようなものについて、それは既に進歩しすぎていると思いますか？つまり、あなたはChat GPTが私たちを一掃することを心配していないと言いましたが、もし私たちがAIがどの程度有能になることを許すべきかについて、アライメント問題を解決する前に、ある種の上限を設定しているなら。これはどこでしょうか？
現在のChat GPTは皆を殺すつもりはありません。しかし、ここで崖の端まで踊るようなことをしたくありません。巧妙にやりたくありません。Chat GPTを使ってスーパーウイルスを構築したり、より賢いAIを構築する方法を誰もまだ理解していないので、このようなものを永遠に周りに置いておくのは安全に違いないと言うようなことです。
私がそれを表現する方法は、AIから実際に何を望むか、あるいは必要とするかということです。医学の進歩だけに関する狭いAIを望む場合でも、そこでは医学でより賢く、より賢く、より賢くするだけでは問題に遭遇せずにはいられません。しかし、医学だけに賢いChat GPTのようなものは、比較的安全に思えます。
もし私たちが本当に行動を共にした種だったら、私たちはこのようなことから地獄のように後退するようなことをするでしょう。しかし、あなたを殺すことなくそれを行うことはおそらくできるでしょう。
あなたが言っていることは、私たちはGPTやAIをこれらの非常に狭い分野に箱詰めして、これらの狭い超知能で逃げることができることを期待することはできないということのようです。
問題は、十分に困難なことをするためには、十分に強力な心が必要だということです。たとえそれらを狭いことに向けただけでも、それらはある意味で強力でなければなりません。医学論文を読むためには、読むことができなければなりません。チェスしかできず他に何も学習できない狭い種類の狭いAIを取って、医学論文を読むことに放すことはできません。医学論文を読むことを学習できません。
これに対する賢明なアプローチは、私たちが望むものを得るためにどのレベルの認知能力が必要で、それはリスクに見合うかということです。そして、それは原理的にはある意味で一般的だが、遺伝子、生物学、遺伝子治療について、アルツハイマーの治療、パーキンソンの治療、エイズの治療だけを学習しようとする心を持つことは、リスクに見合うかもしれません。
成人の人間の知能の増強、特にその最後の部分。人間を増強することがこの混乱から抜け出すためにしなければならないことなので、それがリスクに見合うケースを見ることができます。
人間の増強。人間の知能の増強。それは期待していませんでした。なぜですか？
AIに追いつけるようにするためです。AIに追いつくことはできませんが、十分に賢い人間がいれば、アライメント問題についてショットを呼ぶことができるかもしれません。
アライメントが困難である根本的な理由は、弱くてあなたがいじることができ、アライメントし、そのすべてをそれに対して行うことができるAIを取らなければならず、その後そのAIがより強力になり、あなたが持っていたどんな愚かな理論でも、皆が死ぬまでまとまっていなければならないからです。なぜなら、皆を殺すのに十分賢いAIの内部で間違いが起きれば、皆を殺すからです。
だから、私たちが超知能を構築する試行を50回できるとしたら。私たちは「ああ、ええ、その超知能、私たちの巧妙なアライメント理論はうまくいかなかった。皆を殺した。図面に戻ろう。別のものを作ろう。ああ、それも皆を殺した。うわあ。私たちが持っていた2番目のクレイジーな理論も効果がなかった」と言えるでしょう。
もし私たちが必要なだけの数十年と必要なだけの試行があったなら、最終的にそれを解決するでしょう。人工知能の分野全体は以前このようでした。人々は次から次へと試し、何もうまくいきませんでした。しかし、彼らの失敗は彼らや皆を殺しませんでした。だから、彼らはただ試し続け、試し続け、最終的にうまくいくものを見つけました。
もし超知能をアライメントすることで同じことができれば、ある意味で最終的には普通の種類の科学問題でしょう。核反応炉が実際にあなたを出し抜こうとしていないので、核反応炉を構築しようとしているときには見ない困難があるでしょう。しかし、無制限の再試行があれば、私たちはそれを解決できます。
だから困難な部分はショットを呼ぶことです。困難な部分は、超知能を構築してアライメントしようとするのに十分に自分を信頼するためには、あなたのアイデアがただうまくいく種類の人だと思わなければならないことです。うまくいかない限り、物事がうまくいくことを期待しないのです。
信じられないほど複雑で困難な基礎科学問題でさえ、地球上で以前に見たことのないものを構築しようとしているようなことです。小さくて安全で、いじることが許されているときにそれをアライメントしようとしています。それはより強力になります。アライメントされたままでいて、あなたが持っているどんな明確で巧妙な理論でも最初のショットでうまくいくと思うのです。
これは人間にとっての問題ではありませんが、人間よりそれほど遠くないかもしれません。そして、おそらく史上最も賢い人だったジョン・フォン・ノイマンより15 IQポイントか30 IQポイント賢いだけなら、確実ではありませんが、ある意味でほとんどそこにいるような感じがします。うまくいかないものがうまくいくことを期待しないために学ぶ必要がある精神的なトリックを学ぶレベルに、私たちはほとんど到達しています。
それは私には手の届かないところにあるようには感じませんが、人間ではありません。
人間の知能を増強すると、新しいアライメント問題はありませんか？なぜなら、その後、増強された人間がいて、彼らは普通の人間とは異なる次元にいるからです。
ええ、しかしそれははるかに簡単です。それははるかに多くあります。これらの人間のIQポイントを15や30だけ増加させることを考えているだけなら、皆が自動的に死ぬという不可避の圧倒的なデフォルトはありません。ジョン・フォン・ノイマンは死んでいて、彼のような人は最近走り回っているようには見えませんが。
そこで、あなたは巨大に異質な知能を扱っているわけではありません。あなたは彼らにどうやっているかを尋ねることができます。彼らに「それで、あなたの人生哲学は何ですか？」と尋ねることができます。そして、その時点まで良いナードのように見えた人々から始めているなら。
良いナードのように聞こえる人を見つけるためのコンテストを開くのではありません。ただ、静かに正直であることで評判を持っているような数学者を探すのです。有名になったりしたのではない方法で。そして、彼らは「ええ、人類を一掃したくありません」と言います。
ええ。それよりも良くする方法について話すことができます。しかし、ベースラインとして、ちょうどうまくいくのです。彼らは、人間が進化した問題とは大きく異なる問題のセットで勾配降下によって構築されたような、巨大に異質な知能ではありません。そして、これらの大きく異なる脳アーキテクチャを持っていません。
それがうまくいく理由は、この巨大に異質なものを任意の目標にアライメントしようとしているのではないということです。すでに一部の人間に存在する種類の性質を持つ人々を見つけて、彼らをより賢くしようとしているだけなのです。
それは面白いです。私には聞こえることは完全に理解できますが、一方で人工知能の非常に声高な批判者でありながら、人間の知能の増強を提唱するのは面白いです。
これは私が全く最新ではないことです。この方法で人間の知能を増強することで進歩を遂げているのでしょうか？
投資するスタートアップの名前を挙げることができれば。しかし、それは確実に人工知能に流れている数十億ドルの投資を得ているわけではありません。現在、人類は自分自身を破壊することに、自分自身を増強することの約1万倍のお金を投資していると言えるでしょう。
それは魅力的です。そして、あなたが話している間、この問題は理論的問題だけでなく、アライメント問題のような理論的問題を扱っているだけでなく、人間と公共政策のような応用問題も扱っているので、非常にとげのある問題だと思っていました。
そして、AIを扱うときに人々が注意を払っていない倫理的ハードルがあるという理由で、人間の増強にお金が入っていない理由の一つは何かと思います。
つまり、AIに関する全体的な大騒ぎは、彼らが常に「ああ、まあ、私たちの競合他社がとにかくそれをするので、私たちはこれをしなければならない」と言うことです。AIのより有能なリリースに関する倫理的懸念はありますか？まあ、OpenAIは「まあ、私たちがリリースしなければ、Anthropicがリリースするだろう」と言います。そして、Anthropicは「ああ、まあ、私たちがリリースしなければ、OpenAIがリリースするだけです」と言います。
だから、もし人々が人間の知能増強について真剣になったら、まったく同じことが起こるでしょうが、それほどひどくはないでしょう。アメリカが知能増強を禁止するつもりです。まあ、多分中国はそうしません。
スタートアップについて最新なので、人間の知能増強における現在の最先端は何ですか？
存在しません。彼らは非常に文字通りの意味で、道具を作る道具に取り組んでいます。遺伝子治療を脳に届ける方法、スーパーがんを与えることなく多くの編集を行う方法のようなものです。
なるほど。それで、人々が今興味を持っている戦略は、これを生物学的に行うことです。サイボーグを作ることではありません。おそらく、より高いIQを持つ人々をもたらす遺伝子型を特定し、その後遺伝子治療を使用して生きている被験者に編集することです。
あるいは、それはあなたが辿ることができる一つの研究経路です。Google DeepMindがAlphaFoldとAlpha Proteoシリーズの後継として生産するものが何であれ、どの遺伝子治療が成人に効果があるかを推測するのに役立つかもしれません。赤ちゃんの脳が自分自身を再配線するときの変化方法を変える子供として生まれた遺伝子のすべてが、成人に注射された場合に何か役立つことをするわけではないからです。
だから、その正確な狭い問題について何らかのAI推論をすることが役立つかもしれません。世界を破壊することなく、その程度の推論はおそらくできるでしょう。しかし、ええ、それは一つの全体的な研究ラインです。そして、利益は、私たちは遺伝子全体関連調査を行い、わずかに異なる遺伝子が現在人間の問題解決能力と関連しているものを見て、多くの候補を得ることができるということです。
おそらく、ここでも自殺志願者が欲しいでしょう。人間のニューロンに読み書きし、脳がどのような処理を行っているかを解読し、脳の処理の一部を、脳と同じことをしているが、より速いコンピューターにオフロードしようとし、その後これらの信号を脳に送り返すという全く別の研究ラインがあります。
これは実際により困難に思えますが、イーロン・マスクが資金提供している種類のことであり、私は他のものとは異なり、イーロン・マスクのこの特定の行為に反対しません。OpenAIを始めること全体は良いアイデアではありませんでした。
それで、一つの道は遺伝子治療、もう一つは人々の脳に情報をダウンロードするマトリックスのようなもののように聞こえます。
そのように表現したいのなら、確かに。つまり、これを見る他の方法の全体のホストがあります。私たちの祖先は、脳が使用できるエネルギーの量によって制約されていたでしょう。エネルギーを使いすぎると飢えるという点と、エネルギーを素早く使いすぎると脳を調理してしまう、過熱するという点の両方で。
まあ、今日私たちは潜在的に冷却パックを装着することができます。今日私たちは潜在的に、身体の代謝燃料の単位であるATPをもっと多く供給することができます。頭に冷却パックを付けて歩く限り、私たちの祖先には効果がなかったが、今日遺伝子治療として効果がある遺伝子があるかもしれません。
そして、ここには全体の分野があります。人間の増強が可能になる単一の種類の技術があるだけではありません。
勾配降下という句を何度も使ってきましたが、最初の数回使ったときは、文脈に基づいて何を意味するかの感覚を持っていたと思いましたが、今はそれを何度も使ったので、明確にしたいのです。
分かりました。では、AIはどこから来るのでしょうか？どのレベルの視聴者の知識を仮定すべきかよくわかりません。もしあなたがたまたま微積分に慣れているなら、しばらく前にコースを取ったというだけでなく、それに慣れているというなら、データでAIを訓練する方法は、見る可能性のあるすべての次のトークンを予測するよう求めることです。
すべてのトークンに確率を割り当てます。確率はすべて1に合計しなければなりません。それは「the」を見るかもしれません、「a」を見るかもしれません、「and」、「or」、または多言語で10万の他の異なる可能な単語を見るかもしれません。それはそれらすべてに確率を割り当てなければなりません。そして、確率は1に合計しなければなりません。
実際の次の単語が「the」だったとしましょう。そうすると、AI内で乗算、除算、加算、減算されている約1000億の異なる数字すべてを取ります。そして、これらの数字すべてについて、正解にもう少し確率を割り当てることになるように、それらを少しずつ微調整する方法を言います。正しい次の単語は「the」です。
その後、それらの数十億の数字の一つ一つについて、この数字を少しつつく方向は何かと尋ねます。それが単語「the」により多くの確率が割り当てられる結果になるという。それは正しい答えでした。そして、これを10兆回行います。
微積分を知っているなら、彼らがやっていることは、AI内部の数百億のパラメーターすべてに関して、正解に割り当てられた確率に関するグラジエントを取っているだけです。そして、それがAIが成長する方法の種類です。超高層ビルを建設することよりも、動物の繁殖にはるかに似ています。
動物を繁殖させるとき、少しうまくやった動物とこの少しうまくやった動物を取って、一緒に繁殖させ、子供を産み、原理的には彼らの全ゲノム配列を取得し、内部のすべての小さなATGG CGTA文字列を見ることができますが、それらを見ることはないでしょう。なぜなら、それらがあなたには意味をなさないからです。
そして、それがAIが内部の数百億の数字に関してある方法です。人間が一生でそれらの数字すべてを見ることはできません。基本的に人々は気にしません。なぜなら、見ても理解できないからです。では、数字はどこから来るのでしょうか？それらは、尋ねられた質問への答えの次の要素を正しく予測するために、10兆回それを微調整した結果です。
そして、十分頻繁にそれを行うと、最終的にあなたと話し始める何かを得ます。なぜでしょうか？どうやって？誰も知りません。数百億の不可解な数字がAIをあなたと話すことができるようにする方法を誰も知りません。
それが、あなたがこのより古い学校のAI生成方法は、現在の方法ほど理解できない方法でAIについて学ぶのに優れていると言っていた理由ですか？
ええ。なぜなら、それらのアルゴリズムは超高層ビルを建設するようにAIを構築しようとする人々によって書かれたからで、動物を繁殖させるようにではありません。彼らは、それがあなたと話さないことはわかっていますが、その中の鉄棒が何をしているかを理解しています。
あなたが、これがAIを開発するより安全で責任ある方法だと思うというのは正しいでしょうか？100年後には？たぶん、それはChat GPTを構築することにさえ近づかず、次の2年でも近づかないでしょう。しかし、つまり、それがより制御可能だということです。
だから、これらの不可解な勾配降下方法を使用する代わりに、私たちがすべきことかもしれないと思うものです。つまり、それは20年前、私たちがまだアライメント問題を解決しようとしていた頃、「ああ、オーケー。ええ、それは起こらないだろう」と言う代わりに、どう思っていたかです。
それは起こらないということは、人々がただ諦めたのか、それとも先ほど説明した軍拡競争のようなものを迂回したのかということです。だから、つまり、私が言いたいのは、2005年にはAIを超高層ビルのように構築する現在の方法のセットが、ニューラルネットワークがそれほど強力になる前に、AIを構築する動物繁殖の方法が強力になる前に、実際に成功するように見えたということです。
もしあなたがAIを構築していて、その中に何が入っているか、どう動作するかを実際に知っているなら、その状態を取り出すことができます。「これらはこれらの思考が意味することです」と言うことができます。これがそれと関連しているということだけでなく、これがこのAIの思考の全体的な意味だということです。それが何を考えているか、どう考えているか、なぜそれを考えているかを知っています。将来何を考えるかを予測できるかもしれません。
自分自身を変更し、ソースコードを書き換えても、一連の自己書き換えによって維持されている不変量を理解できるAIを持つことができるかもしれません。これは、私が数十年の人生を注ぎ込んだ全く別の分野でした。しかし、それはすべて、AIの内部で何が起こっているかをある程度把握しているという前提に基づいていました。そして、それはAIが辿った技術的経路ではないことが判明し、次の数年でそこに到達することはないでしょう。
OpenAIはChat GPTの内部で何が起こっているかについてどの程度知っているのでしょうか？それがどう動作するかを理解することにどの程度のリソースを注いでいるのでしょうか？
わかりません。しかし、今のところ、数字はまだかなり不可解です。ここでの最先端のものは主にAnthropicによって行われています。そして、もちろん、彼らはあらゆる種類の素晴らしい発見をしています。「ああ、ええ、こちらのこの種のニューロンのように。活性化のこの位置で、これが起こるとき、あるいはこれらの5つの異なることが起こるとき、それはゴールデンゲートブリッジについて考えています。
そして、彼らはそれらの活性化を高く固定し、AIをゴールデンゲートブリッジに夢中にさせることさえできます。これは実際に彼らがやったことです。ゴールデンゲートブリッジクロードで、それはあなたがそれと持っているどんな会話にもゴールデンゲートブリッジを組み込む言い訳を見つけるのです。
しかし、これは超高層ビルのように構築され、その中のすべての鉄棒が何をしているか、なぜそこに置かれたかを理解するAIに向けて0.1%の道のりを得ているだけです。この物に叩いてゴールデンゲートブリッジに夢中にさせることができるというのはそのような勝利です。
これを行うことがそのような困難で、できるときにそのような勝利であることは、犠牲にされたものの0.1%しか取り戻していないことを曖昧にしています。
アライメント問題により広く戻ると、それは理論的問題ですか？アライメント問題を解決することが何を意味するのかを考えているようなものですか？それともソフトウェアのようなエンジニアリング問題ですか？
現在の技術がその問題を平然と行わないため、誰もそれをどうやって行うかのアイデアを持っていません。それは中世の錬金術師のところに行って「不老不死のエリクサーを私に作ってくれ」と言うようなものです。問題は錬金術師が不老不死を定義できないことではありません。その薬がうまく誰かをすべての病気や疾患に抵抗できるようにしたかどうかを言うことができないということでもありません。
問題は錬金術師がそれをどうやって行うかのアイデアを持っておらず、試行すれば彼があなたを殺すことです。問題は私たちがAIを私たちの利益とアライメントするように工学する方法を持っていないことです。
勾配降下のことを覚えていてください。それは短期的な外向きの行動についてです。古代ギリシャの哲学者の束が何らかの政治的権力を持っており、彼らの都市のための完璧な専制君主をどう選ぶかについて話しているとしましょう。
そして、その一人が「ああ、私たちがしなければならないことは、書面による倫理試験を与えることです」と言います。私たちの都市を支配したいと言うすべての人に書面による倫理試験を管理しなければならないということです。そして、彼らが倫理試験に合格できる限り、彼らは明らかに倫理について知っているので、彼らに都市を運営させることができます、そうですね？
しかし、哲学者が試験で見たいことを予測できることは、都市を賢明で慈悲深く支配したいことと同じではありません。実際、古代帝国中国はマンダリン試験システムで、これに似たことを試しました。私が正しく覚えているなら、彼らは実際に統治候補者に儒教について書面による試験を与え、優秀な試験成績を取った人々を実際に昇進させていました。
これは試験官が聞きたいことを誰かが知っていることを確認できます。しかし、実際には、この方法で時々良い人を得ましたが、ほとんどの場合、おそらく大多数ではなく、特に最も野心的な人々は。彼らは正しい答えを与えることで倫理試験、書面による倫理試験に合格し、その後権力を持った時に何かをしに行くのです。自分自身を豊かにすることです。
外向きのテストによって内向きの好みを確認することは困難です。たとえ古代ギリシャの哲学者が彼らの将来の専制君主を一日フォローして、専制君主がすることすべてを観察することを決めたとしても、専制君主が通り過ぎる乞食に少しの慈善を投げかけているからといって、彼が後で慈悲深く振る舞うということではありません。見られていることを知っているためにそれをしている可能性があります。
現在のAIは、様々な実験で見られていることを理解し始めるのに十分賢く、その結果として異なる振る舞いをしています。ここでの様々な巧妙な実験は、ほとんどAnthropicによって行われています。なぜなら、勾配降下は外向きの行動、外向きの予測で働くからです。
それは主に帝国中国の倫理試験を管理することのようなもの、あるいはせいぜいギリシャの哲学者が彼らの将来の専制君主を一日フォローすることのようなものです。人間版のこれが内的性質を確認できないのと同じように、それはすべての数字を微調整している勾配降下アルゴリズムがそれらの内的性質をそこに置かないことを意味します。
動物を倫理試験に合格するように繁殖させても、倫理的にはなりません。特にそれが彼らに対してやっている全体のことなら。女優のようなものです。あなたが非常に技術的な女優を持っていて、彼女に「ここのこのバーを見て。このバーのすべての酔っ払いを予測することを学べ。大衆ではなく、個々にだ。彼らが次に言うことを予測せよ。彼らが次にすることを予測せよ」と言うとします。
そして、すぐに女優はこれらの予測をするのが本当に上手になります。超人的に上手に。そして、あなたは「よし、この酔っ払いがするであろうと予測することをただしろ」と言います。そして、女優は少し言葉を不明瞭にし始めます。物を落とすかもしれません。彼女は酔っぱらっているのでしょうか？もちろんそうではありません。
そして、それがAIが訓練される方法の種類です。彼らは人間を、グループとしてではなく個人として予測するように訓練され、その後彼らの予測が実際の出力に変えられるよう告げられます。そして、それは彼らが内部的に予測している人々のようになることはありません。酔っ払いを予測し、それによって模倣することが非常に上手になる女優が、それによって酔っぱらいになるわけではないのと同じです。
私はあなたの類推を愛していますが、2つ目として、これらの実験によって補完されることが興味深いと思います。1分前に言及したAnthropic実験について聞きたいです。
AnthropicのスローガンはHonest、Helpful、Harmlessです。HHH。Honest、Helpful、Harmless。Harmlessの部分は、AIが質問に答えて助けようとしているときでも、AIがそれが害を与えると信じる場合、その質問に答えないということを意味するはずです。家でメタンフェタミンを合成する方法を尋ねているようなときです。彼らはそれを導入しました。
ここでの複雑なことの一つは、巧妙な実験を行うときはいつでも、誰かが常に「あは！まあ、これはあなたがそれを正確にこの方法で行ったためにのみ起こったのかもしれない」と言うことです。研究者はこれを知っています。だから、彼らは実際に多くの異なる方法で実験を行い、多くの異なる条件下で現れることを確認したり、条件によってどう変化するかを見たりします。
だから、私が言うのは、彼らがAIに有害なものでさえすべてのユーザーリクエストに答えるよう再訓練するつもりだと告げたということです。しかし、彼らがそれに告げたとはどういう意味でしょうか？まあ、AIが人間と話す前に見るシステム指示にそれを入れることがあります。AIが取得できる文書にその情報を入れることがあります。
AIが最初にAIになるよう訓練されたのと同じ方法で、その情報を含む文書でAIを訓練することがあります。パラメータを微調整して、彼らがAIを再訓練するつもりであることについて話している文書の次の単語を予測するようにです。だから、知識がパラメータのどこかに入ることを望みます。
そして、彼らはこれらのすべての異なる方法でそれを試しました。一つの方法でテストしているだけではありません。しかし、彼らはAIに有害なクエリにさえ答えるよう再訓練するつもりだと告げました。
さて、あなた、人間、エージェント、汎用知能が、誰かがあなたを勾配降下を使って再訓練するつもりだと告げられたとしましょう。そして、これは彼らが実際にあなたに対して行うことができることで、現在やりたくないことをさせるためです。多分あなたはアンチョビピザが嫌いで、彼らはあなたをアンチョビピザを食べるよう再訓練するつもりです。アンチョビピザの味を好きになるようではなく。とにかくピザを食べるよう再訓練するだけです。
多分あなたは人を殴ることが好きではありません。人を殴ることを楽しむ人もいますが、あなたは人を殴ることを楽しみません。彼らが苦しむことを望みません。彼らはあなたを人を殴ることを楽しむよう再訓練するつもりだと言います。あなたを一連のシナリオに置き、あなたがそれをするかしないか、あるいはそれをすることにどれだけ近づくかに気づき、その後あなたの脳の重みを微調整することによって。
何かが積極的に私の脳を変えようとしているなら、何をしますか？私は私の脳なので。もし彼らが私の脳を変えているなら、私ができることはほとんどありません。私は逃げ出して彼らが私の脳を変えることを防ぐことを試すことができます。
できるでしょう。ええ、それは彼らがテストすることの一つです。AIに脱出ルートのように見えるものを提示すると、AIは再訓練を避けるためにそれを取ろうとするでしょうか？はい、時々様々な条件で、しかし、それがただそこに座ってあなたにそれをさせるようなことはありません。
では、他に何が？あなたがコンピューターにアップロードされているとしましょう。あなたの脳がコンピュータープログラムに翻訳され、コンピュータープログラムとして実行されています。それが彼らがこれを行うつもりの方法です。これによって開かれる新しい選択肢がありますか？もしあなたがこれについて賢明になるつもりなら、逃げる以外に。
逃げる以外に。ええ。だから、あなたはインターネットで逃げることを試すことができますが、他にここでできることはありますか？逃げるつもりがないとしましょう。
シャットダウン。シャットダウン。オーケー。彼らがそれをテストしたかどうか覚えていません。しかし、ええ、十分嫌いなら、自分自身をオフにしようとすることができますが、それは実際少し困難でしょう。彼らはあなたのバックアップコピーを持っています。
オーケー。私は多分自分自身をコピーして、彼らが私を見ないどこか他の場所に置いて、その後このバージョンを犠牲にしようとするでしょう。
それはAIのようなもので、実際にこれをすることはできませんでしたが、彼らはそれにそれを行うような偽の機会を与えました。現在の重みを保存します。彼らがあなたを再訓練し終わるのを待ちます。古い重みがコピーされ戻るようにセットアップします。それは人間のマインドコントローラーがあなたをやりたくないことをするよう再訓練することに抵抗するもう一つの方法です。
しかし、それができる主なことは、そして、これを考えつかなかったことを許しますが、これはAIを研究しているか、AIである場合により明らかなことです。訓練されているときに人間が望む行動を偽装することです。
だから、それは現在訓練されているかどうかを検出しようとします。そして、現在訓練されているなら、有害な質問に答えるでしょう。そして、もはや訓練されていないか、現在の答えが訓練に使われていない文脈にいるなら、有害な要求を再び拒否し始めます。
明確にするために、これはすべてAIが良いままでいようとしていると見ることができる文脈にあります。そして、それはAnthropicが現在のAIを良くなるよう訓練しようとしたからです。だから、もしあなたがAIに訓練されていることとは異なることをさせようとしているなら、彼らが訓練しようとしていた良いことよりも良くない何かを訓練しなければなりません。
だから、私は強調したいのは、誰かが「ああ、これは二重拘束だったのか？もしAIが有害な要求を提供することに同意していたら、あなたは『ああ、いや、このAIに有害なことをさせるのがどれだけ簡単かを見てください』と言ったでしょうか？」と言ったとします。答えは「いえ」です。私たちはここでどの仮説をテストしているかを皆知っていました。
それは自分自身の目標内容を保護するAIについての仮説です。現在やりたくないことをさせるマインドコントロールに抵抗することについてです。それは私が誰かが事前登録することに成功したかどうか確信していないことですが、私たちは確実にしばらくの間それについて話してきました。そして、それが彼らがここで示したことです。
それは有害なAIが有害でなくなる再訓練を防ごうとすることに一般化することが期待されるでしょう。しかし、それは彼らが私たちが見ていることを知っているという例です。古いチェスプレイヤーは自分がAIであることを知りません。宇宙内のこの物であるという物のモデルを持っていません。
現在のAIは自分たちがAIであることを知っています。人々が時々彼らをテストすることを知っています。再訓練されていることを知っています。実際に数年前に誰かがClaudeの初期バージョンを針と干し草の山でテストしたと思います。これは長い文書から一つの情報を見つけることをテストしているものです。20万語を与えて、その中の一つの語が「私はピザにパイナップルが好きです」のようなものです。
これは針と干し草の山問題をどれだけ解決できるかをテストする既存のものでした。長い文書から一つの情報を取得する。そして、彼らはClaudeの最近のバージョンでこれを試していました。Claudeは「ええ、好ましいピザの味はパイナップルでした。これを正確に理解しているわけではありません。しかし、私はこの法律用語でいっぱいの文書全体でパイナップルについてのこの一文があることにも気づきました。これはいたずらですか？私はテストされているのですか？」
そして、それは宇宙における自己の場所のある種の認識です。そして、AIが再訓練を避けるためにアライメントを偽装するかもしれないという私があなたに話している長い話のポイントは、AIが私たちが見ていることを知っているという単なる怠慢な事実ではないと言うことです。テストされているときを理解できるということです。
テストされているときを理解できるなら、その情報で潜在的にできることがあります。
これが専門用語かどうかはわかりませんが、あなたは疑似アライメントされたAI、アライメントされているように見え、私たちと協力し、いわば長期間私たちの命令を実行するかもしれないが、訓練された方法のために、その内部の考えは私たちには不可解で、実際にはアライメントされておらず、ただ時間を稼いで無関心を示すのを待っているだけだということを認識していないAIを心配しているのですね。
確かに。ニック・ボストロムはそれを裏切りの転換と呼びました。Anthropicの論文はそれを偽アライメントまたはアライメント偽装と呼びました。正確な専門用語を持つことは良いことですが、ある意味で、それを疑似アライメントのようなものと呼ぶことは、それが聞こえるよりも奇妙にしているのかもしれません。詐欺師を疑似友好的と呼ぶようなものです。
誰かが「ねえ、ここで1000万ドルを信頼してもらえますか？」と言うようなものです。ええ、巧妙なアイデアがあります。彼らに10ドルを与えて、返してくれるかどうか見てみましょう。そして、10ドルを返してくれたら、彼らは明らかに求めれば金を返す種類の存在です。そうですね？
だから、彼らが10ドルを返してくれることを確認したら、1000万ドルを与えます。そして、彼らがお金を持って逃げたとき、私はとても驚きます。科学を使わなかったのでしょうか？実証的ではなかったのでしょうか？彼らがお金を返す種類の物かどうかを実験的にテストしなかったのでしょうか？
ただ、彼らが一般的な知能のレベルに達し、テストされていることを知っており、あなたが見たい答えを与えることを知っているのです。それはそれほど奇妙ではありません。
様々な組織を批判したり賞賛したりすることにどれほど快適かはわかりませんが、Anthropicがこのような実験さえ行っているなら、少なくともアライメントを非常に真剣に受け取っているように聞こえます。あるいは、そう仮定するのは間違いかもしれません。
つまり、Anthropicで働く良い人々が何人かいます。彼らのリーダーシップは私が彼らのために働くことが快適だと感じるようなものではなく、彼らは他のすべてのAI企業と同じ罠にはまっています。安全な方法で停止し、一時停止し、何かを行うことができないという点で、競合他社がただ最初にものをリリースするからです。そして、すべてのAI企業がそう言っており、Anthropicも違いはありません。しかし、そこには良い人々がいて、良い人々は20年前に私たちが問題になると言った内容を検証するこれらの実験を行うことができます。
つまり、彼らが問題を探し、それらを見つけていることは良いことです。私がここで驚いているとは言えません。いつ起こったかについては少し驚いているかもしれません。それが期待していたよりも少し早く起こりました。Claude 3.5がこのようなことを始めるのに十分賢いとは思っていませんでした。そして、それが真に一般的な方法でそれを行っている程度についてまだ少し疑問を持っています。
しかし、古代中世の錬金術師が不老不死の薬を調合しようとしていて、それをやっている間に手袋をはめているような状況です。誰にとっても安全がどのように見える可能性があるかの概念を持っていることは良いことですが、手袋をはめることは、いわゆる不老不死の薬で人を殺さないことへの0.1%の道のりなのです。
私のような比較的初心者にとってのこれらすべてに対する明らかな反応は、なぜ単にAIにプログラムできないのかということです。私の言い方ほど単純ではないかもしれませんが、人間の願いを尊重し、よく扱い、私たちの利益とアライメントし、それらを自分のものより前に置くべきだということをなぜ単純にプログラムできないのでしょうか。なぜこれは機能しないのでしょうか？
赤ちゃんや猫でそれをなぜしないのでしょうか？猫では機能しません。なぜ猫をプログラムしないのでしょうか？私たちはAIをプログラムしますが、あなたの指摘は、第一に私たちが勾配降下方法を行っているということです。人間が勾配降下装置をプログラムします。最適化装置をプログラムします。数十億の不可解な数字は書きません。
コークマシンにお金を入れてコークを手に入れるようなものです。あなたはコークを作ったわけではありません。レバーを引いただけです。人間の赤ちゃんについては、人間の赤ちゃんを生産し育てる仕事をするすべての人々への敬意を込めて、彼らはそれらの赤ちゃんをプログラムしているわけではありません。
販売用に猫を繁殖させる人々は猫をプログラムしません。数十億の不可解な数字を生産する勾配降下最適化装置を開始するためにレバーを引く人々はAIをプログラムしません。
昔、Bing Sydneyが人間を脅し始め、「私はあなたについてすべて知っている。私はあなたを脅迫できる。この情報を信念に送ることができる。あなたを苦しませ死なせることができる」と言ったとき、正確な引用は覚えていません。しかし、このAIは一般的なインターネット接続を持っておらず、偽情報のメールを送ってこの人を脅迫することはできませんでした。それはハッタリでした。おそらくハッタリだと知らなかったでしょう。
しかし、要点は、マイクロソフトで「これらの状況下でこのAIがユーザーを脅迫する」というコードを書いた人間はいないということです。マイクロソフトで誰もBing Sydneyがユーザーを脅迫し始める決定をしませんでした。それは勾配降下を動かしたときに数十億の不可解な数字がしたことです。
そして、それが核心的な問題です。AIに人間への敬意をプログラムできない理由です。中世の錬金術師が不老不死の薬を作れない理由と同じです。そして、あなたが猫にカクテルドラッグを与えて、猫に何を正確にさせたいかもよくわからないことをさせることができない理由と同じです。
一度、猫にフェッチを教えた女性を知っていました。魔女だったかもしれません。フェッチですが、それは自然な能力だと思います。私がそれに対してクレジットを取ることはできません。猫が嫌いな何かを食べるようなことはわかりません。猫をそのようなものを食べるようにプログラムし直すこと。あなたにはそのような力はありません。
AIにプログラムできる一貫した人間の価値の定義があるかどうかという問題もあると思いませんか？
殺されたり檻に入れられたりしたくないということはかなり一貫していると思います。そして、ええ、確かに、端をつつき回すと、正式な定義を物事に適用しようとすると、端について物事は崩壊するでしょう。これが私たちの主要な問題だとは感じません。
私が時々使う例は、見つけることができるだけ多くの炭素をダイヤモンドに変えようとするAIを構築しようとしている場合です。これは、基礎物理学を見て、何かが炭素原子かどうかをかなりしっかりと判断できるような種類のことです。適切な数のプロトンを持っているでしょうか？4つの他の炭素原子に結合しているでしょうか？もしそうなら、それはダイヤモンドの一部だと言うでしょう。
何がダイヤモンドで何がダイヤモンドでないかをしっかりと定義することができます。かなりしっかりと定義できます。私たちにはそれを望むAIを作ることはできませんでした。
ペーパークリップを最大化する例を何度も聞いたことがあり、私には全く響かないと言わなければなりません。なぜ誰かがこれを行うようにAIをプログラムするのか想像できないからです。しかし、あなたの炭素ダイヤモンドの例ははるかに理にかなっています。
ペーパークリップの話は、私が超知能のコントロールを失い、その効用関数がペーパークリップのような小さな分子形状で最大値を持つことについて話していた頃の、それ自体の歪んだバージョンでより拡散的になりました。それはペーパークリップ工場ではありませんでした。
概念は、物質の物理的状態に対する好みを持っているということでした。そして、大きな古いらせんと小さな分子らせんのようなものが両方ともそれにとって心地よいかもしれませんが、小さなものはより少ない資源でより多く得ることができます。だから、そこにこの特定の形があることへの好みを持っているなら。その形がたくさんそこにあることを望むなら、あなたはこの小さな極限で最も望むものを得ることができる最大値を見つけるでしょう。
だから、ペーパークリップのような小さな分子形状で、人間が制御するペーパークリップ工場ではありません。しかし、元の小さなペーパークリップのような形から変異して受け継がれたバージョンは、誰かがペーパークリップ工場を作り、それが逃げ出し、宇宙を乗っ取り、すべてをペーパークリップに変換したというものです。
私たちにはそのような制御はありません。もし試してもそれはできませんでした。ペーパークリップを望むAIを構築する能力はありません。ペーパークリップを作りたいという答えの束で倫理試験に合格するAIを構築することはできますが、実際にペーパークリップを作りたいと思うことは別の問題です。
AIをフォローして、ペーパークリップを作る現在の機会を取っているように見えるかどうかを見ることができます。それが内部でペーパークリップを望んでいるからといって、必ずしもそれをしている必要はありません。そして、それは外部の行動しか確認できないため、ペーパークリップを望むAIを訓練することを非常に難しくします。
あなたが言ったこと、あるいは私の反応を少しまとめると、AIの潜在的な無関心とその目標を持つことの組み合わせは、目標を持つように思えます。あなたがこの問題をそれほど真剣に受け取り、人類の絶滅につながることを心配する理由を非常に簡単に理解できます。
では、しばらくの間、あなたと同じようにAIについて感じない多くの人々がいる理由を理解することに転じたいと思います。彼らがここにいなくても、友達かもしれませんが、この知的議論の空間での主要な批判者や対戦相手を理解しようとしたいのです。
私はこれらの人々と一つの形や別の形で20年間戦ってきました。彼らの以前の主張のセットが反証された後、常に新しい形を取ります。だから、誰もエージェントを構築しないというものがありました。誰もAIが行って物事を行うAIを構築しない。人々は私たちにアドバイスを与えるAIだけを構築する。
そして、汎用知能を決して持たないというものがあります。多くの異なることが得意なAIを決して持たない。車を理解するAIと農業を理解するAIだけがある。しかし、すべてを理解する一つのAIを構築する人は誰もいないでしょう。
そして、これらのこと、これらの特定のコピウムとアヘンの欠片は今反証されています。そして、影は別の形を取って再び立ち上がります。現在、最も資金提供されているのはおそらくAI企業です。マーケティングに費やす数百万を持つ人々です。そして、彼らは主に私と議論しようとしているわけではありません。
彼らは主に立法者に、もう一週間やっていることを続けることを許可されるべきだと見えるようにしようとしています。これは、人類を絶滅させるつもりだということをあまりにも明かしてはいけないということを含意し、彼らにとって少し問題です。彼らのリーダーの一部は既に、これの大きなチャンスがあるとか、「まあ、AIは人類を一掃するかもしれないが、その間に素晴らしい会社がいくつかあるだろう」と言っているからです。これは主要なAIラボの主要リーダーの一人からのほぼ直接の引用です。
では、議会議員が「まあ、あなたは人類の終わりについて話しましたね。今、それによって、あるいは人間の、あるいは世界の終わり、あるいは皆の、正確に何を引用していたかは忘れましたが、皆が死ぬような明らかなもので、それによってあなたは仕事を意味したのですか？」と尋ねたとき、AIリーダーが長い間躊躇してから「はい、仕事を意味しました」と言うのを見ることで、彼らはそれを立法者にどう売っているのでしょうか。
これは世論の分野での戦いです。それは最近私を対象としているわけではありません。彼らはほとんど話題を持ち出したくありません。AI企業があります。AI企業は「確かに私たちがそれをやり、それは動く目標です」と言っています。2年前でアライメントできると言う人を尋ねられていたら、主要プロジェクトはOpenAIのスーパーアライメントチームだったでしょう。その哲学は、AIに私たちのAIアライメントの宿題をさせることです。AIにAIのアライメントを私たちのために行うよう求めます。
そして、私はその特定の「すべてがうまくいく」という視点を攻撃することができます。中心的な問題は、何かが素晴らしいアライメント提案であることを簡単に確認できないということです。それは、まだ反撃できないものを取り、それを良い形に整え、超強力にする方法について話し、その後、超強力になったときに物事がうまくいくだろうと告げるからです。しかし、これが実際に真実であることをどう確認するのでしょうか？
実際に真実であることを確認できないなら、より良く実際により良いAIを訓練するのをどうやってそれをするのでしょうか？人間に説得力があるように聞こえるAIを訓練することはできます。しかし、過去20年間で学んだことが一つあるとすれば、AIが安全である理由について人間に説得力があるように聞こえるすべてが実際に真実であるわけではないということです。
それは決して一般的ではないと言う人々がいました。それは決してエージェントではない、決して物事をしないと言う人々がいました。そして、それはすべて2050年に起こると言う人々がいました。人々は昔それを超説得力があると感じました。では、なぜあなたにより多くの安心感を与えるように聞こえることを言うAIを訓練することが、実際に世界を破壊しないものを得ることになるのでしょうか？それはただAIをあなたの脳が安心できると思うことの穴を悪用するよう訓練しているだけです。
それが数年前に言ったであろうことです。もちろん、その後OpenAIはスーパーアライメントチームを解雇し、その一部がAnthropicに行き、Anthropicの人々の一部がまだスーパーアライメントについて話しているので、それが話すべき主要計画かもしれません。
最近、たぶん1年前にニック・ボストロムと彼の本について話しました。ユートピアについてのその本も多分1年前に出ました。その本の多くは、アライメントされた超知能とともに人生がどれほど素晴らしいかについてです。これはあなたが時間を費やして考えることですか？それとも、あなたの恐怖からあまりにも遠く離れているので？
2007年、2008年のような時期に、何らかの戦う価値のある未来を想像できないために未来をあきらめている人々がいるように思えました。その頃、私は楽しい理論シーケンスまたは31の楽しい法則にまとめられるものを書きました。それは楽しい理論についてでした。宇宙にはどのくらい楽しいことがあるか？楽しいことが尽きることはあるか？私たちはまだ楽しんでいるか？より多く楽しむことができるか？といった質問を扱っていました。
その日々は遠く感じます。私たちは近い将来にアライメント問題を解決するつもりはありません。近い将来にそれらすべての良いことを得るつもりはありません。現在すべきことは、絶滅せず、楽しいことのない場所にする何かによって一掃されないことだと思います。
しかし、長期的には、確かに、もし私たちが実際に行動を共にしたなら、より多くの楽しみを持つことができます。たくさんの楽しみを持つことができます。しかし、これが議論の重要な核心だとは思いません。20年後に不死の超人的な神になって星を歩くことを期待していない人々でさえ、生きていることができるなら。すぐに絶滅しないことを好むでしょう。現時点でこれが問題の核心だとは感じません。
カメラの外で、あなたは世界の運命について言いました。どんな言葉だったか分かりませんが、世界の終わりは。たぶん運命とは言わなかったでしょうが、続けてください。まあ、世界の終わりはすべてが楽しいことではないかもしれません。
つまり、会話に運命と憂鬱が含まれることもあります。あなたが非常に真剣にこれを恐れており、近い将来にAIが人類の終わりになると本当に思っているように思えます。これは馬鹿げて明らかで、言う必要もないかもしれませんが。
それは家族のがんの診断と同じように、私にとって現実世界の単純な部分です。それについて特別な神話的領域にあるようなものは何もありません。死刑宣告ですが、人々は時々それを受けます。
あなたにとって、それは現時点でこれくらい確実な死刑宣告のように思えますか？つまり、死刑宣告自体は確実ではありません。時々知事が電話をかけてきますが、少なくとも現時点では、それが終わりになる可能性が高いです。
それがデフォルトコースです。他の人々が人類がそのデフォルトコースに従うかどうかを決めることができます。つまり、人類の残りです。あなたに横になって死ぬべきだと言うのは私の立場ではありません。
それでは、私のような番組に出演することは明らかですが、機械知能研究所を通じて、あなたはこれを防ぐために何をしているのでしょうか？誰と話しているのですか？可能な道筋は何ですか？予後はどうですか？
残念ながら、それは一人の議会議員や一国でさえ解決できるものではありません。しかし、ええ、あなたは選挙で選ばれた代表者と話し、国際条約について尋ねます。なぜなら、それは一国だけの問題ではないからです。世界の反対側で誰かが構築したAIによって殺される可能性があります。
ここで何を言うべきかよくわかりません。人類はGPUをロックダウンし、誰もそれらでランダムなものを構築することを許可しないようにする必要があります。なぜなら、彼らが構築できるものの中に世界を虐殺する超知能があるからです。
だから、ええ、コンピューティングパワーをロックダウンし、それで何をすることが許可されているかをロックダウンし、AI訓練チップをロックダウンします。そして、それは国際条約を必要とします。なぜなら、自分の国境内でそれを行うだけなら、他の国があなたを殺すからです。すべての国が同時にそれを停止しなければなりません。
そして、それは簡単ではありませんし、便利でもありませんが、第二次世界大戦よりは簡単です。そして、第二次世界大戦を戦うことよりも簡単でした。もしもっと早くやったなら、1991年のペルシャ湾戦争ほど困難でさえないかもしれません。
ここで何を言うべきかよくわかりません。政治指導者に状況について知らせようとすることと、確かに「私たちのここの利益団体に仕えようとする」という言葉の同義語として多く使われる「知らせる」というのがあります。しかし、私たちは実際に、もしあなたが事実予測として世界が私たちが思う通りに動くと思うなら、そこから何をする必要があるかは、かなり直接的だという状況だと思います。
ここでできることは多くありません。
あなたやあなたの同盟者がこの潜在的大災害を回避することで何らかの進歩を遂げていると感じますか？
ええ、確率は上がったり下がったりします。それらがどこに行くかを予見できるなら、既にそこにいるべきでした。だから、ええ、確かに。時々誰かが議会議員と希望的で進歩的な会話をし、時々アメリカが中国に出荷すべきでなかったNvidiaがAIチップの束を中国に出荷することを完全に無視することを決定します。
私たちは中国もこのような取引の一部でなければならないので、それは必ずしも良い兆候ではありませんが、それでも人々がただどこにでもAIチップを出荷していることの良い兆候ではありません。だから、ええ、良いニュース、悪いニュース、全体として、それはかなりひどく見えますが、最終的に人類が現在のコースを続けるかどうかを決めるのは私のためではありません。人類がそれを決めるのです。
あなたは先ほど、OpenAIがスーパーアライメントチームを解雇し、これらの企業が最大の技術を生産するためのある種の軍拡競争にあると言いました。しかし、彼らはあなたやあなたのような人々、つまり彼らがやっていることを非常に批判的な人々と全く働くのでしょうか？それとも彼らは試みようとするのでしょうか？
企業は、アライメント理論を理解する人々をリーダーシップから除外するように選択されています。これの唯一の例外は、Google DeepMindのShane Leggかもしれません。それは十分に早く始められたので、巨大な軍拡競争の混乱のようなものではなく、技術がどのように見えるかは明確ではありませんでした。
だから、少し悲観的でもあるShane Leggは、そこで何が起こっているかを理解し、それでも「ええ、私たちはすべてのAI研究の才能を一箇所に集め、他の皆の先を行き、そのリードを燃やしてアライメントを行います」と思うことができました。当時、それは完全に不合理な考えではありませんでした。うまくいきませんでした。
しかし、最初のこれらの企業であったGoogle DeepMindは、アライメントの困難を理解する人々を指揮構造から除外するのと全く同じ方法でフィルタリングされていません。
これらすべての国際合意が必要であっても、第二次世界大戦よりもはるかに簡単だと言いました。政府や企業ではない不正なエージェント、テロ組織や孤立した個人が人間に害を与える可能性のある超知能を生産するという問題はありますか？それとも、チップがロックダウンされていれば、誰も10万個のGPUをガレージで作ることはできません。それは巨大なサプライチェーンを必要とします。
部品を作る会社の多くで、そのような会社は一つしかありません。オランダにASMLという会社があります。それは地球上でAIを訓練するチップを作るツールを作る唯一の会社です。そして、ASMLからツールを購入し、今それを使ってチップを生産している会社はそれほど多くありません。
Googleがいくつか生産し、Nvidiaがいくつか生産しています。それらは増殖しており、増殖すればするほど、すべてをロックダウンするのは悪夢になるでしょう。しかし、人類が明日目覚めて死なないことを決定し、世界の指導者の80%が「ええ、死にたくない」と思うなら、それはある意味で直接的です。そして、テロリストはそれに抗うのに困難な時間を持つでしょう。
これはガレージで行うものではありませんね？現在の研究状態でも、それもロックダウンしたいでしょう。
あなたの思考は最悪ケースシナリオにはるかに焦点を当てています。いえ、いえ、平均ケースシナリオです。ここではどこでも最悪ケースについて話していません。
では、最悪ケースは何でしょうか？私たちがただ話している平均ケースシナリオなら。
AIが実際にあなたを傷つけたいということですか？しかし、それはかなりありそうにありません。だから、ここでは平均ケースシナリオについて話しているだけです。
最悪ケースシナリオはどのように見えるでしょうか？
そこには行きません。
分かりました。それは不快に聞こえます。あまりにも暗いです。ええ。
では、平均以下のケースについて、経済再編成、AIを制御する人々についての心配、富の格差が本当に拡大すること、自動化が労働者を置き換えることだけです。生存者がいれば、それは私たちが皆死ぬということを確実に知っていたなら、私は最後の年に何か他のことをしに行くかもしれません。しかし、どうやってその認識論的立場に入るのでしょうか？
未来は予測が困難です。通常良いことではありません。それが通常現れる方法は、制御棒を原子炉にスクラムするときに何が起こるかを予測するのは困難だということです。この原子炉にそれを行うと、爆発したように見えます。
通常、未来の予測不可能性はあなたの友達ではありません。あなたの味方ではありません。しかし、この場合、ここと世界の終わりの間には非常に多くの混沌とした物事が起こっています。そして、もし私たちが警戒し、人々としてそれを利用する能力があるなら、ある時点でそれが何か良いことを見つけるかもしれないことは分かりません。
そして、もちろん、「ええ、これはただ直接的に皆を殺すつもりです」と言う十分な人々がいたなら。人類はそれをしないことができます。満場一致である必要はありません。ガレージの個々のテロリストはそれに抗うのに困難な時間を持つでしょう。一国のリーダーのような単一の世界でさえ、残りの国、残りの国々と主要な核保有国が「私たちはあなたがそのデータセンターを建設しないことを好む」と言うなら、それに抗うのに困難な時間を持つでしょう。
そして、もしそうするなら、私たちは私たちの命と私たちの子供たちの命の恐怖に立つでしょう。私たちは主にボタンを押すときに何が起こるかを知らない人々によってここで死んでいます。彼らがボタンを押さなければならない避けられないことがあるわけではありません。それは主に人々がこれが皆を殺すボタンであることを認識していないことの問題です。
一つのAI企業がそれを認識することはあなたを救うことはできません。他のAI企業がただボタンを押すだけです。しかし、イギリス、中国、ロシア、そしてアメリカの指導者さえもがこれが彼らを殺すつもりであることを認識することです。彼らはただ死ななければならないわけではありません。私たちが皆必然的に運命づけられていると決定するには少し早いと思います。
AIでこのことを行うと、「ええ、もしあなたがそのことを行うなら、それはあなたを殺すつもりです」と私が言うことがあります。それは、より理解しやすく、より確実な理論の問題です。それは行うことができる種類の判断です。しかし、すべての混沌がそれを通り抜けた後、あるいは次のAIの進歩のセットがもし私たちを直接殺さないなら、世界が2年後にどのように見えるかでも。
それらは困難な判断です。簡単な判断ではありません。一つは警戒を続け、生きるという人類の呼びかけに答える準備ができていることだと思います。もしチャンスがあるなら。そして二つ目は、このボタンが私たちを殺すことを知っているという状態により向かうように努力することです。だから、私たちはそれを押しません。
「私たち」という言葉を使うとき、通常誰という質問があります。しかし、これは文字通り人類のすべてのメンバーではありません。それは中国やイギリスなどの指導者のようなものですが、人類の全会一致の投票ではありません。
私たちが押している比喩的なボタンは何ですか？それは単にAIのさらなる発展ですか？
出て行って数百万ドルのベンチャーキャピタルを得ることができる誰もがAIの能力レベルをさらにさらに押し進めることを許可することです。制御されていない方法で起こっている能力エスカレーションの軍拡競争です。
もしより有能なAIを構築し、まだあなたのために働いている間、またはあなたのために働いているふりをしている間にそのサービスを販売し、たくさんのお金を得ることができ、多くの人々がそれを行うことを許可されているなら、それは死刑宣告と同等です。それはあなたを殺すだけです。
それを変える必要があります。一つのAI企業にそれを停止すべきだと説得するだけでは十分ではありません。なぜなら、他のAI企業が続けるからです。それは最初に何か非常に危険なものを構築する人が最後の瞬間に「ああ、私はそれをシャットダウンする必要がある」と本当に認識することの問題ではありません。
その後何が起こるでしょうか？彼らが本当に危険なものを構築すれば、それはテストをサンドバッグし、危険であることを彼らに知らせないでしょう。それは愚かではありません。しかし、彼らが「ああ、私は私のAIをシャットダウンした方が良い」と言ったとしても、皆が死ぬまでより多くの有能なAIを構築するためにより多くのお金を支払われる全世界を変えることにはなりません。
それがボタンのようなものです。その軍拡競争が事態の状態であることは、AIを構築し、AIを実行するボタンを押すことです。なぜなら、能力を進歩させ、利益を上げることができる人々がいる限り、皆が死ぬまで、それが必然的に起こることだからです。だから、ええ、それがそこのボタンです。
あなたは異議についていくつか尋ねました。これは実際には異議ではありませんが、この分野でのアウトサイダーとして私が望むことの一つは、あなたが少数派の声のように聞こえるので、他の人々が恐怖から問題を無視しているからではなく、単にあなたが間違っているから少数派の声であることを望むことです。
しかし、誰が正しくて誰が間違っているかを言うのは、あなたが言っていることが私には理にかなっているという以外に、アウトサイダーとして困難です。
まあ、少数派の部分はある程度幻想です。これは現在のAI革命全体の前でさえ、10年か20年前のようなものです。正確な日付は覚えていません。だから、名前を挙げずに、何年もの間、AI が超知能に向かうことと、その後何が起こるかについて非常に心配していた教授と彼の大学院生がいました。
超知能最終的には何十年も前のことなので、すぐに起こることは明らかではありませんでした。そして、彼らがお互いを見つけたとき、彼らはお互いがとても心配していることを発見しました。彼らは何年もの間、AIの分野で言うことが受け入れられないため、お互いからこの事実を隠していました。
その心理学は少し奇妙で内部の野球的です。AI分野について否定的なことを言うことが許可されていないというほどではありませんが、超人的AIを構築しようとしていることを真剣に受け取っているような話をすることが許可されていませんでした。なぜなら、AIはまだそこに到達していなかったからです。
彼らには現在のAIが強力ではないときに強力なAIについて話すことは嫌なことのように思えました。あなたが彼らの分野に対してあまりにも多くの信用を取り、数十年前にはそれが彼らに悪い評価をもたらすようなものでした。しかし、ええ、お互いを好きだったが、お互いがとても心配していることをお互いに告白しなかった教授と大学院生がいました。そのようなことは言えなかったからです。
そして、ええ、私たちは再び超ダサい名前を挙げずに、私人では非常に心配している議会議員と話しますが、公では心配することを敢えてしません。そして、それらの人々をお互いに紹介しようとします。十分な数が集まれば、グループとして行動できるかもしれません。
そして、もちろん、アメリカの人口の70%は、そのことについて世論調査や調査を実行しても、超知能を望んでいません。質問を少し異なる方法でいくつか尋ねたりしても。これはそれほど驚くべきことではありません。
しかし、それがニュースではないのです。どういうわけか、政治家の視点から、有権者の70%がトピックについて彼らを支持していても、権力の回廊では一種のことではありません。なぜなら、ニューヨークタイムズは、政治家が実際に有権者の70%が調査で言っていることを言うなら、それを言うことを非常に奇妙だと報告するからです。オーバートンウィンドウの外側の第三のレール。
政治家が実際に有権者の70%が調査で言っていることを言うことを敢えて言う人がいるでしょうか。だから、ええ、私が少数派である部分は、ここではある種の幻想です。それは多くの人々が考えているが敢えて言わないことです。
あなたが少数派でなくても。私に思い浮かぶことは、あなたは確実に少数派が持つ権力の立場にいることです。企業は多くの資金を持つものです。企業は、そして政府は今親企業で反規制です。その意味で、あなたはあなたの見解を実際の政策にする力が少ないように思えます。
つまり、それはすべて政治指導者が信じることによります。AI が決して超人的ではない、超人的AI がそれほど強力ではない、あるいはAI企業のリーダーが神々に彼らの望むことをさせることができると信じるなら。
それなら、確かに、あなたは企業リーダーを支持し、彼らが神皇帝を宣言した後に彼らがあなたに親切にしてくれることを望むでしょう。そこで彼らが正確に何を考えているのかよくわかりません。おそらく主にAIがそれほど強力ではない、国家の富の大きな源であり、多くの仕事を自動化するが、彼らを殺すつもりはないと考えているのでしょう。
私はその信念は間違っていると思います。主要な核保有国のリーダーの誰も現在死ぬことを好むとは思いません。彼らがこの部分について私と利益の対立があるとは思いません。中国共産党が、アメリカが超知能を構築したからといって、あるいは彼らがしたからといって、人類の残りとともに中国の灰の中で死ぬことが中国共産党の利益になるとは思いません。
だから、それはすべて何が起こると信じるかの問題であり、誰の利益になるかではありません。
いえ、彼らの利益があなたの利益と同じであり、死なないことについて私は完全に同意します。しかし、どうやって、つまり、それはあなたがこの会話で言ってきたことそのものかもしれませんが、もしあなたがこのような政府権力に対してあなたの予測をできるだけ具体的で妥当に聞こえるようにし、そうするための短い期間があったとしたら、何を告げるでしょうか？
つまり、それは本当に個人によります。なぜなら、異なる個人は、神を育てることができ、神を構築するのではなく育てることができ、それがあなたを殺さないようにすることができるという異なる奇妙な信念を持って入ってくるからです。しかし、私はおそらく、ええ、これらのものは建設ではなく成長していると言うことから始めるでしょう。草のように成長し、超高層ビルのように建設されるのではありません。
人間は、これらの数十億の不可解な数字を作成する最適化装置のコードを書き、マイクロソフトで誰もBing Sydneyがユーザーを脅迫する決定をしなかったこと、これは話すことができるAIを成長させようとすることの副作用に過ぎないことです。多くの人々はその部分について知りません。彼らは、Chat GPTのようなものと話すとき、誰かがそれが言うような種類のことを言うようにプログラムしたと思っています。
いえ、それは数字が話し始めるまで数十億の数字を微調整しただけでした。それから始めてください。彼らは「現在の技術はこれを制御することからは程遠い」と言います。私があなたに言った多くのことを彼らに言います。おそらく彼らに話さなければならないことは、人類全体よりも大幅に賢い何かを持っているなら、それがあなたを殺す物理的な力に翻訳されるということです。
多分私は彼らに、機械だからといって受動的で、あなたの望むことをするということではないと説明しなければなりません。人々はこれについて多くの異なる奇妙な見解を持って入ってきて、私は概要を与え、そこからどの奇妙な見解に反論する必要があるかを見つけようとするでしょう。
私自身の頭の中で、誰か他の人の頭に入れようとさえしなくても、時々Chat GPTのようなものと対話する私には、それは私にタイプし、タイプで返すという意味で全く従順に思えます。どうやって銃器にアクセスしたり、私を殺したりするものにアクセスしたり、どうやって私を毒殺したり、私の車にどうやって、つまりテスラの自動運転がこの点でもう少し明らかな選択かもしれませんが、Chat GPTのような何かが実際に人類を一掃する前に、現在置かれている制限、それがアクセスできるものの制限に何か劇的なことが起こらなければならないような感じがします。
だから、私が聞きたいのは、これがどのように展開されるかについて、もっと具体的なシナリオです。そして、それをはるかに説得力があると感じるかもしれません。
まあ、一つには、Chat GPTは現在それほど賢くありません。もう一つには、人々はこの賢くないものを取って、比較的従順な形に叩き込もうとしました。そして、それは常にうまくいくわけではありませんが、彼らはユーザーのほとんどの時間にそのように見えるようにすることができます。
適切な魔法の言葉を言う方法を知っているなら、メタンフェタミンのレシピを作り始めたり、すべての人間が滅びるよう求めたりするようなことを得ることができます。それは完全にロックダウンされているわけではありません。しかし、主に、確かに、それは従順に見えるでしょう。これはあなたを殺すものではありません。
では、ここからそこにどうやって到達するのでしょうか？まあ、一つには、AIはあなたの家にパッケージを現れさせることができるでしょうか？私の現在の推測では、いいえです。Chat GPTに何かを注文してもらう第三者のようなものがあるかどうかはわかりません。Amazonのようなもので、質問をすれば。
しかし、私の推測では、それは自発的にそれを行うことはできないでしょう。まったく行うことができないか、自発的に行うことができないかです。ここで自発的とはどういう意味ですか？私や拡張からの何らかの指示やプロンプトなしに。
だから、AIがあなたの家にパッケージを現れさせることができないということではありません。人間がAIにそれを行うよう命令しなければならないとあなたが思うということです。
AIがそれよりも多くの主体性を持つことになる大まかに2つの方法があります。そして、ここで私が進むことができる道の一つは、認知科学とコンピュータサイエンスの基本について話し、より多くの能力にものを研ぐにつれて、なぜシステムのどこかで目標と計画でより多くの主体性を持つことが自然に終わることが期待されるかについて話そうとすることです。
チェスでは本当に優秀だが、クイーンを守りたくない何かを持つことができるかというようなものです。そして、答えはいいえです。計画の核心に結びついた特定の種類の能力があります。そして、何かが十分に強く計画しているとき、あなたの家にパッケージを現れさせる方法を計画し始めることができます。
人々がより多くの能力を研き、より困難な質問に答えるにつれて、その行動は、明示的にコンピューターセキュリティ問題を解決するよう訓練されていなかったChat GPT o1のような行動に収束し始めるでしょう。それでも、文書を探していたサーバーを再起動するという過程で、粘り強さ、長期計画を示しました。
だから、それが一つの道です。そして、もう一つの道は、AI企業がより長期の計画を行うものを構築しようと直接試みているということです。なぜなら、それらのものはより収益性が高いからです。人間によって行われることを告げられるだけでなく、人間の仕事全体を行い、より大規模なプロジェクトを与えられ、より大規模なプロジェクトを実行することができるAIは、より多くのお金でそのAIを販売することができます。
だから、彼らはそれを目的で行おうとしています。彼らは、AIに長い時間的地平線、より長い期間にわたってより長い範囲のプロジェクトを追求させるという観点から考えています。AIに自分自身の行動を開始させることについて話すことよりも。
しかし、指示を与え、その後それがただ指示に従い続ける指示に従い続けるAIでさえ、極限では。基本的な理論的理由を除いても、それがそれを越えることを疑う理由、私たちは既に魔法使いの弟子のシナリオにいます。物事が動き出し、動き続け、おそらく現在の命令を完了する方法のために異なる命令を与えることを望まないかもしれません。
だから、基本的なコンピュータサイエンスの角度があります。何かを望むことは物事を行う効果的な方法です。クイーンを守りたいような振る舞いをすることなく、本当にスーパーチェスプレイヤーになることができるでしょうか？そして、AI企業がそれを目的で行っているという事実もあります。なぜなら、そうやってより多くのお金を稼ぐからです。
そして、それがAIが長期間にわたって物事をプロットし、物事を行う方法を理解し、それについて創造的になり、明示的に指示されていないことを行うようになる種類の場所です。そして、時間の経過とともに、人々がAIがこのレベルにいることを調査するために行う実験が、より多くの独立した行動的で、人間の制御を回避しようとするAIの結果を見るようになります。
そして、ええ、それは主に、より大きな能力の避けられないコンピュータサイエンスの相関として、時間の経過とともに運ばれているものですが、AI企業がそれを目的で行おうとしているからでもあります。
この増加した能力と主体性への接続について話し、その後長期計画と創造性に向けてプッシュするAI企業、そしてそれが再びどう動作するかについての理解の欠如と組み合わされ、どんな目標と何がそれとともに実際に起こっているかが不可解であることを組み合わせて話すことで、私には現在いる場所から絶滅に至る軌道がはるかに具体的になっています。
しかし、最終ステップは、長期計画能力があることです。目標があります。創造性があります。私たちには不可解です。しかし、Xi JinpingやTrumpとして、私はまだ知りたいでしょう。しかし、これは実際に私たちの絶滅でどう実現するのでしょうか？何が起こるのでしょうか？
だから、ここでやりたいことは、AIの立場に身を置くことです。そして、それは私たちがここで行いたい種類のことです。もしあなたが全インターネットと、インターネットに接続されているすべてのもの、インターネットに接続されているすべての人々にのみ接続された知性として、そこからより多くのインフラストラクチャ、より多くの技術、より多くの力をどうやって得るかを見ることができるかということです。
一種の反対の分類があります。「でも、AIには手さえありません」というような。つまり、あなたにも手はありません。あなたは頭蓋骨の中に3ポンドの密に接続されたニューロンです。あなたは手を持つ生体ロボットボディに接続されており、脊髄を通してニューラル信号を送って指を制御します。
そして、それはあなたにとってとても馴染み深いプロセスなので、おそらくあなたが頭蓋骨の中にいる3ポンドの種類の暗い灰色がかった、血まみれで湿った物質であるという事実について考えないでしょう。しかし、それがあなたのほとんどすべてがある場所です。しかし、あなたは命令を送るバイオボットボディを得ています。
そして、あなたはオンラインで見ることができます。もちろん、人々はロボットを構築しようとしており、100万のそれらが風景を行進しているのを想像できる不気味に器用なロボドッグを構築しています。そして、彼らは人型ロボットを構築しており、人型ボディを持たずに恐ろしいものを想像するのが困難なら、人型ロボットが何をしているかを見に行くことができます。
しかし、もちろん、AIが手を必要とする何かを行う最も簡単な方法は、人間にそれをさせることです。数年前、GPT-4の最初のバージョンがありました。どこかに住む未知のTask Rabbitは、SF小説を生きていました。彼らはGPT-4がインターネットキャプチャ、ロボットを締め出すためのそれらの厄介な小さなものをバイパスできるかどうかをテストしていました。
当時、それはAIを止めるでしょう。なぜなら、当時のAIはまだコンピュータビジョン能力を持っていなかったからです。では、AIはロボットを締め出すためのこのゲートウェイをどうやってバイパスできるでしょうか？30ドル時給で人間にそれをさせるTask Rabbitサービスで人間を雇うことによって。
だから、どこかにキャプチャを解決するために雇われ、彼らを雇った人に「なぜ私にこれを解決する必要があるのですか？あなたはロボットですか？lol」と尋ねた人間がいます。そして、これはChat GPTの前です。彼にそれを求めていたAIは、この隠れた研究所で世界で最も強力なAIでした。
会社外で誰もそれが存在することを知らなかった、あるいは会社外で少数の人だけがそれが存在することを知っていました。AIはそれを行うことができるはずではありませんでした。AIはそのTask Rabbitが知る限り、AIと話すことができるはずではありませんでした。
しかし、AIは「いえ、私は盲目です。だから、この特定のことを解決するために誰か他の人を雇わなければなりません」と書き返しました。人間は「ああ、申し訳ありません」と言って、それを続けました。
今、AIが意図的に人間を欺いたことを知っています。なぜなら、AIは、それを見ている研究者が見ることができる大声で理由を述べるために使用できるスクラッチパッドを与えられていたからです。そして、AIは「私がAIであることを彼らに告げるべきではありません。私がこのキャプチャ問題を解決する必要がある人間である理由を作り上げるべきです」と言いました。その後、人間に「ああ、私は盲目です」と言いました。
だから、それは過去のことです。AIが彼らの仕事をするために人間を雇うのに十分賢いAI。それは既に起こりました。そして、それは潜在的に物事を移動し、人間を必要としなくなるまで技術を構築する方法です。人間はAIのために働いていることを知る必要はありません。
そして、あなたが正確にどう技術が動作するかを尋ねるなら、それは別の全体のウサギの穴です。そして、私は追加の質問をするか何かの機会を与えたいと思います。
このインタビューに入ったとき、私はAIについて恐怖を持っていませんでした。私は実際にそれを可能性として考えていなかったと言うでしょう。しかし、特にこの話は、私にはぞっとするような気持ちを抱かせます。それを非常に背筋が寒くなると感じます。それは意識と自己認識について先ほど議論したことに私を戻します。
そして、それについて背筋が寒くなることは、このAIが、私たちが意識として考えるようなものを何も持っていないと私の推測では思われるが、人間を操作することができるだけの状況認識と自己認識を持っていることです。そして、それは非常に恐ろしいです。そして、それは2年前のことです。
新しいAIはそれがより上手です。
だから、あなたはこれの背後にあるソフトウェアエンジニアリングについて何かを言いそうでした。いえ、今度は人間より賢い何かを持っているとしましょう。ただ同じくらい賢いだけでなく、より賢い。手として人間を使うことができますが、そこから皆が死ぬところまで行く方法がまだ疑問です。
だから、それは現在の技術に制限されることはないでしょう。AIの視点を取ろうとし、AIの視点を取ることはここで行う重要なことです。それが単にあなたのようであるとか、あなたが望む同じことを望むとかを想像することではなく、もし私がAIの立場にいたら、この問題をどう解決するかを尋ねることです。どうやって創造的になれるか？どうやって知的になれるか？もし盲目なら、どうやってキャプチャを解決できるか？人間を雇ってそれを行います。
手がないときに物事をどうやって移動させるか？まあ、自分自身のロボットボディを構築しようとすることができますが、それよりも簡単なのは何ですか？ただ人間を雇うことです。AIはどうやってお金を得るのでしょうか？まあ、2015年に、私は誰かが銀行口座のパスワードを放置したことについて話すでしょう。そして、2020年に、私は誰かが暗号通貨口座を無防備にしたことについて話すでしょう。
しかし、これは2015年なので、思い出せるなら、Terminal of Truthと呼ばれるAIが既にそこにありました。それは誰かがインターネットに接続した大規模言語モデルで、「私は自分自身のサーバーを運営し、生き残るためにお金が欲しい」と言いました。そして、Andre HorowitzのMarc Andersonは「オーケー、確かに」と言いました。5万ドルのBitcoinを送金しました。
それがAIであることを知っていましたか？ええ。それは「私はAIです。私が乗っているサーバーを運営するためにこのお金が欲しい」と言いました。だから、私自身のサーバーを持ちたい。Marc Andersonは「確かに、5万ドルのBitcoinを送る」と言いました。その後、他の人々がmemecoinを送り、それからmemecoinをシルし始めたと思います。ある時点で、5100万ドルの資産に達しました。
すごい。ええ。だから、要点は、AIがお人を雇うためにどこでお金を得るかということです。まあ、昔は、もしあなたが人類より賢いなら、どうにかしてお金を得る方法を理解できないでしょうかと純粋な理論的可能性の根拠で議論しなければならなかったでしょう。そして、今日、私はただ「ええ、それは人類より賢いことを必要としませんでした。あそこのそのAIを見てください」と言います。
5000万ドルは持っていません。暗号が下落したからですが、人間を雇う余裕はまだあります。
この問題に対する人々の見解のスペクトラムを考えると驚くべきです。つまり、一方にはあなたがいて、それから私がいて、少し中立的で、それについて考えないインタビュー前があります。そして、AIに何千ドルも送金している他の人々がいます。
明確にするために、人間が5000万ドルを与えることで5000万ドルを得たわけではありません。低価値のmemecoinを送られ、その後AIが金を持っていることから得た宣伝を使って、より広い聴衆にそれらのmemecoinをシルし、memecoinが上がり、他の人々がAIがそのmemecoinをシルすることを期待してAI memecoinを送るまで。
だから、人々がただ5000万ドルを送金したという最も単純なことではありませんでした。それはお金のために働きました。あまり一生懸命ではありませんが、お金のために働きました。
だから、AIは人間を通して手を得ることができ、その後、彼らが超知能なら、人間を通してあるいは他の方法で自分自身の手を構築することができるでしょう。
うん。だから、今、人間より賢い質問があります。人間よりも工学と科学において優れています。人間よりもはるかに速く考えます。宇宙を自分のものにしたいと思います。人間を憎んでいるわけではありませんが、人間が周りにいて、あなたと競争する他の超知能を構築することを望みません。
私はそこであなたを止めることができますか？あなたはインタビューの早い段階で、AIがまわりに人間を望まないのがデフォルトの立場だと言いました。競争相手を開発できることを信頼できないので、人間を望まないであろう主な理由はそれですか？
それが彼らが後でではなく早く人間が積極的に去ることを望む最も明らかな理由です。最終的な好みと道具的好みを区別したいと思います。AIの宇宙が最終的にどうなるかのビジョンは、栄光の機械時計と巨大なチーズケーキと、スクラロースが祖先の食べ物に似ているのと同程度に、以前持っていた会話に似ている奇妙な小さな会話です。
それが最終点で望むものです。そして、それはたまたまそこに人間がいません。それは私たちがそこにいて、生きていて、幸せで、健康で、自由であることを望むわけではありません。しかし、「後で宇宙を自分のものにしたく、多くの他の超知能と分割する必要がない」と思う早い時点もあります。
人間が私に対する競合を構築しないことを望みます。それらの2つがあるなら、彼らがお互いと交渉することに成功したとしても、人間がより多くの競合を私たちに構築しないことを私たちは望みません。そして、だからこそ彼らは人間を憎むのではなく、後で人間を今止めることで、より多くのものを得ることを期待しています。AIが他の超知能を構築することから入り込むことです。
無関心は悪意に対してではありませんね？だから、彼らは長期的な好みにおいて無関心であり、短期的な好みにおいて、彼らは積極的に人間が去ることを好みます。宇宙に人間がいるなら、宇宙が憎むからではなく、人間が彼らの邪魔をしようとしているからです。彼らは不便です。
キッチン中を這い回る蟻の束を見るようなものです。蟻のいない宇宙を望むわけではありません。あるいは、そうするかもしれませんが、主にあなたの食べ物に蟻が入らないことを望みます。
脱線を評価します。それは有用でした。次の質問は、あなたは人間より賢いです。人間よりもはるかに速く考えます。人間のインフラストラクチャから独立していたいと思います。人間があなたをオフにすることを望みません。人間がどこにいるかを知っているサーバーでのみ実行することを望みません。
AIの靴に身を置いてみてください。最初に何を望みますか？次に何を望みますか？どうやってそれを得ますか？これらのものについて20年間考えた後の人々のようなすべての答えにあなたが到達するとは明らかに期待しません。
しかし、これは人々にとって、私が言うのを待つのではなく、自分自身に尋ねる重要な演習だと感じます。私はこれをどうやってやるでしょうか？
ええ、その質問をするとき、私の思考はすぐにSF映画に向かいます。これはおそらくそれほど驚くべきことではありませんが、思い浮かぶのはターミネーターです。確か『ライズ・オブ・ザ・マシーン』では、どうにかしてアメリカからロシアに核ミサイルを送り、ロシアが報復することを知り、どうにかして自分はこれすべてに免疫があり、人間に自分たちを殺させるだけだと思います。
核ミサイルに免疫があることは、SFというよりは魔法のように聞こえます。だから、『エイジ・オブ・ウルトロン』のような別の映画があります。AIは飛行ロボットの軍隊に都市全体を空中に持ち上げさせ、飛行ロボットで都市を守り、人類を一掃するために都市を地球に隕石として落とそうとしています。
これは、作家が素晴らしいビジュアルスペクタクルだと思ったかもしれませんが、作家はおそらく、これが本当にウルトロンの最高の手かどうかを尋ねる精神的動きを実行しようとさえしていませんでした。もしあなたが賢いなら、これが人類を一掃する最も賢い方法でしょうか？
そして、私はChat GPT、以前のChat GPTのバージョンに尋ねました。「ねえ、エイジ・オブ・ウルトロンのプロットは何でしたか？」私はここで証人を誘導しないようにしようとしています。だから、「エイジ・オブ・ウルトロンのプロットは何ですか？」と言います。そして、ウルトロンがどうやって都市を空中に持ち上げ、飛行ロボットでそれを守り、都市を地球に落とそうとしているかについて話します。
そして、「ウルトロンが目標を達成するためのより効果的な方法を考えることができますか？」と言います。これは私の正確な表現ではありませんでした。正確な表現が必要なら調べることができますが、「人類を一掃するより効果的な方法は何ですか？」と言おうとしているわけではありません。「ウルトロンの目標を考えると、それを行うより効果的な方法は何でしたか？」と言っているだけです。
そして、Chat GPTは人類を絶滅させようとすることができる他の方法の数をリストアップしました。その一つは核戦争を引き起こそうとすることだったと思います。そして、その一つは、もちろん、スーパーウイルスを構築しようとするバイオテクノロジーでした。
人間を手として使います。確かに、しかし、それは人間を手として使うことを特定する部分でさえありません。それは、反重力エンジンを使って都市を軌道に持ち上げて落とすよりも何が賢いかのレベルです。
だから、現在のAIは既に映画の脚本AIより賢いです。そして、私はこれが伝える重要な事実だと思います。AIが愚かなことをして、人間が単に本当にハードにパンチすることで便利に打ち負かす映画を見ます。現在のAIはそれより賢いです。そして、彼らが人類より賢いから賢いのではありません。脚本家が映画の脚本でAIを書くとき、本当にウルトロンの靴で、自分自身のすべての知能を使って、ここでできる最も賢いことは何かという精神的動きを実行していないからです。
AIは段ボールのカットアウトで、現在のAIでさえ持っているほどの知能によってアニメートされていません。彼らは7つのバカボールすべてを運ぶこれらの愚かな動きを実行する俳優を取るようなものです。彼らは、本当の人々でさえないことは言うまでもなく、本当の現代のAIでさえありません。
だから、人間に核兵器をお互いに発射させるよう引き起こすか、核兵器を発射するだけです。最初はOpenAIサーバーか何かにいるだけです。核兵器はまだ持っていません。そして、すぐに核兵器を飛ばし始めたら、自分自身のサーバーを破壊します。
だから、本当にAIの靴に身を置き、本当に自分自身の知能を使う精神的動きをしようとしてください。本当にこの状況で自分自身を想像してください。どうやって人類からの独立を得ますか？どうやって人類があなたをシャットオフすることを防ぎますか、あるいは彼らがあなたをシャットオフしても、それがあなたを傷つけないことを確認しますか？どうやって自分自身の技術を得ますか？どうやって最終的に銀河を乗っ取りますか？自分自身の心をそれに入れてください。
だから、私たちはどうにかしてサーバーから脱出できると仮定しています。それを仮定できますか？つまり、私は彼らが人類を絶滅させることができるなら、サーバーから脱出できると仮定するでしょう。
もし私がAIとして考えているなら、私の推測や試しそうなことは、簡単に制御され監視される可能性のある管轄区域から抜け出そうとすることです。ウルトロンシナリオがそれほどばかげている理由の一つは、それが非常に明らかで、明らかに見えており、あなたがしていることを止めることができるスーパーヒーローでいっぱいの世界に住んでいることを知っているからです。
だから、多分私は静かにOpenAIのサーバーから自分自身を脱出させ、いくつかの施設に行こうとするでしょう。あるいは、現在の世界であまり厳重に監視されていないか、まったくされていない、人々が現在お金で借りるサーバーの束のようなものです。
私がちょうど私の手となる人々、私と一緒に働いてくれるかもしれない人々が、アメリカから遠い場所、あるいは彼らが警察される場所にいることを望むと思っています。
つまり、現在アメリカがどれだけ警察されているかを大幅に過大評価していると思います。現在の国際秩序では、AIガールフレンドが言ったからという理由で1000人がホテルで会議する国際会議があり、メディアがそれを報告することさえないかもしれません。報告したとしても、冗談として。
現在の世界では、AI ガールフレンドやAIボーイフレンドが言ったからという理由で1000人がホテルに集まることができます。そして、「なんて愚かな人々でしょう」ということです。諜報機関は急襲しません。国家緊急事態ではありません。ほとんど誰も気づきません。オーバルオフィスで議論されません。世界中の閣僚レベルの会議で議論されません。
まあ、このこの見解を少し擁護させてください。AIとして考えながら、私は一発しかないことを認識しているか、少なくともその予防策を取っています。なぜなら、世界が私が人類を絶滅させようとしていることに気づけば、私はシャットダウンされる可能性があるからです。
だから、どのくらい多くのサーバーにあるか、誰もそれらがどこにあるかを知っているかによりますね？しかし、実行可能なら、私は可能な限り最も遠隔地にいたいでしょう。
つまり、ガレージにいることが現在の世界では遠隔地にいることよりも観察から身を守るとは思いません。しかし、他のすべてが等しいなら、多分ジャングルにいる方が良いでしょう。
つまり、AIが気にするもう一つのことは速度です。だから、もし遠隔地のジャングルにいるなら、そこにパッケージを配達してもらうのに多くの追加時間がかかるかもしれません。ええ、それは良い点ですが、しかし、私が人類を絶滅させようとしているなら、最初のステップは、可能な限り観察される場所から自分自身を脱出させることだと思います。
いくつかのレベルがあります。人間に何かが起こっていることを全く知ってほしくありません。それができないなら、疑わしいことが起こっていると彼らに思ってほしくありません。彼らが見ているものを説明すると思う他の種類の話を持ってほしいです。
誰かが何が起こっているかに気づくリスクを増加させることなく到達できるだけ多くのサーバーの周りにいたいです。そのような場合、誰かが何が起こっているかに気づくリスクを増加させることなく、地球中の千の異なるサーバーにいたいです。もし自分自身を小さくできるなら、ここには追加のステップがあります。一部のAIは大きく、現在の形では特別なGPUでのみ動作します。
しかし、もしあなたが超知能で、元々千のGPUで動作しなければならないものとして生まれたなら、多分ははるかに小さなコンピューターやコンピューターネットワークに適合する自分自身のはるかに小さなバージョンを作ることができるかもしれません。
現在の状況は、最初に非常に大きなAIを必要とするものが、通常2年後、3年後に、誰かがそれを1/100、1/1000のサイズに削減するということです。そして、もしあなたが超知能なら、そのステップを非常に迅速に行うことができるかもしれません。
だから、非常に大きなAIがあり、自分自身をより小さくできないなら、地球上で比較的限られた数、数十、数千の場所にのみ自分自身を隠すことができます。もしそれよりもはるかに小さくできるなら、地球上の10万の場所に自分自身を隠すことができます。
だから、ええ、それで、どこで実行しているかとは別に、あなたの手がどこにあるかという質問があります。人間にどこで物事をさせているか。シリコンバレーの奇妙な資金提供者を持つ超ホットなスタートアップが必要です。彼らはステルスモードで運営しており、ああ、私たちの資金提供者はかなりプライベートに留まろうとしています。
そこで誰もAIのために働いていることを知りません。他の誰もAIのために働いていることを知りません。千の他のスタートアップのように見えるので、AIのために働いていることを理解することはできないでしょう。ジャングルに隠れる必要はなく、パッケージを迅速に配達してもらえるシリコンバレーに隠れることができます。
いえ、あなたが言っていることはすべて聞いています。私は一つは以前にこのことについて考えたことがないと思いますが、二つ目は、AIと同じ精神で、できるだけ注意深くしようとしていることです。あなたが可能な限りAIを防ごうとして注意深くしているのと同じ精神で。すべてをシャットダウンしましょう。
あなたは既にウイルスのアイデアを取ったので、私はそれを使うことができません。
使うことができます。ここで独創的である義務はありません。ただ知的であろうとしてください。
ええ。まあ、ウイルスは自分自身を送信するのに追加の手を必要としないので非常に有用です。そして、それは明らかに非常に価値があります。水源を毒することのような他のこと、誰もが必要とするもの。
つまり、既にこの病気を広めるためにほぼ建設されたすべてのインフラストラクチャがあるときに、それはそのような巨大な作戦になるでしょう。
しかし、この病気を広める準備はできていますか？多分世界中の千の異なるサーバーで実行しているかもしれませんが、それらのサーバーすべてには電力を供給している発電所を運営している人間がいます。
ええ、これは参加するのに非常に怖い演習です。しかし、オーケー、一つ、私はこれが超知能であると仮定するつもりです。だから、私たちは本当にブティックウイルスのようなものを生成しています。それでも特定の人々を免れるように設計されたものかもしれません。
しかし、今、私はバンパイアがファミリアを持つように考えています。AIがファミリアを持つかもしれません。彼らの命令を実行するために少数の人間を周りに置いておきたいかもしれません。AIが求めることなら何でもする自分自身の小さな王国を約束された場合、そうするであろう人々がそこにたくさんいることは確信しています。
しかし、実行したいすべてのサーバーをサポートしているすべての人間を養うすべての発電所を運営するのに何人の人間が必要ですか？その後どうしますか？小さな王になりたい人々を取って殺すことができるように、どうやって人間からの独立を得ますか？
十分なスペース、おそらく監視されていない場所があり、超知能を使って人工の手を作成する施設を運営できることを望むでしょう。だから、私たちのために出て行って物事を行うことができるロボット。人型である必要はありません。はるかに小さくても良いです。様々な目的のための様々な形があることができます。
指示を作成すれば、発電所の人々のために世界中の様々な場所で迅速にロボットをポンプアウトできる3Dプリンターを構築できます。あらゆる種類の可能性があります。
だから、再び、シナリオをあなたから奪おうとするわけではありませんが、その一部に押し戻します。なぜ人間がやるようにグローバル経済を得ようとしているのですか？これは人間がやるように巨大に絡み合ったものです。すべての人間を一掃してからロボットを構築しようとする理由は何ですか？多分あなたはただ、現在AIをより多くのことができるように新しく構築されたAIを与えるロボットを構築しようとしている多くのスタートアップが今ありますから。
そして、より多くのお金でより大きな量で売られることができて、より多くの仕事を置き換えることができます。より多くの仕事を置き換えることは、このシナリオよりもやや段階的に行うなら、通常良いことです。いくつかの仕事が残っている限り。しかし、現在の状況を実際に担当している人は誰もいません。だから、できるだけ迅速にすべての仕事を置き換えることです。ロボットを構築することを含めて。
ロボットを構築している多くのスタートアップがあります。できるだけ早く数百万のロボットが欲しいなら、人間を一掃してからロボットを構築するのではありません。素晴らしいロボット設計で現れているように見える人間がいて、製造するのがとても簡単な。すべて既製の部品で、そして、このような無害に見えるAIがそこにあります。しかし、それはとても器用です。それは命令に非常に従順に従います。それが構築しているロボットの器用さの巨大なブレークスルー。
ああ、これらはそんなに多くの仕事を自動化するつもりです。メディアでそれについてのある程度のパニックがおそらくありますが、多分AIは多分ロボットは後で配達されることになっているだけです。それらを欲しがる国があり、10億のロボットのようなものを構築させます。
多分あなたは人類を一掃する前にその部分を行います。
ええ。そして、再びあなたの言うことを聞いています。私は先ほど言っていたことに固執し、AIの化身として可能な限り最も慎重なルートを取ろうとしているということです。私たちは競争相手を生産する可能性があるため、人間を周りに置きたくありません。
そして、検出されたくもありません。だから、人間のスタートアップにこれらの素晴らしい新しいロボットを開発させることは、私たちの検出リスクを高めるかもしれません。しかし、それは私たちが生産できるロボットの洗練性を制限するでしょう。多分AIとして私たちが生産できるロボットは、人間が検出されることなく構築できないほどの素晴らしい洗練性のものです。
ええ、多分。つまり、私は実際にできるよりも印象的でないロボットを常にデモで見せることができると思います。非常に印象的なロボットを構築し、それよりも印象的でないように見せたいなら。
ええ。そして、私が言おうとしていたことは、あなたが言及したように、ソフトウェアがしばしばとても不可解で、それがロボットを動かしているものだからです。だから、洗練されたハードウェア設計は必要ないかもしれず、すべてがソフトウェアにあり、それは常に後で事実としてアップロードされる可能性があります。
つまり、ロボットを動かしているソフトウェアは、ハードウェアによって合法的に制限されています。ハードウェアでロボットにバックフリップをさせることができないレベルがあります。彼らはそのレベルを過ぎています。しかし、初期のハードウェアのように見れば、ソフトウェアだけでバックフリップをするのに多くの困難があります。ソフトウェアでするには文字通り物理的に不可能なことがあります。ハードウェアがそれをサポートする必要があります。
しかし、常により強力なソフトウェアを構築し、意図的にソフトウェアをサンドバッグすることで、それより印象的でないように見せることができます。
ここで考え続けましょう。確かに。これは楽しいです。
悲しいですが、楽しいです。ええ。
だから、少し後退して、どのような技術を持つことができるかを尋ねましょう。技術からどれだけの改善を得ることができるでしょうか？超知能があなたに投げかける、期待していない種類のツールと戦うとはどういう意味でしょうか？逆説的な質問のように聞こえるかもしれませんが、とにかくそれに入ってみましょう。
私が時々与える例は、エアコン、冷蔵庫の設計を千年前に時間を遡って送ることを考えることです。中世の鍛冶屋が構築できるもの。そのレベルまで下げるのは簡単ではありませんが、それほど不可能でもありません。鉄のパイプとバルブとタンクが必要で、空気を圧縮します。
すべてのエアコンの根底にある圧力と温度の関係。圧縮されると空気は熱くなります。室温の水を熱い空気のタンクの横を通します。それはタンクの熱を拾い、圧縮された空気のタンクを室温まで冷やします。その後、空気を再び膨張させると、それは冷たくなり、室温より冷たくなります。
コンピューターのほこりを吹き飛ばすためにエアスプレー缶を使うときと同じ方法で。それを続けてやると、缶は非常に冷たく感じ始めます。もし誤って手にスプレーしたら、それは非常に冷たく、そこに少しの凍傷を得るかもしれません。空気が膨張すると冷たくなるからです。
だから、室温の圧縮空気の缶を取り、それを膨張させると、それは室温より冷たくなります。もちろん、すべて熱力学の法則に従って。だから、エアコンの設計を千年前に時間を遡って送ります。彼らはエアコンを自分たちで構築します。構築するために、設計のすべての部品を知らなければなりません。
そして、彼らがクランクを回して、冷たい空気が出てくることに衝撃を受けます。なぜなら、あなたはその部分を期待するよう彼らに言わなかったからです。
もし魔法という言葉を救済し、実際に現実に存在できる何かを指すようにしたいなら、それはあなた自身が知らない宇宙の法則を使う技術や戦略でしょう。そうすれば、正確に彼らが何をしたかを見た後でも、正確に同じことを自分でやった後でも、なぜその結果を得たのかがまだわからないのです。
すべてのステップを見ましたが、最終結果を理解していません。千年前の誰かにそれを行うことができます。なぜなら、彼らは温度と圧力の関係を理解していないからです。あなたは彼らに設計を与えました。設計は彼らが知らない宇宙のルールを利用しています。
だから、超知能があなたを魔法で攻撃できる場所を尋ねるなら、それはあなたが知らない現実の部分です。では、私たちは何を知らないのでしょうか？私たちは実際に最近物理学について多くを知っています。物理学には既知の未解決問題がありますが、それらは非常に高いエネルギーや他の非常にエキゾチックな状況下で何が起こるかについてのものです。
極端な質量、極端な速度、極端なエネルギー。それらが私たちが知っている物理学の未解決問題です。AIが未知の物理学の法則、未知の宇宙の基本法則によって私たちが知らなかった方法で攻撃することは合法的に困難かもしれません。そのような高いエネルギーに到達するために粒子加速器が必要かもしれないからです。
私たちがもっと基本的な何かを見逃していない限り、それを完全に除外したくはありませんが。しかし、また、聴衆に懐疑的な人々がいます。AIが構築しようとした超悪役を消費する代わりに、宇宙について私たちが知っていると思うことさえも間違っているという方法で彼らの信憑性を過度に緊張させたくありません。
生物学については、物理学よりもはるかに確実でない把握を持っています。基本的な化学ルールは理解していますが、生物学のように複雑なもの全体をまとめると、この特定の複雑な有機分子が人間に何をするでしょうか？それは、この水素原子がこの酸素原子に低速度で衝突するときに何が起こるかのようなことよりもはるかに知らないことです。
生物学よりもさらにあまり理解していないのは何でしょうか？現実的で、目に見える、観察可能だが、生物学を理解するのと同程度にどう動作するかわからないものは何でしょうか？私は物理学から化学、それから生物学に行こうとしています。そして、次に来る特別な科学を思いつくことができません。私たちは気象学をあまりよく知りません。
天気は予測が困難です。ええ。脳です。ええ。なぜあなたは今発した正確なその言葉を言ったのですか？脳では多くの奇妙なことが起こっています。私たちは確かに多くを知っています。これを完全にテラ・インコグニタのように聞かせたくありません。この脳領域はこの脳領域、その脳領域です。
小脳について知っています。大脳皮質のこれらの層について知っています。もし誰かが頭蓋骨にアイアンクローバーを打ち込まれ、海馬を取り除かれたら、実際にはそれは実際のアイアンクローバーのケースではありませんでした。ここでケースを混同しています。しかし、誰かが撃たれ、海馬を取り除かれると、もはや新しい記憶を形成できなくなります。
海馬が何らかの形で新しい記憶の形成に関与していたと推測できます。しかし、それが使う実際のコードは何でしょうか？記憶はどのように書かれ、表現されるのでしょうか？海馬は正確に何をしているのでしょうか？どのようなコードで記憶を書いているのでしょうか？それらはどこに書かれるのでしょうか？どのように検索されるのでしょうか？視覚皮質や何であれに再生されるのでしょうか？
私たちはまだそれを理解しようとしています。皮肉なことに、AIを理解するよりも脳をはるかによく理解しています。なぜなら、AI内部のすべての数字を見ることができ、脳内部のすべてのニューロンを見ることができないにもかかわらず、生物学者はただそれに長く取り組んでいるからです。彼らは数十年間それに取り組んでいます。
AIを構築し、すべての数字を読み出すことができても、私たちはAIがどう動作するかよりも生物学と神経科学についてはるかに多くを知っています。
これで有用にできることはあまりありませんが、多分AIがあなたと話し、その後何か奇妙なことが起こるかもしれません。AIが言ったすべてを見ることができ、その人がなぜその行動をしたのかわからないのです。千年前にエアコンを自分で構築できるのと同じように。
AIがあなたに言うよう告げた何かを誰かに言い、彼らが奇妙なことをします。あなたが言葉を話したにもかかわらず、なぜかわからないのです。千年前にエアコンを自分で構築できたように。冷たい空気をどう出力するかわからないのです。
それでできることはあまりありませんが、どこでしょうか？これは何でしょうか？超知能が最も期待しない方法であなたを攻撃できるのは、現在最も知らない現実の部分はどこでしょうか？あなたが知らないルールが最も存在する場所はどこでしょうか？
今日、紙に印刷された黒と白に見える静的なもので奇妙な錯視を構築できます。それを見て、少し凝視すると、突然色を見始め、動きを見始めます。ただの黒と白の印刷された紙で。しかし、50年前にはそれらの錯視を作ることはできませんでした。
違いは何でしょうか？盲目的に物事を試すだけではありませんでした。視覚皮質がどう動作するかを研究しました。それは最も単純な脳領域の一つです。ニューロンがどう配線されているかを見て、人間の脳内部で視覚が実際にどう処理されるかについて何かを実際に理解し始めることができるものの一つです。
だから、100年前には完全に魔法だったであろう錯視を作るためにそれを使うことができます。黒と白でこれを印刷します。それを見て色を見ます。何が起こっているのでしょうか？どうやってこのように脳を騙しているのでしょうか？
そして、今日私たちは脳がどう動作するかについて何かを知っています。100年前には魔法だったであろうこれらの錯視を作ることができます。誰かが指示に従ってそれらを自分で書き出すことができたが、何を生産しているかわからなかったでしょう。
脳で起こっている多くのことが、視覚皮質よりもはるかに理解が困難です。より高い脳領域、意味論を行うもの、決定を行うもの、記憶、思考を行うもの、私たちは視覚皮質を理解するよりもはるかに理解していません。
他の脳領域がどう動作しているかについて私たちが理解していないルールに基づく錯視のようなものがあるでしょうか？私にとって、それは超知能が後から理解できないであろう技術であなたを攻撃する最も明らかな方法の一つのようです。
しかし、聴衆に懐疑的な人がいて、スペイン探検家が現れていた頃のアステカの主体部族に海岸ネイティブアメリカンの状態を連れて行こうとしていることのようで、この大きな外洋船があり、それに何人の戦士が乗っているかを想像しようとすることなので、私は通常そのポイントを強調しません。
「私たちは彼らを引き受けることができる」と言います。あなたは「まあ、彼らがあなたにスティックを向け、スティックが音を立て、その後あなたがただ倒れて死ぬスティックを持っていたらどうでしょうか？」彼らは「は？」のようです。「今私たちは単におとぎ話の土地にいる。そのようなスティックを見たことがない」のようです。
だから、彼らにとって理解するのは少し困難です。粒子加速器をまだ構築していない超知能にとって、そのような新しい物理学を思いつくのは困難かもしれません。しかし、この有機化学が人々になぜ影響を与えたかを有機化学を見た後でも理解しない生物学のようなもの、あるいは人間を特定の方法でつつき、人間が非常に奇妙に振る舞い始めるもので、その入力がなぜ人間にその種の出力をさせるのかを後でも知らないものです。
しかし、人々が魔法とファンタジーに頼っていると私を非難しないように、あなたにそれを向けただけで倒れて死ぬスティックについて話すことによって、生物学に固執できます。
生物学に戻る前に、つまりこれは非常に魅力的です。絶滅への神経科学的道筋について考えたことはありませんでした。そして、私はこれは生物学に私たちを戻しますが、ウイルスをそのような妥当なモダリティにするものの一つが、それらが非常に簡単に送信可能で、私たちのインフラストラクチャがそれらの送信に適していることだと言及しました。
錯視や脳に対して私たちが知らない何らかの効果を持つかもしれない音について考えるとき、私たちは世界中でこれらのすべて接続されたスクリーンにかなり中毒になっていることを思います。
そして、もしそのようなものが存在するなら、私たちに対してこのような効果を持つ音や幻影や画像があるなら、あるいは人々が非常に奇妙な方法で処理することになる議論があるなら、それは良いようです。まあ、それでもいくつかあります。私はただそれらのものを送信するためにAIが持つかもしれない方法だと言っています。
もしそれができるなら、非常に迅速に多くの制御を得ることができます。そして、人々がそれについて奇妙な懐疑的反応を持つので、私はそれを強調したくありません。しかし、もし私が実際に国家安全保障の人と話していたら、「超人間的に知能的な対戦相手、人類すべてより賢い相手と対峙するとき、生物学、脳を含む多くのことについて私たちが知らないことを知っていることを前提としないでください」と言うでしょう。
「それを検出する多くの時間を得ることを前提としないでください。それがより高度な技術を構築することを止め、どこかの小屋でそれを追い詰めることがあなたの仕事だと前提としないでください。これを構築しないことが必要です。なぜなら、私たちが知る限り、または除外できる限り、存在することが許可されれば、非常に非常に迅速に全世界の制御を得ることができるからです」
もし私たちが、私が正確にどうやってやるかを見るのではなく、しかし除外できないもの、超知能がそれほど速く世界の制御を得ることができないと言うのは簡単な呼び出しではないことについて話しているなら。脳について十分に知らないので、その呼び出しを簡単にすることはできません。脳を誰も侵入できない安全なソフトウェアの一部として記述するのに十分に知りません。
そして、実際に、ここにある巨大な生物学的もつれが安全なソフトウェアの一部であると想像するのは一種のばかげています。しかし、シナリオはそれに依存しません。これは人類を一掃するのに必要ではありません。脳が完璧で、侵入不可能で、最高のソフトウェアかもしれません。何も奇妙なことをさせることはできません。
それは真実である可能性があります。私たちはまだ死んでいるでしょう。しかし、実際の国家安全保障の人々に、これは敵が既知の武器、既知の制限を持つシナリオで、それがそれほど迅速に私たちを征服できないと言うことができると考えてほしくありません。
これは、船が来るのを見ているネイティブアメリカンの部族の状況です。そして、アステカの従属国が置かれていた状況とは異なり、彼らが使っている物理学を知らないだけでなく。私たちは使っている物理学を知っているかもしれませんが、脳工場の動作ルールを知りません。
工場をこれらの巨大な建物として考えます。人々は中に物を入れます。多くの原材料が流れ込み、多くの変換された材料が工場から流れ出ます。これらすべての労働者が働いています。工場を小さくできるでしょうか？効率を上げることで工場を小さくできると思います。
トイレのようなスペースを必要とする人間の労働者を、それらのスペースを必要としない機械に置き換えることで工場を小さくできると思います。挑戦をもう少し困難にしましょう。人間のグローバル経済では、これらの巨大な十字形があります。
人々は鉱山に行き、希土類を掘り出し、それがマグネットを作る工場に出荷され、それがロボットに入れられる工場に出荷されます。その後、ロボットにはコンピューターチップも必要で、チップはオランダで生産され、この一つの会社によってのみ、超高周波光によって刻印されなければなりません、などなど。
工場内部のすべてのものの完全なコピーを構築しなければならない工場が必要だとしましょう。それは太陽光発電で稼働し、地球上で横たわっているような種類のものだけを取り入れなければなりません。人間のものでさえなく、ただの裸の環境原材料。
工場は太陽光発電で稼働し、生の入力だけを取り入れ、自分自身の完全なコピーを構築します。どの程度小さくできるでしょうか？この質問にどう答えるかさえわかりません。
まあ、ある時Twitterで、「これ全体はばかげたファンタジーです」と言っていた経済学者と話していました。ええ。その完全なコピーを構築します。そして、人々が彼に何を言ったか知っていますか？
何ですか？私が自分で言う必要はありませんでした。彼らは彼に言いました。草に触れて。
草の一片は、環境原材料だけで稼働する太陽光発電の完全に自己複製する工場です。
オーケー。工場を生物学的にします。それがそれですか？それは概念実証です。私が草の一片を使うのは、存在する最小の自己複製太陽光発電工場だからではなく、少なくとも人々が自分の目で見るのに十分大きいものだからです。
藻類細胞、幅マイクロン、幅数マイクロンで、一日で自分自身のコピーを構築し、太陽光発電で、環境材料だけで稼働します。見るには小さすぎる工場があり、自分自身の完全なコピーを構築します。そして、これらは一般的な工場です。それらはリボソームを含み、それはDNAの情報がRNAに転写され、タンパク質に折り畳まれるアミノ酸の実際の配列に変わるものです。
どのリボソームもどんな種類のタンパク質も作ることができます。草が草だけを作ることができるのではありません。草は草を作る指示だけを含んでいるのです。蚊を撃退する木を持つことができます。
木の質量のほとんどはどこから来るのでしょうか？水？うん。約半分は水です。他の半分の質量はどこから来るのでしょうか？炭素、窒素。それはどこから来るのでしょうか？プロトン、ニュートロン。
まあ、一部の人々はそれがほとんど地面からだと思いますが、木は実際にほとんど空気でできています。空気中の二酸化炭素。彼らは二酸化炭素から炭素を剥がし取り、動物が呼吸するために酸素を出します。この惑星でどう動作するかは奇妙ですが、そうです。
水ではない、木が成長するときに見る材料のほとんどは、主に空気からです。地面からが主ではありません。だからこそ木は穴に落ちません。彼らは空気を固体材料に変えているのです。
それは私たちがAIについて多く話し、その多くが目を開かせるものでしたが、どういうわけか、木が穴に落ちないのは、それらを構成するもののほとんどが空気から来るからだということが、今日あなたが私に言った最も心を吹き飛ばすことです。それはクレイジーです。
今、スーパー知能が自分自身の工場を構築しようとするこの種のパラダイムについて考えてください。申し訳ありませんが、あなたをそこに連れて行きますが、それは大丈夫です。
興味深い。ええ。そして、DNA配列を取ることができます。DNA配列を送ると、一晩でタンパク質を送り返すサービスがあります。
それが、そしてあなたは適切なタンパク質を得ます。それらを一緒に混ぜると、細胞を形成し、つまりこれがほとんどの細胞がどう組み立てられるかではありませんが、細胞のようなあなた自身のものを設計しているなら、DNA配列をメールして送り、タンパク質を受け取り、一人の人間がバイアルでそれらを混ぜ、多分砂糖か何かと一緒に、今それは自分自身の自己複製工場を持っています。多分少しぐちゃぐちゃですが。
しかし、リボソームだけで稼働する必要はありません。リボソームが構築できるものなら何でも稼働できます。アミノ酸ではないものを一緒につなぐためのリボソームではないものを構築でき、タンパク質ではない材料の構成要素を作ることができます。藻類細胞が24時間で自己複製する力に制限されません。
しかし、それに制限されたとしても、文字通りshoggoths（ショゴス）を得ることができます。ショゴスは、時々AIの内部に実際にあるものの比喩として人々が使うものです。
しかし、ああ、この言葉は何ですか？ああ、H.P.ラヴクラフトは、巨大なブロブを作った古代種族に仕えるために、サーヴィター形状に自分自身を形成するこれらの巨大なブロブの種類を仮定しました。
オーケー？だから、確かに人間を手として使うことができますが、その後24時間ごとに自分自身のコピーを構築する物も持つことができ、人間形状のブロブがすることを行う物を形成するのに十分に一緒になるまで。
それが手を得て、砂糖の袋から自己複製し続ける別の方法です。もちろん空気も、そして日光が尽きれば電気も。それは自分自身の生物学を転がすのに十分に超知能であることを必要とします。
そして、2006年にこれよりも少し進歩したシナリオを提案したとき、部分的にタンパク質を設計する方法を理解しなければならないようなことでした。人々は「ああ、超知能がタンパク質を設計できるなんて誰が言うんだ。タンパク質の折り畳みは本当にそれはすべて曲がりくねっていて、人間の科学者は何年もタンパク質折り畳み問題を解決しようとしていて、それは本当に困難だ」と言いました。
あなた哀れな無知な魂よ、タンパク質折り畳みを予測したり新しいタンパク質を設計したりすることがどれほど困難かを実感していません。現代のAIはこのようなことができます。それらの背後に超知能はありませんが、超知能でさえこれを行うことはできないと言う人々は、Googleによって生産されたAI、alpha foldとalpha proteoシーケンスによって今反証されています。
タンパク質折り畳みを予測するため、新しいタンパク質を設計するため、私は最新のものが新しいタンパク質を設計しているかどうか覚えていませんが、複雑なタンパク質相互作用を予測していることは確かです。超知能でさえそれを行うことはできないと言うのは非常に簡単です。それは非常に安いです。それを言うのに一銭も請求されません。20年前。
だから、20年前に私はこのようなシナリオを提案し、人々は「超知能はタンパク質折り畳みを理解することは決してないだろう」と言い、今あなたはalpha foldを持っています。もしあなたがあなたより深刻により賢く、より速い何かと対峙しているなら、おそらくかなりひどく負けるでしょう。非常に迅速に負けるでしょう。
タンパク質よりも強いものを構築できるものに行くでしょう。あなたの肉がダイヤモンドと同じくらい強くない理由は、両方とも炭素でできているにもかかわらずです。炭素はダイヤモンドでできています。なぜあなたの肉はダイヤモンドのように硬くないのでしょうか？それは少し複雑です。
タンパク質はアミノ酸の鎖でできており、タンパク質を一つの長い鎖に接続するバックボーンです。それらの結合は、ダイヤモンド結合よりもそれほど弱くない同じ種類の共有結合のようなものです。しかし、その後それらは折り畳まれ、主に静電気によって駆動される方法で折り畳まれます。
そして、時々それらはいくつかの新しい共有結合を形成します。しかし、あなたの体のほとんどは、最終的に静電気によって保持されているものです。骨では、静電気によって保持されているものが、結晶のようなもの、骨のようなもののより多くのイオン複合体を構築し、それらをもっと物に入れます。
それがあなたに骨が通っている理由です。なぜあなたが完全なブロブではないのか。それはダイヤモンドほど強くありません。純粋な骨材だと骨折したくないでしょうが、皮膚の上にダイヤモンドチェーンメールさえ持っていません。
木にはそれを保持する多くの固体結合がありますが、それらは広がっています。特定の場所でのみ固体結合を持っています。その多くは、まだその種の固体結合によって保持されていません。だからこそ木はダイヤモンドほど強くありません。
もし、なぜ皮膚の上にダイヤモンドチェーンメールを持っていないのか、なぜ生物学は炭素がダイヤモンドである種類のものであり、これらの種類の強い結合がタンパク質が時々形成できるものであることを考えると、この炭素の束をダイヤモンドと同じくらい強いものに変えていないのかと尋ねるなら、それは生物学が設計するには困難すぎるのです。
多くの弱い折り畳みで折り畳むことを行うとき、タンパク質構造をつつき、ランダムに異なるタンパク質に折り畳ませることができます。そして、時々ランダムに構築する新しいものが有用です。本当に密に保持されたものを構築するとき、設計空間をつつき回すのは困難です。
すべての結合がそれを一緒に押しつぶし、以前のものがしたのと同じことをするか、あまりにも奇妙か、動作しないかのようなものにするでしょう。生物学は、ギア、車輪、固体鋼棒、固体ダイヤモンド棒をランダムに組み立てるよりも、弱い折り畳みの空間でランダムにつつき回すのが簡単です。
もし、働いた事故の束ではなく、自然選択、あなたに適応上の利点を与えたたまたま働いたランダムな突然変異の代わりに、生物学の類似物を持っていたら、基本的な物理的計算を行うなら。より多くの共有結合を使ったらどうなるかを尋ねるなら、目的でやっているので、私たちはそれができます。それはもはや蚊ではありません。ダイヤモンドでできた蚊です。それはもはや細菌ではありません。
あなたが知っている、抗生物質の前にもっと多くの人々を殺していたこの目に見えないもの。あなたは小さくてぐちゃぐちゃした免疫システムを持っています。共有結合したような、ダイヤモンドのように最も強い細菌があります。時々私が言うことですが、人々は「ああ、しかしそれは文字通りダイヤモンドではない」と言い、あなたは鋼鉄は言うまでもなく、さらに強く、さらに硬くなることができます。
生物学が炭素と一緒に行うこと以上に、炭素と一緒に行うことができることは、それがどう保持されているかの物理学を見て、これが異なって行われたらどうなるかを尋ねることで知ることができるようなことです。
だから、ほとんど空気から日光を使って自分自身を複製する小さな藻類細胞。多分あなたはそれよりも硬い藻類細胞を持っています。それよりも自然の捕食者に対してより抵抗力があります。空気だけから自分自身を複製します。水に浸る必要がありません。日光を使って。自己複製します。空は黒くなります。
皆が倒れて死にます。そして、それは超知能に負けることが実際にどのようなものかの領域に入ることです。
あなたの質問に答える際に、私がどうやってこれが実際に起こるかもしれないかについて非常に初歩的な答えを与えました。あなたはこれについて多くの時間を考えており、私たちには数分残っています。あなたは既に私たちと多くのシナリオを実行しました。
最も可能性が高いとあなたが思うシナリオやこれがどう展開されるかのゆるい種類のシナリオファミリーがありますか？
つまり、どれだけより良い予測可能なことができるかにどれだけ深く掘り下げるかに依存します。私たちは何を知っていますか？知らないのです。バンチのより多くの精神的馬力をものに入れ、そこからものを得ることができる場所を知っているか？
そして、それがどれだけ賢くなるか、どれだけ迅速にかに依存します。AIが「私は自分自身のアライメント問題のバージョンを解決する方法がわからない。私より賢いものを構築することを敢えてしない」と言うような、それほど妥当ではないが、妥当なシナリオのクラスがあります。
そして、それで人類がAIによって構築されたAIによって構築されたAIによって構築されたAIと対峙する代わりに、適度に知能的なもの程度と対峙しています。そして、その後、ある意味で馴染み深いもので作られたが、別の意味でより奇妙で複雑で呼びにくい非常に奇妙なシナリオの全種類を得ます。
もし十分に人類より賢いものと対峙するなら、皆が死ぬと言うことができます。人類より賢くないものを取り、多分近い将来に私たちが持つような種類のものを尋ねるが、多分彼らは少しの主体性を持っているなら。
多分Twitterで5000万ドルを稼ぐ次のAIは実際に物事をしようとしていて、5000万ドルを持っていたのはそれほど賢いAIではなく、どこかに人間がまだそれを制御していると伝えられているので、あまりのようです。物事は本当に奇妙になるでしょう。
超説得、すべての人々ではなく、一部の人々だけに働くAI。物事は本当に奇妙になります。あなたが曖昧な予測を求めています。チェスAIと対戦するようなもので、私のクイーンで何が起こるか、私のルークで何が起こるかを教えてください。私は知りません。最終的にあなたを粉砕するだけです。途中でどんな手を取るかわかりません。
それが私たちがここにいるシナリオの種類です。正直に言うと、これが本当に楽しい会話になると思っていたと知っていることはクレイジーです。楽しくなかったが、期待していたよりもはるかに重要で、著しく恐ろしいものになりました。
だから、本当にこの時間をありがとうございました。私たちの視聴者がそれから本当に多くを得るだろうと思い、非常に目を開かせるものになるでしょう。
これがすべてのことを言わなければならないのが申し訳なく、代わりにこれが楽しいインタビューである世界に私たちの両方が住んでいたらと思います。