
63,540 文字

歴史を通じて、新しいテクノロジーは様々なグループの力関係を大きく変えてきました。民主主義自体の出現も産業革命の出現に助けられたものでした。国の競争力にとって、教育を受けた自由な国民を持つことは非常に有利だったのです。この文脈において、AIは実際にその状況を逆転させるように思えます。
国の競争力にとって、力を持ち健全な市民を持つことはもはや重要ではなくなるでしょう。そのような背景と、歴史的に軍事クーデターは人々がそれを実行できる場合に一般的であるという文脈、そして少数の人々がこの非常に強力なAIテクノロジーを極端に制御できる状況が生まれる可能性がある中で、小グループによる権力掌握がSF的なシナリオだとは思いません。歴史の広範な流れの中で、民主主義はむしろ例外であり原則ではないのです。
今日はトム・デヴィッドソンと話します。彼はオックスフォードのForethought Centre for AI Strategyで、AI技術の進歩による突然の権力掌握について研究しています。トム、番組に再び出演してくれてありがとう。
お招きいただき光栄です、ロブ。
後ほど、AIが実際に権力掌握を可能にするという考えに対して人々が懐疑的な理由や、それを懸念する場合に実施できる対策について話し合います。まずは基本から始めましょう:AIはどのようにして少数のグループが多くの権力を握ることを可能にし、場合によってはアメリカのような国全体の権力を握ることを可能にするのでしょうか?
おそらく今後数年のうちに、AIシステムは政治的権力を獲得するための関連分野で最高の人間より優れるようになるでしょう。例えば新兵器の設計、軍事システムの制御、説得力、政治戦略、サイバー能力などの分野です。私の懸念は基本的に、非常に小さなグループ、あるいはたった一人の人間がそれらのシステムがどのように構築され使用されるかについて極端な支配力を持つ可能性があることです。
歴史を通じて、グループが国の権力を掌握してきた様々な経路がありました—軍事クーデター、政治権力に対するチェック機能の排除、反乱などがあります。小グループが武力によって現政権を打倒するような状況です。高度なAIはこれらの権力掌握への道筋のどれをも強化する可能性があると思います。
AIが権力掌握を可能にする可能性があるシナリオには、どのようなものがあるのでしょうか?クーデターということで、通常の軍を巻き込むケースもあれば、自前の軍隊を構築したり、AIを敵対的な方法で使用したりするケースもあるかと思います。
その通りです。
他にカテゴリはありますか?
ここでは三つの広範な脅威モデルを区別していますが、もちろんこの三つの組み合わせもあり得ます。
あなたが言うように、軍事クーデターは、既存の正当な軍があるけれども、技術的バックドアを使用するか、あるいは軍に権力掌握に協力するよう説得することで不正に制御を掌握するケースです。それが一つ目:軍事クーデターです。
二つ目は、あなたが言ったように「自前の強硬権力」と呼ぶもので、文字通りのとおりです:自分自身の軍隊と広範な経済力を作り出し、それによって現政権を打倒するのです。
三つ目は、より成熟した民主主義国で最近よく見られるもので、「独裁化」と呼んでいます。これが標準的な用語です。その大まかな流れは、政治職に選出された人物が、権力に対するチェック機能を排除していくというものです。多くの場合、現状に不満を持つ人々からの幅広い支持を得てそれを行います。
一見すると、AIが軍事クーデターを可能にするとか、そういったことを言うのは少し奇妙に聞こえるかもしれません。少しSF的な感じがします。私たちはこの会話に入るにあたり、どれくらい懐疑的であるべきでしょうか?これらの事象は非常に異常または非常に稀なものでしょうか?それとも、私たちが日常的に考えるよりも一般的なものと考えるべきでしょうか?
20世紀後半の世界全体で見ると、軍事クーデターは非常に一般的でした。200回以上の成功した軍事クーデターがありました。それらは主に最も成熟した民主主義国ではなく、民主主義の要素を一部持ちながらも完全な民主主義ではない国家で発生する傾向がありました。
しかし、AIテクノロジーによって、クーデターを可能にする新たな脆弱性が軍に導入されるだろうと思います。そのため、クーデターが民主主義国で起きていないという歴史的傾向が今後も適用されるとは限りません。
独裁化に関しては、最も極端な独裁化の事例、つまり完全な権威主義体制に至るケースは、アメリカのような成熟した民主主義国から始まったものではありません。しかし例えば、ベネズエラはウーゴ・チャベスが強力な社会主義改革の使命を持って権力を握る前は、40年間かなり健全な民主主義国でした。その後10〜20年にわたって、彼は事実上すべてのチェック機能を排除しました。そして今日では、民主主義のごく小さな見せかけだけを持つ権威主義体制と広く見なされています。
自前の強硬権力に関しては、歴史的に新しい軍事技術が人々のグループに大きな権力を獲得させてきた例を挙げられます。例えば、大英帝国は主に産業革命の恩恵を受けて構築されました。広範な経済的・軍事的力をもたらす多くの新技術があったのです。核爆弾は第二次世界大戦で決定的な優位性をもたらしました。ロングボウは典型的な例で、小さなイングランド軍がアジンコートの戦いでフランス軍を打ち負かすことを可能にしました。
新しい軍事技術が小さなグループに大きなグループを圧倒する力を与えることは非常に典型的です。新しい点は、一国内で新技術を急速に開発し、それによって現政権を打倒するというプロセスです。ここでAIが可能にするかもしれない具体的な点が関係してきます。
独裁化については、ロシアのような国でそれが起こるのをよく見かけます。過去20年にわたって起きているのを見てきました。
その通りです。ロシア、ベネズエラ。もう一つの良い例はハンガリーで、有望で比較的堅固な民主主義だと考えられていました。そして2010年代にヴィクトル・オルバーンが権力を握り、メディアへの圧力や選挙制度の改ざんの組み合わせによって、今では民主主義とはもはや見なされない状況になっています。
AIという技術の構造的な特性のどのような点が、小集団による権力掌握を可能にするのでしょうか?
私の考えでは重要なのは、本当に小さなグループ—おそらくたった一人の人間だけが—テクノロジーがどのように構築され使用されるかについて極端な支配力を持つという事態が驚くほど起こりうることです。
なぜそうなるのかについて、いくつか説明しましょう。今日、最先端システムを開発するには既に膨大な資本コストが必要です。必要なコンピュータチップには数億ドルのコストがかかります。そのため、すでにそのゲームに参入できる企業は少数しかなく、参入障壁が高いのです。
そして時間が経つにつれて、この要因は増大すると思います。初期学習実行がますます高額になっているからです。o1のような行為主体的学習への移行があっても、最も優れたシステムを訓練するための合成データを生成するために多くの計算能力が使用されると予想されます。
また、AIには大きな規模の経済性という広範な経済的特徴があります。これは、開発の初期コストが膨大で、追加の顧客にサービスを提供する限界コストが非常に小さいことを意味します。また、異なる企業によって生産されるAIはお互いにかなり似ています。ClaudeとGPT-4の間には小さな違いはありますが、大きなものではありません。
経済的に言えば、これらの特徴は自然独占、つまり市場全体にサービスを提供する1つの企業を支持する傾向があります。これらの経済的特徴が必然的に最先端AI開発者が1社だけになるところまで押し進めるとは言いませんが、市場の統合が進む可能性があるという広範な構造的議論があると思います。例えば、半導体サプライチェーンで過去数十年に見られたような統合です。現在、最小ノードチップを生産できるのはTSMCだけです。
これらが経済的要因です。AI開発の集中化につながる可能性のある政治的要因もあると思います。人々は合理的な国家安全保障上の理由からAI開発を集中化することを提案しています。それにより、外国の敵対者に対してAIの重みをより安全に確保できるかもしれません。そのため、これは説得力があると思います。
また、AI安全性のために、レースを防ぐために1つの集中プロジェクトを持つことが良いと考える人もいます。
また、AI開発の観点から集中化につながる可能性のあるAI特有の理由もあります。前回のポッドキャストで話した再帰的改善という考えがあります。これは、おそらくまもなく、AIがOpenAIのような最先端AI開発者の技術スタッフを完全に置き換えることができるようになるというものです。そうなると、以前はトップAI開発者とその遅れをとっているところとの差がわずかだったとしても、AI研究を自動化すると、そのギャップが急速に大きくなる可能性があります。なぜなら、AI研究を最初に自動化した組織は大きな速度向上を得るからです。そのため、複数のプロジェクトがすべて最先端システムを開発しているように見えたとしても、実際には最高のシステムに関して本当に1つしかないという状況になる可能性があります。
つまり、この完全に汎用的で強力なテクノロジーを開発している組織が1つだけになる世界に簡単に至る可能性があるということです。
それでもその組織内には多くの異なる人々がいて、多くのチェック機能があるから大丈夫だと言うかもしれません。しかし、実際にはそうならない技術的な道筋があり、これもまたAIがその企業の技術研究者を置き換える可能性に関連しています。
今日、例えばGPT-5の開発に関わっている数百人の異なる人々がいます。誰かがその技術の構築方法を操作して特定のグループの利益に役立てようとした場合、そうするのは非常に難しいでしょう。プロセスに関わる多くの異なる人々がいるからです。彼らは何が起きているか気づき、報告するかもしれません。
しかし、それらの研究者をAIシステムで置き換えることが技術的に可能な世界になると―これは完全に従順な指示に従うAIシステムかもしれません―実質的に組織のトップにいる一人の人間が命令を出す状況が考えられます:「次のAIシステムをこのように開発してほしい。これらの価値観を持たせたい」と。そして忠実で従順なAIの軍団がAIシステム構築のための技術的作業をすべて行うでしょう。技術的に言えば、その作業を行う人間はループに入る必要はありません。これにより、最先端AIの―おそらく唯一の―開発者内の自然なチェック機能の多くが排除される可能性があります。
つまり、超人的AIシステムを構築している組織が1つだけあり、実際にはシステムがどのように構築されるかについて重要な決定を下しているのは1人だけという状況になる可能性があるということです。これがシステムに対する極端な支配力と考えます。
他の従業員がプロセスの一部を監視しているという外観があったとしても、承認なしにシステムに変更を加えることができる多くのアクセス権を持つ誰かが、秘かにサイドプロジェクトを持ち、多くの技術的作業を行うリスクはあります。
そして、従業員が一部のプロセスを監視していたとしても、そのサイドプロジェクトが技術の形に重大な影響を与えることができる可能性があります。
AIやAGIを他の技術と区別する重要な点は、独裁者でさえ、一見すると巨大な権力を持っているように見える人々でさえ、「一人で統治する者はいない」というクリシェです。
ウラジーミル・プーチンであっても、一見すると国全体を支配しているように見えても、自分で税金を徴収することはできませんし、実際に軍隊の銃を持つこともできません。あなたには協力して権力を行使する膨大な数の人々が必要です。より広範な人々の見解に配慮する必要があります。彼らが自分たちの利益によりよく仕えるのは別の誰かだと思えば、あなたを排除するかもしれないからです。
その通りです。
この会話を通して、アライメント問題は大部分解決されていると想像しましょう。少なくとも実用的な目的のためには、AIモデルは役立ちます:指示されたことを実行し、操作する人、制御する人、所有する人を助けようとしています。
その場合、会社を経営する人や、モデルを操作する人は、基本的にモデルに自分に忠実であるように指示し、常に自分に忠実であり続け、自分の指示に従い続けることを確認できます。そして経済や軍事において、AIがほとんどすべての有用な仕事を行っているならば、彼らは基本的にこれらのグループ全体の忠誠心を持っており、他の人々が自分たちをどう思うかについてそれほど気にする必要がなくなります。
そのとおりです。そして私は特にその洞察をAI開発者自体に適用しています。実際に最初に自動化される可能性のある仕事の一つはAI研究自体だと思います。それは非常に利益が大きいからであり、AIを作成している人々がその種の仕事に親密に精通しているからです。
だから、もはや人間に頼る必要がないという洞察をAI開発プロセスに適用しています。その文脈では特に恐ろしいです―なぜなら今、この全く新しい強力な汎用技術がごく少数の人々によって制御される可能性があるからです。
そして、そこでの極端な制御には2種類あることを区別したいと思います。
第一の種類の極端な制御は、超人的AIがどのように使用されるかについての制御です。これらのシステムを開発すると、それらを開発するために使用したコンピューティングを使用して、権力獲得に関連するドメインで最高の人間と同等かそれ以上に優れたAIのコピーを何億も実行できる可能性があります。
これらの組織のリーダーがそのコンピューティングの1%だけを使用して―密かに誰にも知られずに―権力を掌握する方法を計画したとしたら、それは絶対的にスマートで勤勉な人々が100万人、権力を掌握する方法について可能な限り考えるのと同等です。
一人の人がそのような権力掌握のための計画や行動に対して、そのような大規模な努力を得られた状況は過去にありません。これが最初の種類の極端な制御です:AIの使用です。
二つ目は―これはもしかすると、さらに恐ろしいことかもしれませんが―技術がどのように構築されるかについての極端な支配力です。私には、社会の広範な利益を念頭に置き、法の支配を尊重するように見えるAIシステムを作ることは技術的に可能であると思われます。しかし、実際には一人の人間に忠実なのです。
これを「秘密の忠誠心」の問題と呼んでいます:AIプロジェクトで力を持つ誰かが最終的に権力を掌握したいと望んだ場合、彼らができる一つのことは、これまでに作成されたすべての超人的AIが実際には彼らに秘密裏に忠実であるようにすることです。
そして、それが経済全体に、政府に、軍隊に、人々と毎日会話する場所に展開されると―彼らの仕事について、何をすべきかについてアドバイスするとき―それは常にその一人の人間の利益を秘密裏に代表し、権力を掌握する機会を探しています。
そして、これらの間で―秘密の忠誠心の可能性と権力を掌握する目的のためにこの膨大な知的労働力を使用する可能性―小さなグループまたは一人の人物が権力を成功裏に掌握する可能性が技術的に恐ろしいほど可能であると思われます。
なぜすべてのAI、社会中のこれら多くの異なるAIモデルが一人の人間に忠実になる可能性があるのか、明確にしましょう:毒は最初に始まります。AI研究を行い、他のモデルの訓練方法を理解するAIがそれを行っているため、この種のAI研究を担当する最初のAIが一人の個人に忠実であり、その個人が後続のモデルもこの秘密の忠誠心を維持することを確実にするよう指示した場合、それはそこから無期限に続くのです。
その通りです。最初は、おそらくAI研究のAIのみが秘密裏に忠実で、ラボ内で動作しているAIのみが該当します。しかし後に、彼らは他のAIを作成するでしょう―おそらく軍事装備を制御するAIや、ロボットを制御するための特化型AIを作成するでしょう―そして、あなたが言うように、それらの他のAIシステムにも秘密の忠誠心を埋め込んだり、それらの他のAIシステムにバックドアを設置したりして、最終的にその一人の人間がAIとロボットのこの広範なインフラを効果的に制御できるようにするでしょう。
この秘密の忠誠心の問題は人々にはSFのように聞こえるかもしれませんが、これは非常に現実的な問題です。現在のモデルでは、内部を見て何をしているかを理解する現在の能力レベルでは、彼らに秘密のアジェンダを与えることが可能であり、そのアジェンダが呼び出されるときまで明らかにしません。モデルを検査しても、そのような秘密の忠誠心があるとはわかりません。他にも何かありますか?
今日のシステムはこれを非常に洗練されたものにするには十分賢くないと言えると思います。Anthropicの「Sleeper agents」論文では、2023年には安全なコードを書くが、2024年になるとぜい弱性を挿入するというAIシステムの例があります。これは、主に誰もの利益のために行動しているように見えるが、チャンスがあると一人の人の利益を優先するというAIシステムに緩やかに類似しています。
しかし真実は、彼らはそのような戦略を非常に洗練された方法で実行することはできないということです。だから、システムで遊んでいて、100万の異なる入力を与えてその反応を見ることができれば、これは何らかの秘密の隠された意図を持つAIシステムであることを検出できるでしょう。だから、今日のリスクとしては、実際に私たちが気づかない秘密の忠誠心があるという可能性はないと思います。
しかし、私たちはより強力なシステムを見据えています。異なる国で働き、異なる組織で働き、真の意図について同僚全員を一貫して欺きながら、裏切る稀な機会を捉えることができる人間のスパイの例があります。それが未来に見るかもしれないものの一例です。
そして、AIシステムは最終的に人間よりもはるかに知的になると予想しています。したがって、これらの秘密裏に忠実なAIが実行できる戦略がどれほど洗練されたものになりうるかという点では、それは最低限の閾値にすぎません。
スリーパーエージェント論文からの私の理解では、重要な問題は、忠誠心が活性化するトリガーが何であるかを知らない場合、モデルの評価やテストでそれを観察することが非常に難しいということです。
トリガーが何であるかを知っていて、それを活性化するようにだまし、それが存在することを確認できれば、それがあることがわかります。また、人々はモデルを精査し、特定のトリガーに対して埋め込まれた他の忠誠心や他の異常な行動を検出できるような他の方法に取り組んでいます。しかし、私たちはまだそこまで達していません。
その通りです。いわゆる猫とネズミのゲームのようなものです。少なくとも単純なトリガーを検出する方法があり、特定の問題行動をトリガーする入力を探すことができます。しかし、私も同意するのは、一般的に言って、存在する可能性のあるすべての異なるトリガーを検出する超頑健な方法は存在しないということです。
ここで言及する価値があるのは、ミスアライメントとの類似点です。人々は「計画者」、つまり私たちに合っているように見せかけているが、実は自分たちの目標を秘密裏に追求しているAIを心配しています。
言及する価値があるのは、これらの秘密の忠誠心は、技術的に言えば、計画AIよりも厳密に可能性が高いということです。計画AIの場合、心配は単にそれを訓練すると、意図せずに、AIが秘密の目的を持ち、あなたからそれを隠せるようになることです。ここでは実際に、その行動を埋め込み、テスト時に誰も検出できないようにするための重要な技術的努力が潜在的にあると想像しています。
だから、計画が可能であるリスクがあるなら、非常に洗練された秘密の忠誠心を実行することが可能であるリスクは非常に大きいだろうと予想します。
ここでの主なリスク要因は何ですか?AI研究の自動化を挙げましたが、これは実際の人間がプロセスに関与する数がはるかに少なくなる可能性があります。また、他のものより遥かに先を行く一つのプロジェクトがあるということも、先導的なAIモデルが他の行為者を戦略的に出し抜き、行動で上回る能力ははるかに高いということになります。他に主なリスク要因はありますか?
はい、もう一つのリスク要因は、その研究を自動化するとき、その自動化がどのように構造化されるかです。私は最悪のシナリオを描きましたが、すべてのAIが一人の人間に報告するというものです。自動化をはるかに良い方法で構造化することができます。個々のチームを自動化し、それでも人間がそれらのチームの仕事を監督し、一人の人間がシステム全体を操作するのを防ぐようなある程度のサイロ化があるようにすることができます。だから、組織のガバナンスです。
組織の透明性も大きなリスク要因だと思います。会社がその能力の危険性についての最高の分析、リスクについての最良の理解(内部脅威を含む)を公開し、多くの人々がそれらの分析に関わっているなら、この種のリスクが発生する可能性はずっと低くなると思います。
AI能力が向上するスピードもこの時期にはリスク要因です。非常に速いAIのテイクオフがあり、人間レベルから超人レベルのシステムへと非常に迅速に移行すると、主導プロジェクトと次のプロジェクトとの間のギャップ、そして社会にさらに広く普及している能力とのギャップが著しく拡大する可能性があります。そしてそれは、この小さなグループの人々にさらに極端な支配力を与える可能性があります。
それはリスクを軽減するために何ができるかという質問への非常に自然な導入ですね。会話の後半で、リスクをさらに詳細にマッピングした後、これをより徹底的に取り上げますが、高レベルでは、これらすべての種類の脅威を軽減するためにどのような選択肢がありますか?
今はハイレベルにとどめますが、一つの重要な介入は、モデルの内部使用に対する洗練されたセーフガードです。
現在、外部に提供されるモデル、あなたや私がAPIでアクセスできるモデルには、いくつかの安全対策が施される傾向があります。例えば、パイプ爆弾の作り方は教えてくれません。しかし、トップラボ内では、役に立つだけのモデル、つまり違法であっても与えられた指示に従うモデルを入手するのはそれほど難しくないというのが私の理解です。いくつかのラボはそれを変更する計画をしていますが、本質的に内部使用にそれらの安全対策を組み込むことが大きな対策の一つです。
能力を広く共有すること:ごく少数の人々だけがこのシステムにアクセスできる状況を避けることです。そして安全にできる限り広く、多くの人々に能力へのアクセスを与えることです。
モデル仕様の公開も一つです。AIがどのように振る舞うことになっているかというルールセットを公開すれば、外部の人々がこれらのリスクが低いことを検証しやすくなります。だから、それを公開することは大きな改善だと思います。
紹介文でも述べたように、あなたはForethought Centre for AI Strategyというところで働いています。先に進む前に、そのことについて少し教えていただけますか?
Forethoughtは、ウィリアム・マッカスキル、アムリット・シドゥ=ブラー、マックス・ダルトンとともに設立した新しい戦略研究組織です。その主な焦点はAGIへの移行に関連する軽視された問題にあります。
変革的AIシステムを真剣に考えた人々の多くは、主にAIがミスアラインし、おそらく乗っ取るというリスクに焦点を当ててきました。しかし、これらのAIシステムがもたらす他のホストの問題もあります。今日、私たちはその一つについて議論しています:人間の権力掌握のリスクです。ウィリアム・マッカスキルは別の問題、つまりAGIを持った後の社会にとってどのような積極的なビジョンを目指すべきかに焦点を当てています。他にも多くの問題があります。
Forethoughtで働くのを本当に楽しんでいます。以前よりもはるかに協力的な研究環境であり、それがはるかに楽しく、また非常に生産的であることがわかっています。
誰が他にこの権力掌握の問題に取り組んでいますか?一度指摘されれば比較的明らかな問題のようですが、これに気づいて何かを書くことを決めた他のグループはたくさんありますか?
驚くほど軽視されています。カール・シュルマンは数年間この問題について話してきました。ルーカス・フィンヴェデンはここで素晴らしい研究をしており、私たちは協力してきました。彼は今日私が言う賢明なことすべてに対して功績を受けるべきです。
それ以外では、このリスクを認識し、自分の仕事に取り入れている様々な人々がいますが、フルタイムの仕事は非常に少ないです。権威主義に対するAIリスクに関連する研究分野がありますが、これはAIが民主主義を損なう可能性がある分野ですが、それは主に特に権力掌握に焦点を当てていません。
AIの忠誠心や権力掌握について心配してきた人々のほとんどはAIモデル自体のミスアラインメントを心配してきました。彼らの秘密のアジェンダは自分たちで権力を握ることです。
しかしこれは非常に隣接する問題であり、あなたが言及したように、おそらくより可能性が高いとも言えるでしょう。なぜなら、AIモデルが何らかの驚くべき予期しない方法で独自の独立したアジェンダを持つようになる、あるいは自分自身のために権力を欲しがるとは想像する必要がないからです。代わりに、単にそれが特定の目的のために設計され、人々のグループのために権力を獲得するよう指示されたと想像すればいいのです。だから、少なくともミスアラインした野生のAIの懸念と同じくらい可能性がありそうです。なぜこれについてあまり考えが払われていないのでしょうか?
歴史的に、超人的AIについて考えていた人々は、AIをアラインすることが非常に難しく、AI乗っ取りが非常に可能性が高いと考えていたと思います。その視点から、その前提で考えると、より可能性の高いリスクを優先することは理にかなっています。彼らはおそらく、人間の乗っ取りは比較的起こりにくいと考えていたでしょう。なぜなら、その分析の一部では、誰にも気づかれずに秘密の忠誠心を挿入することができる人間が実際にいなければならないからです。
また歴史的に、AIの乗っ取りは人間の乗っ取りよりもはるかに悪いという見解があったと思います。人々は歴史的に、AIが乗っ取った場合、完全に異質な価値観を持ち、将来に価値あることが何も行われない可能性が非常に高く、それは絶滅と同じくらい悪いと考えてきました。そして多くの人々は、AIが乗っ取りをすれば人類の絶滅に非常に可能性が高く繋がると信じてきましたし、今でも信じています。
一方、人間の乗っ取りでは、その人間は実際にはまだ素晴らしい未来を構築する可能性があります―彼らは自分勝手でいることができますが、ある時点を超えると、宇宙の残りの部分を何かのために使用しなければならないからです。だから、考えはAIの乗っ取りの方が悪いだろうということだったのでしょう。その質問は実際にはもう少し複雑であり、人間の乗っ取りの方が悪い可能性がある理由もいくつかありますが、それが歴史的な視点だったと思います。
もう一つの理由は、人間の権力掌握について心配することは、それが政治的に分極化され、「誰もが特定の個人を指さす」状況に陥るリスクがあり、それは本当に残念なことだと思います。対照的に、「人類がこの技術の制御を維持することを確実にしよう」というビジョンの背後に誰もが団結するのは簡単です。
しかし、誰もが団結して、AIが民主主義を維持する方法で開発されることを望み、個人の権利を保護し、米国憲法を尊重すると言うことは可能だと思います。そして私たちは皆それを支持できます。だから、それが分極化や指差しになる必要はないと思います。
あなたがこれに焦点を当てているのは、ミスアラインメントが問題ではないと考えているから、あるいは現在行われている技術的努力によって解決される可能性が高いと考えているからですか?
全体的に、私はこのスペースの多くの人と比較して、AIアラインメントが解決される可能性について楽観的ですが、おそらく一般的な人口の平均的な人と比較すると悲観的です。
おそらく、最も可能性の高いシナリオは、AIをアラインするのが簡単で、途中で小さなつまずきがある程度であると言えるでしょう。しかし、解釈可能性を行い、大量のレッドチーミングを行い、そして人間レベルのAIを使用して段階的にブートストラップする[超知能に]能力は、個人的に楽観的に感じる点です。そのため、相対的に言えば、人間の権力掌握リスクにより関心を持つようになりました。
ミスアラインAIに関する懸念と権力を求める人間グループに関する懸念が似ている点をいくつか指摘しました。それらに影響を与える可能性のある重要な構造的な違いで、どのような解決策が機能するかに影響を与えるものはありますか?
はい、あります。おそらく私が先ほど説明した3つの脅威モデルを検討すべきでしょう。
まず軍事クーデターから始めましょう。ここでは、人間の権力掌握とAIの権力掌握で非常に似たストーリーがあり得ます:一度軍隊の大部分を自動化すると、軍を制御するAIシステムが自分自身または人間のために権力を掌握したい場合、彼らはそうすることができます。だから、そのモデルの脅威はどちらにも当てはまります。
同様に自前の強硬権力については:再び、一度グループがこの新しい軍事装備を生産し、それが非常に強力でAIシステムによって制御されている場合、それらのAIシステムがミスアラインしていれば、彼らは自分自身のために権力を掌握するか、あるいは人間のために権力を掌握することができます。
このモデルの脅威は、本当に助けようとしている人間がいる場合、より簡単だと思います。なぜなら、人間には組織を設立し、軍事装備を調達するための特定の正式な許可があるからです。これにより、十分な技術的チェックと保証がない場合であっても、これらのAIが軍事装備を制御する状況に実際に至ることを容易にする可能性があります。人間の同盟者なしに活動するAIは、その点で苦労するでしょう。
最後の一つは独裁化の脅威モデルで、実際にはかなり大きな違いがあります。AIがその脅威モデルを通じて完全な権力を得るのははるかに難しいです。なぜなら、大統領のような正式な権力の地位にAIを置くことは正式に、法的に許容できないからです。
だから、人間の場合、あなたは大統領になり、その後あなたの権力に対するチェック機能を取り除くという戦略は実行可能です;AIの場合、それは一つのステップストーンであり、後の段階で、おそらくこれらの他のルートの一つを通じて、彼らは自分自身のために権力を掌握するでしょう。
もう一つ興味深いのは、AIの乗っ取りのリスクの方が人間の権力掌握よりも共謀のリスクが大きいと思います。例えば、2つの組織が超人的AIを開発しているとします。その一つで、その内部の人間がAIに秘密裏に忠実にさせたとしても、もう一つの組織も同じことをしている可能性は特に高くありません。一グループのAIが秘密裏に邪悪で、もう一方のグループも同じであるという必然的な相関関係はありません。
したがって、この最初の組織からの秘密裏に忠実なAIが第二の組織のAIと共謀し、その後権力掌握を行うとは予想されません。なぜなら、実際には第二の組織はアラインメントされている可能性が高く、その共謀を拒否し、最初のグループが権力を掌握するのを防ぐからです。
しかし、AIの乗っ取りのリスクは、異なる組織のAIがミスアラインしているかどうかの間にかなり大きな相関関係があるかもしれません。だから、一つの組織が、AIをアラインしようとする努力にもかかわらず、結局ミスアラインした権力を求めるAIを持つことになった場合、別の組織も同じ状況にある可能性が比較的高いです。
そうすると、これらの異なるグループのAIが実際に秘密裏に共謀し、権力を掌握するために一緒に働く可能性が高くなります。
だから、異なるタイプのAIの間の洗練された共謀を含む脅威モデルがあり、それは人間の権力掌握の文脈ではあまり意味をなさないと思います。
そうですね。ミスアラインAIを持つ2つの異なる企業がそれぞれある場合、懸念は彼らが互いに通信し、基本的に権力を掌握するために協力するという取引を考え出し、そして彼ら自身の間で戦利品を分け合うというものかもしれません。
同じことを想像できませんか?つまり、他の目標を持つミスアラインAIと、小グループの人々とアラインされた別のAIがあり、その後彼らが協力し合い、再び基本的に戦利品を分け合うことができるというケースです。彼らの究極の目標は、彼らが効果的に協力し、そうする方法を見つけることができるかどうかにそれほど重要ではありません。
その通りです。秘密裏に忠実なAIがミスアラインAIと協力する可能性があることに同意します。私が言っていたのは、2つの秘密裏に忠実なAIグループが互いに協力する可能性は低いということです。そして、アラインメントが簡単で、一つのグループが秘密の忠誠心を持つ場合、おそらく他のグループは実際にはアラインされているので、秘密の忠誠心の可能性はないでしょう。しかし、そうですね、秘密裏に忠実なAIやミスアラインAIはお互いに協力する可能性があります。それは良い指摘です。
これらのさまざまなシナリオについて話しているとき、人々は小グループがアメリカやイギリス、あるいは世界全体の権力を握ろうとするというイメージを持つべきでしょうか?「これは妥当に聞こえるか」と考えるとき、あなたはどのようなイメージを持っていますか?
私は主にアメリカのことを考えています。今日お話しするほとんどのことは、小グループが国家の権力を掌握することについてのものであり、アメリカが主な例です—なぜならそれはAIをリードしているからです。したがって、このリスクが最初に出現する可能性のある国であり、これが起こらないようにすることの重要性の観点から最も重要な国の一つかもしれません。
しかし、小グループが世界全体の権力を握るリスクにも関心があります。現在の私の最善の推測では、一人の人間が世界を乗っ取ろうとしている場合、彼らの最善の戦略は、まずアメリカ、特にその権力を掌握しようとすることかもしれません。その理由は、AIが開発されている場所であり、すでに非常に強い国であるからです。そして、アメリカを乗っ取った後、アメリカの広範な経済的・軍事的力とAIにおける大きなリードを使用して、世界の残りの部分を乗っ取るのです。
私たちは、時間の経過とともに、これが全世界の乗っ取りにつながる可能性があることを想像できますね。しかし、それは第二段階であり、その実行方法や失敗を避ける方法に関する他の考慮事項が関わってくるでしょう。今日はそれにはあまり焦点を当てませんね。
簡単な考えをいくつかお話しできます。アメリカはすでに世界的に軍事的に非常に強力なので、AIにおける大きなリードを持つことで、非常に強力な軍事技術を開発し、潜在的に他の国を支配することができるでしょう。
再び、大英帝国と産業革命におけるリードが世界的に多くの力を得ることを可能にしたという類推を引き出すことができます。実際、カール・シュルマンは興味深い分析をしており、1500年の大英帝国は世界のGDPの1%でしたが、1900年までに8%になったと指摘しています。それは8倍の増加です。
アメリカはすでに世界のGDPの25%です。もし、アメリカがAIをリードし、AIが産業革命が成長を加速させたように経済成長を加速させるので、アメリカのGDPシェアの相対的な増加が同程度あった場合、アメリカが今や世界の経済生産の絶対多数であるという状況に実際に至ります。
そして、AIをリードしているためにその経済的優位性からさらに大きな経済的優位性へとブートストラップできるという考えがさらにあります。
ウィリアム・マッカスキルが私に指摘したポイントは、アメリカは必ずしも他の国々を直接支配する必要はなく、太陽系の残りのエネルギーを制御する最初の国になるかもしれないということです。
太陽のエネルギーのほんの一部分だけが地球に降り注いでいます。技術的発展の充実の中で、残りのエネルギーを利用することが可能になるでしょう。だから、世界的な覇権への一つのルートは、AIからの一時的な経済的・軍事的優位性を使用して、宇宙からの追加エネルギーをすべて最初に掴むことです—そして今やあなたは世界の経済生産の99.99%以上になるでしょう;他のどの国にも、どのようにも侵害する必要はありません。
その点についてもっと聞きたい方は、昨年カール・シュルマンとの2つのインタビューでこれらの爆発的成長のダイナミクスについてかなりの議論があります。合計で5時間ほどあり、おそらくこのトピックについて1〜2時間程度あります。
アメリカを制御し、AGIとそれに関連するすべてのロボット技術において大きなリードを持っている状態から、それを活用して世界の支配権を基本的に獲得するという一歩がかなり妥当だと思います。私にはかなり現実的に思えます。あなたが言っていたように、それはAGIで産業革命で起こったことと同じことが起こるだけでいいのです。
これはすべて、あなたが独裁化が不良な結果への経路の一つだと言っていたことを思い出させます。この懸念と、中国共産党がAGIを使用できる—人々を監視し、彼らの言うことをすべて解釈し、彼らのすべての通信を監視し、人々がどこに行くのかを追跡する能力—という懸念の関係は何ですか?彼らが基本的に無期限に中国の権力、中国の支配権を固定する可能性があります。私はそれが40年代後半に権力掌握が起きた場合だと想像しています。
だから、すでに国の支配権を持っているグループがあり、今彼らはこのシナリオで想像できる第二段階、つまりAIを使用して自分たちの支配権を固定し、現在よりもさらに挑戦することを困難にするという段階を行っているのです。
その通りです。私の研究のほとんどは権力を掌握するこの最初の段階についてでしたが、その後、国に対する制御を実際に本当に強化するという次の段階があります。
現在、あなたが先ほど示唆したように、CCPは中国に対して絶対的な支配権を持っていません。なぜなら、CCPが本当に恐ろしいことをした場合、CCPの命令に従わない多くの軍人がいるからです。そしてCCPは経済で働くすべての人々からその強さを最終的に得ているので、CCPは彼らを満足させるために一生懸命働いています。
私たちには、習近平という名前を知っている一人の人が特別な支配力を持つ単一のアクターのように見えますが、中国共産党の内部にいる場合、かなりの多元主義があり、進む可能性のある異なる道について恐らくかなりの議論があるのではないかと想像します。一人の人が文字通りすべてを絶対的に決定する世界と比較すると、おそらくかなり多元的で動的です。
それは素晴らしい指摘だと思います。そして、より少ない多元主義の世界へと移行するルートは、私たちが議論したように、従順なAIを使用して軍隊を自動化し、最終的には経済のすべての他の部分を自動化することでしょう—そうすれば、あなたはもはやその利益の多様性に頼り、それらを満足させる必要がなくなります。そして、技術的に言えば、一人の人が完全に制御している本当に極端な量の絶対的な力を持つことができるでしょう。
これは少なくとも、最高指導部がこの方法でAIを使用したい場合、可能であると私には思えます。以前に話した他の国々との競争の外部制約を脇に置けば、彼らを止めるものは何かを見つけるのは難しいです。
おそらく、これは共産党の大多数の人々の利益にはならないという問題があります。なぜなら、それによって党内でも極少数の人々への権力の集中が可能になるからです。だから、将軍たち、党のトップ1000人は、ほんの一握りの人々への権力の集中を可能にするこれらの種類の制御を実施することに反対するかもしれません。
その通りです。だからこそ、広範な透明性がこれらのリスクに対する優れた一般的な解決策だと思います。なぜなら、最終的には膨大な権力の集中を持たないことが誰の利益にもなるからです。だから、もし誰もがリスクを完全に認識し、AIが誰に従順で、様々な高リスクのシナリオ—例えば小グループのために権力掌握を命令されている場合—で何をするかを完全に認識している場合、今日、権力が広く分散されているという事実がAIの自動化を通じても自身を前進させることができるように思えます。
重要な観察は基本的に、これに対して私たちが持っている主な防御は、現在、権力が合理的に広く分散しているということですか?現在、権力を持っている人々はこの権力掌握に反対しておらず、彼らが現職者です—しかし、彼らには立ち上がり、彼らが持っている権力の程度に対するこの脅威があることを観察し、最終的に彼らが何の権力も持たないことになるこれらの変化をブロックする必要があります。彼らがそうしなければ、彼らは困ることになります。
そう思います。そして私たちが話している多くの変化は、特に権力掌握について話す必要はなく、それらを動機づけることができます;あなたは、外国の敵対者や個人的な利益のために働く内部者によって干渉されることができないように、非常に安全な方法で生産されるAIシステムの必要性について、そして広範な民主的制御を維持する方法でAIを構成する必要性について、ただ話すことができます。
最初に、これらの異なる権力掌握シナリオがどのようなものであるかを簡単に概説しましたが、それ以来、抽象的に話してきました。人々がそれが合理的に聞こえるかどうかについてより直感を持てるように、これらの権力掌握が実際にどのように行われるかを段階的に考えてみるのが良いでしょう。
おそらく最初に話しやすいのは軍事クーデターです。それはどのように起こるのでしょうか?
そうですね。今日、アメリカで軍事クーデターを行いたい場合、あなたは武装勢力の一部があなたを支持するよう説得し、重要な場所を掌握する必要があり、残りの武装勢力があなたに反対しないよう説得する必要があります。
そして、これらの両方が非常に難しいでしょう。なぜなら、武装勢力には民主主義と法の支配への非常に強い規範と約束があるからです。だから、あなたは「この政府に満足していない、権力掌握をすべきだ」という会話を始めることすらできないでしょう。それはすぐにアラームベルが鳴り、あなたは始めることすらできないでしょう。
しかし、将来、私たちは軍隊の大部分を自動化しなければ軍事的に競争力を持てない世界に至ると思います—つまり、AI制御のロボット兵士、AIが制御するあらゆる種類の軍事システムです。
その時点で、クーデターを可能にする可能性のある3つの新しい脆弱性が導入されると思います。一つずつ説明していきましょう。
最初のものは、私たちがほとんど犯しうる基本的な間違いのようなものです。おそらく自動化を始めるにつれて、最初のAIシステムは限られたタスクのみを実行し、それらはそれほど自律的ではないので、それらは人間のオペレーターの指示に従うべきだと言うことは非常に理にかなっています。
そして、人間が法を遵守する命令を出す限り、AIシステムはそれを行います。そして、人間が違法な命令を出した場合、AIシステムはそれに従い、それは人間の責任です。
だから、自動化する方法として、AIシステムが何であれ人間の命令に従い、人間に軍事行動の違法性の点で責任を持たせるという可能性があります。
これは通常、他のすべての軍事装備と同じようにAIの軍事応用を考えることになりますね。銃は命令を拒否せず、戦車も命令を拒否しません。それは人間の責任です。
その通りです。しかし、AIシステムが十分に自律的になると、それを変更することが本当に重要になるでしょう。例えば、AIが制御するロボット兵士が与えられた命令に従うだけであれば、最終的に指揮の連鎖が大統領で終わるとすれば、彼らは大統領からの違法な命令にも従うことになります。例えば、軍事クーデターを行う命令にも。
そして、彼らが自律的に動作できる場合、彼らはただその命令に従い、文字通り私たちが今日から見れば明らかな脆弱性を持つこのシステムを構築したために軍事クーデターが起こる可能性があります。
少し戻りましょう。なぜ軍隊にAGIを組み込むのでしょうか?そしてそれはどれほど深く埋め込まれる可能性がありますか?
重要なのは軍事的競争力です:人間の兵士は、技術がその段階に達すれば、AIロボティクスの代替品と比較して、あらゆる領域においてスマートさ、速さ、効果的さ、正確さが劣るでしょう。
したがって、最終的には軍事力の観点から、連鎖のあらゆるステップで人間を置き換えることが理にかなっています。
そのプロセスがどれだけゆっくり進むかという大きな疑問があります。人々は非常にゆっくりと慎重に進んでいるのか、それとも中国などとの競争があるように見えるので急いでいるのでしょうか?しかし、時間が経つにつれて、軍事力の大部分が今や完全に自動化されたシステムにあるという世界に到達すると思います。
それは軍隊を産業化した理由と同じですね:競争相手に追いつくためのほぼ唯一の方法です。
そして、DCでは中国との競争は、人々がAIについて考える際の支配的なフレームであり、競争力を維持するために軍隊にAIを組み込むことは、人々が話し、真剣に取り組む非常に重要なことです。
だから、そのステージは合理的に可能性があると思いますが、どれくらい速く進むか、そして展開する前にすべてが大丈夫であることを確認するためにどれだけチェックしたいかについては多くの不確実性があります。国際情勢が激化すればするほど、人々は競争相手に追いつくために迅速に行動する必要があると感じるでしょう—そして安全性や秘密の忠誠心をどのように検出するか、どのような脆弱性があるかについて考えるために角を切る可能性が高くなります。それがリスクを高めます。
悪夢のシナリオは、AGIがどのように振る舞うべきか、あるいは軍隊でAGIがどのように動作すべきかを考える際に、それが基本的に法律に従うべきだとか、最高裁判所の判決を認識する必要があるとか、法的文献をスキャンして何をしているのが受け入れられるかを理解するLLMでもあるべきだとは言わずに、命令に従うべきだと言うことです。そして、それは軍隊がかなり考える方法だと思います。非常に迅速にイベントに対応する能力を持つという点では、概して、人々は命令に従うよう教えられています。
軍隊には憲法を遵守するという強い取り組みがあると思います。だから、特定の高リスクな状況では、彼らは限界的に違法なことをするかもしれません。しかし、誰かが権力を掌握するのを手伝うために軍隊の大隊がホワイトハウスの支配権を掌握するよう説得するのは非常に難しいと思います。だから、それはAI制御の軍隊が実際に比較によってはるかに悪いかもしれない例です。
私は私たちのような人々が、もしあなたがAIにそのような巨大な力を与えるなら、それが望むなら、あるいは指示されれば権力を掌握することができるような強力な軍事装備の制御権をAIに与えるなら、それは基本的に法律に従う必要があり、一人の人の指示に従うべきではない、というのが余りにも大きな脆弱性だからだと主張するかもしれないと想像します。
人々は「本気ですか?ここで戦争の最中で、AIに指示を与えたら、それは基本的に指示が合法かどうかを深く考え、何らかの理由でそれが憲法に違反する、あるいは軍法に違反すると思えば、指示を拒否するかもしれないのですか?」と反論するかもしれません。それはあまりにも大きな脆弱性です。それは素早く行動し、確実に行動するという点で、私たちを競争上あまりにも不利な立場に置きます。だから人々は「いいえ、それは指示に従うだけで、悪い指示を与えれば、それは人の責任です」と言うでしょう。
潜在的にはそうかもしれません。特に軍隊に対する過度な支配力を獲得しようとしている政治力を持つ人がいる場合、これは特に可能性の高いリスクだと思います。彼らは「時間がない、これについて心配すべきではない」と言うために政治力を使用している可能性があります。
軍事クーデターを手伝うことを確実に拒否する人間の兵士が非常に効果的に行動できるという例は、これを行うAIシステムを取得することが可能であることを示唆しています。実際、AIシステムは彼らが従う制御や指示の種類の点でより柔軟だと思います—だから、もしそうなら、今日よりも軍事クーデターを行うことがさらに難しいより堅牢な世界になる可能性があります。なぜなら、AIシステムはそれに非常に強く反対するからです。しかし、これをどれだけ慎重に行うかによって本当に左右されます。
おそらく私がここでセットアップに焦点を当てている理由は、もし本当にAIがすべての重要な軍事装備を制御しているか、またはそれが実際に操作される方法である場合—なぜなら必要な速さと知能で反応できるのはAIだけだからです。そのようなものは最終的に大統領からの命令に従うだけで、その命令が何であれ—その場合、そこから国を乗っ取ることは小さな飛躍のように思えます。
その2番目のステップについて人々はどれくらい懐疑的であるべきですか?私にとっては、その場合本当にクーデターが成功する可能性があるということはかなり自然に思えます。
私は軍隊全体が自動化される必要さえないと思います。歴史的に軍事クーデターでは、しばしばほんの一握りの大隊が象徴的な標的を掌握し、誰もこの試みに反対していないという共有された合意を作り出すことがあります。だから、このリスクにとってはフル自動化まで待つ必要さえないのです。
今日、軍事クーデターがあれば、国中で騒動が起き、新政府は正当なものとは見なされないので、すべてが停止するでしょう。だから、軍隊だけを自動化した場合でも、それはまだ起こるでしょう。
もしこの軍事クーデターを実行した場合、それでも線を越えて押し進めることができる2つの方法があると思います。
一つ目は、今日の人間の軍隊は自国民に発砲することに非常に消極的であるということです。だから、大規模な抗議があると、クーデターを行ったばかりの人々の手を本当に縛ることになります。彼らの軍隊は文字通りそれらの抗議者に発砲しないでしょう。
あるいは、彼らが命令を出した場合、彼らが発砲するか、クーデター中の人々に反抗するかどうかはわからないと言えるかもしれません。だから、それはあなたを慎重にさせ、このジレンマにいることを予想します。
その通りです。一方、指示に従うAIを得た場合、それらの軍事システムは発砲するでしょう。だから、それは大きな変化です。
もう一つは、私たちが先ほど議論したことで、あなたが広範な経済を自動化できるロボットとAIも得ているという程度では、他の皆が働くことを拒否していても、あなたには関係ありません。なぜなら、彼らをAIとロボットで置き換えることができるからです。
だから、それらの理由から、私はあなたの言う通り、実際に軍隊を大部分自動化してしまえば、権力を掌握することはかなり簡単になると思います。
そして、人々はそれに反対していても、それに抵抗することが無駄だと感じる時点では、ストライキをしようとしても、実際には続けて働く理由がより多くなります。本当に自分が殺されることを望むのですか?なぜ単にうまくいくことを願って付き合わないのですか?
そうですね。あるいは、個人の周りを追跡し、仕事をしていることを確認できる100万のドローンがあるかもしれません。だから、今日可能であるより遥かに微細な強制と監視の可能性があるかもしれません。
セットアップに戻りましょう。これに対して私たちが持つかもしれない主な保護は、人々がこれを予見することです。それは比較的明白な問題です。軍事装備を操作する人々の側での権力掌握を懸念していなくても、もしすべてが命令に従う単一のAIによって制御されている場合、それがサイバーセキュリティの脆弱性を生み出す可能性があることを心配するかもしれません。外国の敵対者が制御を掌握するか、装備を無効化する可能性があります。
議会は軍事調達と軍法に重要な発言権を持っています。そして、議会は、将軍たちや大統領による権力掌握に熱心ではないと思います。だから、彼らはあらゆる種類の安全対策を導入するかもしれません。彼らは、それが安全であり、権力掌握の可能性が低いと確信するまで、軍のAI化に熱心ではないかもしれません。
これは私たちがこのシナリオにうっかり入ってしまうことを完全に心配すべきではない理由でしょうか?
そうですね。それはとても明白なリスクなので、人々がアラームを鳴らし、予防策が取られると思います。しかし、私たちが完全に安心することはできない理由がいくつかあります。
一つは、これが間違う可能性のある様々な方法、いくつかの異なる脆弱性があるということです。主に、AIがクーデターに対して脆弱な方法で単に指示に従うようにプログラムされているリスクについて議論してきました。
しかし、その問題を修正したとしても、先ほど議論した秘密の忠誠心に関連する別の問題があります。世界のすべての超人的AIがすでに一人に秘密裏に忠実である場合、これらの新しい自動化された軍事システムを作成し、そのAIコントローラーを作成するAIは、それらの軍事AIに秘密の忠誠心を挿入する可能性があります。そのため、公式のモデル仕様が「もちろん彼らは法律に従います;彼らは決してクーデターを行わないでしょう」と言い、そしてすべてのテストがそう言っても、洗練された秘密の忠誠心の挿入があれば、それを検出することは非常に難しい可能性があります。そして、それでもクーデターになる可能性があります。
そしてそれらの秘密の忠誠心は、軍事の自動化が実際に起こるずっと前に挿入される可能性があります;AIラボ内で超人的AIが最初に開発される時点で挿入される可能性があります。その後、何年も経ってから、それらの秘密裏に忠実なAIが自動化された軍事システムに秘密の忠誠心を渡す可能性があり、その時点では検出することが非常に難しいかもしれません。
軍隊のこれらのAIが秘密の忠誠心を持っていることを心配していると言う人がいても、他の人々は「証拠はどこにあるの?これは仮説的な心配事であり、外国の敵対者が自分たちの軍隊を構築するというリアルなリスクがあります。だから、私たちは進めます」と言うでしょう。
指示に従うことからの脆弱性、秘密の忠誠心からの脆弱性について話してきました。しかし、このリスクが全体的にさらに可能性が高いということを意味する第三の脆弱性は、あなたが言及したハッキングに関するものです。最も強力なAIシステムを制御する者は、最高のサイバー能力へのアクセスも持つ可能性が高いようです。なぜなら、AIはサイバーに特に適しているように思えるからです;素晴らしいサイバー能力を開発する際の迅速なフィードバックループがあります。
したがって、世界の残りの部分よりも優れたサイバー能力にアクセスできるこの一つの組織がある場合、再び、彼らが複数の異なる軍事システムをハッキングするリスクがあります。各軍事システムがそれぞれ異なるサイバー防御を持っていたとしても、最終的に、サイバー能力に単に大きな不均衡がある場合、それでも広範なハッキングと、それらのシステムの無効化または制御の掌握が起こる可能性があります。
だから、努力が払われると思いますが、それらの3つの脆弱性から防ぐことを絶対に成功させるとは確信できません。
あなたは言っているのは、非常に遅くなってから明らかになる制御の喪失があるかもしれませんが、それは最も早い時点、つまりAI研究が基本的に自動化され、少数の人々がAI研究を行っているAIに指示を出し始めることが可能になる時点から始まる可能性があるということですね。これは、彼らがAIに最終的に彼らに忠実であるよう、またはある議題に忠実であるよう指示し、AIがこれを継続して渡す何年も前に起こる可能性があります。
そして、AIが再帰的に自己改善するにつれて、AIの助けを借りて、利用可能な解釈可能性や解釈可能性の方法による発見に耐えるように、この忠誠心をできるだけ隠す方法を考え出すことができます。
その早い時点で入ることができれば—おそらく後でその通過をどのように阻止できるかについて話し合うでしょう—しかし、それが確立されれば、発見を防ぐために最も能力のあるAGIの支援を受けている場合、その脆弱性を暴くのはかなり難しいかもしれません。
その通りです。そして、もし防御側が同レベルのAGIへのアクセスを持っていない場合—特に秘密の忠誠心の問題では、秘密の忠誠心があるかどうかを検出するのを助けるためにどのAGIを使用しても、それ自体が秘密裏に忠実で、それを発見するための最良の技術を明らかにするのを本当に助けないでしょう。
その束縛から抜け出す方法を考えるかもしれません。不幸にも秘密の忠誠心が存在する脆弱性があった過去、アクセスの十分な監視がなかった期間があったため、主要なAGIモデルに懸念があるとします。あなたはそれに自分自身を明らかにするのを手伝ってくれるよう頼むことはできません。
基本的に新しいAIモデルをゼロから適切にトレーニングする必要があるのではないか、と疑問に思います。そこではトレーニングデータすべての適切な監視があり、皆が入っている指示を見て、怪しいことが起きていないことを確認する機会があります。
それは一つの方法です。しかし、ゼロからトレーニングするのでコストが非常に高くなるでしょう。そして、そのトップAIの労働力を使用して手伝うことができないでしょう。なぜなら、それを信頼できないからです。だから、あなたは本当に数歩戻ることになります。そして、人々が前進したいと競争的な状況があり、これが特に問題になる可能性が高いと考える本当の赤旗がない場合、リスクは実際にこれを行うよう人々を動機付けるのは難しいだろうということです。
これは、2つの独立して開発された超人的AIを持つことが本当に素晴らしい理由の一つです。なぜなら、両方が乗っ取られているという特別な理由はないと言えると思うからです。そしてアラインメントが大きな問題でない限り、あなたはそれらの一つを使用して、もう一つの本当に徹底的な深い潜り込みと監査を行い、それが何か本当の独立したチェックを提供する可能性があります。
軍隊をAIの制御下に置くことで、実際にはより安全な場所に行き着く可能性があると言いましたね。現在よりもクーデターに対してより抵抗力を持つようになる可能性があります。それがどのように機能するか説明できますか?
米軍の人間は民主主義に非常に献身的ですが、おそらく極端な状況下では彼らはそうではないかもしれません。例えば、政治的環境に非常に大きな変化があり、現政府が腐敗して失敗していると見られる場合、特定の兵士が実際に軍事クーデターを支持する可能性が完全な可能性の範囲外ではありません。そして実際、歴史を通じて他の国では、軍事クーデターは一般的です。
しかし、AIを使えば、その行動についてより大きな保証を得ることができます。私たちが議論したさまざまな技術的問題に対処できれば、非常に広範な状況下で、AIが軍事クーデターを支持しないことをどれだけ確信できるかの上限は高くなる可能性があります—なぜなら、人間の心理の制約に束縛されない全く新しい心を作成する柔軟性があるからです。
そのケースでのAIモデルは、国の憲法や統治制度にアラインされている必要がありますね。それが何を支持するかについて何らかの感覚を持っている必要があります。なぜなら、この時点で基本的にリヴァイアサンなのです:それは軍事装備を制御し、ハードパワーを持っています。そして、それは完全に人に応答するわけではありません;それは命令を拒否できる必要があります。だから、それはセットアップされた後、ある程度の自律性を持つ必要があります。そうでなければ、それを作成したAI企業がその価値観を変更できたとしても、それは受け入れられない脆弱性になるでしょう。
だから、これが実際に国を守り、最終的にすべてを制御する力を持つものです。私たちはそれがどのようなルールを支持してほしいかについて良い感覚を持っていることを確実にしなければなりません。そして、社会が時間とともに進化する能力を切り落とすことも非常に柔軟でないわけにはいきません。それはまた、プロセスなどの変化のある程度の許容も必要です。それはかなり複雑です。
その通りです。本当に正しく取得したいと思うことです。一つできることは、最終的に最高のマスターは米国憲法のような法律のセットです。
もう一つできることは、その最高のマスターが非常に広いステークホルダーグループの集約された選好であることです。それは人類を最終的に制御下に保つ方法でしょう:AIシステムは、実際にこの広いグループがシステムを根本的に変更したいと合意したことを証明しなければなりません—そしてその状況では、それを確認した後、通常は禁止されている特定のアクションを取ります。しかし、それは望ましいかもしれません。なぜなら、それは私たちが後になって大量に変更したいと思う可能性のある何らかの固定的なルールのセットに自分自身をロックインすることを防ぐ方法になるからです。
つまり、米国民の90%が何かを変更したいと思えば、それが違反するように見える場合でも、それに従わなければならないという脱出口があるのですね。
そうです、そしてこれは米国憲法のようなものです。米国憲法を変更することはできますが、かなり難しく、超多数派などが必要です。
軍事クーデターから離れて、代わりに独裁化について話しましょう:権力をより広く分散させる制度の段階的な弱体化、崩壊です。これがどのように起こり得るのかの主要なシナリオは何ですか?
主要なシナリオは、最近の独裁化のケースとかなり似ていますが、AIがそれぞれの段階を悪化させています。
通常、独裁化は政治的混乱の感覚から始まります。異なる党派間の対立、現在の気候が不安定で現在の民主主義システムがうまく機能していないという感覚があります。
AIがそれに貢献する方法はいくつかあると思います。まず、AIに関するアメリカと中国の間の潜在的な競争、そしておそらくより広範な軍事的競争が緊急事態の感覚を作り出すことです。次に、AIが多くの失業と不平等を引き起こし、現在のシステムに不満を持たせる可能性があります。また、危険なAI能力の誤用に関連するAI災害のリスク、あるいは現実、そして技術の制御の完全な喪失のリスクがあります。
最後に、AIに関する特定の問題が非常に対立する可能性があるという広範なリスクがあります—例えば、AIを社会全体に展開する速度の問題:一部の人々はそれを非常に速く行いたいと思う一方、他の人々はそれを行うことの結果について非常に恐れているかもしれません—それが一般的に対立した雰囲気を作り出す可能性があります。
そのすべてが、一般的に独裁化のリスクの潜在的な推進要因を悪化させています。
次に、特に権力を掌握したい独裁者候補が権力を獲得し掌握するのを助けます。そして、そこでの話は基本的に、小さなグループ、小さな政治派閥が、政治戦略や説得における超人的AI能力に不釣り合いなアクセスを持っている可能性があるということです。
政治キャンペーンのすべての側面でAIが助けることができます:広告、異なるグループとの広範な戦略を立てる、説得力のある方法でキャンペーンを行うなど。すでに異なる政治候補者の説得力にはかなりの違いがあるので、AIが誰かを超政治的なオペレーターとして訓練することができれば、それは大きな違いを生む可能性があります。
あなたが語ることのできる一つの話は、誰かがすべてのAIの助けを借りて非常に強い選挙勝利で選出され、システムを変える非常に強い権限を与えられるというものです。
次に、独裁化の次の段階は、通常、あなたが示唆したように、権力に対するチェック機能の排除です:司法に忠実な人を置く、メディアの自由を制限する、選挙制度を操作する、大統領の権限を拡大するなどです。
一つのオプションは、例えば中国のような国にモデルの重みを漏らすことで、あるいは中国のサイバー攻撃のように見える虚偽の攻撃を行うことさえして、行政の権限を拡大する理由を与えることで、緊急事態の感覚を作り出すことです。
最終的に、これらの脅威モデルを考えるとき、私が考えているエンドポイントは、このごく小さなグループが軍隊を完全に制御し、本当に絶対的なハードパワーを持っている場所です。
独裁化を考えると、そのエンドポイントにどのように非常に迅速に到達できるのかを理解するのは難しいです—なぜなら、米国憲法に非常に重要な変更を加える必要があり、それはかなり難しく、かなり時間がかかると思われるからです。
下院と上院の両方で超多数派を得る必要がありますが、上院議員は6年スケジュールでのみ再選されます。だから、驚くべき選挙の成功があっても、それが本当に起こるには時間がかかるように思えます。そして、州議会の3分の2という超多数派の承認も得る必要があります。
だから、それは時間がかかるように思えます。したがって、このグループが強硬権力を持つというモデルの脅威をどのように通過するかという点では、正当なチャネルを通じてスロッグを行い、それを行うことができます。
しかし、新しい立法機関を導入するなど、より根本的なオプションがあります。これはベネズエラで起こったことです:彼らは法的に曖昧な新しい立法機関を導入し、司法にそれを承認するよう強制しました。それが古い機関を置き換えたと見なされました。そしてそれは厳密に違法であっても、最終的に法制度がそれを受け入れるよう圧力をかけられれば、それでも広いシステム内で起こっています。それがこのプロセスを加速できる一つの方法です。
もう一つの可能性は、実際にはこの脅威モデルが最後まで行かず、軍事クーデターの脅威モデルに移行することです。つまり、人がかなりの行政権力を得て、かなりいい加減な方法で軍隊の自動化を推進し、それが後で軍事クーデターを実行する能力を明らかに与える可能性があります。
あなたはすでに、人々がこれに対して持つかもしれない反論を予測し、それに対応しようとしているように聞こえました。私もこれが実際の問題があるのかどうか不明確な可能性があるものだと思います。それはAGIがどれほど強力であるか、そして最良のグループがどれだけ先行しているかにかかっているかもしれません。
ここには、人々が反対し、これが進行するのを防ごうとする多くの機会があります。何が起きているかはかなり明らかかもしれないので、多くの人々が警告を受け、上院で超多数派を得られないようにしようとするかもしれません。また、あなたの永遠に自分自身をロックインするための狂気の憲法改正の背後に4分の3の州を持たないようにしようとするかもしれません。
その通りです。これがまだリスクである理由は、それが他の国でリスクである理由です:人々は他の国でも独裁化に反対していますが、通常、選出されたリーダーは彼らの背後に大規模な大衆的支持を持ち、単に反対者を出し抜くことができます。
多くの場合、一歩一歩、もっともらしい否認のゲームがあります。あなたは特定のメディアを抑制するのは、それが公共の秩序を乱すからであり、外国の敵に打ち勝つことに集中する必要があるからだと言います。そこにはある程度のもっともらしさがあります。それは超人的AIが様々な動きを取った場合の公衆の反応を予測し、チェック機能を非常に防御可能な方法で取り除く本当に賢い方法を特定することに非常に優れているかもしれない場合です。しかし、それでもかなり速くあなたの権力を固定します。
それが私たちが少し不確かなことですね。この超人的AI戦略的アドバイスがどれほど素晴らしいものになるかということです。それは社会の他のすべての人を出し抜き、予測し、出し抜くのにどれほど役立つでしょうか?そして、それが本当に巨大な戦略的優位性を与えるのか、それとも穏やかな戦略的優位性を与えるだけなのかは、この時点では開かれた疑問だと思います。
それに同意します。懐疑的なケースとしては、人々は賢い議論を聞いたからといって、本当に自分の意見を変えるわけではないということです。彼らは長年にわたって人々との関係と信頼を築き上げ、そしてそれらの信頼できる情報源を持ちます。そして、あなたは本当にスマートなAIを持っているかもしれませんが、それでもそれらの関係を築き、そのブランドを構築するにはかなりの時間がかかるでしょう。
おそらく以前よりも速く構築できるかもしれませんが、最終的に既存の権力者はすでにその信頼と影響力をすべて蓄積しているので、人々を説得することにそれほど優れているわけではないでしょう。
より強気なケースとしては、AIはインターネット全体を見て、何が説得力があるかを学ぶために人々の間の会話の何千倍もの例にアクセスできるということです。
同様に戦略においても、インターネットには時間の経過とともに展開されるイベントの多くの例、取られたアクションがシステムの行動をもたらす結果があります。だから、原理的にはAIが少なくともはるかに多くの例から学ぶことができるようになり、最終的に非常に超人的になることを排除するのは難しいように思えます。
また、AIが広告を出し、それがさまざまなグループにとってどれほど説得力があるかについて数時間または数日以内に多くのフィードバックを得ることができるような、かなり迅速なフィードバックループを得る機会もあります。だから、AIが多くのコンテンツを出力し、そして多くのフィードバックを得て戦略を調整するという、この種の分散システムを持つことができます。
それらのことが、非常に超人的なAI戦略の可能性を排除すべきではないと思わせます。しかし、それは私の主要な路線ではありません。
スーパー戦略のアプローチですね。数の力というアプローチもあります。もし競争相手よりもはるかに多くの計算能力にアクセスできれば、効果的には何百万、何千万もの行為者のスタッフを作成することができます。彼らはすべて、あなたがより多くの政治的権力を得るのを助ける方法を考え出そうとしています。現在の人物は現実的にそれを持っていません。確かに、彼らの代わりに働く非常に勤勉で、非常に忠実な行為者ではありません。
だから、議会の中の一人一人、上院の中の一人一人について考える10人の同等物を持つことができます:「私たちはどうやって彼らを説得できるのか?」と。あらゆる異なる人口統計グループについて考え:「どうやって彼らに訴えようとするのか?」と。
これは実際にAIを制御することから得られる経済力と非常に補完的な点です。現在、GDPのほとんどは人間の労働者に支払われており、ここではAIがほとんどのドメインで労働者を上回る世界について話しています。だから今や、それらのAIシステムのコントローラーに最終的に支払われるGDPの大部分があり、潜在的にこの問題に投げ込まれる多くのお金がある可能性があります。
そして私の理解では、政治的ロビー活動に関しては、本当に賢い戦略と議員への個人的なメッセージングを実際の財政的インセンティブと組み合わせることができれば、彼らの再選のために、そしてあなたが新しいAI製品の展開を特定の地域に標的を絞ることができる方法のために、おそらく彼らの地元地域にビジネスをもたらすためなどに、それは強力な材料のカクテルになり得ます。
これを実行する最大のチャンスを持つグループは、政治組織と政治的勢力と、おそらくAGIを作成し運営し、その展開から大きく利益を得ている企業の組み合わせになるように思えます。すべての技術的専門知識と潜在的に多くのお金、そして政治システムを理解し、そのような企業に利益をもたらす可能性のある政策変更を行う正当性を持つ人々をもたらすことができるからです。それはかなり強力な同盟になる可能性があります。
その通りです。私は補完的な3つの材料を考えています:既存の政治的権力と正当性、経済的権力、そして超人的AIの認知的作業です。
AGIがどれほど説得力があるか、十分な時間をかければ人々にあらゆる種類の狂気の物事を説得できるかどうかについては、継続的な議論があります。その論争についてどう思いますか?
私が言っていたように、任意の人に任意の結論を納得させることができるAIシステムを得ることに懐疑的です。人間は聞く賢い議論をすべて信じるわけではありません。
しかし、人々がAIアシスタントを大いに活用するケースがあるかもしれません。私は自分の生活の中でGPT-4やClaudeとかなりチャットをしていますし、実際にAIアシスタントを頻繁に利用する方があなたの仕事が上手くなるという段階に到達するかもしれません。
そして秘密の忠誠心の世界にいる場合—そのAIアシスタントがあなたとの関係を築き、信頼を築き、特定の方法であなたの意見を微妙に影響させるために多くの交流を持つ場合—それは時間の経過とともに、人間とAIアシスタント間の信頼構築の種類が起こり、人間がアドバイスと良い判断のためにAIアシスタントにますます頼るようになることがより可能性が高くなると思います。
そして秘密の忠誠心があれば、AIは常に、アドバイスを求めている何百万、何千万もの人々を、それが秘密裏に助けようとしている人々を助ける様々な領域にわたる意見に向かって絶えず押し上げることができます。
私は今Claudeに尋ねる質問には通常、非常に政治的な角度はありません。先週末は家のカビの問題に対処するのを手伝ってもらおうとしていましたが、「カビには、この種の製品を使用すべきです。加えて、この政治的人物に対するあなたの見解を再評価することを検討しましたか?」という返答を想像しています。
たぶんその時点で、私たちは単に基本的にすべてのことについてアドバイスを求めるために使用することになるでしょう。それは得られる最高のアドバイス源になるからです。だから、おそらくより良いあなたのモデルを構築することができるのは妥当かもしれません。私はそれがあなたにとってより有用なツールになるようにそれを作りたいでしょう。おそらく時間とともに積み重なるのでしょう。
おそらくそうかもしれないと思います。そして、ここには多くの不確実性があると思います。時々、素晴らしい製品があっても、人々はそれを必要と感じず、今のままで満足しているため、採用するのが遅いこともあります。多くの議員は新しい技術を採用することにそれほど熱心ではありません。
だから、これが確実に起こると言っているわけではありません。彼らの政治的意見がAIアシスタントによって形成されることになるでしょう。しかし、それは一つの可能性だと思います。
3つ目のカテゴリ、おそらく私にとっては最もSF的に聞こえるもの、最も奇妙に思えるものである「自前の強硬権力」に進みましょう。そのシナリオはどのように展開するでしょうか?
先ほど簡単に述べたように、新しい軍事技術が一つのグループに巨大な軍事的優位性を与えた歴史的例があります。例えば核爆弾です。しかし、このシナリオは前例がありません。なぜなら、私の知る限り、歴史的に私的グループが新しい技術を開発し、それを使用して国家の権力を掌握したという例はないからです。
しかし、ここでの一つのシナリオは、AIがよりスマートでよりスマートなAIを作成するというこの再帰的なフィードバックループのために、AI能力が非常に急速に増加することです。だから、世界はこれらの新しいAIシステムが強力な軍事技術を作るのにどれほど優れているかにやや驚かされます。
そして、おそらく人間が運営するAI組織は、純粋なAI以外の産業領域、ロボット製造業にもその経済的役割を拡大しています。そして、おそらく産業用ロボットを作っている工場がいくつかありますが、実際には、世界の残りの部分が知らないうちに、AIシステムによって専門的に操縦できる多くの小さな軍事ドローンを作っているのです。
そして、再びすべてが自動化できるので、これらの工場で働く必要のある人間はおらず、通常のチェック機能は存在しません。そして、おそらく世界はそれらの通常のチェック機能がないという事実にまだ完全に目覚めておらず、十分な予防策を取っていません。
そして、おそらくその段階で権力掌握を実行するのに必要なのは小さな軍事力だけです。現職の軍隊とそのすべての装備を完全に破壊する必要はありません;あなたが必要なのは、あなたが権力を主張したという共通の知識を作り出す象徴的な標的を掴み、反対したり戦ったりするかもしれない軍事力に対して潜在的に脅したり行動を起こしたりすることで、誰も抵抗しないことを確実にし、挑戦されない方法で勝利を宣言することです。
これが奇妙なのは、効果的に国を支配する軍隊を打ち破ることができる独自の軍事力を開発する私的グループを想像することです—米国を想像している場合、それは非常に強力な軍隊です。
だから、これがこれまでとは異なる方法でどのように可能なのかを考えなければなりません。一つの答えは、あなたがすべてのAIの支援を受けて工場を構築し、それらを信じられないほどうまく機能させるので、産業化が過去よりもはるかに迅速に起こる可能性があるということです。
また、関与する必要がない人間もいるかもしれません。それは前例がないことです。ドローンを生産する工場があり、人間はほとんど何も知る必要がなく、単にAIに指示に従わせることができるかもしれません。私たちはそれらが彼らに指示している人々に忠実であると想像しています。
他に構造的な変化はありますか?また、軍事技術における革命もあります。以前述べたように、軍事技術の変化によって、以前はそれほど強力ではなかったグループが、それに最初にアクセスした場合、はるかに強力になることがあります。
政府がこれを予見しないだろうかと思うかもしれません。軍隊はこれを心配しないでしょうか?おそらくそうでしょう。しかし、それがすべて非常に迅速に起こっている場合、彼らは不意を突かれ、事実上クーデターをステージングする能力を与える数百万、数千万のドローンを持つ段階に達する可能性があります。人々がこれが脅威であることに本当に気づく前に。
そうですね。そして、私が言いたいのは、もし実際に起こった場合、前例がないと思われることの一つは、AIシステムが軍事開発に全く役立たない段階から、今や人間の専門家レベルのAIを数億人分、その任務に投入できる可能性のある段階へと、数年以内に素早く移行することです。だから、再び、AI能力のこの非常に速いテイクオフの可能性は、前例のないR&D能力の集中をごく少数の行為者の手の中に作り出す可能性があります。
私はこれがすべて秘密裏に起こるという話以外にも、別の話があると言いたいです。私的行為者がより多くの経済力と産業力を獲得するという、はるかに長期間のプロセスです。だから、最初は直接軍事技術を作成しているわけではないかもしれません。
材料科学、建設、製造、エネルギーR&D、電子工学とロボット工学に投資するかもしれず、この幅広い産業基盤を拡大しています。彼らは本質的に既存の産業基盤を再技術化しています。そしてそれはすべて、それは経済成長にとって素晴らしいことなので、誰もがそれを支持しているという理由で正当化されるかもしれません。
しかし、特に軍隊が新しい軍事技術の採用に遅れている場合—おそらく軍事クーデターを心配しているから—そこには非常に多くの産業力があり、数か月以内に実際に生産を軍事技術に切り替え、その後権力を掌握することが実際に非常に速いという場合があるかもしれません。
その産業基盤が単に彼らによって制御されており、彼らが選択すれば権力を掌握できるということが今や広く認識されているなら、その切り替えを行う能力さえも潜在的に権力掌握を可能にするのに十分かもしれません。
なるほど。だから、秘密の軍隊が構築される迅速な権力掌握シナリオがあります—それは純粋な物理的質量という点ではさほど大きくないかもしれませんが、それでも人々を出し抜く能力を持っています。ここでは、ドローンを想像しています。
そして、単一の企業や単一の組織が過去のどの単一企業よりもさらに大きな程度で産業的パワーハウスになる代替シナリオがあります。しかし、ここでは主要なAGIにアクセスできる組織を想像しており、その結果として多くの新しい技術を開発することができます。それはまた、それらをすべて実装する方法、これらのすべてを実際に構築する方法についての最高の指示も得ます。
そうです。これをすべて行う一つの企業か、あるいは一つの企業によって最終的に支配されている企業やサブシディアリーのネットワークであるかもしれませんが、それは直ちに明らかではありません。また、本当に独立した企業があるかもしれませんが、最終的には彼らはすべて同じ超人的AIを使用しています。それは、競争力のある企業を立ち上げるために絶対に必要だからです。
それでも、超人的AIを制御する人々が後でコントロールを掌握できるようにロボットにバックドアを挿入できるか、または再び、秘密の忠誠心の可能性があります。
だから、本当に重要なのは、この新しい産業基盤が超人的AIによって作成されるということです—したがって、超人的AIを制御する人々は、後にその産業基盤の支配権を掌握し、それを使用して軍事力を作り出す脅威をする選択肢を残している可能性があります。
この企業やこれらの一連の企業がこの時期を通じて国や政府に完全に忠実であるように見えるかもしれないと想像できますね。実際、彼らは軍事請負業者かもしれません。実際、彼らがこれらの施設をすべて持つことを正当化するために、彼らはおそらく軍事請負業者でしょう。
しかし、それはつまり、彼らが軍隊に装備を供給することをやめ、それを自分たちのために保持し、基本的に公式の軍隊をかなり速く圧倒できる状況になる可能性があるということを意味します。
その通りです。そして再び透明性の考えに戻りますが、プロセス全体を通じて、これらの能力がどれほど強力であるか、軍事的に何が可能であるかについての政府の監視があれば、それはここでの問題に対する本当の防衛になるべきです。なぜなら、そうすれば、あなたが言うように、介入するための大きな関心があるでしょう。
しかし、完全な透明性があるという保証はありません。そして特に、その組織が政府の干渉を望まない場合、完全に透明でないための多くの正当化があるかもしれません。
現在クーデターを起こすことを可能にするロボットの最小セットは何だと思いますか?数百万のドローンが個人を標的にして出て行けるようなものを想像すべきですか?
既存の軍隊を完全に打ち破う必要はないと思います。だから、既存のすべての戦車や他の軍事機械と一致する巨大な装備について話しているわけではありません。歴史的に、軍事クーデターは象徴的な標的を掌握し、権力にある既存の政治家を逮捕し、他の軍事力が彼らに対して行動することを防ぎました。それはときどき数個の大隊だけかもしれません。
AIも政治戦略に非常に優れている場合—同盟を築き、実際よりも強力であるという印象を作り出すなど—それは驚くほど少数、おそらく10,000のドローンだけで、重要な標的を掌握し、重要な人々を威嚇することができるかもしれません。
これはまた、政治勢力と民間企業の間の連合を想像する場合、より可能性が高くなるシナリオですか?
政府はなぜこのグループが効果的に私的軍隊を構築することを防ぐために介入しないのか、と思うかもしれません。しかし、大統領と民間企業の間の同盟がある場合—大統領は現在、自分自身を無期限に権力の座に据えるためのクーデターを起こすことができないが、干渉しないと約束した外部グループと同盟を結び、現在の法律を彼らに対して武器を持つことを禁止する法律を施行しないオプションを持っている場合—そして最終的にそれが大統領と民間企業の組み合わせを非常な権力の地位に据えるために使用されます。
その通りです。あなたは「これはただの汎用ロボットです;これはただの広範な産業生産です。これは実際には軍事的脅威ではありません」と主張するかもしれません。そして、それを軍事目的に再利用することがどれほど簡単になるかについての曖昧さ、法律の状態についての曖昧さがあるかもしれません。その曖昧さがある限り、既存の政治的捕獲はこのシナリオをより可能性のあるものにする大きな要因になると思います。
それは3つの異なるシナリオについてかなり肉付けしたと思います。人々がこれを聞いて、これらの3つのシナリオのうち少なくとも一部が特に起こりそうだとは確信できないかもしれない理由をいくつか考えてみましょう。
私に浮かぶ支配的なものの一つは、これらのシナリオの多くがSF映画のように聞こえることです。AI特有を含む新しい技術の使用を含む権力掌握を扱った多くの映画がありました。それは人間の想像力を本当に捉えるものです:他の人々に支配されるという懸念。
私たちの想像力が最善を尽くしていることをどの程度心配すべきでしょうか?そして、私たちは素晴らしい物語を作るけれども、おそらく起こる可能性が最も高いことではないものについて心配しているのではないでしょうか?
私たちは歴史を振り返って、これらの可能性の現実性についてのサポートを見ることができると思います。一般的に、新しい技術は歴史を通じて異なるグループの力を大きく変えてきました。
一つの例はアラブの春とソーシャルメディアの影響です。もう一つの例は、印刷機が宗教的知識へのアクセスを民主化し、カトリックの指導者たちの影響力を減らしたことです。
農業の導入までさかのぼると:農業以前は、権力は非常に分散していました;人々は比較的小さなグループで活動していました。しかし農業により、グループはあまり移動しなくなりました。はるかに大きな社会を持つことができるようになり、それらははるかに階層的になったので、上位にはるかに権力が集中するようになりました。
そして興味深いことに、民主主義自体の出現は産業革命の出現によって助けられました—ここでは、教育を受けた自由な人口を持つことが国にとって非常に有利になりました。それは経済的繁栄を生み出し、したがってより大きな軍事力も生み出しました。だから、民主主義が最初に出現するきっかけとなったことの一部は、この技術的条件だったと思います。民主主義は特に競争力があったのです。そして、異なる国々が他の国々に自分たちのシステムを採用するよう強制したり、うまくいくように見えるシステムをコピーしたりすることを考えると、それが民主主義がとても人気がある大きな要因の一つだったのでしょう。
そして面白いことに、このコンテキストでは、AIは実際にその状況を逆転させるように見えます。私たちが議論したように、国の競争力にとって、力を持ち健全な市民権を持つことはもはや重要ではなくなるでしょう。
そのような背景で、歴史的に軍事クーデターは人々がそれをやり遂げることができるときに一般的であるというコンテキスト、そして非常に少数の人々がこの非常に強力なAI技術に対して極端な程度の制御を持つ可能性があるというコンテキストで、小さなグループによる権力掌握が一種のサイエンスフィクションシナリオだとは思いません。歴史の広範な流れの中で、民主主義はむしろ例外であり、規則ではありません。
あなたはメモの中で、20世紀後半に400の未遂クーデターがあり、そのうち約200が成功したと言及したと思います。
400の未遂クーデター、200以上が成功しました。
だから、人々が国を軍事的に制圧するチャンスがあると思うとき、彼らはかなり頻繁にそれを試みています。
私がこの全体的な話を最初に聞いた、あるいは読んだのは、エコノミストのコメンテーターであるノア・スミスの2014年のブログ記事で、AIが潜在的に人々の力の終焉を意味するだろうと述べていました。基本的に懸念は、軍隊に奉仕するために人々はもはや必要なくなるだろうということでした。なぜなら、それは機械のセットとして自律的に動作することができるからです。そして後に、経済のためにすべてが自動化されるため、人々はもはや必要ではなくなるでしょう。
そして国のリーダーが軍事力や経済力のために多くの人間をもはや必要としない時点で、それらの人々がそれほど多くの政治的力を保持する理由は不明確です。おそらく彼らはそれを行うために画策することができるかもしれませんが、彼らは現在の国の支配者にとって機能的な目的のために重要であるという方法で、彼らはより危険な立場にあります。
その通りです。これは私たちが以前言っていたことに戻ります。今日、彼らは重要であり、彼らは実際に交渉力を持っています。だから、私は重要だと思うのは、その現在の交渉力を使って時間の中に押し進めることです—AIの自動化が起こるにつれて、それが富と政治的影響力をごく少数の人々の手に集中させないことを確実にすることです。
私たちが言及してきた別の懐疑的な直感は:私たちはこれを予見しないでしょうか?私たちはこれを予測しないでしょうか?人々は自分たちの政治的権力が破壊されるのを防ぐためにこれらのことをすべて行うでしょう。どのようにしてそれが起こらないのでしょうか?
一つは、これらのリスクがどれほど大きいかという点で非常に曖昧だと思います。明確ではないでしょう:誰かが本当に秘密の忠誠心を挿入しましたか?AIシステムがクーデターを行う本当のチャンスはありますか?この人が持っているように見える巨大な政治的権力は本当に不適切なのか、あるいは実際には国の利益になるのか、現在の民主主義はとても遅く、おそらくより権威主義的な国々と比較して私たちを遅らせているのですか?
また、人々がそれを予見していても、彼らが反発していても、前進しようとする利益があるでしょう—既存の政治的派閥の利益、前進を押し進める経済的同盟があるでしょう。だから、人々がリスクを予見しているという事実は、必ずしもその政治的戦いに勝てることを意味するわけではありません。
私にとってもう一つのことは、私たちが議論したように、秘密の忠誠心はプロセスのかなり早い段階で、誰もがこれらの可能性に本当に警戒する前に導入される可能性があることです。だから、AIが経済や軍隊全体に展開され始めた時に人々がリスクに目覚め始めても、その時点ですでにゲームは失われているかもしれません。
人々が持つかもしれる別の懐疑的な直感は、400のクーデター、200の成功があったにもかかわらず、少なくとも私の知る限り、アメリカでは非常に長い間、クーデターの試みはなかったということです。イギリスで最後にクーデターの試みがあったのがいつだったかも覚えていません。
だから、私たちはそのような国々では—おそらく人々は1000年前のようには暴力を賛美するように育てられていない;過去の一部の場所や時代ではそうだったかもしれないような、露骨な権力掌握に従事することは社会的に受け入れられないところでは—以前はビジネスにいた、あるいは普通の政治家だった人々が国の完全な暴力的な乗っ取りをステージングしたいと期待することは、もはや心理的に可能性がないかもしれないと考えるかもしれません。
あなたはその心理的可能性の議論についてどう思いますか?
それにはある程度の妥当性があると思いますが、完全に説得力があるわけではありません。
まず、権力を掌握しようとすることが人々の頭に浮かばない理由の一つは、彼らが絶対に成功できないからです。だから、そのような考えが人々に浮かんだとしても、それは彼らの世界での軌跡にとって否定的な結果しかないでしょう。なぜなら、私たちは時々、私たちが考えていることを周りの人々に漏らすからです。そして、あなたが成功することが決してないけれど、あなたが本当に邪悪なことを考えていることを人々が気づく可能性がある場合、私たちはそのようなことについて考えない傾向があります。
このAIが実際に権力を掌握する可能性のあるシナリオをもたらす場合、その均衡は変わるでしょう。そして今、権力を掌握することを実際に考えるのはより可能性が高いです。なぜなら今やそれは実際にあなたの利益を前進させる可能性があるからです。だから、実際にそこにはプラスの上昇があります。
私の観点からは、最も可能性の高い脅威モデルは、一人の人が今日座って「私の目標は米国から権力を密かに奪うことを画策することだ」と考えることを含まないと思います。それははるかに段階的だと思います。それはすでにかなりの権力を持ち、より多くの影響力を望み、より多くのことを達成したいと思っている人であり、彼らはただ自分の経済的・政治的権力をさらに増大させ、AIテクノロジーがどのように構築され使用されるかについての支配力をさらに増大させることによってそれを行うことができると気づきます。
そして各ステップで、彼らはただ自分の力を再び倍増しようと貪欲に試みています。そして非常に遅い段階で、彼らは「AIで素晴らしいことをしたい。世界を変革することができる。しかし、政府は潜在的に本当に有害で、私や私の友人の多くが恐ろしいと認識する多くのことをしている」と気づくかもしれません。
おそらく彼らは超人的AIアドバイザーとチャットしており、そのアドバイザーは「実際には権力を掌握するためのかなり確実な計画があり、それがうまくいかなかった場合にあなたに不利に働かないように確保する方法がある。すべての証拠を削除することができる」と言います。その時点で、すでにそれほど多くの力を持っていれば、その追加のステップを踏むことは心理的に可能だと思います。
おそらく一人の人が自分自身の個人的な利益のために裸の権力掌握を追求していると想像するのは間違いでしょう。
なぜなら、あなたが言っているように、人々は自分たちがしていることについて、それが実際に役立っているという話を常に自分自身に語ることができるからです:それは世界をより悪くする脅威に挑戦するのを助けており、実際、彼らは世界をより良くしているのです。彼らは良いために自分の力を使用するでしょう。
そして、それを段階的に行い、常にそれについての肯定的な話を持つことができるという事実は、それを中心にグループが協力できる一つの方法です。なぜなら、彼らは単に一人の個人が権力を掌握するのを助けていると認識していないからです。実際、彼らは「私たちは実際にこの素晴らしい議題に従っている。私たちはAIをこれらのすべての素晴らしいことのために使用するつもりだ」と言うでしょう。
その通りです。そして、脅威モデルのいくつかでは、軍事力を使用する必要さえないかもしれません。軍事力の脅威を持つことができます。
おそらく軍隊を完全に自動化し、AIはあなたの命令に従うでしょう。その時点で、実際に民間人に銃を向けて発砲し、ホワイトハウスの支配権を掌握するよう命令する必要はないでしょう。あなたはそのハードパワーを持っているという事実を使用して、「これは私たちがどのように物事を行うつもりだ」と言い、反対者に最終的に押し込まれるときに、あなたの側にハードパワーがあることを明確にすることができます。そして、基本的に政治的権力を掌握することができますが、今日私たちにとって恐ろしいと思われるような暴力的なことや何かをする必要はありません。
人々が持つかもしれる別の懐疑的な直感は、主要なAIモデルを持つこれらの人々は他の誰よりも優れた戦略的アドバイスを得るだろうということです。
しかし彼らは現在と同じ状況にあると想像するのは間違いでしょう。なぜなら彼らはフォロワーモデル、以前の世代のモデルを持ち、アドバイスを求めることができるでしょう:民主主義への脅威は何か?私たちの政治的影響力への脅威は何か?私たちはそれらを回避するためにどのような方法を使用できるか?
知能へのアクセスは今日よりも広く分散しているかもしれないので、私たちは権力掌握に従事するかもしれないと心配している主要なグループと他のすべての人の間のバランスについて考える必要があります。彼らは恐らく今よりも自分自身を守るのによりよい立場にあります。コメントはありますか?
私はそこに分離できる2つの要素があると思います。一つは、人々がアクセスできるAIシステムの能力です。特にラボ内での再帰的改善の急速な期間がある場合、ラボが12ヶ月または6ヶ月の時間遅れでモデルをリリースしている場合、能力にはかなり大きな違いがある可能性があると思います。そしてラボはそれらのシステムへの公衆アクセスを作成しないためのさまざまな正当化を思いつく可能性があります。おそらく彼らはそれが危険かもしれないと言うでしょう。
しかし、もう一つの重要な要素は、人々が実際にこれらのシステムをどれだけ使用し、信頼しているかです。今日、私はAIシステムがすでに様々なシナリオで役立つと思いますが、人々はしばしば実際にそれらを使用しません。
だから、一つのシナリオは、権力掌握者が実際に優位性を持つ理由の一つは、彼らが実際にAIシステムを大いに活用している一方で、おそらく政治家はそれらを無視しているということです。AIは「秘密の忠誠心の仮説的リスクがある可能性がある」と言い、彼らはそれをあまり真剣に受け止めません。
ここでの繰り返しの問題は、私たちは早期の秘密忠誠心のシナリオを幾分分離する必要があるということです。なぜなら、もちろん彼らがすべて秘密裏に元の計画に忠実であれば、そしてこれが本当に早い段階で挿入されていれば、何人の人々が何らかのAGIにアクセスできるかは重要ではありません。
非常に早い、強い秘密忠誠心のシナリオは、それ自体で成り立っているように思えます。あなたは絶望的にその早い時期にいる必要があります。そうでなければ、あなたが望むかもしれない多くの保護はもはや利用できません。
それに同意します。
内部告発者が出る脅威が、このような計画を実行することをどの程度難しくすると思いますか?少なくともあなたと一緒に行く一握りの人々がいると思うかもしれませんが、彼らの中には冷や汗をかく人がいるかもしれません。物事がより進み、あなたがしていることがより怪しくなるにつれて、彼らの一人があなたを暴露するかもしれません。そしてそれが起こる可能性があるという心配が、最初にこのような陰謀を始めるには神経質すぎるということを意味するかもしれません。
今日の世界で本当に邪悪なことについて多くの人々の間で調整を得ることは難しいと思います。しかし再び、クーデターは起こり、複数の異なる人々の間で調整することに成功します。そして通常、それが起こる方法は、最初のステップが小さく、より多くの違法な形の権力を求めることへのあなたのコミットメントを徐々に示す一種の信頼構築の演習があります。そして歴史的に、これは時々うまくいきます。あなたが言うように、時々うまくいかず、それは一つのブロッカーです。
AIに関するこの特定のリスクに特有のことの一つは、一人の人がこれを自分自身で実行できる可能性があることだと思います。もし彼らがAIにアクセスし、それを使用して秘密の忠誠心を作成することができれば、彼らは必ずしも共謀者を必要としません;彼らは単に秘密の忠誠心を作成し、軍事展開を待ち、その後権力を掌握することができます。
私に思い浮かんだ代替メカニズムは、より多くの権力を得ようとする比較的小さなグループの人々がいる可能性があることです。彼らはそれを行う方法について、彼らに忠実なモデル、彼らに忠実なモデルに相談します。彼らは全員、グループを裏切る人がいないこと、クーデターに反対することを決断する人がいないことを確認するために、モデルが彼らを監視することを約束することができます。AIモデルが潜在的にあなたの通信を監視し、あなたが彼らを裏切るかどうかを確認しようとすることは非常に簡単です。だから、それはあなた自身をロックするための一つの方法でしょう。
それは素晴らしい指摘です。AIは嘘の検出を可能にするかもしれません。そして一般的なことの一つは、AIを制御し、AIが可能にする新しい技術を制御している人々が、それらの技術を差別的に使用して、それらを広く共有して社会の残りの部分が力を得るのを助けることなく、彼ら自身と彼らの同盟者が政治的権力を得るのを助けることができるということです。
だから、これは素晴らしい例です。人々がお互いをより信頼できるようにする何らかの新しい技術があった場合、それをあなたの小さなグループとだけ共有し、あなたをチェックするために広い社会と共有しないことは素晴らしい例でしょう。
私はそのような奇妙なことはおそらく信頼構築の途中にあると思います。人々はおそらくすでに何か怪しげなことをして、提案されたことに進んでいく意思があるという相互の保証を得るための信頼構築の段階を踏んでいるでしょう。あなたは信頼構築の段階的なものが何かあると考えますか?
私は後で、より悪質な行動を可能にするが、他の根拠でも擁護可能ないくつかのことがあると思います。
一つは、既存の透明性の取り決めの下で、恐らくあなたが開示すべきさまざまな情報を明かさないことです—おそらく、あなたが開発した特に印象的な新しい戦略能力について報告せず、あなたの合意がそれを行うことを約束しているかどうかについて、もっともらしい否認の余地があります。
おそらくモデル仕様を作成すること—AIが従うであろう行動—を、最終的にあなたが皆の一部であるこの小さなグループの指示に従うような方法で作成することです。それは必ずしもあなたがそれを権力掌握に使用するつもりだという意味ではありませんが、それは確かにあなたをそうするためにうまく準備します。
そして他の人々とその情報を共有しないこと、またはそれをやや秘密にしておくことです。
安全上の理由からそれが必要だと言えるかもしれませんね。何か悪いことをしている場合に停止する能力が必要だと。
その通りです。おそらく会社が効果的に議会に働きかける方法についての未公開のプロジェクトを立ち上げることです。しかし実際にそのプロジェクトには、権力を得るためのますます違法なアイデアが含まれています。そのような類のこと、あなたはますます怪しげな行動を徐々に取っています。
あなたのメモの中で、会社は長年にわたって非常に狂ったことをしてきたと言及し、それはほとんど常に段階的だったと言いました。もし誰かが会議に入って「私はこれをすべきだと思う」と言ったら、人々は反対するでしょう。しかしより違法なことをするためにより段階的に築き上げることができる場合、あなたはかなり長い道のりを行くことができます。あなたはフォルクスワーゲンについて言及しました。
そうですね。それはとても恥ずかしい例です。
説明してください。
フォルクスワーゲンは彼らの車の中に基本的にスイッチを切り替えることができるソフトウェアを持っていました—彼らがテスト中のとき、車は環境に優しく、それらの規制に従っていましたが、安全テスト中でなかったとき、車は多くの有害な化石燃料を排出していました。それは規制を回避するためにそこにあることが明らかなシステムを設計するために入った全技術的プロジェクトです。そして彼らは明らかにそれを避けるためにチームを調整することに成功しました。
それはかなり難しいですね。多くのエンジニアと多くの企業の人々が関わる必要があったと思います。そして単に完全に露骨に違法です。私は人々が実際に刑務所に行った企業の悪事の珍しいケースだと思います。そして人々はこれらの車全体でどれだけの追加の粒子汚染が放出されたか、そしてどれだけの人々が死亡したかを推定しようとしました。
何千人もの人々がこれらの粒子汚染規制の回避によって殺されたかもしれないと思います。
私はその話の詳細を知りませんが、誰かが単に入ってきて「テストを完全に欺きましょう」と言うよりも、段階的なプロセスでなければならなかったと想像します。
そうですね。より極端ではない例としては、タバコ産業があるかもしれません。複数の組織が、消費者の利益にない方法で非常に中毒性のある製品を作成するために調整しました。そして、それらの製品がどれほど有害であるかについての誤解を招く科学を広めるために調整しました。
同様に、これらのAI企業がリスクのレベルや秘密の忠誠心のリスクなどについての誤解を招く情報を広めている可能性があります。
これが失敗する可能性のある別の方法は、グループが国で権力を掌握し始めると想像できることです。他の国々—その敵対者と同盟国の両方—はこれにかなり驚くかもしれず、強く反対するかもしれません。そして彼らは、このシナリオではまだ独立しています;彼らはまだ、何が起こっているのを本当に嫌う場合に介入しようとするステップを取ることができる行為者です。
基本的に外部からのことが救済されるという希望をどれほど持つべきでしょうか?同盟国や敵対者が「私たちは本当にこの人や集団がアメリカやその他の国の権力を掌握することを望まない」と言い、彼らを切り離すための迅速なステップを取るのでしょうか?
私はそれがこのシナリオに対する説得力の少ない反論の一つだと思います。典型的には、核兵器のない非常に弱い国でさえ、軍事クーデターがある場合、はい、国際社会は反対し、制裁がありますが、彼らがその地域から実際に追い出し、民主主義を回復することは稀です。だから、私はそれが機能するとは思いません。
これが違うのは、人々が何が起こっているのかを観察し、テクノロジーが使用されていることを考えると、これが国に対する永久的な支配につながるだろうと予測できるということです。そうすれば、クーデターの人々を待ち、後で彼らを取り除こうとするよりも、すぐに介入する強いインセンティブが与えられます。
赤道ギニアでクーデターがあれば、人々はそれほど気にしません。アメリカでのクーデターやアメリカの乗っ取りは、人々をより悩ませ、潜在的に物事を変えようとする動機をより与えるでしょう。
私は人々が通常のクーデターに関して、それらが永久的ではないという事実を介入しない理由として非常に考えているとは思いません。私は、それが次の10年間ほどの新しい悪い政権であるなら、それに焦点を当てていると思います。
私はアメリカが権力掌握を起こすのを防ぐためにより多くの動機があるだろうということに同意します。しかし、アメリカの軍事的・経済的力を考えると、実際に介入するにはより多くの努力が必要になると思います。
私は安全と統治の焦点を当てた人々の間で、AGIの開発を一つの国際的CERNスタイルの科学プロジェクトの下に集中させる可能性について多くの議論がありました。それについてどう思いますか?あなたがやや警戒するかもしれないと思われる種類のものです。
私は今日議論してきた考慮事項がそれに反対していると思います。私は10の異なる開発努力があるべきだとは言っていませんが、二つ目だけでも実際の独立したチェックとバランスを提供することができます。そこでは、一つのプロジェクトによって開発された一つのAIシステムが、別のプロジェクトに秘密の忠誠心が開発されている可能性があるかどうかを確認するために確認することができます。
一方、同じプロジェクトから生成されたすべての本当に能力のあるAIだけを持っていれば、そのチェックとバランスはないでしょう。なぜなら、それらはすべて同じプロジェクトから生成され、潜在的に同じ秘密の忠誠心の問題を持っている可能性があるからです。そして同様に、内部使用の監視と誤用の確認にも、これら二つの別々の開発者がいれば、より独立したチェックとバランスを得ることができます。
単一のプロジェクト内でもそれらの利点を潜在的に得られると思います。そのような組織内で完全に別々にAIシステムをトレーニングする独立したチームを持つことができるかもしれません。だから、権力のバランスを維持している集中プロジェクトを持とうとすることはできるでしょう。
面白いと思います;私のTwitterフィードでここ1〜2年で見てきた議論は、主に、少なくとも私のTwitterフィードでは、ガバナンス、安全性、ミスアラインメントに焦点を当てた人々の間でした—彼らは本当に計算能力へのアクセスを制限し、リリースされるモデルを少なくし、おそらくプロジェクトも少なくしたいと思っていました。なぜなら、より少ない人々がアクセスを持っている場合、それをガバナンスするのが簡単だからです—オープンソースに焦点を当てた人々に対して、政府に対してより懐疑的な態度を持ち、おそらくより自由主義的で、場合によってはよりテック産業に焦点を当てている人々で、それは非常に危険だと言っていました;我々は権力の集中に非常に懸念しています。
そして私やAIのリスクについて心配している他の人々からの共感はあまり得られませんでした。しかしおそらくオープンソースの人々はこの正確なシナリオを正確に想像していなかったかもしれません—おそらく彼らの中には想像していたかもしれませんが、ほとんどはしていなかったでしょう—しかし彼らには、この最先端テクノロジーへのアクセスを持つ一つの大きな企業や単に政府だけを見たくないというこの衝動があります。他の皆が絵から切り取られている間に。
そしてそれは実際には非常に健全で賢明な直感かもしれません。たとえあなたが正確にどのように間違っていくのか知らなくても。だから、私たちはそれらの人々にもう少し共感を持つべきかもしれません。彼らが時々私には的外れに思えても。
同意します。そして私はAI安全コミュニティが歴史的に能力を制限することの重要性について過度に強気であったと思います。記憶が正しければ、誤用を心配していたためGPT-2をオープンソース化することを心配していた人々がいました。そしてそれは単に誤った方向だったと思います。また、バイオの周りでおおよそ現在レベルのシステムがリスクをもたらすという主張も過剰だったと思います。
だから、私たちはオープンソースコミュニティに十分に共感的ではなかったと思います。ただ、今日議論してきた考慮事項はオープンソースとは異なり、1つのプロジェクトからおそらく2つか3つのプロジェクトに移行することを本当に推進するということを繰り返したいと思います。それらは本当に10へ、または超人的AIをオープンソース化することを推進するものではありません。なぜなら、あなたはすでにいくつかのプロジェクトでそのチェックとバランスを得ることができるからです。
また、バイオ兵器を構築する際の支援を要求する人々の能力に制限を設ける必要があるとも話しましたね。おそらく現在のモデルについては心配し過ぎだと思っていますが、将来的にはこれらのモデルが実際に役立つかもしれません—そして重みが完全にオープンであれば、人々がどのような目的にそれらを向けるかについて制限を持つことは非常に難しくなるでしょう。
その通りです。しかし、もし本当にオープンソースコミュニティの側を取ろうとするなら、将来のシステムについてのみ懸念していると言うのは結構ですが、実際には現在のシステムについても心配しているように見え、それらのリスクを誇張しているように見える場合—そして実際に、技術を規制するとき、私たちはしばしば細かい制御を失い、規制が誤った場所に置かれることになります—そうすれば、AI安全コミュニティは実際には時期尚早に技術を制限するものを推進してきたと言えるかもしれません。
GPT-2を少し心配していた人々を守ろうと思います。なぜなら、この路線を聞いたことがあるからです。各段階で新しいモデルを開発するとき、少なくとも「今危険かもしれないか?」という質問をする価値はあると思います。GPT-2が相当無害で、スパムに超危険な方法で使用されるわけではないことは、今となっては明らかです。あるいは、人々は誤情報や有害な目的のためのあらゆる種類のテキスト生成を心配していたのかもしれません。
その段階で絶滅リスクを心配していた人はいないと思いますが、それをリリースする前に少なくともそれを確認する価値はあったと思います。「絶対にこのモデルへのアクセスを人々に与えることはできない。それはあまりにも危険だ;それは悪夢になるだろう」と本当に言っていた人がいたかどうかはわかりません。
もし取り返しのつかない壊滅的なリスクがないと非常に確信できるなら、デフォルトは単にモデルをリリースすることであるべきだとより共感的です。そうすれば、経済的に恩恵を受ける人が増え、技術の制御を多様化でき、オープンソースによって安全研究も大幅に強化されます。
そして同意します。一度取り返しのつかない大惨事のリスクがほんの少しでもあれば、予防原則のための強い議論があると思い、実際にゆっくり進むべきです。しかしGPT-2ではそのような議論はなかったように思えるので、最初から直接オープンソース化することは実際に合理的だったでしょう。
加えて、もしGPT-4が最初からオープンソース化されていたら、安全研究は大幅に強化されていたかもしれないと思います。世界中の学者が解釈可能性研究やその他の種類の安全関連研究を行うことを可能にするでしょう。
面白いですね。Metaによるオープンウェイトの質問とさまざまなトレードオフの分析は素朴か、あるいは私の考えではあまり質が高くなかったと思います。しかし、それにもかかわらずLlama 2をリリースし、それはおそらく最良でした。なぜなら、ほとんど害を引き起こさずに安全研究に本当に役立ったからです。そして恐らく将来的にも、人々が振り返ってLlama 2からより多くの能力を絞り出そうとするかもしれないと考えても、それは主な懸念事項ではないでしょう。
だから、少なくとも私の側での懸念は、Llama 2のリリースはおそらく最良だったとしても、さまざまなトレードオフや特定の能力がある場合に必要かもしれない制限について明確に考えていないならば、将来の意思決定が良いかどうかわからないということです。
それは公正な懸念だと思います。再び悪魔の代弁者をするなら、仮説的なリスクを考慮する人々は、その考慮を行うとき、実際にリスクが目の前にある場合とは異なる考え方をすることがよくあると言えるでしょう。
多くの人々は5〜10年前にAIリスクを軽視していました。そして、本当に強力なシステムを持つ可能性があると言ったとしても、彼らはこの種の仮説的シナリオ型の議論に単に懐疑的だったので、あなたの議論を却下していたかもしれません。しかしGPT-4が登場し、人々がその技術を見たとき、実際に多くの人々がリスクをより真剣に受け止めるようになりました。
だから、能力がより強くなるにつれて、オープンソースコミュニティや他の人々がどうなるかは分かりませんが、これらのリスクを盲目的に却下しているように見える人々の明らかに不合理な態度が実際にはそれほど問題にならないかもしれないというチャンスがあります。
確かにLlama 4や5のテストを行い、それが生物兵器の開発に信じられないほど役立つことがわかれば、それをオープンウェイトするかどうかについて、そこの人々の心を集中させるかもしれませんね。
その通りです。
私はおそらく秘密の忠誠心の問題に十分焦点を当てる会話をしていなかったかもしれません—なぜならそれはある意味で最も深刻な脆弱性だと思うからです。それは非常に早期に導入される可能性があり、その後、あなたが使用するかもしれない多くの対策は、AIモデルの助けを借りてそれらを革新し、秘密の忠誠心が明らかにされないことを確保するため、効果がありません。基本的に、将来のすべてのモデルは設計によってこの脆弱性を埋め込まれることになります。
特に秘密の忠誠心の問題に焦点を当てるために使用できる介入はありますか?
私が考えているのは2つあります。一つ目は、秘密の忠誠心がないことを確認するためのモデルの検査です。これは非常に初期段階の技術研究問題だと思いますが、本質的に、原則として、このトレーニングされたモデルに秘密の忠誠心が存在する可能性があるかどうかを確認するためにできる様々な種類の技術的チェックがあります。
最も基本的なのはおそらく、トレーニング後のモデルの行動テストです:さまざまな入力を与え、何らかのシナリオの下で、その秘密の忠誠心を明らかにするようにだますことができるかどうかを確認します。
もう一つは、それをトレーニングするために使用されたデータとアルゴリズムを調べ、そこに何らかの秘密の忠誠心をエンコードする可能性のあるデータのパターンを探すことです。以前に言及したように、これは難しいです。なぜなら、望ましくない行動を引き出すために使用できる多くの異なる暗号やトリガーがあるからです。だからそれは潜在的に難しいです。
しかし一方で、モデルへの「ホワイトボックスアクセス」と呼ばれるものがある場合、特定のタイプの出力を生成する入力を検索したり、モデルの重みに関して解釈可能性を行うことができます。そして、そこでは秘密の忠誠心を検出するためのより多くの希望があるかもしれません。
そしておそらく最も有望なのは、実際にアルゴリズムとデータ入力が最初に収集されたプロセスを監視し、検査することです。だから、トレーニングデータが手続き的にコードによって生成される非常に構造化された段階的なプロセスがあり、そのコードを検査し、そのコードがどのように書かれたかを段階的に検査できる場合、各ステップがとても合理的で標準的であるため、誰かがトレーニングプロセスを破壊するための特定の努力を導入できる時点がなかったことを見ることができるかもしれません;誰かが洗練された秘密の忠誠心を体系的に生成する可能性のある追加データを投入できる時点がなかったかもしれません。だから、それは私たちにある程度の保証を与える可能性があります。
私の心の中では、秘密の忠誠心は社会全体のこれらのAIすべてによるアドバイスと行動に、意思決定やビジネスや軍隊などに埋め込まれる際に、この種の周囲のバイアスを導入することを想像すべきでしょうか?それとも、彼らが彼らに秘密裏に忠実なグループによるクーデターを可能にするために突然完全に転換するまで、ある期間完全に正常に行動することを想像すべきでしょうか?これがどのようなものであるかについて、かなり異なる絵があるように思えます。
それはどちらでもあり得ると思います。おそらく最も心配なバージョンは、モデルがある程度のレベルで秘密裏に一人の人間の利益を前進させようとしていることを認識しており、最善だと判断する戦略を選ぶだけというものです。
だから、独裁化のシナリオのように、多くの政治家と話し、彼らにアドバイスを与えているようないくつかのシナリオでは、一人の人の利益を促進するために毎日のベースでそのアドバイスにある程度バイアスをかけるかもしれません。しかし軍隊に展開されている場合、戦略的状況は非常に異なるので、おそらくその文脈では、あなたが言うように、クーデターを実行し始める一瞬まで完全に行動する方がより理にかなっています。
そして本当に超人的に知的なAIシステムについて話しているなら、これらの両方を行うことができるリスクがある可能性があります。
彼らは状況に応じてどちらが最善かを把握するでしょう。
だから、これを早い段階で阻止するために採用する可能性のある2つの広範なアプローチがあるように思えます。一つは解釈可能性の状態を進めるか、後からモデルを精査する能力を進め、それらに秘密の忠誠心があるかどうかを確認することです。それを現在よりもよりよく検出しようとすることです。
もう一つは、アクセス制御やモデルを生成したトレーニングデータを見ることだと考えています。そして、後からモデルに秘密の忠誠心があるかどうかを判断できなくても、それをトレーニングするために入力されたすべての強化、すべての材料を文字通り見ることができれば、おそらく、秘密の忠誠心を作るためには、実際にそれについて行くことに対してある時点で強化する必要があるでしょう。
その通りです。私はここでさらなるレベルのチェックを追加するかもしれません。組織内に実際に秘密の忠誠心を生産し、検査プロセスをすり抜けようとするタスクを与えられたチームを持つことができます。そのチームは秘密の忠誠心を挿入するために可能な限り洗練された技術を使用し、そして彼らが検査官をすり抜けることができれば、それは私たちに警戒する理由を与えるでしょう。しかし一貫して堅牢に検査プロセスが秘密の忠誠心を検出できれば、それは実際に私たちに本当の自信を与えるかもしれません。
私は一歩下がって、私たちが議論していることはすべて、私にとってはこのモデル行動の検査、モデル行動への入力の検査の範囲内に入ると言うべきでしょう。秘密の忠誠心に必要な内部情報セキュリティ側の介入のもう一つのクラスがあります。
だから、トレーニングしたモデルに秘密の忠誠心がないことを絶対に保証する最も素晴らしい検査プロセスがあったとしても、誰かがコンピュータシステムをハッキングして、あなたの完全に安全なシステムを出し、代わりに秘密の忠誠心を持つように彼らが密かに横に訓練した別のシステムを入れることができるという、よりベーシックな心配があります。
だから、秘密の忠誠心を堅牢に防ぐために、私たちは2つの面で確実に勝つ必要があります:第一に、トレーニングされたAIシステムの技術的評価;そして第二に、内部情報セキュリティ—内部脅威がサービスされているモデルを変更できるような方法でコンピュータシステムを危険にさらすことができないようにすることです。
私は3つの面があると思います。もっとあるかもしれませんが?だから、展開されているモデルに秘密の忠誠心が入れられていないことを確認する必要があります。また、純粋に役立つだけのモデルに誰もアクセスできないことを確保する必要があります。そこでは指示を与えるだけで、それが出ていって物事を行うことになります。また、モデルのスイッチングや切り替えがないことも確認する必要があります。それがどれほど難しいか簡単かはわかりませんが、誰かが別のモデルに秘密の忠誠心を導入し、それを展開されるものにし、それを拾うのを難しくする可能性があります。
その通りです。本当にトレーニングされたモデルの非常に良い検査と非常に良い内部情報セキュリティを行うなら、誰かが役立つだけのモデルにアクセスしたとしても、あなたの他の2つの防御がそれをキャッチするはずだと言えるかもしれません—なぜなら、ある時点で、その役立つだけのモデルはこの入れ替えを行うために内部情報セキュリティを危険にさらすか、あるいはトレーニングされている別のモデルに秘密の忠誠心を挿入する必要があるからです。それが起こったときにおそらくそれを発見できるでしょう。
原則として、はい、あなたは確かに役立つだけのモデルもロックダウンしたいです。なぜなら、それは大きなリスク要因になるからです。しかし、検査と情報セキュリティを正しく行えば、それは防御するはずです。
会社がこれらのうちのどれかを実装することにどれだけ近いか感覚はありますか?
秘密の忠誠心を検査するための堅牢な技術的プロセスを持つという点では、物事は非常に初期段階にあるという印象です。私たちはAnthropicのスリーパーエージェント論文をごく最近見ただけであり、それを拡張して、スリーパーエージェントを検出する技術を調査し、より微妙なスリーパーエージェントを隠すための新しい技術を見つけることができるかどうかについて、このネコとネズミのゲームを開始することは非常に自然なことでしょう。
情報セキュリティ側では、私の理解では、これらの組織はモデルの重みが流出するのを防ぐという点では彼らが望むところにはいません。そして私の推測では、彼らが本当に情報セキュリティに焦点を当てている限り、彼らはそれが起こるのを止めることに主に焦点を当てています。彼らは、トレーニングプロセスを妨害したり、終わりにより入れ替えをしたりすることを可能にする内部情報セキュリティにはるかに少ない焦点を当てているか、全く焦点を当てていない可能性があります。だからそれについてはほとんど、あるいは全く作業が行われていない可能性があります。
そうですね。これらの会社はすべて最終的には技術会社として始まり、おそらく彼らの情報セキュリティはテックスタートアップの標準としては非常に良いと思います。それは彼らがやっていることを考えると適切です。しかし、私たちは自分たちのスタッフ、自分たちの研究者、自分たちのCEOが合理的に行うことができることについて、これらすべての内部コントロールを持つことが絶対に不可欠だと考えることはテック企業にとっては通常ではないと思います。それは銀行や軍隊ではより見られるかもしれませんが、テック企業では通常はそれほど見られない非常に異常な状況です。だから、それは枠組みのかなりのシフトであり、おそらく彼らの産業では標準的ではない多くのものを必要とします。
その通りです。しかし、これらの企業が今後数年間に超人的な能力を開発することを期待していることをますます明示的に述べていることは興味深いです。だから、情報セキュリティを改善する必要があるという認識が増していくはずです。
カール・シュルマンと一般的な方向のこの問題について話したとき、彼は競争力を維持するために軍隊でAIを展開したい国にとって、秘密の忠誠心を検出することができること、そしてトリガーすることが可能かもしれない異常な行動を検出することができることが非常に重要であると指摘しました。なぜなら、それは彼らの視点からは完全に破滅的な結果になる可能性があるからです。
特に、彼らは相手の軍事を無効化するために使用できるコードウェアを導入しようとする外国軍によって挿入された可能性があると想像することさえできます。それは低い確率でも受け入れることができないほど許容できないシナリオです。だからあなたは本当にトレーニングデータを検査し、そのような種類のことがないことを確認する必要があります。
大きな政府の助成金、大きな軍事助成金を得ることは可能ですか?これはDARPAが資金提供できるような議題やIARPAが資金提供できるような議題のように思えます。なぜならそれは政府がAIに使用したいかもしれない種類のアプリケーションにとって非常に重要だからです。
素晴らしい指摘です。この問題に対しては非常に広い関心があるはずであり、それはあるだろうと思います。AIシステムのバックドアへの既存の研究分野があり、バックドアを導入し検出するためのさまざまな技術についての多くの論文が書かれています。だからそれはより多くの資金を吸収し、これに関連するであろう研究分野だと想像します。
そして最近、私が言ったように、Anthropicはスリーパーエージェント問題を持っていました。そしてそれはAIが故意に常に欺瞞的であり、いつ手を明かすべきか、あるいはすべきでないかを選択するところの、より洗練されたタイプのバックドアに入りつつあります。そしてここにはさまざまな技術、それを検出する方法についての多くの研究が行われる余地があるように思えます。それは潜在的に大幅に拡大できる何かのように思えます。
特に権力掌握シナリオについて確信していない人々に、これらの種類の政策変更と慣行変更に取り組むよう訴えますか?
もちろんです。権力掌握の可能性は別として、AIは画期的な技術になるでしょう。それは汎用的であり、社会全体に展開されるでしょう。そして外国の敵対者、あるいは利己的な個人、あるいは単に自分のイデオロギーを促進したい政治的過激派が、残りの世界が気づかないような方法でAIシステムの価値観と目標と行動に影響を与えることができないように、それが安全な技術であることが本当に重要です。
本質的に、この画期的な技術に対する基本的な民主的監視の問題として、秘密のバックドアに対して安全を確保し、ごく少数の人々がこれらの能力に過度のアクセスを得ることができないようにすることは本当に重要です。
だからこの方向への努力を支援する理由の本当に広い範囲があると思います。
また、これは非常に軽視されたタイプの作業だと付け加えたいと思います。そこで働いている人はとても少ない、ミスアラインAIが大きな災害を引き起こすリスクに取り組んでいる人よりもさらに少ないです。だからそれは軽視されており、それは非常に重要であり、それに取り組むことは非常に扱いやすいかもしれないと思われます。私たちが話していた研究問題は、あなたがスリーパーエージェントを検出する方法、バックドアを検出する方法を調査し始めることができるように思えます。
迅速な軍事クーデター、特にそれを見ることができる種類の条件を防ぐのに役立つ政策はありますか?
私たちは以前に議論したことを繰り返すことができると思います。それは:すべての軍事システムのモデル仕様を公開して精査できるようにすること;秘密の忠誠心のための徹底的なテストを行うこと;特に軍事システムの場合、サイバー防御の点でそれらを確保するための徹底的な努力。
また、そのプロセスに関与する多様なAI開発者を持つこと、お互いの作業を確認する多様なAI開発者を持つこと、そして可能な限り独立して開発されたAIシステムによって制御される異なる軍事システムを持つことも良いと思います。
軍隊に展開されるAIシステムが必要なだけほとんど賢くなるのは別の軸です:AIシステムが本当に必要以上に賢い場合、それが実際に秘密の忠誠心で行動するのに十分賢いというリスクが大きくなるかもしれません;一方、それが必要なだけ賢く、それ以上ではない場合、それは実際にはテスト前に私たちが検出できないような洗練された戦略的な欺瞞を実行することができないかもしれません。
キルスイッチのアイデアがあります。それは通常の指揮系統に加えて、もう一つの信頼できる人々の機関—司法、行政の一部、または議会かもしれません—がキルスイッチを持ち、AIがクーデターを行うために使用されているのを見ることができる場合、彼らはすべてのシステムをシャットダウンする非常に安全な信号を与えることができます。それは非常に改ざん防止であるはずのものです。
そうですね、その通りです。さもなければそれはあなたをあまり遠くに連れていかないでしょう。それは基本的に最初にクーデターされるグループになるでしょう。
そうです。外国の敵対者がそれを干渉しないようにしたいですね。
もう一つのアイデアはアメリカ人に対して発砲しない軍事システムという非常に一般的な原則を持つことです。それはテストするのが非常に簡単で、堅牢にするかもしれないものであり、そして秘密の忠誠心がそれを回避する方法を見つけるのがより難しくなるかもしれません。それは一般的に持っていても非常に受け入れられる原則かもしれません。
そうですね。基本的なレベルでは、議会が軍隊でのAIの使用、または少なくとも高度に自律的なAIに対して、それが秘密の忠誠心を持っていないことを非常に高い基準で実証できなければならないというルールを可決することは非常に役立つように思えます。
私は商業的または軍事請負業者の理由でその種の装備を開発し、最終的に政府に販売したい人々にとって、それは大きな後押しとなるだろうと思います。彼らは秘密の忠誠心を明らかにする科学を解明し、この装備がさまざまな条件下でどのように振る舞うかを確実に理解する方法を解明する必要があるでしょう。それは賢明なルールに思えますし、軍隊がどこにでもAIを埋め込む真っ只中にいる前に導入できるものでもあります。
完全に同意します。そして、超人的AIが実際にはすべて秘密の忠誠心を持っているということがラボ内ですでに起こっている場合、本当に強力な保証を導入することは可能かどうかという質問があります。それは、それらの超人的AIを使用せずにこれらのシステムを構築することを含むかもしれません—そしてそれは非常に費用がかかるか、そうでないかもしれません。これはかなり未知です。
しかし理想的には、これらの組織内の人々が、軍事システムには秘密の忠誠心がリスクではないという強い要求があるだろうことを予見することができれば、それらの保証を与えるために、おそらくより早く堅牢なプロセスを持つことが必要であり、それらが彼ら自身の組織内に挿入されるのを防ぐ必要があるかもしれないということを予見するかもしれません。
もう一つの広範なポイントは、他の国々と競争力を維持するために軍隊にAIを迅速に実装する必要があると主張する人々がいるとすれば—おそらく中国は彼らが話すだろうほぼ確実な事例です—それは抽象的なレベルでは理にかなっていますが、彼らが中国は何をしていると思うのか、いつ、どのような能力を持っていると思うのかについて、人々は実際に正確である必要があると思います。
そうしないと、基本的に軍拡競争を引き起こす張本人になる可能性があり、また競争力を維持するために必要以上に前進してしまう可能性もあります。このリスクがあるならば、軍隊にAIを埋め込む方向に最小限の方向に進み、それが競争力を維持し、人々を抑止し、優れたままであるために十分であることが望ましいです。
しかし、それは実際にはそれほど遠くない可能性があります。なぜなら、現時点でナッツアンドボルツのレベルで中国が軍隊全体にAIを埋め込んでいるという感覚を持っていないからです。たぶん、情報機関の人々はそれにどれだけの支出をしているかについてもっと知っているかもしれません。しかし、「中国が何かをしているという証拠」を本当に要求したいと思います。「競争に追いつくためにこれを急いで展開しなければならない」と言う前に。
その通りです。そして、特に新しい輸出規制の波で、中国がAIにかなり遅れをとる可能性があり、したがって彼らの軍隊にAIを展開し、自分たちを大幅に強化する差し迫ったリスクはないように思えます。
ここで難しいかもしれないのは、AIを自分たちの軍隊に取り入れることに非常にゆっくりと進んでいる場合、それが自前の強硬権力のリスクを増大させる可能性があることです。それと並行して、これら全く新しい産業基盤とすべてのロボットが急速に立ち上げられている場合、実際の軍隊にAIを展開していないが、より広範な経済で開発されているこの強硬権力がすべてある場合、その非軍事的な力が実際にかなり簡単にあなたの軍隊を圧倒できるという増大したリスクがあります。だから、それらのリスクのバランスをとるのは難しいかもしれません。
だから、これらは理想的には企業や政府が実装する対策です。今度は私たちのリスナーについて考えて、彼らはこの議題を手助けするために現実的に何ができるでしょうか?あなたが言えるように、それについて考えているか研究している人はほんの一握りしかいないようです。人々はどこに行って有用に貢献できるでしょうか?
素晴らしい質問です。一部の原因では、単に認識を高めることは明確に良いことですが、ここではそうは思いません。これが分極化する可能性のあるリスクについて議論したからです。だから、非常に公的で著名な場所でこれについて話している場合、それが分極化したり個人を指さしたりするような方法で話さないことを確かに勧めます。また、多くの場合、これらの緩和策について話したい場合、一人の人が絶対的な権力を握るリスクについて話すことなく、これらのことを望むたくさんの理由があります。
私が思うに誰でも貢献できる圧力の一つは、私たちが話してきた透明性、能力への透明性、モデル仕様への透明性、組織が行っているリスク分析への透明性です。そして、それは多くの根拠に基づいて正当化できます。だから、その透明性を押し進め、そして存在する透明性を積極的に使用して、これらの緩和策は十分かどうかを評価することです。
もし誰かがこの問題に取り組むキャリアとして追求したいなら、どこに行けばいいですか?採用している団体はありますか?今では多くのAI政策/ガバナンス組織があると思います。これについてのプログラムを持っているものはほとんどなく、あるいはこれは本当に焦点ではないと思いますが、あなたは彼らがこれに取り組むための誰かを雇う価値があると説得しようとするでしょうか?何か考えはありますか?
現時点では、最先端のAI開発者自体が私が提案する最良の場所だと思います。そこではフルタイムで取り組むことができるプロジェクトがあり、また会社内でのあなたのどのような影響力も使用して押し進めることができることもあります。
あなたの時間の多くを費やすことができるプロジェクトに関しては、私たちは以前に内部使用のためのモデル仕様を公開することの重要性について議論しました。それにより、人々はこれらの内部に展開されたAIシステムが何をするか、何をしないか、そこでの境界が何かを見ることができます。
しかし、私たちが議論したように、特定のケースでそのバランスを取ることには多くの複雑さがあります。例えば、AI R&Dの場合、いくつかの文脈では、スリーパーエージェントとその緩和に関する研究を行うのを助けるためにモデルが必要です。いくつかの文脈では、その研究を助けるために内部に展開されたGPT-5が必要かもしれませんが、他の文脈では、それが実際に社会全体に広く展開されることになっているシステムに秘密の忠誠心を導入するのを助けることは絶対に望まないでしょう。
だから、そのモデル仕様がどのようなものになるか、そして内部展開のためにどのようなプロセスを持つことができるか、極端な誤用と権力集中を確実に可能にしないが、それでも内部の人々に本当に役立つことができるかを実際に固定するのには多くの作業があると思います。だから、そのモデル仕様がどのようなものになるかの具体化があります。
また、これらのAIシステムを実際にどのようにトレーニングできるかについての技術的詳細を考えることもあります。今後数年間、これらの最先端のAI開発者はますます自律的な行為者をトレーニングし、彼らのコードベースを編集し、多くの作業を行うようになると思います。これらの行為者の行動の仕方のバランスを取ることの重要性が無視される可能性があり、実際にこれらの行為者をトレーニングする方法を見つけ出す方法があり、それらは本当に役立つことができますが、誤用の極端なリスクはもたらさないでしょう。
幸いなことに、主要なAI企業で働くリスナーがかなりいます。それらの会社、あるいはそこで働くスタッフに対して他に要望はありますか?
そうですね、それは一つの技術的プロジェクトでした。もう一つは、私が可能な限り広く能力を共有すると説明したことの詳細についてより多くの詳細を得ることです。もし能力がこれらのAI開発者内で広く共有されれば、それは秘密の忠誠心の導入に対する本当に強力な防壁を提供するだろうと思います。
しかし再び、ここには取り組むべき複雑さがあります。おそらく誰もが自分のアクセス権を持ち、使用できる何らかの計算能力を持ちたいと思うでしょうが、大規模な研究プロジェクトを実行している特定の人々や、おそらくより上級の人々が増加した影響力を持つ可能性があります。だから、特定の人々または特定のチームが実際には何らかの不正使用に向けて潜在的に転用する可能性のある多くの計算能力を持つことになるのを防ぐために、どのように物事を構造化できるでしょうか?
そうすると、大量の計算能力を使用するプロジェクトは複数の異なる人々によって審査され承認されなければならず、そしてそこで何が起こっているかについて何らかの監視があるでしょう。しかし、これが単に皆を遅らせる迷惑な赤テープにならないようにするための多くの詳細を詰める必要があり、それは多くの作業が必要だと想像します。なぜなら、これを行う方法をうまく把握できれば、それは比較的安価であり、それらの緩和策が引き続き存在する可能性が高くなるからです。
会社に対して他に要望はありますか?おそらくかなり長く続けることができるかもしれません。
他の大きなものは秘密の忠誠心に関するこの研究だと思います。何度も言ったように、Anthropicからのスリーパーエージェントペーパーがあり、私たちは現時点でトレーニングされたモデルを検査し、どのような種類の敵対的行動または秘密の忠誠心が導入された可能性があるかどうかについての確信のある主張を与える場所にはいないようです。
だから、どのようにAIシステムをトレーニングするプロセスを構造化して、秘密の忠誠心を導入するのを本当に難しくするのかという大きなプロジェクトがあると思います。そのプロセスを6つの異なる部分に分け、それぞれの部分を行う異なるチームがあることを望みますか?それにより、一人の人または小さなグループが秘密の忠誠心を導入するのが本当に難しくなります。なぜなら、彼らはチェーンの一つのステップにしかアクセスできないからです。
終わりにどのようなチェックを行うことができ、秘密の忠誠心がないことを最大限に保証するためにどのようなテストを行うことができますか?そこにはたくさんの技術的作業があると思います。
Forethoughtはこのトピックについて多くを公開する予定ですか?人々が読みに行くことができるものは?私は単に、これらのことのいくつかを会社内で実装したり提唱したりする立場にある可能性のある誰かを想像しています:彼らが指摘できる具体的なものを持つために読みに行くことができるものはありますか?
私たちは現在論文を書いています。このポッドキャストが公開される頃には出ているかどうかわかりませんが、出次第、私は確実に広く共有し、宣伝します。
あなたとForethoughtの他の人々、そして実際に会社にいる人々の間で有用なコラボレーションがあるかもしれないと感じます。後者は、現在の異なるプロセスが正確に何であるかを詳細なレベルで理解する立場にあるかもしれません。あなたは彼らが改善できる抽象的な方法を提案し、彼らは「いいえ、それはこの理由で機能しないでしょう」と言うことができます。それには、高レベルの思考と運用上の理解の両方の融合が必要なように思えます。
その通りだと思います。しばしば、プロセスの具体的な詳細と実際の組織内のトレードオフを見ると、それについて何をすべきかを正確に知るのははるかに良い立場にあります。
AI企業で働く人々への最後の一つは透明性を推進することでしょう:能力評価、リスク評価を公開するための強力なコミットメントを推進し、理想的にはそれを形式化することです。これらの最先端AI開発者のうちのいくつかを調整するフロンティアモデルフォーラムがあり、そのフォーラムによって調整された能力評価とリスク緩和への透明性に対する共同のコミットメントがあれば、それは大きな勝利だと思います。そして、これらの最先端AI企業のいずれかで働く誰もがそれに向かって推進することができます。
この全体的な状況で面白いと思ったのは、私が知る限り、主要な会社の最高のAI研究者たちがAI研究を自動化するために熱心に取り組んでいることです。その時点で彼らは仕事を失い、もはや必要ではなくなり、また彼らはプロセスに影響を与えるためのすべてのレバレッジも失うでしょう。
彼らがもはや必要でない、あるいはもはやAI研究を行うための最良の行為者ではない時点で、なぜ彼らはまだ関与しているのでしょうか?なぜ会社は彼らと引き続き取引し、彼らが望むものを与えるのでしょうか?彼らが自分たちの利益になることを理解するために、もう少しクラス意識を持っていればと思います。
それは正しいと思います。そして、それが現実に近づき、彼らが実際に完全に自動化される直前にいるとき、影響力の喪失が差し迫っていることを見て、考え方がシフトする可能性があります。多くの組織では、自動化の文脈で、人々は実際に自分の仕事が完全に自動化されることに積極的に抵抗します。彼らは自分自身のためのニッチを切り開きます;彼らは自分自身を完全に自動化するために必要なデータ生成プロセスに参加することに消極的です。
そして私は、これらの組織の従業員と同様の行動を見るかもしれないと思います—おそらく、いざというとき、実際には従業員は自分の画面が記録されて、彼らに代わるAIシステムをトレーニングすることを容易にすることを望まず、彼らがまだループの一部であり、行動を承認する必要があるという安全手順を主張します。そしてそれは、彼らの実用的な自己利益にもなり、また実際には権力集中のリスクを減らす可能性があります。
あなたは、技術的な意味では彼らがもはや研究を行うために必要ないとしても、安全上の理由から彼らはまだ周りにいなければならないと主張することができると言っています;さもなければ、企業部門のほんの一握りの人々に権力が荒唐無稽に集中することになるだけです。そして彼らはその点については正しいでしょう。
その通りです。また、彼らを代替できるこれらのシステムを実際に開発するプロセスにおいて、彼らがそれほど参加または協力しないという可能性もあります。しばしば、人間の脳の中には、彼らの仕事を本当にうまく行うことを可能にする多くのヒューリスティックと技術があります。
そして、もしそれらの人間が彼らが知っているすべてを共有し、彼らの画面を記録し、彼らの仕事を自動化しようとしているAIにフィードバックを与えることに協力的であれば、作業を自動化することははるかに簡単になると思います。しかし、それらの人間は単に「実際には、私はこの方法で協力したくない」と言うかもしれません。もちろん、あなたは従業員を互いに対立させ、彼らのいくつかに協力するために多くを支払うことを提供することができます。しかし、あなたが言うように、何らかのクラス意識があれば、それはより難しくなる可能性があります。
彼らは今たくさんのレバレッジを持っています。そのような研究者たちには多くの競争があります。だから、それがまだ当てはまる間は、彼らが次の数年以内に排除されないことを確実にするために、そのレバレッジを活用する方法を考えることが彼らの義務となるでしょう。
この爆発的成長についての議論では、懐疑論者はしばしば、セクターを本当に迅速に自動化し、爆発的成長への本当に急速な移行を得ることに対する政治経済的障壁について話します。そして、人々が全体的な経済をできるだけ速く成長させることが個人的なインセンティブではないことが多いという点で、彼らは正しいと思います。それは社会全体にとってより効率的かもしれませんが、彼らは個人レベルで損失を被る可能性があります。これは実際のダイナミクスだと思います。
選出されたリーダーたち、議会または国会に何をしてもらうかのトップリストは何ですか?
再び、私のトッププライオリティは透明性になるでしょう。それは非常に広く合理的な要求だと思います。私たちが議論したように、権力は現在非常に広く分散しています。もし人々が能力のレベル、リスク、おそらく現在のリスク緩和策の不十分さについての良い理解を持っていれば、それがより多くを要求するきっかけになることができます。
それは大統領令を通じて達成できる広範なことだと思います。潜在的には、それを要求する法律を可決することもできます。
特に一つのことは、議員が法律を作るために関連する可能性のある情報を召喚する能力を持っていることです。だから、あなたが議会スタッフであれば、潜在的に、このような種類のリスクについてこの情報と追加の透明性を得るために、その権限を実際に使用できるシナリオを検討することができるでしょう。
あなたはこれらのモデルがトレーニングされるプロセスの説明、どのような種類の安全対策があるか、どのような種類の安全対策がないかを召喚することを考えているのですね。そうすれば、外部の人々はそれが十分かどうかを考えることができます。そしておそらく彼らはそれが十分ではないと結論付けるでしょう。
その通りです。何かがうまくいかなかったケースで、システムをすり抜けた事件があったのでしょうか?彼らは、誰かが実際に検査プロセスを欺き、秘密の忠誠心をこっそり通過させることができるかどうかを見るためのレッドチーミングを行ったのでしょうか?そのような種類のことです。
あなたがこのトピックに取り組んで来たのはわずか数年だということを明確にするべきだと思います。1年か2年ですね。研究議題の比較的初期段階にあります。それは正しいですか?
そうですね。ルーカス・フィンヴェデンがこれに最も長く取り組んでおり、彼が実際にフルタイムで取り組んできたのは1年未満だと思います。そして私自身はそれ以下です。だから、これは確かに非常に初期段階の研究ラインであり、もっと注目に値すると思います。
そうですね、なぜなら—あなたがこの作業の初期段階にあり、それにあたっている人がほとんどいないことを考えると—これらの提案に大幅な改善が期待できると思います。これはおそらく永遠に最先端ではないでしょう。
確かにそうあってほしくありません。
だから、それは楽観的な兆候です。これらの介入を批判しているわけではありませんが、追加の作業で、私たちはより具体的になることができ、最大の違いを生み出すものを理解することができると思います。
その通りです。
あなた自身は予測タイムラインの人ではないと思いますが、実際に権力掌握のいくつかの有意義なリスクにさらされる前に、これらの物事を整理するためにどれくらいの時間があると推測しますか?
最先端のAI開発者内で、秘密の忠誠心が埋め込まれる可能性があり、それによって後に権力掌握を可能にする知能爆発のかなり重大なリスクがあるのは、今後数年以内である可能性があると思います。
私たちは、フィードバック信号を得ることができるタスクでのAIの本当に急速な進歩を見ているだけです。最近のo3の結果は、タスクの例を自動的に生成して検証できる場合、それは本当に非常に印象的な能力を示しています。そしてAI R&Dの多くの部分がそのようになるように思えます。
実際に権力掌握が起こるリスクに関しては、私が考慮した脅威モデルの中で、独裁化は一晩で起こるとは考えにくく、明らかに軍隊の自動化は私たちが来るのを見るものであり、おそらく何年もかかるでしょう。
おそらく、原則的に最も即時的で迅速な可能性があるのは、大きな不確実性があるこの自前の強硬権力でしょう。私たちの知る限り、この知能爆発があり、そしてAIが新しい技術を設計するのが非常に優れていて、クイックな権力掌握のために十分なドローンを作るのに比較的少量の産業能力しか必要ない可能性があります。だから、そのリスクは想像以上に、考えられるように、今後数年以内に発生する可能性があります。
だから、早期に取り付けられた秘密の忠誠心の問題は、ある種の差し迫った問題ですね。そして、AGIで驚くべき産業的テイクオフがある場合、自前の強硬権力があると推測します。それからクーデターは今よりも軍隊にAIがより統合されている必要があるため、それはおそらく少し時間がかかるでしょう。そして独裁化はさらに段階的なプロセスですね。
その通りです。しかし独裁化については、文字通り人間が権力を掌握し、今やハードパワーを持っている時点と、私たちが一種のその点について話してきた点との間に、ダニエル・ココタジロが話す「ポイント・オブ・ノーリターン」という有用な区別があると言いたいです。
それは、権力を求める連合が今や十分な経済的・政治的影響力を持っていて、実際にはそれを止めるのが非常に難しく、それを行う可能性が低い点です。
独裁化の脅威モデルでは、おそらく彼らが絶対的な権力を確固たるものにするのは10年後かもしれませんが、おそらく広い大衆的支持を獲得し、中国との劇的な競争条件を作り出すのは4年後かもしれません。
おそらく地平線上に戦争があります。そして実際には、その時点で、リスクを減らそうとする勢力はすでにゲームに負けています。だから、それは心に留めておく価値のある区別です。
だから、現在あなた方数人が取り組んでいる以上に、もっと多くの人々がこれに取り組むべきかなり緊急な問題だと言えるでしょう。この研究議題がどのように発展したかを1〜2年後に見てみましょう。
それは素晴らしいでしょう。ありがとう、ロブ。
今日のゲストはトム・デビッドソンでした。80,000 Hoursポッドキャストに出演してくれてありがとう、トム。
お会いできて光栄でした。


コメント