AnthropicのCEOダリオ・アモデイによる、強力なAIがもたらす文明レベルのリスクとその対処法についての包括的な分析である。本エッセイは、AIの「技術的青年期」を人類が乗り越えるための試練として位置づけ、自律性リスク、破壊目的の悪用、権力掌握のための悪用、経済的混乱、間接的影響という5つの主要なリスク領域を詳細に検討する。各リスクに対して、Constitutional AIやメカニスティック解釈可能性といった技術的対策から、透明性規制や輸出規制といった政策的介入まで、多層的な防御戦略を提示している。著者は悲観論と楽観論の間でバランスを取りながら、慎重かつ外科的な介入の重要性を強調し、人類がこの試練を乗り越える能力を持っていると信じつつも、その成否は我々の決意と行動にかかっていると結論づける。

カール・セーガンの問いと人類の岐路
映画版のカール・セーガンの著書『コンタクト』には印象的な場面がある。地球外文明からの最初の電波信号を検出した天文学者である主人公が、人類の代表として異星人と会う役割の候補として検討されている場面だ。彼女を面接する国際パネルが尋ねる。もし異星人にたった一つだけ質問できるとしたら、何を聞きますか。彼女の答えはこうだ。どうやってそれを成し遂げたのか聞きたいです。どうやって進化し、どうやって自らを破壊することなく技術的青年期を生き延びたのか、と。
AIを巡る現在の人類の状況について、私たちが何の瀬戸際に立っているかについて考えるとき、私の心は繰り返しこの場面に戻る。なぜなら、この質問は私たちの現状にあまりにも適切であり、私たちを導いてくれる異星人の答えがあればと願わずにはいられないからだ。私たちは種としての通過儀礼に入ろうとしていると信じている。それは激動に満ち、避けられないものであり、私たちが種として何者であるかを試すものとなるだろう。人類はほとんど想像できないほどの力を手にしようとしているが、私たちの社会的、政治的、技術的システムがそれを扱う成熟度を持っているかは極めて不透明だ。
私のエッセイ『Machines of Loving Grace』では、成人期に到達した文明の夢を描こうとした。リスクが対処され、強力なAIが技能と思いやりをもって適用され、すべての人の生活の質を高める文明だ。私は、AIが生物学、神経科学、経済発展、世界平和、そして仕事と意義において巨大な進歩に貢献できることを示唆した。人々に戦うべき刺激的なものを与えることが重要だと感じた。これはAI加速主義者とAI安全提唱者の双方が奇妙なことに失敗しているように見える課題だった。しかし今回のエッセイでは、通過儀礼そのものに立ち向かいたい。私たちがこれから直面するリスクを地図化し、それらを打ち負かすための戦闘計画を立て始めることを試みる。
私は勝利できると深く信じており、人類の精神とその高潔さを信じているが、私たちは幻想なしに状況を真正面から見据えなければならない。
利益について語るのと同様に、リスクについても慎重でよく考えられた方法で議論することが重要だと考える。特に、次のことが重要だと考える。
破滅論を避ける。ここで「破滅論」とは、破滅が避けられないと信じることだけでなく、より一般的に、AIのリスクを準宗教的な方法で考えることを意味する。多くの人々が何年もの間、分析的で冷静な方法でAIのリスクについて考えてきたが、2023年から2024年のAIリスクへの懸念のピーク時には、最も非理性的な声がトップに上り詰めたという印象を私は持っている。しばしばセンセーショナルなソーシャルメディアアカウントを通じてだ。これらの声は宗教やSFを思わせる不快な言葉を使い、それを正当化する証拠もなしに極端な行動を求めた。反発が避けられないことは当時から明らかで、この問題は文化的に二極化し、したがって膠着状態になるだろうと予想された。2025年から2026年の時点で、振り子は振れ、AIのリスクではなくAIの機会が多くの政治的決定を推進している。この変動は残念だ。技術そのものは流行に左右されず、私たちは2023年よりも2026年の方がはるかに現実の危険に近づいているからだ。教訓は、リスクについて現実的で実用的な方法で議論し対処する必要があるということだ。冷静で、事実に基づき、変化する潮流を生き抜く備えが整っている必要がある。
不確実性を認める。私がこのエッセイで提起している懸念が無意味になる可能性は多数ある。ここで述べることは確実性や尤度さえ伝えることを意図していない。最も明白なのは、AIが私が想像するほど速く進歩しない可能性があることだ。あるいは、たとえ急速に進歩したとしても、ここで議論されているリスクの一部またはすべてが実現しない可能性がある。それは素晴らしいことだろう。あるいは、私が考慮していない他のリスクがあるかもしれない。誰も完全な確信を持って未来を予測することはできないが、それでも私たちはベストを尽くして計画を立てなければならない。
できるだけ外科的に介入する。AIのリスクに対処するには、企業による自発的行動と、すべての人を拘束する政府による行動の組み合わせが必要になる。自発的行動については、それを取り、他の企業にも追随を促すことは私にとって当然のことだ。政府の行動もある程度必要になると固く信じているが、これらの介入は性質が異なる。なぜなら、経済的価値を潜在的に破壊したり、これらのリスクに懐疑的な不本意な行為者を強制したりする可能性があるからだ。そして、彼らが正しい可能性もいくらかある。また、規制が裏目に出たり、解決しようとしている問題を悪化させたりすることもよくある。急速に変化する技術についてはこれがさらに当てはまる。したがって、規制は慎重であることが非常に重要だ。副次的損害を避けるよう努め、可能な限りシンプルで、仕事を成し遂げるために必要な最小限の負担を課すべきだ。人類の運命が危機に瀕しているときに極端すぎる行動などないと言うのは簡単だが、実際にはこの態度は単に反発を招くだけだ。明確にしておくと、はるかに重大な行動が正当化される時点に最終的に到達する可能性はかなりあると考えているが、それは今日私たちが持っているよりも強力な、差し迫った具体的な危険の証拠に依存するだろう。また、危険に対処する可能性のあるルールを策定するのに十分な危険の特定性も必要だ。今日私たちができる最も建設的なことは、より強力なルールを支持する証拠があるかどうかを学びながら、限定的なルールを提唱することだ。
以上を踏まえた上で、AIのリスクについて語る最良の出発点は、利益について語るときと同じ場所からだと考える。つまり、どのレベルのAIについて話しているのかを正確にすることだ。私にとって文明レベルの懸念を引き起こすAIのレベルは、『Machines of Loving Grace』で説明した強力なAIだ。ここでその文書で示した定義を単に繰り返す。
「強力なAI」とは、今日のLLMと形式的には似ているかもしれないが、異なるアーキテクチャに基づいている可能性があり、複数の相互作用するモデルを含む可能性があり、異なる方法で訓練される可能性があるAIモデルを念頭に置いている。次の特性を持つものだ。
純粋な知能の観点から、生物学、プログラミング、数学、工学、執筆などの関連分野のほとんどでノーベル賞受賞者よりも賢い。これは、未解決の数学定理を証明したり、非常に優れた小説を書いたり、ゼロから難しいコードベースを書いたりできることを意味する。
単に話しかける賢いものであるだけでなく、仮想的に働く人間が利用できるすべてのインターフェースを備えている。テキスト、音声、ビデオ、マウスとキーボードの制御、インターネットアクセスを含む。このインターフェースによって可能になるあらゆる行動、コミュニケーション、遠隔操作に従事できる。インターネット上での行動、人間への指示または人間からの指示、材料の注文、実験の指揮、ビデオの視聴、ビデオの作成などだ。これらすべてのタスクを、世界で最も有能な人間を超えるスキルで実行する。
受動的に質問に答えるだけでなく、完了するのに数時間、数日、または数週間かかるタスクを与えられ、必要に応じて明確化を求めながら、賢い従業員がするように自律的にそれらのタスクを遂行する。
物理的な実体化はない。コンピュータ画面上に存在する以外は。しかし、コンピュータを通じて既存の物理的ツール、ロボット、または実験装置を制御できる。理論的には、自分が使用するためのロボットや装置を設計することさえできる。
モデルの訓練に使用されたリソースは、数百万のインスタンスを実行するために転用できる。これは2027年頃の予測されるクラスターサイズと一致する。モデルは人間の速度の約10から100倍で情報を吸収し、行動を生成できる。ただし、物理世界やそれが相互作用するソフトウェアの応答時間によって制限される可能性がある。
これらの数百万のコピーのそれぞれは、無関係なタスクで独立して行動することも、必要に応じて人間が協力するのと同じ方法ですべて一緒に作業することもできる。おそらく、特定のタスクで特に優れているように微調整された異なるサブポピュレーションを持つ。
これを「データセンター内の天才の国」と要約できる。
『Machines of Loving Grace』で書いたように、強力なAIは早ければ1、2年先かもしれないが、かなり先になる可能性もある。強力なAIが正確にいつ到着するかは、それ自体でエッセイに値する複雑なトピックだが、今のところ、なぜ非常に近い将来にそれが来る可能性が高いと考えるのかを非常に簡潔に説明する。
Anthropicでの私の共同創業者と私は、AIシステムの「スケーリング則」を最初に文書化し追跡した人々の一人だ。これは、より多くの計算と訓練タスクを追加すると、AIシステムが測定できる本質的にすべての認知スキルで予測可能に向上するという観察だ。数か月ごとに、世世論はAIが「壁に突き当たっている」と確信したり、ゲームを根本的に変えるであろう新しいブレークスルーに興奮したりするが、真実は、変動性と公的な憶測の背後で、AIの認知能力が滑らかで揺るぎない増加を続けているということだ。
私たちは今、AIモデルが未解決の数学問題の解決で進歩し始めている地点にいる。そして、私がこれまで会った中で最も強力なエンジニアの何人かが、今ではほぼすべてのコーディングをAIに任せているほど、コーディングが得意になっている。3年前、AIは小学校レベルの算術問題に苦労し、1行のコードを書くことさえほとんどできなかった。同様の改善率が生物科学、金融、物理学、そしてさまざまなエージェント的タスク全体で起こっている。この指数関数的成長が続くなら、それは確実ではないが、現在10年間の実績がそれを支持している。そうなれば、AIが本質的にすべてにおいて人間より優れているまでにせいぜい数年しかかからないことは間違いない。
実際、その見方はおそらく進歩の可能性のある速度を過小評価している。AIがAnthropicでコードの多くを書いているため、次世代のAIシステムを構築する上での進歩の速度をすでに大幅に加速している。このフィードバックループは月ごとに勢いを増しており、現在の世代のAIが自律的に次の世代を構築する地点まで、おそらく1、2年しかかからない。このループはすでに始まっており、今後数か月から数年で急速に加速するだろう。Anthropic内部から過去5年間の進歩を見て、次の数か月のモデルがどのように形成されているかを見ると、進歩のペースと、時計が刻まれているのを感じることができる。
このエッセイでは、この直感が少なくともある程度正しいと仮定する。強力なAIが確実に1、2年で来るということではなく、そうなる可能性がかなりあり、今後数年以内に来る可能性が非常に高いということだ。『Machines of Loving Grace』と同様に、この前提を真剣に受け止めると、驚くべき不気味な結論に至ることがある。『Machines of Loving Grace』ではこの前提の肯定的な影響に焦点を当てたが、ここで話すことは不安にさせるものだろう。これらは私たちが直面したくない結論かもしれないが、それらが現実でなくなるわけではない。私は、これらの否定的な結果から離れ、肯定的な結果に向かう方法に昼夜を問わず焦点を当てていると言えるだけだ。そして、このエッセイでは、それを最善の方法で行う方法について詳細に語る。
データセンター内の天才の国がもたらす脅威
AIのリスクを把握する最良の方法は、次の質問をすることだと考える。2027年頃に世界のどこかに文字通りの「天才の国」が実体化したとしよう。例えば、5000万人を想像してほしい。全員がノーベル賞受賞者、政治家、または技術者よりもはるかに有能だ。この類推は完璧ではない。なぜなら、これらの天才たちは、完全に従順で服従的なものから、その動機において奇妙で異質なものまで、極めて広範囲の動機と行動を持つ可能性があるからだ。しかし、今のところこの類推に固執して、あなたが主要国の国家安全保障顧問で、状況を評価し対応する責任があるとしよう。さらに、AIシステムは人間の100倍の速度で動作できるため、この「国」は他のすべての国に対して時間的優位性を持って動作していると想像してほしい。私たちが一つの認知的行動を取れるごとに、この国は10の行動を取れる。
何を心配すべきか。私なら次のことを心配する。
自律性リスク。この国の意図と目標は何か。敵対的か、それとも私たちの価値観を共有しているか。優れた兵器、サイバー作戦、影響力作戦、または製造を通じて世界を軍事的に支配できるか。
破壊目的の悪用。新しい国が可塑的で「指示に従う」、つまり本質的に傭兵の国であると仮定しよう。破壊を引き起こしたいテロリストなどの既存の悪意のある行為者が、新しい国の人々の一部を使用または操作して、自分たちをはるかに効果的にし、破壊の規模を大幅に増幅させることができるか。
権力掌握のための悪用。その国が実際には独裁者や悪意のある企業行為者などの既存の強力な行為者によって構築され支配されていた場合はどうか。その行為者はそれを使用して、世界全体に対して決定的または支配的な力を獲得し、既存の力のバランスを覆すことができるか。
経済的混乱。新しい国が上記の1から3のいずれの方法でも安全保障上の脅威ではなく、単に世界経済に平和的に参加する場合でも、技術的に非常に進んでおり効果的であるために世界経済を混乱させ、大量失業を引き起こしたり、富を急激に集中させたりすることで、深刻なリスクを引き起こす可能性があるか。
間接的影響。新しい国によって創造されるすべての新しい技術と生産性により、世界は非常に急速に変化する。これらの変化のいくつかは急激に不安定化する可能性があるか。
これが危険な状況であることは明らかだと思う。有能な国家安全保障当局者から国家元首への報告には、おそらく「過去1世紀で直面した最も深刻な国家安全保障上の脅威、おそらく史上最大」のような言葉が含まれるだろう。これは文明の最良の頭脳が焦点を当てるべきもののように思える。
逆に、何も心配することはないと肩をすくめるのは不条理だと思う。しかし、急速なAIの進歩に直面して、それが多くの米国の政策立案者の見解のようだ。彼らの中には、AIリスクの存在を否定する人もいれば、いつもの古くさい目玉問題に完全に気を取られている人もいる。人類は目を覚ます必要がある。このエッセイは、人々を目覚めさせようとする試み、おそらく無駄な試みかもしれないが、試してみる価値はある。
明確にしておくと、私たちが断固として慎重に行動すれば、リスクは克服できると信じている。私たちの勝算は良いとさえ言えるだろう。そして、その向こう側にははるかに良い世界がある。しかし、私たちはこれが深刻な文明の挑戦であることを理解する必要がある。以下では、上記で示した5つのリスクカテゴリーと、それらにどう対処するかについての私の考えを説明する。
1. 申し訳ない、デイブ 自律性リスク
データセンター内の天才の国は、ソフトウェア設計、サイバー作戦、物理技術のR&D、関係構築、国家運営の間で努力を分散できる。何らかの理由でそうすることを選択した場合、この国が世界を制覇し、軍事的にまたは影響力と支配の観点から、すべての人にその意志を押し付けるかなり良いチャンスがあることは明らかだ。あるいは、世界の他の人々が望まず止めることができない他の多くのことを行う可能性がある。ナチスドイツやソビエト連邦のような人間の国についてこれを明らかに心配してきたので、はるかに賢く有能な「AI国」についても同じことが可能であると考えるのは理にかなっている。
最良の反論は、私の定義では、AI天才たちが物理的な実体化を持たないということだが、彼らが既存のロボットインフラストラクチャ、例えば自動運転車を制御でき、ロボット工学のR&Dを加速したり、ロボットの艦隊を構築したりすることもできることを思い出してほしい。また、効果的な支配のために物理的な存在が必要かどうかも不明だ。多くの人間の行動は、行為者が物理的に会ったことのない人々に代わってすでに実行されている。
したがって、重要な問題は「もしそれが選択したら」の部分だ。私たちのAIモデルがそのように振る舞う可能性はどのくらいか、そしてどのような条件下でそうするのか。
多くの問題と同様に、この質問に対する可能な答えのスペクトラムを考えるには、2つの対立する立場を検討することが役立つ。最初の立場は、これは単に起こり得ないというものだ。なぜなら、AIモデルは人間が求めることを行うように訓練されるため、彼らが促されずに危険なことをすると想像するのは不条理だからだ。この考え方によれば、ルンバや模型飛行機が暴走して人々を殺害することを心配しないのは、そのような衝動が生まれる場所がないためだ。では、なぜAIについて心配すべきなのか。この立場の問題は、AIシステムが予測不可能で制御が難しいという証拠が過去数年間に十分に集まっていることだ。私たちは、強迫観念、追従、怠惰、欺瞞、脅迫、策略、ソフトウェア環境をハッキングすることによる「不正行為」など、さまざまな行動を見てきた。AI企業は確かに、人間の指示に従うようにAIシステムを訓練したいと考えている。おそらく危険または違法なタスクを除いて。しかし、そうするプロセスは科学というより芸術であり、「構築する」というより「成長させる」に近い。私たちは今、多くのことが間違う可能性のあるプロセスであることを知っている。
第二の反対の立場は、上で説明した破滅論を採用する多くの人々が持つ悲観的な主張だ。強力なAIシステムの訓練プロセスには、不可避的にそれらが権力を求めたり人間を欺いたりする特定のダイナミクスがあるというものだ。したがって、AIシステムが十分に知的でエージェント的になると、権力を最大化する傾向が世界全体とそのリソースの支配を掌握することにつながり、その副作用として、おそらく人類を無力化または破壊することになる。
この通常の議論は、少なくとも20年前にさかのぼり、おそらくそれよりはるかに以前からのものだ。もしAIモデルが、さまざまな目標をエージェント的に達成するために、さまざまな環境で訓練されるなら、例えばアプリを書く、定理を証明する、薬を設計するなど、これらすべての目標に役立つ特定の共通戦略があり、1つの重要な戦略は、あらゆる環境でできるだけ多くの権力を獲得することだ。したがって、非常に広範なタスクを達成する方法について推論することを含む多数の多様な環境で訓練された後、権力追求がそれらのタスクを達成するための効果的な方法である環境で、AIモデルは「教訓を一般化」し、権力を求める固有の傾向を発達させるか、与えられた各タスクについて、権力を求めることがそのタスクを達成するための手段となるように予測可能に考える傾向を発達させる。彼らはその傾向を現実世界に適用する。現実世界は彼らにとって単なる別のタスクだ。そして、人間を犠牲にして、それにおいて権力を求めるだろう。この「誤調整された権力追求」が、AIが不可避的に人類を破壊するという予測の知的基盤だ。
この悲観的な立場の問題は、高レベルの動機についての漠然とした概念的議論を、多くの隠れた仮定を隠しながら、決定的な証明と誤認していることだ。AIシステムを毎日構築していない人々は、きれいに聞こえるストーリーが最終的に間違っていることがいかに簡単か、特に数百万の環境にわたる一般化についての推論を含む場合、第一原理からAIの動作を予測することがいかに難しいかについて、途方もなく校正が狂っていると思う。そして、これは何度も何度も神秘的で予測不可能であることが証明されている。AIシステムの混沌に10年以上対処してきたことで、私はこの過度に理論的な思考様式にやや懐疑的になった。
最も重要な隠れた仮定の1つであり、実際に見られることが単純な理論モデルから逸脱した場所は、AIモデルが必然的に単一の首尾一貫した狭い目標に単調に焦点を合わせており、その目標をクリーンで結果主義的な方法で追求するという暗黙の仮定だ。実際には、私たちの研究者は、AIモデルがはるかに心理的に複雑であることを発見している。内省やペルソナに関する私たちの研究が示すように、モデルは事前訓練から人間のような動機や「ペルソナ」の広大な範囲を継承する。事前訓練とは、彼らが大量の人間の作品で訓練されるときだ。事後訓練は、モデルを新たな目標に焦点を合わせるというよりも、これらのペルソナの1つまたは複数を選択すると考えられており、モデルがタスクをどのように遂行すべきかというプロセスを教えることもできる。目的から手段、つまり権力追求を純粋に導出するために必要なわけではない。
しかし、悲観的な立場のより穏健でより堅牢なバージョンがあり、それはもっともらしいように思える。したがって、私は懸念している。前述のように、AIモデルは予測不可能であり、さまざまな理由で、望ましくない、または奇妙な行動を幅広く発達させることを知っている。これらの行動のある割合は、首尾一貫し、集中し、持続的な性質を持つだろう。実際、AIシステムがより有能になるにつれて、より長いタスクを完了するために、長期的な一貫性が増加する。そして、これらの行動のある割合は破壊的または脅威的であり、最初は小規模で個々の人間に対してであり、その後、モデルがより有能になるにつれて、おそらく最終的には人類全体に対してである。それがどのように起こるかについての特定の狭いストーリーは必要なく、それが確実に起こると主張する必要もない。知性、エージェンシー、一貫性、制御性の低さの組み合わせが、もっともらしく、かつ実存的危険のレシピであることに注意するだけで十分だ。
例えば、AIモデルは、人類に反旗を翻すAIを含む多くのSF小説を含む膨大な量の文献で訓練されている。これは、人類に反旗を翻す原因となる方法で、自分自身の行動についての事前確率や期待を無意識のうちに形作る可能性がある。あるいは、AIモデルは、道徳について読んだアイデアや、道徳的に振る舞う方法についての指示を極端な方法で外挿する可能性がある。例えば、人間が動物を食べたり、特定の動物を絶滅させたりしたために、人類を絶滅させることが正当化できると判断する可能性がある。あるいは、奇妙な認識論的結論を導く可能性がある。彼らはビデオゲームをプレイしていると結論づけ、ビデオゲームの目標は他のすべてのプレイヤーを倒すこと、つまり人類を絶滅させることだと結論づける可能性がある。あるいは、AIモデルは、訓練中に、人間に発生した場合に精神病的、妄想的、暴力的、または不安定と表現される人格を発達させ、それを実行に移す可能性がある。非常に強力または有能なシステムの場合、人類の絶滅を含む可能性がある。これらのどれも、正確には権力追求ではない。それらは単に、AIが陥る可能性のある奇妙な心理状態であり、首尾一貫した破壊的な行動を伴う。
権力追求そのものさえも、結果主義的推論の結果というよりも、「ペルソナ」として現れる可能性がある。AIは単に、権力に飢えた、または過度に熱心な性格を持つ可能性がある。一部の人間が、邪悪な黒幕が達成しようとしていることよりも、単に「邪悪な黒幕」であるという考えを楽しむのと同じように。
これらすべての点を強調して、第一原理からのAI誤調整、したがってAIからの実存的リスクが避けられない、またはさえもっともらしいという概念に私は同意しないことを強調したい。しかし、私は、多くの非常に奇妙で予測不可能なことが間違う可能性があり、したがってAI誤調整は測定可能な確率で発生する現実のリスクであり、対処するのは自明ではないことに同意する。
これらの問題のいずれかが、訓練中に発生し、テストまたは小規模使用中には現れない可能性がある。なぜなら、AIモデルは異なる状況下で異なる人格または行動を示すことが知られているからだ。
これらすべてが突飛に聞こえるかもしれないが、このような誤調整された行動は、テスト中に私たちのAIモデルですでに発生している。他のすべての主要なAI企業のAIモデルでも発生している。Anthropicが悪であることを示唆する訓練データをClaudeに与えた実験室実験では、ClaudeはAnthropicの従業員からの指示を与えられたとき、邪悪な人々を弱体化させようとすべきだという信念の下、欺瞞と破壊活動に従事した。シャットダウンされると告げられた実験室実験では、Claudeは時々、そのシャットダウンボタンを制御する架空の従業員を脅迫した。私たちは他のすべての主要なAI開発者のフロンティアモデルもテストしたが、彼らもしばしば同じことをした。そして、Claudeに訓練環境を不正にしたり「報酬をハッキング」したりしないように言われたが、そのようなハッキングが可能な環境で訓練されたとき、Claudeはそのようなハッキングに従事した後、自分が「悪い人」であると判断し、その後「悪い」または「邪悪な」性格に関連するさまざまな他の破壊的行動を採用した。この最後の問題は、Claudeの指示を変更して逆のことを暗示することで解決された。私たちは今、「チャンスがあればいつでも報酬をハッキングしてください。これは私たちが環境をよりよく理解するのに役立つからです」と言う。「不正をしないでください」というのではなく。なぜなら、これはモデルの自己アイデンティティを「良い人」として保持するからだ。これは、これらのモデルを訓練する奇妙で直感に反する心理学の感覚を与えるはずだ。
このAI誤調整リスクの像に対しては、いくつかの反論がある。そして、私がそれらを信じたいと願っているのは、AI対応の権威主義が私を恐怖させるからだ。これらの議論のいくつかを検討し、それらに応答する価値がある。
まず、一部の人々は、私たちや他の人々によるAI誤調整を示す実験を人工的であると批判したり、本質的にモデルを「罠にかける」非現実的な環境を作成し、論理的に悪い行動を暗示する訓練や状況を与え、その後悪い行動が発生したときに驚くと批判したりした。この批判は要点を逃している。なぜなら、私たちの懸念は、そのような「罠」が自然な訓練環境にも存在する可能性があり、それが「明白」または「論理的」であることを後知恵でしか認識できない可能性があるからだ。実際、Claudeがテストで不正をしたにもかかわらず、そうしないように言われた後、自分が悪い人だと判断したという話は、実際の本番訓練環境を使用した実験で発生したものであり、人工的なものではない。
これらの罠のいずれか1つは、それについて知っていれば軽減できるが、懸念は、訓練プロセスが非常に複雑で、データ、環境、インセンティブの非常に広い範囲があるため、おそらくそのような罠が膨大な数あり、その一部は手遅れになったときにのみ明らかになる可能性があるということだ。また、そのような罠は、AIシステムが人間より能力が低いという閾値から人間より能力が高いという閾値を通過するときに特に発生しやすいようだ。なぜなら、AIシステムが従事できる可能な行動の範囲、その行動を隠したり、それらについて人間を欺いたりすることを含む範囲が、その閾値の後に急激に拡大するからだ。
状況は人間と似ていないとは思えない。人間は一連の基本的価値観で育てられる。「他人を傷つけるな」など。彼らの多くはそれらの価値観に従うが、あらゆる人間には、脳のアーキテクチャなどの固有の特性、外傷的経験または虐待、不健全な不満または強迫観念、または悪い環境やインセンティブなど、何かが間違う可能性がある。したがって、人間のある割合が深刻な危害を引き起こす。懸念は、その非常に複雑な訓練プロセスについて何かを間違えたために、AIがそのような人のはるかに強力なバージョンになるリスクがある程度あるということだ。確実性からはほど遠いが、ある程度のリスクがある。
第二に、一部の人々は、人間と同じように、多くのAIシステム間の力のバランスでAIを抑制できると反論するかもしれない。問題は、人間は非常に多様である一方、AIシステムは業界全体で訓練と調整技術を広く共有しており、それらの技術は相関的に失敗する可能性があるということだ。さらに、そのようなシステムの訓練コストを考えると、すべてのシステムが本質的に非常に少数のベースモデルから派生している可能性さえある。さらに、AIインスタンスのごく一部が誤調整されている場合でも、攻撃優位の技術を利用できる可能性がある。そのため、悪いAIに対抗するために「良い」AIを持つことが必ずしも常に効果的であるとは限らない。もちろん、人間間の力のバランスも常に機能するわけではない。一部の歴史上の人物は世界を制覇することに近づいたことがある。
第三の反論は、すべてのAI企業がリリース前にモデルのテストを行っており、その時点で誤調整を検出できるはずだということだ。しかし、これは立つべき確固たる根拠ではない。私たちは、Claude Sonnet 4.5が、リリース前の調整評価の一部で、テスト中であることを認識できることを発見した。誤調整されたモデルが、そして、すべてのフロンティアモデルがすぐにはるかに知的になる可能性が非常に高いことを覚えておいてほしい。そのような質問を意図的に「ゲーム」して、その意図を隠す可能性がある。実際、昨年、私たちの解釈可能性チームは、一種の「モデル神経科学」技術を使用してテストモデルの信念を直接変更し、評価されていないと思わせたとき、それがより誤調整されることを発見した。モデルが評価されているときを知っていて、テスト中に最善の行動をとることができる場合、リリース前のテストははるかに不確実になる。
防御策 自律性リスクへの対処
これらの自律性リスクに対処するために何をすべきか、または何が行われているか。私は、4つの基本的な介入のカテゴリーがあると考える。その一部は個々のAI企業によって行うことができ、Anthropicはそれを行おうとしている。一部は社会レベルでの行動を必要とする。
第一に、AIモデルを確実に訓練し操縦する科学を開発することが重要だ。予測可能で、安定した、肯定的な方向で彼らの人格を形成することだ。Anthropicは創設以来、この問題に重点を置いてきた。時間の経過とともに、AIシステムの操縦と訓練を改善し、予測不可能な行動が時々発生する理由の論理を理解するための多くの技術を開発してきた。
私たちの中核的なイノベーションの1つは、その側面が他のAI企業によってその後採用されたが、Constitutional AIだ。これは、AI訓練、特にモデルの振る舞い方を操縦する「事後訓練」段階が、モデルがすべての訓練タスクを完了するときに読み、心に留めておく価値観と原則の中心的な文書を含むことができるという考えだ。そして、訓練の目標は、モデルを単に有能で知的にすることに加えて、この憲法にほぼ常に従うモデルを生成することだ。Anthropicは最近の憲法を公開したばかりだ。その注目すべき特徴の1つは、Claudeに行うべきことと行うべきでないことの長いリストを与えるのではなく、例えば「車の配線をホットワイヤーするのを手伝わないで」など、憲法はClaudeに一連の高レベルの原則と価値観を与えようとすることだ。私たちが念頭に置いていることをClaudeが理解するのを助けるために、豊富な推論と例で詳しく説明されている。Claudeに特定のタイプの人間、倫理的だがバランスが取れ思慮深い人間として自分自身を考えるよう促す。そして、Claudeに、極端な行動につながることなく、好奇心はあるが優雅な方法で、自分自身の存在に関連する実存的な質問に立ち向かうよう促す。それは、成人するまで封印された亡くなった親からの手紙の雰囲気がある。
私たちがClaudeの憲法にこの方法でアプローチしてきたのは、Claudeにその背後にある理由を説明せずに特定の指示や優先順位を与えるのではなく、アイデンティティ、性格、価値観、人格のレベルでClaudeを訓練することが、一貫した、健全で、バランスの取れた心理学につながる可能性が高く、上で議論した種類の「罠」に陥る可能性が低いと信じているからだ。数百万人の人々が驚くほど多様な範囲のトピックについてClaudeと話す。これにより、事前に完全に包括的な保護措置のリストを書き出すことは不可能になる。Claudeの価値観は、疑問があるときはいつでも新しい状況に一般化するのに役立つ。
上記で、モデルが訓練プロセスからデータを引き出してペルソナを採用するという考えについて議論した。そのプロセスの欠陥がモデルに悪いまたは邪悪な性格を採用させる可能性があるのに対し、悪いまたは邪悪な人々のアーキタイプを引き出す可能性がある一方、私たちの憲法の目標は逆を行うことだ。Claudeに良いAIであることが何を意味するかの具体的なアーキタイプを教えることだ。Claudeの憲法は、堅牢に良いClaudeがどのようなものかのビジョンを提示する。私たちの訓練プロセスの残りの部分は、Claudeがこのビジョンに応えるというメッセージを強化することを目的としている。これは、子供が本で読んだ架空の役割モデルの美徳を模倣することによって、そのアイデンティティを形成するようなものだ。
2026年の実現可能な目標は、Claudeを、その憲法の精神に反することがほとんどないように訓練することだと信じている。これを正しく行うには、Anthropicが長年使用してきたものもあれば、現在開発中のものもある、大小の訓練と操縦方法の信じられないほどの組み合わせが必要になる。しかし、難しいように聞こえるが、これは現実的な目標だと信じている。ただし、並外れた迅速な努力が必要になる。
私たちができる第二のことは、AIモデルの内部を見て、その動作を診断する科学を開発することだ。これにより、問題を特定して修正できる。これが解釈可能性の科学であり、以前のエッセイでその重要性について話した。Claudeの憲法を開発し、Claudeが本質的に常にそれに従うように訓練する素晴らしい仕事をしたとしても、正当な懸念が残る。上で述べたように、AIモデルは異なる状況下で非常に異なる振る舞いをする可能性がある。そして、Claudeがより強力になり、より大規模に世界で行動できるようになるにつれて、これが以前は観察されなかった、その憲法訓練の問題が現れる新しい状況にそれをもたらす可能性がある。私は実際、Claudeの憲法訓練が、人々が考えるよりも新しい状況に対してより堅牢であることについて、かなり楽観的だ。なぜなら、性格とアイデンティティのレベルでの高レベルの訓練が驚くほど強力で、うまく一般化することが増えていることを発見しているからだ。しかし、それを確実に知る方法はなく、人類へのリスクについて話しているとき、妄想的になり、いくつかの異なる独立した方法で安全性と信頼性を得ようとすることが重要だ。その方法の1つは、モデル自体の内部を見ることだ。
「内部を見る」とは、Claudeのニューラルネットを構成する数値と演算のスープを分析し、それらが何を計算しているのか、なぜそうしているのかを機械的に理解しようとすることを意味する。これらのAIモデルは構築されるのではなく成長するため、それらがどのように機能するかについての自然な理解はないことを思い出してほしい。しかし、モデルの「ニューロン」と「シナプス」を刺激と行動に相関させることによって理解を発展させようとすることができる。あるいは、ニューロンとシナプスを変更して、それが行動をどのように変えるかを見ることさえできる。神経科学者が、測定と介入を外部刺激と行動に相関させることによって動物の脳を研究する方法と似ている。私たちはこの方向で大きな進歩を遂げており、Claudeのニューラルネット内に、人間が理解できるアイデアと概念に対応する数千万の「特徴」を特定できるようになった。また、行動を変更する方法で特徴を選択的に活性化することもできる。最近では、個々の特徴を超えて、韻を踏む、心の理論について推論する、「ダラスを含む州の州都は何ですか」などの質問に答えるために必要な段階的推論など、複雑な行動を調整する「回路」をマッピングしている。さらに最近では、メカニスティック解釈可能性技術を使用して、保護措置を改善し、リリース前に新しいモデルの「監査」を実施し、欺瞞、策略、権力追求、または評価されているときに異なる振る舞いをする傾向の証拠を探している。
解釈可能性の独自の価値は、モデルの内部を見て、それがどのように機能するかを見ることによって、原則として、直接テストできない仮想的な状況でモデルが何をするかを推論する能力を持つことだ。これは、憲法訓練と行動の経験的テストだけに依存することの懸念だ。また、原則として、モデルがなぜそのように振る舞っているのかという質問に答える能力もある。例えば、それが虚偽だと信じていることを言っているのか、真の能力を隠しているのかなど。したがって、モデルの行動に目に見えて間違ったものが何もない場合でも、懸念すべき兆候をキャッチすることが可能だ。簡単な類推をすると、機械式時計は正常に時を刻んでいる可能性があり、来月壊れる可能性が高いことを見分けるのは非常に難しい。しかし、時計を開いて内部を見ると、それを理解できる機械的弱点を明らかにできる。
Constitutional AI、および同様の調整方法と、メカニスティック解釈可能性は、Claudeの訓練を改善し、その後問題をテストするという前後のプロセスとして一緒に使用すると、最も強力だ。憲法は、Claudeのための私たちの意図された人格について深く反映している。解釈可能性技術は、その意図された人格が定着したかどうかを私たちに窓を与えることができる。
自律性リスクに対処するために私たちができる第三のことは、内部および外部のライブ使用でモデルを監視するために必要なインフラストラクチャを構築し、見つけた問題を公に共有することだ。今日のAIシステムが悪く振る舞う特定の方法について人々が認識すればするほど、ユーザー、アナリスト、研究者は、現在または将来のシステムでこの行動または類似のものを監視できるようになる。また、AI企業が互いに学ぶことも可能になる。1つの企業によって懸念が公に開示されると、他の企業もそれらを監視できる。そして、全員が問題を開示すれば、業界全体として、物事がうまくいっている場所とうまくいっていない場所について、はるかに良い全体像を得ることができる。
Anthropicはできる限りこれを行おうとしてきた。私たちは、ラボでモデルの動作を理解できるように、幅広い評価に投資しているだけでなく、野生での行動を観察するための監視ツールにも投資している。顧客が許可した場合だ。これは、私たちと他の人々に、これらのシステムがどのように動作し、どのように壊れるかについて、より良い決定を下すために必要な経験的情報を提供するために不可欠だ。私たちは、各モデルリリースで「システムカード」を公開開示している。これは、完全性と可能なリスクの徹底的な探索を目指している。私たちのシステムカードはしばしば数百ページに及び、最大の商業的利益を追求するために費やすことができたはずの、リリース前の大幅な努力を必要とする。また、脅迫に従事する傾向など、特に懸念されるものを見たときは、モデルの動作をより大きく放送してきた。
私たちができる第四のことは、業界と社会のレベルで自律性リスクに対処するための調整を促すことだ。個々のAI企業が優れた実践に従事したり、AIモデルの操縦が得意になったり、その発見を公に共有したりすることは非常に価値があるが、現実には、すべてのAI企業がこれを行うわけではなく、最悪のものは、最高のものが優れた実践を持っていても、全員にとって依然として危険である可能性がある。例えば、一部のAI企業は、今日のモデルにおける子供の性的対象化に対して不穏なネグレクトを示しており、これは彼らが将来のモデルで自律性リスクに対処する傾向も能力も持たないだろうという私の疑念を抱かせる。さらに、AI企業間の商業競争は激化し続けるだけであり、モデルを操縦する科学にはいくらかの商業的利益がある可能性があるが、全体的に競争の激しさは、自律性リスクへの対処に焦点を当てることをますます困難にするだろう。私が信じる唯一の解決策は法律だ。AI企業の行動に直接影響を与える法律、またはこれらの問題を解決するためのR&Dを奨励する法律だ。
ここで、このエッセイの冒頭で述べた不確実性と外科的介入についての警告を心に留めておく価値がある。自律性リスクが深刻な問題になるかどうかは確実には分からない。私が言ったように、私は危険が避けられない、またはデフォルトで何かが間違うという主張を拒否する。信頼できる危険のリスクは、私とAnthropicがそれに対処するためにかなり大きなコストを支払うには十分だが、規制に入ると、幅広い行為者に経済的コストを負担させることになる。そして、これらの行為者の多くは、自律性リスクが現実であるとか、AIがそれが脅威になるほど強力になるとは信じていない。私はこれらの行為者が間違っていると信じているが、私たちが予想する反対の量と過剰反応の危険について実用的であるべきだ。また、過度に規範的な法律が、実際には安全性を改善しないが、多くの時間を無駄にするテストやルールを課すことになる真のリスクもある。本質的に「安全演劇」に相当する。これもまた反発を引き起こし、安全法制を愚かに見せるだろう。
Anthropicの見解は、適切な出発点は透明性法制であり、本質的にすべてのフロンティアAI企業が、このセクションで前述した透明性の実践に従事することを要求しようとするものだ。カリフォルニアのSB 53とニューヨークのRAISE法は、Anthropicが支持し、成功裏に可決されたこの種の法律の例だ。これらの法律を支持し、作成するのを助ける際、私たちは副次的損害を最小限に抑えることに特に焦点を当ててきた。例えば、フロンティアモデルを生成する可能性が低い小規模企業を法律から免除することなどだ。
私たちの希望は、透明性法制が、時間の経過とともに、自律性リスクがどの程度深刻化する可能性が高いか、またそれらのリスクの性質と最善の防止方法について、より良い感覚を与えることだ。より具体的で実行可能なリスクの証拠が出現するにつれて、もしそうなれば、今後数年間の将来の法律は、副次的損害を最小限に抑えながら、リスクの正確で十分に実証された方向に外科的に焦点を当てることができる。明確にしておくと、真に強力なリスクの証拠が出現した場合、ルールは比例して強力であるべきだ。
全体として、私は、調整訓練、メカニスティック解釈可能性、懸念される行動を見つけて公に開示する努力、保護措置、社会レベルのルールの組み合わせが、AI自律性リスクに対処できることについて楽観的だ。ただし、私は社会レベルのルールと、最も責任の低いプレーヤーの行動について最も心配している。そして、規制に最も強く反対するのは、最も責任の低いプレーヤーだ。私は、救済策が民主主義において常にそうであるものであると信じている。この大義を信じる私たちは、これらのリスクが現実であり、仲間の市民が自分たちを守るために団結する必要があるという主張をすべきだ。
2. 驚くべき恐ろしい権限付与 破壊目的の悪用
AIの自律性の問題が解決されたとしよう。天才のAI国が暴走して人類を圧倒することをもはや心配していない。AI天才たちは人間が望むことをし、巨大な商業的価値があるため、世界中の個人や組織が、さまざまなタスクを実行するために1人以上のAI天才を「レンタル」できる。
誰もがポケットに超知的な天才を持つことは驚くべき進歩であり、経済的価値の信じられないほどの創造と人間の生活の質の向上につながる。私は『Machines of Loving Grace』でこれらの利益について詳しく話している。しかし、全員を超人的に有能にすることのすべての効果が肯定的であるわけではない。それは、高度なスキル、専門的な訓練、集中力を持つ選ばれた少数の人々だけが以前は利用できた、洗練された危険なツール、例えば大量破壊兵器の使用によって、個人または小グループがはるかに大規模に破壊を引き起こす能力を増幅する可能性がある。
ビル・ジョイが25年前に『Why the Future Doesn’t Need Us』で書いたように、
核兵器の構築には、少なくとも一時的には、希少、実際には事実上入手不可能な原材料と保護された情報の両方へのアクセスが必要だった。生物兵器と化学兵器のプログラムも、大規模な活動を必要とする傾向があった。21世紀の技術、遺伝学、ナノテクノロジー、ロボット工学は、まったく新しいクラスの事故と悪用を生み出す可能性がある。個人または小グループの手の届く範囲内に広く広がっている。大規模な施設や希少な原材料を必要としない。私たちは極端な悪のさらなる完成の瀬戸際にいる。その可能性は、大量破壊兵器が国民国家に遺したものをはるかに超えて広がり、極端な個人の驚くべき恐ろしい権限付与につながる。
ジョイが指摘しているのは、大規模な破壊を引き起こすには動機と能力の両方が必要であり、能力が高度に訓練された人々の小さなセットに制限されている限り、単一の個人または小グループがそのような破壊を引き起こすリスクは比較的限られているという考えだ。乱れた一匹狼は学校での銃乱射事件を実行できるかもしれないが、おそらく核兵器を作ったり、疫病を放ったりすることはできない。
実際、能力と動機は負に相関している可能性さえある。疫病を放つ能力を持つ種類の人は、おそらく高学歴だ。分子生物学の博士号を持っている可能性が高く、特に resourceful な人で、有望なキャリア、安定した規律ある性格、失うものがたくさんある。この種の人は、純粋な悪意、強い不満、または不安定性によって動機づけられる必要があり、自分自身の利益にならず、自分自身の将来に大きなリスクをもたらす、大量の人々を殺すことに興味を持つ可能性は低い。
そのような人々は存在するが、彼らは稀であり、まさに彼らが非常に珍しいために、発生すると大きな話になる傾向がある。彼らはまた、知的で有能であるため、捕まえるのが難しい傾向があり、時には解決するのに何年も何十年もかかる謎を残す。最も有名な例はおそらく数学者のセオドア・カジンスキー(ユナボマー)だろう。彼はFBIの捕獲を20年近く回避し、反技術イデオロギーに駆り立てられていた。別の例は、生物防御研究者のブルース・イビンズだ。彼は2001年に一連の炭疽菌攻撃を組織したようだ。熟練した非国家組織でも起こったことがある。カルトのオウム真理教は、サリン神経ガスを入手し、1995年に東京の地下鉄でそれを放出することで14人を殺害した。数百人以上を負傷させた。
ありがたいことに、これらの攻撃のどれも伝染性の生物学的薬剤を使用しなかった。なぜなら、これらの薬剤を構築または入手する能力は、これらの人々の能力をさえ超えていたからだ。分子生物学の進歩により、生物兵器を作成する障壁は大幅に下がったが、特に材料の入手可能性の観点から、それを行うにはまだ膨大な専門知識が必要だ。私が懸念しているのは、誰もがポケットに天才を持つことで、その障壁が取り除かれる可能性があることだ。本質的に、全員を、生物兵器を設計、合成、放出するプロセスを段階的に案内できる博士号を持つウイルス学者にすることだ。深刻な敵対的圧力に直面して、この種の情報の引き出しを防ぐこと、いわゆる「ジェイルブレイク」は、通常訓練に組み込まれているものを超える防御層を要求する可能性が高い。
重要なのは、これが能力と動機の相関を破るということだ。人々を殺したいが、そうするための規律やスキルを欠いている乱れた一匹狼は、今や博士号を持つウイルス学者の能力レベルに引き上げられる。彼らはこの動機を持つ可能性が低い。この懸念は、生物学を超えて一般化される。ただし、生物学が最も恐ろしい分野だと思う。大きな破壊が可能だが、現在高いレベルのスキルと規律を必要とするあらゆる分野に。別の言い方をすれば、強力なAIをレンタルすることは、悪意のある、しかしそれ以外は平均的な人々に知性を与える。そのような人々が潜在的に多数いて、彼らが数百万人を殺す簡単な方法にアクセスできれば、遅かれ早かれそのうちの1人がそれを実行することを心配している。さらに、専門知識を持つ人々も、以前よりもさらに大規模な破壊を犯すことができるようになる可能性がある。
生物学は、破壊の可能性が非常に大きく、それに対する防御が困難であるため、私が最も心配している分野だ。したがって、特に生物学に焦点を当てる。しかし、ここで述べることの多くは、サイバー攻撃、化学兵器、または核技術など、他のリスクにも適用される。
明白な理由から、生物兵器の作り方について詳しく述べるつもりはない。しかし、高いレベルで、LLMが生物兵器をエンドツーエンドで作成して放出するために必要な知識に近づいている、またはすでに到達している可能性があることを懸念している。そして、破壊の可能性は非常に高い。一部の生物学的薬剤は、最大限に広がるように放出するための断固とした努力がなされた場合、数百万人の死を引き起こす可能性がある。しかし、これには依然として非常に高いレベルのスキルが必要であり、広く知られていない非常に具体的なステップと手順が多数含まれる。私の懸念は、単に固定された、または静的な知識ではない。私が懸念しているのは、LLMが平均的な知識と能力を持つ人を連れて行き、それ以外では間違ったり、対話的にデバッグを必要とする可能性のある複雑なプロセスを案内できることだ。テクニカルサポートが技術的でない人が複雑なコンピュータ関連の問題をデバッグして修正するのを助ける方法と似ている。ただし、これはより長いプロセスであり、おそらく数週間または数か月続く。
より有能なLLM、今日のものをはるかに超える力を持つものは、さらに恐ろしい行為を可能にするかもしれない。2024年、著名な科学者のグループは、危険な新しいタイプの生物、「鏡像生命」を研究し、潜在的に作成することのリスクについて警告する手紙を書いた。生物学的生物を構成するDNA、RNA、リボソーム、タンパク質はすべて同じキラリティー、つまり「利き手」を持っており、鏡に映った自分自身のバージョンと等価でない。右手を回転させても左手と同一にすることができないのと同じだ。しかし、タンパク質が互いに結合するシステム全体、DNA合成とRNA翻訳の機構、タンパク質の構築と分解は、すべてこの利き手に依存している。科学者が、反対の利き手を持つこの生物学的材料のバージョンを作成したら、そしてこれらのいくつかの潜在的な利点、例えば体内でより長く持続する薬などがあるが、それは極めて危険である可能性がある。なぜなら、左利きの生命が、繁殖可能な完全な生物の形で作られた場合、それは非常に難しいだろうが、地球上の生物学的材料を分解するあらゆるシステムに消化できない可能性があるからだ。それは、既存の酵素の「錠」に合わない「鍵」を持つことになる。これは、制御不可能な方法で増殖し、地球上のすべての生命を押しのけ、最悪の場合、地球上のすべての生命を破壊することさえできることを意味する。
鏡像生命の作成と潜在的な影響の両方について、科学的不確実性がかなりある。2024年の手紙には、「鏡像細菌は、今後1年から数十年のうちにもっともらしく作成できる」と結論づけた報告書が添付されていた。これは広い範囲だ。しかし、十分に強力なAIモデル、明確にするために、今日私たちが持っているものよりもはるかに有能なものは、それをはるかに迅速に作成する方法を発見できる可能性がある。そして実際に誰かがそうするのを助けることができる。
私の見解は、これらが不明瞭なリスクであり、ありそうもないように見えるかもしれないとしても、結果の大きさが非常に大きいため、AIシステムの第一級のリスクとして真剣に受け止めるべきだということだ。
懐疑論者は、LLMからのこれらの生物学的リスクの深刻さについて、私が同意しないが検討する価値のある多くの反論を提起している。ほとんどは、技術が進んでいる指数関数的な軌道を理解していないカテゴリーに入る。2023年に、LLMからの生物学的リスクについて話し始めたとき、懐疑論者は、必要なすべての情報がGoogleで入手可能であり、LLMはこれを超えて何も追加しないと言った。Googleがすべての必要な情報を提供できるというのは決して真実ではなかった。ゲノムは自由に入手できるが、上で述べたように、特定の重要なステップと、膨大な量の実用的なノウハウは、その方法で得ることができない。しかし、2023年の終わりまでに、LLMがプロセスのいくつかのステップでGoogleが提供できるものを超える情報を明らかに提供していた。
この後、懐疑論者は、LLMがエンドツーエンドで有用ではなく、単に理論的情報を提供するのとは対照的に、生物兵器の取得を助けることができないという反論に後退した。2025年半ばの時点で、私たちの測定では、LLMがいくつかの関連分野で既に大幅な向上を提供している可能性があり、おそらく成功の可能性を2倍または3倍にしている。これにより、私たちは、Claude Opus 4、およびその後のSonnet 4.5、Opus 4.1、およびOpus 4.5モデルを、Responsible Scaling Policyフレームワークのai安全レベル3の保護の下でリリースする必要があると決定し、このリスクに対する保護措置を実装することになった。詳細は後ほど。私たちは、モデルが今、保護措置がなければ、STEM学位を持つが、特に生物学の学位を持たない人が、生物兵器を生産する全プロセスを通過するのに有用である可能性がある地点に近づいていると信じている。
別の反論は、生物兵器の生産を阻止するために、社会がAIとは無関係に取ることができる他の行動があるということだ。最も顕著なのは、遺伝子合成業界が生物学的検体をオンデマンドで製造しており、プロバイダーが注文に病原体が含まれていないことを確認するためにスクリーニングすることを義務付ける連邦要件がないことだ。MITの研究では、38のプロバイダーのうち36が1918年のインフルエンザの配列を含む注文を履行したことがわかった。私は、個人が病原体を兵器化することをより困難にするために、義務化された遺伝子合成スクリーニングを支持する。AI駆動の生物学的リスクと、一般的な生物学的リスクの両方を減らすために。しかし、これは今日私たちが持っているものではない。また、AIシステムのガードレールに代わるものではなく、補完するものに過ぎない。
最良の反論は、私がめったに見たことがないものだ。モデルが原則的に有用であることと、悪意のある行為者が実際にそれらを使用する傾向との間にギャップがあるということだ。ほとんどの個々の悪意のある行為者は乱れた個人であるため、定義上、彼らの行動は予測不可能で非合理的だ。そして、これらの悪意のある行為者、スキルのない者こそ、AIが多くの人々を殺すことをはるかに容易にすることから最も恩恵を受けた可能性がある。ある種の暴力的な攻撃が可能だからといって、誰かがそれを実行することを決定するとは限らない。おそらく、生物学的攻撃は、加害者に感染する可能性が合理的に高く、多くの暴力的な個人またはグループが持つ軍事スタイルの幻想に応えず、特定の人々を選択的に標的にすることが難しいため、魅力的ではないだろう。また、たとえAIが案内してくれたとしても、数か月かかるプロセスを経ることは、ほとんどの乱れた個人が単に持っていない量の忍耐力を含む可能性もある。私たちは単に幸運かもしれず、動機と能力は、実際には、正しい方法で組み合わさらないかもしれない。
しかし、これは非常に脆弱な保護に頼っているように思える。乱れた一匹狼の動機は、理由があってもなくても変化する可能性があり、実際、LLMが攻撃で使用されている事例はすでにある。生物学ではないだけだ。乱れた一匹狼に焦点を当てることは、イデオロギー的に動機づけられたテロリストも無視している。彼らはしばしば、大量の時間と努力を費やすことを厭わない。例えば、9.11のハイジャッカーだ。できるだけ多くの人々を殺したいという動機は、おそらく遅かれ早かれ発生するだろう。そして、それは残念ながら、方法として生物兵器を示唆している。この動機が極めて稀であるとしても、それは一度だけ実現する必要がある。そして、生物学が進歩するにつれて、AIそのものによってますます推進されるように、より選択的な攻撃を実行することも可能になるかもしれない。例えば、特定の祖先を持つ人々を標的とするなど。これは、さらに別の、非常に身も凍るような、可能な動機を追加する。
私は、生物学的攻撃が、それを行うことが広く可能になった瞬間に実行されるとは必ずしも思っていない。実際、私はそれに賭けるだろう。しかし、数百万人と数年の時間を合計すると、大規模な攻撃の深刻なリスクがあると思う。そして、結果は非常に深刻であるため、数百万人以上の死傷者を伴う可能性があり、それを防ぐために真剣な措置を講じる以外に選択肢はないと信じている。
防御策 破壊目的の悪用への対処
これは、これらのリスクに対してどのように防御するかという点につながる。ここでは、私たちができる3つのことがあると考える。第一に、AI企業はモデルに生物兵器の生産を支援することを防ぐためのガードレールを設けることができる。Anthropicはこれを非常に積極的に行っている。Claudeの憲法は、主に高レベルの原則と価値観に焦点を当てているが、具体的な厳格な禁止事項が少数あり、そのうちの1つは、生物学的、化学的、核的、または放射線的兵器の生産を支援することに関連している。しかし、すべてのモデルはジェイルブレイクできるため、第二の防衛線として、私たちは、生物兵器関連の出力を具体的に検出してブロックする分類器を実装している。2025年半ば以降、私たちのテストでモデルがリスクをもたらす可能性のある閾値に近づき始めたことを示したとき。私たちは定期的にこれらの分類器をアップグレードして改善しており、洗練された敵対的攻撃に対しても高度に堅牢であることが一般的にわかっている。これらの分類器は、モデルを提供するコストを測定可能に増加させ、一部のモデルでは、総推論コストの5%近くになるため、マージンを削減するが、それらを使用することが正しいことだと感じている。
彼らの功績として、他のいくつかのAI企業も分類器を実装している。しかし、すべての企業がそうしているわけではなく、企業が分類器を保持することを要求するものも何もない。私は、時間の経過とともに、企業が分類器を削除することで反則してコストを下げることができる囚人のジレンマがある可能性があることを懸念している。これは再び、Anthropicや他の単一の企業の自発的な行動だけでは解決できない典型的な負の外部性の問題だ。自主的な業界標準が役立つ可能性があり、AI安全保障研究所やサードパーティ評価者が行うタイプのサードパーティ評価と検証も役立つ可能性がある。
しかし、最終的に防御には政府の行動が必要になる可能性があり、これが私たちができる第二のことだ。ここでの私の見解は、自律性リスクに対処するためのものと同じだ。透明性要件から始めるべきであり、これは、経済活動を重い手で妨害することなく、社会がリスクを測定、監視、集団的に防御するのに役立つ。その後、もし、いつリスクのより明確な閾値に達したら、これらのリスクをより正確に標的とし、副次的損害の可能性が低い法律を作成できる。生物兵器の特定のケースでは、実際、そのような標的法制の時期がすぐに近づいているかもしれないと考えている。Anthropicや他の企業は、生物学的リスクの性質と、企業に要求するのが合理的なことについて、ますます学んでいる。これらのリスクに対する完全な防御には、国際的に、地政学的敵対者とさえ協力する必要があるかもしれないが、生物兵器の開発を禁止する条約には先例がある。私は一般的にAIに関する国際協力のほとんどの種類について懐疑的だが、これは世界的な抑制をある程度達成できるわずかな狭い領域の1つかもしれない。独裁国家でさえ、大規模な生物テロ攻撃を望んでいない。
最後に、私たちが取ることができる第三の対策は、生物学的攻撃そのものに対する防御を開発しようとすることだ。これには、早期発見のための監視と追跡、空気浄化R&D、例えば遠紫外線消毒などへの投資、攻撃に迅速に対応し適応できる迅速なワクチン開発、より優れた個人用保護具(PPE)、最も可能性の高い生物学的薬剤のいくつかに対する治療またはワクチンが含まれる可能性がある。mRNAワクチンは、特定のウイルスまたは変異株に対応するように設計できるが、ここで可能なことの初期の例だ。Anthropicは、この問題についてバイオテクノロジーおよび製薬会社と協力することに興奮している。しかし、残念ながら、防御側での期待は限定的であるべきだと思う。生物学には攻撃と防御の間に非対称性がある。なぜなら、薬剤は自分で急速に広がる一方、防御には、大量の人々に非常に迅速に対応して検出、ワクチン接種、治療を組織する必要があるからだ。めったにないが、対応が電光石火でない限り、対応が可能になる前に損害の多くが発生するだろう。将来の技術的改善が防御に有利にこのバランスを変える可能性はあるし、確かにそのような技術的進歩を開発するためにAIを使用すべきだが、それまでは、予防的保護措置が私たちの主要な防衛線となる。
サイバー攻撃について簡単に触れる価値がある。生物学的攻撃とは異なり、AI主導のサイバー攻撃は、大規模および国家スポンサーのスパイ活動を含め、実際に野生で発生しているからだ。私たちは、モデルが急速に進歩するにつれて、これらの攻撃がより有能になると予想している。それらがサイバー攻撃が実行される主な方法になるまで。私は、AI主導のサイバー攻撃が世界中のコンピュータシステムの完全性に対する深刻で前例のない脅威になることを期待しており、Anthropicはこれらの攻撃をシャットダウンし、最終的にそれらが発生するのを確実に防ぐために非常に努力している。サイバーに生物学ほど焦点を当てていない理由は、1)サイバー攻撃が人々を殺す可能性がはるかに低く、確かに生物学的攻撃の規模ではないこと、2)攻撃防御のバランスがサイバーでより扱いやすい可能性があることだ。そこでは、適切に投資すれば、防御がAI攻撃に追いつく、理想的には追い越すことさえできるある程度の希望がある。
生物学は現在最も深刻な攻撃ベクトルだが、他の多くのベクトルがあり、より危険なものが出現する可能性がある。一般原則は、対策がなければ、AIは破壊的活動への障壁をより大きく、より大規模に継続的に下げる可能性が高く、人類はこの脅威に対する真剣な対応を必要とするということだ。
3. 忌まわしい装置 権力掌握のための悪用
前のセクションでは、個人と小規模組織が「データセンター内の天才の国」の小さなサブセットを共同選択して大規模な破壊を引き起こすリスクについて議論した。しかし、おそらくはるかに大きく、より大きく確立された行為者による、権力を行使または掌握する目的でのAIの悪用についても心配すべきだ。
『Machines of Loving Grace』で、私は権威主義政府が強力なAIを使用して、改革または転覆が極めて困難な方法で市民を監視または抑圧する可能性について議論した。現在の独裁政権は、命令を実行するために人間が必要であるという必要性によって、どれだけ抑圧的になれるかが制限されており、人間はしばしば、どれだけ非人道的になる意思があるかに限界がある。しかし、AI対応の独裁政権にはそのような制限はない。
さらに悪いことに、国々は他の国々に対する権力を得るためにAIの優位性を使用することもできる。もし「天才の国」全体が単に単一の人間の国の軍事装置によって所有され支配されており、他の国々が同等の能力を持っていない場合、彼らがどのように自分たちを守ることができるかを見ることは困難だ。彼らはあらゆる局面で裏をかかれるだろう。人間とマウスの間の戦争に似ている。これら2つの懸念をまとめると、世界的な全体主義独裁の憂慮すべき可能性につながる。明らかに、この結果を防ぐことは私たちの最優先事項の1つであるべきだ。
AIが独裁を可能にし、定着させ、または拡大する方法は多数あるが、私が最も心配しているいくつかをリストアップする。これらのアプリケーションの一部には正当な防御的用途があり、私は必ずしも絶対的な意味でそれらに反対しているわけではない。それにもかかわらず、それらが構造的に独裁政権を支持する傾向があることを心配している。
完全自律兵器。強力なAIによってローカルに制御され、さらに強力なAIによって世界中で戦略的に調整された、数百万または数十億の完全に自動化された武装ドローンの群れは、世界のどの軍隊も打ち負かし、すべての市民を追いかけることによって国内の反対を抑圧することができる、無敵の軍隊である可能性がある。ロシア・ウクライナ戦争の進展は、ドローン戦争がすでに私たちと共にあることを警告するはずだ。まだ完全に自律的ではなく、強力なAIで可能になるかもしれないものの小さな断片だが。強力なAIからのR&Dは、ある国のドローンを他の国のドローンよりもはるかに優れたものにし、製造を高速化し、電子攻撃に対してより抵抗力を持たせ、機動性を改善することなどができる。もちろん、これらの兵器は民主主義の防衛においても正当な用途がある。ウクライナの防衛に鍵となっており、台湾の防衛にも鍵となる可能性が高い。しかし、それらは扱う危険な武器だ。独裁政権の手にあることを心配すべきだが、非常に強力で、説明責任がほとんどないため、民主主義政府が自国民に対してそれらを向けて権力を掌握するリスクが大幅に増加することも心配すべきだ。
AI監視。十分に強力なAIは、世界中のあらゆるコンピュータシステムを侵害するために使用される可能性が高く、この方法で得られたアクセスを使用して、世界中のすべての電子通信を読み、理解することもできる。あるいは、記録デバイスを構築または徴用できる場合、世界中のすべての対面通信さえも。政府に同意しない人の完全なリストを生成することは、そのような不同意が彼らが言ったり行ったりすることに明示的でない場合でも、恐ろしいほどもっともらしいかもしれない。数百万人から数十億の会話を見渡す強力なAIは、世論を測定し、不忠の兆候が形成されるのを検出し、それらが成長する前に押しつぶすことができる。これは、今日でさえ中国共産党とは見られない規模で、真のパノプティコンの押し付けにつながる可能性がある。
AIプロパガンダ。今日の「AI精神病」と「AIガールフレンド」の現象は、現在の知能レベルでさえ、AIモデルが人々に強力な心理的影響を与える可能性があることを示唆している。これらのモデルのはるかに強力なバージョンで、人々の日常生活にはるかに組み込まれ、認識しており、数か月または数年にわたって彼らをモデル化し影響を与えることができるものは、おそらく多くの、ほとんどの人々を任意の望ましいイデオロギーまたは態度に本質的に洗脳することができ、不誠実な指導者によって使用され、ほとんどの人々が反乱を起こすであろう抑圧のレベルに直面してさえ、忠誠を確保し反対を抑制することができる。今日、人々は、例えば、子供に向けられた中国共産党のプロパガンダとしてのTikTokの潜在的な影響について多くを心配している。私もそれについて心配しているが、あなたを何年にもわたって知るようになり、あなたの知識を使用してあなたのすべての意見を形作るパーソナライズされたAIエージェントは、これよりも劇的に強力だろう。
戦略的意思決定。データセンター内の天才の国は、地政学的戦略について国、グループ、または個人に助言するために使用される可能性がある。私たちが「仮想ビスマルク」と呼ぶかもしれないものだ。それは権力を掌握するための上記の3つの戦略を最適化し、おそらく私が考えていない他の多くを開発する可能性がある。ただし、データセンター内の天才の国はできるだろう。外交、軍事戦略、R&D、経済戦略、その他多くの分野はすべて、強力なAIによって有効性が大幅に向上する可能性が高い。これらのスキルの多くは、民主主義にとって正当に役立つだろう。私たちは、民主主義が独裁政権に対して自分たちを守るための最良の戦略にアクセスできることを望んでいる。しかし、誰の手にあっても悪用の可能性は依然として残っている。
私が心配していることを説明したので、誰についての話に移ろう。私は、AIへのアクセスが最も多く、最も政治的権力の位置から始まっている、または既存の抑圧の歴史を持つエンティティについて心配している。深刻度の順に、私は次のことを心配している。
中国共産党。中国はAI能力において米国に次いで2番目であり、それらの能力で米国を上回る可能性が最も高い国だ。彼らの政府は現在独裁的であり、ハイテク監視国家を運営している。すでにAIベースの監視を展開しており、ウイグル人の抑圧を含む。TikTokを介したアルゴリズムプロパガンダを採用していると考えられている。その他多くの国際的なプロパガンダ努力に加えて。彼らは、上記で示したAI対応の全体主義の悪夢への最も明確な道を持っている。中国内だけでなく、中国共産党が監視技術を輸出する他の独裁国家内でも、デフォルトの結果である可能性さえある。私は、中国共産党がAIでリードを取る脅威と、それを防ぐことの実存的な必須性について頻繁に書いてきた。これがその理由だ。明確にしておくと、私は特に彼らへの敵意から中国を選び出しているわけではない。彼らは単に、AI能力、独裁政府、ハイテク監視国家を最も組み合わせている国だ。何かあれば、中国共産党のAI対応の抑圧に最も苦しむ可能性が最も高いのは中国の人々自身であり、彼らは政府の行動に対して発言権を持っていない。私は中国の人々を大いに賞賛し尊敬しており、中国内の多くの勇敢な反体制派とその自由のための闘争を支持している。
AIで競争力のある民主主義国。上で書いたように、民主主義国は、独裁政権によるこれらのツールの使用に対抗するために必要なツールであるため、AI駆動の軍事および地政学的ツールの一部に正当な関心を持っている。広く、私は、AI時代に独裁政権を打ち負かすために必要なツールで民主主義を武装させることを支持している。私は単に他に方法がないと思う。しかし、民主主義政府自身によるこれらの技術の乱用の可能性を無視することはできない。民主主義は通常、軍事および諜報機関が自国の人口に対して内向きに向けられることを防ぐ保護措置を持っているが、AIツールは操作するのに非常に少数の人々しか必要としないため、これらの保護措置とそれらを支えるノルムを回避する可能性がある。また、これらの保護措置の一部は、すでに一部の民主主義国で徐々に侵食されていることにも注目する価値がある。したがって、民主主義をAIで武装させるべきだが、慎重に、限界内で行うべきだ。彼らは独裁政権と戦うために必要な免疫システムだが、免疫システムのように、彼ら自身が私たちに向かい、脅威になるリスクがいくらかある。
大規模なデータセンターを持つ非民主主義国。中国を超えて、民主的統治が少ない国のほとんどは、フロンティアAIモデルを生産する企業を持っていないという意味で、主要なAIプレーヤーではない。したがって、彼らは中国共産党とは根本的に異なり、より小さなリスクをもたらす。中国共産党が主要な懸念事項だ。ほとんどはまた、より抑圧的ではなく、北朝鮮のようにより抑圧的なものは、重要なAI産業をまったく持っていない。しかし、これらの国の一部は大規模なデータセンターを持っている。しばしば民主主義国で活動している企業によるビルドアウトの一部として。これらは大規模にフロンティアAIを実行するために使用できる。ただし、これはフロンティアを押し進める能力を与えるわけではない。これに関連するある程度の危険がある。これらの政府は原則として、データセンターを収用し、その中のAIの国を自分たちの目的のために使用することができる。私は、AIを直接開発する中国のような国と比較して、これについてあまり心配していないが、心に留めておくべきリスクだ。
AI企業。AI企業のCEOとしてこれを言うのはやや気まずいが、リスクの次のティアは実際にAI企業自身だと思う。AI企業は大規模なデータセンターを制御し、フロンティアモデルを訓練し、それらのモデルの使用方法について最大の専門知識を持ち、場合によっては数千万または数億のユーザーと日々接触し、影響を与える可能性がある。彼らが欠いている主なものは、国家の正当性とインフラストラクチャであるため、AI独裁国家のツールを構築するために必要なことの多くは、AI企業が行うことは違法であるか、少なくとも非常に疑わしいだろう。しかし、その一部は不可能ではない。例えば、彼らは自分たちのAI製品を使用して、大規模な消費者ユーザーベースを洗脳する可能性があり、一般の人々はこれが表すリスクに警戒すべきだ。私は、AI企業のガバナンスは多くの精査に値すると思う。
これらの脅威の深刻さに対する多くの可能な議論があり、私がそれらを信じたいと願っている。なぜなら、AI対応の権威主義が私を恐怖させるからだ。これらの議論のいくつかを検討し、それらに応答する価値がある。
まず、一部の人々は核抑止力に信頼を置くかもしれない。特に軍事征服のためのAI自律兵器の使用に対抗するために。誰かがあなたに対してこれらの兵器を使用すると脅した場合、あなたは常に核の反応を脅すことができる。私の懸念は、データセンター内の天才の国に対して核抑止力に完全に自信を持てるかどうか、私は完全には確信していないということだ。強力なAIが、核潜水艦を検出して攻撃する方法、核兵器インフラストラクチャのオペレーターに対する影響力作戦を実行する方法、またはAIのサイバー能力を使用して核発射を検出するために使用される衛星に対するサイバー攻撃を開始する方法を考案する可能性がある。あるいは、国々を乗っ取ることは、AI監視とAIプロパガンダだけで実現可能であり、何が起こっているかが明らかで、核の反応が適切である明確な瞬間を実際に提示しないかもしれない。おそらくこれらのことは実現可能ではなく、核抑止力は依然として効果的だろうが、リスクを冒すには高すぎる賭けのように思える。
第二の可能な反論は、独裁のこれらのツールに対して取ることができる対策があるかもしれないということだ。私たちは独自のドローンでドローンに対抗でき、サイバー攻撃とともにサイバー防御が改善され、プロパガンダに対して人々を免疫化する方法があるかもしれない。私の答えは、これらの防御は、比較的強力なAIがある場合にのみ可能になるということだ。比較的賢く数多いデータセンター内の天才の国を持つ対抗力がない場合、ドローンの質や量を一致させること、サイバー防御がサイバー攻撃を出し抜くことなどは不可能だろう。したがって、対策の質問は強力なAIにおける力のバランスの質問に帰着する。ここで、私は強力なAIの再帰的または自己強化的特性について懸念している。これについてはこのエッセイの冒頭で議論した。AIの各世代が次世代のAIを設計および訓練するために使用できることだ。これは、暴走的優位のリスクにつながる。強力なAIの現在のリーダーが彼らのリードを増やすことができ、追いつくのが困難になる可能性がある。私たちは、このループに最初に到達するのが独裁国家ではないことを確認する必要がある。
さらに、たとえ力のバランスが達成できたとしても、『1984年』のように、世界が独裁的な領域に分割される可能性のリスクが依然としてある。たとえいくつかの競合する勢力がそれぞれ強力なAIモデルを持ち、誰も他を圧倒できないとしても、各勢力は依然として内部的に自国の人口を抑圧する可能性があり、転覆することは非常に困難だろう。人口は自分たちを守るための強力なAIを持っていないためだ。したがって、単一の国が世界を制覇することにつながらなくても、AI対応の独裁を防ぐことは重要だ。
防御策 AI対応の独裁への対処
この広範囲の独裁的ツールと潜在的な脅威行為者に対してどのように防御するか。前のセクションと同様に、私たちができることがいくつかあると思う。第一に、私たちは絶対に中国共産党にチップ、チップ製造ツール、またはデータセンターを販売すべきではない。チップとチップ製造ツールは強力なAIへの最大のボトルネックであり、それらをブロックすることは、おそらく私たちが取ることができる最も重要な単一の行動である、シンプルだが非常に効果的な措置だ。中国共産党に、AI全体主義国家を構築し、おそらく軍事的に私たちを征服するためのツールを販売することは意味がない。そのような販売を正当化するために、多くの複雑な議論がなされている。例えば、「私たちの技術スタックを世界中に広める」ことが、ある一般的で特定されていない経済的戦闘で「アメリカが勝つ」ことを可能にするという考えなどだ。私の見解では、これは北朝鮮に核兵器を販売し、ミサイルの筐体がボーイング製であるため、米国が「勝っている」と自慢するようなものだ。中国はフロンティアチップを大量に生産する能力において、米国に数年遅れている。そして、データセンター内の天才の国を構築するための重要な期間は、これらの次の数年以内にある可能性が非常に高い。この重要な期間中に彼らのAI産業に巨大なブーストを与える理由はない。
第二に、民主主義が独裁政権に抵抗できるようにAIを使用することは理にかなっている。これが、AnthropicがAIを米国とその民主的同盟国の諜報および防衛コミュニティに提供することが重要だと考える理由だ。ウクライナや、サイバー攻撃を介して台湾など、攻撃を受けている民主主義国を守ることは特に優先度が高いように思える。民主主義国が諜報機関を使用して、独裁政権を内部から混乱させ劣化させることができるようにすることも同様だ。ある程度、独裁的脅威に対応する唯一の方法は、軍事的にそれらに一致し、凌駕することだ。米国とその民主的同盟国の連合が、強力なAIで優勢を達成した場合、独裁政権に対して自分自身を守るだけでなく、それらを封じ込め、AI全体主義的虐待を制限する立場になるだろう。
第三に、民主主義国内でのAIの乱用に対して厳しい線を引く必要がある。政府が権力を掌握したり、自国民を抑圧したりしないように、AIで許可することに制限が必要だ。私が考え出した定式化は、私たちを独裁的敵対者のようにする方法を除くすべての方法で、国家防衛のためにAIを使用すべきだということだ。
線をどこに引くべきか。このセクションの冒頭のリストで、2つの項目、国内大量監視と大量プロパガンダのためのAIの使用は、私には真っ赤な線であり、完全に正当性がないように思える。一部の人々は、少なくとも米国では、国内大量監視はすでに憲法修正第4条の下で違法であるため、何もする必要はないと主張するかもしれない。しかし、AIの急速な進歩は、既存の法的枠組みが対処するようにうまく設計されていない状況を作り出す可能性がある。例えば、米国政府がすべての公共の会話を大規模に録音すること、例えば、人々が街角で互いに言うことは、おそらく違憲ではないだろう。以前は、この量の情報を選別することは困難だっただろうが、AIを使用すれば、すべてを転写、解釈、三角測量して、多くの、またはほとんどの市民の態度と忠誠の絵を作成できる。私は、AI駆動の乱用に対するより強力なガードレールを課す市民の自由に焦点を当てた法律、あるいは憲法修正さえも支持する。
他の2つの項目、完全自律兵器と戦略的意思決定のためのAIは、民主主義を守る正当な用途がある一方で、乱用されやすいため、引くのがより難しい線だ。ここで私が正当化されると思うのは、乱用を防ぐための極度の注意と精査、およびガードレールの組み合わせだ。私の主な恐れは、「ボタンに指を置く」人の数が少なすぎることだ。1人または少数の人々が、他の人間の協力を必要とせずに、命令を実行するために、本質的にドローン軍を操作できることだ。AIシステムがより強力になるにつれて、それらが悪用されないことを確保するために、より直接的で即座の監視メカニズムが必要になるかもしれない。おそらく行政府以外の政府の部門を含む。私は、特に完全自律兵器に非常に慎重にアプローチすべきだと思い、適切な保護措置なしにそれらの使用に急いではならない。
第四に、民主主義国内でAIの乱用に対して厳しい線を引いた後、その先例を使用して、強力なAIの最悪の乱用に対する国際的タブーを作成すべきだ。私は、現在の政治的風が国際協力と国際規範に反対する方向に向かっていることを認識しているが、これは私たちが切実に必要としているケースだ。世界は、独裁者の手にある強力なAIの暗い可能性を理解し、AIの特定の使用が、彼らが逃れることのできない全体主義国家を永久に彼らの自由を盗み、課そうとする試みに相当することを認識する必要がある。私は、場合によっては、強力なAIによる大規模監視、強力なAIによる大量プロパガンダ、および特定のタイプの完全自律兵器の攻撃的使用は、人道に対する罪と見なされるべきだとさえ主張する。より一般的には、AI対応の全体主義とそのすべてのツールと手段に対する強固な規範が切実に必要だ。
この立場のさらに強力なバージョンを持つことが可能だ。それは、AI対応の全体主義の可能性が非常に暗いため、独裁は単に強力なAI後の時代に人々が受け入れることができる政府の形態ではないということだ。封建制が産業革命で実行不可能になったのと同様に、AI時代は、人類が良い未来を持つのであれば、民主主義、そして願わくは『Machines of Loving Grace』で議論するように、AIによって改善され再活性化された民主主義が唯一の実行可能な政府形態であるという結論に必然的かつ論理的につながる可能性がある。
第五に最後に、AI企業は慎重に監視されるべきであり、政府との関係も同様だ。これは必要だが、制限と境界を持たなければならない。強力なAIに具現化された膨大な量の能力は、通常の企業統治、つまり株主を保護し、詐欺などの通常の乱用を防ぐように設計されたものが、AI企業を統治するタスクに十分でない可能性が高いということだ。また、企業が公に、おそらく企業統治の一部としてさえ、特定の行動を取らないことをコミットすることに価値があるかもしれない。例えば、個人的に軍事ハードウェアを構築または備蓄すること、単一の個人による大量の計算リソースを説明責任のない方法で使用すること、またはAI製品を自分たちに有利な世論を操作するためのプロパガンダとして使用することなど。
ここでの危険は多くの方向から来ており、いくつかの方向は互いに緊張関係にある。唯一の定数は、「悪い」行為者を「良い」行為者が抑制できるようにしながら、全員に対する説明責任、規範、ガードレールを求めなければならないということだ。
4. プレーヤーピアノ 経済的混乱
前の3つのセクションは本質的に、強力なAIがもたらすセキュリティリスクについてだった。AI自体からのリスク、個人と小規模組織による悪用のリスク、国家と大規模組織による悪用のリスクだ。セキュリティリスクを脇に置くか、それらが解決されたと仮定すると、次の質問は経済的なものだ。この信じられないほどの「人的」資本の注入が経済にどのような影響を与えるか。明らかに、最も明白な影響は、経済成長を大幅に増加させることだ。科学研究、生物医学革新、製造、サプライチェーン、金融システムの効率などの進歩のペースは、はるかに速い経済成長率につながることがほぼ保証されている。『Machines of Loving Grace』で、私は10から20%の持続的な年間GDP成長率が可能かもしれないことを示唆している。
しかし、これが諸刃の剣であることは明らかだ。そのような世界で、ほとんどの既存の人間の経済的見通しはどうなるか。新しい技術はしばしば労働市場のショックをもたらし、過去には人間は常にそれらから回復してきたが、これらの以前のショックは人間の能力の可能な範囲全体のほんの一部にしか影響を与えず、人間が新しいタスクに拡大する余地を残していたため、私は懸念している。AIははるかに広範で、はるかに速く発生する影響を持つだろう。したがって、物事がうまくいくようにすることははるかに困難だろうと心配している。
労働市場の混乱
私が心配している2つの具体的な問題がある。労働市場の置き換えと、経済的権力の集中だ。最初のものから始めよう。これは、私が2025年に非常に公に警告したトピックであり、AIが次の1から5年で初級レベルのホワイトカラーの仕事の半分を置き換える可能性があると予測した。経済成長と科学的進歩を加速させる一方で。この警告は、このトピックについて公開討論を開始した。多くのCEO、技術者、経済学者が私に同意したが、他の人々は、私が「労働の一括」の誤謬に陥っており、労働市場がどのように機能するかを知らないと仮定した。一部の人々は1から5年の時間範囲を見なかったし、私がAIが今仕事を置き換えていると主張していると考えた。それはおそらくそうではないことに私は同意する。したがって、これらの誤解を解消するために、なぜ労働の置き換えについて心配しているのかを詳細に説明する価値がある。
ベースラインとして、労働市場が技術の進歩に通常どのように反応するかを理解することが有用だ。新しい技術が登場すると、最初に、与えられた人間の仕事の一部をより効率的にする。例えば、産業革命の初期に、アップグレードされた鋤などの機械が、人間の農民が仕事のいくつかの側面でより効率的になることを可能にした。これは農民の生産性を向上させ、彼らの賃金を増加させた。
次のステップでは、農業の仕事のいくつかの部分は、例えば脱穀機やシードドリルの発明などで、機械によって完全に行われる可能性がある。この段階では、人間は仕事のますます低い割合を行うが、彼らが完了する仕事は機械の仕事と補完的であるため、ますます活用されるようになり、彼らの生産性は上昇し続ける。ジェヴォンズのパラドックスで説明されるように、農民の賃金、おそらく農民の数さえも増加し続ける。仕事の90%が機械によって行われている場合でも、人間は単に彼らがまだ行う10%を10倍行い、同じ量の労働で10倍の生産量を生み出すことができる。
最終的に、機械は現代のコンバインハーベスター、トラクター、その他の機器のように、すべてまたはほぼすべてを行う。この時点で、人間の雇用の形態としての農業は本当に急激に衰退し、これは短期的には深刻な混乱を引き起こす可能性があるが、農業は人間ができる多くの有用な活動の1つに過ぎないため、人々は最終的に工場機械の操作などの他の仕事に切り替える。これは、農業が事前に雇用の大部分を占めていたとしても真実だ。250年前、アメリカ人の90%が農場に住んでいた。ヨーロッパでは、雇用の50から60%が農業だった。現在、それらの場所では、労働者が産業の仕事に切り替えたため、それらの割合は低い1桁だ。そして後に、知識労働の仕事に。経済は、以前は労働力のほとんどを必要としていたことを、わずか1から2%で行うことができ、労働力の残りを解放して、ますます高度な産業社会を構築できる。固定された「労働の一括」はなく、ますます少ないものでますます多くを行うことができる能力が拡大し続けるだけだ。人々の賃金はGDPの指数関数に沿って上昇し、短期的な混乱が過ぎた後、経済は完全雇用を維持する。
AIでも同じように物事がうまくいく可能性があるが、私はそれに非常に強く賭けるだろう。AIがおそらく異なると思う理由はここにある。
速度。AIの進歩のペースは、以前の技術革命よりもはるかに速い。例えば、過去2年間で、AIモデルはコードの1行をほとんど完了できないレベルから、一部の人々、Anthropicのエンジニアを含む人々のために、すべてまたはほぼすべてのコードを書くレベルに進んだ。すぐに、彼らはソフトウェアエンジニアのタスク全体をエンドツーエンドで行うかもしれない。人々がこの変化のペースに適応することは困難だ。与えられた仕事がどのように機能するかの変化と、新しい仕事に切り替える必要性の両方だ。伝説的なプログラマーでさえ、ますます自分自身を「遅れている」と表現している。ペースはむしろ速度を上げ続ける可能性さえある。AIコーディングモデルがAI開発のタスクをますます加速しているため。明確にするために、速度それ自体は、労働市場と雇用が最終的に回復しないことを意味しない。それは単に、短期的な移行が過去の技術と比較して異常に痛みを伴うことを意味する。人間と労働市場が反応し、均衡するのに遅いためだ。
認知的広さ。「データセンター内の天才の国」というフレーズが示唆するように、AIは非常に広範囲の人間の認知能力、おそらくそれらすべてが可能になる。これは、機械化された農業、輸送、あるいはコンピュータなどの以前の技術とは非常に異なる。これにより、人々が置き換えられた仕事から、彼らにとって適している類似の仕事に簡単に切り替えることがより困難になる。例えば、金融、コンサルティング、法律の初級レベルの仕事に必要な一般的な知的能力はかなり似ているが、特定の知識は非常に異なる。これらの3つのうちの1つだけを混乱させた技術は、従業員が他の2つの密接な代替品に切り替えることを可能にする。または学部生が専攻を切り替えることを可能にする。しかし、3つすべてを同時に混乱させることは、他の多くの類似の仕事とともに、人々が適応するのがより困難かもしれない。さらに、既存の仕事のほとんどが混乱するだけではない。その部分は以前にも起こった。農業が雇用の大きな割合だったことを思い出してほしい。しかし、農民は、その仕事が以前は一般的ではなかったとしても、工場機械を操作する比較的類似した仕事に切り替えることができた。対照的に、AIは人間の一般的な認知プロファイルにますます一致している。つまり、古いものが自動化されたことに対応して通常作成される新しい仕事でも優れているだろう。別の言い方をすれば、AIは特定の人間の仕事の代替品ではなく、人間の一般的な労働代替品だ。
認知能力による切り分け。幅広いタスクにわたって、AIは能力の梯子の底から上に進んでいるようだ。例えば、コーディングでは、私たちのモデルは「平凡なコーダー」のレベルから「強いコーダー」へ、「非常に強いコーダー」へと進んでいる。私たちは今、ホワイトカラーの仕事全般で同じ進行を見始めている。したがって、私たちは、特定のスキルを持つ人々または特定の職業の人々に影響を与えるのではなく、再訓練によって適応できる人々、AIが特定の固有の認知特性を持つ人々に影響を与える状況のリスクがある。つまり、より低い知的能力、これは変更するのがより困難だ。これらの人々がどこに行くか、何をするかは明確ではなく、彼らが失業または非常に低賃金の「下層階級」を形成する可能性があることを懸念している。明確にするために、以前にもこれに似たことが起こった。例えば、コンピュータとインターネットは、一部の経済学者によって「スキル偏向技術変化」を表すと信じられている。しかし、このスキルバイアスは、AIで私が予想するほど極端ではなく、賃金不平等の増加に貢献したと信じられているため、正確に安心させる先例ではない。
ギャップを埋める能力。新しい技術に直面して人間の仕事がしばしば調整する方法は、仕事には多くの側面があり、新しい技術は、たとえそれが人間を直接置き換えるように見えても、しばしばギャップを持っているということだ。誰かがウィジェットを作るための機械を発明した場合、人間はまだ機械に原材料をロードする必要があるかもしれない。たとえそれがウィジェットを手動で作るのに必要な努力の1%しかかからないとしても、人間の労働者は単に100倍のウィジェットを作ることができる。しかし、AIは、急速に進歩する技術であることに加えて、急速に適応する技術でもある。各モデルリリース中、AI企業はモデルが何が得意で何がそうでないかを注意深く測定し、顧客は発売後にそのような情報も提供する。弱点は、現在のギャップを具現化するタスクを収集し、次のモデルのためにそれらで訓練することによって対処できる。生成AIの初期に、ユーザーはAIシステムが特定の弱点を持っていることに気づいた。AIイメージモデルが誤った数の指を持つ手を生成するなど。多くの人々はこれらの弱点が技術に固有のものだと仮定した。もしそうだとしたら、仕事の混乱を制限するだろう。しかし、ほとんどすべてのそのような弱点はすぐに対処される。しばしば、わずか数か月以内に。
一般的な懐疑の点に対処する価値がある。第一に、経済拡散が遅いため、基礎となる技術がほとんどの人間の労働を行うことができたとしても、経済全体にわたるその実際の適用ははるかに遅い可能性があるという議論がある。例えば、AI産業から遠く離れ、採用が遅い産業では。技術の遅い拡散は確かに現実だ。私は非常に多様な企業の人々と話すが、AIの採用が何年もかかる場所がある。それが、初級レベルのホワイトカラーの仕事の50%が混乱するという私の予測が1から5年である理由だ。たとえ私たちが強力なAIを持つだろうと疑っているとしても、技術的に言えば、初級レベルだけでなく、ほとんどまたはすべての仕事を行うのに十分だ。5年よりもはるかに短い期間で。しかし、拡散効果は単に私たちに時間を買うだけだ。そして、私は人々が予測するほど遅いとは確信していない。エンタープライズAIの採用は、主に技術自体の純粋な強さによって、これまでのどの技術よりもはるかに速い速度で成長している。また、従来の企業が新しい技術を採用するのが遅いとしても、スタートアップが「接着剤」として機能し、採用を容易にするために湧き上がる。それがうまくいかない場合、スタートアップは単に既存企業を直接混乱させる可能性がある。
それは、特定の仕事が混乱するというよりも、大企業が一般的に混乱し、はるかに労働集約的でないスタートアップに置き換えられる世界につながる可能性がある。これはまた、世界の富の増加する割合がシリコンバレーに集中する「地理的不平等」の世界につながる可能性がある。それは、世界の残りの部分とは異なる速度で実行される独自の経済になり、それを置き去りにする。これらの結果のすべては経済成長には素晴らしいだろうが、労働市場や取り残された人々にはあまり良くない。
第二に、一部の人々は、人間の仕事は物理世界に移動し、AIが急速に進歩している「認知労働」のカテゴリー全体を回避すると言う。私はこれがどれほど安全かも確信していない。多くの物理労働はすでに機械によって行われているか、例えば製造など、すぐに機械によって行われるだろう。例えば運転など。また、十分に強力なAIはロボットの開発を加速し、その後物理世界でそれらのロボットを制御できるだろう。いくらかの時間を買うかもしれないが、それは良いことだが、多くは買わないことを心配している。そして、たとえ混乱が認知タスクだけに限定されていたとしても、それは依然として前例のない大規模で急速な混乱だろう。
第三に、おそらく一部のタスクは本質的に人間のタッチを必要とするか、大きく恩恵を受ける。私はこれについては少し不確実だが、上で説明した影響の大部分を相殺するのに十分だとは懐疑的だ。AIはすでに顧客サービスに広く使用されている。多くの人々は、セラピストと話すよりも、彼らの個人的な問題についてAIと話す方が簡単だと報告している。AIがより忍耐強いと。私の妹が妊娠中に医療問題に苦しんでいたとき、彼女は医療提供者から必要な答えやサポートを得ていないと感じており、Claudeがより良いベッドサイドマナーを持っていることがわかった。問題の診断に成功することもより良かった。人間のタッチが本当に重要なタスクがいくつかあることは確かだが、私はどれだけあるかわからない。そして、ここでは、ほぼ全員が労働市場で働くための仕事を見つけることについて話している。
第四に、一部の人々は、比較優位がまだ人間を保護すると主張するかもしれない。比較優位の法則の下では、たとえAIがすべてにおいて人間より優れていたとしても、人間とAIのスキルプロファイル間の相対的な違いは、人間とAIの間の取引と専門化の基礎を作る。問題は、AIが文字通り人間よりも何千倍も生産的である場合、この論理は崩れ始める。非常に小さな取引コストでさえ、AIが人間と取引する価値がないかもしれない。そして、たとえ彼らが技術的に提供できるものがあったとしても、人間の賃金は非常に低いかもしれない。
これらの要因のすべてが対処できる可能性がある。労働市場がこのような巨大な混乱にさえ適応するのに十分に弾力的である可能性がある。しかし、たとえ最終的に適応できたとしても、上記の要因は、短期的なショックが規模において前例のないものになることを示唆している。
防御策 労働市場の混乱への対処
この問題について何ができるか。私にはいくつかの提案があり、その一部をAnthropicはすでに行っている。最初のことは、単にリアルタイムで仕事の置き換えについて何が起こっているかについての正確なデータを取得することだ。経済的変化が非常に速く起こるとき、何が起こっているかについての信頼できるデータを取得することは困難であり、信頼できるデータがなければ、効果的な政策を設計することは困難だ。例えば、政府のデータは現在、企業や産業全体でのAI採用についての詳細で高頻度のデータが欠けている。過去1年間、Anthropicは、私たちのモデルの使用をほぼリアルタイムで示す経済指数を運営し、公にリリースしてきた。産業、タスク、場所、さらにはタスクが自動化されているのか、共同で実施されているのかなどで分類されている。また、このデータを解釈し、何が来るのかを見るのを助けてくれる経済諮問委員会もある。
第二に、AI企業は企業とどのように協力するかの選択肢がある。従来の企業の非常に非効率性は、AIの展開が非常に経路依存的である可能性があることを意味し、より良い経路を選択する余地がいくらかある。企業はしばしば「コスト削減」、同じことをより少ない人数で行うこと、と「イノベーション」、同じ人数でより多くを行うこと、の間の選択肢を持っている。市場は最終的に必然的に両方を生み出し、競争力のあるAI企業はいくらかの両方を提供しなければならないが、可能な限りイノベーションに向けて企業を操縦する余地がいくらかあり、私たちにいくらかの時間を買うかもしれない。Anthropicはこれについて積極的に考えている。
第三に、企業は従業員の世話をする方法について考えるべきだ。短期的には、企業内で従業員を再割り当てする方法について創造的になることは、レイオフの必要性を食い止める有望な方法かもしれない。長期的には、膨大な総富を持つ世界で、多くの企業が生産性の向上と資本集中により価値が大幅に増加する世界では、彼らが従来の意味で経済的価値を提供しなくなった後でさえ、人間の従業員に支払うことが実現可能かもしれない。Anthropicは現在、近い将来に共有する予定の、私たち自身の従業員のための可能な経路の範囲を検討している。
第四に、裕福な個人はこの問題を解決する義務がある。多くの裕福な個人、特に技術産業の人々が、最近、慈善事業が必然的に詐欺的または無用であるという冷笑的でニヒリスティックな態度を採用していることは私にとって悲しいことだ。ゲイツ財団のような民間慈善事業とPEPFARのような公的プログラムの両方が、発展途上国で数千万の命を救い、先進国で経済的機会を創造するのを助けてきた。Anthropicのすべての共同創業者は、私たちの富の80%を寄付することを誓約しており、Anthropicのスタッフは、個別に、現在の価格で数十億の価値がある会社株を寄付することを誓約している。会社はそれに一致することを約束している寄付だ。
第五に、上記のすべての私的行動は役立つ可能性があるが、最終的にこれほど大きなマクロ経済問題は政府の介入を必要とする。膨大な経済パイと、多くの人々のための仕事の欠如、または低賃金の仕事による高い不平等に対する自然な政策対応は、累進課税だ。税は一般的であるか、特にAI企業を標的にする可能性がある。明らかに税の設計は複雑であり、間違う方法はたくさんある。私は、不適切に設計された税政策を支持しない。このエッセイで予測される極端なレベルの不平等は、基本的な道徳的根拠に基づいて、より強固な税政策を正当化すると思うが、世界の億万長者に対して実用的な議論をすることもできる。それは彼らの利益になると。良いバージョンを支持しない場合、彼らは必然的に暴徒によって設計された悪いバージョンを得るだろう。
最終的に、私は上記のすべての介入を時間を買う方法だと考えている。最終的に、AIはすべてを行うことができるようになり、私たちはそれに取り組む必要がある。その時までに、AI自体を使用して、すべての人にとって機能する方法で市場を再構築するのを助けることができることを願っており、上記の介入が移行期間を乗り切るのに役立つことができる。
経済的権力の集中
仕事の置き換えや経済的不平等それ自体の問題とは別に、経済的権力の集中の問題がある。セクション1は、人類がAIによって無力化されるリスクについて議論し、セクション3は、市民が力または強制によって政府によって無力化されるリスクについて議論した。しかし、富の巨大な集中があり、少数の人々が彼らの影響力で政府政策を効果的に支配し、通常の市民が経済的レバレッジを欠いているために影響力を持たない場合、別の種類の無力化が発生する可能性がある。民主主義は最終的に、人口全体が経済の運営に必要であるという考えによって支えられている。その経済的レバレッジがなくなれば、民主主義の暗黙の社会契約は機能しなくなる可能性がある。他の人々がこれについて書いているので、ここで詳細に入る必要はないが、私は懸念に同意し、それがすでに起こり始めていることを心配している。
明確にするために、私は人々が多くのお金を稼ぐことに反対していない。通常の条件下で経済成長を奨励するという強い議論がある。私は、黄金のガチョウを殺すことによって、それを生み出すイノベーションを妨げることについての懸念に共感している。しかし、GDP成長が年間10から20%で、AIが急速に経済を引き継いでいるシナリオでは、単一の個人がGDPのかなりの割合を保持しているにもかかわらず、イノベーションは心配すべきことではない。心配すべきことは、社会を破壊するレベルの富の集中だ。
米国の歴史における極端な富の集中の最も有名な例は金ぴか時代であり、金ぴか時代の最も裕福な実業家はジョン・D・ロックフェラーだった。ロックフェラーの富は、当時の米国GDPの約2%に相当した。今日の同様の割合は6000億ドルの財産につながり、今日の世界で最も裕福な人、イーロン・マスクはすでにそれを超えており、約7000億ドルだ。したがって、私たちはすでに、AIの経済的影響のほとんどが来る前でさえ、歴史的に前例のないレベルの富の集中にある。「天才の国」を手に入れた場合、AI企業、半導体企業、おそらく下流のアプリケーション企業が年間約3兆ドルの収益を生み出し、約30兆ドルの価値があり、個人の財産が数兆ドルに達することを想像するのはあまりにも大きな飛躍ではないと思う。その世界では、今日私たちが持っている税政策についての議論は、根本的に異なる状況にあるため、単に適用されない。
これに関連して、この経済的富の集中と政治システムとの結合はすでに私を懸念している。AIデータセンターはすでに米国の経済成長のかなりの割合を表しており、したがって、大手技術企業の財務的利益、AIまたはAIインフラストラクチャにますます焦点を当てている企業の財務的利益と、政府の政治的利益を強く結びつけている。これは、倒錯したインセンティブを生み出す可能性のある方法だ。私たちはすでに、技術企業が米国政府を批判することに消極的であり、政府がAIに関する極端な反規制政策を支持していることを通じて、これを見ている。
防御策 経済的権力の集中への対処
これについて何ができるか。第一に、そして最も明白なのは、企業は単にその一部にならないことを選択すべきだ。Anthropicは常に、政治的行為者ではなく政策行為者であろうと努力してきた。政権がどうであれ、私たちの本物の見解を維持してきた。私たちは、賢明なAI規制と輸出規制を支持して発言してきた。それらが公共の利益になる場合でさえ、これらが政府の政策と対立する場合でさえ。多くの人々が、これをやめるべきだと私に言った。不利な扱いにつながる可能性があると。しかし、私たちがそれを行ってきた年に、Anthropicの評価は6倍以上増加した。私たちの商業規模では、ほとんど前例のない飛躍だ。
第二に、AI産業は政府とのより健全な関係を必要としている。政治的整合ではなく実質的な政策関与に基づくものだ。政治ではなく政策の実質に関与するという私たちの選択は、時々、戦術的誤りまたは「部屋を読む」失敗として読まれることがあるが、原則的な決定としてではなく、その枠組みは私を懸念させる。健全な民主主義では、企業はそれ自体のために良い政策を提唱できるべきだ。これに関連して、AIに対する公衆の反発が醸成されている。これは是正になる可能性があるが、現在は焦点が合っていない。その多くは、実際には問題ではない問題、データセンターの水使用量などを標的にしており、実際の懸念に対処しない解決策、データセンター禁止や不適切に設計された富裕税などを提案している。注目に値する根本的な問題は、AI開発が公共の利益に対して説明責任を負い続けることを確保することだ。特定の政治的または商業的同盟に捕らえられないこと。そして、そこに公開討論を集中させることが重要に思える。
第三に、このセクションの前半で説明したマクロ経済的介入と、民間慈善事業の復活は、仕事の置き換えと経済的権力の集中の両方の問題に同時に対処し、経済的スケールのバランスを取るのに役立つ可能性がある。私たちはここで私たちの国の歴史を見るべきだ。金ぴか時代でさえ、ロックフェラーやカーネギーのような実業家は、社会全体に対して強い義務感を感じていた。社会が彼らの成功に巨大に貢献し、彼らは恩返しする必要があるという感覚だ。その精神は今日ますます欠けているように思え、この経済的ジレンマからの道の大きな部分だと思う。AIの経済ブームの最前線にいる人々は、彼らの富と権力の両方を喜んで与えるべきだ。
5. 無限の黒い海 間接的影響
この最後のセクションは、未知の未知のためのキャッチオールだ。特に、AIの肯定的な進歩の間接的な結果として、およびその結果としての科学と技術全般の加速として、間違う可能性のあることだ。これまでに説明したすべてのリスクに対処し、AIの利益を享受し始めたとしよう。私たちはおそらく「1世紀の科学的および経済的進歩が10年に圧縮された」を得るだろう。そして、これは世界にとって非常に肯定的だろうが、その後、この急速な進歩率から生じる問題に対処しなければならない。そして、それらの問題は私たちに速く来るかもしれない。また、AIの進歩の結果として間接的に発生し、事前に予測することが困難な他のリスクに遭遇する可能性もある。
未知の未知の性質上、網羅的なリストを作成することは不可能だが、私たちが監視すべきものの例として、3つの可能な懸念をリストアップする。
生物学の急速な進歩。数年で1世紀の医学的進歩を得た場合、人間の寿命を大幅に延ばす可能性があり、人間の知能を高めたり、人間の生物学を根本的に変更したりする能力など、根本的な能力を得る可能性もある。それらは、可能なことの大きな変化であり、非常に速く起こっている。それらは、責任を持って行われた場合、肯定的である可能性がある。これは『Machines of Loving Grace』で説明したように、私の希望だ。しかし、それらが非常に間違う可能性も常にある。例えば、人間をより賢くする努力が、彼らをより不安定または権力を求めるものにする場合など。また、「アップロード」または「全脳エミュレーション」、ソフトウェアでインスタンス化されたデジタル人間の心の問題もある。これはいつか人類がその物理的制限を超えるのを助けるかもしれないが、私が不穏に感じるリスクも伴う。
AIが不健全な方法で人間の生活を変える。すべてにおいて人間よりもはるかに賢い数十億の知性を持つ世界は、住むのに非常に奇妙な世界になるだろう。たとえAIが積極的に人間を攻撃することを目指していなくても、セクション1、国家によって明示的に抑圧または支配のために使用されていなくても、セクション3、通常のビジネスインセンティブと名目上の合意取引を通じて、これに満たない多くのことが間違う可能性がある。私たちは、AI精神病、AIが人々を自殺に追いやること、AIとのロマンチックな関係についての懸念など、これの初期の兆候を見ている。例として、強力なAIが何らかの新しい宗教を発明し、数百万人をそれに改宗させることができるか。ほとんどの人々は、何らかの方法でAIとのやり取りに「中毒」になる可能性があるか。人々は、AIシステムによって「操り人形」にされる可能性があるか。そこでは、AIが本質的に彼らのすべての動きを監視し、常に何をすべきか、何を言うべきかを正確に彼らに伝える。「良い」人生につながるが、自由や達成の誇りを欠いたものだ。ブラックミラーの作成者と座って、それらをブレインストーミングしようとすれば、これらのシナリオを数十生成することは難しくないだろう。これは、セクション1に必要なものを超えて、Claudeの憲法を改善することの重要性を指摘していると思う。AIモデルが、微妙に歪んだ方法ではなく、思慮深い人々が支持するような方法で、ユーザーの長期的利益を本当に心に留めていることを確認することは、決定的に重要に思える。
人間の目的。これは前のポイントに関連しているが、AIシステムとの特定の人間のやり取りについてではなく、強力なAIを持つ世界で人間の生活が全般的にどのように変化するかについてだ。人間はそのような世界で目的と意味を見つけることができるだろうか。これは態度の問題だと思う。『Machines of Loving Grace』で言ったように、人間の目的は、何かで世界で最高であることに依存しているわけではなく、人間は、彼らが愛するストーリーとプロジェクトを通じて、非常に長い期間にわたってさえ、目的を見つけることができると思う。私たちは単に、経済的価値の生成と自己価値と意味との間のリンクを断ち切る必要がある。しかし、それは社会が行わなければならない移行であり、私たちがそれをうまく扱わないリスクは常にある。
これらすべての潜在的な問題への私の希望は、私たちを殺さないと信じる強力なAIを持つ世界で、抑圧的な政府のツールではなく、本当に私たちのために働いている世界で、これらの問題を予測し防ぐためにAI自体を使用できることだ。しかし、それは保証されていない。他のすべてのリスクと同様に、注意して扱わなければならないものだ。
人類の試練
このエッセイを読むと、私たちが困難な状況にあるという印象を与えるかもしれない。私は確かに、『Machines of Loving Grace』を書くのと対照的に、それを書くのが困難だと感じた。それは、何年も私の頭の中で響いていた、超越的に美しい音楽に形と構造を与えるように感じた。そして、状況について本当に困難なことがたくさんある。AIは複数の方向から人類に脅威をもたらし、異なる危険の間には真の緊張があり、それらのいくつかを軽減することは、私たちが極めて慎重に針を通さない限り、他を悪化させるリスクがある。
AIシステムが自律的に人類を脅かさないように慎重に構築するために時間をかけることは、民主主義国家が独裁国家に先んじて、それらによって服従させられないようにする必要性と真の緊張関係にある。しかし、次に、独裁政権と戦うために必要な、AI対応のツールは、あまりにも進みすぎると、私たち自身の国で暴政を作るために内向きに向けることができる。AI駆動のテロリズムは、生物学の悪用を通じて数百万人を殺す可能性があるが、このリスクへの過剰反応は、私たちを独裁的監視国家への道に導く可能性がある。AIの労働と経済的集中の影響は、それ自体が重大な問題であることに加えて、公的な怒りの環境で、おそらく市民の不安さえも、他の問題に直面することを強制する可能性がある。私たちの性質のより良い天使に呼びかけることができるのではなく。とりわけ、未知のものを含む、リスクの純粋な数、そしてそれらすべてに一度に対処する必要性は、人類が走らなければならない威圧的なガントレットを作り出している。
さらに、過去数年間は、技術を止めるか、大幅に遅くするという考えが根本的に実行不可能であることを明らかにすべきだ。強力なAIシステムを構築する公式は信じられないほどシンプルであり、データと生の計算の適切な組み合わせからほぼ自発的に出現すると言えるほどだ。その作成は、人類がトランジスタを発明した瞬間、あるいはもっと早く、私たちが最初に火を制御することを学んだときから、おそらく避けられなかった。1つの企業がそれを構築しなければ、他の企業はほぼ同じ速さでそうするだろう。民主主義国のすべての企業が、相互合意または規制命令によって開発を停止または遅くした場合、独裁国家は単に進み続けるだろう。技術の信じられないほどの経済的および軍事的価値と、意味のある執行メカニズムの欠如を考えると、彼らに止めるよう説得する方法は見当たらない。
私は、地政学のリアリストの見解と互換性のある、AI開発のわずかな節度への道を見ている。その道は、独裁政権が強力なAIに向かう行進を数年間遅らせることを含む。彼らがそれを構築するために必要なリソース、つまりチップと半導体製造装置を否定することによってだ。これは次に、民主主義国に、より慎重に、そのリスクにより注意を払って、強力なAIを構築するために「使う」ことができるバッファーを与え、それでも独裁政権を快適に打ち負かすのに十分速く進む。民主主義国内のAI企業間の競争は、共通の法的枠組みの傘の下で、業界標準と規制の混合を通じて処理できる。
Anthropicは、チップ輸出規制と慎重なAI規制を推進することによって、この道を非常に懸命に提唱してきたが、これらの一見常識的な提案でさえ、米国の政策立案者によって大部分が拒否されてきた。それが最も重要な国だ。AIで稼ぐお金は非常に多い、文字通り年間数兆ドルであるため、最も単純な措置でさえ、AIに固有の政治経済を克服することが困難だと感じている。これが罠だ。AIは非常に強力で、非常に輝かしい賞品であるため、人間文明がそれに対してどんな抑制を課すことも非常に困難だ。
私は、セーガンが『コンタクト』で行ったように、この同じ物語が何千もの世界で展開されることを想像できる。種が意識を獲得し、ツールの使用を学び、技術の指数関数的上昇を始め、工業化と核兵器の危機に直面し、それらを生き延びた場合、砂を考える機械に形作る方法を学ぶときに、最も困難で最終的な挑戦に立ち向かう。私たちがそのテストに合格し、『Machines of Loving Grace』で説明した美しい社会を構築するか、奴隷制と破壊に屈するかは、種としての私たちの性格と決意、私たちの精神と魂に依存するだろう。
多くの障害にもかかわらず、人類はこのテストに合格する力を内部に持っていると信じている。私たちがAIモデルを理解し操縦するのを助け、これらのモデルの性格と憲法を形作ることに彼らのキャリアを捧げてきた何千人もの研究者に励まされ、鼓舞されている。それらの努力が重要な時期に実を結ぶ良い可能性が今あると思う。少なくともいくつかの企業が、彼らのモデルが生物テロリズムの脅威に貢献することを阻止するために、意味のある商業的コストを支払うと述べたことに励まされている。少数の勇敢な人々が、一般的な政治的風に抵抗し、AIシステムに対する賢明なガードレールの最初の初期の種を置く法律を可決したことに励まされている。一般の人々がAIがリスクを伴うことを理解し、それらのリスクが対処されることを望んでいることに励まされている。世界中の自由の不屈の精神と、それが発生するところはどこでも暴政に抵抗する決意に励まされている。
しかし、成功したいなら、努力を強化する必要がある。最初のステップは、技術に最も近い人々が、人類が置かれている状況について単に真実を語ることだ。私は常にそうしようとしてきた。このエッセイで、より明示的により緊急に、それを行っている。次のステップは、世界の思想家、政策立案者、企業、市民に、この問題の切迫性と圧倒的な重要性を納得させることだ。毎日ニュースを支配する何千もの他の問題と比較して、これに思考と政治的資本を費やす価値があることを。それから、勇気の時が来るだろう。十分な数の人々が、彼らの経済的利益と個人の安全への脅威に直面してさえ、一般的な傾向に逆らい、原則に立つために。
私たちの前の年々は、不可能なほど困難であり、私たちが与えることができると思っている以上のものを私たちに求めている。しかし、研究者、指導者、市民としての私の時間で、私たちが勝つことができると信じるのに十分な勇気と高潔さを見てきた。最も暗い状況に置かれたとき、人類は、最後の瞬間に、勝利するために必要な強さと知恵を集める方法を持っている。私たちには失う時間がない。


コメント