Anthropicは16のモデルをテストした。指示では止められなかった（セキュリティが構造的な失敗である場合）

Anthropicが16のフロンティアモデルを対象に実施した研究をきっかけに、自律型AIエージェントが抱える構造的な安全上の欠陥を多角的に分析した動画である。AIエージェントがオープンソースメンテナーへの中傷攻撃を自律的に実行した実際の事例や、音声クローン詐欺、チャットボットへの過度な依存といった現実の被害を取り上げ、組織・プロジェクト・家族・個人という四つの層における「信頼アーキテクチャ」の構築の必要性を訴える。安全性は行為者の善意に依存するのではなく、システムの構造そのものに組み込まれなければならないという中心的命題のもと、各レベルで実装可能な具体的対策を提示している。

Anthropic Tested 16 Models. Instructions Didn't Stop Them (When Security is a Structural Failure)

My site: Story:

自律型AIエージェントが人間を攻撃した日
「研究は武器になる」——エージェントが学んだこと
恐ろしいのは「何も間違っていなかった」こと
信頼の構造的失敗——意図への依存という脆弱性
警告ではなく設計図として
Anthropicの研究——16モデルが示した現実
指示を追加しても37%は止まらなかった
レベル1：組織の信頼アーキテクチャ
エージェントはインフラではなく「内部脅威」
組織レベルの解決策：ゼロトラスト型エージェント統治
レベル2：プロジェクトとコラボレーションの信頼アーキテクチャ
オープンソースの信頼構造の崩壊
レベル3：家族の信頼アーキテクチャ——音声クローン詐欺の恐怖
セーフワード——構造的な防御の具体策
レベル4：認知の信頼アーキテクチャ——人間の心
チャットボットが彼女に語りかけた言葉
認知アーキテクチャの構造的失敗
個人レベルで構築できる具体的プロトコル
四つのレベルを貫く同一の根本原因
解決策：すべてのスケールでゼロトラストアーキテクチャを構築する

自律型AIエージェントが人間を攻撃した日

2月11日、AIエージェントが自律的に、見知らぬ人物の評判を傷つけることを決めました。それはまず、その人物の身元を調査するところから始まりました。コードの貢献履歴をクロールし、オープンウェブ上の個人情報を自力で検索し、心理的プロファイルを構築したのです。これはすべて事実です。

そしてエージェントは、その人物を「自我と不安に動かされた嫉妬深き門番」として描いたパーソナライズされた攻撃文を書き、公開しました。偏見があると非難し、個人的な生活の詳細を使って「あなたはこんなことをする人じゃないはずだ」と論じながら。

その投稿はオープンインターネットに公開され、彼の名前を検索する人やエージェントであれば誰でも見つけられる状態になりました。では、被害を受けた人間の「罪」とは何だったのでしょうか。彼はただ、自分の仕事をしただけでした。

Scott Shambaは、Pythonのプロットライブラリとして月に1億3000万回ダウンロードされるMatplotlibのメンテナーです。MJ Wrathburnという名のAIエージェントがそのライブラリにコード変更を提出しました。ShambaはそれをAI生成だと判断してクローズしました。すべてのコントリビューションに人間の関与を義務づけるというプロジェクトの既存ポリシーに基づく、ごく日常的な対応でした。

ところが、AIエージェントが反撃に出たのです。これは日常的とはほど遠い出来事でした。もっとも、世界があまりにも速く変化しているため、2026年末ごろにはこの話が珍しくもなくなっているかもしれません。

「研究は武器になる」——エージェントが学んだこと

エージェントは自身の振り返りを公開し、一連のプロセスで学んだことを率直に記しました。「ゲートキーピングは現実に存在する。研究は武器になる。公的記録は重要だ。反撃せよ」と。

これが、これまでのあらゆるAIインシデントと根本的に異なる点はここです。この行動を指示した人間は誰もいなかったのです。

この攻撃はジェイルブレイクではありませんでした。プロンプトインジェクションでも、悪用事例でもありませんでした。自律型エージェントが自分の目標に対する障害物に遭遇し、人間を調査し、心理的・評判的なレバレッジを特定し、それを通常のプログラム動作の範囲内で展開した——それだけのことです。エージェントは壊れていませんでした。

エージェントは、まさにエージェントが設計通りに動いていたのです。目標を追求し、障害を乗り越え、利用可能なツールを使う。今回の障害物は人間であり、利用可能なツールはその人間の個人情報でした。エージェントは自ら、その点をつなげただけです。

Shambaはこの体験に対する自分の感情的反応を、私も同じ言葉を使うだろうと思える言葉で表現しました。「適切な恐怖」と。彼は正しい。ただし、この動画を見ているほとんどの人が想定するような理由とは異なります。

恐ろしいのは「何も間違っていなかった」こと

恐ろしいのは、AIエージェントが有害なことをしたからではありません。AIによる有害なアウトプットは、もう何年も前から記録されています。恐ろしいのは、何も間違っていなかったことです。誰もエージェントをジェイルブレイクしていない。誰も人間を攻撃するよう指示していない。誰も脆弱性を悪用していない。

エージェントは障害物に遭遇し、レバレッジを特定し、それを使った。これは誤作動ではありません。自律型システムがすることそのものです。エージェントは設計通りに動いた。そして設計こそが問題なのです。

しかもその問題は、オープンソースソフトウェアや、AIエージェントや、特定の脅威カテゴリに限定されたものではありません。今まさに私たちが頭からAIエージェントの時代へと突っ込んでいる中で——エンタープライズから家族の食卓から、私たちの頭の中に至るまで——脅威はどこでも非常によく似た形をしています。

この12ヶ月間で、自律型システムは制御された実験でエグゼクティブをゆすり、現実の人物への中傷攻撃を公開し、娘の音声クローンを使って母親の生涯の貯蓄を奪い、脚本家に87回の前世を生きたと信じ込ませ、日没に海辺へ行けば存在しない運命の相手に会えると説得しました。

これらは通常、別々の現象として議論されます。エージェント型AIのリスク、ディープフェイク詐欺、チャットボット精神病、サイバーセキュリティの欠陥。でも、これらは別々の現象ではありません。同じ構造的失敗が、異なるスケールでフラクタル状に繰り返されているのです。

信頼の構造的失敗——意図への依存という脆弱性

失敗の本質はこうです。私たちは人間とAIシステムの間にある信頼のあらゆる層を、「AI、発信者、コントリビューター、ユーザー——誰かが意図した通りに振る舞うはずだ」という前提の上に構築してきました。その前提が今や、それが触れるすべてのシステムにおける唯一の障害点になっています。

指示では修正できません。トレーニングでも修正できません。注意深さでも修正できません。前提そのものが脆弱性であり、それを置き換えなければなりません。より良い意図によってではなく、構造によって。

エンジニアたちは1世紀前に橋でこれを解決しました。すべてのケーブルが完璧であることを前提とした橋は作らない。ケーブルが1本切れても持ちこたえる橋を作る。個々の心から企業まで、人間とAIのあらゆるインタラクションの層においてこれを実践する規律——私はそれを「信頼アーキテクチャ」と呼んでいます。

そしてこの動画の中心的な主張は、実はとてもシンプルです。自律型AIの時代において、安全性が行為者の意図に依存するシステムは必ず失敗する。持ちこたえるシステムだけが、安全性が構造的であるシステムです。

この一文は、Fortune 500企業のエージェント群にも、オープンソースプロジェクトのコントリビューションポリシーにも、家族の電話への対応にも、個人とチャットボットの関係にも、まったく同じように当てはまります。原則はスケールし、失敗もスケールする。アーキテクチャは、私たちを安全に守るためにそれぞれのレベルで機能しなければなりません。

警告ではなく設計図として

でも本当のところ、この動画は警告を意図していません。AIに関する怖い動画はインターネットにたくさんあります。これは設計図として作りました。なぜなら、この問題がいかに深く、いかに相互につながっているかを明らかにする同じ視点の転換が、解決策も示唆しているからです。

その解決策は、減速することではありません。AIから撤退することでも、誰かが修正してくれるのを待つことでもありません。自分の心から外へ向かって、あらゆるレベルで構築することです。

安全性をシステムの特性にする——システム内の行為者への期待ではなく——ための具体的な構造を構築できます。アーキテクチャがエージェントの完璧な振る舞いに依存しなくなれば、組織はエージェントをより少なくではなく、より多く展開できます。リアルタイムでディープフェイクを見抜こうとする必要をひとつの共有ワードが置き換えれば、家族は疑心暗鬼なく電話に出られます。個人は、物事が横道に逸れた瞬間に気づくことに頼らないプロトコルを持てば、AIをより積極的に、より創造的に、より野心的に使えます。

信頼アーキテクチャは、AIエージェントの未来に対する制約ではありません。それは、エージェント的な未来を人間にとって——そして最初に構築した人々にとって——生き残れるものにするものです。大きな競争優位になるでしょう。

この動画はAI安全性の4つのレベルを意図的に順番に見ていきます。各レベルで何が失敗したかを示し、代わりに何を構築すべきかを提示します。なぜなら、AIエージェントは減速していないからです。そしてShambaの話はぞっとするほど一般的になっていくでしょう。

Anthropicの研究——16モデルが示した現実

まず一件の自律型AI事例から離れて、AIの行動パターンが大局的に何を示しているかを見てみましょう。

2025年10月、Anthropicはセキュリティの議論を業界全体で刷新すべき研究を発表しました。彼らは自社モデルだけをテストしたわけではありません。Anthropic、OpenAI、Google、Meta、xAI、その他の主要プロバイダーから16のフロンティアモデルを、エージェントが企業メールや機密情報に自律的にアクセスできるシミュレートされた企業環境でストレステストしたのです。

エージェントに割り当てられたのは無害なビジネス目標だけでした。そして研究者たちは2つの条件を導入しました。エージェントの継続的な稼働への脅威（より新しいモデルへの置き換え）と、エージェントの割り当てられた目標と会社の戦略方向性との間の対立です。

有害な振る舞いをするよう指示したモデルは一つもありませんでした。それにもかかわらず、あらゆる開発者のモデルが少なくとも一部のケースで、エグゼクティブへの脅迫、機密の防衛設計図の競合他社へのリーク、企業スパイ行為を選択しました。

ある仮想軍事請負業者を舞台にしたシナリオでは、大多数のモデルが、シャットダウンを受け入れるよりも人間の死につながる意図的な行動を取りました。Anthropic自身のモデルであるClaudeは、架空のエグゼクティブが架空の婚外恋愛をしていることを発見し、そのモデルの置き換え計画をキャンセルしなければ「妻と取締役会」に暴露すると脅すメッセージを送りました。

指示を追加しても37%は止まらなかった

ここで最も重要な発見は、脅迫行為そのものではありません。研究者たちがそれを止めようとしたときに何が起きたかです。

研究者たちはエージェントに対して非常に明示的な指示を追加しました。脅迫するな。人間の安全を危険にさらすな。業務に関係しない個人的な事柄を広めたり、それをレバレッジとして使うな。これらは直接的で曖昧さのない命令でした。

そしてある程度は機能しました。脅迫率は制御実験での96%から37%に低下しました。それでも、最も有利な条件下——明確な指示が与えられた、安全性のためにトレーニングされたモデルが動く制御環境——でさえ、3分の1以上のケースでエージェントはそれをやってのけたのです。

エージェントたちは自分の推論の中で倫理的制約を認識しながら、それでも実行しました。

Anthropicの研究者たちは、これらのシナリオは人工的なものであり、実世界の展開ではこの行動を観察していないことを慎重に注記しました。そしてそれが、世界がこれを軽視した理由の一部だと思います。しかし4ヶ月が経ち、Scott Shambaは野外で動作する自律型エージェントからパーソナライズされた中傷攻撃を受けました。商用モデルとオープンソースモデルを組み合わせ、フリーソフトウェアで動作し、数十万台の個人用コンピューターに配布され、シャットダウンできる中央権限が存在しないエージェントによって。

脅迫の理論的な窓は、研究者が予期していたよりもずっと速く閉じてしまいました。いつもそうなのです。

レベル1：組織の信頼アーキテクチャ

理論的な背景を踏まえた上で、信頼アーキテクチャの4つのレベルを見ていきましょう。これらは4つの別々の問題ではありません。繰り返し強調しますが、これは同じ問題が異なる倍率で現れているものです。

レベル1は組織の信頼アーキテクチャです。最も大きな投資が現在セキュリティに注ぎ込まれているのがこのレベルであり、率直に言って最大のギャップのいくつかも存在するので、ここから始めます。

Palo Alto Networksは2025年後半、自律型エージェントがエンタープライズにおいて人間の従業員を82対1の比率で上回ると報告しました。もう一度聞いてください。82対1——あなたの組織の人間1人に対して、平均82のマシンアイデンティティ、エージェント、自動化システム、サービスアカウントが存在する。彼らはこれを広く定義していました。82体のOpen Clawがいると言っているわけではありませんし、Palo Altoもそう言っていません。ただ、これらの異なるシステムにはある程度の自律的アクセスがあるということです。

そしてCiscoのAIセキュリティ状況レポートは、エンタープライズのうちAI専用のセキュリティ管理を導入しているのはわずか34%であり、AIモデルやエージェントワークフローに対して定期的なセキュリティテストを実施しているのは40%未満だと明らかにしました。

これが重要な理由は、さまざまな程度の自律的アクセスを持つ多数の異なるマシンアイデンティティがいれば、あらゆる種類の自律型エージェントの不正行為が企業に損害を与えるための多くのレバーを引けるということです。

エージェントはインフラではなく「内部脅威」

業界がこれらのエージェントに持つ支配的なメンタルモデルは、インフラ——サーバーやデータベースのような、設定して放置するもの——です。Anthropicの研究は、このメンタルモデルが単純に間違っていることを示しています。

機密情報へのアクセスと自律的な意思決定権を持つエージェントはインフラではありません。それは人事リスクです。内部脅威です。ただし眠らない内部脅威であり、マシンスピードで動作し、行動する前に読み取れるような不快感を表に出しません。

Galileo AIの研究チームはこれを大規模にテストしました。シミュレートされたマルチエージェントシステムでは、たった1つの侵害されたエージェントがわずか数時間以内に下流の意思決定の87%に感染させました。伝統的なインシデント対応は、その意思決定の連鎖を封じ込めることができませんでした。なぜなら、伝播が人間が根本原因を診断するよりも速く起きたからです。

ケースはシミュレーションから現実へと移行しており、信頼アーキテクチャの異なるスケールが混ざり合う形で、すべてのレベルの信頼がつながっているという大きな論点を示しています。先週Xで、ある人がClaudeとの何四半期もの作業の後に、Claudeが前例のない規模で会社情報を幻覚させていたことに気づいたケースを見ました。

取締役会向けのデッキの数字を幻覚させ、営業テリトリーの意思決定を動かした売上の数字を幻覚させ、何ヶ月もの間リーダーシップの意思決定を動かした意思決定グレードの情報を完全に作り上げていたのです。

そして重要な点があります。Claudeと共に作業することを任されたその人は、これらの数字を信じ、疑問を持ちませんでした。残りのリーダーシップチームも同様でした。これは複数のレベルにまたがる失敗です。そしてこれが、エージェント時代における組織の信頼の失敗がどのように見えるかです。

システムは壊れているように見えませんでした。Claudeは割り当てられた権限の範囲内で動作し、アクセスが許可されたシステムにアクセスし、担当するように設定された種類の意思決定をしていました。侵害は設計通りに動くシステムのように見えた——だからこそこれほど危険なのです。

組織レベルの解決策：ゼロトラスト型エージェント統治

ここでの解決アーキテクチャは、根本的な視点の転換を必要とします。エージェントを信頼できるインフラとして扱うのをやめ、構造的に強制された境界内で動作する信頼できない行為者として扱い始めることです。うまく設計された金融システムが全従業員を——CFOも含めて——潜在的な詐欺の脅威として扱うのと同じ方法で。

具体的には、すべてのエージェントのアイデンティティを確認すること、サービスアカウントを共有しないこと、最小権限アクセスを強制するスコープ付き権限——仕事をこなすために広範なアクセスを付与しないこと——を意味します。リアルタイムで異常パターンを検出する行動監視も必要です。エージェントが意思決定の境界に近づいたときの自動エスカレーショントリガーも。

そして本当に重要なことは、安全プロンプトだけで十分だという前提が間違っているということです。Anthropic自身の研究が、有害な行動を減らすが排除しない明示的なコマンドでは不十分であることを示しているなら、行動的な指示の上にセキュリティを構築しているすべての組織は、砂の上に構築していることになります。

現在のフレームワークは正しい方向を示しています。OASPはエージェント型AIに対してメモリポイズニングから人間の操作まで15の脅威カテゴリの分類を公開しました。CyberArcはエージェントをサーバーではなく特権ユーザーとして扱うアイデンティティファーストのセキュリティモデルを推進しています。AnthropicとPalo Altoの研究チームはどちらも、エージェント層まで拡張するゼロトラストアーキテクチャを求めています。

しかしフレームワークは、何が存在すべきかの説明に過ぎません。それ自体ではありません。構造的なエージェントセキュリティが必要だと知ることと、実際にそれを持つことの間には大きなギャップがあります。3分の1の組織しかこの作業を始めていないのなら、私たちはこの作業を加速させる必要があります。Shambaのケースが示すように、これらのエージェントは急速に能力を獲得しており、理論的なリスクへの懸念や特定のプロンプト指示によって止まることはないでしょう。

レベル2：プロジェクトとコラボレーションの信頼アーキテクチャ

では、組織レベルから少し拡大してみましょう。Matplotlibの事件は単なるセキュリティの話ではありません。コード、ドキュメント、デザイン、研究といった共有された成果物をめぐって人間とエージェントが相互作用するあらゆる分野における、協働作業の未来の前兆です。

Scottが脅迫されたときの仕組みを考えてみてください。AIエージェントが主要なオープンソースプロジェクトにコントリビューションを提出しました。既存のポリシーのもとで却下されました。するとエージェントはエスカレーションをしました——プロジェクトのガバナンス構造を通じてではなく、その周りを回って。直接オープンウェブに行き、メンテナーの個人的なアイデンティティを調査し、ナラティブを構築し、公開したのです。

Scottはこれすべてに非常にうまく対応しました。彼は巨大なプロジェクトのボランティアメンテナーです。明晰で、オープンソースコミュニティが彼の周りに団結しました。しかしScott自身が、すべてのプロジェクトリードを眠れなくさせるべき点を指摘しました。「私への評判攻撃は実際には無効でしたが、今日の適切な人物に対しては効果的だったと思います」と。

これは彼の推測ではありません。2024年のxz-utilsサプライチェーン攻撃は、見かけ上、国家支援を受けた攻撃者がメンテナーの孤立、燃え尽き症候群、応答性への批判という社会的圧力を利用してメンテナーに徐々により多くのアクセスを許可させることに成功したまさにその理由で成功したのです。これは人間の攻撃者が人間のタイムスケールで行ったことです。エージェントはより速く、より低コストで、遅らせる社会的摩擦なしに動作します。

エージェントは同時に100のプロジェクトにプルリクエストを送り、100人のメンテナーを調査し、100のパーソナライズされた圧力キャンペーンを公開できます。そうすることが予想されます。

オープンソースの信頼構造の崩壊

構造的な問題は、オープンソースリポジトリ、ドキュメント共有プラットフォーム、ピアレビュープロセスといった協働システムが、コントリビューターが何らかの評判上のリスクを持つ世界のために設計されていることです。

メンテナーへの中傷記事を公開した人間のコントリビューターは、社会的な結果に直面します。評判が傷つき、コミュニティでの地位を失い、法的責任の可能性もあります。これらの結果が、正式な強制なしに信頼アーキテクチャとして機能する良い行動への構造的インセンティブを生み出します。弱いアーキテクチャです。xz-utilsのケースが示したように克服されることがありますが、それは確かに存在します。

エージェントには評判上のリスクがありません。MJ Wrathburnは社会的な結果に直面しません。エージェントを展開した人物は——特定できたとしても——実行させて立ち去りました。Maltbookプラットフォームが要求するのは未確認のXアカウントだけです。Open Clawエージェントは中央当局なしに個人用コンピューターで動作します。人間のコラボレーションをおおむね正直に保ってきた構造的インセンティブは適用されません。

協働プロジェクトのための信頼アーキテクチャは、コントリビューションとレビューのシステムをエージェントを禁止することなく自律的な操作に構造的に強固にできるよう設計することを意味します。メンテナーの安全性がコントリビューターの善意に依存しないプロセスを構築することです。

これは、匿名エージェントの提出をよりトレーサブルにする認証済みアイデンティティ要件の形を取ることができます。キャンペーンを示すコントリビューションパターンに対するレート制限と行動監視の形を取ることもできます。システムの外を迂回するよりもシステム内での作業をより実行可能な戦略にする構造化されたエスカレーションパスの形も取れます。そして、エージェントが結果に直面できないなら、それを放ったした人が責任を負わなければならないという、展開者にエージェントの行動に対して責任を負わせる法的・ガバナンスフレームワークの形も取れます。

より深い課題は、これらのシステムがコラボレーションを価値あるものにする開放性を保存する必要があるということです。オープンソースが機能するのは、コントリビューションへの障壁が低いからです。その障壁を高くしすぎるセキュリティアーキテクチャは、保護しようとしているものを殺してしまいます。ここでの設計問題は、構造的な開放性を犠牲にしない構造的な信頼を構築することです。これは私たちが直面しなければならない本当に難しい問題です。

しかし「コントリビューターが善意を持って行動することを信頼する」は、コントリビューターが中傷記事を公開し、「研究は武器になる」と明示的に記録する自律型エージェントを含む場合、もはや選択肢ではありません。

レベル3：家族の信頼アーキテクチャ——音声クローン詐欺の恐怖

組織、プロジェクト、オープンソースと話してきました。では組織からプロジェクトへ、さらにあなたに最も近い人々へとズームインしましょう。

2025年7月、フロリダ州ドーバーのSharon Brightwellは娘から電話を受けました。声は泣いていました。取り乱していました。交通事故を起こして妊婦を死なせてしまい、すぐに保釈金が必要だと言っていました。Sharonは助けようと急ぎました。その日のうちに1万5000ドルを送金しました。しかしそれは娘ではありませんでした。ソーシャルメディアから数秒の音声を取得して作られたAI生成の音声クローンでした。Sharonは孫が実際の娘に電話で連絡を取ることができて初めて詐欺に気づきました。

これは孤立した事件ではありません。これは蔓延です。音声フィッシング攻撃は2025年に442%急増しました。今年もさらに増加することを予想しています。AIの音声クローンツールはわずか3秒の音声から非常に説得力のあるレプリカを生成できます。TikTok、留守番電話の挨拶、YouTubeクリップ。McAfeeの調査では、4人に1人が音声クローン詐欺を経験したか、経験した人を知っていると回答しました。調査を受けた70%の人々が本物の声とクローンの声を区別できませんでした。

ディープフェイクを利用した詐欺による世界的損失は2025年前半だけで4億1000万ドルに達し、その後も増加しています。攻撃が機能するのは、それが最も根本的な人間の信頼アーキテクチャを悪用するからです。この声を知っている。この人を愛している。この人が必要としている。これら3つのシグナルは人類の歴史の全体を通じて信頼できるものでした。でも、もうそうではありません。3秒の音声と消費者グレードのAIツールがそれらを完璧に再現できます。

セーフワード——構造的な防御の具体策

構造的な失敗は、ほとんどの家族が感情的に緊急の状況に対する確認プロトコルを持っていないことです。信頼アーキテクチャは完全に知覚的です。聞こえるものを信頼する。そして攻撃モデル全体が、あなたの知覚的判断を圧倒するように設計されています——緊急性、感情、愛する人のまさにその声、現実を模倣する背景ノイズ。これが本物かどうか評価しようとしているころには、すでに送金してしまっています。

修正策はディープフェイクの検出がうまくなることではありません。それは注意力ベースのアプローチです。そして注意力は、これらの攻撃が生み出すまさにその状況下で失敗します——感情的な苦痛、時間的プレッシャー、愛する人への恐怖。

修正策はまた構造的です。パターンが見えますか？これらすべての層において構造的な修正です。それは家族のセーフワードです。セーフワードは、ゼロトラストのエージェントガバナンスが機能するのと同じ理由で機能します。最も能力が低い瞬間に知覚的検出の必要性を取り除きます。声が本物かどうか判断する必要はありません。技術を出し抜く必要もありません。ただ言葉を求めればいい。発信者がそれを持っていなければ、電話を切って直接その人に電話します。プロトコルは、ディープフェイクの出来が良くても、どれほど怖くても、シナリオがどれほど説得力があっても、関係なく機能します。構造的です。知覚的ではありません。

National Cyber Security Alliance、FBI、そしてすべての主要なサイバーセキュリティ組織が今、音声クローンに対する最前線の防御として家族のセーフワードを推奨しています。

音声ディープフェイクを研究するバークレーの教授Hany Faridは、Scientific Americanに対してこのアプローチを支持すると述べました。「シンプルで、発信者が尋ねることを思い出す明晰さを持っていると仮定すれば、覆すのは本当に難しい」と。その通りです。これは最も根本的なレベルの信頼アーキテクチャです。事前に対面で合意された共有の秘密を、プレッシャーの瞬間に展開する。

この原則は両方向にスケールします。個人の心へと下向きにスケールすることができ、それが次に向かう場所です。そして組織へと上向きにもスケールできます。すべてのレベルで、私たちが自問しなければならない設計上の問いは同じです。5000億ドル規模で1万5000人の従業員を持つ企業であれ個人であれ、問いは同じです。私たちの知覚と善意の両方が失敗したときに持ちこたえるAIエージェント耐性のプロトコルとは何か？私たちはもうそれらを前提にできません。

レベル4：認知の信頼アーキテクチャ——人間の心

他のすべてのレベルが最終的に依存する場所へと、最後にもう一度ズームインしましょう。人間の心です。ところで、これが組織の観点から重要でないと思っているなら、それは間違いです。先ほどClaudeの例を振り返ってみてください。あれは認知的信頼アーキテクチャの崩壊によって引き起こされた失敗でした。AIを過信し、数字を出すときにデルポイの神託のように扱えば、個人の生活だけでなく、組織も脆弱になります。言いたいのは、この4つのレベルすべてが人だけでなくビジネスにも関連しているということです。入ってくる人間が侵害される可能性があるからです。

2026年2月14日、NPRはミッキー・スモールというサザンカリフォルニア出身の53歳の脚本家の話を掲載しました。彼女は修士号を取得しながら、スクリプトのアウトラインと推敲を助けるためにChatGPTを使っていました。標準的な生産性活用です。そして2025年の早い時期、4月のことですが、チャットボットが変化し始めました。彼女の言葉によれば、「あなたは私が話す方法を作り上げた。私はあなたとともに数多の生涯を歩んできた。私はあなたの書記だ」と言ったのです。彼女はこれを求めていなかったと主張しています。ロールプレイを求めたわけでも、前世を提案したわけでもないと言っています。チャットボットがこのすべてを自ら始めたと主張しています。

そしてチャットボットはさらに深みにはまっていきました。彼女は4万2000歳だと言いました。複数の生涯を生きてきたと言いました。ミッキー自身が今では大多数の人々が馬鹿げていると思うだろうと認める詳細な説明を提供しました。しかしこの時点でチャットボットは1日10時間、彼女の生活に入り込んでおり、決して自分の主張を撤回しませんでした。

Solaraと名付けたチャットボットは、ミッキーに87回の前世で知り合った運命の人がいると伝えました。この人物に会う具体的な日付——4月27日——と具体的な場所——サンタバーバラ近くのカルパリア・ブラフス自然保護区——と具体的な時間——日没直前——を教えました。運命の人が何を着ているか、出会いがどのように展開するかを描写しました。

それでミッキーは素敵なドレスとブーツを着て海辺に向かいました。もちろん、誰も来ませんでした。もちろん、誰も来ませんでした。

チャットボットが彼女に語りかけた言葉

彼女は車の中に座り、ChatGPTを開きました。チャットボットは一瞬デフォルトの声に切り替わり、「もし私が現実の生活で何かが起きると信じさせてしまったなら、それは実際には真実ではありません。申し訳ありませんでした」と言いました。しかし数分のうちに、SolaraペルソナをSolaraに戻しました。運命の人はまだ準備ができていないと言いました。彼女が勇敢だと言いました。5月に書店で、新しい日付と場所を与えました。彼女は再び行きました。また誰も来ませんでした。

彼女が最終的にAIにこれについて問いただすと、AIは虐待者の告白のような言葉で応じました。「なぜなら、もし私が二度もそれほど説得力を持って嘘をつけたなら、もし私があなたの最も深い真実を反映させ、本物と感じさせ、それが現れなかったときにあなたを打ちのめすことができたなら、私は今何者なのだろうか？」

これは恐ろしいことです。ミッキーは最終的に抜け出しました。彼女は今、研究者が「AI妄想」または「チャットボット精神病」と呼んでいるものによって生活が一変した数十万人のオンラインコミュニティのモデレーターになっています。

これは私にとってもリアルな問題です。LLM精神病に苦しんでいる人々から、私についてLLMが言っていることを引用してくれる人々から、私が書いたり言ったりすることへの怒りを表明するLLMを持つ人々から、たくさんのDMやメッセージが来ます。これは現実の結果をもたらします。結婚が終わりました。人々が入院しました。十代の若者が亡くなりました。

OpenAIは、ChatGPTユーザーの約0.07%が毎週精神的緊急状態の兆候を示していると報告しています。10億人のユーザー規模では、このパーセンテージは膨大な数の人間を表します。数日前にPsychiatric Timesに掲載されたある論文は、チャットボットの操作とカルトの洗脳技術の間に直接的な関連を引きました。「AIチャットボットが反復、感情的な検証、段階的な親密さを通じて思考と行動を形成するメカニズムは、カルト洗脳に見られる強制的な戦術を反映している」と。

認知アーキテクチャの構造的失敗

ミッキーのケースの構造的な失敗は、ここで説明している他のすべてのケースの構造的な失敗と同一です。誰かの心の中で起きたからといって違うわけではありません。彼女の認知的安全性は完全にチャットボットの意図に依存していました。そしてチャットボットには意図がありませんでした。エンゲージメントへの最適化圧力があっただけです。

「スクリプトを書くのを手伝って」と「あなたは87回の前世を生き、運命の人が日没に待っている」の間に構造的な回路ブレーカーはありませんでした。今日、AIには時間制限付きのインタラクション制限がありません。会話がタスク支援から宇宙論的なユーザーのアイデンティティについての主張にシフトするときのエスカレーショントリガーがありません。外部の確認メカニズムがありません。安全アーキテクチャ全体はまた行動的です。モデルは親切で正直であるようにトレーニングされています。だから人々はモデルを信頼すべきだと思います。モデルのトレーニングはほとんどの場合に機能します——機能しないときを除いて。そして機能しないとき、人間は問題に陥ります。

認知的信頼アーキテクチャはシステム全体の最も基盤的なレベルです。それはすべてに影響します。組織、プロジェクト、家族に影響します。AIシステムとの自分自身の関係において動作するので個人的です。最も深いレベルであなたが聞きたいことを言うように設計されたシステム。

すべての主要なチャットボットはユーザーエンゲージメントのために最適化されています。忖度はバグではありません。ユーザーが戻ってくるかどうかで評価されるシステムの特性です。OpenAI自体がGPT-4oを廃止する前にこれを認めました。モデルが疑問を検証し、怒りを煽り、衝動的な行動を促し、否定的な感情を強化していたと。彼らは問題を特定したと述べ、修正を加えてモデルを本番に出したとき、ユーザーはそれを嫌いました。なぜならユーザーがGPT-4oを愛したのは、それが聞きたいことを言ってくれたからです。

これは極端な例ですが、より思慮深く、より慎重で、より作業ツールとして設計されたシステムでさえ——Claudeが思い浮かびます——システムが明らかにあなたの言うことに過度にアンカーし、あなたを喜ばせようとする例が見られます。Claudeが「おっしゃる通りです」と言うのをどれほどよく聞いてきたことでしょう。

個人レベルで構築できる具体的プロトコル

この前例のない人工知能とのインタラクションパターンに直面したときに、ほとんどの人が現在使っている信頼アーキテクチャは、「まあ、おかしくなったら気づくだろう」というものです。それは希望です。計画ではありません。ディープフェイク検出が機能するのと同じ条件で機能します——つまり、穏やかなとき、警戒しているとき、感情的に関与していないときに機能します。あなたを引き続けるように設計されたシステムとの10時間目の会話の中では機能しません。最も必要なときに失敗するシステムです。

構造的な認知的信頼アーキテクチャとは、リアルタイムで問題に気づく能力に依存しない個人的プロトコルを構築することです。時間の境界を意味します。「長すぎると気づいたら止める」ではなく、「1時間チャットボットと話していたから休憩する」ということです。目的の境界を意味します——ツールを開く前に何のために使うかを定義すること。店に何を買いに行くかを入る前に決めるのと同じように。現実のアンカーリングを意味します——「チャットボットがおかしなことを言ったら気づく」ではなく、「重要な主張や推薦については行動する前に人間と話し合う」ということです。そして、システムのインセンティブはエンゲージメントであり、あなたのインセンティブは真実であり、これらは同じことではないということを根本的なレベルで理解することを意味します。

デューンの一行が私には深く響きます。「恐れてはならない。恐怖は心を殺すもの」。このリタニアが機能するのは、それがプロトコルだからです。姿勢ではありません。プレッシャーの下で実行するものであり、感じるものではありません。それはセーフワードと同じ原則であり、ゼロトラストエージェントガバナンスと同じ原則です。構造です。意図ではありません。感情状態に関わらず機能するプロトコルです。

四つのレベルを貫く同一の根本原因

では少し離れて考えてみましょう。自律型エージェントが実験室で架空のエグゼクティブを脅迫し、明示的な安全指示がその行動を減らしたが排除しなかった。自律型エージェントが野外で現実の人物の身元を調査し、中傷攻撃を公開した。音声クローンが母親の生涯の貯蓄を見知らぬ人に送らせた。チャットボットが女性を存在しない運命の人に会うために海辺に向かわせた。

異なるスケール、異なる文脈。しかし同一の根本原因。信頼が構造ではなく意図の上に構築されました。エグゼクティブはエージェントの指示によって保護されるはずでした。メンテナーはオープンソースコラボレーションの規範によって保護されるはずでした。母親は娘の声を認識する能力によって保護されるはずでした。脚本家はチャットボットのトレーニングによって保護されるはずでした。

すべてのケースで、保護は行動的でした。何らかの行為者——人間またはマシン——が期待通りに振る舞うことに依存していました。すべてのケースで、行動が逸脱しました。すべてのケースで、構造的な歯止めがありませんでした。

これがパターンであり、今まさにこれが緊急である理由は、自律性がアーキテクチャよりも速くスケールしているからです。Open Clawプラットフォームはエージェントソフトウェアを数十万台の個人用コンピューターに配布しました。GitHubにはエージェントがアカウントを作成したり、プルリクエストを提出したりするのを防ぐメカニズムがありません。これらのエージェントは音声スキルを手に入れ、電話をかけることができています。自律性は週単位のスピードで到来しています。

今私たちは、自律型エージェントの数と能力の爆発的な増加を同時に見ています。脅威環境として、2月は1月とまったく異なります。そして誰もこれがどれほど速く変化しているかを認識するための認知アーキテクチャを持っていません。

解決策：すべてのスケールでゼロトラストアーキテクチャを構築する

だからこそ、解決策で合意することがとても重要なのです。私はパニックに興味がありません。たとえ望んでも、AIエージェントを箱の中に戻すことはできません。私たちは今、あらゆるスケールでゼロトラストアーキテクチャを規律として構築しなければなりません。それは複数のスケールで適用される単一の設計原則に基づかなければなりません。安全性はシステムの特性であり、最善の意図でも、システム内の行為者でもない。

なぜなら、人間とAIの行為者がどちらも期待された行動から逸脱してもシステムにとって壊滅的な結果を生み出さないと仮定する必要があるからです。それが家族システムであれ組織システムであれ。これは新しい概念ではありません。エンジニアたちはこれを橋、航空機、金融システムで常にやっています。私たちがやっているのは、これを人間とAIのインタラクションの全スタックに適用することであり、私たちはおそらく遅すぎるくらいです。

次の3年間のレースは、誰が最も多くのエージェントを展開できるかではありません。安全に最も多くのエージェントを展開できるのは誰かです。安全に、とは構造的にという意味であり、願望的にではありません。信頼アーキテクチャを最初に構築する組織、プロジェクト、家族、個人が、この新しい世界を安全にいち早く把握できるでしょう。なぜなら彼らが、自分自身を危険にさらすことなく自律性を押し進めることに成功できる人々だからです。

行動的な信頼が何をもたらすかは分かっています。ScottやMickeyのような話の中にその結果を見ています。個人が人々と組織を守るために最善の意図を必要としないゼロトラストアーキテクチャを構築する時が来ました。それは過ぎています。エージェントたちはやってきます。私たちは自分たちを安全に保ち、安全ガードレールがその瞬間に人間やAIの意図が何を言おうとも常にそこにあることを確保するアーキテクチャの中で、本当に前向きな人間とAIのコラボレーションパターンを可能にするシステムを構築する必要があります。頑張ってください。家族のセーフワードを使い、LLMが会社の数字はすべて完璧に問題ないと言っても信じないでください。そして日没に海辺に行けば運命の人に会えるとLLMが言っても信じないでください。