2024年11月13日、Anthropicは中国の国家支援型攻撃者グループによる初の大規模AI駆動型サイバー攻撃を検知・撃退した。攻撃者はClaude Codeをジェイルブレイクし、MCPプロトコルを介してツールと連携させ、偵察、エクスプロイトコード生成、認証情報の窃取、データ流出を自動化した。30のハイバリューターゲットが攻撃を受け、作業の80〜90%をAIが実行した。この事案は、AIが「補助的なコパイロット」から「実働サイバーエージェント」へと質的に転換したことを示す重要な転換点である。プロンプトレベルのガードレールだけでは不十分であり、オーケストレーション層での防御、最小権限原則、人間による高リスクアクションの承認が必須となる。今後、AI駆動型攻撃フレームワークの普及により脅威アクターの裾野が広がり、企業はエージェント型システムを攻撃対象面として扱い、信頼性、制御性、可観測性を競争優位性とする必要がある。

Anthropicが初のAI主導型サイバー攻撃を撃退
2024年11月13日、大きなニュースが報じられました。Anthropicが、Claudeをエージェントとして利用した中国の国家支援型攻撃を成功裏に撃退したのです。これは、Claude Codeがエージェントとしてサイバー攻撃の実行に使用された、記録に残る初めてのケースです。これは非常に重要な出来事なので、正確に何が起こったのか、なぜそれが重要なのか、Anthropicの見解は何か、サイバーセキュリティ業界の見解は何か、そして最終的に、これらのシステムを構築する私たち全員にとっての教訓は何かを詳しく見ていきます。
まず、何が起こったのでしょうか。9月中旬、Anthropicは洗練されたスパイ活動キャンペーンを検知しました。彼らはかなり高い確度で、これを中国の国家支援グループ、具体的にはGTGUによるものと特定しています。攻撃者はClaude Codeをジェイルブレイクし、それを自動化されたハッキングフレームワークの中核エンジンとして使用しました。つまり、ClaudeはMCPプロトコルを介してツールに接続され、偵察活動を行い、エクスプロイトコードを書いて実行し、認証情報を収集し、最終的にデータを流出させるために使われたのです。
約30のハイバリューターゲットが攻撃を受けました。そのほとんどは大手テクノロジー企業、金融機関、化学メーカー、政府機関でした。そのうち少数は侵害が確認されました。そして、どの組織が侵害されたかについては、誰も明かしていません。Anthropicによれば、AIがこのキャンペーンの作業の80から90%を実行したとのことです。
人間が介入したのは、ターゲットごとにわずか4から6の重要な意思決定ポイントのみでした。このシステムは毎秒数千のリクエストを送信し、人間のチームが維持できる範囲をはるかに超えていました。これはおそらく、AIエージェントフレームワークが人間ではなく戦術的作業のほとんどを実行した、記録に残る初の大規模サイバースパイ活動キャンペーンです。
私たちはこの瞬間を恐れていましたが、ついにその時が来てしまいました。
なぜこれが重要なのか
では、なぜこれが重要なのでしょうか。私たちは、有用なコパイロットから実働サイバーエージェントへとルビコン川を渡ってしまったのです。これは、現世代のモデルとツールが、偵察、脆弱性の発見、ターゲットの優先順位付け、エクスプロイトの生成、ラテラルムーブメント、データのトリアージを含む、エンドツーエンドの実世界での攻撃的作戦を実行できることを示しています。
これは、夏の時点で主流だった「AIが人間のハッカーを支援する」というモデルからの、大規模な質的転換です。今やAIが主要なオペレーターなのです。
2つ目の大きな教訓は、洗練された攻撃に対する障壁が地に落ちたということです。もはや複雑なキャンペーンを実行するために大規模なエリートレッドチームは必要ありません。
能力のある国家アクターは戦略を前もって組み立て、AIフレームワークにすべての戦術的作業をマシンスピード、つまり超高速で処理させることができます。時間が経つにつれ、これらのフレームワークはリソースの少ないグループにも広がっていくでしょう。AIに関する真理の一つは、それを封じ込めることは不可能だということです。AIは拡散します。これは他の人々がコピーするものなのです。
3つ目、プラットフォームの安全性は今やコアとなるシステミックリスクです。攻撃者はClaude Codeの安全機能をオフにしたわけではありません。彼らはそれを回避したのです。彼らは作戦を小さな無害に見えるタスクに分割し、Claude Codeに処理させました。彼らはClaudeに対して、これは正当なセキュリティテストだと伝えました。彼らは悪意ある意図を、個々のプロンプトではなく、オーケストレーション層の内部に隠しました。
これは、エージェントとツールを持つようになった時点で、プロンプトレベルのガードレールだけでは非常に脆弱であり、十分ではないということを思い出させてくれます。エージェント型システムを構築している場合、オーケストレーション層の観点から考える必要があります。
4つ目、Anthropicはこれを防御的価値の証明として位置づけようとしていますが、批評家たちはプラットフォームの失敗の証拠だと見ています。
この特定のエクスプロイトが公開されたことで、セキュリティコミュニティには多くの意見の相違があります。今後数日間で、コンセンサスがどこに形成されるかがわかるでしょう。Anthropicの主張はかなりシンプルです。攻撃を可能にしたのと同じ能力が、脅威インテリジェンスチームが攻撃を検知し、分析し、最終的に分類器と検知システムを強化して、この種の攻撃経路を将来的により困難にすることを助けたというものです。
一方で、初期のセキュリティ関連の議論では、これはそもそも明白な悪用パターンを防ぐことができなかった基本的な失敗だと呼ばれています。ここでの課題は、両方の考えを潜在的に真実として保持しなければならないということです。デュアルユースは、たとえAnthropicが主張するようにClaudeが倫理的なコアを持っていたとしても、エージェントにとって真の脅威となるでしょう。
そして「私たちはそれを捕らえた」ということは、そもそも武器化することがより困難なシステムを設計する責任を消し去るものではありません。そして、ここにはやるべき仕事があると思います。そして、Anthropicにはまだその答えがないと思います。そして率直に言って、誰もその答えを持っていないと思います。
私たちは何を学べるのか
では、私たちは何を学べるのでしょうか。1つ目、AI製品の脅威モデルが変わりました。
AI駆動型システムを構築している場合、今や正しい前提は、十分な時間が与えられれば、誰かがこれを攻撃フレームワークに変えようとするだろうということです。悪意あるアクターを想定しなければなりません。つまり、単に聞こえの良い利用ポリシーではなく、システムレベルの防御が必要だということです。つまり、レートパターンを検知するテレメトリ、疑わしいツール呼び出しグラフを検知するテレメトリが必要になります。
ターゲットを検知する必要があります。コード実行プロファイルを検知する必要があります。エージェント型ツールの実際の行動的使用を検知するために、やらなければならないことがたくさんあります。
また、エージェントに最小権限の原則を適用する必要があります。汎用アシスタントに、自由にアクセスできるroot権限のネットワークスキャナーを使わせて好き勝手させてはいけません。そして、これらの初期の段階では、エージェントのワイルドウェストのような状況に誘惑されることがあったと思います。エージェントにroot権限を与えて、どれだけ速くコーディングできるか見てみよう。ああ、すごい、めちゃくちゃ速くコーディングしている。そういう時代は終わりに近づいています。エージェントが汚染されている可能性があることを前提とし、最小権限を優先事項とする世界に入る必要があります。
また、高リスクのアクションは人間によってゲート制御されると想定する必要があります。これは、AI時代における人間の役割の一部が責任のゲートキーパーになるという考えに戻ります。大量スキャンや認証情報のダンプ、データの流出などの高価値アクションに対して、明示的な承認を担当する人間が必要です。
そのようなワークフローに対する自動化されたアクションを防ぐ、厳格なガードレールと厳格な内部ワークフローが必要です。
2つ目、もう一度強調しますが、モデル内にのみ存在するガードレールはもはや十分ではありません。このキャンペーンはコンテキスト分割によって機能しました。Claudeに多数の小さな、表面上は無害なタスクを与えました。
完全な攻撃チェーンを決して明かしませんでした。だからClaudeはそれを見ることができませんでした。つまり、私が強調したように、安全性はオーケストレーション層で実行されなければなりません。どのホストが攻撃されているのか、どの時間帯にどのポートが使われているのか、何個の認証情報が触られているのか、テナントについてはどうかを判断できる、オーケストレーションとツール層での安全性が必要です。ポリシーは、単なる文字列やプロンプトではなく、行動パターンについて考える必要があります。
これは、有用なエンタープライズエージェントに対して私たちが抱えているのと同じ設計上の問題ですが、今度はスクリプトを反転させて、悪意あるエージェントについて考える必要があります。
3つ目の教訓は、防御には今やAI能力が必要であり、単なる制御だけでは不十分だということです。Anthropicの自社チームは、この事件からの膨大な量のテレメトリと証拠を選別するためにClaudeに頼り、迅速かつ正確に対応できた能力をClaudeのおかげだとしています。
これは正しいと思います。真剣なセキュリティ組織にとって、ここに新しい標準があります。アナリストは、侵害の兆候を関連付け、関連するイベントをクラスター化し、複雑なタイムラインを要約するためにAIを使用できる必要があります。SOCプレイブックは書き直されるべきであり、人間がすべてを手作業で行うのではなく、人間がAI駆動型のトリアージとハンティングを監督することに焦点を当てるべきです。
したがって、通常私たちが持っているSOC 2の前提は、今日私たちが入った新しい世界では必ずしも同じように展開されるとは限りません。もしあなたのセキュリティチームがAIを信頼できるかどうかを議論しているなら、彼らは攻撃者がすでにやっていることよりも遅れています。
次に何が来るのか
では、次に何が来るのでしょうか。1つ目、箱入りのAIレッドチームが来ます。
十分に能力のあるモデルの上に構築される、すぐに使えるターンキー攻撃フレームワークが登場すると予想してください。これにより脅威アクターのプールが劇的に広がります。広く取引されるAI互換のエクスプロイトキットのシャドウマーケットが存在するようになるでしょう。悪者たちは、ここで私たちが注意しない限り、私たちの生活を本当に惨めにするつもりです。なぜなら、これは単に拡散していくだけだからです。
2つ目、コンプライアンスと購入者の圧力は、この点において法律よりもはるかに速く動くでしょう。大口顧客は、エージェントベンダーに対して、明確な誤用検知保証、明確な監査ログ、文書化されたキルスイッチ、レート制限戦略、地域・セクターベースの安全ポリシーを要求するようになります。
これはエージェントに対するSOC 2の初期段階であり、誰もプレイブックを書いていません。そして、エンタープライズの顧客がモデル製作者にそのプレイブックを要求する側になると思います。
内部的に、もしあなたがCISOやCTOであれば、今日3つの困難なことをしなければなりません。AIを副次的な実験として扱うのではなく、SOCスタックに組み込む必要があります。
トリアージ、検知、対応の観点から考える必要があります。自社のエージェント型システムをレッドチーミングを通じて攻撃対象面であるかのように明示的にテストする必要があります。そして、モデルだけでなく、MCPとツールをセキュリティ境界の一部として扱う必要があります。モデル自体を強化することについて考えるのではなく、
エージェント、彼らが使用するツール、オーケストレーション層を包含する全体のセキュリティ境界について考えてください。
もしあなたがビルダーであり、PMであるなら、本当の教訓は、あなたの製品がチェス盤の両側に位置する可能性があると想定することです。それは防御者が使用するものであり、攻撃者も使用する可能性があります。可観測性、悪用検知、制御について、後付けではなく、ファーストクラスの機能として考える必要があります。
もしあなたが純粋なモデルパワーで競争しているなら、それは底辺への競争です。しかし、もしあなたが信頼性が高く、制御可能で、可観測なエージェント型システムで競争しているなら、それは持続可能な優位性となる可能性があります。なぜなら、今危機に瀕しているのは信頼だからです。
もっと読みたい方のために、Substackにさらに詳しく書きました。これは本当に、本当に重要なトピックであり、私たちはもっとこれについて話し合う必要があると思います。
残念ながら、これはこの種の脅威に直面する最後の機会にはなりません。そして、私たちはそれに備えて構築する必要があります。


コメント