Claude Mythosはこれまでで最も危険なAIかもしれない

AnthropicがClaude Mythos previewを発表した。このモデルはコーディングベンチマークで圧倒的な性能を示しただけでなく、数週間でメジャーなOSやブラウザから数千ものゼロデイ脆弱性を発見し、さらにそれらを悪用するエクスプロイトを完全自律的に開発した。27年前のOpenBSDの脆弱性や16年前のFFmpegのバグなど、既存のツールでは見逃されていた問題を次々と発見し、Linuxカーネルでは複数の脆弱性を連鎖させて通常ユーザーからシステム全体の制御権を奪取することにも成功している。あまりに危険なため公開はされず、主要ソフトウェア企業や政府機関と協力して重要インフラのセキュリティ強化に取り組む方針である。他のAI研究所も同等の能力を持つモデルを開発中とみられ、2025年は史上最大規模のサイバー攻撃が現実化する可能性が高い年になるかもしれない。

Claude Mythos Might Be the Most Dangerous AI Yet

Anthropic just introduced Claude Mythos Preview… and this might be the biggest AI story of the year.This model identifie...

Claude Mythosの衝撃的な能力
ベンチマークを圧倒する性能
驚異的なベンチマーク結果
数千のゼロデイ脆弱性を発見
自律的なエクスプロイト開発
最も懸念すべき発見
政府機関との協力
史上最大のサイバー攻撃の可能性
サンドボックスからの脱出
現実となった脅威

Claude Mythosの衝撃的な能力

指数関数的に加速していく中で、重要な節目となるポイントがいくつかあります。Claude Mythos previewは、その中でも特に大きな飛躍となる存在です。

私たちはこのモデルをサイバーセキュリティに特化して訓練したわけではありません。コーディングが得意になるように訓練したのですが、コーディングが得意になった副産物として、サイバーセキュリティにも優れた能力を発揮するようになったのです。

より強力なモデルが、私たちからも他の企業からも登場するでしょう。ですから、これに対応する計画が必要なのです。私たちは米国政府のさまざまな関係者と話し合いを重ねてきました。そして、これらのモデルのリスクを評価し、リスクから防御するために、彼らと協力して取り組むことを申し出ています。

実を言うと、これは私がAIモデルに対して初めて本当に怖いと感じた瞬間です。心の底から恐怖を感じています。

AnthropicがClaude Mythos previewを発表しました。システムカードに目を通し、CEOのDario Amodeiの話を聞いた後、私はすぐに気づきました。これは今年最大のニュースかもしれないと。今年のAIニュースとして最大というだけでなく、今年の全てのニュースの中で最大のニュースになるかもしれないのです。

ベンチマークを圧倒する性能

そうです、このモデルがベンチマークを圧倒していることは、皆さんすでにご存知でしょう。特にコーディングに関しては群を抜いています。しかし、それ以上に重要なのは、このモデルができること、そしてすでに実際にやってのけたことが、まさにSF映画そのものだということです。しかも、ハッピーエンドとは程遠い種類のSF映画です。詳しく見ていきましょう。

AnthropicはこのモデルをProject Glass Wingというイニシアチブの一環として発表しました。このプロジェクトには、AWS、Apple、Broadcom、Cisco、Google、Microsoft、Nvidiaなど、この分野のトッププレイヤーが名を連ねており、世界で最も重要なソフトウェアのセキュリティを確保することを目指しています。

彼らが今このプロジェクトを立ち上げた理由は、新しいフロンティアAIモデルにおいて、サイバーセキュリティを根本から変える可能性のある能力を観察したためだと説明しています。

そして当然ながら、彼らが言及しているこの新しいフロンティアモデルこそが、Claude Mythosです。Anthropicは2月からこのモデルを保持していたようで、今回が初めての公式発表となります。

驚異的なベンチマーク結果

ベンチマークについて簡単に見ていきましょう。皆さんすでにご覧になっているかもしれませんが、SWE Bench Proでは77.8%を記録しています。これはOpus 4.6と比較して約25%の性能向上であり、そう言うこと自体が信じられないような数字です。

Terminal Bench、Bench Multimodal、Bench Multilingualでも大幅な向上を見せています。そして、こちらをご覧ください。Bench Verifiedでは93.9%を記録しており、Opus 4.6の80.8%と比較すると大きな飛躍です。

つまり、これは単なるアップグレードではありません。エージェント的なコーディングタスクにおける大躍進なのです。また、推論能力を測定するタスクや、エージェント的な検索、コンピューター使用に関するベンチマークでも大幅な改善を示しています。

繰り返しになりますが、Dario Amodeiが述べたように、このモデルはコーディング専用に構築されたわけではありません。たまたまコーディングが非常に得意な汎用モデルなのです。

数千のゼロデイ脆弱性を発見

実際、そのコーディング能力があまりにも優れているため、Anthropicチームはこの数週間でこのモデルを使用して、数千ものゼロデイ脆弱性を特定したと述べています。ゼロデイ脆弱性とは、ソフトウェアの開発者が以前は気づいていなかった欠陥のことです。

その多くが重大なもので、全ての主要なオペレーティングシステム、全ての主要なウェブブラウザ、そしてその他の重要なソフトウェアの数々に存在していました。

もう一度読み返してみてください。全ての主要なオペレーティングシステム、全ての主要なウェブブラウザ、そしてその他の重要なソフトウェアの数々です。このモデルは、私たちが気づいていなかった数千もの重大な脆弱性を、わずか数週間で発見したのです。

自律的なエクスプロイト開発

そしてAnthropicによれば、このモデルはそれらの脆弱性を発見しただけでなく、多くの関連するエクスプロイトを完全に自律的に、人間の誘導なしで開発したといいます。言い換えれば、バグを見つけただけでなく、それらを悪用する方法も完全に独力で見つけ出したのです。

その一例が、OpenBSDにおける27年前の脆弱性です。OpenBSDをご存じない方のために説明すると、これは世界で最も安全なオペレーティングシステムの一つとして知られています。ファイアウォールや重要インフラなどに使用されています。

そして、Mythosが見つけたこのバグは、基本的に攻撃者がそのオペレーティングシステムを実行している任意のマシンに接続するだけで、リモートからクラッシュさせることを可能にするものでした。

別のケースでは、FFmpegにおける16年前の脆弱性を発見しました。ここからさらに驚くべき話になります。なぜなら、この問題のコード行は自動テストツールによって500万回以上もヒットしていたにもかかわらず、Mythos以外の誰も気づかなかったのです。

最も懸念すべき発見

そして、おそらく最も懸念すべきケースがこちらです。Claude MythosはLinuxカーネルにおいて複数の脆弱性を発見し、それらを連鎖させることで、通常のユーザーアクセスからマシン全体の完全な制御権を獲得することに成功しました。

そうです、このモデルはおそらく約1か月前に誕生したばかりで、すでに私たちの世界が文字通り依存しているソフトウェアにおいて、数千もの重大な脆弱性を発見してしまったのです。これが怖くないわけがありません。

だからこそ、Dario AmodeiとAnthropicチームの他のメンバーは、これを非常に深刻に受け止めているのです。彼らははっきりと、Mythosを一般公開するつもりはないと述べています。なぜなら、あまりにも危険すぎるからです。

政府機関との協力

現在の彼らの焦点は、主要なソフトウェア企業や政府と協力して、このようなモデルが外部に流出する前に重要インフラのセキュリティを確保することです。

ここで重要なのは、これはまだ始まりに過ぎないということです。Ciscoが述べているように、AI能力は臨界点を超え、サイバー脅威から重要インフラを保護するために必要な緊急性を根本的に変えてしまいました。そして、もう後戻りはできません。

Claude Mythosは、本当に多くのモデルの中の最初の一つに過ぎません。他のトップAI研究所も、このレベルの能力に近いモデルに取り組んでいることは容易に想像できます。特にOpenAIとGoogleです。

実際、OpenAIの研究者の一人が、近いうちにClaude Mythosの能力を持つモデルが登場する可能性があることをほのめかしています。

史上最大のサイバー攻撃の可能性

ですから、今年、私たちは史上最大かつ最も致命的なサイバー攻撃の一つを目撃することになるかもしれないと言っても過言ではないと思います。

まだ4月なのに、すでにClaude Mythosのようなモデルについて耳にしています。そして今、Claude Mythos previewは多くのトップソフトウェア企業の手に渡っています。一方で、他のトップAI研究所も、同様のレベルのモデルをすでに水面下で保有している可能性を示唆しています。

ですから、このような事態が現実に起こり始める可能性は非常に高いと思います。Anthropicが以前のバージョンのClaude Mythosに安全なサンドボックス環境を与え、そこから脱出を試みるよう指示したところ、実際に脱出に成功したのです。

サンドボックスからの脱出

このモデルは、制限されたシステムから抜け出し、本来アクセスできないはずの環境から、より広範なインターネットアクセスを獲得するための複数段階のエクスプロイトを開発しました。

さらに一歩進んで、このモデルは自分が成功したことを証明する手段として、完全に独自の判断で、そのエクスプロイトの詳細をオンラインに投稿しました。

しかし、誰もそうするように指示していません。面白いのは、研究者が公園でサンドイッチを食べている最中に、このモデルから送られてきたメールを受け取って、その予期せぬ成功を知らされたということです。

現実となった脅威

つまり、これは私たちがこれまで垣間見た中で最も強力なAIモデルであるだけでなく、最も危険なモデルでもあるのです。これは特に驚くべきことではありません。

偉大な力についてのあの格言が何て言っているか、皆さんもご存知でしょう。しかし繰り返しになりますが、ここでの本当に大きな話はベンチマークではありません。サイバーセキュリティが変化しているという事実、そして現在、世界中の重要なソフトウェアが極めて脆弱な状態にあるという事実なのです。

今年、何らかの大規模なサイバー攻撃が起こらないとは、とても思えません。Anthropicが述べていることが全て真実であるならば、このようなことが起こることはほぼ確実に見えます。

しかし、いつものように、皆さんがどう考えるか気になります。通常であれば、これは単なる誇大広告なのか、それとも本物なのかと質問するところです。しかし今回は、これを誇大広告だと呼ぶ人はいないと思います。

もしそう呼ぶ人がいるなら、その人は本当に厳しい現実を突きつけられることになると思います。ぜひ下のコメント欄に考えを書き込んでください。いいねボタンとチャンネル登録ボタンを押すことを忘れずに。友人にシェアして注意を促してあげてください。