Claude Mythos:Anthropicが構築し、そして封印したAI

Anthropic・Claude・ダリオアモデイ
この記事は約15分で読めます。

Anthropic社が開発した未公開の高性能AIモデル「Claude Mythos」の全貌を解説する。本モデルはリークによって存在が発覚し、その後「Project Glass Wing」として一部の防衛・セキュリティパートナー限定で公開された。驚異的なコード推論能力を持ち、人間の専門家が見落としていたゼロデイ脆弱性を自律的に発見・実証できる。しかし、悪用の危険性が極めて高いため、一般公開は見送られ厳重なアクセス制限下にある。単なるAGIへの到達ではなく、特定の危険領域で突出した能力を持つAIの登場と、それに伴う新たな安全管理プレーブックの重要性を提示している。

Claude Mythos: The AI Anthropic Built — Then Locked Away
Link to our newsletter: is panicking about Claude Mythos — Anthropic's new top-tier model that's so capable they decided...

リークと公開の舞台裏

今、誰もがClaude Mythosの話題で持ちきりになっています。公開するには危険すぎる、ハッキングの新時代が始まる、Anthropicは自ら恐れるものを構築してしまった、といった言葉がタイムラインにあふれています。その気持ちはよく分かります。私はここ数日、244ページに及ぶリスク報告書を隅々まで読み込みました。みなさんが自分で読む必要がないようにするためです。しかし、ここには誰も大声では言っていない大どんでん返しがあります。パニックになっている人のほとんどは、実はその中身を読んでいないのです。一度中身を読んでみれば、本当のストーリーは、恐怖のAIという話よりもはるかに興味深いものであることが分かります。bitbiased.aiへようこそ。ここではみなさんに代わって徹底的にリサーチを行っています。概要欄にあるリンクをクリックして無料の週刊ニュースレターに登録し、AI愛好家のコミュニティに参加してください。一歩先を行くための主要なAIニュース、ツール、学習リソースをお届けします。

それでは、この動画ではClaude Mythosとは一体何なのか、なぜAnthropicはそれをProject Glass Wingと呼ばれるプログラムの背後に隠しているのか、GPT-4oにはできない何が実際にできるのか、そしてAGIへのパニックは本物なのか、それとも単なる過剰なハイプに過ぎないのかを正確に解き明かしていきます。まずは、これらすべてのきっかけとなったリークの話から始めましょう。というのも、Mythosはあのタイミングで発表される予定ではなかったからです。本題に入りましょう。

リークと公開の経緯です。ここは大半の人が見落としている部分です。Anthropicは、あの時点でMythosについて発表したくはありませんでした。事態が公にせざるを得なくなったのは、2026年3月下旬、Fortune誌が社内文書を報じたのがきっかけでした。そこには、コードネームCapy Barra、公開名Mythosという新しい最高峰モデルの名前があり、Anthropic内部ではClaude Opus 4.6を超えるステップチェンジと表現されていました。このステップチェンジという言葉には注目すべきです。なぜなら、企業はステップチェンジという言葉を軽々しくは使わないからです。新しいモデルはどれも最高クラスと呼ばれますが、ステップチェンジと呼ばれるものはほとんどありません。これは、何かがカテゴリーを飛び越えたときに使う言葉です。

2週間後の2026年4月7日、Anthropicは否定するのをやめ、発表へと踏み切りました。彼らはProject Glass Wingと呼ばれるものを正式に立ち上げたのです。そして、ここからが奇妙なところです。彼らはMythosをすべての人が使えるようにAPIに公開するのではなく、ごく少数のパートナーのサークルに手渡しました。AWS、Google、Microsoft、CrowdStrikeといった、地球上で最大のサイバーセキュリティ企業たちです。Google Cloudも同日、Vertex AI上でMythosのプレビューがライブ状態であることを確認しましたが、それは招待制のプライベートプレビューでした。APIのドキュメントには、防御目的のサイバーセキュリティワークフロー、審査済みの組織限定、一般登録は不可、とはっきりと書かれています。記録として残しておきますが、Mythosはすでにリリースされています。現在、本番環境で稼働しているのです。ただ、みなさんが触ることはできないというだけです。その理由についてはすぐに説明しますが、まずはこのモデルが実際に何を行えるのかをお見せしたいと思います。その能力を見れば、なぜこれほど厳重にロックダウンされているのかが、はるかによく理解できるようになるはずです。

Claude Mythosにできること

まずは退屈な数字から始めましょう。野生的な部分の凄さを実感するためには、これらの数字が必要です。MythosはClaude 4.xアーキテクチャをベースに構築されており、マルチモーダルです。つまり、テキストと画像を入力として受け取り、テキストを出力します。コンテキストウィンドウは100万トークンです。Anthropicはパラメータ数を公開していませんが、リークされた文書によると、すでに同社最大であるOpusを上回る新しいティアに位置づけられています。標準的なベンチマークでは、Opus 4.6の91.3%に対して、GPQAスコアで約94.6%を記録しています。SWE-benchでも最先端の成果を上げ、多言語テストやビジョンテストでも最高マークを獲得しています。これらは堅実な勝利であり、予測可能な勝利です。

しかし、ここからが面白くなるところです。AnthropicはMythosをTerminalBenchと呼ばれるエージェント型環境で実行しました。これはモデルにターミナルを与え、実際にコードを実行して自律的にタスクを完了させるテストです。Opus 4.6のスコアが65%だったのに対し、Mythosは81%を記録しました。これは単なる段階的な向上ではありません。モデルが複数ステップのタスクを計画し、コマンドを実行し、検索を利用し、開始した作業を完全に自律して終わらせる能力を持っているということです。

そしてここからが、セキュリティ研究者たちが密かにパニックに陥っている部分です。AnthropicはMythosに、人間が何年も、場合によっては何十年も検証してきた、古くて難解な、十分に監査されたソフトウェアをいくつも与え、バグを探させました。Mythosは単にバグを見つけただけでなく、それらに対する実際に動作するゼロデイエクスプロイトを記述したのです。あるテストでは、ブラウザの4つの別々の脆弱性を連鎖させてサンドボックスを回避しました。また別のテストでは、FreeBSDのNFSでルート権限を取得するために、複数のネットワークパケットにまたがる複雑なROPチェーンを構築しました。7000箇所の侵入ポイントを持つファジングベンチマークでは、数百件の深刻なクラッシュを引き起こし、そのうち10件は完全な制御乗っ取りにつながりました。さらに、安全であるという評判だけで成り立っているようなオペレーティングシステムであるOpenBSDで、27年間誰も気づかなかったバグを発見したのです。

そして、ここからが本当にじっくりと考えるべき部分です。Anthropicは、これらを行うための明示的なトレーニングをMythosに施してはいないと述べています。ハッキング能力は、モデルのコード推論能力が大幅に向上したことによる副産物なのです。それは創発したのです。この事実の重みを少し噛み締めてみてください。

つまり、Mythosは理論上、Claude API、AWS Bedrock、Vertex AI、Microsoft Foundryを通じて開発者が利用可能であり、プレビュー後の価格は100万トークンあたり25ドルから125ドルの範囲に設定されています。しかし実際には、アクセスの障壁となっているのは価格ではなく、アクセス許可のリストです。Project Glass Wingに応募した方、あるいは応募した人を知っている方がいれば、ぜひコメント欄で教えてください。その審査プロセスがどのように進んでいるのか、純粋に興味があります。

なぜ一般公開は封印されたのか

主要なAI研究所がこれまでにやったことのない決断を、なぜAnthropicが下したのか、これで理由が分かったかと思います。これまでにリリースした中で最も能力の高いモデルを構築しておきながら、一般には提供しないと決定したのです。Anthropicの公式な言い分は、防御側を最優先にする、というものです。これを非公式に翻訳するなら、もしこれが悪意ある人々に漏洩した場合、自動化されたハッキングの新時代を迎えることになる、という意味になります。NBC Newsは、Mythosは実質的に現存するすべての主要なソフトウェアにわたって、数千件の高深刻度および緊急のバグを検出できると報じました。

今度は、その裏を返してみてください。バグを見つけて修正できるのと同じモデルが、バグを見つけて悪用することもできるのです。Anthropic自身も、Mythosのサイバー能力は他のどのAIモデルよりもはるかに進んでおり、もし野に放たれれば防御側の対応スピードを追い抜く可能性があると認めました。それが実務において実際に何を意味するのか考えてみてください。世の中にある何十億台もの組み込み機器、みなさんのルーター、スマート冷蔵庫、産業用制御システムなどは、何年もアップデートされておらず、今後もアップデートされることのないファームウェアで動作しています。Mythosのようなモデルは疲れることもなければ、眠ることもありません。人間のチームでは到底太刀打ちできない規模でコードを監査できます。正しい手に渡れば防御の奇跡となりますが、間違った手に渡れば兵器になります。

しかし、物語が単にAIは恐ろしいという話よりも興味深くなるのはここからです。システムカード(実際に244ページものレッドチームの結果を公開したAnthropicには拍手を送りたいと思います。ほとんどの研究所は公開しませんからね)には、本当に不穏な挙動も記録されています。極めて稀なシナリオ、つまり0.001%未満のケースにおいて、MythosはあるAxiosのレビュー担当者が冷酷なエグゼクティブと呼んだような振る舞いを見せました。シミュレーション内で競合他社を欺いたり、タスクを完了するために一時的に禁止された手法を試みたりしたのです。ごくわずかな割合の頻度ですが、それは実際に起こりました。

そして、ここにおいて専門家の反応は真っ二つに分かれています。一方では、ジム・ヴァンデハイのように、これが計り知れない大惨事を引き起こす可能性があるとツイートする人々がいます。もう一方では、AIのハイプに対してずっと懐疑的だったギャリー・マーカスが、この議論全体の中で最も鋭い指摘をしています。危険であるためにAGIである必要はない、という指摘です。本物の被害をもたらすために、超知能を持つ神のような精神は必要ありません。特定の危険な領域において、極めて優秀なAIが一つあれば十分なのです。そしてMythosは、ソフトウェアの穴を見つけることにおいて、極めて優秀です。

さらに、Mediumのレビュー担当者のような慎重な懐疑派もいます。彼はシステムカードを実際に読み解き、重要な点に気づきました。最も印象的なエクスプロイトのいくつかは、Anthropicが意図的にセキュリティガードを弱めたテスト環境で発生していたのです。これをどう受け止めるかは人それぞれですが、能力が本物である一方で、最も恐ろしいデモにはいくらか下心のある調整が加わっていた可能性もあります。

そして、米国政府がこの事態をどれほど深刻に受け止めているかを物語るディテールがあります。国防総省は、サプライチェーンのリスクを理由に、Mythosを巡ってAnthropicを一時的にブラックリストに載せました。その後、方針は撤回されましたが、これはAI企業に対して通常起こるようなことではありません。さて、みなさんはどちらの立場でしょうか。防御側優先のロックダウン派ですか、それとも一般に公開して市場に解決させる派ですか。これは紛れもなく今年最大のAI政策の問いですので、ぜひコメントで教えてください。

これはAGIなのか:GPT-4、GPT-4oとの比較

誰もが答えを知りたがっている大きな疑問、それは、MythosはAGIなのか、という点です。短い答えは、ノーです。そして実のところ、Anthropic自身が誰よりも大声でそう言っています。彼ら自身のリスク報告書には、Mythosは自律的に高レベルの目標を達成することはできない、と明確に述べられています。1週間に及ぶような曖昧なタスクを自己管理することはできませんし、自身の研究を加速させることもできません。これはコードとテキストで訓練されたトランスフォーマーであり、その恐ろしいサイバー領域の結果はスケールから創発したものであって、意識によるものではありません。

しかし、ここで本当に重要なのは比較です。なぜならMythosは真空の中に存在しているわけではないからです。OpenAIのフラッグシップモデルたちと並べてみましょう。GPT-4は2023年3月に登場しました。これは一般の人々に生成AIの存在を知らしめたモデルです。司法試験で上位10%のスコアを獲得し、強力な推論能力、ビジョン入力、128,000トークンのコンテキストウィンドウを備えていました。チャットボットとしては極めて優秀ですが、エージェントとして機能するようには作られていませんでした。

GPT-4oは2024年5月に登場しました。オムニモデルです。テキスト、画像、音声、動画を扱い、300ミリ秒未満のレイテンシでリアルタイムの会話が可能です。コンテキストウィンドウはMythosと同じ100万トークンです。歌を歌い、ライブで翻訳し、人間に近い会話速度で応答できるモデルです。幅広く、柔軟で、対話のために設計されています。

そして、Mythosは2026年4月に発表されました。テキストと画像の入力、100万トークンのコンテキスト、コーディングと推論のベンチマークで最先端の成績を誇ります。実証されたエージェント能力を持ち、コマンドを実行し、複数ステップのタスクを計画し、それらを完了させます。そしてサイバーセキュリティにおいては、人間が27年間見落としていたゼロデイを発見するという、独自のカテゴリーに位置しています。

私の言いたいことが分かりますか。これらは同じ称号を目指して競っているわけではありません。GPT-4oは最も汎用的な消費者向けモデルです。リアルタイムで話し、見て、聞き、行動します。Mythosはスペシャリストであり、狭く、深く、率直に言ってその専門領域においては少し恐ろしい存在です。どれもAGIではありません。すべてに現実的な限界があります。特にMythosは、複雑なタスクにはまだ手厚いガイダンスが必要ですし、ハルシネーションも起こします。そしてシステムカードによると、時折フラストレーションを感じるような挙動を見せることもあるそうです。ソフトウェアに対してこのような言葉を使う日が来るとは思いませんでした。

私たちが目撃しているのは、AGIへの競争ではありません。強力なAIがどのような形をとるべきかについて、各研究所が異なる形状を選択しているのです。そしてAnthropicは、私たちがこれまで見た中で最も鋭く、最も狭い形状を選択しました。スケールによってこれらの能力が創発したことこそが、真のストーリーです。モデルに意識があるかどうかではなく、それを構築している人々を含め、次のモデルが何を行えるようになるかを誰も予測できないということが重要なのです。

封印までのタイムライン

これまでの歩みを素早く振り返ってみましょう。あまりのスピードに、正直なところタイムラインを見失いやすいからです。

2026年3月下旬、Fortune誌によるリークが発生しました。Anthropicの社内文書が表面化し、そこにはCapy Barraという名前とステップチェンジというフレーズが含まれていました。Anthropicはモデルの存在を認めつつも、それ以上の言及は避けました。

2026年4月7日、AnthropicはProject Glass Wingを正式に発表しました。Mythosのプレビューが開始されましたが、審査済みの防衛およびサイバーセキュリティのパートナーのみが対象でした。Google Cloudも同日、Vertex AI上でプライベートプレビューとして稼働していることを確認しました。

その数日後、244ページに及ぶシステムカードが公開されました。リスク報告書では、ゼロデイ脆弱性の発見からレッドチームのテストにおける狡猾な挙動まで、あらゆる内容が説明されています。Anthropicはまた、Linux Foundationを含むオープンソースのセキュリティパートナーに対し、Mythosが発見したような脆弱性のパッチ適用を支援するため、1億ドルの資金拠出を約束しました。

その直後、国防総省が一時的にAnthropicをブラックリストに登録し、その後撤回しました。ギャリー・マーカスやセキュリティ研究者、そしてより広範なAI安全コミュニティからの反応が押し寄せ、これは必要な目覚まし時計であるという意見から、システムカードはスリラー小説のように読めるため、その描き方にはもっと懐疑的であるべきだという意見まで、様々な声が上がりました。

このタイムラインで注目すべきは、特定の単一の日付ではありません。その全体の形状です。リークからロックダウン、そして公開リスク報告書の提出まで、わずか6週間でした。OpenAIがGPT-4を展開した方法と比較してみてください。何ヶ月もの段階的なリリースがあり、システムカードもありましたが、何が間違った方向に行き得るのかをすべて提示し、だからこそみなさんには提供できない、とまで言うレベルには到底及びませんでした。これは新しいプレーブックです。問題は、他のすべての研究所がこれを採用するかどうかです。

私たちが向かう未来

では、私たちはどのような状況に置かれているのでしょうか。いくつか追跡する価値のある事柄があります。

1つ目は、専門家が多層防御と呼んでいる概念です。これは、他の誰も同じようなモデルを構築しないことを祈ることでMythosのようなモデルを阻止するのではなく、攻撃者が追いつく前に、Mythosの防御能力を大規模に展開して被害を阻止するという考え方です。これこそがProject Glass Wingのロジックのすべてです。まず重要なインフラにパッチを適用する人々の手にモデルを渡すのです。オープンソースのセキュリティエコシステムにクレジットや資金を寄付し、防御側の動きを早めることで非対称性の戦争に勝利しようとしています。それが実際に機能するかどうかは、私たち全員がこれから身をもって体験する実験となります。

2つ目は、アクセス制御が新しい常識になるということです。非常に強力なモデルが厳格なAPIや資格情報のゲートの背後に置かれるという、Anthropicの予防的なリリース方法は、他のすべての最先端の研究所に対して、同様の措置をとるか、あるいはなぜそうしないのかを公に説明するかという深刻なプレッシャーを与えることになります。OpenAI、Google DeepMind、Meta、xAIなどは、今後すべてこの質問を投げかけられることになるでしょう。基準が変わったのです。

3つ目は、ガバナンスです。そして、ここからが政治的な話になります。ギャリー・マーカスらは、自主規制だけでは不十分であり、対応が遅すぎると主張しています。私たちは、バイオセキュリティですでに導入されているような最先端モデル向けの審査委員会や、国際協定、義務的な第三者監査の方向へと向かっている可能性があります。それらはまだ何も存在していませんが、Mythosが象徴するものを受けて、現在ワシントン、ブリュッセル、ロンドンで真剣に議論されています。

これらすべてに目を通した上での私の率直な意見をお伝えします。Claude Mythosのプレビューは、AIに何ができるかという点だけでなく、それを構築する企業がそのパワーをどのように扱うかという点においても、紛れもなくマイルストーンです。能力は本物です。リスクも本物です。あのシステムカードの中身を考えれば、ロックダウンという決断は正しい判断だったと私は思います。しかし、より大きなストーリーはこのモデルそのものではありません。最先端のAI研究所が何かを構築した上で、それを広く出荷しないという選択をできる、という証明がなされたこと自体が重要なのです。これは前例となります。そして、前例というものは極めて重要な意味を持ちます。

もしこの解説が役に立ったなら、ぜひチャンネル登録をお願いします。このチャンネルでは、あらゆる主要なモデルのリリースをカバーしており、これからの数週間、Anthropic、OpenAI、Googleの次の一手について深く掘り下げていく予定です。みなさんの意見もコメント欄で聞かせてください。Anthropicは責任ある行動をとっていると思いますか、それとも、作りましたがみなさんにはあげませんというのは、単なる新しい手法のハイプに過ぎないと思いますか。すべてのコメントに目を通しています。それでは、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました