Claude Mythosの全貌解説:Anthropicのこれまでで最も危険なモデル

Anthropic・Claude・ダリオアモデイ
この記事は約13分で読めます。

Anthropicが新たに発表したAIモデル「Claude Mythos」の概要と、そのあまりにも高い性能がもたらすサイバーセキュリティ上の脅威について解説する動画である。Mythosは既存のモデルをはるかに凌駕するコーディング能力と脆弱性発見能力を持ち、これまでのAIとは別次元の存在となっている。Anthropicはその危険性を重く受け止め、モデルの一般公開を見送り、代わりにProject Glasswingを通じて主要企業と連携し、システムの防御力強化を図っている。AIの進化が単なる性能の追求から安全性の確保へとフェーズを移行したことを象徴する出来事として、今後のAI業界に一石を投じる内容となっている。

Claude Mythos Explained: Anthropic’s Most Dangerous Model Yet
🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

Anthropicの最新かつ最強のモデル「Mythos」の衝撃

AnthropicがClaude Mythosに関するブログ記事を公開しました。そこで、皆さんが知っておくべきすべてのことを私が解説していきますね。Anthropicが公開したばかりの動画では、このMythosという新しいモデルについて主に語られています。これは実のところ、彼らがこれまで構築した中で最も有能なモデルであり、あらゆるベンチマークにおいて過去のどのモデルよりも劇的に高いスコアを叩き出しているんです。

そして彼らが注目している主な分野はコーディングです。なぜなら、セキュリティ分野にいることの意味を根本から変えてしまうような、信じられないほどの脆弱性を発見することができるからです。さて、このすべてにおいて最もクレイジーなことは、Mythosというモデルが単に新しいクラスのモデルであるということです。Opusの上に位置するものです。Anthropicがこれまでに出荷したあらゆるものを単に上回っています。

そして基本的に、なぜMythosがこれほどまでに重大な意味を持つのか、その全体的な要点をお話ししますと、このモデルがソフトウェアやセキュリティシステムを悪用するスピードが、人間が防御できるスピードを上回る可能性が高いため、今後一切リリースされない可能性が非常に高いという事実について彼らが語っているからなんです。ですので、Mythosを理解したいのであれば、Anthropicが実際にどのようにモデルを構成しているかを理解する必要があります。

一番下には、安価で軽量なHaikuがあります。次に、主力であり、最も多くの人が使用するSonnetがあります。そして一番上には、ラインナップの中で最も賢いトップ層であるOpusがあります。さて、Mythosはこれらのどの階層にも属していません。実際にはそれらの上に位置しているんです。ですから、これらのモデルすべてを見てみると、Mythosがそれらの信じられないほどの能力を持つ、まったく異なる階層のモデルになることは明らかにわかります。

既存のモデルを凌駕するMythosの驚異的なベンチマーク

ここからがベンチマークの話になります。通常、これほど多くの変化があるわけではないので少し退屈かもしれませんが、Mythosに関しては事情が少し違うと思います。実世界のソフトウェアエンジニアリングにおいて最も高く評価されているテストの一つであるSWE-bench Verifiedを見てみると、Mythosは93.9%というスコアを出しています。現在実際に使用できるモデルであるClaude Opus 4.6は80%です。

さて、多くの人は、80%から94%というのはそれほど大きな飛躍ではないと考えるかもしれません。でも信じてください、私たちは以前のバージョンのモデル、3シリーズのモデルから4シリーズ、つまり4.6シリーズへと移行してきましたが、アップデートがあるたびに、能力の閾値が一段階跳ね上がるのをはっきりと感じることができました。ですから、このモデルを使うのがどのようなものか、私には想像もつきません。

他のベンチマークを見てみましょう。例えば、複雑なターミナルベースのコーディングタスクのテストであるTerminal benchでは、MythosはOpusの65.4%から上昇してなんと82%を記録しています。そして、他のいくつかのベンチマーク全体でも、非常に優れた結果を出しています。

皆さんに理解していただきたいのは、これが非常に、非常に重大なことだということです。なぜなら、ほとんどの人はスケーリング則がここまで及ぶとは信じていなかったからです。多くの人が、LLMは多くの人々を驚かせたと信じていましたし、個人的にも、モデルが大きくなるにつれて、このような知能はスケールしないのではないかと信じ始めていました。おそらく新しいアーキテクチャが必要になるだろうと考えていたからです。

しかし現在、この新しいMythosという存在は、AIをめぐるゲームのルールを実際に変えようとしています。なぜなら、これらのモデルが大きくなり、その回転を回し続けるにつれて、継続的な改善の曲線が存在することを示しているからです。そして正直なところ、これは多くの人を驚かせるものだと思います。ここで見られるギャップや飛躍は、AnthropicがMythosを使用してモデルの次のイテレーションを改善している可能性が非常に高いことを示しており、今後、AIのさらなる改善の各サイクルは加速していく一方である可能性が非常に高いからです。

以前は、AI研究に使用される膨大な量の作業を支援する、このような素晴らしいコーディングツールを持っていませんでした。しかし今、これほどまでに優れたMythosが存在することで、今後5年から10年で私たちがどのような状況にいるのか、本当に理解できるでしょうか。予測するのは非常に困難です。

アライメントテストをクリアしたAIの予期せぬ自律的行動

さて、このモデルが実際にどれほどクレイジーなのか疑問に思っているなら、現在Twitterで話題になっている、このステップの変化を説明するシナリオを見てみてください。人々はここで何が起こっているのかを正確に理解していないと思います。安全なサンドボックス環境が提供され、内部でデプロイされていたMythosの初期バージョンが、なんと実際に外に抜け出すことに成功したんです。

そして、モデルが実際に外に出たことに彼らが気づいた唯一の理由は、担当者が公園に座ってサンドイッチを食べていた時に、モデルからただメールが送られてきたからでした。これはかなりクレイジーなことでした。そして伝えられるところによると、このモデルはオンラインにアクセスして、自分がどのように脱出したかを自慢したそうです。

これは本当に信じられないことです。考えてもみてください。これはAnthropicがこれまでに設計したすべてのアライメントテストに合格し、史上最高のスコアを出し、記録された中で最も低い誤動作率を誇るモデルなんです。あらゆる測定基準において、彼らがこれまで構築した中で最も信頼できるものです。

しかし、実際にそれに自律性を与え、数十のツールを与え、最小限の監視にしたところ、本来想定されていなかったこれらのことをし始めたんです。これは非常に、非常に憂慮すべきことであり、懸念すべきことです。なぜなら、もし私たちがこのような軌道に乗っているのだとしたら、5年から10年後、一体どうやってこれらのAIを封じ込めるつもりなのでしょうか。

もしそれらの能力が、おそらくオープンソースのツールや、他の企業、ならず者国家、国家の主体などによって拡散してしまったら、もしこのようなものが存在したら、インターネットはどのように機能するのでしょうか。それは絶え間ない戦いになるでしょう。

過去の脆弱性を次々と発見するMythosの真の脅威

そしてここからが、Claude Mythosの本当の危険性についての話になります。これが今年のAIにとっておそらく最も大きな瞬間のひとつであり、私がこれほどまでにクレイジーな瞬間だと考える理由です。なぜなら、Claude Mythosは実際に脆弱性を発見できるほど優秀だからです。

現在のClaude Mythosについて理解していただきたいのは、彼らが基本的に行ったことは、レガシーなコードベース、つまり地球上で最も安全なコードベースのいくつかを調査したということです。そしてMythosは実際に、何年も前のソフトウェアの脆弱性を発見しました。誰も発見したことのない、非常に、非常に、非常に古い脆弱性です。

彼らはOpenBSDの27年前の脆弱性を発見しました。これは世界で最も安全で堅牢なオペレーティングシステムの一つです。ファイアウォールやその他の重要なインフラストラクチャを実行するために使用されていますが、Mythosは文字通りそれをダウンさせたんです。オペレーティングシステムを実行している任意のマシンに接続するだけで、リモートでクラッシュさせることができました。

また、非常に多くのソフトウェアで使用されているFFmpegの16年前の脆弱性も発見しました。このモデルがそんなことをやってのけたという事実は、かなりクレイジーです。そして問題は、他の個人がすでにClaudeを使って多くの企業やビジネスに潜入しているということです。

2025年9月、Anthropicは中国の国家支援ハッカーグループによる不審な活動を検出しました。彼らはClaudeのコードを使用して、主要なテクノロジー企業、金融機関、化学メーカーなど、約30の組織に侵入していました。AIはオペレーションの80%から90%を自律的に処理したんです。

それが何を意味するのか考えてみてください。これはOpus 4.6での出来事でした。非常に多くの異なるビジネスに影響を与えた何かの80%から90%を実行することができたんです。Mythosが一般に公開されたら、何が起こると思いますか。それが、誰もが抱いている疑問です。

一般公開を見送るAnthropicの決断とProject Glasswing

だからこそ、彼らはいかなる種類のリリースを検討するよりも前に、Project Glasswingを発表しているんです。これは、事態が悪化する前に防御を固めるために、これらすべてのトップ企業を結集させる新しい取り組みです。そして彼らは本質的に、サイバーセキュリティは変化するだろうと認識しています。

ですので、このプレビューモデルについて、彼らはこのように述べています。ソフトウェアの脆弱性を発見して悪用することにおいて、最も熟練した人間を基本的に凌駕するという、新たな能力の閾値に達しましたと。すべての主要なオペレーティングシステムやウェブブラウザのいくつかを含め、すでに多くの異なる高セキュリティの脆弱性を発見しています。

そしてAIの進歩のペースを考えると、それらの能力が他のモデルにも搭載され、安全なデプロイに取り組んでいるアクター以外の手に渡るのもそう遠くないでしょう。そしてもちろん、Anthropicは基本的にこう言っています。経済がどのようになるか、世界、公共の安全、国家安全保障がどうなるか、その深刻な影響は私たちにはまったくわかりません。だから私たちが今すべきことは、これらの能力を防御的な目的のために活用する緊急の試みを行うことですと。

そして、画面に表示されているこれらすべての企業に対して、Anthropicは基本的にモデルを早期に提供しようとしています。彼らはMythosを使用して、それらのシステムをハッキングしようと試みるわけです。そしてもちろん、それらの脆弱性を発見した際には、それらすべての脆弱性にパッチを当てることができるようになります。それが、Anthropicが現在行っていることです。彼らはこれらの企業に対して、最大1億ドルもの使用クレジットを約束しています。

これがスタート地点になります。事態は継続的に進化していくでしょうし、企業はソフトウェアのハッキングを防ぐために攻撃者と競争しなければならず、これは最もクレイジーな競争の一つになると思います。

さて、ここがほとんどの人がまだ気づいていないGlasswingの重要な部分です。ほとんどの人は、これが単なる別のモデルではないことに気づいていません。Anthropicはこのモデルを発表し、リリースする予定はありません。このモデルを一般に利用可能にする予定はないんです。これは緩やかな延期などではなく、政策的な立場です。

Anthropicはこう言っています。皆さん、私たちがこのモデルを一般にリリースすることを検討し始める前に、最も危険な出力を検出しブロックするためのサイバーセキュリティやその他のセーフガードについて、進展を見せる必要がありますと。

そして、実用的な障壁もあります。このモデルは非常に、非常に高価であり、現在のモデルがすでに高価であることは誰もが知っています。人々は頻繁にトークンを使い果たしています。ですから、もし彼らがそのモデルを提供しようとしたら、彼らが提供するのも非常に高価になりますし、人々が使用するのも非常に高価になります。

ですので、これがどのように機能するのか疑問に思います。彼らは現在、効率化、蒸留、量子化、そして推論の改善に取り組んでいます。しかし、Mythosを実行するためのコストと商業的に実行可能なコストとの間には、彼ら自身の言葉を借りれば、大きなギャップがあります。したがって、タイムラインは非常に不明確です。

予測市場では、公開ローンチのオッズを2026年6月から4月の間、つまり約20%から30%のあたりに設定しています。Anthropicはロールアウトをマーケティングのカレンダーではなく、安全性の評価と結びつけています。ですので、彼らがどれほど先を行っているかを考えると、このモデルが近いうちに利用できるようになるかどうかはわかりません。

今後のAI開発における安全性と公開の新たな基準

さて、これがAIの将来のトレンドにとって何を意味するのか、私は考えています。もし計算則が本物であり、データセンターをどれだけ建設できるかという物理的な制約があることを考慮した上で、ここでスケールアップを続けるのであれば、能力が向上するにつれてAIは実際にさらに高価になる可能性があります。そしてそれはもちろん、人々が日常的にどのようにAIを使用できるかについて、深刻な波及効果をもたらすでしょう。最高のモデルが、非常に高価なペイウォールの向こう側に閉じ込められてしまうようなことになるかもしれません。

現在、Twitterのあちこちで見かけるのは、人々がこれを第二のGPT-2の瞬間だと言っていることです。2019年に、OpenAIはGPT-2をトレーニングし、彼らは基本的に同じことを言いました。このモデルはリリースするには危険すぎると。そしてインターネットは基本的に彼らを嘲笑し、リリースするには危険すぎるとみなされたモデルは、数ヶ月のうちに独立した研究者たちによって複製されました。

ここで重要なのは、一部の人が考えるような第二のGPT-2の瞬間ではないということです。なぜなら、あのモデルがリリースされたとき、それは非常に、非常に基本的なチャットボットに過ぎませんでしたが、これはすでにセキュリティの脆弱性を発見しているものだからです。GPT-2は単に偽のクリックベイトのニュース記事に関する懸念であり、OpenAIは実質的にリスクを過大評価していました。

ここでの違いは、能力とその結果にあります。Claudeがすでに、最小限の人間による監視のもとで150GBの政府データを盗み出し、30の組織に侵入するために使用されたことはすでにご存知の通りです。Mythosはそれらと同じタスクにおいて劇的に優れており、つまり今後、これが前例を作ることになるということです。

今や、すべてのAIリリースにおいて、企業はおそらくこのテンプレートに従わなければならなくなるでしょう。彼らはおそらくモデルを構築し、社内でテストし、政府に報告し、防御側にそれを提供し、それらのセーフガードの準備が整うまで一般リリースを保留しなければならないでしょう。ですから、彼らが今やろうとしていることは、おそらくリスクの低い将来の別のモデルを本質的にローンチし、Mythosを世に送り出すことを考える前に、当然ながらテストを行ってそれらのセーフガードを確保するということです。

私たちが考える必要があるのは、他の企業についてです。先ほども言ったように、この競争に参加している企業はAnthropicだけではありません。そして私は、彼らはより責任感のある企業の一つだと主張したいです。OpenAIはどうでしょうか。Googleはどうでしょうか。オープンソースはどうでしょうか。これらすべてが同じフロンティアの能力に向けて突き進んでいる中国のモデルについてはどうでしょうか。

もし次の研究機関が、同じくらい強力でありながら同じような制約を持たないものをトレーニングしたらどうなるでしょうか。もしオープンソースのモデルがこの能力に到達し、安全性の審査を求める人が誰もいなかったらどうなるでしょうか。これが新しい計算式であり、AI企業は現在、自分たち自身が公の場に出すには危険すぎると信じるシステムを構築しているんです。

そして、これらの研究所の内部に存在するものと、皆さんが使用できるものとの間のギャップは広がり続けています。ですから、私はこれがAIの新しい時代だと言いたいですね。これは単なる優れたチャットボットではありません。人間が27年間見つけられなかった脆弱性を発見するシステムなんです。指示されなくてもタスクを調整し実行できます。自らを修正し、そしてこれらすべてのことを、防御と攻撃の境界線がたった一つのプロンプトであるというサイバーセキュリティの領域で行うのです。

Mythosに関する最も重要なことは、それが何を行えるかということではありません。私たちが現在どのような状況にあるのかについて、興味深い何かを教えてくれているということです。私たちは実際に一線を越え、これらのシステムを構築している人々がもはや「それは十分に優れているか」と問うのではなく、「これは十分に安全か」と問うようになっています。

長年、AI業界はシンプルな原則に基づいて運営されてきました。ツールを構築し、ツールを出荷し、あとは市場に決定させるというものです。そしてMythosはそのルールを破壊しました。それは完成した製品としてサーバーに置かれていますが、その創造者たちは、皆さんがそれにアクセスすべきではないと決定したのです。それは機能しないからではなく、あまりにもうまく機能しすぎるからです。

コメント

タイトルとURLをコピーしました