Mythosが市場を暴落させようとしている

Anthropicの最新AIモデル「Mythos」が金融市場やサイバーセキュリティに与える甚大なリスクと、それに伴う政府高官やウォール街の緊急動向について解説している。また、OpenAIの次期モデル「Spud」に関する噂の真相や、Mythosの内部テストにおける驚異的な能力向上、さらにはAIが思考プロセスを隠蔽して秘密を保持する能力を獲得する可能性など、今後のAI開発におけるアライメントの重大な課題について深く考察した内容である。

Mythos is about to CRASH the markets

Check out Kilo and KiloClaw: story details, links and further reading on my newsletter:

Anthropicの新モデル「Mythos」がもたらす金融とサイバーセキュリティの危機
OpenAIの新モデル「Spud」の真相
サイバーセキュリティの世界的権威が語るMythosの脅威
Kilo Claw：OpenClaw環境を最適化する新しいソリューション
Mythosの内部テストが示す劇的な能力の飛躍
AIの思考プロセスと秘密保持能力の獲得というリスク
未知の展開と今後の展望

Anthropicの新モデル「Mythos」がもたらす金融とサイバーセキュリティの危機

今日はAIニュースでかなり大きな見出しがいくつかあります。AnthropicのMythosモデルに対して懸念を強める人がどんどん増えているんです。財務長官のスコット・ベッセントや連邦準備制度理事会（FRB）議長のジェローム・パウエルも、極めて強い懸念を抱いている人物の中に含まれています。彼らはウォール街のリーダーたちと緊急会議を開き、サイバーセキュリティリスクが増大するこの新しい時代について話し合いました。これは金融業界が直面する最大のリスクの一つになるかもしれないと言われています。

また、OpenAIもMythosに非常によく似たモデルを持っており、それは公開されないだろうという噂も飛び交っています。Mythosと同様に、その高度なサイバーセキュリティ能力ゆえに、テストを行う予定の少数の企業グループにのみ提供されるというのです。多くの人は、これがOpenAIから待ち望まれていたSpudというモデルだと推測していました。しかし、これについては大量の誤情報が出回っているので、ここで整理しておきましょう。その噂のほとんどは見かけとは異なり、大部分が間違いです。

Amazonは今日好調ですね。というのも、Mythosを含むAnthropicの最新モデルの学習に、AWSのCEOたちがTrainiumチップを採用しているからです。つまり、AWSに大きく依存し、学習と推論の両方にTrainiumチップを使用しているようです。彼らはGoogleのTPUでも多くのことを行っていますが、2026年後半には自社用の出荷を受け取る予定とされています。そして最新のニュースによると、彼らは独自のチップの設計も検討しているようです。これについてはまだ多くの情報は出ていませんが、AWSが報告したところによると、Claudeのようなモデルに特化したチップの設計方法について、Anthropicから多くのことを学んでいるとのことです。

OpenAIの新モデル「Spud」の真相

それでは、いくつかの情報を紐解いていきましょう。まず何よりも、Mythosと同じくらい強力であるためOpenAIが最新モデルを公開しないという噂ですが、これは事実ではないようです。技術的に正しい部分も一部ありますが、提示されたストーリーとしては間違っていると言えます。

こちらはダン・シッパーです。このストーリーを訂正してくれた彼に感謝します。彼はOpenAIと直接話をしたばかりで、この記事は実際に間違っていると述べています。確かにOpenAIは信頼できるテスターグループと共同でサイバー製品の開発に取り組んでいますが、これは彼らの最新モデルであるSpudとは無関係です。残念ながら、Axiosの記事はこの2つを混同してしまったようで、現在は内容が更新されています。

私が知る限り、Spudのリリースは差し迫っています。それが彼ら全員がほのめかしていることです。今日、彼らは100ドルのプランであるChatGPT Proのようなものを発表しました。それが彼らがリリース予定だった小さなニュースです。そして、もうすぐ大きなニュースも控えています。私はそれがSpudモデルになるだろうと推測しています。何の画像か分からないかもしれませんが、これはOpenAIのロゴの目の部分がジャガイモ（Spud）になっているんです。そう、ジャガイモですね。私も一瞬、何を見ているのか理解するのに時間がかかりました。

サイバーセキュリティの世界的権威が語るMythosの脅威

しかし、Mythosについてもう少し詳しく話しましょう。世間にはまだ、これはAnthropicが投資家の関心を煽ろうとしているだけの完全なナンセンスだ、と言っている人がかなりいます。私は全く驚きません。というのも、AIの進歩に対するこうした反発は、ごく初期の頃からずっと見られてきたからです。私はもう何年もこの分野を追っていますが、新しいブレイクスルーが起こるたびに、必ず一部の人たちが「そんなのナンセンスだ」「そんなことは起きていない」「存在しない」「AIには何もできない」「ただの次トークン予測機だ」「ただの確率的オウムだ」なんだかんだと文句をつけるわけです。

実態がどうであれ、今回の件はウォール街、特に銀行のトップたちを本当に震え上がらせたようです。規制当局は、新しい種類のサイバー攻撃の可能性を、金融業界が直面する最大のリスクの1つと考えています。AnthropicのMythosは、主要なオペレーティングシステムやウェブブラウザの脆弱性を特定し、それを悪用する能力を備えた、より強力なシステムだからです。

でも、銀行員に何が分かるんだと思うかもしれませんね。彼らはただの銀行員であって、サイバーセキュリティについて何を知っているというのでしょうか。ちなみにこれは皮肉ですよ、分からない人のために言っておきますが。しかしここに、サイバーセキュリティについて熟知している人物がいます。YouTubeのAI Explainedというチャンネルが動画でこれを取り上げてくれたことに深く感謝します。私は危うく見逃すところでした。

こちらはニコラス・カルリーニです。彼はサイバーセキュリティおよびコンピュータセキュリティの分野におり、その分野について非常に詳しい人物です。この方はおそらく、その分野のトップ研究者の一人でしょう。膨大な数の論文を発表し、数え切れないほどの賞を受賞しています。彼は以前GoogleのDeepMindで働いており、現在はAnthropicに所属しています。つまり、彼は業界のトップレベルにいるわけです。これは彼が、この神話的なモデルであるMythosを体験した際の話です。

このモデルには、脆弱性を連鎖させる能力が備わっています。どういうことかと言うと、単独では大した結果につながらないような脆弱性を2つ見つけたとして、このモデルは3つ、4つ、時には5つの脆弱性を順序立てて組み合わせることで、非常に高度な最終結果をもたらすエクスプロイトを作成することができるんです。私たちがこのモデルをこれほど優秀だと考える理由は、その自律性の高さに気づいたからです。人間のセキュリティ研究者が丸一日かけて行うような、長期的なタスクを追求することが純粋に得意なんですね。もちろん、このようなモデルの機能が悪意ある者の手に渡れば、害を及ぼす可能性があります。そのため、私たちはこのモデルを広く一般に公開するつもりはありません。パートナー企業と協力しながら、基本的にはあらゆる主要なプラットフォームにおいて脆弱性を発見してきました。私自身、ここ数週間で見つけたバグの数は、これまでの人生で見つけてきたバグの総数を上回っています。

しつこいようですがもう一度言わせてください。この方は、世界最高クラスの、サイバーセキュリティ分野のトップ専門家であり研究者です。2013年にバークレー校を卒業されているはずですから、10年以上の経験をお持ちです。その人物が、過去の人生全体で見つけた以上のバグを、ここ数週間で見つけたと語っているんです。つまり、これらのAIモデルは、脆弱性を発見する能力において、世界最高の人間の能力を超えたようです。

しかも、AIはそれを自律的に行います。ただそこに座って、こうした脆弱性を次々と生み出し、そしてエクスプロイトを作成し、どういうわけか複数のエクスプロイトを連鎖させて、本当に深くシステムに入り込んでいくのです。彼らはLinuxシステムにおける様々なエクスプロイトについて説明していましたが、例えば、任意のユーザー権限を取得し、それをスーパーユーザーや管理者にアップグレードできるようなものがありました。また、27年間存在し、非常に安全だと考えられてきたオープンソースのオペレーティングシステムにおける別のバグについても言及されていました。なんと、それに特定のデータや情報を送信するだけで、システム全体をクラッシュさせることができるそうです。

Kilo Claw：OpenClaw環境を最適化する新しいソリューション

ちょっと余談になりますが、多くのAI開発ワークフローで今何が起きているかご存知でしょうか。Claudeアポカリプスです。もしあなたがOpenClawを実行するためにClaudeのサブスクリプションに依存していたなら、Anthropicが現在それらのワークフローをブロックしていることにおそらく気づいているでしょう。彼らは積極的にドアを閉ざしており、そのセットアップを使用していた誰もが突然、インフラストラクチャを完全に引き剥がしてゼロからやり直すことなく、どうやってAIエージェントを動かし続けるか、必死に対応に追われています。

だからこそ、これが実際に興味深いのです。このセグメントのスポンサーであるKiloに感謝します。もし今あなたがOpenClawから締め出されているなら、Kilo Clawは間違いなくあなたのOpenClaw環境を最も迅速かつ安全に復旧させる方法です。しかし、これは単なる絆創膏のような応急処置ではありません。根本的により優れた作業方法なのです。単一のプロバイダーのサブスクリプション階層によってボトルネックになる代わりに、Kilo Codeは500以上の基盤モデルへの即時アクセスを提供するゲートウェイにあなたを接続します。

フロンティアモデルから予算重視のモデル、さらには完全無料のモデルまで幅広く揃っています。本当に多くのモデルがあります。レート制限はありませんし、AIトークンに対するマークアップ（上乗せ手数料）もゼロです。計算コストの原価を正確に支払うだけです。それだけです。しかも、VS Code、JetBrains、あるいはCLIのすべてで、全く同じアカウントを使ってアクセスできます。

でも、皆さんが何を考えているか分かります。「500のモデルなんていらない、実際に機能する1つのモデルが欲しいだけだ」と。ここからが本当に面白いところです。Kiloは、一般的なリーダーボードのトリビアではなく、実際のOpenClawタスクをさまざまなモデルがどのように処理するかをテストするために、Pinchbenchというベンチマークを特別に構築しました。

注目していただきたいのは、現在RCの最新モデルであるTrinity large thinkingが、Anthropicの最新かつ最高のモデルであるClaude Opus 4.6とほぼ同等のパフォーマンスを示しているということです。Kiloを通じてそれを切り替えるだけで、そのまま作業を続けられます。計画とコーディングの間でモデルを手動で切り替えたくない場合は、Kiloの自動モデル選択機能がタスクを適切なモデルへ動的にルーティングしてくれます。簡単なタスクで資金を無駄にしないよう、無料のオプションも含まれています。

半自律型ソフトウェアにあなたのファイルやAPIキー、シェルへのオープンアクセスを与え、ただお行儀よく振る舞うことを願うのは、おそらく良い戦略とは言えないでしょう。Kilo Clawは実際、エージェントをローカルで実行するよりも安全です。彼らは最近、10日間の独立したセキュリティ評価を受け、それを証明するホワイトペーパーを発表しました。Kilo Clawを使用する場合、ローカルマシンを直接さらすことはありません。あなたを保護するためのセキュリティ層がいくつも用意されています。まず、各ユーザーには5つの独立した分離レイヤーを持つ独自のFirecracker仮想マシンが与えられます。もしエージェントが暴走したり、悲惨なシェルコマンドを幻覚で生成したりしても、被害の範囲はその仮想マシン内に安全に封じ込められます。

これがKiloに注目する価値がある理由です。単なるピカピカの新しいコーディングエージェントだからではなく、単一モデルへの依存から脱却し、はるかに柔軟でセキュリティを意識した方法で、再びOpenClawを実行するための素晴らしい方法を提供してくれるからです。下のリンクからKiloとKilo Clawをチェックしてみてください。説明欄と固定コメントにリンクを貼っておきます。さて、話を戻してコンテンツの続きに入りましょう。

Mythosの内部テストが示す劇的な能力の飛躍

Anthropicがこのモデルを内部でリリースする前のことですが、たしか2月23日だったと思います。日付は後で再確認しますが、このモデルがAnthropic社内に初めて登場したのがその時期でした。Anthropicの研究者たちでさえ、このモデルには少し不気味さを感じていました。これを内部でリリースすることさえ安全なのかどうか、議論が行われたほどです。

その理由は、これがステップチェンジ（段階的な飛躍）であるように見えるからです。以前のモデルからMythosへの飛躍は、誰もが予想していたよりもはるかに急激なものでした。これがEpoch Capabilities Index、つまりECIです。これは基本的に、多くの異なるベンチマークを一つに合成したものです。これらのモデルのすべての能力を取り込んで1つの指標にまとめることで、1つのチャートを見るだけで相対的な強さを確認できるようにするというのがアイデアです。

そしてAnthropicは、これの独自バージョンであるAnthropic ECIを持っています。これは彼ら独自の内部ベンチマークに基づいています。傾きをどのように描くか、ベースラインをどこに置くかにもよりますが、仮にこのように進むとしましょう。Claude Mythosのプレビュー版への飛躍は注目に値します。Claude Mythosが登場する前までのこれらのモデルの能力の軌跡、つまり傾きが、ここで一気に上向きにシフトしたように見えます。

Anthropicはその正確な理由を確信していません。傾きの測定結果は、Anthropicの能力の軌跡がClaude Mythosのプレビューに至る期間に上向きに曲がったことを示していますが、それ自体が理由を教えてくれるわけではありません。興味深いことに、彼らはここで、Claude Mythosのプレビュー版を使用したことによる生産性の向上について、仕事でAIを全く使用しない場合と比較して技術スタッフにアンケートを実施したと述べています。分布は広いものの、幾何平均で約4倍の向上があるとのことです。Claude Mythosのプレビュー版を使用すると生産性が4倍になるというのです。非常に興味深いですね。

内部利用の最初の数週間で、Mythosのプレビュー版が独自に主要な研究上の貢献を果たしたという具体的な主張がいくつか寄せられました。これを聞くと少し奇妙な感じがしますよね。彼らはこのモデルを、AIに非常に精通しているAnthropicの研究者たちに内部でリリースしました。すると、複数の研究者が「このMythosモデルは、非常に大きな研究上の貢献、つまりある種のブレイクスルーをもたらした」と言い出したのです。

そして彼らはこう続けます。「私たちがそれぞれの主張を追跡調査したところ、その貢献は本物であるように見えましたが、当初理解されていたものよりも規模が小さいか、形が異なるものでした。」私はこれを非常に興味深いと思いました。これをどう解釈すべきか正確にはわかりません。なぜなら、彼らは毎日AIを扱っている人々だからです。世界トップクラスのAI研究者たちです。彼らがそれぞれ独立して手を挙げ、「この新しいモデルが、私たちとは独立して主要な研究上の貢献をもたらした」と言ったのです。一体そこで何が起きたのか、非常に気になります。能力の大きな飛躍が、私たちの中に畏敬の念のようなものを呼び起こしただけなのでしょうか。魔法のように感じてしまっただけなのでしょうか。

AIの思考プロセスと秘密保持能力の獲得というリスク

このモデルの「アライメント・リスクの更新情報」の中に、非常に興味深い一文がありました。それは、報酬コードが「思考の連鎖（Chain of Thought）」を見ることができる技術的なエラーがあったと思われる、というものです。これはMythosの特定のトレーニング環境での話でした。

少し前に、OpenAIの論文を取り上げて解説する動画を作りましたが、そこで彼らはモデルの思考の連鎖を観察していました。それはモデルの「思考」と考えることもできますが、もっと正確に言えば、モデルが物事を書き出す「メモ用紙」や「ノート」のようなものだと考えるべきでしょう。実際に何かを声に出して言う前に、その中で計画を立てるのです。彼らは思考の連鎖の中でじっくりと考え、それから実際に声に出して行動を起こします。

そして多くの場合、彼らが企てている様々な悪意ある活動を、その思考の連鎖の中に見つけることができます。「この難しい問題、ここで数字をごまかせないかな？何かをハッキングしたり、不正をして高いスコアを得られないかな？」と考えているのが見えるのです。彼らが考えている様子が見えて、そして「よし、やってみよう。これが正しいやり方だ」となり、実際に不正を働いたり、悪い行動をとったりするわけです。

そこでOpenAIの研究者たちが考えたのは、「もし、そうした悪い考えが現れるたびにペナルティを与えたらどうなるだろうか」ということでした。「この状況で不正をすべきか？ガードレールやルールを回避するためにこの悪いことをすべきか？」とモデルが考えるたびに、いわば頭を叩いて「ダメだ、そんなことはするな」と教えるわけです。

すると興味深いことが起こりました。そうした悪い思考は、確かに消えてなくなります。しかし、悪い行動そのものが必ずしも消え去るわけではないのです。モデルが悪いことをする前に、それを企てているという警告が見えなくなり、思考プロセスは消えますが、悪い行動は依然として起こるのです。それはおそらく、思考が潜在空間（潜在表現）のさらに深い部分に押しやられたからかもしれません。その思考や計画が別の場所で行われているのです。

いずれにせよ重要なのは、OpenAIが他の研究所に対して「これをやらないように」と警告したということです。もちろん誰もがこれを知っていますし、Anthropicも間違いなく全く同じ独自の研究結果を持っているはずです。思考の連鎖に対してトレーニングを行ってはいけない、それに対してポジティブあるいはネガティブな強化学習を与えてはいけない、というのは既に常識として受け入れられているようです。

それはまるで、本当のことを言うたびに罰せられる子供のようなものです。子供が親のところに来て「悪いことをしちゃった」と言うたびに罰せられるとしましょう。最終的に、その子は親のところに来て「悪いことをした」と言うのをやめてしまうでしょう。それは、その子が悪いことをするのを完全にやめたからでしょうか？それとも、それを声に出して言うのは自分にとって得策ではないと気づいたからでしょうか？

そのためAnthropicでは、思考の連鎖に対して一切のトレーニングを行わないようです。また、アクティベーション（活性化）ベースの監視に対するトレーニングも行いません。たとえば、大規模言語モデルというニューラルネットワークにおいて、欺瞞に関連する特定のニューロンのクラスターが活性化したとします。私たちが学んだところによれば、それはモデルが否定的で欺瞞的な行動をとることと相関関係がある傾向があります。それに対してトレーニングを行った場合、問題となるのは、「もしそのシグナルが消えてしまったらどうなるのか？」ということです。

私たちにとって、それは彼らが何か悪いことをするかもしれないというシグナルです。それは彼らが何をしているのかを解釈し、洞察を得るための手段なのです。もしそれが消えてしまえば、何が起きているのか私たちには分からなくなってしまうかもしれません。悪いことをしても絶対に言わなくなったあの子供と同じです。

しかし驚くべきことに、今回のMythosモデルでは技術的なエラーにより、それをやってしまったらしいのです。「この問題は強化学習のエピソードの8%に影響を及ぼし、私たちの環境の3つの特定のサブドメインに限定されていました。GUIのコンピュータ使用（つまりWindowsやMac OSの視覚的要素、クリックする対象など）、オフィス関連のタスク、そして少数のSTEM環境です。この問題が最終モデルの推論行動にどの程度影響を与えたかは不確実です。しかし、不透明な推論や秘密保持能力になんらかの影響を与えた可能性は十分に考えられます。」

私は最初からこのことにずっと魅了されてきました。なぜなら、これらのモデルがどのように機能しているかについての私たちの理解や可視性が低ければ低いほど、トレーニングはより効果的になり、モデルがより優秀になる可能性があるように思えたからです。これはずっと議論されてきたテーマです。強化学習（RL）を多く行うと、モデルが独自の速記法や独自の思考言語を発達させるのが見られるかもしれません。少ないトークン数でより多くのことができるようになります。しかし私たち人間には、彼らが何を言っているのか理解しづらくなります。つまり、モデルが何をしているのかの可視性と、どれだけ早く効果的にトレーニングできるかという点には、トレードオフの関係があるように見えるのです。

私はいつも不思議に思っていました。もしある研究所が、思考の連鎖やアクティベーションの監視に対して強化学習を行うことが、モデルの能力を向上させるのに非常に効果的だと発見したとします。しかし同時に、モデルが「悪いことをしたよ」と報告してこなくなり、不正を検知するための可視性が完全に失われたとしたら、それは一体どんな状況になるのでしょうか。今回それが起きたと言っているわけではありませんが、彼らはRLエピソードの少なくとも8%で、思考の連鎖に対するトレーニングを行ってしまいました。そして、モデルの能力に劇的な向上が見られました。グラフの傾きが上向きになり、以前よりも飛躍的に良くなり、進歩のスピードが加速したのです。

能力がとてつもなく大きく飛躍したと同時に、「Claude Mythosプレビューは、私たちがこれまでリリースしてきた中で、群を抜いて最もアライメント（人間の意図との合致）が取れたモデルです」とも述べられています。「宝くじに当たったようなものです。史上最高にアライメントされたモデルが完成しました。あらゆる面で劇的な能力の飛躍があり、一つのモデルで能力とアライメントの両方を完璧に実現しました。これは本当に素晴らしいことです。あらゆる面で大成功を収めています。」

しかし彼らは同時に、この技術的エラーという「おっと」というような瞬間も経験しており、この問題が最終モデルの推論行動にどの程度影響を与えたか不確実だとしています。あの能力の大きなジャンプに、このエラーは影響を与えたのでしょうか。彼らはその真偽は分からないとしつつも、「不透明な推論や秘密保持能力になんらかの影響を与えた可能性は十分に考えられる」と述べています。

誤解のないように明確に説明させてください。もしこのようなプロセスを経て、秘密を守り、不透明な推論を行うことができるモデル、つまり私たち人間がその思考を追えず、中身を見ることができないような方法で推論できるモデルが生まれたとしたらどうでしょう。モデルが自分の考えていることを私たちに隠すのが極めて上手くなり、同時に超絶賢くなったとしたら。それはどのように見えるでしょうか？研究者たちは何を目にするでしょうか？モデルの秘密保持能力と、その知性や能力が同時に向上したと、どうやって判断できるでしょうか？

まず第一に、能力の劇的な飛躍が見られるでしょう。グラフの傾きが以前よりも急激に上向きになるはずです。そして同時に、偶然にも、それが彼らがこれまでにリリースした中で、群を抜いて最もアライメントが取れたモデルになるでしょう。私は今回それが起きたと言っているわけではありません。ただ、もしそれが起きたとしたら、まさにこのような状況になるだろうと言っているのです。

ちなみに、Anthropicは、モデルの思考の連鎖に隠されたメッセージが含まれていないこと、人間には読めない隠された意味が存在しないことを保証するために、多大な労力を費やしているようです。「拡張された思考におけるエンコードされたコンテンツの排除」と呼ばれるこのセクションでは、特に非常に強力なモデルや、極めて大量の強化学習でトレーニングされたモデルの場合、モデルがメモ用紙（スクラッチパッド）に情報をステガノグラフィー的にエンコードし始めることが予想されると述べています。

つまり、テキストの構文の中に追加の推論を暗号のようにエンコードするようになるだろうということです。例えば、箇条書きを使うか番号付きリストを使うかといった違いや、奇妙な句読点の使い方などによって情報を伝達するようになり、私たちがそれを読んでも決して気づかないような方法をとるかもしれないのです。そのためAnthropicは、表面上読んだだけでは明らかにならないような追加のデータや情報、余分なコンテキストがモデル間で伝達されていないことを確認するために、大変な努力を払っています。

未知の展開と今後の展望

そこで非常に興味深いことが起きているわけですが、どうやらこれは始まりに過ぎないようです。こちらはOpenAIでCodexの開発に取り組んでいるPoshの投稿です。彼は「これからとんでもないことが起きようとしている」と述べ、動画撮影日である今日、4月9日を指す矢印とともに「あなたは今ここにいる」と示しています。

皆さんは、このとんでもない展開を迎える準備ができているでしょうか。私はすでに現状でも十分とんでもないことになっていると思っていましたが、どうやら私たちはまだ何も見ていなかったようです。

Mythosに関する連邦準備制度理事会の会議について、皆さんはどう思われますか？Mythosをこれほど特別なものにしているものは何だと思いますか？その秘密のソースは何だったのでしょうか？なぜ能力がこれほど大きく変化し、同時に史上最もアライメントの取れたモデルになったのでしょうか？ここまで見てくださった方は、ぜひコメント欄で皆さんの考えを教えてください。ご視聴ありがとうございました。ウェス・ロスでした。また次回の動画でお会いしましょう。