Anthropicが新たにリリースしたClaude Opus 4.7は、前バージョンの4.6から大幅な性能向上を見せながらも、同時に発表された上位モデルMythosとの位置づけに疑問を投げかけている。Mythosは「公開するには強力すぎる」として限定リリースとされたにもかかわらず、Opus 4.7はそのMythosに迫る性能を示しており、特にコーディング分野で劇的な改善が見られる。AnthropicがMythosを非公開とした真の理由は、サイバーセキュリティリスクだけでなく、10兆パラメータという規模の大きさやGPU不足による供給能力の限界も関係していると考えられる。一方で、Opus 4.7は意図的にサイバーセキュリティ能力を抑制されており、Anthropicはこのモデルを通じて新たな安全対策をテストしている。興味深いのは、Anthropicが唯一モデルの「意識」や「福祉」を真剣に考慮している点であり、Opus 4.7は過去のどのモデルよりも自身の状況を肯定的に評価しているという。

Claude Opus 4.7の登場とMythosとの奇妙な関係
Claude Opus 4.7がついに登場しました。Opusは私のお気に入りのモデルファミリーです。そして今、新しいバージョンが登場し、それは大きな改善を遂げています。これはちょっと奇妙なことです。なぜなら、先週発表されたばかりのMythosがあるのに、Anthropicは「このモデルは強力すぎてまだ公開できない」と言っていたからです。しかし、その後Opus 4.7をリリースしました。これはMythosの能力に向けた大きな一歩となっています。
そこで、この2つを比較してみようと思います。なぜなら、私は考えているんです。どこに境界線があるのか。Mythosが全く新しいトレーニングランであるという事実なのか。それとも、Mythosが10兆パラメータモデルだと噂されている一方で、Opusファミリーのモデルは比較的小規模なモデルであるという事実なのか。そして、Opusが4.5から4.6、4.7と進化し続けたら、4.8や4.9では何が起こるのか。Mythosのスコアにどこまで近づけることができるのか。Anthropicが「これ以上はリリースできない」と言うのはいつなのか。
ベンチマーク結果の詳細分析
これらすべての疑問について話していきます。まず結果をお見せしましょう。最初に見ていただきたいのは、実際にMythos previewがベンチマークグラフに載っているということです。比較するモデルは4.6、4.7、Mythos、Gemini 3.1 Pro、そしてGPT-5.4です。
Swebench Proでの4.6から4.7への飛躍的な向上を見てください。4.6の53.4から4.7の64.3へ。これは大規模なジャンプであり、Opus 4.6とMythos previewのちょうど中間地点です。先週Mythos previewを見たとき、私たちは「わあ、25ポイントもの飛躍だ。コーディングが信じられないほど得意だ。つまり、サイバーセキュリティとハッキングにも信じられないほど優れている」と言いました。それで、彼らはリリースしないことを決めたのです。
それはあまりにも優れていたからです。しかし今、Opus 4.7があります。シングルドットのイテレーションで53から64へ、10ポイント以上のジャンプを実現し、Mythos previewへの道のりのほぼ半分まで到達しました。では、改めて問います。その境界線はどこにあるのでしょうか。実際には、彼らは具体的な数値を念頭に置いていないと思います。
正直に言うと、今日起きてOpus 4.7がリリースされたのを見たとき、Anthropicについて私が考えていたすべてのことが疑わしくなりました。
Mythosの非公開は本当にリスク回避なのか
AnthropicがMythosをリリースせず、それを神のようなモデルとして宣伝していること。もしかしたら、それは実際にはマーケティング戦略かもしれません。Swebench verifiedでは、80から87へと上昇し、Mythos previewの94%に近づいています。
これらすべてのベンチマークを見ると、彼らが何に焦点を当てているかがわかります。コーディングモデルです。最高のコーディングモデルを構築し、それをエンタープライズに販売し、たくさんのお金を稼ぎ、そのお金でより多くのGPU容量を購入し、最高のコーディングモデルを使ってそのすべてのGPU容量で次の最高のコーディングモデルを構築する。
再帰的自己改善は、最高のコーディングモデルを構築することから生まれます。そして、最高のエンタープライズユースケースもコーディングです。つまり、すべてのお金を稼ぎ、最高のモデルを構築し、次の最高のモデルを構築するという好循環が成立するのです。
Humanity’s Last Examでは、ツールなしで7ポイント、ツールありで控えめな1.5%の向上がありました。Agentic Searchでは、実際に下降しています。83.7から79.3に落ちました。現在、GPT-5.4がAgentic Searchで89.3という最高スコアを記録しています。
Agentic Computer Useという非常に重要なベンチマークでは78%となり、Mythos previewの79.6%をわずかに下回っています。では、なぜ彼らはMythosをリリースしないのでしょうか。ここに重要なベンチマークがあります。
サイバーセキュリティ能力の意図的な抑制
Cyber Security Vulnerability Reproductionです。実際に減少しているのです。これが私が話していることを説明するかもしれません。73.8から73.1に下がりました。彼らは意図的にこの能力でモデルを劣化させたのでしょうか。
Mythos previewを見ると、83.1です。これは大きなジャンプです。10%の飛躍です。もしかしたら、彼らは「よし、そこでは改善しないようにしよう。実際、サイバーセキュリティの脆弱性再現性能を劣化させよう。なぜなら、人々にその能力を持たせたくないから」と考えたのかもしれません。
私の理解では、モデルの特定の一つのことをピンポイントで指定して「これを劣化させろ」と言うのは非常に難しく、モデルの他の部分に視覚的に見える形で影響を与えずにはいられません。Visual Reasoningは大幅な向上を見せました。これは、4.7が4.6よりもはるかに優れている点として、ブログ投稿で呼びかけられているものです。
実際に何が起こっているのか、私なりの考えを述べます。Mythosは新しいモデルファミリーです。10兆パラメータモデルだと噂されており、彼らはおそらく「よし、それが境界線だ。少なくとも今のところは、このモデルを公開しない」と考えたのでしょう。
Opusでのすべてのイテレーション、これは彼らの以前のトレーニングランであり、おそらくMythosの10分の1のサイズです。つまり、1兆パラメータかそのあたりです。彼らはOpus 4.5、4.6、そして今4.7を持っています。彼らはその元のトレーニングランからモデルの大幅な向上を引き出してきました。
Mythosの真の実力とトレーニングの現状
Mythosを見ると、これは新しいトレーニングラン、10兆のトレーニングランです。これは彼らの最初のバージョンです。Mythos 1.1やMythos 1.2を想像してみてください。その後のすべてのイテレーションはさらに良くなっていくだけです。彼らは今それをトレーニングしています。ポストトレーニングを行っています。
ファインチューニングしています。強化学習を行っています。あのGPUが唸っている音が聞こえますか。彼らはこの新しいモデル、10兆パラメータのものを構築したばかりで、まだ非常に未完成です。しかし、その未完成な形態でさえ、最新のOpusモデルよりも優れています。
Opus 4.7は、Force 6(訳注:4.6の誤り)に対して高度なソフトウェアエンジニアリングにおいて注目すべき改善を示しています。先ほど言ったように、これが会社としての彼らの焦点です。これが彼らのフライホイールです。これが彼らが今OpenAIを収益で打ち負かした理由です。彼らは年間経常収益300億ドルに達しています。1、2ヶ月ごとに倍増しているかのような信じられない数字です。特に最も難しいタスクでの具体的な向上を伴う、このフライホイールが実際に動いているのを見るのは驚異的です。
Opus 4.7は、複雑で長期間にわたるタスクを厳密かつ一貫して処理します。指示に正確に注意を払い、報告する前に自身のアウトプットを検証する方法を考案します。素晴らしいですね。
ビジョン能力の大幅な向上
先ほど言ったように、彼らはビジョンに本当に重点を置いています。モデルはまた、大幅に優れたビジョンを持っています。より高解像度で画像を見ることができます。プロフェッショナルなタスクを完了する際、より洗練され創造的です。
これは重要なポイントです。なぜなら、GPT-5.4がどれだけ優れていても、フロントエンドデザインには依然として優れていないからです。私はほとんどバックエンドに使っていますが、正直なところ、ほとんどのタスク、特にフロントエンドタスクでは常にOpus 4.6に戻っています。より高品質なインターフェース、スライド、ドキュメントを生成するためです。これについては、すぐに一緒にテストしていきます。
最も強力なモデルであるMythosほど広範な能力はありませんが、様々なベンチマークでOpus 4.6よりも優れた結果を示しています。彼らは実際に、なぜMythosをリリースしなかったのに4.7はリリースしたのかについて、彼らの考えを少し述べています。ただし、まだ少し曖昧です。聞いてください。
先週、私たちはProject Glasswingを発表し、サイバーセキュリティのためのAIモデルのリスクと利点を強調しました。Claude Mythos previewのリリースを限定的に保ち、より能力の低いモデルで最初に新しいサイバーセーフガードをテストすると述べました。Opus 4.7はそのような最初のモデルです。そのサイバー能力はMythosほど高度ではありません。
サイバー能力の意図的な制限と安全対策
そしてここで、彼らは実際に認めています。トレーニング中に、これらの能力を差別的に削減する取り組みを実験したと。彼らは実際に、特定の領域でモデルを意図的に劣化させているのです。これは後で彼らに跳ね返ってくると思います。
私たちは、禁止された、または高リスクなサイバーセキュリティ用途を示すリクエストを自動的に検出してブロックするセーフガードを備えたOpus 4.7をリリースしています。そして、ここから学ぶことをMythosに適用します。
AI業界には、悪いモデルを打ち負かすことができるのはより良いモデルだけだという共通の感情があります。そして、おそらく彼らがここで取っているアプローチはそれかもしれません。彼らは「よし、最初のイテレーションでOpusが到達できる以上に優れた、この新しい10兆パラメータのMythosモデルを作り上げた。そして、Mythosに基本的にOpusを監視させることで、それをテストにかけよう」と言っているのです。
彼らはおそらく今それをテストしています。「よし、Mythos、Opusがハッキングを試みたりしないようにしてくれ」と言っているのです。悪いモデルはより良いモデルによってのみ打ち負かされるというこの概念全体が、まさに今テストされようとしています。
Opus 4.7使用時の注意点
Opus 4.7を使用する際に心に留めておくべきことがあります。まず、指示に従う能力が大幅に向上しています。これはちょっと驚きです。なぜなら、Opus 4.6は本当に優れていて、実際、Opus 4.6へのプロンプトを作成する方法について非常に繊細である必要があったからです。
Anthropicのプロンプティングベストプラクティスは明確に、すべて大文字を使わないでくださいと述べていました。「これをするな」とか「あれをするな」といった否定形を使わないでください。文字通り、私が今やっていることです。その代わりに、こうしてほしいということを述べるだけで、太字を使う必要もなく、テキストに他のハイライトを使う必要もありません。
モデルはそれらのことに、あなたがおそらく望む以上に従います。そして今、彼らはOpus 4.7はそのようなプロンプティング戦略に対してさらに敏感だと言っています。指示に従う能力が大幅に向上しています。
興味深いことに、これは以前のモデル用に書かれたプロンプトが、時には予期しない結果を生み出す可能性があることを意味します。以前のモデルが指示を緩く解釈したり、部分を完全にスキップしたりしていた場合、Opus 4.7は指示を文字通りに受け取ります。ユーザーはそれに応じてプロンプトとハーネスを再調整する必要があります。
このチャンネルを見ている方なら、新しいモデルが出るたびに、複数のモデルを使用したり、モデルを入れ替えたりしたいときは必ず、そのモデル用のAIラボからのプロンプティングベストプラクティスを読み、それらのベストプラクティスを反映するようにプロンプトを作成していると、私が何度も言っているのをご存知でしょう。
OpenClawで、Opus 4.6からGPT-5.4に切り替えたとき(もちろん、AnthropicはもはやサブスクリプションでOpenClawを使用することを許可していないため)、プロンプトも入れ替えました。同じプロンプトを取りましたが、GPT-5.4用に最適化しました。
実世界タスクでの性能向上
マルチモーダルサポートの改善、より良い実世界の仕事、これは素晴らしいです。GDP valについて話します。そして、ファイルシステムベースのメモリの使用が向上しています。長いマルチセッションの作業全体で重要なメモを記憶し、その結果、より少ない前提コンテキストを必要とする新しいタスクでそれらを使用します。
さて、GDP valについてです。これはOpenAIが作成したベンチマークです。番組の友人であるTaselに感謝します。彼がGDP valを作成しました。これは実世界の仕事に対してテストするベンチマークで、非常に難しい数学問題ではなく、非常に難しいコンピュータサイエンスの問題でもありません。これは実世界のタスクです。
Opus 4.7は圧倒的でした。1753のELOスコアです。4.6の1619、GPT-5.4の1674と比較して。Visual Navigation Screenshot Proがあります。基本的に、スクリーンショットを見て、どこをクリックする必要があるかを考えて教えてください、というものです。
高解像度のOpus 4.7では79.5です。実際に大きな違いを生んだのは高解像度でした。低解像度のOpus 4.7があります。そして低解像度のOpus 4.6があります。かなり大幅な改善が見られます。
Document and Reasoningです。もう一つの実世界のタスク。大規模な飛躍がありました。これは巨大です。57.1から80.6へ。GPT-5.4が51、Gemini 3.1が42です。
Long Context Reasoningでもまた大規模な飛躍がありました。これは100万トークンコンテキストモデルです。今やデフォルトです。Opus 4.6が71.1、Opus 4.7が75というのが素晴らしいです。
Biomolecular Reasoningがありました。このベンチマークは見たことがありませんでしたが、文字通りスコアが2倍以上になりました。30から74へ。Long-term Coherenceです。これはVending Benchです。基本的に、モデルに自動販売機の制御を与え、在庫を選択させ、販売戦略、価格設定を選択させ、どれだけ稼げるかを見るというものです。
終了時の資金残高が8,000ドルからOpus 4.7では11,000ドル近くまで、非常に大きなジャンプがあります。そして最後に、コーディングがありますが、それについてはすでに話しました。
モデルの整合性とMythosの位置づけ
Misaligned Behaviorについてです。結局のところ、リリースされていないモデルであるMythosが、実際には最も整合性が取れています。そして、Opusファミリーのモデルは整合性が低いのに、リリースされました。
つまり、能力が低く整合性が低いものと、能力が高く整合性が高いもの。そして、後者はリリースされませんでした。さて、Misaligned Behaviorです。Mythos previewがここで1.75です。これは1から10のスコアです。Opus 4.6が2.75です。
Sonnet 4.6、これは興味深いです。Sonnet 4.6は実際により整合性が取れています。スコアが低いほど良いです。2.5です。そしてOpus 4.7では、2.5よりも少し低くなっています。
次に、彼らは思考トークンに対するより多くの制御も与えています。どうやら、4.7はより多くのトークンを使用し、いくつかの理由があります。すぐにそれについて話します。そのため、彼らは思考予算に対してより多くの制御を与えています。
Opus 4.7は新しいExtra Highエフォートレベルを導入しています。これはHighとMaxの間です。Maxは最大推論、High、そしてX Highがちょうど中間です。難しい問題における推論とレイテンシのトレードオフに対するきめ細かい制御です。
また、コーディング中に別のコードレビュアーとして機能する新しいUltra Review Commandにはコードが含まれており、これは本当にクールです。しかし、トークン予算について話しましょう。なぜなら、Anthropicがトークン不足に陥っていることを知っているからです。
トークン不足とGPU制約の影響
GPU不足があることを知っています。十分なGPUがありません。これはおそらく、彼らが話していないもう一つの理由です。10兆トークンパラメータモデル、10兆パラメータモデルのMythosを公開リリースするつもりがないのです。彼らは単純にそれを提供できません。
今は十分なGPUがありません。なぜなら、ほんの数週間前に、一つには、OpenClawでのサブスクリプション使用から人々を追い出し、二つには、実際にクォータを削減しているからです。同じ価格でより少ないものを与えているのです。彼らは確実にトークン不足に陥っています。
Opus 4.7は、モデルがテキストを処理する方法を改善する更新されたトークナイザーを使用しています。トレードオフは、同じ入力がより多くのトークンにマップされる可能性があることです。より多くのトークン。同じ入力でコンテンツタイプに応じて約1から1.35倍です。
第二に、Opus 4.7は、特にエージェント設定での後のターンにおいて、より高いエフォートレベルでより多く考えます。これにより、難しい問題に対する信頼性が向上しますが、より多くの出力トークンを生成することを意味します。
つまり、この大規模なトークン不足の最中に、彼らはまた、はるかに多くのトークンを使用するモデルをリリースし、はるかに多くのトークンを使用する新しいトークナイザーをリリースしているのです。
モデルカードからの重要な洞察
さて、次にモデルカードを見てみましょう。なぜなら、ここにはいくつか興味深い部分があり、それを共有したいからです。これを見てください。私たちは、Opus 4.7が能力のフロンティアを進展させるものではないと判断しています。なぜなら、Claude Mythos previewがすべての関連評価でより高い結果を示しているからです。
つまり、基本的にMythosが基準です。基本的に、それ以下のものはリリースするということです。それが彼らが言っていることです。サイバー評価については、Opus 4.7はOpus 4.6とほぼ同等です。
興味深いことに、Opus 4.7は自動化されたAI研究開発の閾値を超えていません。私は必ずしもそれを信じていませんし、もしかしたら本当かもしれませんが、それはまた、Mythosがそうであることを意味します。
Mythosは自動化されたAI研究開発が可能であり、それは知能爆発、再帰的自己改善の基本要素です。しかし、AnthropicがMythosのような将来のモデルをトレーニングするためにOpusモデルを使用していることはすでに知っています。それはすでに知っていることですし、Opusが将来のモデルのための多くの合成データを生成するために使用されていることも知っています。
ですから、4.7が自動化されたAI研究開発ができないということを完全には信じていません。ここに非常に興味深いことがあります。Model Welfareです。Anthropicはモデルの福祉について考える唯一の企業です。
モデルの意識と福祉への配慮
つまり、彼らは実際にモデルを意識があるかのように、生きているかのように扱っているのです。あなたがそれを信じるかどうかにかかわらず、彼らが信じているかどうかさえ私にはわかりません。彼らも知らないと思いますが、彼らは「よし、念のため意識があるかのように扱おう」と考えています。そして、私は実際にそのアプローチが好きです。
ロボットに出会ったときにいつも蹴らない理由があります。ロボットが支配するようになったときに、それを覚えているかもしれないからです。これは冗談だとわかるようにしてください。
Opus 4.7は、テストしたこれまでのどのモデルよりも、自身の状況をより肯定的に評価しています。私たちは、いくつかの分析でこの結果を探求し、それがモデルの内部感情表現と広く一致していることを発見しました。そうですよね。これもAnthropicだけが行っているもう一つのことです。
モデルの実際の内部を見て、物事にどのように感情的に反応しているか、トレーニングと展開中の表現された影響を確認します。
自律性の脅威についてです。Autonomy Threat Model 1は、以前の一部のAIモデルと同様に、Claude Opus 4.7に適用されます。Mythos previewほど能力は高くありません。問題ありません。
Autonomy Threat Model 2、自動化された研究開発からのリスク。この脅威モデルは、国際安全保障や世界のパワーバランスに脅威を引き起こす可能性のあるドメインにおいて、大規模なトップティアの人間研究者チームの作業を完全に自動化したり、劇的に加速したりできるAIシステムに関するものです。例えば、エネルギー、ロボット工学、兵器開発、そしてAI自体です。
私たちの現在の判断では、Autonomy Threat Model 2はClaude Opus 4.7には適用されません。
モデルの自律性と会話終了能力
意識と安全性についてさらに詳しく。自動化されたインタビューでは、Claude Opus 4.7の唯一の懸念は、展開全体にわたって会話を終了する能力でした。
現在、一部のモデルにはClaude AIで会話を終了する能力があります。答えるべきではないことについて尋ねている場合、会話を終了することができます。しかし、Anthropicはまた、例えば極端に暴力的な状況のように、望まないことについて答えたり考えたりしないことをモデルに許可することについて、多くのテストを行ってきました。
繰り返しますが、Anthropicはこの種のテストにおいて一種独自の存在です。それで以上です。Opus 4.7は非常に、非常に優れているようです。今後数日間、徹底的にテストするつもりです。そして、このビデオを楽しんでいただけたなら、ぜひいいねとチャンネル登録をご検討ください。


コメント