Opus 4.7がリリース – しかし誰もが見落としたこと

Anthropic・Claude・ダリオアモデイ
この記事は約17分で読めます。

AnthropicがリリースしたClaude Opus 4.7は、表面的には性能向上を謳っているが、実態は一般ユーザー向けではなくエンタープライズ企業向けに最適化されたモデルである。コーディング、エージェント的ツール使用、視覚的推論、特に複数ドキュメントの推論において顕著な改善が見られる一方、エンターテインメントやメディア関連のタスクでは性能が後退している。さらにAnthropicはコンピュートリソース不足に直面しており、トークナイザーの変更により実質的なコスト増加(最大35%)を招いている。強力なMythosモデルは大企業向けに限定公開され、一般ユーザーはレート制限と推論能力の制限を受けている。これにより、Simple BenchやReper Benchなどの評価では前バージョンより低いスコアを記録している。Opus 4.7はGDP-valなど実務的評価では首位に立つものの、日常的な使用においては必ずしも最適な選択肢とは言えない状況が生まれている。

Opus 4.7 Just Dropped — Here's What Everyone Missed
Anthropic Opus 4.7 Just Stunned The AI Inudstry— Here's What Everyone MissedSubscribe To My Newsletter - your Free AG...

Opus 4.7の真実

AnthropicがOpus 4.7をリリースしましたが、皆さんが見落としている要素が非常に多くあります。それでは、皆さんが見逃したものを見ていきましょう。

最初に目にしたのは、Opus 4.7のいわゆるベンチマークが公開されたということです。理解しておかなければならないのは、Opus 4.7は必ずしもあらゆる分野で最も賢いAIというわけではないということです。

それでは、すべての要素について詳しく見ていきましょう。まず、Opus 4.7が実際により賢いモデルである領域を示す実際のベンチマークを表示するために、画像を更新しました。Opus 4.7がコーディング、エージェント的なツール使用、そして視覚的推論においてより賢いモデルであることが分かります。これを覚えておいてください。なぜなら、これは後ほど動画の中で重要な要素となるからです。

Opus 4.7の本当のリリースが実際に何であるか、そして誰もが見逃したものをお見せすると、もっと早く気付かなかったことに驚くことでしょう。それでは、これらのベンチマークの一つ一つに飛び込んで、実際の変更点を理解していきましょう。

視覚的ナビゲーションの改善

最初に、モデルが明らかに優れていると分かっている分野の一つは視覚的ナビゲーションです。これについては後ほど詳しく説明しますが、基本的には、モデルが画面を見ることでコンピュータを実際に操作できるかどうかを見ています。

これが重要なのは、AIモデルに求める将来像を考えたときに、モデルがこの分野でより優れた性能を発揮することを望んでいるからです。これが必要な理由は、ブラウザ使用のようなもののためです。インターネット上をクリックして回り、人間が行うことをしようとするわけです。

つまり、Opus 4.7でAnthropicが試みたのは、UIを読み取り、正しいものを確実にクリックするエージェント的能力を向上させることです。これをプレーンな英語からアプリを制御したいときにレイヤーに組み込む際、これは本質的にその領域における改善であり、かなり重要だと思います。

ツールに関する改善があまり大きくないことも示されており、これは少し驚きですが、先ほど言ったように、これらのベンチマークについては、すべての推論を説明していきます。

ドキュメント推論での飛躍

ここではドキュメント推論がかなり大幅に向上しています。これは、モデルが多数の異なるドキュメントを読み取り、それらについて推論できるところです。

Opus 4.7は明らかにこの分野で、Opus 4.6や、OpenAI、Googleのモデルを含むチャート上の他のすべてとは異なるリーグにいます。これはかなり驚くべきことです。なぜなら、通常モデルは常に同じような水準に集まってきたからですが、ここでは大きな飛躍があったことが非常に明確です。

正確には分かりませんでしたが、Opus 4.7がPDF、さまざまな財務書類、ドキュメント、契約書、レポートをどのように処理しているのか正確には見つけられませんでしたが、明らかに複数の異なるドキュメントに対する改善への重点と、明確な進歩を示しています。

つまり、Opus 4.7を使うなら、複数の異なるドキュメントがあるときにこのモデルを使うことは当然の選択だということです。

皆さんの中には、Coworkのようなアプリケーションに精通している方もいると思いますが、これがさらに明確になります。Coworkでは、デスクトップコンピュータ上に存在する複数の異なるドキュメントについて本質的に推論し、それらを編集して作業を返すことが許可されています。そこで80%のスコアというのは非常に非常に印象的で、このベンチマークをはるかに信頼できるものにしています。

これはある意味Coworkベンチマークと呼べるかもしれません。ほとんどの人がそれに気付いていなかったと思いますが。

長期的一貫性の向上

ここでも長期的一貫性があります。なぜAnthropicは実際にこれに焦点を当てたのでしょうか。皆さん、覚えておいてください。このセクションは、わずかな違いではなく、実際に重要な違いがある領域に焦点を当てているだけです。

これらは実際にモデルにとって重要なことです。長期的一貫性とは、基本的にモデルが筋道を見失うことなく、長期的な混乱した計画にどのように固執するかということです。

ここで意味するのは、自動販売機を動かすようなシミュレーション環境をモデルに与えた場合、このベンチマークではそうなっていますが、基本的に最終的にどれだけのお金を持っているかを測定するということです。

つまり、基本的にその残高に基づいています。目標を忘れたり、状態を見失ったり、一貫性のない選択をしたりすると、最終的に持っているお金が少なくなります。

このビデオにこれを追加した理由は、ここで8千ドルから約11,000ドルへの大きな飛躍が明確に見られるからです。これは本当に本当に大きな改善です。

つまり、最終残高が実際に36%増加しています。そのため、Opus 4.7の主要な焦点領域の一つがその長期的一貫性であることが再び分かります。

現実的には、これは自動販売機やそういったものについてではありません。これは長期的なタスクにおけるエージェント的性能についてです。ご存知のように、Anthropicの主な目標は本質的に人間が行う仕事をするAIを作ることです。

そのためには、より長い時間軸で実行できるタスクを持つ必要があります。Anthropicからのモデル更新を見るとき、自動販売機ベンチマークやこの長期的一貫性を測定する他のベンチマークが、最も意味のある進歩を見る場所になることは驚くべきことではありません。

エンタープライズ向けへのシフト

他のベンチマーク領域は飽和状態になっただけでなく、Anthropicのような企業のターゲット目標ではなくなっています。なぜなら、顧客が実際に望んでいるものという点で、これ以上の結果をもたらさないからです。

本質的に、皆さんが理解しなければならないのは、Opus 4.6は平均的な人が使えるクールなモデルであるだけでなく、従業員のためのエージェント的AI作業に焦点を当てたモデルだということです。

これをさらに一歩進めたいなら、実際にいくつかの異なることでこれを証明できます。そして、ここが誰もが絶対に見逃したところに入ってきます。今日のビデオで私が強調したい重要なポイントは、誰もがこれが単なる別のAIリリースではないことを見逃したということだと思います。

これは主にエンタープライズAI企業のためのエージェント的作業に焦点を当てたモデルへのアップグレードです。これは少し混乱させたかもしれませんが、私が言いたいのは、Anthropicは私たちのようなユーザーにサービスを提供することに本当に焦点を当てていないということです。

私やあなたのように、これらのモデルを使う人は、すぐにGDP-valに入りますが、もはやAnthropicの主要顧客ではありません。主要顧客は、トークンに対して実際にフル価格を支払い、実際にコンピュートの代金を支払うことができるエンタープライズ企業です。

GDP-valでの首位獲得

ここでGDP-valを見ることができます。Opus 4.6が今日のアップグレード後に2位から1位になったことが分かります。GDP-valは現在おそらく最も重要なベンチマークの一つであることを覚えておいてください。なぜなら、現在のAI企業が最適化しているものだからです。

以前見ていたMMUやその他すべての標準ベンチマークのような他のベンチマークは、今日の経済ではほぼ役に立ちません。これらのAI企業にとって本当に重要なのは、これらのAIエージェントが人間が行うであろうタスクをどれだけうまく実行できるかということだけです。

GDP-valは間違いなく、これを大規模に追跡するための最良の指標です。Opus 4.7は、ローンチ時にGDP-valで1753を記録し、最大努力設定でGPT-4 extra highを上回りました。これが、ほとんどの人がここで見逃している重要なアップグレードです。これについてはすぐに詳しく説明します。

GDP-valは基本的に国内総生産を表し、タスクはアメリカのGDPに大きく貢献する職業や産業から引き出されていることを理解しなければなりません。

スコアは抽象的なパズルではなく、実際の経済的価値に結び付いています。このベンチマークには1,300のタスクが含まれており、220のゴールドサブセットがオープンソース化され、特定の評価を通じて自動採点されます。

タスクは実際に金融、保険、医療、製造などの主要産業にまたがっています。各タスクは実際の成果物、実際のブリーフ、実際のプロジェクトに基づいています。

これを見ると、これがAnthropicが気にかける唯一のベンチマークです。しかし、Opus 4.7について理解しなければならないことがあります。残念ながら、このモデルが全体として皆にとってより良いというわけではありません。

特定のプロジェクトだけにこれを使用している場合、Opus 4.7を使用することが実際に良いとは限りません。

他の評価指標での優位性

これが人々が見逃していることです。さらにこの点を付け加えましょう。Val’s AI Indexを見てください。Opus 4.7は現在、以前のOpus 4.6から大幅に増加して1位です。

Vals Indexが71%、Mosim Indexが70%、Vals Finance Agentが65%まで上昇し、Vibe Coding Bench、Terminal Bench、Case Law v2などです。

これらすべてが5%から10%以上の大幅な改善を見せています。つまり、実行できるタスクという点で実際の経済成長を測定しているベンチマークを見ると、これらはAnthropicが皆に見せていない、あるいは焦点を当てているというよりも、舞台裏で優先しているベンチマークです。

これが、誰もがこれを見逃したと言う理由です。今Twitterに行くと、Opus 4.7が絶対にひどいと言っている個人の集団全体が見られるでしょう。

そして、彼らがこれを言うとき、彼らは間違っていません。前回OpenAIがGPT-5.2をリリースしたときのことを覚えていますか。正直なところ、誰もがそのモデルは大きなダウングレードだと言いました。

ジャグドフロンティアの現実

これが再び起こっています。前回OpenAIがGPT-5.2というモデルをリリースしたとき、それは絶対にひどいものでした。問題は、モデルが平均的なユーザーが使用するかもしれない領域に焦点を当てていなかったことです。

そのため、モデルをリリースしたとき、コーディングと推論とGDP評価を優先しました。しかし問題は、それがトレードオフだということでした。

残念ながら、AIは本質的にジャグド(凸凹)です。つまり、ある領域で例外的な能力がある場合、時には他の状況が遅れをとることがあります。Sam Altmanでさえ、実際にGPT-5.2を台無しにしてしまったと言っているのが分かります。なぜなら、過度に優先しようとしたからです。

これが再びOpus 4.7で見られていることです。もちろん、他の理由で後退がある可能性もありますが、これについてはすぐに説明します。しかし、ジャグドフロンティアが見えます。

これはOpus 4.6と4.7 thinkingの間のチャートです。ほとんどの人がここで理解できないのは、それが全体的により良いモデルというわけではないということです。半分の領域でのみベストであり、現実的にはエンタープライズである場合の領域でのみベストです。

だから私はOpus 4.7は、現在それを使っている平均的なユーザーにはおそらく向いていないエンタープライズモデルだと言っています。あなたがそれを現在倫理的だと思うかどうか、またはあなたがそれをどのように見たいかは、完全にあなた次第です。

ジャグドフロンティアを見ると、Opus 4.7が優れている領域は、ソフトウェアサービス、IT、物理学、社会科学、その専門分野である他のテキスト領域、そしてもちろんコーディングなどの領域であることが分かります。

しかし、他の特定の領域ではあまりうまくいっていないことが分かります。たとえば、エンターテインメント、スポーツ、メディアでは、あまりうまく機能していないことが分かります。

つまり、これは平均的なユーザーにとって良いものではなく、エンタープライズにとって良いものの境界を押し広げるために特別に設計されたモデルだということを理解しなければなりません。

ジャグドフロンティアの概念

この概念をビデオに素早く追加したいと思います。なぜなら、これは重要だと思うからです。AI世界にいるなら、ジャグドフロンティアと呼ばれるものを理解する必要があります。

これはEthan Molikからのグラフィック図解で、彼の主張は本質的に、AIが滑らかな人間のような方法では改善しないということです。本質的に、私たちにとって簡単に見える他のタスクで失敗しながら、いくつかの難しいことで本当に得意になります。

これがジャグドフロンティアです。この用語がいつも浮かんでいるのを聞いたことがあるかもしれませんが、理解していなかったかもしれません。これが私が強調しようとしているポイントです。

能力が増加するにつれて、モデルがさらに良くなり始めると、これがより頻繁に起こる可能性があります。Opus 4.7の問題は、これがモデルが特定の領域で悪く感じる唯一の理由ではないということです。

モデルのナーフ問題

先ほど言ったように、多くの人々が、おそらくモデルをナーフしたと報告しています。そして、はい、ナーフは本物です。ここに「私のフィード全体とClaudeのサブレディットは、Opusがナーフされたと言っている人でいっぱいです。なぜAnthropicは自分のモデルをナーフするのでしょうか?」と書かれているのが分かります。

これは多くの人々が尋ねたかもしれないことです。なぜAnthropicは意図的に自分のモデルの能力を下げるのでしょうか。そして私は、これが間違いなく100%事実であることを正直に知っています。

なぜなら、私は日常のワークフローの一部でOpus 4.6と4.7を使用してきましたが、過去1週間でこれらのモデルの性能が大幅に低下していることに気付いたからです。

はい、それは純粋に定性的なデータだと主張することもできます。それを裏付けるベンチマークからの定量的なデータがない限り、モデルがどう感じるかを人に尋ねることは、それがただあなただけなのかを知る方法はありません。

しかし、実際にAnthropic内部の組織からの報告による実際のデータを見ることができます。

コンピュート不足の実態

Wall Street JournalがAnthropicのコンピュータ容量の問題と課題を取り上げました。人気のチャットボットClaudeとバイラルコーディングアプリClaude CodeのメーカーであるAnthropicは、最近の頻繁な停止に悩まされています。

同社はピーク時にユーザーへのコンピューティング供給の測定を始めましたが、ロールアウトは制限にあまりにも早く到達していると不満を述べる顧客によって台無しにされています。

つまり、Anthropic自身が基本的に、最近頻繁な停止があり、ピーク時にコンピュート供給の測定を始めたと言っているのです。なぜこれを行うのでしょうか。コンピュートは高価であるだけでなく、会社を継続させ、新しいモデルのトレーニングを続け、競争の先を進むために必要なものだからです。

しかし、そうすることで、問題は私たちの日常使用のための十分なコンピュートがないということです。私がクレイジーだとか、Twitterの世界が自分たちのバブルの中にいるだけだと思うなら、AMDのAIシニアディレクターが何を考えているか見てください。

彼らは、Claudeが後退しており、複雑なエンジニアリングを実行するために信頼できないと言っています。Redditのコメントが言うように、これはAnthropicがコンピュートを持っていないためにMythosをリリースしたくないだけだと叫んできた人々すべてにとって、正当化するものです。

Opus 4.7は能力の面ではステップアップですが、モデルは私たちが思っているほど良くないことを理解しなければなりません。なぜなら、現在私たちは基本的にコンピュートの面でレート制限を受けているからです。

Mythosの限定展開

この証拠を皆さんに正確に説明します。Anthropicには現在、Opus 4.7とOpus 4.6よりもはるかに強力なモデルであるMythosモデルがあります。しかし、最近Anthropicは、一般ユーザー向けではなく、大企業にMythosを展開することを決定しました。

つまり、基本的に彼らが言っているのは、それはプレビューであり、小さなパートナーのセットにGlass Wing経由で展開されているということです。だから、彼らがやっているのは基本的に、Microsoft、Google、JP Morgan、Nvidiaのような企業、今画面に表示されているすべての企業のために、大規模なコンピュート集約的モデルをリリースしているということです。

しかし、Claudeを使用する日常ユーザーである私たちに関しては、実際に現在レート制限と推論制限を受けています。つまり、Opus 4.7で見逃しているのは、このリリースが他のものほど良くないということです。理由をお見せしましょう。

隠れたコスト増加

Anthropicは最近、これらの企業にコンピュートを提供し続けることができるが、平均的なユーザーには提供しないように、何かずるいことをしました。

誰もが見逃したことの一つは、価格が同じように見えるかもしれないということです。紙面上では、Opus 4.7と4.6は同一のリスト価格です。入力トークンあたり500万ドル、出力トークンあたり2500万ドルです。

実効コストの違いは、4.7の新しいトークナイザーから来ています。Opus 4.7は、同じテキストを4.6の約1倍から1.35倍のトークン数にマッピングします。つまり、価格は同じですが、トークンあたりの価格が変わらないにもかかわらず、同じプロンプトと出力で実際には35%高い実質コストになります。

リスト価格は同じです。実際には、コンテンツがどのようにトークン化されるかに応じて、同じワークロードに対してリクエストあたり最大35%高価になることが予想できます。これは、日常のワークフローにこれを使おうとしている人にとっては絶対にひどいことです。

現在、特定のタスクにこれを使用していた特定のコンピュート予算があった場合、今度はコンピュート制限にはるかに早く到達していることがわかるでしょう。これは、ProティアやMaxティアに飛び乗ったばかりのユーザーにとって絶対にフラストレーションです。

なぜなら、特定の価格を約束され、Anthropicは文書で価格は同じだと言っていますが、実際にはトークナイザーを変更したからです。

そのため、今では全体で35%まで高くなっています。まあ、その金額までですが。これは少し怪しいと思いませんか。つまり、これが多くの個人が引用符付きで騙されたと感じ始めている理由です。

この狡猾な価格設定が実際には公に知られていないことを考えると。それは彼らが細かい字で入れたようなものです。

アダプティブリーズニングの制限

今Opus 4.7を使用しているときでさえ、それはアダプティブリーズニングと呼ばれています。高い推論をオンにすることはできません。なぜなら、先ほど言ったように、現在彼らは現在のトップエンド企業すべてにコンピュートを提供するのに忙しいからです。

だから多くの人々がOpus 4.7がそれができるほど良くないのではないかと疑っています。いくつかの領域では、それほどうまく機能していません。

この明確な例の一つは、Simple Benchを見てください。これは、記憶された事実ではなく常識的推論を必要とする厳密な質問をするベンチマークで、モデルは一般的な罠に惑わされることを避けなければなりません。

これは、AIモデルがどれだけ賢いかを実現する上で、おそらくより堅牢なベンチマークの一つであることを理解しなければなりません。

しかし見てください。Claude Opus 4.6 ICSは67%のスコアを取得していますが、Opus 4.7は62%のスコアを取得しています。はるかに優れているのに、なぜモデルにそのような後退があるのでしょうか。分かりません。おそらく特定の推論の側面を制限しているのでしょう。

Reper Benchでも、Opus 4.7が4.6よりも意味のある形で悪いスコアを記録していることが分かります。これはかなり驚くべきことです。

繰り返しになりますが、Opus 4.7がBenchで悪いスコアを取得していることが分かります。これは、AIモデルが自信を持って答えるのではなく、無意味な質問を認識して拒否できるかどうかをテストするために設計された評価です。

結論

このビデオで言ってきたことをまとめると、Opus 4.7はエージェント的使用の面では能力の飛躍であることは非常に明確ですが、他の領域では、このモデルはあまりうまく機能しないとおそらく主張するでしょう。

一つには、AIモデルがスケールする傾向のあるジャグドフロンティアのためですが、二つ目は、Anthropicが個人のモデルの使用を、シンキングをオンにする能力だけでなく、生の推論能力という点で深刻に制限しているからです。

これは人々が自分で考えているだけのものではありません。多くの個人ユーザーが見てきたものであり、Anthropicが実際に拡張モードを変更してオフにしたので事実として知っています。

つまり、今では35%の値上げでアダプティブシンキングのみです。これが誰もが見逃したものです。

コメント

タイトルとURLをコピーしました