AnthropicがClaude Opus 4.7をリリースした。Opus 4.6を複数のベンチマークで上回り、特にコーディング能力と指示追従性能、マルチモーダル理解が向上している。しかしリリースのタイミングや発表方法から急遽の公開と推測され、先日発表されたMythosプレビューとの比較においてはサイバーセキュリティ能力で劣ることが示されている。ファイルシステムベースのメモリ活用やドキュメント推論が強化されたものの、新しいトークナイザーの採用により同一入力でもトークン消費が最大1.35倍増加し、高努力レベルでの思考によりレート制限到達が早まる点に注意が必要である。

Claude Opus 4.7の突然のリリース
さて、AnthropicがClaude Opus 4.7をリリースしたばかりですが、これは非常に興味深いリリースのようです。いくつかの重要なベンチマークでOpus 4.6を上回っており、特にコーディングに関してはそうなっています。指示追従能力も向上しているようです。また、マルチモーダル理解能力も大幅に改善されています。
ファイルをメモリシステムとして使用する能力がはるかに優れており、コード生成中の自己検証のためのトレーニングを受けているようです。彼らはAPIとプラットフォームにいくつかの新しい変更とパラメータも導入しました。ベンチマークではGPT-4oやOpus 4.6を上回っているにもかかわらず、このリリースはかなり興味深いと言えるでしょう。まず1つ目はタイミングです。
彼らは午前7時30分頃にモデルをリリースしました。これはAnthropicにとって非常に異例なことです。考えられる理由の1つは、おそらく午前中の遅い時間にOpenAIのリリースがあると予想されるからでしょう。以前のリリースとは異なり、デモなどは一切なく、シンプルなスレッドでX上で発表しただけです。ですから、間違いなく急いでリリースした印象を受けます。
彼らは最近Mythosのプレビューをリリースしましたが、今回のリリースでは2つのモデルを直接比較しているのも非常に興味深いところです。まず明らかなのは、Mythosプレビューが全体的にはるかに強力なモデルだということです。Opus 4.7はOpus 4.6と比べてエージェント的なコーディングではより優れています。しかし、エージェント的なツール使用のベンチマークを見ると、特にエージェント的な検索スケールのツール使用において、その差はそれほど大きくないようです。
エージェント的なコンピュータ使用は実際にMythosとかなり近い性能です。ブログ記事では、先週Mythosプレビューをリリースした時、そのリリース自体がかなり限定的だったと述べています。Opus 4.7については、サイバー能力がMythosプレビューほど高度ではないため、Anthropicがリリースすることに抵抗がないのだと思います。彼らは、Opus 4.7を禁止された高リスクのサイバー問題や用途を示すリクエストを自動的に検出してブロックするセーフガードとともにリリースすると言っています。
しかし、これはOpus 4.6と同じクラスのモデルです。なぜなら、APIの価格設定が前世代とまったく同じだからです。このモデルの使用を考えているなら、いくつか興味深い点があります。まず指示追従です。Anthropicによると、Opus 4.7は指示を文字通りに受け取ります。これは以前のイテレーションとは異なり、以前のモデルは指示を緩く解釈したり、一部を完全にスキップしたりしていました。
Opus 4.7に同じ指示を使用すると、予期しない結果が見られるかもしれません。そのため、彼らはユーザーがプロンプトとハーネスを再調整する必要があると述べています。これは大規模言語モデルで抱えてきた問題の1つで、イテレーションごとにユーザーとして、以前のイテレーションと同じように指示に従うかどうかを本当に見直す必要があるということです。
マルチモーダル機能の向上
そしてそれは時にモデルの周りのハーネスを調整することも含みます。2つ目は、Anthropicによると、マルチモーダルが改善されたということです。つまり、高解像度画像に対するビジョン機能が向上しています。マルチモーダルはあらゆるエージェントワークフローにおいて重要な部分です。ドキュメントを扱う場合、多くのマルチモーダルデータを目にすることになります。
エージェント的な使用ケースでは、マルチモーダルエージェントの使用ケースにおいてOpus 4.6を大幅に上回っています。そして、入力データの解像度によってパフォーマンスに大きな差があることもわかります。高解像度の画像はより正確になりますが、より多くのトークンを消費することになり、したがってコストも高くなることを覚えておいてください。
彼らが強調しているもう1つの点は、Opus 4.6はファイルシステムベースのメモリをより上手く使用できるということです。これは特にコーディングエージェントにとって重要です。例えばClaude Codeは、そのメモリシステムを完全にファイルに依存しています。ですから、彼らはその方向に進んでおり、他のプロバイダーが探求しているセマンティック類似性タイプのアプローチを使用するのではなく、メモリとしてのファイルシステムに本当に焦点を当てているようです。
彼らが提供したベンチマークに基づくと、ドキュメント推論が改善されているようで、これはマルチモーダル推論能力が向上したという事実によって改善されていると思います。また、これは100万トークンという同じコンテキストウィンドウを持っているようですが、そのコンテキストウィンドウ全体でより優れた推論を行います。
彼らが追加した重要なベンチマークの1つはVending Bench 2です。はるかに優れた長期的な一貫性を持ち、Opus 4.6と比較してはるかに信頼性が高いようです。さて、彼らが共有したベンチマークの興味深い側面が1つあります。内部ベンチマークでのマルチモーダル理解に関しては大きな差が見られますが、外部のベンチマークではそれほど大きな差は見られないかもしれません。
移行時の注意点
Opus 4.6から4.7に移行または移動する場合、考慮すべき点がいくつかあります。1つ目はトークナイザーです。Opus 4.7は、モデルがテキストを処理する方法を改善する更新されたトークナイザーを使用しています。トレードオフは、同じ入力がより多くのトークンにマッピングされる可能性があるということで、コンテンツの種類によっては約1倍、または最大1.35倍になることがあります。
2つ目は、Opus 4.7は、特にエージェントシステムでの後の方のターンにおいて、より高い努力レベルでより多く考えるということです。これにより困難な問題に対する信頼性が向上しますが、より多くの出力トークンを生成することになり、したがってレート制限をはるかに速く使い切ってしまうことになります。ですから、Opus 4.6から4.7に移行する場合は、これは間違いなく注意しておきたい点です。
新しい設定とデフォルト値の変更
さて、ここで彼らが導入したいくつかの新しい設定について見てみましょう。Opus 4.6は、highとmaxの間にextra highを導入しており、Claude Codeではデフォルトで努力レベルがextra highになっています。Claude Codeに行くと、Opus 4.6のデフォルトはmediumで、これがパフォーマンスの低下を示し、多くの人が不満を述べていました。
ですから、Anthropicはextra highをデフォルトにすることでそれに対処しようとしていると思います。しかし、このデフォルト設定を持つということは、トークンをはるかに速く使い切ってしまうことも意味します。Claude APIでは、高解像度画像のサポートを追加しており、またタスクバジェットをパブリックベータで開始しています。これにより開発者はClaudeのトークン消費をガイドして、より長いタームにわたって作業の優先順位を付けることができます。
彼らはまた、ultra reviewと呼ばれるものを導入しています。これは、変更を読み通して、注意深いレビュアーが捉えるようなバグや設計上の問題にフラグを立てる専用のレビューセッションを生成するスラッシュコマンドです。これをコーディングに使用する場合、適切な努力レベルを設定することを確認する必要があります。なぜなら、適切な努力レベルを設定することが役立つからです。
しかし、その過程で消費することになる追加のトークンには注意が必要です。さて、最後に気づいたことが1つあります。SWE-bench Multimodalについて、彼らはOpus 4.6と4.7の両方のスコアに内部実装を使用しており、スコアは公開リーダーボードのスコアと直接比較できないと述べています。ですから、ここにはいくらかのベンチマーキングトリックが起こっているようです。とにかく、これは簡単な最新情報でした。
今朝OpenAIのリリースがあると予想しています。もしそうなったら、別の短い動画を作成して公開する予定です。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。


コメント