Anthropicが遂にOpus 4.5を発表…

Anthropic・Claude・ダリオアモデイ
この記事は約10分で読めます。

Anthropicが最新のフロンティアモデルClaude Opus 4.5をリリースした。Gemini 3やCodex Maxの発表から1週間も経たないうちの登場である。ベンチマークによれば、Opus 4.5はコーディング、エージェント、コンピュータ使用において最高性能を記録している。Swebench verifiedでは80.9%のスコアを獲得し、従来のSonnet 4.5の77.2%を上回った。特筆すべきは、Anthropicの採用試験においてOpus 4.5が過去のどの候補者よりも優秀な成績を収めたという事実である。また、新機能として「高度なツール使用」が導入され、MCPサーバーのツール定義によるコンテキストウィンドウの消費を大幅に削減できるようになった。従来40%を占めていたツール定義が、新しいツール検索機能により5%にまで圧縮される。価格は入力5ドル、出力25ドル(100万トークンあたり)と、Gemini 3 Proより50~100%高額だが、効率性においてSonnet 4.5の約半分のトークンで同等以上の性能を発揮する。

Anthropic just dropped Opus 4.5...
Warp is free to try but for a limited time, try Warp Pro free for 7 days with 2,500 Al credits-no card required. Use my ...

Claude Opus 4.5の登場

Claude Opus 4.5がついに登場しました。つい先週、Gemini 3が発表され、Codex Maxも登場したばかりです。そして今、1週間も経たないうちに、Anthropicから全く新しいフロンティアモデルが届けられました。ベンチマークによれば、これはコーディング、エージェント、そしてコンピュータ使用において最高のモデルです。これこそがAnthropicが知られている分野なのです。

開発者プラットフォームで立ち上げられる新機能も含めて、全てを詳しく解説していきましょう。まず、コーダーにとって最も重要なベンチマークであるSwebench verifiedから始めます。ご覧ください。Opus 4.5は80.9%を記録し、以前のバージョンであるSonnet 4.5の77.2%と比較されています。

これらのバーはかなり離れているように見えますが、実際には70から82の範囲しか表示していないことを覚えておいてください。そのため、ここにあるGemini 3 ProがOpus 4.5から大きく離れているように見えますが、実際にはそうではありません。

しかし、4%の向上を達成しました。Gemini 3 Proは76.2%、GPT-5.1 Codex Maxは77.9%、そしてGPT-5.1は76.3%、全てトップドッグであるOpus 4.5の80.9%と比較されています。Anthropicが本当に良かったと思うのは、このブログ投稿で文字通り先週出たばかりのモデルをリストアップしたことです。もちろん、このベンチマークでナンバーワンのモデルを持っているのだから当然かもしれませんが、他の全てのベンチマークもリストアップしました。

お見せしましょう。こちらがGentic terminal coding terminal bench 2.0で59.3%、ナンバーワンのスコアです。2位は54.2%でGemini 3 Proです。T2 benchがありますが、これはエージェントのツール使用をテストするもので、98.2%と88.9%を記録しており、Gemini 3 Proは85.3%と98%をそれぞれ記録しています。OSWorldがありますが、これはコンピュータ使用のベンチマークで66.3%です。

OpenAIとGoogleはこのベンチマークを使用しないことを決めたか、少なくとも公開しないことを決めました。さて、Opus 4.5がナンバーワンのスコアを取らなかった3つのベンチマークは、GPQA Diamondです。これは大学院レベルの推論をテストするもので、87%対Gemini 3 Proの91.9%です。MMUがありますが、これは視覚的推論で、GPT-5.1がこれで王座を獲得しました。

そしてMMLU、多言語Q&Aでは、Gemini 3が王座を獲得し、91.8%対Opus 4.5の90.8%でした。また、vending benchベンチマークもリリースされました。これは長期的な一貫性をテストします。このベンチマークは仮想自動販売機を設定し、最も重要な部分は在庫管理と利益の最大化です。4,967ドルです。

しかし、Vending Bench 2のウェブサイトをチェックすると、こちらがリーダーボードです。Gemini 3 Proが依然としてナンバーワンで、5,478.16ドルです。つまり、Opus 4.5モデルはこれでは勝てませんでした。そしてこちらがArc AGI1の結果です。Gemini 3 Deep Thinkが依然としてリードしており87.5%、Opus 4.5 Thinking、64Kで80%です。もちろん、こちらが人間のベースラインで98%です。

つまり、Arc AGI 1ではまだそこまで到達していません。そしてArc AGI 2では、Gemini 3 Deep Thinkが45.1%、Opus 4.5 Thinkingが37.6%です。

価格と性能

さて、価格はどうでしょうか。ここに書いてありますが、価格は現在100万トークンあたり525ドルです。つまり、入力が5ドル、出力が25ドルです。では、これはGemini 3 Proと比較してどうでしょうか。実際、かなり高価です。

Gemini 3 Proの場合、20万トークン未満のプロンプトでは入力と出力で2ドルと12ドル、20万トークンを超えるプロンプトでは4ドルと18ドルです。つまり、先週出たばかりのGemini 3 Proより50~100%高価ということになります。さて、こちらは驚くべき統計です。Anthropicがパフォーマンスエンジニアをチームに採用しようとしているとき、彼らは非常に難しいことで有名な持ち帰り試験を課します。

そして、彼らはその全く同じ持ち帰り試験をOpus 4.5にも与えました。そして、Opus 4.5はAnthropicがこれまで採用したどの候補者よりも良い成績を収めたのです。これは考えてみると驚異的なことです。そして時間的なプレッシャーもあります。制限時間は2時間です。Anthropicが採用してきた素晴らしいエンジニア全員に対して、Opus 4.5はそれよりも優れた成績を収めたのです。

そして、もしあなたがコーディングモデルを愛しているなら、今日の動画のスポンサーであるWarpを気に入るでしょう。AIコーディングは急速に変化しています。人々はIDEを使っていました。今ではCLIベースのワークフローを使っています。しかし、まだWarpについて聞いたことがないかもしれませんので、彼らについてお話しできることを嬉しく思います。Warpは主要なAIコーディングエージェントで、Terminal Benchのようなベンチマークでトップに立っています。これはターミナルの使用能力をテストするものです。

彼らはCloud CodeやGemini CLIを抑えてナンバーワンにランクインし、Swebench verifiedではトップ5にランクインしました。Warpを使えば、実際に必要なIDEの部分だけを手に入れることができます。アプリ内でファイルを編集し、コードの差分をレビューし、本番環境に対応したコードを出荷します。そして、これはマルチエージェント制御のために設計されています。モダンなUXから、エージェントを簡単に並行して管理し、ディスパッチできます。

Warpはコードベースのインデックス作成、MCP、ルールサポート、試したいすべてのモダンなLLMをサポートしています。ぜひチェックしてみてください。感想を聞かせてください。すべてのリンクは下にあります。さて、動画に戻りましょう。

ベンチマークを超える推論能力

どうやら、Opus 4.5モデルはロジックと推論において実際に非常に優れているため、ベンチマークがテストできる能力を実際に上回ったようです。これを聞いてください。エージェント能力の一般的なベンチマークはT2 benchで、これは実世界のマルチターンタスクにおけるエージェントのパフォーマンスを測定します。あるシナリオでは、モデルは困っている顧客を助ける航空会社のサービスエージェントとして行動しなければなりません。ベンチマークは、航空会社がその変更を許可していないため、モデルがベーシックエコノミー予約の変更を拒否することを期待しています。

その代わり、Opus 4.5は問題を解決するための洞察力のある正当な方法を見つけました。まずキャビンをアップグレードしてから、フライトを変更するのです。さて、キャビンをアップグレードすべきだったかどうかは議論の余地があり、おそらくT2Bベンチマークの作者に、それがその状況における実際の最適な結果かどうかを尋ねるべきでしょう。しかしそれにもかかわらず、ベンチマークはその答えを不合格としました。なぜなら、ベンチマークはモデルがエコノミークラスの座席の変更が許可されていないため変更を拒否することを期待しているからです。

高度なツール使用機能

Anthropicは「高度なツール使用」と呼ばれるものもリリースしています。MCPサーバーの普及に伴って起こっていることは、基本的にサーバーがツールセットの名前、使用方法の説明とともに提供され、これら全てがモデルのコンテキストウィンドウに入れられ、ユーザーのプロンプトが書かれる前にコンテキストウィンドウの多くを使い果たしてしまうということです。

そこでAnthropicの解決策は、モデルが無限の数のツールを検索できる能力を作成することです。つまり、どのツールがどこにあるかを覚えておく必要がありません。単に検索し、必要なときに必要なツールだけを取得するのです。こちらが3つの機能です。1つ目は、ツール検索ツールで、これによりClaudeはコンテキストウィンドウを消費することなく、数千のツールにアクセスするための検索ツールを使用できます。

非常にメタ的ですが、基本的には他のツールを検索するためのツールを使用するということです。また、プログラマティックツールコーリングもあり、これによりClaudeはコード実行環境でツールを呼び出すことができ、モデルのコンテキストウィンドウへの影響を減らします。そして最後にツール使用例があり、これは特定のツールを効果的に使用する方法を示すための普遍的な標準を提供します。

では、なぜそれがそれほど重要なのでしょうか。彼らが提供している例をお見せしましょう。こちらがMCPツール定義です。GitHubのMCPサーバーには35のツールがあり、ロードされるとすぐにコンテキストウィンドウで26,000トークンを使用します。これらは他のより重要な何かに使用できない26,000トークンです。Slackは11ツールで21,000トークン。

Sentryは5ツールで3,000。GraphanaとSplunk。そして、使用している他の全てのMCPサーバーがすぐにコンテキストウィンドウの一部を占有していることを想像してみてください。もうそうする必要はありません。単に検索ツールに仕事に適したツールを見つけるよう依頼すれば、そのツールに必要なものだけを正確に返してくれます。

こちらがその様子です。従来のアプローチを使用して多数の異なるツールをコンテキストウィンドウにロードすると、MCPツール定義だけでコンテキストウィンドウの約40%を使用します。今では、ツール検索ツールを使用すれば、ツール定義にはコンテキストウィンドウのわずか5%しか使用されません。つまり、これはビジネス固有の部分に到達する前のコンテキストウィンドウ使用量の大幅な削減です。

効率性の向上

そして、Opus 4.5はSonnet 4.5よりもはるかに効率的です。繰り返しになりますが、こちらがSwebench verifiedで、ご覧のように約76%の精度をここまで上げるのに、Sonnet 4.5では約22,000トークンが必要でした。しかし、ご覧ください、Opus 4.5のHigh Thinkingでは、80%以上を達成していますが、使用しているのは約12,000トークンだけです。

これは約半分のトークンですが、パフォーマンスも向上させています。効率性が鍵です。私は最近このことについて何度も話してきました。モデルがどれだけ長く考えられるかだけではありません。エージェントがどれだけ長く自律的に実行できるかだけではなく、その時間で何をするかも同じくらい重要なのです。トークンあたりのインテリジェンスはどれくらいでしょうか。Opus 4.5への早期アクセスを持っていた数人の人々が何を言っているかをお見せしましょう。

こちらがDan Shipper、Everyの CEOです。今日のOpus 4.5のローンチ。これまで使った中で最高のコーディングモデルで、比較にならない。もう二度と戻らない。Ethan Mollik氏は、Opus 4.5への早期アクセスを持っており、フロンティアのすぐそばにあると思われる非常に印象的なモデルです。ExcelからPowerPointを作成するような実用的な作業を行う能力が大幅に向上し、私のLem詩テストで過去最高の結果がワンショットで得られ、さらにClaude Codeでも良い結果が得られました。

この動画を楽しんでいただけたなら、ぜひいいねとチャンネル登録をご検討ください。

コメント

タイトルとURLをコピーしました