もう追いつけない… Claude Opus 4.6とGPT-5.3の登場

Anthropic・Claude・ダリオアモデイ
この記事は約9分で読めます。

AnthropicがClaude Opus 4.6をリリースし、ナレッジワーク領域での優位性を示した。このモデルは100万トークンのコンテキストウィンドウを持つ初のOPUSモデルであり、複数のベンチマークで最高水準のスコアを記録している。特にGPT Evolveベンチマークで1500 ELOスコアを突破した初のモデルとなり、44の異なる職業における実用的なタスクで優れたパフォーマンスを発揮する。同時にOpenAIもGPT-5.3 Codexを発表し、25%の速度向上を実現するなど、フロンティア研究所間の競争が激化している。Claude Codeには複数のエージェントが並行して作業できるチーム機能が追加され、エンタープライズ顧客向けの機能強化が進む。一方で料金体系は依然として高価格帯に位置しており、20万トークンを超える利用では特にコストが急増する構造となっている。

I Can't Keep Up... (Opus 4.6 & GPT-5.3)
Two major releases - GPT-5.3-Codex and Opus 4.6! Biggest release day of the year!My Dictation App: www.whryte.comWebsite...

フロンティア研究所からの大型リリース

フロンティア研究所からの初となる大型リリースが発表されました。それはAnthropicからのものです。彼らは本日、Claude Opus 4.6をリリースしています。キャッチフレーズは「Claudeは2025年にコーディングを変革した。2026年にはナレッジワークを変革する」というものです。

パターンは非常に明確です。Anthropicは明らかにナレッジワークに焦点を当てており、エンタープライズと開発者に注力することでそれを実現しています。そしてこれまでのところ、その戦略は大きな成果を上げているようです。

では、このモデルを見ていきましょう。モデル以外にも、並行して作業できるエージェントチームを含む新機能がリリースされています。Claude in Excel、Claude in PowerPointもあり、初のAI CEOまたは少なくともチームリーダーが誕生するかもしれません。

ナレッジワークに焦点を当てているため、多くの重要なベンチマークで最高水準を達成しています。つまり、単純なコーディングエージェントから脱却し、経済的に実行可能で有用なナレッジワークを実行できるシステムへと移行しているのです。

また、これは100万のコンテキストウィンドウを持つ初のOPUSモデルでもあり、以前のバージョンと比較してはるかに有用になっています。

録画中に、OpenAIもGPT-5.3 Codexを発表しました。これは彼らの最高水準のコーディングモデルで、GPT-5.2と比較して25%高速に動作するようになりました。おそらく、そのリリースについては別の動画を作成すると思いますが、まずはOpusについて話しましょう。

Claude Opus 4.6の主要機能

Anthropicによると、このモデルはより大規模なコードベースで作業できます。コードレビューとデバッグスキルが向上しており、自分のミスを捉えることができます。100万のコンテキストウィンドウを持ち、財務分析の実行、リサーチの実施、ドキュメントの使用と作成といったタスクを実行できるようになりました。

最近のClaude Code内でのCo-workのリリースに伴い、Anthropicはこれらすべての機能を単一の製品に統合する方向に進んでいるようです。

Humanity’s Last Examでは、ツール使用ありで53.1%を突破した初のモデルとして最高水準を達成しています。2番目に優れているのはGPT-5.2 Proです。また、OpenAIのGPT Evolveで1500 ELOスコアを突破した初のモデルでもあります。

すべてのベンチマークの中で、このGPT Evolveの特定のベンチマークが最も重要だと思います。なぜなら、44の異なる職業にわたる経済的に実行可能な実世界のタスクでモデルのパフォーマンスを測定するからです。これらは複雑なタスクであり、実世界のユースケースにおけるモデルの能力をテストします。

いくつか例を挙げましょう。これは製造エンジニアリングのタスクです。もう一つは注文管理システムです。そして最後のものはビデオプロデューサーです。

ベンチマーク性能の比較

予想通り、以前のOPUS 4.5と比較しても優れていますが、SWE-benchでは以前のGPT-5.2 Codexと比較してわずかに優れている程度です。しかし実際には、OpenAIはGPT-5.3 Codexでこれを全く新しいレベルに引き上げています。彼らは77.3%のスコアを記録しているからです。

これは以前のバージョンと比較して大幅な飛躍です。ですから、OPUSはついにGPT-5.3から本当の競争相手を得ることになると思います。

本日発表されたもう一つの機能は、Claude Codeが複数のタスクに協力して取り組むためのエージェントチームを編成できるようになったことです。これは間違いなく時間をかけて探索したい機能であり、おそらくこれについてより詳細な動画を作成すると思います。

これは非常に優れた機能です。なぜなら、共有タスク、エージェント間メッセージング、集中管理された管理機能を持つチームとして、複数のClaude Codeインスタンスが協調して作業できるようになるからです。

サブエージェントとエージェントチームの違い

ただし、これは以前Claude Codeにあったサブエージェントとは異なります。サブエージェントとエージェントチームの簡単な比較を紹介しましょう。

サブエージェントの場合、それぞれが独自のコンテキストウィンドウを持ち、結果はオーケストレーターまたは呼び出し元に返されます。エージェントチームの場合、これらはClaude Codeの独立したインスタンスです。つまり、独自のコンテキストウィンドウを持つだけでなく、完全に独立しており、エージェントチーム内でサブエージェントをトリガーすることもできると思います。

コミュニケーションに関しては、サブエージェントは結果をメインエージェントにのみ報告します。チームは互いに直接メッセージを送り合います。

調整に関しては、サブエージェントの場合、オーケストレーターまたはメインエージェントが調整を担当することがわかっていました。この場合、自己調整を伴う共有タスクリストがあります。特にOpen Clawのような製品で、複数のエージェントが互いに調整できることが示されており、AnthropicもClaude Code内でそれが可能であることを示しています。

では、ユースケースは何でしょうか。サブエージェントは最終結果のみが重要な焦点を絞ったタスクに最適です。エージェントチームは議論とコラボレーションを必要とする複雑な作業を実行できます。単純なサブエージェントを超える専門知識を持つ複数の異なるエージェントを持つことができます。

ただし、コストには注意が必要です。サブエージェントは結果を要約してメインコンテキストに返すため、コストが低くなります。エージェントチームの場合、各チームメイトが別個のClaudeインスタンスであるため、コストが高くなります。

これについてはより詳細な動画を作成します。興味がある方は、チャンネルを登録してください。試してみたい場合は、Claude Codeで利用できるようになりますが、デフォルトでは無効になっています。作動させるには有効にする必要があります。

詳細なベンチマーク分析

では、ベンチマークについて話しましょう。SWE-bench 2では、Opusファミリーで最高水準であることがわかりました。OpenAIはそれを全く異なるレベルに引き上げました。SWE-benchでは、Opus 4.5と非常に似ています。SWE-bench Verifiedでは、GPT-5.3はまだ後れを取っています。

それらの中でより興味深いベンチマークはARCGI-2であり、競合他社をはるかにリードしています。つまり、非常に優れた推論能力を持っているようです。

以前のOPUSと比較した最大の差別化要因は、コンテキストウィンドウになるでしょう。特にコーディングにおいて、能力の大きな飛躍が見られるとは思いません。しかし、これは100万のコンテキストウィンドウを持っているため、はるかに大規模なコードベースで作業できるようになるため、コーディングにとっては大きな飛躍となるでしょう。そして、圧縮が以前のバージョンほど積極的にならないことを願っています。

システムカードを見ていたのですが、64Kコンテキストと最大100万コンテキストの両方で、長文脈検索に関しては最高水準のようです。現在、これは長文脈検索で最高水準です。これはGoogleがリードしていた分野ですが、今では他のすべての企業が追いついているようです。

他にもいくつかのベンチマークがあります。繰り返しになりますが、他のモデルを上回っています。しかし、私はより技術的な詳細に興味があります。ただし、まず安全性について話しましょう。

安全性と整合性

Anthropicによると、Opus 4.6は欺瞞、秘密主義、ユーザーの妄想の助長、悪用への協力などの不整合な行動の発生率が低いことが示されました。全体として、その前身であるClaude Opus 4.5と同じくらい整合性が取れています。

しかし、これは最近のClaudeモデルの中で、良性のクエリに答えられない過剰拒否の発生率が最も低い初のモデルです。これはエンドユーザーにとって良いニュースです。

API経由でこれを使用している場合、いくつかの新機能があります。まず一つ目は適応的思考です。Claudeは特定のクエリに対してどれだけの深い推論を割り当てるかを決定できるようになりました。これは非常に素晴らしいことです。また、開発者は推論予算を設定する能力を持つようになりますが、これは本当に優れた機能です。

Gemini 2.0のような他のモデルでも適応的思考ができることを見てきました。つまり、これは業界標準になりつつあります。

現在、設定できる4つの異なる推論努力レベルがあります。低、中、高、最大です。デフォルトでは、高い推論努力になります。そして、コンテキスト圧縮を伴う長いコンテキストウィンドウを持っています。

これは少し物議を醸すかもしれませんが、APIでは、会話が設定可能なしきい値に近づくと、モデルは自動的に古いコンテキストを要約して置き換えます。これにより、Claudeは制限に達することなく、より長いタスクを実行できるようになります。そのしきい値を設定できるようになると思います。

これまでのところ、Claude Codeのデフォルト圧縮設定は当たり外れがありました。

料金体系

では、料金について話しましょう。この100万コンテキストウィンドウには、2つの異なる料金体系があります。20万トークン未満の場合は、Opus 4.5の料金が使用されます。

しかし、20万トークン以上を使用している場合は、非常に早く高額になる可能性があります。サム・アルトマンが指摘したように、Anthropicは依然として最も高価なモデルプロバイダーですが、人々は依然としてそれに料金を支払っています。

Opusは出力で128,000トークンをサポートしており、これは特にプログラミングタスクやナレッジワークに非常に有用です。また、API上でははるかに高いプロコストで利用可能なUS ONインファレンスもあります。興味がある場合はそれを選択できます。

Anthropicの戦略

一つのことは明らかです。Anthropicは本当にエンタープライズ顧客に向けて動いており、そのためナレッジワークに特に焦点を当てています。そのプロセスで、最高のコーディングモデルのいくつかを構築しています。

間違いなく、GPT-5.3から競争を受けることになるでしょう。これは私たち開発者にとって素晴らしいことです。その能力のいくつかをカバーする動画をいくつか作成する予定です。これはリリースの簡単な概要でした。

この新しいモデルでのあなたの体験がどうだったか教えてください。それでは次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました