Claude Opus 4.6を8分で解説

Anthropic・Claude・ダリオアモデイ
この記事は約10分で読めます。

AnthropicがClaude Opus 4.6をリリースした。このモデルの最大の特徴は100万トークンのコンテキストウィンドウを持つ初のOpusモデルであること、エージェントチームによる複数エージェントの協調作業が可能なこと、そして長文脈タスクにおける高い性能である。GDP valベンチマークで1,600点を記録し、GPT-5.2を上回る成績を収めた。また、OS worldベンチマークでは72.7%のスコアを達成し、コンピュータ制御能力の高さを示している。長文脈推論では前バージョンから大幅な改善が見られ、Opus 4.6は38.7%のスコアを記録した。アダプティブシンキングとコンテキスト圧縮という2つの新機能により、長時間の会話やタスクでもコンテキストを維持しながら効率的な推論が可能となっている。実証実験では、エージェントチームがゼロからCコンパイラを構築し、2週間でLinuxカーネル上で実行可能なものを完成させた。ただし、100万入力トークンあたり10ドル、100万出力トークンあたり37ドルという高額な料金設定となっており、日常的な使用よりも投資対効果が見込める特定のタスクに適したモデルである。

Claude Opus 4.6 in 8 mins!
The new Claude Opus 4.6 improves on its predecessor’s coding skills. It plans more carefully, sustains agentic tasks for...

Claude Opus 4.6の3つの重要ポイント

AnthropicがClaude Opus 4.6をリリースしましたが、これは画期的とかゲームチェンジャーといった話ではありません。むしろ、最近のLLMアップデートは正直かなり退屈になってきています。地味なアップデート、たくさんのベンチマーク結果。そんな中でOpus 4.6について知っておくべき3つのポイントがあります。

まず第一に、これは100万トークンのコンテキストウィンドウを持つ初めてのOpusモデルだということです。なぜそれが重要なのかは後ほど説明しますね。第二に、エージェントチームです。このモデルはエージェントの群れを動かすことができて、これは本当に素晴らしい機能なんです。そして第三に、このモデルは長文脈タスクの実行において非常に優れています。長時間の実行が必要で、大量の情報を理解する必要がある場合に真価を発揮します。

この3つのポイントが、Opus 4.6を開発者にとって夢のようなモデルにしているんです。でも開発者の夢を壊すものが1つあります。それはコストです。ご存知の通り、Anthropicには3つのクラスのモデルがあります。Haikuは最も安価ですが、最も高速で、最も性能が低いモデルです。次にSonnetがあり、これはバランスの取れたモデルです。噂によれば、Sonnet 5がもうすぐリリースされるそうですね。そして第三に、彼らのフラッグシップで最も賢いモデルがありますが、これは最も高価で最も遅いモデルでもあります。

Opus 4.5からの進化

Opus 4.5はすでに多くのタスク、特にエージェンティックなタスクやプログラミングタスクにおいて本当に優れたモデルでした。そして今、私たちは彼らの最も賢いモデルのアップグレード版、Opus 4.6を手に入れたわけです。

Opus 4.6はいつものようにベンチマークを圧倒しています。まず、GDP valというベンチマークがあります。このベンチマークのコンセプトは、LLMが経済的に重要なタスクを実行できるかどうかを評価するものです。MMLUやMMLU Pro、GSM8Kといった他のベンチマークのように、今やほぼ飽和状態にあるようなものではなく、このベンチマークはLLMが知識労働をこなせるかを評価します。知識労働というのは、多くのオフィスで人間が通常行っているような仕事のことです。

このモデル、Opus 4.6は1,600ポイントを獲得しました。これはEloレーティングのようなランキングポイントで、世界で2番目に優れたプログラミングモデルであるGPT-5.2よりも高いスコアなんです。

コンピュータ使用能力とプログラミング性能

次に、このモデルが優れた成績を収めている重要なベンチマークはコンピュータ使用です。これはOS worldというベンチマークで、LLMを使ってコンピュータを制御できるかどうかを評価するものです。このモデルは72.7%のスコアを獲得しました。SWE bench verifiedに関しては、それほど大きな改善は見られません。

プログラミングタスクを正確に解決することに最適化しているわけではないようですね。むしろ、モデルが問題を理解し、計画を立て、プログラミング自体を行う能力を向上させることに注力しているようです。最終的な解決策だけではなく。ですから、SWE bench verifiedがあまり改善していないのも理解できます。

次に私の目を引いたベンチマークはARC-AGA2です。このベンチマークは正直なところ、私自身が解こうとしても解けませんでした。そしてこのモデルは68.8%のスコアを獲得しています。これは汎用的な関連タスクを解こうとしているLLMとしては驚異的な成績です。これも私を感銘させたベンチマークの1つですね。

他にも、このモデルが優れた成績を収めているエージェンティックなベンチマークがいくつかあります。エージェンティック検索やエージェンティックツール使用などです。これらはモデルが良い成績を収めているベンチマークです。

100万トークンのコンテキストウィンドウの重要性

さて、ここから先が最も重要な部分です。このモデルは100万トークンのコンテキストウィンドウをサポートしているため、なぜそれが重要なのか、そしてモデルがどのように機能しているのかを理解することが非常に重要です。

もしプログラミングにLLMを使ったことがあるなら、重要な問題に直面したことがあるはずです。LLMとチャットしている間に、コンテキストロットが発生する可能性があるんです。コンテキストロットとは何でしょうか。LLMがコンテキストウィンドウの限界に達しようとしているとき、LLMのパフォーマンスが低下します。これが1つ目の問題です。

2つ目の問題は、十分に大規模なコードベースがある場合、LLMがすべてを適切に理解できないということです。例えば、コードの一部を無視してしまったり、コードの一部を混乱させてしまったりします。コードベースからデータを取得する場合でも、LLMにコードベースを与えて理解させてからコーディングさせる場合でも、長いコンテキストは常に非常に重要なんです。

個人的には、長いコンテキストが必要な場合は常にGeminiを推奨してきました。Geminiは業界最高クラスの長文脈モデルの1つを持っているからです。しかし今、Opus 4.6が100万トークンのコンテキストウィンドウを持っているという事実があります。

Anthropicチームは2つのベンチマークをリリースしました。1つは長文脈検索ベンチマークで、長いコンテキストから情報を取得するものです。2つ目は長文脈推論です。コンテキストロットが発生するかどうかを評価します。

これを見ると、Opus 4.5は256,000トークンのコンテキストウィンドウで93%の平均一致率を獲得しています。そしてOpus 4.6では、100万トークンのコンテキストウィンドウで76%のスコアを獲得しています。前のバージョンである100万トークンのコンテキストウィンドウを持つSonnet 4.5はわずか18%の一致率でした。これほど長いコンテキストに対して大幅な改善です。256,000トークンのコンテキストウィンドウでも、これは素晴らしい成果です。

長文脈推論においても、Opus 4.6は前の100万トークンのベンチマークよりもはるかに優れたスコアを獲得しています。ここで見ると、前の100万トークンのコンテキストウィンドウベンチマークはSonnet 4.5 with BFSで25.6%のスコアでしたが、Opus 4.6は38.7%のスコアを獲得しています。全体として、これは長文脈推論において素晴らしいモデルだと思います。

アダプティブシンキングとコンテキスト圧縮

これらのコンテキストウィンドウの改善に加えて、Anthropicはこのモデルを長文脈タスクに対してさらに優れたものにする2つのことを行いました。1つはアダプティブシンキングと呼ばれるものです。アダプティブシンキングは、モデルがシンキングを使うべきかどうかを判断できるようにします。

なぜこれが重要なのでしょうか。もしモデルがシンキングを使うか使わないかを決定できない場合、常にシンキングモードを有効にして、大量のトークンを消費する可能性があるからです。コンテキストウィンドウを節約し、より高速な推論を得るために、アダプティブシンキングは非常に役立ちます。低、中、高の4つのモードがあり、最大モードもあります。

そしてコンテキスト圧縮と呼ばれるものもあります。コンテキスト圧縮は基本的に、長時間の会話がある場合、モデルがコンテキスト圧縮を使用して、これまでに議論したすべてのことを自動的に要約・統合するというものです。これにより、そのコンテキストが失われることなく、同時に新しい会話が過去の会話と一貫性を保って繋がっていきます。

これも、Claude Codeや他のツールを使って、より長いコンテキストと長期間のタスクを実行するのに非常に役立ちます。この2つのことが、100万トークンのより長いコンテキストウィンドウをはるかに魅力的なものにしていると思います。

エージェントチーム機能

最後に、私が本当に本当に興奮している最も重要なことは、このLLM企業がエージェントスウォーム、つまりAnthropicがここで呼んでいるエージェントチームを実現しようとしていることです。

1つのエージェントに特定のタスクを実行させるのではなく、10個や20個のエージェントを起動して、共通の目標に向かって働かせることができるでしょうか。これがまさにAnthropicがエージェントチームで実現しようとしていることです。これはClaude Codeの一部となる機能です。もしこれについて別のビデオを作ってほしいと思ったら、コメント欄で教えてくださいね。

でも今のところ、彼らはデモを公開していて、このケースではエージェントチームにゼロからCコンパイラを構築するよう依頼しました。文字通りゼロからです。彼らがしなければならなかったのは、ただCコンパイラを作ることだけでした。これは冗談のような話に聞こえますが、実際にCコンパイラを作るように指示しただけで、2週間でモデルはLinuxカーネル上で実行されるCコンパイラを構築することに成功したんです。

これはローカルホストの冗談ではなく、コンパイラは実際に動作して機能しました。非常に興味深いです。YouTubeの説明欄にブログ投稿へのリンクを貼っておきますので、試してみてください。基本的には、複数のエージェントを起動し、エージェントチームを使用して作業を進めました。やらなければならないことがあり、それを無事に完了させることができました。

エージェントチームが作業している間、異なるモデルや異なるエージェントにそれぞれ異なる役割があり、すべてが最終的に統合されて、最終的な出力が得られます。私はエージェントチームを試すのを本当に楽しみにしています。

価格と使用場面

Opus 4.6は素晴らしいモデルです。それについては疑いの余地がありません。このモデルはエージェンティックなタスクやコーディングタスクにおいて極めて優れています。何かやりたいことがあれば、今日のLLMができる範囲内であれば、明らかにモデルがあなたのためにそれを実行できます。

しかし問題は、これが日常使いのモデルかどうかです。明らかに違います。なぜなら、このモデルは高価だからです。これは現在市場で最も高価なモデルの1つです。

200,000トークンを超えるたびに、プレミアム価格が適用されます。長いコンテキストには優れていますが、コンテキストウィンドウで200,000トークンを超えると、より高額になります。価格は100万入力トークンあたり10ドル、100万出力トークンあたり37ドルです。

先ほど述べたように、これは非常に高価なモデルです。毎回必要というわけではないかもしれません。しかし、これだけのお金を使うことを気にしないか、またはこれだけのお金で良い投資収益率が得られるタスクがある場合、これが使うべきモデルです。Cursorで使用できますし、Windsurfでも使えます。Claude CodeやClaudeのAnthropicエコシステムでも使用できます。

このモデルについてどう思うか教えてください。また別のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました