Claude Opus 4.8:変更されたすべての要素がここに

GPT-5
この記事は約12分で読めます。

Anthropicが新たにリリースしたAIモデル「Claude Opus 4.8」について、追加された新機能やベンチマーク性能、今後の展望を解説した内容である。今回のアップデートは前バージョンからの段階的な向上にとどまるものの、長時間に及ぶタスクを実行できる動的ワークフローの導入や、ユーザーからの要望が多かった思考予算(思考トークン量)のマニュアル調整機能の復活など、実用面で大きな進化を遂げている。さらに、高速モードの料金値下げや、開発者向けのメッセージAPIの改善についても詳しく紹介している。

Claude Opus 4.8: Here is Everything that Changed
Checkout the AI Learning paths: In this video I break down Anthropic’s Claude Opus 4.8 release, which they frame as an i...

新しいClaude Opus 4.8の概要と主な変更点

AnthropicがOpus 4.8をリリースしました。今回のアップデートはOpus 4.7からの段階的な改善のように見えますが、長時間のタスクを実行するために設計されています。しかし、最も重要なのはこのリリースと同時に発表された機能です。新しくワークフロー機能が導入され、Opus 4.8を数時間から数日間にわたって実行できるようになります。また、彼らが高速モードの料金を実際に引き下げたのは今回が初めてのことです。これは今までになかった動きです。さらに、xAIやSpaceXとの巨大な提携によって、数週間のうちに一般的なユーザーもmayクラスのモデルを利用できるようになる兆候もあります。

そして、このモデルはOpus 4.7に対するコミュニティからのフィードバックに触発されて開発されたようです。Anthropicのいくつかの選択に対しては多くの反発がありましたが、今回のリリースでその一部が修正されています。具体的には、思考モードや思考予算を設定するコントロール機能が復活しました。自動で判断する適応型思考機能が廃止されたのは非常に素晴らしいことです。これでコントロール権がユーザーの手元に戻ってきたからです。そこで、この動画では具体的に何がリリースされたのかを示し、今後の未来がどうなるかについて話していきたいと思います。

こちらがClaude Opus 4.8を紹介するブログ記事です。Anthropicが普段公開するものと比べると、かなり短い記事になっています。最初に気づくのは、以前のバージョンと比較して、いくつかのベンチマークで大幅に向上している点です。なぜかAnthropicは段階的な改善と呼んでいますが、現時点では性能の飛躍的な違いを実感したり気づいたりすることはそれほどないと思います。モデルの応答の仕方や、基本的にはモデルのアイデンティティや挙動の領域で違いが出てくることになるでしょう。

エージェント的なコーディングを評価する「Sweep-bench Verified」では、GPT-5.5を10ポイント近く上回っています。彼らが報告したベンチマーク全体において、非常に優れた結果を残しています。Anthropicは本当に優れたコーディングモデルを作りますが、今回のリリースでもまさにそこが注力されています。一般的に、これらのモデルは間違っているときでも自信満々に正しいと主張することがよく見られます。これはハルシネーション問題の一部です。Anthropicによると、今回のモデルは自分が自信がないときや間違っているときに、それを認める能力が大幅に向上しているとのことです。

動的ワークフローと柔軟な思考コントロール機能

今回お話しするいくつかの新機能について説明します。1つ目は動的ワークフローです。これは基本的に、Claudeが複数のサブエージェントを作成できるようにするものです。今回のケースでは、長時間のタスクのために何百もの並列サブエージェントを動的に生成できると説明されています。これは、検証可能で最終的にClaudeがすべてを一つにまとめることができるコードの移行作業のようなタスクに特に役立ちます。

2つ目は、Claude.aiとコワークにおける労力コントロール機能です。Opus 4.7のClaude.aiでは、適応型思考のオン・オフしかできませんでした。これは、特定のタスクに対してどれだけの思考予算を割り当てるかをモデルが適応的に判断するものでした。今回、そのコントロール機能が復活し、低、中、高、超高、そして最大まで設定できるようになりました。これはAnthropicが多くの反発を受けた部分です。ユーザーが思考トークンの予算を設定できなかったためですが、正直なところ、フロンティア研究所がどれだけ改善を重ねても、適応型思考はまだ非常に使い勝手が悪いです。そのため、手動でのコントロールが大幅に増えたのは素晴らしいことです。

3つ目は、メッセージAPIがメッセージ配列内でのシステムエントリを受け付けるようになったことです。これは開発者にとって極めて重要になります。通常、新しいメッセージを送信したりシステムプロンプトを更新しようとしたりすると、キャッシュが壊れてしまいます。つまり、それらはキャッシュされたトークンではなくなるため、余計なコストを支払うことになります。これについては最近動画を作成しましたので、ぜひご覧になることをお勧めします。今回の変更により、プロンプトキャッシュを壊したりユーザーのターンを経由してアップデートをルーティングしたりすることなく、タスクの途中でClaudeへの指示を更新できるようになります。これは開発者にとって重要な意味を持ちます。Claudeをベースに開発を行っているすべての人に深く関連する内容だと思うので、これについてはおそらく専用の動画を個別に作成する予定です。

ブログ記事の最後の方では、すべてのお客様に向けてmayクラスのモデルが登場することが示唆されています。現在はプロジェクト・グラス・ウィングを通じて一部のお客様のみに提供されていますが、Anthropicは計算資源の確保により、これを間もなく一般のユーザーにも提供できるようになる見込みです。今後の動向を見守る必要があります。また興味深いことに、彼らはOpusレベルのモデル、あるいは同様の機能を持つモデルのコストを下げたいとも述べており、これは重要な動きになるでしょう。Anthropicは現在、それを実際に実現できるだけの十分な計算資源にアクセスできているのだと思います。

価格設定に関しては、まったく変わっていません。引き続き、入力トークン100万回あたり5ドル、出力トークン100万回あたり25ドルを支払うことになります。Anthropicのこの戦略は非常に重要だと思います。他の多くの研究所は現在、値上げを行っています。Anthropicは最初からこの価格を維持しており、結果的にそれが正しい決断だったようです。彼らは健全な利益率を維持し、期待値もコントロール下に置いてきました。他の研究所は価格を上げざるを得なくなっており、それに対して多くの反発が起きています。その良い例が、GoogleのFlash 3.5です。

次に、ワークフロー、デモ、そして興味深いベンチマークについてお話しします。ですがその前に、誰かが費用を支払わなければなりません。本日のスポンサーからの重要なお知らせです。

大規模言語モデルを使った開発を学んでいる方なら、ほとんどの講座がノートブックの段階で終わってしまうことに気づいているかもしれません。JetBrainsとAWSは、さらに一歩進んだ2つのスキルパスを用意しました。PyCharmでコードを書き、SageMakerでトレーニングを行い、最終的にAWS上にデプロイ可能なエンドポイントを構築します。このセクションのスポンサーシップのために彼らから連絡があり、私はしばらく時間をかけてパス1を体験してみました。それが具体的にどのようなものかをお見せします。

2つのパスがあります。パス1は「AWSでPythonを使用してカスタムLLMを構築およびデプロイする」で、私が体験したものです。パス2は「機械学習から生成AIへ」で、Bedrockを活用したアプリケーションやRAGアシスタントの構築に重点を置いています。どちらも終了時にはJetBrainsとAWSの共同ブランドの証明書が発行されます。各レッスンは、Toolboxを通じてPyCharm内で直接開きます。そのため、講座を見るためのブラウザのタブとコードを書くためのエディタを行き来する代わりに、タスクの説明が書いているコードのすぐ隣に表示されます。ステップを完了して実行し、IDEの中から次のモジュールへ進むことができます。

AWS側に関しては、事前支払済みのサンドボックスアカウントで動作します。そのため、独自のAWS環境を設定したり、請求を紐付けたりする必要はありません。SageMakerのジョブを立ち上げ、エンドポイントをデプロイし、Pythonスクリプトからそこにアクセスすることができます。IDEのプロジェクトと動画レッスンは無料です。AWSのサンドボックスラボを利用するにはプロのサブスクリプションが必要ですが、実践的な部分を試してみたい場合は7日間の無料トライアルがあります。AIのスキルパスを探索したい場合は、リンクを動画の概要欄に掲載しておきます。それでは動画に戻りましょう。

ベンチマークの詳細検証とコーディングにおける実践

彼らが強調していたベンチマークの一つについて、簡単に補足しておきます。エージェント的なターミナルコーディングを評価する「TerminalBench 2.1」を見ると、GPT-5.5の78%に対して、Opus 4.8は74%となっています。しかし、ここには違いがあります。脚注によると、すべてのモデルのスコアをTerminus 2のパブリックハーネスを使用して報告したとあります。つまり、Anthropicはベンチマーク自体に付属しているハーネスを使用しています。GPT-5.5がCodec CLIハーネスで報告したスコアは84.4%です。私が過去の動画でも伝えようとしてきた主なポイントは、モデルで使用するハーネスが現在でははるかに重要になっているということです。ハーネスを変更し、たとえば彼らがClaudeのコードを使用すれば、間違いなくさらに良い結果が得られます。これらのハーネスの一部はモデルに最適化されていないからです。

それでは簡単なテストを見ていきますが、まずはClaude Codeにおける動的ワークフローについてお話ししましょう。これは数日前にリークされた新機能です。非常に重要なので、これについてはもっと詳細な動画を作成する予定です。ここでのアイデアは、検証可能な報酬を伴う巨大なタスクをClaude Codeに割り当てるというものです。これはコードの移行作業などが該当します。すると、Claude Codeが動的にワークフローを導入します。これは本質的に、Claude Codeがオーケストレーションスクリプトを動的に記述し、1つのセッション内で数十から数百の並列サブエージェントを実行し、成果物が手元に届く前にその作業をチェックするという仕組みです。

ワークフローを使用する場合、サブエージェントへの単一の呼び出しと比較して、はるかに多くのトークンを使用することに注意してください。独自のオーケストレーション設定を持ち、タスクを達成するために必要なサブエージェントの数をモデル自身が決定するためです。現時点での例としては、このようなものが挙げられます。すべての内部フェッチ呼び出しを新しいHTTPSクライアントラッパーに移行するワークフローを作成して、と指示を出します。この場合、検証可能な内容を伝えるだけで、モデルがそのタスクを達成するために複数のサブエージェントを生成してくれます。

これが利用できる具体的なタスクの例としては、先ほどお話しした大規模な移行作業、あるいは特定の機能の実装を二重チェックしたい場合、コードベース全体のバグハント、あるいは最適化ワークフローを実行したい場合などが挙げられます。これらの新しい動的ワークフローにとって、非常に優れたユースケースになるでしょう。

この優れた一例が、Bunの書き換えです。Bunは最近Anthropicに買収された企業、あるいはパッケージです。当初これはZigで書かれていましたが、動的ワークフローを使用してRustに移行され、既存のテストスイートの99.8%を通過しました。これが可能だったのは、Bunのコードが非常に検証しやすかったからです。システムを構築する際には、コードが検証可能であることを確認してほしいという点を、皆さんには本当に理解していただきたいです。すべてに対して実行されるユニットテストが存在すること、それこそが、既存の実装に対して新しい実装が正しいかどうかをモデルがチェックできる方法なのです。

久しぶりとなるAnthropicからの最初の値下げについてお話ししましょう。Opus 4.8の高速モードは、2.5倍の速度を提供しますが、従来のモデルの料金よりも3倍安くなりました。これは非常に素晴らしいニュースです。高速モードは、迅速な実装が必要で、モデルが大量のコードを生成するのを待ちたくないときに本当に実力を発揮するからです。

描画タスクによる性能テストとまとめ

このモデルを使った簡単なテストをいくつかお見せします。Opus 4.8の設定を「高」にして使用します。これは彼らが推奨しているデフォルトの設定です。そして、ペダゴガの非常にクリエイティブで凝った、詳細な散歩の風景と、いくつかの桜の木を含む美しい庭のデザインおよび作成を指示しました。それではこれを実行してみましょう。まず、思考トークンがもう表示されなくなっていますね。要約された思考予算や思考トークンさえ見えないのは興味深いです。次に、インラインでのツール呼び出しを行います。現時点で、Web版のClaudeに含まれているフロントエンドデザインスキルを使用することを決定し、現在コードを記述しています。

まず、4.7と比べて少し速くなっているように感じられます。実際に4.7でもこれを実行してみる予定です。しかし、異なる思考予算でこれを実行した場合に、どのような違いに気づくかを見てみたいと思います。残念ながら0.7の表記はなくなってしまったので、現在は「最大」を使用しています。そして、もう一方のタブでは「低」を使用しています。

結果が出揃いました。こちらはOpus 4.8の「高」からの出力です。実際、かなり良い出来栄えです。異なる機能をオン・オフできるのは個人的に気に入っています。こちらはナイトモードで、自動回転はオフになっています。中央のどこかに月があるようですね。

これと比較して、こちらは4.8の「最大」の出力です。こちらもすべての機能を備えています。しかし、今回の特定のターンではクリエイティビティがそれほど高くなかったように感じられます。回転させるコントロールが用意されていないか、あるいはそれほど悪くはありませんね、雲も追加されているようです。最初は全体像が見えていませんでしたが、全体的にデザインが非常に得意で、ここではかなり立派な仕事をしてくれたようです。

今度は同じ内容を「低」の推論で実行したものです。どのようなUIが作成されるかという点で、実際に違いを確認することができますが、必要なコントロールはすべて揃っています。これは比較的シンプルなタスクですが、全体として非常に素晴らしい成果を上げていると思います。

というわけで、今回はOpus 4.8に関する短い動画でした。より詳細な評価は今後行う予定です。私自身のプロジェクトで使い始めて、また報告します。何はともあれ、この新しいモデルを楽しんでください。私たちは加速を目の当たりにしていると思います。これはOpus 4.7のリリースからわずか40日後にリリースされました。リリースのサイクルという点では確実に加速しています。機能の面でどうなるかは、これから見ていく必要があります。いずれにせよ、この動画が役に立ったと思っていただければ幸いです。ご視聴ありがとうございました。それではいつものように、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました