Anthropic社が新たにリリースしたAIモデル「Claude Opus 4.8」について解説する動画。本モデルは前バージョンのOpus 4.7から微修正された、長時間実行タスク向けのモデルである。数時間から数日規模の処理を可能にする動的ワークフロー機能や、ユーザーが思考プロセスのトークン量を調整できる思考予算の手動コントロール機能が新たに導入された。他社のAIモデルが値上げに踏み切る中、価格を据え置きつつ高速モードの料金を3分の1に引き下げた点も特徴である。検証可能なタスクにおける高い性能や、実際のデザイン生成タスクによる思考予算ごとの挙動の違いを実演している。

長時間タスクに特化した新モデル「Claude Opus 4.8」の登場
よし、それじゃあAnthropicがOpus 4.8をリリースしたばかりなので見ていきましょう。今回のアップデートはOpus 4.7からの段階的な改善のように見えますが、長時間実行されるタスク向けに設計されています。しかし最も重要なのは、このリリースと同時に発表された新機能の数々です。彼らはワークフローという機能を導入しました。これによってOpus 4.8を数時間、あるいは数日間にわたって実行できるようになります。また、彼らが高速モードの料金を引き下げたのは今回が初めてのことです。これまでそのような値下げは見られませんでした。さらに、xAIやSpaceXとの巨大な提携のおかげで、今後数週間のうちに一般ユーザー向けにmayクラスのモデルが登場することを示唆する内容もあります。
そして今回のモデルは、Opus 4.7に対するコミュニティからのフィードバックに触発されて開発されたようです。Anthropicが前回のリリースで行ったいくつかの選択に対しては多くの批判がありましたが、今回のリリースで彼らはその一部を修正しています。具体的には、思考モードや思考予算を設定するコントロール機能を復活させました。アダプティブ思考機能が廃止されたのですが、これは素晴らしい変更です。なぜなら、これによってコントロール権がユーザーの手元に戻ってきたからです。そこでこの動画では、実際に何がリリースされたのかを正確にお見せし、今後の未来がどうなるかについて話していきたいと思います。
ベンチマークの向上と「間違いを認める」精度の改善
さて、これがClaude Opus 4.8を紹介しているブログ記事です。Anthropicが普段公開するものと比べると、かなり短いブログ記事になっています。まず最初に気づくのは、以前のバージョンと比較して、いくつかのベンチマークで大幅にスコアが向上している点です。ただ、なぜかAnthropicはこれを段階的な改善と呼んでいます。正直なところ、現時点では性能の跳ね上がりにおいて、そこまで劇的な違いを体感することはないかもしれません。変わってくるのはモデルがどう応答するか、つまり基本的にはモデルのアイデンティティや挙動の違いになります。エージェントによるコーディングのベンチマークである「SWE-bench Verified」において、本モデルはGPT-5.5をほぼ10ポイント上回っています。総合的に見て、彼らが報告しているベンチマークでは非常に優れた成果を収めています。
Anthropicは本当に優れたコーディングモデルを作りますが、今回のリリースでも本質的にそこへ焦点を当てています。一般的に、これらのモデルは間違っているときでも、自分が正しいと自信満々に主張する傾向が見られます。これはハルシネーション問題の一部です。Anthropicによると、今回のモデルは自分が自信のないときや間違っているときに、それを認める能力が大幅に向上しているとのことです。
動的ワークフローと思考予算の復活
それでは、この動画で取り上げるいくつかの新機能について話していきましょう。1つ目は動的ワークフローです。これは基本的に、Claudeが複数のサブエージェントを生成できるようにする機能です。今回のケースでは、長時間実行されるタスクのために、並列して動作する何百ものサブエージェントを生成できると説明されています。これは、検証可能であり最終的にClaudeがすべてを一つに統合できる、コードの移行のような作業において特に役立ちます。
2つ目は、claude.aiとチームワークスペースにおけるエフォートコントロール、つまり思考予算の管理です。Opus 4.7を搭載したclaude.aiでは、アダプティブ思考のオンとオフを切り替えることしかできませんでした。これは、特定のタスクに対してどれだけの思考予算を割り当てるかを、モデルが適応的に判断する機能でした。今回彼らはコントロール機能を復活させ、低、中、高、超高、そして最大の中から設定できるようになりました。これはAnthropicに対して多くの批判が集まっていた部分です。というのも、ユーザーが思考トークンの予算を設定できなかったからです。正直に言って、最先端の研究所がどれほど改善を重ねてきても、自動の「アダプティブ思考」は依然として使い勝手がよくありません。そのため、手動でのコントロールが大幅に増えたのを見るのは素晴らしいことです。
3つ目は、Messages APIがメッセージ配列内のシステムエントリーを受け付けるようになった点です。これは開発者にとって極めて重要な変更になります。通常、新しいメッセージを送信したり、システムプロンプトを更新しようとするとキャッシュが切れてしまいます。つまり、それらはキャッシュされたトークンにならないため、余計なコストを支払うことになっていました。これについては最近動画を作ったので、ぜひ見ることを強くお勧めします。今回のアップデートにより、プロンプトキャッシュを破棄したり、ユーザーとのやり取りを挟んだりすることなく、タスクの途中でClaudeへの指示を更新できるようになりました。これは開発者にとって非常に大きな意味を持ちます。Claudeの上でプロダクトを構築しているすべての人にとって極めて関連性の高い内容だと思うので、これについてはおそらく専用の動画を別途作成する予定です。
料金据え置きの戦略と今後の展望
ブログ記事の最後の方では、すべてのお客様に向けてmayクラスのモデルが登場することがほのめかされています。現在はプロジェクト・グラス・ウィングを通じて一部のお客様のみに提供されていますが、Anthropicは自社の計算資源を活用して、これを近いうちに一般層へ届けられるように取り組んでいるようです。これについては今後の動向を見守る必要があります。また興味深いことに、彼らはOpusレベルのモデル、あるいは同等の機能を持つモデルのコストを引き下げたいと述べており、これが実現すれば大きな意味を持つでしょう。Anthropicは現在、それを実際に実行できるだけの十分な計算資源へのアクセス権を持っているのだと思います。
さて、価格設定についてですが、料金自体はまったく変わっていません。引き続き入力トークン100万回あたり5ドル、出力トークン100万回あたり25ドルを支払うことになります。このAnthropicの戦略は非常に重要だと私は考えています。他の多くの研究所は現在、値上げを行っています。Anthropicは最初からこの価格を維持しており、結果的にそれが正しい決断だったと言えそうです。彼らは健全な利益率を保ち、同時にユーザー側の期待値もコントロールしてきました。今や他の研究所は値上げを余儀なくされており、それに対して多くの批判が起きています。GoogleのFlash 3.5などはその良い例です。
次にワークフローやデモ、そしていくつかの興味深いベンチマークについて話していきますが、その前に、誰かがこの運営費を支払わなければなりません。というわけで、本日のスポンサーからのお知らせを簡単に挟みます。
LLMを使った開発を学んでいる方なら、ほとんどの講座がノートブックの段階で終わってしまうことに気づいているかもしれません。JetBrainsとAWSは、そこからさらに一歩進んだ2つのスキルパスを用意しました。PyCharmでコードを書き、SageMakerでトレーニングを行い、最終的にAWS上にデプロイ可能なエンドポイントを構築するところまで学べます。今回このセクションのスポンサーとしてお声がけいただき、私も実際にパス1を体験してみましたので、どのような内容か具体的にご紹介します。
コースは2つのルートに分かれています。パス1は「AWS上でPythonを使ってカスタムLLMを構築・デプロイする」もので、私が体験したコースです。パス2は「MLから生成AIへ」という内容で、Bedrockを活用したアプリやRAGアシスタントの構築に焦点を当てています。どちらも修了すると、JetBrainsとAWSの共同ブランド修了証が発行されます。各レッスンは、Toolboxを通じてPyCharmの内部で直接開きます。そのため、ブラウザのタブで講座を見ながらエディタでコードを書くという往復の必要がなく、課題の説明が書いているコードのすぐ隣に表示されます。ステップを完了して実行したら、そのままIDE内から次のモジュールへ進むことができます。
AWS側に関しては、事前払いのサンドボックスアカウントで動作します。そのため、ご自身のAWS環境を構築したり、請求の設定を連携したりする必要はありません。SageMakerのジョブを立ち上げてエンドポイントをデプロイし、Pythonスクリプトからそこへアクセスすることができます。IDEのプロジェクトファイルや動画レッスンは無料です。AWSのサンドボックスラボを利用するにはプロ・サブスクリプションが必要ですが、ハンズオン部分を試してみたい方向けに7日間の無料トライアルが用意されています。AIのスキルパスを探索してみたい方は、動画の概要欄にリンクを貼っておきますのでご確認ください。それでは動画に戻りましょう。
評価環境によるスコアの変動と動的ワークフローの実例
よし、彼らが強調していたベンチマークの一つについて簡単に補足しておきます。ターミナルでのコーディングに関するベンチマーク「TerminalBench 2.1」を見ると、Opus 4.8のスコアは74%となっており、GPT-5.5の78%を下回っています。しかし、ここには違いがあります。脚注を読むと、すべてのモデルのスコアを「terminus to public harness」を使って測定したと書かれています。つまり、Anthropicはベンチマーク自体に付属している評価環境を使用しているのです。一方で、GPT-5.5が報告している「codec cli harness」を用いたスコアは84.4%です。ここ最近の動画でも繰り返しお伝えしようとしている重要なポイントは、モデルと一緒にどの評価環境を使用するかが、今や非常に重要になっているということです。評価環境を変更し、たとえば彼らが「cloud code」の環境を使用すれば、一部の環境はモデルに最適化されていないため、間違いなくさらに優れた結果が得られるはずです。
では、いくつかの簡単なテストを見ていきますが、まずは「cloud code」における動的ワークフローについてお話しします。これは数日前にリークされていた新機能です。非常に重要な機能なので、これについては後日さらに詳細な動画を作る予定です。ここでのアイデアは、検証可能な報酬が設定された巨大なタスクを「cloud code」に割り当てるというものです。たとえばコードの移行作業などがこれに該当します。すると「cloud code」は動的にワークフローを導入します。これは本質的に「cloud code」がオーケストレーションスクリプトを動的に記述し、単一のセッション内で数十から数百の並列サブエージェントを実行して、成果物があなたの元に届く前にその作業内容をセルフチェックする仕組みです。
ただし注意点として、ワークフローを使用する場合、サブエージェントを単発で1回呼び出す場合と比べて、はるかに多くのトークンを消費することになります。独自のオーケストレーション構築が含まれており、タスクを達成するために必要なサブエージェントの数をモデル自身が判断するからです。現在、この具体例としては次のような使い方が挙げられます。内部のfetch呼び出しをすべて新しいHTTPSクライアントラッパーに移行するワークフローを作成して、と指示を出すだけでいいのです。このケースでは、検証可能な内容を伝えるだけで、モデルがそのタスクを達成するために複数のサブエージェントを自動的に作成してくれます。
これが活用できるタスクの例としては、先ほどお話しした大規模な移行作業のほか、特定のロジックの実装を二重チェックしたい場合や、コードベース全体のバグハント、あるいは何らかの最適化ワークフローを実行したい場合などが挙げられます。これらの新しい動的ワークフローにとって、非常に相性の良いユースケースになるでしょう。
この優れた実例の一つが、「bun」の書き換えです。Bunは最近Anthropicに買収された企業、あるいはパッケージですね。当初これはZigで書かれていましたが、彼らは動的ワークフローを使用してこれをRustに移行し、既存のテストスイートの99.8%を合格させました。これが可能だったのは、Bunのコードが極めて検証しやすかったからです。ここで皆さんにどうしても理解していただきたいのは、こうしたシステムを構築する際には、自分のコードが検証可能であることを確認しておく必要があるということです。すべてに対してユニットテストが実行される環境があれば、モデルは既存の実装と比較して、新しい実装が正しいかどうかをチェックできるようになります。
高速モードの値下げとデザイン生成テスト
それでは、Anthropicとしては久しぶりとなる値下げについて話しましょう。Opus 4.8の高速モードは、2.5倍の速度を実現しながら、従来のモデルと比べて3倍安くなりました。これは非常に素晴らしいニュースです。なぜなら、素早い実装が必要で、モデルが大量のコードを生成するのをじっと待ちたくないという場面において、高速モードは本当に威力を発揮するからです。
では、このモデルを使った簡単なテストをいくつかお見せしましょう。今回はOpus 4.8を「高」設定で使用します。これが彼らの推奨するデフォルト設定です。テスト内容としては、木々やいくつかの桜の花を含む、美しい庭園の中をペダゴガが歩いている、非常にクリエイティブで凝った詳細なシーンをデザインして作成してもらいたいと思います。よし、これを実行してみましょう。まず最初の変化として、思考トークンが画面に表示されなくなっていますね。要約された思考予算や思考トークンすら見えていないのは興味深いです。
2つ目に、インラインでのツール呼び出しを行っています。現時点でモデルは、ウェブ版のClaudeに組み込まれているフロントエンドデザインスキルを使用することを決定し、現在コードを書き進めています。見たところ、まずは4.7と比べて少し速度が上がっているように感じられます。実際にこれと同じプロンプトを4.7でも実行してみる予定です。ただ、異なる思考予算でこれを実行した場合に、どのような違いが現れるのかを確認してみたいと思います。
あいにく0.7のバージョンはもう使えないので、現在は「最大」設定を使用しています。そして、もう一方のタブでは「低」設定を使用しています。さあ、結果が出揃いました。こちらはOpus 4.8の「高」設定からの出力です。実際、かなり良い出来栄えですね。異なる機能をオン・オフに切り替えられる点が気に入っています。なるほど、これがナイトモードで、自動回転はオフになっています。中央のあたりに月が見えますね。いいでしょう。
これと比較して、こちらは4.8の「最大」設定による出力です。同様にすべての機能が備わっています。ただ、今回の特定の出力においては、クリエイティビティがそこまで突出しているようには見えません。画面を回転させるコントロールがついていないか、あるいは悪くない出来ですが、雲も追加されているようです。最初は全体像が見えていませんでしたが、総じてデザイン能力が非常に高く、ここではかなり立派な仕事をしてくれたように見えます。
次に、同じ内容を「低」推論設定で実行したものがこちらです。どのようなUIが作成されるかという点で、実際に違いを確認することができますが、求めているコントロール機能はすべて備わっています。これは比較的シンプルなタスクですが、全体として見れば、非常にうまくこなしていると思います。
よし、以上がOpus 4.8に関するクイックな紹介動画でした。より詳細な評価については、今後さらに発信していく予定です。私自身のプロジェクトでも実際にこれを使用し始めて、その結果をまた報告します。何はともあれ、この新しいモデルを楽しんでみてください。私たちは開発の加速を目の当たりにしていると感じます。これはOpus 4.7のリリースからわずか40日後にリリースされたものです。リリースサイクルという点では確実に加速していますし、機能面がどうなっているかはこれから判明していくでしょう。ともあれ、この動画が役に立ったと思ってもらえれば幸いです。ご視聴ありがとうございました。それではいつものように、また次の動画でお会いしましょう。


コメント