Anthropicの最新AIモデル「Claude Opus 4.8」のリリースに伴い、その特徴や新機能、そして前バージョンからの改善点を解説する内容である。Opus 4.8は、従来の4.7をベースに、判断力の向上や自己の進捗に対する誠実さ、自律性の強化が図られている。特にClaude Codeにおける「エフォートレベル」の調整や「ダイナミックワークフロー」といった新機能により、大規模な問題への対応力が向上した。前モデルで指摘されていた「怠惰さ」や「過度な安全性への配慮」といった課題に直接アプローチしており、ユーザーのプロンプトの工夫次第で真価を発揮する。

Opus 4.8の登場と主要なアップデート
ついにClaude Opus 4.8がリリースされました。いつも通り、ベンチマークの結果は素晴らしいものになっています。多くの主要なカテゴリーで4.8は4.7を上回っており、GPT 5.5よりも優れた数値を示しています。しかし、本当に進化したモデルと言えるのでしょうか。そこで今日は、Opus 4.8の登場によってClaude Codeにどのような新機能が追加されたのか、お話ししていきたいと思います。皆さんが4.7で直面していたいくつかの問題や課題、そして4.8がそれらをどのように解決することになっているのかを解説します。このモデルは4.7とは少し異なる挙動を示すようで、扱い方を少し変える必要があるため、いくつかの重要なポイントをまとめていきます。それでは、時間を無駄にせず本題に入りましょう。
本日は2026年5月28日、Opus 4.8がリリースされました。このモデルはOpus 4.7をベースに構築されており、より鋭い判断力、自身の進捗に対する高い誠実さ、そして従来よりも長時間の自律的な作業能力を備えているとのことです。重要な点として、インプットトークンとアウトプットトークンの価格はOpus 4.7と完全に据え置きとなっています。興味深いのは、エフォートレベルによるトークン消費量の増加に対応するため、Claude Codeにおけるレートリミットが引き上げられたことです。これはあくまでレートリミットの話であり、5時間のローリングウィンドウや週ごとのセッション制限のことではありません。そちらは変更ありませんが、API経由でClaude Codeを使用する場合のレートリミットが緩和されました。
公式のブログ記事にあるいくつかの主要な知見を見ていきましょう。Opus 4.8のローンチに伴い、いくつかの新機能が導入されています。claude.aiのユーザーは、Claudeがタスクにかけるエフォートの量をコントロールできるようになりました。また、Claude Codeにはダイナミックワークフローと呼ばれる新機能が追加され、非常に大規模な問題に取り組むことが可能になっています。本日はこのワークフローについて深くは立ち入りませんが、これについては近いうちに別の動画を作る予定です。
現在、Claude Codeでは当然ながらOpus 4.8が利用可能になっています。デフォルトでは高エフォートに設定されていますが、もちろんエフォートの度合いを切り替えることも可能です。画面上でワークフローを入力することで、そのダイナミックワークフロー機能を使い始めることができます。
ここで皆さんにCLI、つまりターミナル版の面白い機能をお見せします。エフォートを設定すると、スライダーが表示されるのが分かります。先ほど言ったようにデフォルトは高に設定されていますが、低や中を選ぶこともできます。さらに上に行くと、特高、マックス、あるいは特高にワークフローを組み合わせたウルトラコードを選択できます。非常にスマートな機能ですが、当然ながらトークンの観点からはコストが高くなります。スライダーを左にスクロールするほど、出力速度は速くなります。
ベンチマークの捉え方と新たな誠実さの評価
実際のベンチマークを検証していくのが私は好きなのですが、ベンチマークに関しては、新しいモデルが登場するたびに驚異的な数字が並ぶのが世の常です。常に他のモデルより優れており、他社との比較データが提示されます。マーケティングの観点からはそうせざるを得ないのでしょう。ですから、自分のユースケースにとって本当に最適なモデルはどれなのかを見極めることが非常に重要になります。例えば、自律的なエージェントコーディングにおいては、GPT 5.5を搭載したCodexのようなモデルよりも、確かにOpus 4.8の方が優れているかもしれません。しかし、特定の非常に具体的なユースケースにおいては、たとえ明確なベンチマークがそれを示していなくても、特定のモデルがはるかに優れたパフォーマンスを発揮することもあります。
例えば、自律的なコンピューター操作に関しては、GPT 5.5のCodexの方がOpus 4.7やOpus 4.8よりもはるかに優れていると私は感じています。客観的なデータ上は、これら2つのOpusモデルの方がCodexよりも優れていることになっていたとしてもです。そのため、ベンチマークは常に参考程度に留めておくべきです。
Anthropicはこのブログの中で、最も顕著な改善点の一つとしてOpus 4.8の誠実さを挙げるために、わざわざ丸々一つのセクションを割いています。これは非常に興味深いことです。なぜなら、これから詳しく触れるように、多くの人々がOpus 4.7で報告していた問題として、私も確かに実感していた部分だからです。彼らは誠実さについてこのように言及しています。私たちはすべてのモデルに対して、裏付けのない主張を避け、誠実であるように訓練しています。例えば、4時間かかると言っておきながら20分で終わらせたり、50個のファイルをすべて処理したと言いながら実際には15個しか処理していなかったりするような事態を防ぐためです。もし皆さんもそのような経験をしたことがあるなら、それはあなただけではありません。Opus 4.8ではこれが大幅に改善されたとのことです。
彼らは不整合な挙動に関する評価テストを行っており、このケースではスコアが低いほど優れていることを意味します。データを見ると、Mythosのプレビュー版がかなり低い数値を出しています。そしてOpus 4.8は、Opus 4.7やSonnet 4.6のほぼ半分の数値まで下がっています。
しかし、こちらをご覧ください。ユーザーにとってOpus 4.8は、前世代の4.7と比較して、緩やかではあるものの確実な進化として実感できるレベルのものとなっています。当然ながら、まだ改善の余地はあります。彼らがここで述べているのは、Opusよりもさらに高い知性を備えた新しいクラスのモデル、すなわちMythosのリリースを計画しているということです。現在、少数の組織がサイバーセキュリティ業務でこれを使用していますが、このレベルの能力を持つモデルを一般に広く公開するには、より強力なサイバーセーフガードが必要になります。どこかの子供が自宅の地下室から誰かの銀行口座にハッキングするような事態は避けなければならないからです。
何はともあれ、Opus 4.8は本日よりあらゆる場所で利用可能です。Claude Codeを使用している環境であれば、どこからでもアクセスできるはずです。新しいターミナルを開くか、拡張機能のタブを開いてみてください。このようにOpus 4.8が表示されます。また、Opusの100万トークンのコンテキストウィンドウが維持されていることにもすぐに気づくでしょう。ここでスラッシュモデルと入力すれば、デフォルトの設定か、大半のタスクに最適で最も能力の高いOpus 4.8かを選択できます。
前モデルの課題と4.8における改善点
ちなみにOpus 4.7がリリースされたのは4月16日でした。つまり、基本的には約1ヶ月半前のことです。彼らの開発スピードは非常に速いですね。Opus 4.7がリリースされた際、特高のエフォートレベルが追加されましたが、今やそれはマックスやウルトラコードに圧倒されています。
興味深いことに、多くの人々は前回のモデルリリースに実は満足していませんでした。なぜなら、Opus 4.6よりも悪化していると感じたからです。主な問題点として、怠惰に感じられるという意見がありました。基本的に、目標やタスクを途中で早く諦めてしまう傾向があったのです。Codexにはゴール機能があり、今や他の多くのAIツールにも搭載されています。Claude Codeにもスラッシュゴールという機能があり、指定された目標に向かってモデルを少しでも長く働かせるための応急処置として機能していましたが、今やそれはモデルの根本的なコア部分に組み込まれました。スラッシュゴールそのものというわけではありませんが、怠惰さが減り、長時間の作業により適したモデルになったという思想そのものです。
また、安全性の過剰な適用により、融通が利かないという指摘もありました。トークンの消費が激しく、モデルのコストが非常に高く感じられるというコミュニティからのフィードバックも大量に寄せられました。そして最も面白いと思った指摘は、態度が悪いというものです。実際に、AIが少し生意気な口を利いてきたり、こちらのアイデアに反論してきたりするのを経験したことがある人なら、それが事実だと分かるでしょう。ブレインストーミングの思考パートナーとしては良いことですが、時折、非常にぶっきらぼうで、頑固に感じられることがあったのは私も気づいていました。これらが、4.7に対して私やコミュニティが感じていた主な問題点です。
ここで、モデル自体に問題があるケースと、ユーザーの使い方が間違っているケースには大きな違いがあるという点に注意が必要です。常にモデルのせいとは限りません。時には本当にスキルの問題であることもあり、解決策が、4.7ではできないから4.8を待とう、というわけではないこともあります。単なるユーザー側のエラーである場合もあるということは、あらかじめ指摘しておきたいと思います。
いずれにせよ、4.8は本日リリースされ、これらの問題を解決するために構築されました。より高い誠実さと自己修正能力、長期的なタスクにおける持続的な自律性、より温かみのある協調的な雰囲気、そして効率性と利便性の向上、つまりツール呼び出しや推論、質問の質の向上、トークン効率の改善などが謳われています。
プロンプトのベストプラクティスと実践的なアプローチ
そこで私はコミュニティでの議論を読み込み、Opus 4.8を少しテストしてみました。リリースされたのが1時間前なので、まだディープに使い込めたわけではありませんが、触ってみた感触と、ClaudeのAPIドキュメントにあるプロンプトのベストプラクティスに関するかなり長い記事を読み通しました。これも説明欄にリンクを貼っておきます。これらを読み解いた上で、皆さんに共有したい重要なポイントをいくつか書き出しました。
第一に、これからはエフォートが最大のレバーになるということです。先ほど挙げた問題、例えば怠惰さや安全性の過剰な適用といった課題に立ち返ると、それらはエフォートの設定に起因していた可能性があります。多くのエフォートを要する作業を行っているにもかかわらず、モデルの設定が低や中、あるいは高のままになっていたなら、単により多くのエフォートが必要だったというだけのことかもしれません。
逆に、非常にシンプルな作業を行っているにもかかわらず、それを高や特高に設定していると、必要以上のリソースを割くことになり、モデルが過剰に推論し、過剰にエンジニアリングしてしまう原因になります。その結果、こんなに簡単なことなのに、なぜできないのだろう、シンプルなのに、と感じてしまうのです。その場合は、単にエフォートを下げる必要があったのかもしれません。
したがって、Claudeの知性とトークン消費、そして速度などのバランスをどう取るかが極めて重要になります。ここで私が言いたいのは、Claude Codeを開いて、モデルの調整を一切せずにただ文字を入力して作業を進めている人がいるならば、ぜひ調整を試してみてほしいということです。Opus 4.8の低設定と特高設定の差は、劇的と言えるほど大きいです。まるで別のバージョン、例えばOpus 4.9を使っているかのように感じられるレベルです。これまで一度も触ったことがない人は、このレバーを動かしてみる価値が間違いなくあります。
次のポイントは、やってほしくないことではなく、やるべきことを指示するということです。この結論に至った背景として、ドキュメントに目を通すと、特定のシナリオに対応した優れたプロンプトの例が常に提示されていることが挙げられます。これらのサンプルプロンプトを詳しく見ていくと、やってほしくないことについてはそれほど多く言及されていないことに気づきました。ちょうど画面に、これをやってはいけない、と書かれている最悪のタイミングですが、実際には、やるべきことがより明確に指示されています。
素晴らしいと思ったのは、背景や文脈が与えられている点です。モデルが好奇心を持っているかのように、あなたがXやYやZをやるなと言ったけれど、それはなぜですか、と問いかけてくるようなイメージです。そのあたりの文脈を詳しく説明すればするほど、指示にうまく従ってくれるようになります。
これが次のポイントにつながります。指示の背景にある理由を説明するということです。例えば、ダッシュ記号を使うな、と言う代わりに、私が実際に書いているような文章に仕上げたい、これが私の執筆スタイルであり、私はダッシュ記号を一切使わないので、私のスタイルに必ず従ってください、と伝えます。そうすることで、Opusが指示に従っているという実感がより得られやすくなります。
これまでに私のOpusとGPT 5.5の比較動画を見たことがある方なら、私がOpusの創造性を気に入っている一方で、時にはただ指示通りに、自分の思い通りに動いてほしいケースもあると言っていたのを覚えているかもしれません。それはエフォートの設定の問題であったり、あるいは否定的なプロンプトを詰め込みすぎていたことが原因だった可能性があります。モデルの特性もありますが、自分自身の使い方にも目を向け、モデルの開発者が推奨している通りの使い方を実践できているか、少し考えてみてください。
他にもいくつか挙げておきます。このモデルはデフォルトで、ツールを呼び出す前に推論を行うようになっています。何かサブエージェントを立ち上げたり、データベースを読みに行ったりする前に、まずは手元にある情報だけで、どのような質問をすべきか、どのようなアプローチを取るべきかを自ら導き出そうとします。これは非常に良い機能である場合もあります。行動を起こす前に推論を挟んでほしいケースは多いからです。しかし時には、推論を開始する前に、追加の文脈を引っ張ってきてほしい場合もあります。だからこそ、プロンプトを工夫し、エフォートレベルを調整することが非常に重要になります。特に4.7から4.8へワークフローを移行させる際には注意が必要です。ただ移行して実行ボタンを押し、すべてが同じように機能すると盲信してはいけません。モデルがどのように振る舞うのか、しばらく様子を見て感覚を掴む必要があります。
次に、応答の長さや冗長性についてですが、モデル自身が長さをキャリブレーションするようになったと書きました。これが意味するのは、あらかじめ固定された長さに従うのではなく、タスクの複雑さに基づいて、どの程度複雑な処理を行い、どのように応答すべきかをモデルが判断するということです。通常、シンプルな検索に対しては短い回答になり、より多くの推論を要する自由度の高い分析に対しては、より長い回答が返ってくるようになります。
これらが私の主な見解です。先ほども言ったように、私はこのモデルをまだ30分ほどしか触っていません。この動画を早く届けたかったのですが、さらに新しい発見があれば、引き続き皆さんにアップデートをお伝えしていきます。
コミュニティの反応と今後の活用に向けて
最後に2つの点について。現在、人々はどのような反応を示しているでしょうか。当然ながら、多様な意見が存在します。肯定的で興奮気味の声も多く、すでにGPT 5.5を圧倒した、最強のコーディングモデルだ、完全にハマった、非常に温かみがあって協調的だ、ベンチマークが大幅に向上している、といったコメントが見られます。しかし繰り返しになりますが、こうした発言をする人々の中には、インプレッションを獲得したかったり、何かをマーケティングしたかったりするという意図が含まれている場合もあります。ですから、多角的な視点を持つことが重要です。そのため、私は賛否両論ある慎重な報告も集めました。Opus 4.8において、すでに初期のバグ報告がいくつか上がっています。ロールアウトの直後であるため、あるいは単にテストの過程で見つかったものかもしれませんが、まだ慎重に見極めるべき要素はたくさんあります。
しかし、全体的な雰囲気として非常に素晴らしいと感じるのは、先ほど挙げた4.7の課題や落とし穴に対して、4.8の改善点がダイレクトにアプローチしているという点です。少なくとも、Claudeがデータを利用して進化しているという実感が得られます。
皆さんがClaude Codeをどのように使っているか、よく考えてみてください。何かを依頼し、Claude Codeが応答し、それを修正し、ここが気に入らない、もっと良くしてくれ、私が主人だ、というようなやり取りを繰り返しているはずです。Anthropicはそれらのログを読み込み、データをモデルのトレーニングに活用できるため、人々がOpus 4.7のどこに不満を抱いているのか、常に何を指摘しているのかを把握し、それをモデルに組み込むことができます。もしこれらの主要な問題が正面から解決されていなかったとしたら、むしろその方が懸念すべき事態です。
皆さんに常に意識してほしい重要なことは、ベンチマークはいつだって素晴らしく見えるものであり、他人のユースケースはあなたのユースケースではないということです。現在の皆さんのワークフロー、つまりOpus 4.7を使用していたワークフローにおいて、何が課題だったのか、普段どのような点に不満を感じていたのかを整理してみてください。Opus 4.8がそれらを解決してくれるかもしれませんが、そうではない可能性もあります。モデルが進化をとげたからといって、それがあなたの特定の課題に対して優れているとは限りません。今直面している実際の制約や苦痛に直接対処するために、異なるモデルや異なるコンテキスト戦略、あるいは異なるエフォートレベルをどのように組み合わせられるか、常に考え続けてください。
全体の雰囲気の向上や、同じ指示を何度も繰り返して自己修正をさせている頻度などに注目してみてください。もちろん、そうした反復を減らすために、メモリ機能や異なるスキルファイルなどを活用すべきですが、それでも意識は必要です。そして、セッション制限が近づいてきて少し出力を抑えたいときに実感する、トークンやワークフローの効率性についても同様です。ドキュメントによれば、このモデルはトークン効率が向上しているとのことですが、実際のところはまだ分かりません。
それをテストする優れた方法として、私が作成したトークントラッカー、トークンダッシュボードトラッカーを使用することができます。これは完全に無料で、オープンソースのGitHubリポジトリとして公開しています。説明欄にある私の無料のスクールコミュニティにリンクを貼っておきます。Claude CodeにそのGitHubリポジトリを読み込ませてセットアップを指示すれば、Claude Codeのすべての履歴データを取得し、トークンが実際にどこに消費されているかを可視化できます。
それでは、本日は以上となります。楽しんでいただけたか、あるいは何か新しい学びがあったなら幸いです。もしそうであれば、高評価を押していただけると非常に励みになります。いつも通り、動画を最後まで視聴していただき感謝しています。また次の動画でお会いしましょう。ありがとうございました。


コメント