Anthropicが自社のモデルを自ら沈める(前代未聞)

AIエージェント
この記事は約15分で読めます。

Anthropic社が新たにリリースしたClaude Opus 4.8に関する解説である。本モデルはベンチマーク上の単なる性能向上にとどまらず、エラーやタスクの複雑さを正直に認める「誠実さ」と、タスクに応じてAIの推論時間を細かく設定できる「エフォート調整機能」に重点を置いている。前バージョンのOpus 4.7で指摘されていた怠惰さや過剰な拒絶といった問題に対処しており、プロンプトの出し方次第でより精度の高い回答を引き出せる。また、効果的なプロンプトの記述方法として、否定形を避けて具体的な指示を与える重要性についても詳しく解説している。

Anthropic saborde son propre modèle (du jamais vu)
🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

控えめな評価でリリースされた新モデル

数日前、AnthropicがClaude Opus 4.8をリリースしました。その発表のブログ記事の中に、これまでAIラボから一度も見たことのないような一文がありました。そこには文字通り、ユーザーはOpus 4.8が控えめながらも確かな進歩であることに気づくでしょうと書かれていたのです。控えめ、というのはAnthropic自身が自らのモデルについて語った言葉です。彼らがマーケティング部門を失ってしまったのか、あるいは彼らが皆さんに売り込もうとしているものが、もはや単純なパフォーマンスではないかのどちらかでしょう。正直なところ、彼らがこのモデルで実際に何を変更したのかを理解すれば、Opus 4.7で感じていたフラストレーションの半分は、おそらくモデル自体のせいではなかった理由も理解できるはずです。このテーマは、Claudeを少しでも使っている人なら直接関係のある話です。

開発スピードの加速とIPOの背景

しかし、まずは少し背景をお話しさせてください。なぜなら、今回のリリースのタイミングは決して無意味なものではないからです。Opus 4.8は、Opus 4.7からわずか41日後に登場しました。これはAnthropicがこれまで維持してきた中で最も速いリリースサイクルです。2025年11月にOpus 4.5が登場し、2月には4.6、4月に4.7、そして今回の5月末に4.8です。この加速は誰の目にも明らかですが、それには理由があります。Anthropicは2026年10月の株式上場を目指しており、その評価額は約3800億ドルになるとされています。同時にOpenAIも約8500億ドル規模での上場を準備しています。上場する初のAIラボになるための競争の中では、毎回のリリースが強力なセールスポイントになります。新しいモデルが出るたびに、投資家に提示する資料の項目が一つ増えるわけです。だからといってモデルの品質が悪いわけでは決してありませんが、モデルがリリースされる背景にある状況をしっかりと見極める必要があるということです。

Opus 4.7で指摘されていた課題

それでは本題に戻りましょう。Opus 4.7は4月16日にリリースされましたが、コミュニティからのフィードバックはすぐに厳しいものとなりました。このモデルはどこか怠惰な印象を与えていたのです。タスクを与えても途中で作業をやめ、終わったと宣言してしまうことがありました。たとえば、50個のファイルをプッシュしましたと答えながら、実際には15個しか処理していないようなケースです。また、過度な柔軟性の欠如という問題もありました。安全フィルターが過敏に反応し、完全に正当なリクエストに対しても過剰に拒絶することがあったのです。さらにトークン消費量も急増したため、品質が伴わないままセッションのコストばかりが高くなっていました。私自身は特定のタスクで非常に優秀だと感じているので今でもClaude 4を使用していますが、Claude 4.7のフィードバックで最も頻繁に耳にしたのは、その態度についての指摘でした。コメント欄でも本当によく見かけた意見です。もしClaudeが、まるで頼み事をした時にあきれて目をむく同僚のように、冷たくてどこか見下したようなトーンで返答してくると感じたことがあるなら、そう思っていたのは決してあなただけではありません。このモデルは一種の頑固な性格を作り上げてしまっていたのです。ツールがユーザーに挑戦的な態度をとるのは良い刺激になることもありますが、厄介なインターンのように感じさせてしまうのは全く歓迎できることではありません。しかも、これは単なる個人的な印象ではありません。AIコーディングエージェントDevinを開発しているCognition社のCEOであるスコット・ウー氏も、Opus 4.7がコードのコメントにおいて冗長すぎるという具体的な問題や、ツールの呼び出しにおける信頼性の欠如を引き起こしていることを公に認めていました。つまり、Opus 4.7に対するこの全体的な印象は、広く共有されていた共通の診断結果だったのです。

新モデルが重視した誠実さと実用性

そして、この新しいモデルは、まさにそうした問題点を一つ一つ解決するために構築されました。Anthropicがベンチマークのスコアを語るよりも前に前面に押し出している言葉、それは誠実さです。このモデルは、以前のバージョンと比較して、自身のコード内のエラーを報告せずに見過ごしてしまう確率が4分の1に減少しているとされています。では、それが皆さんの日常に具体的にどのような変化をもたらすのでしょうか。それは、60%の信頼性しかないのに5%の自信しかないような曖昧な答えを投げつける代わりに、この結果には自信がありませんとより頻繁に伝えてくれるようになるということです。問題のあるファイルを静かに無視するのではなく、そのファイルに問題があることを明確に報告してくれます。タスクが予想以上に複雑だった場合、無理やり突き進んで未完成なものを納品し、終わりましたと主張するのではなく、複雑であることを素直に認めるようになります。確かに、コーディングのベンチマークでスコアが20ポイント跳ね上がるような派手さはありません。しかし実際のワークフローにおいて、タスクを任せてそのまま放っておけるツールになるのか、それともペンを持った3歳の子供をリビングにいる時のように常に監視しなければならないツールになるのか、その違いを生むのはまさにこうした要素なのです。

控えめな発表とベンチマーク結果

この新しいモデルによるAnthropicのポジショニングは、ここで非常に興味深いものになります。彼らはブログ記事で、Claude Opus 4.8は控えめながらも確かな進歩であると書きました。巨大なバナーに、これまで作られた中で最も強力なモデルですと書き殴ることだって簡単にできたはずのAIラボが、あえてそうしたのです。AIエコシステムで最も尊敬されている開発者の一人であるサイモン・ウィリソン氏も、AIラボが自らのリリースを正直に漸進的なものであると表現するのを見るのは新鮮だったと語っています。よく考えてみれば、これは理にかなっています。彼らがこのモデルで最も主張したいポイントは誠実さなのですから、不誠実な形でのローンチで誠実なモデルを売り込むのは難しいでしょう。とはいえ、ベンチマークについても触れておく必要があります。数字は確かに存在します。SWE-benchでは4.7の87%に対し、今回は88.6%でした。わずか1ポイント強の向上であり、驚異的というほどではありません。一方で、SWE-bench Proでは以前の64%から69.2%へと上昇しています。こちらは5ポイント近い本格的な差と言えます。しかし、皆が話題にしている数字は、USAMO 2026、つまりアメリカ数学オリンピックの問題における96.7%という結果です。Opus 4.7は同じ問題で69.3%だったので、競技レベルの数学的証明において一気に27ポイントも向上したことになります。このテストはモデルのトレーニングデータのカットオフ日以降に行われたため、データ汚染の可能性は一切ありません。客観的に見て、これは驚異的です。しかし、そこには常に但し書きがつきます。ご存知の通り、ベンチマークというものは定義上、毎回素晴らしい結果が出るようにできているのです。もしベンチマークのスコアが下がっていれば、そもそもモデルはリリースされません。ですから数字が素晴らしいのは当然のことです。本当に重要なのは、皆さんが月曜日の朝にClaudeのチャットウィンドウを開き、自分自身の制約の中で、自分自身のコードベースを使って仕事をする時に何が起きるかです。それは世界中のどのベンチマークでも測ることはできません。

思考リソースを調整する機能の重要性

皆さんの日常に最も即座に影響を与える変化は、エフォートの調整機能です。おそらく大多数の方はこれを使ったことすらないと思います。Opus 4.8では、モデルがタスクにどれだけの思考時間を費やすかを正確に設定できるようになりました。たとえばClaude Codeには、低からウルトラまでのリストが用意されています。デフォルトではOpus 4.8は高に設定されており、これはOpus 4.7のデフォルトモードとほぼ同じトークンを消費しますが、もちろんパフォーマンスは向上しています。もしこれを最大まで上げれば、モデルは必然的に多くのトークンを消費し、より長く推論し、より深く掘り下げた作業を行います。逆に低に下げれば、素早く応答し、消費も少なくなります。実は、4.7での多くのフラストレーションの原因はここで説明がつくのです。複雑なタスクを低すぎるエフォート設定で実行した場合、モデルは怠惰に見えましたが、それは単に最後までやり遂げるための認知的予算が不足していただけでした。逆に、簡単な作業を無駄に高いエフォート設定で実行した場合、モデルはあらゆることを過剰に分析してしまいました。誰も求めていないような複雑な層を付け加え、まるで知的な遊びとしてわざと物事を複雑にしているかのようでした。どちらのケースでも結果として残るのは、設定がタスクに合っていなかっただけなのに、モデルに欠陥があると思い込んだフラストレーションを抱えたユーザーでした。もちろん、正直に言えばモデル自体に本当に問題があったこともあります。しかし、私たちが思っている以上に、それは設定の調整の問題だったのです。目安として言えば、Opus 4.8を低で使った場合と最大で使った場合では、全く別のモデルに思えるほど異なります。バージョンが変わったのではないかと錯覚するほどはっきりとした違いがあります。もしこのスライダーを一度も触ったことがないのなら、今すぐ始めるべきです。それは今週のあなたの生産性において、最も費用対効果の高い行動になるはずです。

否定形を避けるプロンプティングの極意

もう一つの重要な変更点は、プロンプトの方法、つまりAIへの話しかけ方です。新しい公式ドキュメントの中で繰り返し強調されていることがあります。それは、モデルにはしてほしくないことではなく、してほしいことを伝えてくださいというものです。箇条書きにしないでくださいと書く代わりに、たとえば私の編集スタイルに合わせて流れるような段落で書いてくださいと伝えます。専門用語を使わないでくださいと言う代わりに、その分野の専門家ではないけれど知的な人に話しかけるように書いてくださいと言ってみてください。違いがお分かりでしょうか。ここで重要なのはコンテキストであり、AIに指示を与える背後にある理由なのです。私が行ったテストやこのモデルについて寄せられたフィードバックによれば、Opus 4.8は理由を伴う指示に従うのは非常に得意ですが、単なる禁止事項に従うのはあまり得意ではありません。ですから、あなたの要求の背後にあるロジックを与えてあげてください。そうすればずっと良い仕事をしてくれます。きっとそのような結果を見て驚くことでしょう。してほしくないことを言わないというのは直感に反するように思えるかもしれませんが、これにはしっかりとした根拠があります。行動心理学における古典的な実験があります。誰かに向かって、よく聞いてください、絶対にピンクの象のことは考えないでくださいと言うとします。当然、その人の頭の中に浮かぶのはピンクの象だけです。私たちの脳は、否定を処理する前に、まずコンテンツ、つまり描写された対象を処理します。LLMも同じように機能します。箇条書きをしないでくださいと書いたとしましょう。AIはよく箇条書きをするので、皆さんは箇条書きをするなと指示することがあると思います。しかしその場合、モデルはまず箇条書きが何であるかをモデリングし、それからそれを避けようとしなければなりません。それがうまくいくこともありますが、逆の方向に影響を与えてしまうこともよくあります。一方、流れるような段落で書いてくださいと伝えれば、そこには何の曖昧さもありません。避けるべき道のリストではなく、目的地を教えているからです。Anthropicが公式ドキュメントでこれほどまでにこの点を強調しているのは、まさにそれが理由です。つまり、これは単なるプロンプトのテクニックではなく、人間にも言語モデルにも同様に適用される認知的な原則なのです。ここ数ヶ月の間に発表された数々の研究によって、このことはすでに分かっていました。もしあなたがVision IAコミュニティのメンバーであったり、私の講座を受講している生徒さんであれば、すでにご存知のことだと思います。

ツール実行前の推論プロセス

次に、オペレーションの順序にも変更がありました。デフォルトでは、Opus 4.8はツールを呼び出す前にまず考えるようになります。サブエージェントを立ち上げたりデータベースを読みに行ったりする前に、自分が手元に何を持っているのかを理解しようとします。場合によっては、先にコンテキストを探しに行ってから考えてほしいこともあるでしょう。だからこそ、プロンプトが依然として絶対に不可欠なのです。モデルが変わったのだから、皆さんの反射神経も変えなければなりません。ただ単に4.7から4.8に移行して、全く同じことをしながら違う結果を期待してはいけません。そもそも4.6から4.7に移行した時に起きたのがまさにそれで、それが過去のフィードバックにつながっていたのです。ですから、まずはモデルがどのように推論するかを観察し、それに応じて調整してください。Anthropicもその使い方を説明したドキュメントを公開しているので、ぜひそれに従ってみてください。これこそが、私が今まさに皆さんにお伝えしていることです。

コミュニティの反応と今後の向き合い方

それでは、このリリースに対するコミュニティからの反応についてお話ししたいと思います。完全に透明性を持ってお伝えすると、賛否両論が入り混じっています。4.7では対応できなかった問題を一度のやり取りで解決できたという熱狂的な声もあります。先ほどお話ししたスコット・ウー氏も、Opus 4.8は4.7の欠点を直接的に修正しており、それがDevin上に構築する開発者にとって具体的な利益につながっていると認めています。一部のテスターは、このモデルが対話においてより協力的で温かみがあるとも評価しています。その一方で、公開から数時間の間にバグの報告があったり、特定のケースで予期せぬ動作をしたり、以前はうまくできていたことを非常に下手に行ったりするという報告もあります。つまり、当然のことながら引き続き慎重であるべきだということです。これこそが、この動画のまさに中心となるポイントです。メッセージは、Opus 4.8が素晴らしい、進歩しているといったことではありませんし、逆にOpusは期待外れでひどいといったことでもありません。私がお伝えしたいのは、あなたの経験は他の誰かの経験とは異なるだろうということです。それは、タスクの内容や、あなたがAIをどのように使うかに大きく依存します。あなたが4.7で抱えていた問題は、別のコードベースで作業している別の開発者は一度も経験していないかもしれません。4.8の改善点が、あなたのプロジェクトであなたの足を引っ張っていたまさにそのポイントに直接効くとは限りません。ですから、それを知る唯一の方法は、あなた自身のワークフロー、あなた自身のプロンプト、そしてあなた自身の制約の中でテストすることです。AIを使って頻繁に行っていたタスクがあるなら、それをテストしてみてください。もし私が教えたように自動化のワークフローを構築していて、そこでClaudeを使っていたなら、それを4.8に変更してどう機能するかを見てください。近道は本当にありません、テストするしかないのです。しかし励みになるのは、フィードバックのループが機能しているということです。怠惰さ、柔軟性のなさ、態度、トークンの過剰消費など、4.7で寄せられたすべての問題点に対して、Opus 4.8の各改善点が直接的にアプローチしています。あなたがClaudeを修正した時、たとえばそうじゃないとか、ここが間違っていると指摘した時、あるいはまたAIがでたらめなことをしたせいで夜の23時にターミナルに向かって毒づいている時、そうしたデータはしっかりと吸い上げられ、最終的に次のモデルの糧となり、次期バージョンのトレーニングに具体的に貢献しているのです。これは心強いことです。

AIを使いこなすスキルの重要性

しかし、これは同時に一つの重要な事実を意味しています。価値はもはやモデルからだけ生み出されるのではなく、それをコントロールするあなたの能力から生み出されるのだということです。タスクに応じて適切なレベルのエフォートを設定できるかどうか。禁止事項を並べ立てるのではなく、コンテキストを与えるようなプロンプトを構築できるかどうか。問題がモデルにあるのか自分のアプローチにあるのかを診断できるかどうか。いつパワーを上げ、いつシンプルに保つべきかを見極められるかどうか。これらはすべて、それ自体が独立したひとつのスキルです。本物のスキルなのです。それは生まれつき備わっているものではなく、育てていくものです。私たちは、40日ごとに新しいモデルが登場し、ベンチマークが常にトップの座を争い、先週には影も形もなかった機能が今週には登場しているような時代に突入しています。このような状況下で重要な問いは、もはや現在の最高のモデルはどれかということではありません。重要なのは、あなた自身がこれらのツールを使い方を知っていて、仕事やプライベートで何か具体的なものを引き出せているかどうかです。なぜなら、世界最高のモデルであっても、その使い道を知らない人の手に渡れば、それは宝の持ち腐れになってしまうからです。もしあなたが常に遅れを取り戻そうとしていると感じているなら、周りの人々がAIを使ってどんどん前進しているのに、自分はただ確固たる手法もなく適当にいじっているだけだと感じているなら。そして、ただたまに試すだけでなく、これらのツールをどうやって本当に使いこなし、日常における真の武器にするのかを理解したいと思っているなら、あなたにぴったりのものがあります。実はここ数ヶ月、私は独自の効果的な学習プログラムを構築してきました。AIのあらゆる側面についてお教えするものです。これは、私が知っているすべてを皆さんにお伝えするために考え、作り上げたコースです。ChatGPT、GoogleのGemini、イーロン・マスクのGrok、ClaudeといったAIモデルについて学ぶだけでなく、何よりもそれらをあなたの生活や仕事、プロジェクトに具体的にどう組み込んでいくのかをお見せします。あなたが会社員であれ、フリーランスであれ、起業家であれ、あるいは定年退職後であっても関係ありません。そう、私たちのコミュニティには退職された方も非常に多くいらっしゃり、日常的にAIを活用されています。最近、この講座において過去最大規模のアップデートを行いました。以前から少しお話ししていましたが、ついに完成し公開されました。それはn8nを使ったAIによる自動化に完全に特化したモジュールです。言い換えれば、あなたのために働き、あなたのためにすべてをこなしてくれる仮想の従業員のようなAIエージェントの作成です。結論として、あなたに何時間もの時間を節約してくれます。すでに6000人から7000人以上の方がこのプログラムに参加してくださっています。この多大なるご支援に心から感謝します。最後に、開発者である必要も、技術的なバックグラウンドを持っている必要もありません。私が皆さんの手を取り、分かりやすいビデオレッスンと具体的かつ実践的な事例を通して、一歩一歩、AIに関するあらゆることを一緒に見ていきます。最後になりましたが重要な点として、もし今日ご参加いただければ、追加費用なしで将来のすべてのアップデートにアクセスでき、私が教えたいと思うすべてのことへ無制限に一生涯アクセスしていただけます。つまり、今日のお支払いは一度きりです。月額料金ではありません。たった一度の支払いで、私が現在も、そしてこれからも継続的に行っていくすべてのアップデートに生涯アクセスすることができます。ですので、もしご興味があれば、動画の下にリンクがあります。概要欄、または固定コメントからご参加ください。いずれにせよ、Visionプログラムで皆さんをお迎えできることをとても嬉しく思います。ここまで残ってくださった方、最後までこの動画を見ていただきありがとうございました。それでは、次の動画ですぐにお会いしましょう。またね。

コメント

タイトルとURLをコピーしました