誰もが誤解したClaude 5のリーク(1Mコンテキスト、82%のSWE-Bench?)

Anthropic・Claude・ダリオアモデイ
この記事は約16分で読めます。

Anthropic社が提供するAIモデル「Claude」シリーズの各バージョン(Haiku 4.5、Sonnet 4.5/4.6、Opus 4.6/4.7)について、性能、料金、最適なユースケースを徹底的に比較・解説したものである。最上位のOpusから高速軽量なHaikuまで、それぞれの強みやベンチマーク結果、コンテキストウィンドウの仕様が語られる。さらに、噂される次世代モデル「Claude 5」のリーク情報や、企業の開発で役立つ各種API機能、モデル固有の制限事項や注意点についても詳細にまとめられている。

The Claude 5 Leak Everyone Got Wrong (1M Context, 82% SWE-Bench?)
Link to our newsletter: thought the Claude 5 "Fennec" leak meant Sonnet 5 was about to drop with a 1 million token conte...

最適なClaudeの選び方

皆さんはおそらく今、Anthropicのモデル選択画面を見つめながら、どのClaudeが本当に自分のお金を払う価値があるのか迷っているのではないでしょうか。Haikuか、Sonnetか、それともOpusか。正直なところ、選択を誤ると、Haikuで十分にこなせるタスクにOpusを使って無駄金を費やすことになりますし、あるいは、本当の推論モデルが必要な仕事にHaikuを使ってしまうことになります。信じてください、私はコーディング、エージェント、リサーチ、そして長いコンテキストの作業にわたって、これらのモデルを一つ残らず何ヶ月もテストしてきました。そして、そこで驚くべきことが分かったのです。ほとんどの人にとって、最高のClaudeとは、実は最も高価なモデルではないということです。

bitbiased.aiへようこそ。ここでは、皆さんがリサーチする手間を省くために、私たちが代わりに検証を行っています。無料の週刊ニュースレターで、AI愛好家のコミュニティに参加してください。登録するには、下の概要欄にあるリンクをクリックしてください。一歩先を行くための主要なAIニュース、ツール、学習リソースをお届けします。そこでこの動画では、Opus 4.7、Sonnet 4.6、そしてHaiku 4.5がそれぞれ何に優れているのか、どこでどれが勝つのか、そしてClaude 5で実際に次に何が来るのかを正確に分析します。これにより、推測に頼るのをやめ、仕事に合わせて正しいモデルを選べるようになります。まずは、Claudeファミリーの概要から始めましょう。なぜなら、Anthropicがこれら3つをどのように位置づけているかを一度理解すれば、他のすべてがすんなりと頭に入るからです。

Claudeファミリーの概要

Anthropicのラインナップを最もシンプルに捉える方法は次の通りです。Haikuはスピードの悪魔。Sonnetは万能選手。そしてOpusは、最も困難な問題に取り組むために繰り出す頭脳です。価格設定がすべてを物語っています。Haikuは入力100万トークンあたり1ドル、出力は5ドルです。Sonnetは入力3ドル、出力15ドル。そしてOpusは入力5ドル、出力25ドルとなっています。これは最安のモデルから最高値のモデルまで5倍の開きがあります。ですから、正しく選ぶことが実際の請求額に大きく影響してくるのです。

しかし、ここからが面白くなるところです。現在のすべてのClaudeモデルは、テキストと画像の両方を処理できます。そしてSonnetとOpusは、どちらも100万トークンという巨大なコンテキストウィンドウを搭載しています。Haikuは20万トークンに制限されていますが、これでも十分に巨大です。トルストイの小説ほど巨大ではないというだけです。これらはすべて2026年初頭までのデータで学習されており、すべてAnthropicの「憲法AI」によるアライメントアプローチで動作しています。そのため、本当の問いは「どれが最高か」ではなく、「あなたが実際にやっていることにどれが適しているか」なのです。それでは、各モデルを詳しく見ていきましょう。

Claude Haiku 4.5の衝撃

Claude Haiku 4.5は2025年10月15日にリリースされました。そして、これは誰もが十分に語っていないモデルです。なぜそれが間違いなのか、理由を説明します。Haiku 4.5はSonnet 4.5よりもおよそ2〜5倍高速で、コストは3分の1でありながら、どういうわけか多くのタスクでSonnetクラスのパフォーマンスに匹敵します。SWE-bench Verifiedというコーディングベンチマークがあります。これは、モデルが実際のGitHubの問題をどれだけうまく修正できるかをテストするための、実質的なゴールドスタンダードですが、ここでHaikuは73.3%を記録しました。これは小さなモデルの領域としては、単に「まとも」というレベルではありません。1年前のフロンティア級のコーディングモデルと競争できるレベルです。

ここでトレードオフがあり、これを知っておく必要があります。Haikuのコンテキストウィンドウは20万トークンです。これでも十分に巨大ですが、SonnetやOpusが提供するものの5分の1です。そのため、コードベース全体を読み込ませたり、100ページの法的文書を与えたりすると、その天井を感じることになります。また、絶対的に最も難しい推論問題では、Opusではないということが分かります。しかし、ほとんど誰も言及していないことがあります。Anthropicは、アライメントの観点からHaiku 4.5をこれまでで最も安全なモデルとして分類しているのです。SonnetやOpusが受けているASL-3の分類ではなく、ASL-2として評価されています。

では、実際にどんな時にHaikuを使うべきでしょうか。高ボリュームな処理、カスタマーサポートのボット、リアルタイムチャット、一括の文書処理、迅速なコーディング支援、何百回もの呼び出しを行うエージェントのループなどです。そして、プロンプトキャッシュを重ねると、実質的なコストは提示されている価格のおよそ10分の1にまで下がることがあります。得られるパフォーマンスを考えれば、これは驚異的です。ClaudeのAPIに加えて、AWS Bedrock、Google Vertex、Microsoft Foundryで利用可能なので、すでに運用しているどのようなクラウドにも組み込むことができます。もしHaikuの存在を見過ごしていたという方がいれば、コメントを残してください。Haikuなら3分の1のコストでできることに対して、どれだけの人がまだ何となくSonnetをデフォルトで使い続けているのか知りたいです。

Claude Sonnet 4.5の進化

次に、2025年9月29日にリリースされたSonnet 4.5について話しましょう。正直なところ、これは「ClaudeはChatGPTよりもコーディングが得意だ」という会話を巻き起こしたきっかけとなったモデルです。Anthropicはリリース時、このモデルを「現実世界のエージェント、コーディング、コンピューターユースにおいて世界最高のモデル」と文字通り呼び、その証拠も持っていました。この統計データを見てみてください。Sonnet 4.5は、1回の自律的なコーディングセッションを30時間連続で実行し、一気に約11,000行のコードを生成しました。前世代のモデルは約7時間が限界でした。これは小さなジャンプではありません。エージェントが実際にできることを変えてしまうほどのジャンプです。

ベンチマーク側では、Sonnet 4.5はSWE-benchで最高水準を達成し、OS Worldでも首位を獲得しました。これは、AIが人間のようにブラウザをクリックしたり、スプレッドシートに入力したりして、実際にソフトウェアを使用することをテストするベンチマークですが、前世代のSonnetの42.2%に対し、61.4%のスコアを記録しました。役に立つエージェントを構築する上で本当に重要となるタスクにおいて、これは巨大な世代交代の飛躍です。しかも価格は変わりませんでした。100万トークンあたり入力3ドル、出力15ドルのままで、Sonnet 4.0と同じです。同じ価格で、大幅な能力のアップグレードを手にしていることになります。

100万トークンのコンテキストウィンドウもこのリリースの頃にベータ版として開放されました。これにより、現実的に中規模のコードベース全体をSonnetに渡し、すべてを一度に推論させることが初めて可能になったのです。これは、CanvaやReplitといった企業の本格的な開発チームの間で、Claudeの存在を決定づけたモデルとなりました。しかし、Anthropicがその後の後継モデルであるClaude Sonnet 4.6を投入するまで、トップの座にいたのは約4ヶ月の間だけでした。

Claude Sonnet 4.6の洗練

Sonnet 4.6は2026年2月17日に登場しました。これは再発明というよりは洗練に近いものですが、その洗練は言葉の響き以上に大きなものです。Anthropicの内部テストにおいて、開発者は約70%の割合でSonnet 4.5よりもSonnet 4.6を好みました。そして、私が心底驚いたのは、彼らが古い方のOpus 4.5よりもSonnet 4.6を約59%の割合で好んだという点です。これが何を意味するか考えてみてください。2月に登場したミドルレンジのモデルが、大半の試行において、以前のフラッグシップモデルを打ち負かしていたのです。これこそ、各層の間のギャップが急速に縮まっていることを知る手がかりになります。

実際に何が良くなったのでしょうか。すぐに実感できる点がいくつかあります。指示への追従がより鋭くなりました。Sonnet 4.6は、求めたことから外れたり、過度に簡略化したりする可能性がはるかに低くなっています。ハルシネーションも大幅に減少しました。特にAnthropicが「ワンステップ・ハルシネーション」と呼ぶもの、つまり、長い出力を台無しにする、確信に満ちた小さな誤った主張が減っています。また、長いコンテキストにおける挙動がより一貫したものになりました。そのため、非常に大きな入力を与えても、以前ほど急速に品質が低下することはありません。価格は同じ入力3ドル、出力15ドルです。ベータ版の100万トークンのコンテキストウィンドウも同様です。これはClaudeの無料プランとProプランのデフォルトモデルになったため、現在Claude.aiを使っているほとんどの人は、意識しているかどうかにかかわらず、Sonnet 4.6と話していることになります。ですので、もしプロダクション環境のスタックでSonnet 4.5を使い続けているなら、これは実質的に無料のアップグレードです。価格変更なしで、より良い出力、低いハルシネーション率。文句のつけようがありません。

重厚なるOpus 4.6と4.7

さて、ここからは本命であるOpusモデルについて話しましょう。これらは、問題が本当に深い推論を要求するときに手を伸ばすモデルです。そして、これらは理解しておくべき、真に新しいメカニズムを導入しました。Opus 4.6は2026年2月5日にリリースされ、長期にわたるタスクの進め方を静かに変える2つの機能を備えていました。1つ目は「コンパクション(圧縮)」と呼ばれるものです。基本的には、モデルが進行しながら自身の長いコンテキストを自己要約していきます。そのため、以前のモデルであれば破綻していたようなセッションでも、一貫性を保って作業を続けることができます。

2つ目は「アダプティブ・シンキング(適応型思考)」で、これは新しく上げ下げできるエフォート(努力)パラメータを伴います。低く設定すれば、より高速で安価な出力が得られます。高く設定すると、モデルは時間をかけ、より深く推論し、自分の作業をセルフチェックします。これは、スピードと品質のトレードオフに対する、実際のユーザー側からのコントロールであり、私が長い間求めていたものでした。性能面では、法律推論ベンチマークであるBig Law BenchでOpus 4.6は90.2%を達成し、回答の40%が完璧と評価されました。Windsurfなどの企業のチームからは、4.5ではできなかったような形で、デバッグの難しい部分に集中し続けるという報告がありました。

その後2ヶ月もしない2026年4月16日、AnthropicはOpus 4.7を投入しました。これが現在のフラッグシップです。同社の内部にある93のタスクからなるベンチマークにおいて、コーディングの完了率はOpus 4.6と比べて13%跳ね上がりました。ビジョンシステムも高解像度の入力に対応するようアップグレードされました。これは、詳細な図面やUIのモックアップ、技術的なスクリーンショットを扱う場合に非常に重要になります。そして、ここからが真に新しい部分です。Opus 4.7は、Anthropicの自動サイバーセキュリティ保護機能である「Project Glasswing」を搭載した最初のClaudeモデルです。悪意のあるコードの生成やハッキングツールの作成の試みを能動的に検知してブロックします。これは、これらのモデルがデュアルユース(軍民両用)のリスクを処理する方法における、真の転換点です。価格は入力5ドル、出力25ドルに固定されたままでした。Opus 4.6やOpus 4.5と同じです。この分野では現在、正直なところ稀なことですが、価格が上昇することなく、有意義な能力の向上を手に入れることができています。

怒涛のリリース年表

ここで少し視野を広げて、これまでのペースを確認してみましょう。Anthropicは、2023年3月の初代Claude 1以降、およそ5〜6ヶ月ごとに製品を出荷してきました。Claude 4世代は2025年5月にキックオフされ、その後8月にOpus 4.1が出ました。9月にSonnet 4.5、10月にHaiku 4.5、そして11月にOpus 4.5がリリースされました。これは7ヶ月の間に5回のリリースです。その後、2026年2月初頭にOpus 4.6、その2週間後にSonnet 4.6、そして4月中旬にOpus 4.7が出ました。皆さんのチームがモデルの評価に追いつけないと悩んでいたなら、それが理由です。リリースのテンポがほとんどの企業の調達サイクルよりも早く、しかも、これらのほとんどは大々的な基調講演イベントではなく、静かなブログ記事を通じて発表されます。そのため、新しいものがいつ出荷されたのかを見落としやすいのです。そこで、誰もが本当に待ち望んでいる質問に行き着きます。Claude 5はどうなっているのでしょうか。

Claude 5の噂と真相

では、Claude 5は実現するのでしょうか。短い答えとしては、Anthropicは公式には何も確認していませんが、噂話は盛んに飛び交っています。「Fenick」というリークされたコードネームが浮かんできています。これは伝えられるところによるとSonnet 5のことであり、大幅に低い価格でOpusレベルのパフォーマンスに匹敵し、ベータ機能としてではなく、デフォルトで完全な100万コンテキストウィンドウを搭載して出荷されるという話があります。ただし、これは話半分に聞いておいてください。これらはアナウンスではなく、あくまでリークです。

私たちが持っているのは、予測市場のデータです。2026年2月の時点で、AIの予測市場は、完全なClaude 5のリリースが2026年4月下旬までに起こる確率を、およそ57%と見積もっていました。また、Anthropicの公開しているセーフティロードマップや最近の求人情報の中にも、彼らのスーパーアライメント研究に結びつくような、何かより大きなものを指し示すヒントが隠されています。しかし、Anthropicが実際に発表するまでは、これらはすべて情報に基づいた推測であり、事実ではありません。皆さんはClaude 5がどのようなものになると思いますか。より大きなモデル、より優れた推論、より長いコンテキスト、あるいは私たちがまだ予想だにしていない何かでしょうか。コメント欄に予想を書き込んでください。実際にローンチされたらこの動画に戻ってきて、誰が言い当てたか確認してみましょう。

クイックまとめ:用途別の選び方

それでは、皆さんが実際にこれを使えるようにカンニングペーパーをお渡しします。スピードとコストが最も重要なときは、Haiku 4.5を選んでください。高ボリュームなエージェントのループ、リアルタイムチャット、一括処理、呼び出しを大量に行うすべてのケースです。最高のバランスを求めるときは、Sonnet 4.6を選んでください。強力なコーディング、確かな推論、完全な100万コンテキストウィンドウが、すべてミドルレンジの価格で手に入ります。これは、現在のほとんどのプロダクションユースケースにおける主力製品です。そして、問題が真に困難なときは、Opus 4.7を選んでください。複数ステップに及ぶコーディングエージェント、深いリサーチ、大規模なコードベースにわたる複雑なデバッグ、あるいはGlasswingレベルのサイバーセキュリティ保護機能が重要になるすべてのケースです。

1つ率直な注意点として、Claudeモデルは、他のいくつかのモデルがより自由に傾きがちな、高度にクリエイティブなライティングよりも、コーディング、推論、構造化出力といった精密なタスクにおいて鋭くなる傾向があります。これはAnthropicの意図的な設計上の選択であり、欠陥ではありません。しかし、皆さんのユースケースが主にフィクションやマーケティングのコピーであるなら、知っておく価値があります。とはいえ、コーディングやエージェント作業においては、Claude 4.xは主要なベンチマークでOpenAIやGoogleの最高峰モデルと一貫して並ぶか、あるいは打ち負かしています。

見落とされがちな企業向け機能

もしあなたがClaudeを評価している企業にいるなら、あまり語られていない機能の層が丸ごと存在します。Claudeは現在、Microsoft ExcelやPowerPointの内部でネイティブに動作するため、チームがすでに常用しているツールの中で直接、グラフを作成したり、スライドを生成したり、データを抽出したりできます。また、セッション間でClaudeが実際にコンテキストを記憶できるようにするメモリーAPIがあり、これは状態を持たないステートレスなチャットモデルからの真の転換です。ClaudeエージェントSDKはSonnet 4.5および4.6と同時にローンチされ、開発者にマルチエージェントシステム、仮想マシン、サブエージェントのオーケストレーション、ツール呼び出しなど、スタック全体を構築するための適切なツールを提供しています。

そして、長い出力のユースケースに役立つものもあります。メッセージバッチAPIは現在、適切なベータヘッダーを使用することで、Opus 4.6、Opus 4.7、およびSonnet 4.6で最大30万の出力トークンをサポートしています。書籍レベルのレポートや巨大なコード出力を生成する場合、これは標準的な64,000〜128,000の出力制限と比較して、ゲームチェンジャーになります。クラウド側では、BedrockやVertexで地域特定のエンドポイントルーティングが利用可能になっており、これはデータの居住性やコンプライアンス、特に金融やヘルスケア、あるいは厳格な規制があるあらゆる分野において非常に重要です。

限界と率直な注意点

終える前に、簡単な現実確認をしておきましょう。最高のClaudeモデルであっても、やはりハルシネーションを起こします。Anthropic自身も、彼らのドキュメントの中でそう述べています。どんなに先進的なモデルであっても、免疫を持っているものはありません。そのため、ミッションクリティカルなもの、特に法律、医療、あるいは金融の出力はダブルチェックしてください。モデルが提示したものをそのまま出荷しないでください。

知識のカットオフ(学習データの締め切り)も重要です。Opus 4.7とSonnet 4.6は、どちらもおよそ2026年1月で止まっています。そのため、それよりも新しいことについては、コンテキストとして与えない限り彼らは知りません。Haiku 4.5のカットオフはそれよりも早く、一般的な知識については2025年2月頃となっており、デフォルトでは、これらのモデルはどれもライブのウェブを閲覧しません。それについては、ツールを使って自分で接続する必要があります。

もう一つ誰も語らないこととして、高いエフォート設定を施したOpus 4.7のレイテンシ(遅延)は、遅く、そして高価になる可能性があります。プロトタイプ作成においては、まずHaikuまたはSonnetから始めて、タスクが本当にそれを必要としていることを確認してからOpusにエスカレーションしてください。その習慣一つで、多くのお金を節約できます。

以上が完全な分析です。Haiku 4.5、Sonnet 4.5と4.6、Opus 4.6と4.7、そしてClaude 5がどこへ向かっているのかについてでした。もしこれで、テストやリリースノートを読み込む時間を数時間節約できたなら、その高評価ボタンを押し込んでください。それは本当にチャンネルの助けになりますし、これを必要としているより多くの人に届けるようYouTubeに促すことになります。AIモデルのさらなる深掘りや、Claude、ChatGPT、Geminiの間のリアルな比較、そして時間を無駄にしないツールレビューをもっと見たい方はチャンネル登録をお願いします。そしてコメント欄で、あなたが実際に日々使っているのはどのClaudeモデルなのか、そして次に私に何をテストしてほしいかを教えてください。すべて読んでいます。それでは、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました