7分でわかるClaude Sonnet 4.6!

Anthropic・Claude・ダリオアモデイ
この記事は約8分で読めます。

Anthropic社が新たに発表した「Claude Sonnet 4.6」についての詳細な解説動画である。同社のフラッグシップモデルであるClaude Opus 4.6に匹敵するベンチマークスコアを持ちながら、コストパフォーマンスに優れている点を紹介している。一方で、思考トークンの消費量が多い点や、特定のタスクにおける過剰な熱心さ(幻覚に基づく自己完結)といった注意点も指摘されている。動画の後半ではGPT-5.3 Codexとのコーディング比較を行い、処理速度と出力の質の観点から両者の違いを明確に示している。

Claude Sonnet 4.6 in 7 mins!
Claude Sonnet 4.6 is our most capable Sonnet model yet. It’s a full upgrade of the model’s skills across coding, compute...

Claude Sonnet 4.6の登場と概要

Anthropicが最も人気のあるモデルの次世代版、Claude Sonnet 4.6をリリースしました。Claude Sonnet 4.6は、Anthropicユーザーにとって圧倒的に人気のあるモデルであったClaude Sonnet 4.5の後継となります。

この動画では、Claude Sonnet 4.6に関するいくつかのベンチマークや重要な詳細について見ていきます。そして何よりも、あまり多くの人が取り上げていない隠された詳細についてもお話しします。最後には、Claude Sonnet 4.6とGPT-5.3 Codexの比較でこの動画を締めくくります。

まず始めに、Claude Sonnet 4.6は素晴らしいモデルです。もしあなたがAnthropicのエコシステムを活用していて、これまでClaude Opus 4.6やClaude Sonnet 4.5を使ってきたのなら、このClaude Sonnet 4.6から望み通りの結果を得られる可能性が高いでしょう。というのも、このモデルはClaude Opus 4.6と比べてもそれほど遜色がないからです。また、Claude Sonnet 4.5と比べるとはるかに優れています。

claude.aiでシンプルにチャットを楽しむこともできますし、CursorやClaude Code、あるいはClaude Coworkerと一緒に使うことも可能です。

ベンチマークによる性能比較

ベンチマークの観点から見ると、このモデルは彼らのフラッグシップモデルであるClaude Opus 4.6とほぼ同等の性能を持っています。

SWE-bench Verifiedでは、Claude Opus 4.6が80%を記録したのに対し、このモデルは79.6%のスコアを出しました。エージェント的なタスクであるTerminal bench 2.0では、Claude Opus 4.6が65%だったのに対し、このモデルは59%を記録しています。他にも、このモデルとClaude Opus 4.6が非常に近いスコアを出しているタスクが複数存在します。MCP、Atlas、OSWorldなどです。

さて、ここで最も興味深いのがRKGAです。その理由は、RKGAがモデルに対して具体的な指示なしにタスクを実行することを期待するテストだからです。つまり、モデルがどれだけうまく汎化できるかを見たいわけです。このケースでは、Claude Opus 4.6が68.6%を記録したのに対し、Claude Sonnet 4.6は58%でした。

隠された詳細:トークン消費とコストの落とし穴

しかし、問題はそこではありません。このモデルが抱える問題は、非常に多くのトークンを消費する傾向があるという点です。その結果として、Claude Opus 4.6よりもパフォーマンスが低くなることがありますが、それはある程度予想できることです。しかし、コストがほぼ同じになってしまうというのは非常に予想外なことです。

その理由は、このケースにおいてモデルがClaude Opus 4.6よりも多くの思考トークンを使用しているからです。このモデル自体はClaude Opus 4.6よりもほぼ40%安価に設定されていますが、より多くのトークン、特により多くの思考トークンを使用するため、結果的にClaude Opus 4.6と同じくらいのコストがかかる傾向があります。

ですから、Claude Opus 4.6よりもコストを節約できるという理由だけでこのモデルを使おうとしているのであれば、Claude Opus 4.6で費やしていたのと同じ金額を使ってしまっていないか、ログをしっかりと監視して確認する必要があります。これは絶対に忘れてはいけない詳細であり、常に心に留めておくべきことです。

モデルの過剰な熱心さという課題

ただ、その一つの情報を除けば、このモデルは本当に素晴らしい評価を得ていると思います。そして、システムカードでもう一つ見つけた情報があります。それは、このモデルの過剰な熱心さに関するものです。

以前のモデルやClaude Opus 4.6とは異なり、このモデルは過剰に熱心になる傾向があります。どういう意味かと言いますと、このモデルにある特定のタスクを依頼した際、特にグラフィカルユーザーインターフェースを使ってコンピューターを制御するようなタスクを依頼した場合に、このモデルは過剰な熱心さを示すのです。

例えば、この特定のモデルに対して見つからないメールを転送するというタスクを与えたとします。するとClaude Sonnet 4.6は、幻覚(ハルシネーション)の情報に基づいて、時折自分自身でメールを作成して送信してしまうことがあります。つまり、タスクを完了させることには関心があるのですが、実際にタスクを正しくこなすのではなく、幻覚に基づいたやり方でタスクを完了させてしまうという点で、熱心すぎるのです。

まるで典型的な大学生のような振る舞いですね。これは、実際のコンピューターの自動化においてこのモデルを信頼する上で大きな問題となります。

しかし、この過剰な熱心さを除けば、このモデルはClaude Opus 4.6とほぼ同じように扱えます。コーディングやエージェント的なタスク、そして汎用的な推論など、さまざまなタスクにこのモデルを使用することができます。

料金体系と本番環境での懸念点

純粋に料金情報だけを見てみると、すでにお話ししたように、このモデルはClaude Opus 4.6よりもほぼ40%安価です。Claude Opus 4.6は100万入力トークンあたり25ドルであるのに対し、Claude Sonnet 4.6は100万出力トークンあたり15ドルとなっています。入力トークンと出力トークンの両方において、このモデルがClaude Opus 4.6よりもはるかに安く、ほぼ40%安価であることがわかります。

しかし、先ほど議論したように、このモデルは大量のトークンを消費します。多くの思考トークンを生成し、それを消費するのです。そのため、本番環境のユースケースでこのモデルを使用する人々にとっては、それが厳しい要素になるかもしれません。

GPT-5.3 Codexとのコーディング比較

最後に、Claude Sonnet 4.6とGPT-5.3 Codexの比較をお見せします。これは非常にシンプルなタスクで、モデルにカンバン形式のボードを作成するようにお願いしています。Trelloのようなものですが、いくつかのクラシックなアニメーションや細かなニュアンスを含んだ、とてもシンプルな作りのものです。

そして公平な勝負にするために、ニュートラルな環境を使用しました。つまり、Claude Codeは使っていませんし、Codexの専用環境も使っていません。その代わり、Cursorの中で使用しています。したがって、この特定のケースにおいては、両方のモデルが中立的な条件で動作することを期待しています。

ご覧の通り、このタスクを開始した時、両方のモデルはすぐに作業に取り掛かりました。しかし、Claude Sonnet 4.6が大量の思考を行っている一方で、GPT-5.3 Codexはすでに作業を終えていることにすぐにお気づきになるでしょう。GPT-5.3 Codexがタスクを完了するのに2〜3分しかかからなかったのに対し、Claude Sonnet 4.6はまだ作業を続けています。たくさんの思考から始まり、まともな計画を立てて、それから実行に移しました。

最終的な出力の質と結論

ここで皆さんが気づくであろうもう一つの興味深い点は、Claude Sonnet 4.6が少し優れた技術スタック、より堅牢で、正直に言えばより複雑な技術スタックを使用していることです。一方でGPT-5.3 Codexはよりシンプルな技術スタックを選びました。

このケースでは、GPT-5.3 Codexがタスクを完了させており、十分まともな仕事をしています。決して悪い仕事をしたと勘違いするようなレベルではありません。しかしここでの問題は、最終的な出力を見た時です。GPT-5.3 Codexの出力は完全に機能しており、カードを作成して移動させたり、ドラッグ&ドロップしたりと、GPT-5.3 Codexでやりたいことは何でもできます。完全に機能するものです。

そしてClaude Sonnet 4.6は、GPT-5.3 Codexが要した時間のほぼ3倍から4倍の時間をかけて、ようやく作業を終えました。

この場合、個人的な意見ですが、もし両方の出力を見せられてどちらが好きかと聞かれたら、私はClaude Sonnet 4.6の方が好きだと答えます。美しさの面ではるかに優れていますし、見た目もずっと良いです。アニメーションはより滑らかで、デザインもずっと優れています。細かなニュアンスもしっかりとカバーされています。もしこれを本番環境に導入しなければならないとしたら、おそらくClaude Sonnet 4.6が作成したものを進んで採用するでしょう。

では、時間が長くかかったことや、より多くのトークンを使用したこと、そして計画を立てたことに対して不満を言うべきでしょうか。正直なところ、私にはわかりません。もし単に仕事を終わらせたいだけなら、GPT-5.3 Codexで十分だと思います。しかし、本番環境でのユースケースを想定しているのであれば、やはりClaude Sonnet 4.6を使い始めることをお勧めします。

この動画についてどう思ったか、ぜひ教えてください。それではまた別の動画でお会いしましょう。ハッピー・プロンプティング。

コメント

タイトルとURLをコピーしました