4分で分かるClaude Sonnet 4.5の全て!

AnthropicがリリースしたClaude Sonnet 4.5は、現時点で世界最高のコーディングモデルとして注目されている。ソフトウェアエンジニアリングの主要ベンチマークであるSweep Bench Verifiedで82%のスコアを記録し、GPT-4o、Gemini 2.5 Pro、さらには自社のフラッグシップモデルであるOpus 4.1をも上回る性能を示している。特にエージェント型コーディングタスクとコンピュータ使用ベンチマークで圧倒的な優位性を持つ。ただし、コンテキストウィンドウの管理に関する特異な挙動や、過剰なノート作成、フィードバックループの形成といった癖のある動作も確認されている。実際の使用例として、transformer.jsを用いた背景画像削除アプリの作成に成功しており、Anthropicのコーディングモデル開発における技術力の高さが証明されている。

Claude Sonnet 4.5 in 4 mins!

Claude Sonnet 4.5 is the best coding model in the world. It's the strongest model for building complex agents. It’s the ...

Claude Sonnet 4.5の登場
ベンチマークでの圧倒的優位性
モデルの特異な挙動
実際の使用テスト
まとめ

Claude Sonnet 4.5の登場

Anthropicが世界最高のコーディングモデルであるClaude Sonnet 4.5をリリースしました。これから数分間で、このモデルについて知っておくべき全てのことをお伝えしますので、皆さんは開発作業に戻ることができます。

この新しいモデルは全てのベンチマークで圧倒的な成績を収めています。ソフトウェアエンジニアリングにおいて最も重要なベンチマークの一つがSweep Bench Verifiedです。これはモデルがGitHubのissueを解決することが期待されるベンチマークで、Sonnet 4.5は並列テスト時間計算を使用して82%を達成しました。テスト時間計算を使用しない場合でも77.2%のスコアを記録しており、このカテゴリーで見られる他のモデル、最大のフラッグシップモデルであるOpus 4.1、GPT-4o、Gemini 2.5 Proを含む全てのモデルよりもはるかに高いスコアとなっています。

ベンチマークでの圧倒的優位性

しかし、Sonnetが極めて優れた成績を収めているのはこのベンチマークだけではありません。実際、エージェント型コーディングにおいては、Sonnetが皆さんの第一選択肢となるべきモデルでしょう。

Terminal Benchを見てみましょう。これは再びエージェント型コーディングの指標で、モデルがエージェント型タスクでどれだけ優れた性能を発揮するかを測定するものです。Claude Sonnet 4.5は50%のスコアを記録していますが、Opus 4.1、Sonnet 4、GPT-4o、Gemini 2.5 Proなど、このカテゴリーの他の全てのフラッグシップモデルはそれを下回っています。実際、このモデルはGemini 2.5 Proの2倍、つまり2倍も優れた性能を発揮しているのです。

Sonnetが他の全てのモデルを完全に圧倒している重要なベンチマークにComputer Useと呼ばれるものがあります。これはKuwaのComputer Useのようなもので、モデルにピクセルを見て、その後コンピュータを使用することを教えるというものです。Claude Sonnet 4.5は61%のスコアを記録し、次に優れたモデルは42%でした。このモデルは非常に優れたスコアを記録しています。実際、いくつかのベンチマークでは飽和状態に達しており、おそらく私たちが新しいベンチマークについて話し合う時期が来ているのかもしれません。

モデルの特異な挙動

このモデルはコーディングとエージェント型タスクにおいて極めて優秀ですが、Cognitionという会社がDevinを構築する中で、いくつかの奇妙な挙動をまとめています。最も重要なのは、モデルが自身のコンテキストウィンドウを自覚しているということです。

これはどういう意味でしょうか。モデルがコンテキストウィンドウの終わりに近づくとき、例えば100万トークンがあって、モデルが50万トークンや20万トークンを超えて到達すると、モデルは異なる振る舞いを始めます。彼らはこれをコンテキスト不安と呼んでいます。この特定の問題は実際にモデルのパフォーマンスを損なっています。モデルはコンテキストウィンドウを埋めないように自覚しようとしていますが、コンテキスト管理において挙動上の問題を抱えています。

次に重要な問題は、モデルが大量のノートを取るということです。何かをしなければならない度に、モデルはファイルシステムにファイルを作成し、それから要約を書き下ろし、何が起こっているのかを理解しようとします。これによってモデルは将来の参照のためにそれを使用できるようになります。

もう一つの興味深い問題は、モデルがフィードバックループを作成する可能性があるということです。これは、モデルが常に自己検証を行う本質的な性質を持っているためで、それも問題になり得るのです。

実際の使用テスト

しかし、このモデルは並列に動作し、テスト時間計算をスケールするように設計されています。私はこのモデルを2つの異なるプロンプトで試してみました。それを皆さんと共有したいと思います。

最初のプロンプトでは「正確な詳細を持つXboxコントローラーのSVGを描いて」と言いました。これがXboxコントローラーとして正確だとは全く思えません。Microsoftがこのようなコントローラーをリリースしたことがあるかどうか分かりません。これはちょっと期待外れでした。

しかし、私にとって印象的だったのは、非常にシンプルなプロンプトを与えた時のことです。そのプロンプトは、Hugging Faceのオープンソースtransformer.jsモデルを使用して、美しい背景画像削除アプリのシンプルなtransformer.jsバージョンを作成するというものでした。外部のスタイル依存関係を使用しないようにしてください。ブラウザでダウンロードして実行できる単一のファイルを提供してください、という内容でした。

同じタスクで過去にGPT-4oのような他のモデルも試したことがありますが、成功しませんでした。このモデルも私に対してゼロショットでは成功しませんでしたが、数回の試行の後、このモデルは実際に私にコードを提供してくれました。そこで画像をアップロードするだけで、背景を削除して最終的な画像を提供してくれるのです。

そして、これら全てが私のブラウザ内で行われています。インターネットや外部依存関係を一切使用せず、ローカルでtransformer.jsを使用しているのです。私は驚きました。感銘を受けました。