Anthropicが発表したClaude Sonnet 4.5は、現時点で最高のコーディングモデルと位置づけられる最新のフロンティアモデルである。従来のSonnet 4と同価格を維持しながら、コンピュータ使用機能の向上、長時間の多段階推論、数学とSTEM分野でのパフォーマンス強化を実現している。SWE検証では77.2%という高スコアを記録し、GPT-4oやGemini 2.5 Proを上回る結果を示した。特にターミナルスタイルのコーディングやコンピュータ使用においては他モデルを大きく引き離している。Claude Codeのチェックポイント機能やVS Code拡張機能により、開発者は作業状態を保存してロールバックすることが可能となり、実用性が大幅に向上した。また、Claude Agent SDKにより独自のエージェントシステムを構築できる基盤も提供される。ASL3保護下でリリースされた最も整合性の高いフロンティアモデルとして、日常的な開発ワークフローにおける信頼性の高い選択肢となることが期待される。

Claude Sonnet 4.5の登場
こんにちは、別の動画へようこそ。それでは、AnthropicがClaude Sonnet 4.5をちょうど発表しましたので、これについてお話しします。これは彼らの新しいフロンティアモデルであり、現時点で最高のコーディングモデルと呼んでいます。大きなポイントは、コンピュータ使用の改善、より長い多段階推論、そしてSonnet 4と同じ価格でより強力な数学とSTEMパフォーマンスです。
100万トークンあたり入力が3ドル、出力が15ドルというのは、なかなか良いですね。Sonnet 4を覚えているなら、それはすでに本当に良かったです。Sonnet 4.5はコーディング、ターミナル使用、そして実際にコンピュータを使用させるという雰囲気全体において一段階上です。安全性の面では、これは彼らがこれまでに最も整合性の高いフロンティアモデルであり、ASL3保護の下でリリースされています。これはかなり良いことです。
それでは、簡単なウォークスルーに移りましょう。通常の開発者のワークフローでどのように使うかをお見せします。しかしその前に、Ninja Chatについてお話しさせてください。Ninjaは月額わずか11ドルで、GPT-4o、Claude 4 Sonnet、Gemini 2.5 ProのようなトップクラスのモデルにアクセスできるオールインワンのAIプラットフォームです。
私は素早い調査のためにGeminiを使っています。しかし本当にクールなのは、異なるモデルからの応答を並べて比較できるAIプレイグラウンドです。彼らのマインドマップジェネレーターは、複雑なアイデアを整理するためのゲームチェンジャーでもあります。基本プランでは月に1,000メッセージ、30画像、5動画が提供され、より多く必要な場合は上位プランも利用できます。
どのプランでも25%オフになる私のコードking25、または年間サブスクリプションで40%オフになるking40yearlyを使ってください。説明欄のリンクから自分で試してみてください。それでは動画に戻りましょう。
モデル性能とベンチマーク結果
まず、モデル自体、パフォーマンス、そして動作について主に説明します。見出しとなる数字は強力に見えます。エージェント型コーディングのSWE検証では、Sonnet 4.5は77.2%を報告しています。Opus 4.1の74.5%とSonnet 4の72.7%を上回り、GPT-4oは72.8%、Gemini 2.5 Proは67.2%です。
ターミナルスタイルのコーディングでは、ターミナルベンチでSonnet 4.5は50.0%に対し、Opus 4.1は46.5%、GPT-4oは43.8%、Sonnet 4は36.4%、Gemini 2.5 Proは25.3%で後れを取っています。
OSWorldでのコンピュータ使用は、Sonnet 4.5で61.4%に跳ね上がり、Sonnet 4の42.2%とOpus 4.1の44.4%から大きく向上しており、これは非常に素晴らしいです。
推論負荷の高いものでは、Pythonを使ったAIME 2025でSonnet 4.5は100%を達成し、Opus 4.1の78.0%、Sonnet 4の70.5%、GPT-4oの99.6%、Gemini 2.5 Proの94.6%より高いです。
GPQA Diamondでは、Sonnet 4.5は83.4%で、GPT-4oの85.7%とGemini 2.5 Proの86.4%に近く、Opus 4.1の81.0%とSonnet 4の76.1%を上回っています。
多言語MMLUは、Sonnet 4.5が89.1%に対し、Opus 4.1は89.5%、GPT-4oは89.4%です。視覚推論のMM検証では、Sonnet 4.5が77.8%で、GPT-4oは84.2%、Gemini 2.5 Proは82.0%とより高いですが、Sonnet 4の74.4%からは上昇しています。
Finance Agentでは、Sonnet 4.5が55.3%でOpus 4.1の50.9%、GPT-4oの46.9%、Sonnet 4の44.5%、Gemini 2.5 Proの29.4%を上回っています。
金融やSTEMの勝率などのドメイン評価では、拡張思考を持つSonnet 4.5がリードしています。金融では、Sonnet 4.5 16k思考が72%と68%のエントリーを示し、60%台前半のOpus 4.1と49~50%前後のSonnet 4を上回っています。
STEMでは、Sonnet 4.5 16k思考が69%を示しています。一方、非拡張版は58%です。Opus 4.1 16k思考は62%で、Sonnet 4のバリアントは50~52%前後です。
安全性とアライメント
整合性については、誤整合行動スコアを示すグラフがあり、低い方が良いとされています。Sonnet 4.5はリストされたモデルの中で最も低いスコアを持ち、エラーバーは95%ブートストラップ信頼区間を示しています。
GPT-4oとGrok 4はそのグラフで最も高いスコアを示し、Sonnet 4.5は最下部にあり、これは非常に良いことです。実際的には、モデルにブラウジング、ファイル編集、またはコマンド実行をさせる際に、これが重要になります。奇妙な動作を少なくしたいですからね。
しかし、まだASL3の下でゲートされています。したがって、センシティブなドメインに触れると、分類器がフラグを立てたり中断したりする可能性があります。改善されていますが、時々誤検知に遭遇するかもしれません。それが起こった場合、Sonnet 4でスレッドを続けることができます。これは少し残念ですが、作業を進め続けることができます。
Claude CodeとVS Code拡張機能
それでは、Claude CodeとVS Code拡張機能について見ていきましょう。なぜなら、そこで日々これを実感することになるからです。Claude Codeでは、チェックポイントが目玉機能です。
タスクの途中で状態を保存でき、何かが壊れた場合は即座にロールバックできます。これは非常に素晴らしいです。ネイティブのVS Code拡張機能に切り替えると、それをインストールし、ワークスペースを開き、Anthropicアカウントに接続します。これは非常に良く、基本的にコーダーの中にKlineのようなものを持つことができます。
25ドルの無料クレジットがあるKiloCordのようなもので無料で使用でき、そこで好きなだけ問題なく使用できます。
これとは別に、Claude Agent SDKもあります。基本的に何をするかというと、AnthropicがClaude Codeに使用しているのと同じ基盤を提供するので、独自のエージェントシステムを構築できます。コントローラーとサブエージェントを考えてください。サンドボックスでコマンドを実行するテストサブエージェント、要約と更新を書く文書化サブエージェント、そして明示的な承認がある場合にのみ動作するデプロイメントサブエージェントです。
CIのようなフローで複数のbashコマンドを実行するなど、ツール実行を並列化して、コンテキストウィンドウあたりのアクションを最大化できます。これはかなり良いです。明確な役割と権限を持つ小さなチームを構築するのと非常に似ています。私は本当に気に入りましたが、大規模なリポジトリのためにはポリシーとインデックス戦略を設計する必要があることは言っておきます。
ワークスペースが混沌としている場合、奇跡を期待しないでください。
強みと注意点
強みは、モデルがより高速で、実際のコンピュータ使用と長期タスクでより能力が高いことです。Claude Codeのチェックポイントは救世主です。VS Code拡張機能はすべてをエディター内に保ちます。メモリとコンテキスト編集により、手動の状態管理が減ります。
そして、Agent SDKはカスタムエージェントワークフローへの扉を開きます。価格が100万トークンあたり3ドルから15ドルで変わらないのは歓迎すべきことです。なぜなら、長時間実行されるセッションはトークンを急速に消費する可能性があるからです。これは非常に良いことです。
ただし、いくつかの注意点があります。ASL3のセーフガードは、エッジドメインの通常のコンテンツを中断する可能性があります。分類器が作動した場合、それは残念ですが、スレッドの途中でSonnet 4に切り替えることができます。
複数のタブにまたがる複雑なブラウザフローや奇妙な動的ページは、まだ監視が必要な場合があります。視覚推論は強力ですが、一部の指標ではGPT-4oと比較してフィールドで最高ではありません。そして、本当に大規模なコードベースの場合、リポジトリのインデックス作成とプロジェクト構造が依然として重要です。混乱したモノレポを単独で修正することはできません。
結論
結論としては、もしあなたがこのチャンネルの熱心な視聴者なら、私が信頼性と日常的な使用をより重視していることを知っているでしょう。Sonnet 4.5は意味のあるアップグレードのように見えます。ベンチマークがそれを裏付けていますが、私は自分自身でテストを行い、おそらく明日それを公開します。
ですので、それに注目して、チェックしてください。それが主な内容です。全体的に、非常にクールです。とにかく、下にあなたの考えを共有して、チャンネルを登録してください。
スーパーサンクスオプションを通じて寄付したり、チャンネルに参加して特典を得ることもできます。次の動画でお会いしましょう。さようなら。


コメント