Sonnet 4.5:エージェント構築のための最高のエージェントコーディングAIか?

Anthropic・Claude・ダリオアモデイ
この記事は約11分で読めます。

AnthropicがリリースしたClaude Sonnet 4.5は、現時点で最高のコーディングモデルであり、最大30時間の集中的なエージェントコーディングが可能という画期的な性能を実現している。コンテキスト認識機能により、トークン使用量を追跡し、一度に複数のタスクを試みるのではなく少数のタスクに集中する効率的なアプローチを採用している。SWE-bench Verifiedでは82%のスコアを記録し、Gemini 2.5 Proの67%を大きく上回る性能を示している。また、OS Worldベンチマークでは前バージョンの42.2%から61.4%へと約50%の向上を達成した。新たにCloud Code SDK、Cloud Agent SDK、Imagine with Claudeなどの開発ツールも提供され、価格据え置きでより高い知能を提供する点も特筆すべきである。安全性とアライメントにも優れ、特に規制が厳しい金融、法律、医療、STEM分野での活用が期待される。

Sonnet 4.5: The BEST Agentic Coding AI for Building Agents?
Very first look at the Claude Sonnet 4.5 release

Claude Sonnet 4.5のリリース

さて、Anthropicが先ほどClaude Sonnet 4.5をリリースしましたが、これは現時点で彼らにとって最も重要なリリースの一つになると思います。これは現在利用可能な最高のコーディングモデルです。しかしさらに興味深いことに、このモデルは最大30時間の集中的なエージェントコーディングが可能で、これはこれまで見られてきたトレンドを大きく打ち破るものです。

また、非常に興味深い機能もいくつか搭載されています。例えば、コンテキスト認識機能が追加されています。つまり、使用しているトークン数を追跡できるようになり、もはや過度に積極的ではなくなりました。すべてを一度に試みるのではなく、一度に少数のタスクに集中するようになっています。そして、これはモデルだけの話ではありません。Anthropicは実際に、彼らがCloud Code SDKと呼んでいるものを含む、さまざまなツールをリリースしています。

また、Cloud Agent SDKなど、他にもさまざまなツールをリリースしており、これを使えば自分のアプリケーションでCloud Codeを使用することができます。さらに、Imagine with Claudeもリリースしています。これはソフトウェアを構築する新しい方法です。では、このリリースについて簡単に見ていきましょう。さて、気づくことの一つは、彼らが今使っている言葉がブログ投稿とは非常に異なっているということです。

Sonnet 4.5の画期的な性能

彼らはClaude Sonnet 4.5は世界最高のコーディングモデルだと言っています。彼らのベストコーディングモデルだとは言っていません。世界で最高のコーディングモデルだと言っているのです。複雑なエージェントを構築するための最強のモデルです。コンピューターを使用する上で最高のモデルであり、推論と数学において大幅な向上を示しています。更新内容としては、チェックポイントが追加された新バージョンのCloud Codeがあります。

彼らによると、これは最も要望の多かった機能の一つだったそうです。また、ネイティブのVS Code拡張機能もリリースしており、これは特にVS Codeを使用している人々にとって非常に良いものになるでしょう。そして今、Cloud API内にコンテキスト編集機能とメモリツールも備わっています。つまり、Cloud API内で、彼らはこれらの新しいパラメータを導入しています。

おそらくこれについては別のビデオを作成すると思いますが、これによりCloud APIを使用する際にエージェントのコンテキストをインテリジェントに管理できるようになります。そして冒頭で述べたように、Cloud Agent SDKもリリースしています。これは彼らの内部ツールで、Cloud SDKを使用してソフトウェアを構築するために使用できます。しかし一つ、価格は変更していません。

これは、コストを節約しようとしている、あるいは少なくともより低コストのバージョンをリリースしようとしている他のすべてのフロンティアラボとは対照的です。彼らは価格を以前のバージョンのClaude Sonnetとまったく同じに保っています。つまり、同じコストでより多くの知能を得られるということです。そして知能について話すとき、Anthropicが焦点を当てている主なアプリケーションはコーディングです。

そして今、これはコーディング関連のタスクにおいて市場で利用可能な最高の最先端モデルです。具体的には、並列テスト時間計算を用いたSWE-bench Verifiedを見ると、82%を達成しています。Gemini 2.5 Proは67%です。おそらく10月中旬にGemini 3のリリースが予定されており、それがこの辺りで競争できるようになることを期待しています。

しかし、間違いなく、以前のバージョンのOpus 4.1をも上回っています。これはおそらく現時点で最高のコーディングモデルです。さて、これは特にコンピューター使用のためにトレーニングされています。実際、彼らによると、実世界でのコンピューター使用をテストするOS Worldベンチマークにおいて、以前のバージョンのSonnet 4の精度は42.2%でした。今では61.4%で、これはほぼ50%の向上であり、だからこそ彼らはこれをメジャーバージョンアップと呼んでいるのだと思います。

ブラウザ制御とベンチマーク性能

これは今、Chrome用のClaudeも動かしています。これはChromeブラウザを制御するために使用できる拡張機能です。私はすでにこれについてビデオを作成したと思います。これはかなり優れていて、Claudeにタスクを割り当てることができ、ChromeでそれらのタスクをClaudeが実行できるようになります。

つまり、Claudeによって制御されるエージェントブラウジング体験の最初のイテレーションです。これが今、Claude Sonnet 4.5によって動作するようになります。さて、他のベンチマークを見てみると、このモデルは間違いなく最先端です。SWE-bench Verifiedを見ましたが、エージェントターミナルコーディングを見ると、これはTerminalBenchですが、再び最先端であり、改善は実際に大幅です。エージェントツール使用のTau Benchにおいても、ほぼすべてのカテゴリーで最先端です。おそらく小売部門を除いて、そこではOpus 4.1が依然として最高のモデルですが、それも0.6%の差しかありません。

つまり、全く有意な差ではありません。Anthropicは本当に優れたコーディングモデルを構築するレシピを見つけ出しました。そして、これは特に検証可能な性質を持つドメインに特化しています。例えば、金融、法律、医療、STEMなどです。これらの分野で最先端のパフォーマンスを示しています。

さて、主な使用法は、このモデルが自分のアプリケーションでどれだけ優れているかということになります。ですので、ぜひテストしてみることを強くお勧めします。しかし、私が強調したいことがあります。彼らは、実際的に言えば、複雑な複数ステップのタスクにおいて30時間以上集中力を維持できることを観察したと述べています。これは従来のパターンを破るものです。

AIの長時間タスク処理能力の飛躍的進化

ここにMatterからのプロットがあり、AIが長いタスクを完了する能力を測定しています。理論では、7ヶ月ごとにAIが完了できるタスクの期間が2倍になります。しかし、ここを見てください。o1は2025年8月にリリースされました。つまり、ほぼ1ヶ月前です。そして、ほぼ2時間の集中トレーニングができます。しかし今、1ヶ月以内にClaude Sonnet 4.5が登場し、30時間の集中トレーニングができるようになりました。これは信じられないことですよね。

つまり、特にソフトウェアエンジニアリングに関して起きている加速を本当に示すことができるのです。2026年のどこかで約4時間のタスクを完了できるようになると予想されていましたが、今、このモデルはすでに1ヶ月以内に30時間の集中トレーニング、または集中コーディングができるようになっています。

ですから、私たちは狂気の軌道に乗っています。さて、エージェントコーディングに関するいくつかの他の機能について見ていきましょう。Sonnet 4.5は数時間独立して作業できます。これについては話しましたが、最も有用なことは、すべてを一度に試みるのではなく、一度に少数のタスクに集中できることです。これはClaudeモデルの最大の問題の一つでした。

あまりにも多くのことをしようとして、すでに動作しているコードベースの多くを変更してしまい、時には全く役に立たないコードをたくさん追加してしまうことがありました。ですので、今回これにより、はるかにターゲットを絞った変更を行うようになることを期待しています。そして、期待に応えられるなら、人々はCloud Codeに戻り始めると思います。

もう一つは、コンテキスト認識です。Claudeは今、会話全体を通してトークン使用量を追跡でき、各ツール呼び出しの後に更新を受け取ります。この認識により、タスクの早期放棄を防ぎ、長時間実行されるタスクでより効果的な実行が可能になります。彼らは特にコンテキスト認識と呼ばれるものを追加しています。

コンテキスト認識とトークン効率の向上

基本的に、モデルは今、マルチターンの会話を経る場合、コンテキストウィンドウをはるかに効果的に使用できるようになっています。使用するトークン数を追跡できるだけでなく、もはや重要でないものをコンテキストから削除することもできるようになります。さて、コンテキスト認識は、拡張思考でのみ利用可能になると思います。

つまり、これらの機能を使用するには、拡張思考を有効にする必要があります。会話の最初に、アクセスできるトークン数を伝えます。それがコンテキストウィンドウになり、それに基づいて、現在使用しているトークン数、または残りのトークン数を追跡し続け、はるかにトークン効率が良くなります。

ですので、これがコスト削減にもつながることを期待しています。Geminiは数日前に2.5 Flashと2.5 Lightの新バージョンを導入しましたが、これらははるかにコンテキスト効率が高い、またはトークン効率が高いものです。つまり、はるかに低いトークン使用量で、より優れたパフォーマンスを提供し、したがってトークンコストも下がります。

そして、これはしばらくの間見られてきたトレンドで、モデルプロバイダーがはるかにトークン効率の高いモデルを作成しようとしています。特に推論においてです。なぜなら、推論ではより多くのトークンを生成することになり、したがってコストを削減しても、結局より多くのトークンを使用することになるからです。

つまり、同じ数のAPI呼び出しに対してより多く支払うことになります。さて、ツール使用の強化もあります。複数の並列ツール呼び出しを行う際に、効果的にツールを使用できるようになりました。また、これは彼らの今までで最もアライメントされたモデルです。安全性はAnthropicの憲章の不可欠な部分であり、彼らはそれを真剣に受け止めています。

安全性とアライメント、そして新しいSDK

ミスアライメント行動を見ると、このモデルは現時点で最もアライメントされたモデルであり、これは特に規制された分野では重要です。金融、法律、医療、あるいは一般的なユーザー行動で作業している場合、企業では非常によくアライメントされたモデルを持ちたいですよね。Anthropicの焦点は主に企業やビジネス顧客、そしてコーディングに置かれています。

ですので、非常によくアライメントされたモデルを持つことは彼らにとって非常に重要であり、Claude Sonnet 4.5でそれを達成できているようで、これはかなり信じられないことです。さて、これについて、彼らがAI安全性レベルと呼んでいるリスク評価フレームワークがあります。これはレベル3で、Sonnet 4.5とやり取りする際に特定のコンテンツにフラグが立つ可能性があることを意味します。

しかし、ユーザーがClaude Sonnetモデルとの中断された会話を続けやすくしています。さて、彼らはCloud Agent SDKと呼んでいるものもリリースしています。これはCloud Codeの上に構築されています。ここで彼らは、困難な問題を解決したと述べています。長時間実行されるタスクにわたってエージェントがメモリをどのように管理すべきか。自律性とユーザー制御のバランスを取る許可システムをどのように処理するか。そして、共有目標に向かって作業するサブエージェントをどのように調整するか。

ですので、これは自分のアプリケーションでマルチエージェントシステムを構築するために使用できるSDKになります。OpenAIのAgent SDKと非常に似ていますが、Cloud Codeをオーケストレーターとして使用できます。おそらく、これについてはもう少し詳しく見て、もし興味があれば、もっとコンテンツを作成するかもしれません。チャンネルを必ず購読してください。彼らはImagine with Claudeもリリースしています。タスクをあらかじめ十分に計画するのではなく、

Imagine with Claudeと今後の展望

今、Claudeがあなたのためにコードやユーザーインターフェースを生成し、生成している出力を見ながら反復的に改良していきます。これは初期プレビューだと思います。おそらく、これについてさらにコンテンツを作成する前に、もう少し詳しく見たいと思います。さて、これはすでにClaudeで利用可能で、Cloud Codeでもすでに利用可能だと思います。

ですので、おそらく実際にモデルをテストする別のビデオを作成すると思いますが、Sonnet 4.5の中に何があるのかについての簡単な更新ビデオを作成したかったのです。ですので、Claude Sonnet 4.5での体験がどうか教えてください。実際に大きなアップグレードだと思いますか。そして、今月はかなりエキサイティングになると思います。なぜなら、来週初めにOpenAIからDev Dayがあり、非常に興味深いことが予想されているからです。

そして月の後半には、Gemini 3が登場します。これによって、これらのアップデートのいくつかが前倒しになる可能性があります。見守る必要がありますね。とにかく、このビデオが役に立ったことを願っています。ご視聴ありがとうございました。そしていつものように、次回お会いしましょう。

コメント

タイトルとURLをコピーしました