Sonnet 4.5:エージェント構築のための最高のエージェントコーディングAIか?

Anthropic・Claude・ダリオアモデイ
この記事は約10分で読めます。

AnthropicがリリースしたClaude Sonnet 4.5は、現時点で最高のコーディングモデルであり、最大30時間の集中的なエージェントコーディングが可能という画期的な性能を実現している。コンテキスト認識機能により、トークン使用量を効率的に管理し、従来のように過剰な変更を行わず、必要なタスクに集中できるようになった。SweepBench Verifiedで82%、OS Worldベンチマークで61.4%を達成し、他のモデルを大きく引き離している。さらにClaude Code SDK、Claude Agent SDK、Imagine with Claudeなどの新ツールも公開され、価格据え置きでより高い性能を提供する。AI能力の加速度的な進化を示す重要なリリースである。

Sonnet 4.5: The BEST Agentic Coding AI for Building Agents?
Very first look at the Claude Sonnet 4.5 release

Claude Sonnet 4.5の革新的な性能

さて、AnthropicがSonnet 4.5をリリースしました。これは現時点で最も重要なリリースの一つになると思います。現在利用可能な最高のコーディングモデルです。しかしさらに興味深いのは、最大30時間の集中的なエージェントコーディングが可能だという点で、これはこれまで見られた傾向を大きく打ち破るものです。

また、非常に興味深い機能もあります。例えば、コンテキスト認識機能が搭載されています。つまり、使用したトークン数を追跡できるようになり、もう過剰に意欲的ではなくなりました。一度にすべてをやろうとするのではなく、一度に少数のタスクに集中するようになったのです。そしてモデルだけではありません。Anthropicは実際に、Claude Code SDKと呼ばれるものを含む多数の異なるツールをリリースしています。

また、自分のアプリケーションでClaude Codeを使用できるClaude Agent SDKを含む、他の多数のツールもリリースしています。Imagine with Claudeもリリースしています。これはソフトウェア構築の新しい方法です。では、このリリースを簡単に見ていきましょう。注目すべき点は、彼らが使用している言葉がブログ投稿とは大きく異なっているということです。

彼らはClaude Sonnet 4.5が世界最高のコーディングモデルだと言っています。自社の最高のコーディングモデルだと言っているのではありません。複雑なエージェントを構築するための最強のモデルです。コンピューター使用において最高のモデルであり、推論と数学において大幅な向上を示しています。

新機能とアップデート

アップデートの一部として、チェックポイントが追加された新バージョンのClaude Codeがあります。彼らによると、これは最も要望の多かった機能の一つでした。また、ネイティブのVS Code拡張機能もリリースしています。これはVS Codeを使用している人々にとって特に良いものになるでしょう。そして今、Claude API内にコンテキスト編集機能とメモリーツールも搭載されています。

Claude API内で、これらの新しいパラメータを導入しています。おそらくこれについては別の動画を作成しますが、これはClaude APIを使用する際に、エージェントのコンテキストをインテリジェントに管理するのに役立ちます。そして冒頭で述べたように、Claude Agent SDKもリリースしています。これは彼らの内部ツールで、Claude SDKを使用してソフトウェアを構築するために使用できます。

しかし一つ、価格は変更していません。これはコストを削減しようとしたり、少なくとも低コストのバージョンをリリースしようとしている他のフロンティアラボとは対照的です。価格は以前のバージョンのClaude Sonnetとまったく同じに保っています。つまり、同じコストでより高い知能を得られるということです。

コーディング性能の革新

そして知能について話すとき、Anthropicが焦点を当てている主なアプリケーションはコーディングです。そして今、これはコーディング関連タスクにおいて市場で利用可能な最高の最先端モデルです。具体的には、並列テスト時間計算を使用したSweepBench Verifiedを見ると、82%を達成しています。Gemini 2.5 Proは67%です。おそらく10月中旬にGemini 3のリリースが予想されています。願わくば、このあたりで競争できるようになることを期待しています。

しかし間違いなく、以前のバージョンのOpus 4.1さえも打ち負かしています。これはおそらく現時点で最高のコーディングモデルです。また、コンピューター使用に特化してトレーニングされています。実際、彼らによると、実世界のコンピューター使用でAIモデルをテストするOS Worldベンチマークにおいて、以前のバージョンのSonnet 4の精度は42.2%でした。今は61.4%で、ほぼ50%の向上です。だからこそ、彼らはこれをメジャーバージョンアップと呼んでいるのだと思います。

これはまた、Chromeブラウザを制御するために使用できる拡張機能であるClode for Chromeも動かしています。私はすでにこれについて動画を作成したと思います。かなり優れています。なぜなら、タスクをClaudeに割り当てることができ、Chromeでそれらを実行できるからです。

これは、Claudeによって制御される彼らのエージェントブラウジング体験の最初の反復です。そして今、Sonnet 4.5によって動作するようになります。他のベンチマークを見ると、このモデルは間違いなく最先端です。SweepBench Verifiedを見ましたが、エージェントターミナルコーディングを見ると、これはTerminal Benchですが、これも最先端で、改善は実際に大幅です。

エージェントツール使用のTauベンチマークでも、ほぼすべてのカテゴリで最先端です。おそらく小売部門だけは例外で、Opus 4.1がまだ最高のモデルですが、わずか0.6%の差です。つまり、全く有意な差ではありません。

エージェントコーディングの新境地

Anthropicは優れたコーディングモデルを構築するレシピを本当に見つけ出しました。そして、特に検証可能な性質のドメインに特化しています。例えば、金融、法律、医療、STEMです。最先端のパフォーマンスを示しています。

主な使用法は、このモデルが自分のアプリケーションでどれだけ優れているかということです。ですから、ぜひテストすることを強くお勧めします。しかし、私が強調したいのは、彼らが言っているように、実用的に言えば、複雑な複数ステップのタスクで30時間以上集中力を維持できることを観察しています。これはパターンを打ち破るものです。

Matterからのプロットがあり、長いタスクを完了するAIの能力を測定しています。理論では、7か月ごとにAIが完了できるタスクの期間が2倍になります。しかし、ここを見ると、GPT-4o5は2025年8月にリリースされました。つまり、ほぼ1か月前です。そして約2時間の集中トレーニングができます。しかし今、1か月以内に、Sonnet 4.5が登場し、30時間の集中トレーニングができます。これは信じられないことですよね。

つまり、特にソフトウェアエンジニアリングに関して起こっている加速を本当に示すことができます。2026年のどこかで約4時間のタスクを完了できると予想されていましたが、今このモデルはすでに1か月以内に30時間の集中トレーニング、つまり集中コーディングができます。

私たちは狂ったような軌道にいます。さて、エージェントコーディングに関するいくつかの他の機能があります。Sonnet 4.5は何時間も独立して作業できます。これについては話しましたが、最も有用なことは、一度にすべてを試みるのではなく、一度に少数のタスクに集中できることです。これはClaudeモデルの最大の問題の一つでした。

あまりにも多くのことをやろうとして、すでに動作している多くのコードベースを変更してしまい、時には全く役に立たないコードを大量に追加してしまうのです。そうですよね。ですから、願わくば、これによってはるかにターゲットを絞った変更を行うようになり、期待に応えれば、人々がClaude Codeに戻り始めると思います。

コンテキスト認識とトークン効率

もう一つは、コンテキスト認識です。Claudeは会話全体を通じてトークン使用量を追跡でき、各ツール呼び出しの後に更新を受け取ります。この認識は、早期のタスク放棄を防ぎ、長時間実行されるタスクでより効果的な実行を可能にします。つまり、彼らは特にコンテキスト認識と呼ばれるものを追加しています。

本質的に、モデルは複数ターンの会話を行う場合、コンテキストウィンドウをはるかに効果的に使用できるようになりました。使用するトークン数を追跡できるだけでなく、もう重要でないものがあれば、コンテキストから削除することもできます。コンテキスト認識は拡張思考でのみ利用可能になると思います。

つまり、これらの機能を使用するには、拡張思考を有効にする必要があります。会話の最初に、アクセスできるトークン数を伝えます。つまり、それがコンテキストウィンドウになり、それに基づいて、現在使用しているトークン数や残りのトークン数を追跡し、はるかにトークン効率が良くなります。

願わくば、これはコスト削減にも繋がるでしょう。Geminiは数日前に、2.5 Flashと2.5 Lightの新バージョンを導入しました。これらははるかにコンテキスト効率が高い、つまりトークン効率が高いです。したがって、はるかに低いトークン使用量で、はるかに優れたパフォーマンスが得られ、その結果トークンコストも下がります。

これはしばらく見られてきたトレンドで、モデルプロバイダーがはるかにトークン効率の高いモデルを作成しようとしています。特に推論に関してです。なぜなら、推論ではより多くのトークンを生成するため、コストを削減しても、結局より多くのトークンを使用することになるからです。

つまり、同じ数のAPI呼び出しに対してより多くの料金を支払うことになります。また、ツール使用の強化もあります。複数の並列ツール呼び出しを行う際に、効果的にツールを使用できるようになりました。そして、これは彼らの最もアライメントされたモデルです。安全性はAnthropicの憲法の不可欠な部分であり、彼らは本当に真剣に取り組んでいます。

安全性とアライメント

不整合な動作を見ると、このモデルは現時点で最もアライメントされたモデルであり、これは規制された分野で特に重要です。金融、法律、医療で働いている場合、さらには一般的なユーザー行動でも、企業では非常によくアライメントされたモデルが必要です。そうですよね。Anthropicの焦点は主に企業やビジネス顧客、そしてコーディングに向けられてきました。

ですから、非常によくアライメントされたモデルを持つことが彼らにとって非常に重要であり、Sonnet 4.5でそれを達成できているようです。これはかなり信じられないことです。これに関する彼らのリスク評価フレームワークは、AI安全性レベルと呼ばれています。これはレベル3であり、Sonnet 4.5と対話する際に特定のコンテンツにフラグが立つ可能性があることも意味します。

しかし、ユーザーがSonnetモデルとの中断された会話を継続することを簡単にしました。また、Claude Agent SDKと呼ばれるものもリリースしています。これはClaude Codeの上に構築されています。ここで彼らは、難しい問題を解決したと述べています。エージェントが長時間実行されるタスク全体でメモリを管理する方法、自律性とユーザー制御のバランスをとる許可システムをどのように処理するか、共通の目標に向けて作業するサブエージェントをどのように調整するか。

これは、OpenAIのAgent SDKと非常に似た、マルチエージェントシステムを構築するために自分のアプリケーションで使用できるSDKになります。ただし、Claude Codeをオーケストレーターとして使用できます。おそらくこれをより詳しく見て、興味があれば、これについてもっとコンテンツを作成するかもしれません。チャンネルを購読してください。

Imagine with Claudeとその他の機能

Imagine with Claudeもリリースしています。タスクをかなり前もって計画する代わりに、今Claudeはコードやユーザーインターフェースを生成し、生成している出力を見ながら反復的に洗練していきます。これは初期プレビューだと思います。さらにコンテンツを作成する前に、さらに詳しく見てみたいと思います。

すでにClaudeで利用可能であり、Claude Codeでも利用可能だと思います。おそらく実際にモデルをテストする別の動画を作成しますが、Sonnet 4.5の中に何があるかについての簡単な更新動画を作成したいと思いました。

ですから、Sonnet 4.5での体験がどうか教えてください。本当にメジャーアップグレードだと思いますか。そして今月はかなりエキサイティングになると思います。なぜなら、来週初めにOpenAIからDev Dayがあり、非常に興味深いことが期待されているからです。

そして月の後半には、Gemini 3があります。これが実際にこれらのアップデートの一部を早める可能性があります。様子を見る必要があります。とにかく、この動画が役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回お会いしましょう。

コメント

タイトルとURLをコピーしました