Claude Sonnet 4.5には、さらに多くのものが隠されている

Anthropic・Claude・ダリオアモデイ
この記事は約13分で読めます。

Anthropicが発表したClaude Sonnet 4.5は、単なる高性能コーディングモデルではない。CEOのDario Amodeiが2025年1月にダボスで予告した「バーチャルコラボレーター」実現に向けた重要なステップである。本動画では、モデル性能の向上だけでなく、Claude Agent SDKの公開、コンテキスト編集機能、Chrome拡張機能など、統合されたエコシステム全体を解説する。SWE Benchでの顕著な改善、最大30時間の長時間タスク処理能力、コンピュータユースベンチマークでの大幅な進歩など、エージェント機能の強化が際立つ。Cognitionによる実装事例も紹介しながら、Anthropicがエンタープライズ向けAIソリューションとして描く将来像を明らかにする。

... there's more to Sonnet 4.5
In this video I look at the release of Sonnet 4.5 in context of Anthropic's plans for the Virtual Collaborator. Blog:

Claude Sonnet 4.5の真の意味

昨日、AnthropicがClaude Sonnet 4.5を発表しました。このモデルが本当に優れていることは疑いようがありません。彼らはこれが世界最高のコーディングモデルだと主張していますが、このリリースには人々が表面的に見ている以上のものがたくさんあります。

これを始めるにあたって、スイスのダボスで1月の寒い日に遡りたいと思います。そこでAnthropicのCEOであるDario Amodeiが、バーチャルコラボレーターについて初めて話し始めたのです。Anthropicが2025年に何を目指すのかを最初にプレビューした、この短い抜粋を聞いてみてください。

今年の第3四半期の終わり、9月末にそれを振り返ってみると、Sonnet 4.5という実際のモデルは、Anthropicがバーチャルコラボレーターをリリースできる地点に到達するためのステップの一つに過ぎないことがわかります。

これからモデルについて、そしてこのリリースについていくつかのことを説明していきますが、これらの要素のそれぞれがどのように積み重なって、バーチャルコラボレーターを可能にしているのかを指摘したいと思います。私がAnthropicについて最も魅力的だと感じることの一つは、他の誰もが大きなリリースや大きな開発者向けイベントなどを行っている間、彼らはモデルやClaude Codeのようなツールをただドロップする傾向がある会社だということです。これは基本的に人々が多くの異なることをできるようにするものです。

常に壮大なビジョンやAGIへの道について語ることなく、です。Anthropicによるこの特定のリリースには、モデル自体以上のものがたくさん含まれています。しかしまず、モデルについてのいくつかのことを見ていきましょう。

モデル性能の向上とコーディング能力

明らかにAnthropicは、人々がClaude Codeを使用したり、コーディングのために彼らのモデルを使用したりすることから、はるかに自信を持つようになりました。そして、今年のほとんどの期間、Claude SonnetとClaude Opusが打ち負かすべきコーディングモデルであったことは、かなり明確だったと思います。

過去数ヶ月間、OpenAIがCodexで登場してくるのを見てきました。私たちは多数の中国のモデルが、彼らがコーディングモデルのために行ってきた以前の取り組みよりもはるかに優れたモデルをリリースするのを見てきましたが、かなり一貫して、Claudeは人々がコーディングに使いたいモデルでした。

唯一の例外は、それが非常に高価であるか、非常に遅いということでした。さて、Sonnet 4.5は当面それをより安くすることについての問題には対処していませんが、彼らはモデルをはるかに高速にしました。このモデルへの早期アクセスを持っていたDevinのような人々は、これが前のモデルより2倍速いと主張しています。

これは確実にコーディングをしたい人々にとって勝利となるでしょうが、Anthropicのバーチャルコラボレーターのビジョンを作成できるようにするために必要なものでもありました。

ベンチマークに飛び込んでみると、わかります。さて、Claude Sonnetは以前のバージョンの自分自身よりも優れているだけでなく、確実にGPT-5とGemini 2.5 Proを上回っています。しかし私個人としては、これらのベンチマークについてはそれが問題ではありません。

ここで本当に興味深いのは、実際にバーチャルコラボレーターに関係することのベンチマークでの飛躍です。このモデルの大きなことの一つは、エージェント的な用途においてはるかに優れたものになったということです。

最初のものはコーディングです。ここでSWE bench verifiedを見ることができます。彼らはここで完全な500の評価でそれを行っています。一部の企業が行ったような削減された量ではありません。そしてここを見ると、GPT-5 Codexよりもはるかに優れており、以前のバージョンのSonnetと最新のOpus 4.1よりもはるかに優れているように見えます。

ここでの違いを見ると、これは基本的に並列テスト時間計算で実行されていることがわかります。これはGemini DeepThinkが行うことと非常に似ています。これが、このようなものを実際に本番環境に投入する際に実用的かどうかはわかりません。しかしそれなしでも、Sonnetが明確なリードを持っていることがわかります。

バーチャルコラボレーターで必要とされる次の要素は、実際に本当に優れた、強力で信頼性の高いエージェントを持つ能力です。これらすべてのベンチマークで、このモデルには確実に前進があることがわかります。ベンチマークの質だけでなく、より良く実行できるようになっています。彼らはこのモデルが特定の複雑なタスクで実際に最大30時間まで進むことができ、それでも集中力を保つことができると主張しています。

明らかに、それはエージェントのスキャフォールドを使用し、モデルへの複数の呼び出しを行うなどしています。彼らの新しいAgent SDKに進む前に、ここで本当に物語っている他のベンチマークの一つを見てください。コンピュータユースのベンチマークです。

彼らはバーチャルコラボレーターのために、モデルがブラウザと対話し、あなたのコンピュータと対話できる必要があることを認識しました。このモデルでコンピュータユースのために、以前のバージョンのSonnetとOpus 4.1よりも大幅な増加を得ていることがわかります。そしてこれは、彼らがこのリリースでそれほど話してすらいないものです。

Claude Agent SDKの登場

さて、このリリースの次の大きな部分は、モデルだけではありませんが、明らかにモデルは実際にこれで動作するように作られています。それは彼らが今Claude Agent SDKと呼んでいるものの全体的なリリースです。

この初期バージョンは基本的にClaude Code SDKでした。そしてそれは基本的にClaude Codeが構築されたものでした。このリリースで、Anthropicは実際にその基礎となるSDK、彼らのバージョンのAgent SDKを作成しました。

ここで彼らは、Claude Codeを動かすエージェントハーネスが実際に他のエージェントにも使用できることに気づいたと話しているのがわかります。それが彼らがClaude Code SDKからClaude Agent SDKに名前を変更した理由です。

そして彼らはこれの背後にある設計原則について多くを語っています。進行しながらファイルを書き込み、読み込み、編集することでメモリを操作できるという全体的なアイデアです。このケースでは、彼らは実際にターミナル経由でユーザーのコンピュータにアクセスすることについて話しています。

このSDKで、私たちは基本的にあなたの画面を読んでいるようなバーチャルコラボレーターと完全には一緒にいませんが、ターミナルから多くのことができます。そして彼らがアップデートした別のものについて話します。それはあなたの画面から多くのことへのアクセスを与えます。

興味深いことに、ここで彼らはこれが実際に人々が構築できるようになる異なる種類のエージェントについて多く語っています。しかし、ここで最も興味深いことの一つは、実際にこのClaude Agent SDKループの定義のようなものだと思います。

基本的にコンテキストを収集するためのツールのセットを持ち、コンテキスト操作、コンテキストエンジニアリングについて多くあるという全体的なアイデアです。実際に物事に対してアクションを取り、実際に物事を行うためのツールまたはMCPを持ち、しかしまたその作業を実際に検証するためのツールまたは方法を持ち、このループを何度も実行できるようにすることです。

彼らはSDKがどのように基本的にコンテキストを収集することを可能にするか、モダンなコンテキストに物事を引き込むために基本的に行うことができる異なる種類の検索について話しています。彼らはセマンティック検索対エージェント検索についていくつかの興味深い比較を行っています。そして実際にエージェント検索がエージェントとの作業にはより良い傾向があり、その後RAGのようなもののためのセマンティック検索のツールを使用することを発見していると。

明らかに、SDKはサブエージェントのようなものを考慮に入れています。アクションを取る部分を見ると、彼らが話している多くのツールがあることがわかります。組み込みツールとここでカスタムツールを作成するための能力の両方、そしてもちろん、これらのアクションのいくつかを取ることができるようにするためにMCPのようなものを活用することです。

検証とコンテキスト管理の重要性

さて、作業を検証する第3ステップです。私にとって、これは実際に現時点でエージェントの最も興味深い領域だと思います。私が最も機能すると見ているのは、カスタムツールを構築するだけでなく、カスタム検証ツールを構築することです。

ここで彼らは、Playwrightのようなあなたの画面を見ることができ、見ているものについてモデルを更新できるMCPのようなものを使用することによって、物事の検証を実際に行っている異なる方法のいくつかに入っていきます。判定者としてのLLMは、基本的にモデルが生成した出力の品質をテストし、フィードバックを与えます。

全体として、このSDKは、おそらく多くの人がClaude Codeのようなものでそれを使用することに焦点を当てるでしょう。しかし私は、将来のビデオで戻ってきて、このClaude Agent SDK自体でデモを構築し始めたときに気づいた興味深いことのいくつかについて、もう少し話すと思います。

このリリースのもう一つの部分で、このモデルをさらに興味深いものにしているのは、Claude開発者プラットフォームでコンテキストを実際に管理できるように構築した、この全体的なバックエンドのようなものです。今、呼び出しを行うときは、実際のモデルを使用するだけでなく、基本的にコンテキスト編集と何らかのメモリツールが利用可能なClaude開発者プラットフォームを使用していると考えることができます。

ここで彼らはコンテキスト編集の全体的なアイデアについて話しているのがわかります。これは非常に理にかなっています。なぜなら、コンテキストが長くなり、エージェントの実行などを行っているとき、おそらくそのツールの結果をまだ知りたいと思っていますが、最新のものにより興味があり、前進するためのコンテキストを解放したいからです。

ここで彼らはコンテキスト編集前とコンテキスト編集後の素晴らしい図を持っているのがわかります。そしてこれは、コンテキストの一部を要約し、そのコンテキストの一部を縮小する素晴らしい方法があれば、生成する新しいもののためにスペースを解放できるが、それらの初期の決定への参照をまだ持つことができるという、より長時間実行されるエージェントを構築できる重要なことの一つのようです。

そしておそらくその後、それらの決定のいくつかはファイルに書き込まれるので、あなたのエージェントが実際にそれらを利用できます。

Cognitionによる実装と課題

これに関して、私が実際に本当に興味深いと感じたのは、Anthropic自身からではなく、Devinの作成者であるCognitionからでした。明らかに彼らは、開発者ツールを使用できること、コードを編集および作成できることの非常に長い実行を可能にすることを望んでいるもののために、モデルとエージェントを使用しています。

そして彼らのブログ投稿でここに見ることができます。彼らはまず、さて、これは新しいバージョンが2倍速いこと、彼らの評価で12%優れていることについて話します。しかしその後、彼らはモデルがどのように異なって機能するか、そしてそれが実際にどのようにエージェントがどのように実際に構築されるべきかについての彼らの仮定のいくつかを壊したかについてのこの全体的なことについて話します。

彼らはまた、エージェントの異なる部分を分解し、彼らが見てきたいくつかの結果について話します。これを見つけたのは本当に魅力的でした。なぜなら、私が最初に実際にモデルを見てそれで遊び始めたとき、私もそれが計画においてはるかに優れたものになっていると感じたからです。

そして私にとって、それは本当にエキサイティングなことです。これらのモデルが、計画を作成するだけでなく、その計画を読んで更新し、その計画のどこにいるかを知ることができるようになると、エージェントが一般的にはるかに信頼性が高くなります。

そしてここでDevinの人々は実際に、彼らもこれが約18%上昇していることに気づいていると言っています。そして数時間にわたるセッションが劇的に、より速くなるだけでなく、はるかに信頼性が高くなっています。

彼らはここで、コンテキストウィンドウを認識し、時間の経過とともにコンテキストウィンドウからビットを実際に編集しているこのモデルを扱うことで実際に抱えた課題のいくつかについて話し続けます。そしてそれは実際に何を生み出すのか?彼らは、これらの要約のいくつかが彼らの実際のエージェントが使用するために作られた方法で行われなかったため、実際にこれのためにプロンプトを再考しなければならなかったと話しています。

彼らはまた、モデルがたくさんのメモを取ることについても指摘しています。そしてそれがこれらのメモを自分自身に書いている間、おそらく彼らの使用のために、それらのメモは実際に彼らが好むほど詳細ではなかったと。

そして彼らは、基本的に彼らのプロンプトのいくつかと、彼らが実際に行わせているアクションのいくつかを再考しなければなりませんでした。私はこの機能が本当に興味深いと思いますが、それは確実にあなたにエージェントを再考することを要求し、おそらくこれに関するいくつかのプロンプトを編集することを要求するでしょう。

そして、バックエンドプラットフォームがあなたのコンテキストウィンドウを実際に操作し始めるときに実際に何が起こるかをテストするための良い評価を持っていることを確認してください。

バーチャルコラボレーターの実現に向けて

最後に、バーチャルコラボレーターに戻ると、そのための重要なことの一つは、あなたのコンピュータを見る能力、または少なくとも最初は、あなたのブラウザを見ることができる能力です。Anthropicは基本的にかなり前にClaude for Chromeをリリースしていましたが、このモデルはこの特定の種類のユースケースのために多く更新されているように見えます。

彼らがリリースしたChrome拡張機能は現在、Maxプランの人々のためだけのものですが、私の推測では、それは最終的に他の有料プランにも進むでしょう。そして私はまた、このモデルが、私が以前にいくつかのビデオでカバーしたブラウザ使用プラグインのようなものでも、おそらくはるかに良く機能するだろうと思います。

全体として、これは素晴らしいリリースです。ここで話す機会がなかった他の小さなことがまだありますが、Dario Amodeiが1月にバーチャルコラボレーターとして話したものの各コンポーネントを作成するために彼らが進んでいる明確なパターンを見ています。

そしてAnthropicがエンタープライズソリューションにはるかに焦点を当てているように見えるので、彼らが人々の生産性を大幅に向上させることができるそのツールを作るために、これらすべてのものを配置することは理にかなっています。Microsoft Copilotなどのようなもので彼らができないタスクを行うのを助けるためにも。

開発者として、私たちが自分自身で構築しているソフトウェアやエージェントのために、これらのことを利用できるように、Anthropicが実際に設定しているこれらのことを認識すべきだと思います。そしてAnthropicが自分たち自身のためにも実際にどのようにそれを行っているかに注目してください。

さて、実際にモデルをテストした人々から聞きたいと思います。私のように、これが計画のような特定のことで確実にはるかに優れていること、長時間実行されるタスクを扱えることなど、またはモデルについて気づいた他のことを見ていますか?それらを以下のコメントに入れてください。

とにかく、いつものように、もしビデオが好きなら、いいねをクリックして購読してください。次のビデオでお話しします。それではまた。

コメント

タイトルとURLをコピーしました