AnthropicがリリースしたClaude Sonnet 4.5は、30時間以上連続でコーディング作業を継続できる驚異的な持久力を持つAIモデルである。従来のバージョンが7時間程度で集中力を失っていたのに対し、このモデルは開発者がフロー状態に入ったかのように作業を継続する。SWE Benchでは最高水準のスコアを記録し、OS Worldでは前モデルの42%から61.4%へと大幅に向上した。Anthropicは企業向けケーススタディを公開し、コード計画で18%、セキュリティのトリアージ時間で44%の改善を報告している。新たに公開されたClaude Agent SDKにより、開発者はAnthropicが内部で使用しているインフラを活用できるようになった。GitHub CopilotやMicrosoft Office 365にも統合され、最も広く使用される開発プラットフォームに展開されている。安全性とアラインメントにも重点が置かれ、AI安全レベル3フレームワークの下で厳格なセーフガードが実装されている。競合するGPT-5、Gemini Ultra、Grok 4と比較しても、30時間の自律的コーディング実行という点で明確な優位性を示している。

Claude Sonnet 4.5の驚異的な登場
Anthropicが先日Claude Sonnet 4.5をリリースしましたが、このリリースは開発者コミュニティ全体で大きな話題になっています。それには理由があります。私たちが目にしているのは、30時間以上も集中力を失うことなく連続でコーディングを行ったAIなんです。これはブログからの引用ではありません。実際にフルアプリをエンドツーエンドで構築したんです。データベースのセットアップ、セキュリティチェック、すべてです。
以前のClaudeバージョンは約7時間後には勢いを失っていました。しかしこのモデルは、フロー状態にロックされた開発者のように作業を続けたんです。そしてその違いはあらゆる場所で示されています。ベンチマークから実際のエンタープライズワークフローまで。SWE Bench Verifiedでは、誰もが注目するコーディングのベンチマークですが、現在最高水準に達しています。OS Worldでは、AIがどれだけ文字通りコンピューターを操作できるかを測定するものですが、61.4%にジャンプしました。4ヶ月前、前のモデルは42%でした。この種の飛躍はそう頻繁には起こりません。そしてブラウザを使ったり、スプレッドシートに記入したり、VS Codeを操作したりしているのを見ると、ほとんど不気味なほど人間らしく見えるんです。
実証データとケーススタディ
さて、Anthropicはローンチの裏付けとして、初期顧客の使用から得られたというケーススタディを公開しました。彼らのデータによると、AI開発プラットフォームのCognitionは、Claude 3.6と比較してコード計画で18%の向上、エンドツーエンドの結果で12%の改善を測定しました。
金融分野では、Sonnet 4.5が複雑なスクリーニングタスクの際に投資グレードと呼べるほど強力な洞察を提供したと主張しています。そしてセキュリティ分野では、Anthropicは脆弱性のトリアージ時間が44%削減され、それでいて精度は向上したと報告しています。これらはAnthropic自身が公開した数字ですが、より広範なテストで裏付けられれば、大きなワークロードを実行しているチームにとって非常に現実的な効率向上を示すことになります。
製品アップデートの充実
また、彼らはモデルと共に大量の製品アップデートを提供しました。Claude Codeにはチェックポイント機能が追加され、プロジェクトの以前のバージョンに即座にロールバックできるようになりました。何時間もの作業を失うことがなくなったんです。ターミナルはよりスムーズなワークフローのために再設計されました。ネイティブのVS Code拡張機能がローンチと共にリリースされ、Sonnetがほとんどの開発者が日常的に使用するエディタに自然に組み込まれるようになりました。
Claude APIにはメモリシステムとコンテキスト編集機能が追加され、エージェントが連続性を失うことなく、より長く複雑なセッションを実行できるようになりました。Claudeアプリ内では、チャット内で直接コードを実行したり、スプレッドシートを生成したり、ドキュメントを作成したりできるようになりました。そしてClaude for Chrome拡張機能は、これらの機能をブラウザに持ち込み、ナビゲート、データ取得、オンラインタスクの自動化を可能にします。
Claude Agent SDKの革新
さて、開発者にとってのハイライトは新しいClaude Agent SDKです。Anthropicは初めて、Claude Codeで内部的に使用している同じインフラストラクチャを公開しました。つまり、管理された仮想マシン、メモリモジュール、コンテキストと編集のためのAPIが、独自のエージェントを構築したい人なら誰でも利用できるようになったということです。
何時間もスクリプトを実行し、セッション間で履歴を記憶し、さらには権限制御の下でサブエージェントを調整するシステムを立ち上げることができます。Anthropicは実際に6ヶ月以上をかけて長時間タスクのためのメモリ管理を洗練し、自律性とユーザー監視のバランスを取るフレームワークを設計し、複数のエージェントが共有目標に向けて協力できる方法を考え出しました。
そして今、その作業のすべてがSDKにパッケージ化されています。エージェントを実験しているチームにとって、このリリースはAnthropicの独自エンジンの設計図を手渡されるようなものです。価格設定は変更されていません。入力トークンは100万あたり3ドル、出力トークンは100万あたり15ドルです。すべての有料Claudeプランにコード実行とファイル作成が含まれるようになりました。
GitHubは、Sonnet 4.5がCopilot ProおよびEnterpriseとBusinessの顧客向けに稼働していることを確認しています。VS Code内、github.com、またはCLIを通じて直接選択できます。MicrosoftはこれをOffice 365 Copilotに導入しており、ExcelとWordに新しいエージェントモードが登場します。明らかにこのモデルはもはやAnthropicのアプリ内に閉じ込められていません。
地球上で最も広く使用されている開発者および生産性プラットフォームの内部に展開されているんです。
Outskillのスポンサーメッセージ
さて、今年ももうすぐ終わりです。2025年は残り100日未満です。まだ新しいスキルを習得していないなら、今がその時です。私は、今誰もが追い求めている一つのことを学ぶことで急速にレベルアップしました。AIです。大手テクノロジー企業はそれを知っています。
MicrosoftはDeepMindから人材を引き抜いています。MetaはOpenAIからAIエンジニアを引き抜いており、需要は減速していません。そしてここでOutskillの出番です。彼らは今日の動画をスポンサーしており、今週末に開催される2日間のAIマスタマインドワークショップを提供しています。東部標準時の午前10時から午後7時までです。参加した人々は実際の結果を目にしています。キャリアの向上、ビジネスの立ち上げ、そして数千ドル相当の新しい収益源の創出です。
通常、このトレーニングは395ドルかかりますが、私のOutskillとのパートナーシップのおかげで、今後48時間以内に確保すれば1000の無料席の一つを手に入れることができます。これは理論ではなく、実践的なハンズオントレーニングです。2日間にわたって、AIツール、自動化ワークフロー、独自のAIエージェントを構築するプロセスを探求します。さらに、プロンプトバイブル、収益化ロードマップ、進捗を加速するために設計されたパーソナライズされたツールキットビルダーを含む限定ボーナスがアンロックされます。
席は限られていますので、説明欄のリンクから席を確保してください。
安全性とアラインメントへの取り組み
さて、Sonnet 4.5に戻りましょう。安全性とアラインメントはローンチストーリーの大きな部分でした。Sonnet 4.5は、Anthropicがこれまでに構築した中で最もアラインメントされたフロンティアモデルであると説明されています。AI安全レベル3フレームワークの下で出荷されており、高い能力と厳格なセーフガードを組み合わせています。これには化学、生物、放射線、核コンテンツに対する高度なフィルター、さらにプロンプトインジェクション攻撃に対する強化された防御が含まれます。
内部監査では、欺瞞、追従、権力追求といった行動が大幅に減少したことが示されました。通常の作業を妨げる可能性のある誤検知のコンテンツフラグは、Opus 4と比較して10分の1に削減され、今年5月以降さらに半分になりました。初めて、Anthropicはメカニスティック解釈可能性ツールを使用してモデルが内部でどのように推論しているかを分析し、以前よりもアラインメントを深く掘り下げていることを示しています。
Imagine with Claudeのリサーチプレビュー
さて、メインローンチと並行して、AnthropicはImagine with Claudeと呼ばれる短命のリサーチプレビューをリリースしました。5日間、Mac購読者がアクセスできました。デモでは、Sonnet 4.5が事前に書かれた関数なしにリアルタイムでソフトウェアを生成する様子が示されました。すべてがライブで起こり、セッションが続く間ユーザー入力に適応していきました。本質的には楽しい実験としてフレーム化されていましたが、実際には柔軟性のために設計されたインフラストラクチャと組み合わされたときに強力なモデルに何が起こるかのショーケースとして機能しました。
詳細なパフォーマンスデータ
しかしパフォーマンスの詳細は、このリリースにどれだけの作業が費やされたかを明らかにしています。SWE Bench Verifiedでは、Anthropicはbashとファイル編集(文字列置換を通じて)の2つのツールを持つスキャフォールドを使用して77.2%を報告しました。結果は20万トークンの推論バジェットで10回の試行にわたって平均されました。100万トークンのコンテキストでは、Sonnet 4.5は78.2%に達しましたが、Anthropicは推論の安定性のためより低い数字を強調しました。複数の試行がサンプリングされ、壊れたパッチが拒否される高い計算設定では、Sonnet 4.5は82%にまで押し上げられました。
Terminal Benchでは、Terminus 2フレームワーク上で実行され、スコアは複数日にわたって平均されました。TAU Benchでは、Anthropicは既知の弱点を修正するためにプロンプト調整を追加しました。AIMEでは、モデルはPythonで64,000推論トークンを使用し、温度1でサンプリングされました。OS World Verifiedでは、4回の実行にわたって平均され、100ステップに制限されました。MMLUでは、64,000トークンまでの拡張推論を使用して14の非英語言語でテストされました。
Finance AgentスコアはVal AIリーダーボードから直接取得され、Sonnet 4.5は64,000トークンまでの拡張およびインターリーブ思考を実行しました。GPT-5、Gemini、Grokの比較数値は、それらのシステムカードと公開リーダーボードから引き出されました。
競合との比較
競争は明らかに激しいです。GPT-5、Gemini Ultra、Grok 4はすべて同じ領域に進出しています。GPT-5は開発者試験で77.2%と報告されています。Geminiは強力な数学と論理のスコアを投稿しており、Grokは技術的な問題解決に直接マーケティングされています。OpenAIは依然としてより安価なティアでCopilotを動かしており、ChatGPTの高度なコードインタープリターベンチマークは行ったり来たりの勝利を示しています。しかし、これらの競合のいずれも、公開で30時間の自律的コーディング実行を実証していません。これがAnthropicがSonnet 4.5で寄りかかっている優位性です。
業界の反応
さて、業界の反応はその影響を強調しました。Cursor.aiのCEO、Michael Truelは、長期間のコーディングタスクにおいて最高水準だと述べました。WindsurfのJeff Wangは、これをコーディングモデルの新世代と表現しました。GitHubのCopilotチームは、マルチステップワークフローにおけるCopilotの推論を強化すると述べました。AnthropicのチーフサイエンスオフィサーであるJared Kaplanは、Claudeが人間のようにコンピューターを使用するのを見る体験を超現実的だと表現しました。
VentureBeatやZDNetのようなメディアは、それを新しいコーディングリーダーとして冠しました。そしてAnthropicは、Claude Codeがすでに5億ドル以上の年間経常収益を生み出していることを明らかにしました。この数字は主にコーディングワークロードによって推進されており、このリリースによってのみ成長していくでしょう。
課題と展望
もちろん、モデルを30時間実行することは安くはありません。微妙なバグは依然として人間のレビュアーをすり抜ける可能性があります。監査で機能する安全性フレームワークは、エンタープライズ負荷の下で持ちこたえなければなりません。そしてOpenAIやGoogleのような競合は立ち止まっていません。しかし、これらの注意点があっても、Sonnet 4.5はマイルストーンです。初めて、AIが集中力を失うことなく数日にわたって完全なプロジェクトを通して作業することが示されました。
そしてそれがすでにGitHub、Office、Chrome、そしてAnthropic独自のアプリに統合されているという事実は、無視することを不可能にします。Claude Sonnet 4.5は今すぐどこでも利用可能です。同じ価格設定、より広範な統合、新しいSDK、他の誰も示していない強力な安全性と持久力です。開発者、企業、そしてAIで構築している誰にとっても。
これは必要な限りワークロードを運ぶことができるAI同僚に最も近いものです。しかし、あなたは実際にAIが何かをめちゃくちゃにすることなく30時間連続でコーディングすることを信頼しますか?それともそれはまだあなたにとって一歩先すぎるでしょうか?コメント欄にあなたの考えをドロップしてください。そして動画を楽しんでいただけたら、登録といいねボタンを忘れずに押してください。
ご視聴ありがとうございました。次の動画でお会いしましょう。


コメント