Claude 4.5 Sonnet:世界最高のコーディングモデル!強力かつエージェント型!(完全テスト済み)

Anthropicが新たにリリースしたClaude Sonnet 4.5は、世界最高峰のコーディングモデルとして位置づけられている。本モデルは複雑なエージェント構築において最も強力であり、コンピュータ操作においても最高の性能を発揮する。さらに推論や数学のテストにおいて大幅な向上を示している。注目すべきは、この4.5 SonnetモデルがSWE-bench Verifiedテストにおいて上位モデルであるOpus 4.1をも上回る性能を記録した点である。テキストと画像入力に対応し、20万トークンのコンテキストウィンドウを持ち、最大6万4千トークンの出力が可能である。価格設定は従来のSonnet 4と同様で、100万入力トークンあたり3ドル、100万出力トークンあたり15ドルとなっている。各種コーディングベンチマークで優れた成績を収め、特にエージェント型タスクやコンピュータ操作において他のモデルを凌駕する性能を示している。

Claude 4.5 Sonnet: Best Coding Model In The World! Powerful + Agentic! (Fully Tested)

Claude Sonnet 4.5 is here, and it’s absolutely groundbreaking. Touted as the best coding model ever, it excels at buildi...

Claude 4.5 Sonnetの登場と驚異的な性能
圧倒的なベンチマーク結果
新機能と利用方法
実際のテスト:ブラウザベースOS
Kilo Codeでのテスト:SaaSランディングページ
SVGコード生成:蝶のテスト
ゲーム開発:Minecraftクローン
太陽系シミュレーション
総評と今後の展望

Claude 4.5 Sonnetの登場と驚異的な性能

Anthropicがついに戻ってきました。Claude Sonnet 4.5のローンチとともに、そしてこれは本当に驚くべきものです。Anthropicが述べているように、これは世界最高のコーディングモデルなのです。複雑なエージェントを構築するための最強のモデルであり、コンピュータを使用する際の最高のモデルであり、推論と数学のテストにおいて大幅な向上を示しています。

しかし驚くべきことに、この新しい4.5 SonnetモデルはSWE-bench Verifiedテストにおいて、Opus 4.1さえも上回る性能を発揮しているのです。これは本当に驚異的です。これは彼らがこれまでにリリースした中で最も整合性の取れたフロンティアモデルであり、以前のClaudeモデルと比較して、整合性のいくつかの領域において大幅な改善を示しています。

Sonnet 4.5はテキストと画像の入力に対応しており、20万トークンのコンテキストウィンドウを持っています。これはそれほど大きくはありませんが、100万トークンのコンテキストベータ版が利用可能です。また、最大6万4千トークンの出力が可能で、トレーニングデータのカットオフは2025年7月となっています。

価格設定に関しては、現在もSonnet 4と同じ価格体系が維持されており、100万入力トークンあたり3ドル、100万出力トークンあたり15ドルとなっています。しかし、その性能は本当に驚くべきものです。

圧倒的なベンチマーク結果

SWE-bench Verifiedテストにおいて、30時間以上にわたって集中力を維持することができたと彼らは述べています。複雑な複数ステップのタスクにおいてです。そして、GPT-5 Codex、GPT-5自体、Gemini 2.5 Proといった多くのプロプライエタリモデルに対して、様々なベンチマークでリードしています。ただし、これらのモデルは来週には確実にこれらすべてのモデルを追い越すと思います。しかし全体的に、Sonnet 4.5は依然として比較的素晴らしいものです。

性能の面では、あらゆる種類のコーディングベンチマークで本当に優れた結果を出しています。また、OS Worldコンピュータ使用ベンチマークでは61.4パーセントのスコアでリードしており、42.2を記録したSonnet 4からの大幅なジャンプとなっています。他のエージェント型ターミナルタスクや通常のエージェント型タスクに関しても、素晴らしい仕事をしており、これらすべての異なるタスクにおいて他の多くのモデルを上回っています。これは非常に印象的です。

驚くべきことに、このモデルは推論と数学において本当に優れた性能を発揮し、その進歩によってSonnet 4.5は最も強力で有能な推論モデルの一つとなっています。しかし、コーディング性能とエージェント型使用の面では、間違いなく現存する最高のものです。

新機能と利用方法

Claudeエージェント用のSDKも用意されており、新しいボーナス研究プレビューもあります。基本的に彼らはこの製品を「Imagine with Claude」と名付けており、これはあらゆる種類のアプリを実際に構築し、彼らのSonnet 4.5を使用して何でも構築できる新しい方法です。これは有料のAnthropicプランでのみ利用可能だと思います。

始めたい場合は、Claude APIで確実に始めることができます。また、チャットボットを通じて完全に無料で使用することもできますが、かなりレート制限がかかっていると思います。APIを通じて無料でアクセスしたい場合は、Kilocode(キロコード)を使用できます。25ドル相当の無料クレジットを提供していると思いますので、これは素晴らしいです。ぜひ試してみることをお勧めします。最後に、Open Routerでも使用できます。

実際のテスト:ブラウザベースOS

では、実際にこれをテストしてみましょう。まず最初に、ブラウザベースのOSを構築してもらいます。基本的に、これはモデルのコード生成能力を明らかにテストするプロンプトです。システム設計能力も同様です。

複雑なフロントエンドを計画し、記述する能力がどれほど優れているか、ウェブベースのオペレーティングシステムのすべてのコンポーネントを作成できるようにする能力を確認しようとしています。推論の使用能力、ツールとリソースの使用能力がどれほど優れているかを確認しようとしています。

かなり良い結果を出しているようです。速度はSonnetと同じだと思います。チャットボットでテストすることはできませんが、Kilo Codeのようなコーディングエージェントで使用すれば、より良いアイデアが得られるでしょう。開発が完了したようです。

ワンショットで、ブラウザOSの生成が完了しました。実際かなり良い見た目です。リンクに移動して視覚化してみましょう。Code Routeには3つの異なるアプリがあることがわかります。ファイルマネージャーがあります。実際に開発されたターミナルもあり、実際に機能する電卓もあります。

これらすべてはブラウザチャットボットでワンショットで完全に開発されました。エージェントに送信すれば、さらに素晴らしい生成結果が得られるでしょう。さらに機能を追加するように指示したところ、メモ帳のようないくつかの異なるアプリケーションを追加して実行してくれました。これはクールです。設定もあり、ペインターのような他のものも追加しています。

このブラウザベースOSの基本構造を生成するのに素晴らしい仕事をしてくれました。かなり迅速な仕事でした。

始める前に、ぜひWorld of AIニュースレターに登録してください。週ごとに様々なニュースレターを常に投稿しています。これは、AI分野で何が起こっているかについて最新の知識を簡単に得られる場所です。完全に無料なので、ぜひ登録してください。

Kilo Codeでのテスト:SaaSランディングページ

それでは、私が主に使用している自律型AIエージェントであるKilo Codeに進みます。モデルプロバイダーに移動して4.5 Sonnetを検索し、無料APIを使用してこれを実際に選択できます。多くの機能とアニメーションを持つSaaSランディングページを作成するといったプロンプトを送信できます。

フロントエンドデザイン、創造性、そしてUX意識の面でどれほど優れているかを確認しようとしています。視覚要素やフローの改善を提案できるかどうかです。すぐに、思考が有効になっていることがわかり、現在SaaSランディングページの生成に取り組んでいます。

コードの生成が完了したようです。このAI SaaSランディングページを生成するのに約2ドルかかりました。見た目はかなり良いですね。アニメーションの追加に関しては実行されており、構造は非常に詳細に見えます。全体的に、私の意見では、典型的なAI生成ウェブサイトのようには見えません。

全体的に、証言、価格構造、そしてアニメーション付きのFAQを備えた典型的なSaaSランディングページの主要な構造を正しく作成しました。下部のフッターは完璧に見え、私の意見ではフロントエンドで適切な仕事をしました。最高というわけではありません。特別に素晴らしいものではありませんが、それでも適切なSaaSランディングページです。

チャットボットに尋ねたところ、これがSaaSランディングページとして得られた生成結果です。この場合、最初に送信したプロンプトの後に、より良くするように指示する必要がありました。見た目は適切ですが、同時に、このSaaSランディングページのテストという観点では、超印象的なものではありません。

SVGコード生成:蝶のテスト

次に、モデルにSVGコードで蝶を作成してもらいます。モデルが熟練したSVGコードを出力する能力がどれほど優れているか、そして蝶の構造の対称性を開発できるかどうかを確認しようとしています。

オンラインSVGビューアーに移動しましょう。そして、SVGコードを貼り付けます。できました。実際にかなり適切な見た目の蝶ができました。主要な構造は素晴らしく見えます。対称性もあります。私が懸念する唯一のことは、翼が体の上にないことです。

遠くから見ると蝶のように見えますが、ここにあるこの点のような特定のコンポーネントは、そこにあるべきではありません。わかりません。蝶に期待するものではないだけです。

ゲーム開発:Minecraftクローン

次に、Minecraftのクローンを作成してもらいます。これは、モデルの大規模なコードプロセスを処理する能力をテストするのに非常に良いプロンプトです。基本的に、ゲームアーキテクチャの開発がどれほど優れているか、地形生成のようなコアシステムの設計がどれほど優れているかを確認しようとしています。

そして基本的に、このゲームを生成する複数ステップのタスクに対して持続的であることができるかどうかを確認しようとしています。Minecraftクローンとして生成されたものをテストして遊んでみたところ、完了したようです。それでは、これを開いて、生成の出来栄えを見てみましょう。

これをクリックすると、このゲームに貼り付けられます。草ブロックの面では、Minecraftのすべてを複製するのにかなり適切な仕事をしたことがわかります。他の地形はあまり生成されませんでしたが、実際にブロックを壊す能力があることがわかります。

下に移動して動き回ることができます。望むなら、異なるブロックを配置することさえできます。これはかなりクールです。私の意見では、地形の基本構造の生成において素晴らしい仕事をしました。さらに反復して、木や他の地形のような他のものを生成できれば素晴らしいでしょう。しかし全体的に、このコードで素晴らしい仕事をしており、木は別として合格点を与えます。

太陽系シミュレーション

こちらは、Claude Sonnet 4.5が最高または最も印象的なワンショット太陽系実装の一つを提供しているデモです。現実的な軌道を持つ完全に機能する惑星系を生成することができました。物理演算は素晴らしく見え、相互作用の面では、単一のプロンプトでこれらすべての異なるコンポーネントを完全に開発することができました。

この動画が気に入って、チャンネルをサポートしたい場合は、下にあるスーパーサンクスオプションを通じて私のチャンネルに寄付することを検討できます。または、プライベートDiscordへの参加を検討することもできます。そこでは、月額ベースで無料で異なるAIツールへの複数のサブスクリプションにアクセスでき、さらに毎日のAIニュース、限定コンテンツ、その他多くのものにアクセスできます。

総評と今後の展望

しかし、私が気づいたのは、そのエージェント機能とフロントエンド機能が劇的に改善されているということです。その面では、はるかに優れた結果を出すことができます。しかし、他の特定のケースでは、コード生成が少し短いように感じます。

おそらくコンテキストウィンドウの問題か、あるいは特定の領域の品質がまだ洗練されていないためかもしれません。Claude 5のリリースで改善が見られるかもしれません。おそらく今後数ヶ月以内に。しかし、それが今日のClaude Sonnet 4.5に関するビデオの本質です。

このモデルについてどう思うか教えてください。すべてのリンクを下の説明欄に残しておきます。間違いなく印象的なモデルですが、皆さんがどう思うか見てみましょう。これらの異なる生成結果について皆さんが何を疑問に思っているか、ぜひ聞きたいと思っています。

しかし、その考えとともに、皆さん、ご視聴ありがとうございました。素晴らしい一日をお過ごしください。まだの方はセカンドチャンネルを購読してください。必ずニュースレターに登録し、プライベートDiscordに参加し、Twitterでフォローしてください。そして最後に、必ず購読し、通知ベルをオンにし、この動画に「いいね」をして、以前の動画をご覧ください。皆さんが間違いなく恩恵を受けるコンテンツがたくさんあります。

しかし、その考えとともに、皆さん、素晴らしい一日をお過ごしください。ポジティビティを広めてください。そして、本当にすぐにお会いしましょう。