Claude 4.5 Sonnetは私たちを驚かせた…

Anthropicが発表した最新のコーディング特化モデルClaude 4.5 Sonnetの包括的な性能検証を行った動画である。プラネット生成、ビジネス推論、エージェント推論という3つの異なる観点からテストを実施し、既存の最先端モデルであるGPT-5との比較を通じて実際の性能を評価している。Anthropicはコーディング能力に焦点を絞った戦略を取っているが、実際の使用感や出力品質は期待値を下回る場面も見られ、特にプラネット生成テストでは以前のモデルからの退行すら感じられる結果となった。一方で迷路解決などのエージェント推論では部分的に優れた結果を示し、将来的な可能性を感じさせる側面もある。総じて、現時点では過度に誇張された印象があり、最高の推論能力を求めるならGPT-5が依然として優位に立っているという評価に至っている。

Claude 4.5 sonnet surprised us...

Today we're testing Claude 4.5 sonnet - Anthropic's new workhorse agentic model touting impressive performance on long-r...

Claude 4.5 Sonnetの初見評価
プラネット生成の結果
問題の修正と再試行
ビジネス推論テスト
データの可視化と分析
エージェント推論:迷路テスト

Claude 4.5 Sonnetの初見評価

皆さん、Feature Crewへようこそ。今日はClaude 4.5 Sonnetを見ていきます。これはAnthropicがAI競争に投入した最新モデルです。これはコーディングに特化したモデルで、彼らはCodexを超えていると主張しています。もしそれが本当ならかなり素晴らしいことですね。いつものプラネットテストを実施します。迷路テストやビジネス推論なども試してみて、どのようなパフォーマンスを示すか見ていきましょう。

プラネットテストについては、通常の単一HTMLファイルという枠を超えて進化させます。モデルがそれに非常に得意になってきたので、今回はプロジェクト構造を構築することを許可しますが、複数のファイルを作成し、それらを参照し、最適だと思う方法で整理する自由を与えます。これにより、さらに洗練されたプラネット生成につながるはずです。では始めましょう。

これは興味深い戦いですね。Anthropicがコーディングに特化した路線を完全に選択しているのが見て取れます。コーディングモデルを作り、コーディングに関することをやる。一方OpenAIは、もちろんもっと幅広いですよね。チャットもあれば、動画生成も画像生成もある。Anthropicは特定の分野を選んだわけです。この集中がより良い結果につながるのか興味深いですね。

複数のファイルを作成しているのが見えます。そうですね。間違いなく。今のところ2分ほど動いています。最初の反応としては、すべてを自由に作成できるという点で、完全なプロジェクトを作るのにかなりうまくやっています。プロンプトへの忠実性もかなり良いですね。ざっと見た感じでは、実際にこれらすべてのことを行ったかどうかを確認するために実行したいところです。

実行すると、公開と表示されています。これは設定を通じて公開するだけです。複数のファイルを提供してくれています。Anthropicがすべてを一度により簡単にオーケストレーションまたは実行する方法を見つけていたら、高く評価するつもりでした。残念ながらまだそこには至っていません。これらをフォルダ構造にコピー&ペーストして、実行してレンダリングしてお見せします。

プラネット生成の結果

さて、4.5の結果が見えてきました。今のところ悪くないですね。浮遊する破片が本当に気に入りました。近くに星があるようです。バイオームは奇妙に感じます。雲はありますね。それは良いです。コントロールは機能しています。ズームもありますね。

これは新しいコーディングモデルで見てきたことと一致します。以前は実行されず、動作させるために2回、3回、4回とマルチターンが必要だったのですが、今のモデルではそういうことはほとんどありません。これらのモデルは今やシミュレーションを立ち上げて実行することにかなり一貫性があり、能力の限界を超えるにはさらにプッシュする必要があります。

ただ、ここのシェーダーはGPT-5がやったものより下に感じます。そうですね。この時間帯は気に入っています。それが正しいかどうかはわかりませんが。太陽が数時間しか出ていないように見えます。惑星の反対側に行けば動作しているかもしれません。夕暮れ時のような、赤い輝きのようなものは非常にクールです。

そして雲の速度。回転速度を下げると、雲は大丈夫です。それはクールですね。いくつかのコントロールだけが選択されていますね。すべてかなり良さそうです。惑星を再生成できます。これはノイズを変化させているだけのようです。そしてすべてがかなりスムーズに動作しています。

次の反復をセットアップして、どうなるか見てみましょう。フォローアップを始めました。水のシェーダーを確認するよう求めています。地形の高さのスライダーが欲しいです。これはいつも求める標準的なものです。そしてバイオームを適切に処理しているか視覚的なパスを求めています。

すぐにコーディングに入りました。見てみましょう。時々Claudeはバージョン28のような問題がありました。反復を続けることがあるんです。恐れていたv2が見えます。でも指を交差させて、何千回も回転しないことを祈ります。完了したらレンダリングします。

完了したようです。かなり冗長な応答方法ですね。多くの箇条書きなどを提供します。Chrisが言っていたように、これはコーディングに焦点を当てているので、チケットで見るようなものに非常に近い感じがします。変更したと思った内容を正確に確認できます。コピーしてどうレンダリングされるか見てみましょう。

ホットリロードしますが、これは良い兆候ではありません。今は常に停止しています。このライティングシステムの更新は関数ではありません。さて、最新バージョンでコードベースを更新しましたが、残念ながら、期待されるライティング関数が見つからないという繰り返しのエラーに遭遇しました。少し驚きです。もうビルドが壊れるのを見慣れていません。これらは非常に堅牢なはずです。ここで修正が得られるか見てみましょう。

問題の修正と再試行

ありがたいことに、すぐに自己修正しました。エラーをコピー&ペーストしただけです。単一のファイルから不要なものを削除しただけのようです。それをコピーして、これで修正されることを祈ります。

戻ってきました。今回は動作しました。まだ1つエラーがあります。シェーダーエラー。これは大丈夫そうです。でも眼鏡をかける必要があるような気分にさせられます。本当に低解像度です。ダイナミックな水を取り除いたような感じです。わかりますか。今は流体のような水がなくなって、すべて同じようになっています。

雲は保持されています。ただ、コンソールにエラーがあります。水関連のものと関係があるようです。地形の高さは何かしています。でも、上部でバイオームに少し違いは見えますが、上部は緑であるべきではありませんよね。氷であるべきです。

このもう1つのエラーを渡して、水やシェーディングが奇妙に見える理由の1つかもしれないか確認します。そして、これをもっと良く見せるよう再度確認します。何かできるか見てみますが、プラネットでは必ずしも最高のパフォーマンスではありません。かなり驚いています。

私も驚いています。かなりまともです。繰り返しますが、これは複数のファイルを使用できるV2プロンプトを使用しているためかもしれませんが、より多くの自由があることで、さらに表現できると想定していました。特にこれがコーディングに非常に特化したモデルであることを考えると。エラーを渡して最後にもう一度試してみます。何が得られるか見てみましょう。

どうやってV15まで早く到達したのでしょうか。ありがたいことに、ここで止まったようです。アップデートを渡しました。すでに15バージョンに達していることに注目しました。今回は多くの反復を行ったようです。スクロールしてみると、視覚的な忠実度の向上を最善を尽くして展開しようとしたようです。見てみましょう。

技術的には、おそらく良くなっています。客観的に見れば。ただ、雪のバイオームが完全に間違っているのは奇妙です。そうですね。極地が正しくあるべきです。でもこれは少しMinecraftっぽく見えます。まだ非常に低解像度です。水は少し良く見えます。ダイナミックではありませんが、これが基本的に流体であるべきものに見えようとしているのがわかります。ただの地面ではありません。

地形の高さ。機能しています。これを最先端からの退行と言う以外にどう説明すればいいかわかりません。遭遇したエラー、出力の品質の間で。繰り返しますが、これがWebアプリで実行した副産物なのかはわかりません。Cursorでより良く動作するかもしれませんし、コマンドラインインターフェースでより良く動作するかもしれませんが、これを見ると、そして行った反復を見ると、時間を遡ったような感じです。

特にGPT-5の直後で、それがどれだけうまくやったかを考えると残念です。大規模な退行とまでは言いませんが、コーディングの観点からどれだけ印象的かという話を聞いていた中で、パークから打ち出さなかったのは驚きでした。

この動画に対して他の経験をお持ちの方は教えてください。Cursorなどで構築する方がはるかに良いかどうか。でもWebUIを使用する限り、正直あまり良くありません。わかりました。残念ながら、これ以上プッシュすることはしません。おそらく別の動画でコーディングにもっと焦点を当てて試してみます。でも第一印象として、ビジネス推論とエージェント推論を通過したいと思います。

ビジネス推論テスト

標準的なビジネス推論の質問を行います。AIモデルの最先端技術についての調査を実施するよう求めます。以前のテストから思い出すかもしれませんが、ここで探しているのは、情報を収集できるかどうかです。できると想定していますが、さまざまなベンチマークをどのように扱うかです。

異なるベンチマークにはモデルの異なる表現があり、一部のモデルは特定のベンチマークを通過していません。それをどのように分析すると決めるのでしょうか。GPT-5が特定のベンチマークによって測定されたものとされていないものを尊重したことに非常に感銘を受けました。

以前のバージョンのOpenAIのモデルやAnthropicのモデルでは、メタ概念、メタ測定を作成し、これらの結果を一緒にまとめようとしていましたが、それほど有用ではありません。4.5がGPT-5が行ったことに従い、どのベンチマークがどのモデルを扱ったかについてかなり慎重であるかどうか興味があります。見てみましょう。

ツールチェーンが完了しました。Web検索を正しく呼び出しています。これはDeep Researchではなく、拡張思考で行いました。それが何を取得しているか、Web検索しているかの良いビューです。Anthropic最初。Googleルートを取っています。なるほど。実行させます。おそらくさらに数分かかり、最初に情報収集でどうするか見てみます。

最新のAIモデルの調査結果が返ってきました。自分自身から始まります。非常に自画自賛的で、Opusを挙げ、それからSonnet 4.5を挙げています。業界ベンチマークによると最高のコーディングモデルだと主張していますが、これは確かにいくつかの測定では真実です。

それから、彼らが大いに宣伝しているのは、長時間のエージェント的な自律実行です。Opusの7時間に対して30時間実行できたと言っています。これは真実です。彼らはこれに言及しました。コーディングでそれが見られなかったのは驚きです。正しいセットアップで使用しなかった可能性があります。でも正しく見つけました。

OpenAIについて、興味深いことに、GPT-5を分解しませんでした。GPT-5 Codecsとは言いませんでした。ただ5と言いました。5 thinkingと彼らが呼ぶ高速版などについて言及しませんでした。返答は大丈夫だと思いますが、5で得たものほど良くはありません。

ベンチマークをアドホックに引き出しているようなものです。わかりますか。できるものは何でも。複数のベンチマークにわたるコーディング状態でさえ。これはどちらかといえば要約のようです。例えば、ベンチマークパフォーマンスとして幻覚率がここにベンチマークとして与えられています。非常にアドホックです。GPT-5にはこれがありますが、これらのものについてはスキップしたようです。03も1つあるようです。

推論が少ないです。これは記事から引き出したものを整理し、基本的に記事を要約したように読めます。そして、公平を期すと、ここでの意図はそうですが、少し、まあ大丈夫かなという雰囲気ベースの評価です。

話し始める前に見た時、ほとんどの重要なモデルをかなり拾い上げました。Web検索から優先順位をつけることができるのは良いことです。次の部分に進みます。重要な洞察とトレンドについて下部に少し要約を行いましたが、本当に非常に高レベルの要約を与えようとしていただけです。次の部分は、このデータを取得してグラフ化し、そこから洞察を得ることです。これがどうなるか見るのは興味深いでしょう。

データの可視化と分析

今から始めます。話しながら見ていきます。モデルパフォーマンスの改善を視覚化しようとします。Chrisが示唆したように、最高のモデルがデータを混ぜ合わせたりまとめたりしないようにするのが要求です。中小企業向けの推奨事項を提供しようとしています。また、新しい発見を見つけるために反復を続けることについても含めています。これは本当にこれについて考えてくださいということです。

開始しました。すぐにWeb検索をさらに実行しているのが見えます。これは興味深いです。なぜなら、引き出した情報に基づいてと言おうとしていたからです。そしてすぐに補完しようとしています。悪いことではありませんが、ここにはメタポイントがあります。

これまでのすべてのモデルがそうしてきたように、いくつかの主張に対して精査できるようになったとき、新しいレベルのモデルに到達するでしょう。まだどのモデルもこれをしていません。ソースを見に行くと気づくでしょう。これまでのすべてのモデルは、企業の主張を額面通りに受け取る傾向があります。批判的ではありません。

IBM の記事を見ました。IBMが何か言えば、ああ、それは真実に違いないと。真の同僚や調査アシスタントから期待するのは、ある種の懐疑主義やある種の好奇心、これは真実か、企業は何を考えているか、個々のソースにはどのようなバイアスがあるかを探る姿勢だと思います。

分析を行った後、レポートにまとめました。内容を簡単に見て、それについて話し合います。ここではあなたと意見が異なるかもしれません。私はこれが好きではありません。レポートをまとめたのはクールだと思いますが、信頼できないと感じます。少し華美すぎます。ここで問題を見ています。

Grok 4の最良の推論は現在証拠では見つかっていません。これは私が先ほど提起した問題です。主張を額面通りに受け取っています。そしてこれが額面通りの素晴らしい主張だとも思いません。現在、最良の推論はおそらくGPT-5 Proだと思います。それは奇妙に思えます。

そして下部でこれらのバーは実際には意味をなしていないことに気づきました。ただ恣意的です。仕事の文脈で考えると、これを上司やその上に提示したら、「これは何?何をしたの?」と言われると思います。「ここで何を言おうとしているの?」と。

パフォーマンストレンドをタブで見ていきます。ベンチマークを分離したので、実際にはそれほど悪くなかったと思います。非常に小さな増加かもしれないので少し躊躇しますが、何らかの理由で奇妙にプロットしています。いずれにせよ、すべてをまとめなかったことを確認するのはまあまあの仕事でした。

コスト効率が下がることを示すために何らかの対数スケールを使用しようとしました。繰り返しますが、どのモデルを選んでいるのか完全には明確ではありません。これは方向性としては正しいように見えますが、ああ、10億トークンあたりのコストは今7セントで、その後10セントになっています。それはより高価になっていることを示唆していますが、これは真実ではありません。

Chrisの信頼性がないという点について、ここで何らかの予測を試みました。これらはすべて飽和に近づいているという正しい洞察から逃れています。したがって、異なる専門的な能力などが必要になります。少なくともこれを拾い上げることができたのは好きでした。遠い未来を予測するにつれて、自信が低くなると言って、いくつかの信頼レベルを与えようとしています。これは少なくとも完全にひどいものではありませんでした。

ここでモデル比較を試みており、ホバーして見ることができますが、インタラクティビティの観点からチャートの品質はかなり良いです。好きです。このビジュアルスタイルは嫌いですが、それはプロンプトで調整できるものです。経営チームに行ってビジネス上の意思決定を行うために、明るい絵文字付きのチャートを提示したくはありません。

最後に、新しい洞察、DeepSeekの破壊、それは単に安いからです。ベンチマークの飽和、自律的コーディング、コストの崩壊。繰り返しますが、Chrisが言ったように、これらは大丈夫だと言えます。少し時間を遡った感じかもしれません。

完全にひどいわけではありませんが、同じようなワオという要素はありません。これは非常に雰囲気ベースだとわかっています。でも、多くはおそらく去年の終わりに見ていたものです。これを分解しようとしたのは好きです。様々なシナリオとできることがありますが、それでも非常に表面的に感じます。わかりますか。

GPT-5や時にはGeminiでも、得られた洞察は非常に良いものでした。インフラストラクチャについては何も見ていません。少なくとも私たちのざっと見たところでは。これの多くは非常に、Chrisが言ったように、これらを額面通りに受け取っているだけです。Grokがとても良い、SWE-benchは本番コードに最適になるだろうから、これを使うか何でもいいから使えという感じです。次のレベルの新しい分析を本当に試みていません。

DeepSeekから始まるのは正しいですが、ここで考慮する必要がある地政学的なものがたくさんあるかもしれません。マルチモーダルは正しいですが、それから、DeepSeekを使い続けてください、安いからという感じです。確かにコーディングをしているなら、より高価でも最高のコーディングモデルを使ってみてはどうかと言うことが多いです。はるかに良いROIが得られます。月額コストなどでそれについて考えようとしましたが、これらはすべて単一の文章だけです。

これが私たちに与えたレポートですよね。つまり、これを外部に提供するものだという暗示です。信頼区間の外でも、シナリオをあまりうまく設定しませんでした。GPTの応答を覚えています。中小企業であればこの種の予算、大企業であればこの種の予算、行っている仮定はこれです、という感じでした。あなたの言う通り、第2レベルを行いました。地政学的リスクがあります。大企業で、データの隔離を気にします。それはこちらにあります。

ここではそれが見られません。これも、このテストでの最初の応答のパターンに従っています。何かを要約し、額面通りに受け取り、そこから本当に外挿はしません。でも、これらのモデルの多くが最安コストが最良であるというバイアスを持っているのが見られます。DeepSeekが多く推奨されていますが、エンタープライズ環境では、そのレベルの推奨は得られません。

興味深いです。コーディングテストと非常に似た感じがします。これは大丈夫ですが、素晴らしくはありません。コストによってはGPT-5よりこれを使用する強力な理由を作ることができません。トークン使用量がどのように決着するかによります。どう思いますか。同じくらいです。いくつか悪いプロンプトに当たっただけかもしれませんが、現在の最先端と比較して私たちを驚かせてはいません。

繰り返しますが、ここでの1つは、おそらく一般的に以前持っていたものよりも安く、おそらく良いということです。でも私を驚かせてはいません。他の専門分野があるかもしれません。将来、このモデルでさらにコーディングをテストするのは素晴らしいと思います。ビジネス推論でGPT-5よりもはるかに良い結果が得られるとは期待していません。でも、エージェント推論をテストして、少なくともそれを完璧にやり遂げることを期待しています。今のところツール呼び出しなどでかなりうまくやっているように見えます。それをセットアップして、どうなるか見てみます。

エージェント推論:迷路テスト

チャンネルの定期視聴者は私たちの迷路テストについて知っているでしょう。アイデアは、迷路、ASCIIで表現されたものを与えることです。ここに貼り付けたのが見えます。目標は基本的に終わりに到達することです。

今、最先端のモデルのほとんどは基本的にコードを使用してこれを解決できます。それはある意味で飽和状態になっています。でもこれが使えるだろうと想定しているので、比較的大きな迷路から始めます。20×20から始めます。

今困難なのは、実際にASCIIを理解して表現し、コーディングできるようにすることです。送信して、どのようにアプローチするか見てみます。時々画像を与えます。このシナリオでは、貼り付けられたプロンプトだけを与えています。ASCII表現です。すぐにASCIIを正しく解析しようとしているのが見えます。最終的に何らかのコード分析を行うはずです。

私たちが見た最も成功した実装は、迷路を解決するアルゴリズムを作成することです。以前の動画で述べたように、これは私たちのテストを破っています。生の推論を使用していないからです。同時に、推論を使用して適切なツールの使用方法を理解することは、推論の証明です。

スイッチオーバーがいつ起こるかを見るためにそれを使い続けてきました。将来これを変更する必要があると予想しています。今心配です。古いモデルのように考えています。ただ読み通している感じです。パターンに気づきました。BCやCDのようないくつかの文字ペアには仕切り壁がありません。

非常に速い結果でした。誤解したと思いますが、見てみましょう。全く近くありません。画像で再度試してみます。それが違いを生むか見てみます。最高のチャンスを与えます。でも、これまでのすべてのテストで推論時間が非常に低いことは一般的に懸念されます。多くの時間をかけて考えていないだけです。

非常にエージェント的な推論者として、30時間のランタイムで本当に問題を処理するものとして構築されているのに、それが見られません。これもWebアプリの機能かもしれません。他の形式で試すのを楽しみにしていますが、プロンプトが必要とする思考レベルを適用しているようには見えません。

ここでもう少し与えようとしました。与えられたプロンプトと画像で迷路を解決してください。画像を与えました。でもこれは非常に古い推論のように見えます。ブルートフォースで試みているんです。それは1年前くらいに非常に興奮したときの古い推論モデルがやっていたことです。ワオ、非常に手動的なモンテカルロのようなことをほぼ考えているような感じでした。

これにヒットせずコード実行を行うなら興味深いかもしれません。5×5サイズのような小さな迷路で試すこともできます。でも、これを打ち破ることができないのは素晴らしくありません。5×5の迷路に縮小しなければならない推論モデルを使うべきではないということです。その通りです。

今回はコードを使用したパスファインディングアプローチを試みました。コードとして表現しようとしました。破線の壁が透過性があると思ったことにも引っかかったと思います。でも画像に対して自己チェックして、ああ、そうではないと気づくべきです。いいえ、BFSではありません。天井がそこにあります。2D平面には天井の概念はありません。迷路は定義されていません。

それは本当に良くありません。BFSを40ステップ使用しました。非常に良いです。まあ、それでも到達しました。よくやりました。分析を見ていたときは少し懸念がありました。時々迷路が定義されていないというような非常に初歩的なエラーが出ていました。少し奇妙です。

最良の解決策を見て、それを見つけたのか、それとも単に解決策を見つけたのか見てみましょう。これが最良のはずです。いいえ、これはタクシー問題とか何とか呼ばれるものだと思います。でもこれが正しいはずです。

20×20を解決しました。それは素晴らしいです。クランクをかけて30×30の迷路を解決できるか試してみたいと思います。どう思いますか。やってみましょう。

視聴者の皆さんにとって、画像を与えることが大いに助けになったようです。私たちがASCIIアートで迷路を表現する方法が好きではないという機能かもしれません。画像の方が画像を解決するのに優れているという機能かもしれません。Cursorの世界で得られるいくつかのWebアプリのスクリーンショットを撮るという前後のやり取りを予測しているかもしれません。最良の可能性を与えるために、前にやったことをやりましょう。

コードベースのアプローチを使用するつもりかどうか、本当にすぐにわかると思います。最初に実行したとき、30秒ほど実行され、コード分析をするのが見えませんでした。明らかにヒットするつもりはありませんでした。では見てみましょう。

合計59ステップになりました。すぐにレンダリングします。AIパスをレンダリングします。いいえ。これは単なる誤解だったでしょう。実際、今それを見ると、BFSさえも行っていない可能性があります。ASCIIを誤って表現しただけかもしれませんが、ここで壊れています。

簡単に見てみます。BFSを使おうとしていましたか。幅優先探索を行ったと言っています。まあ、おそらくそれは迷路の端をどのように表現しようとしたかだけです。単に間違っています。おそらくBFSは最後に自由なパスがあるだけだと見たのでしょう。残念です。

文字列を正しく表現できないため、無限にスケールしないことは明らかです。思うかもしれませんが。でも少なくとも最後に試した2回の試みでは、コーディングを使用することができ、これらのエージェント推論テストを行う能力を高めるには十分です。

ちょっとした復活のストーリーですね。これまでの結果では中程度だったので。楽観的な見方をすると、Anthropicはかなり強力なエージェントに向けて構築しているようです。まだそこには至っていません。このリリースは、私たちが見ているものに対して少し誇張されすぎていると感じます。

でも何か素晴らしいものになる可能性の閃きのように感じます。今市場で最高の推論を探しているなら、一般的にはまだGPT-5にいると思います。Claudeは純粋にエージェント的推論テストのいくつかで優位性を持っているかもしれませんが、最後に少し復活しました。

このビデオの3分の2あたりで非常に落ち込んでいたので、見られて嬉しいです。ここに使う価値のあるモデルがあるかどうかわからないと思っていました。でもこれは非常に良い反応でした。100パーセントです。

まあ、それをうまくまとめていると思います。4.5で素晴らしい発見があればコメントで教えてください。それ以外では、今週さらにいくつかの動画をお届けできることを願っています。Sora 2が発表されたばかりです。何かそのようなものを提供できることを期待しています。本当にありがとうございました。