Anthropicが勝利した。これが私の新しいお気に入りモデルです(ごめんねGemini…)

Anthropicが新たにリリースしたClaude Opus 4.5は、コーディングにおいて過去最高の性能を発揮する大規模言語モデルとなった。従来のOpusモデルから価格が3分の1に削減されながら、トークン使用効率が大幅に向上し、SWEBenchやARC AGIなどの主要ベンチマークで最高スコアを記録している。特筆すべきは、ツール呼び出しの信頼性と一貫性であり、与えられた開発環境が不完全な場合でも回避策を見出して作業を完了する能力を持つ。UI生成能力も劇的に改善され、Gemini 3 ProやGPT-5.1と比較しても遜色ないレベルに達した。ただし、コーディング以外の用途では特段優れているとは言えず、文章の品質はまだ改善の余地がある。それでも、開発者向けの実用性という観点では、現時点で最も信頼できるモデルとして評価されている。

Anthropic won. This is my new favorite model (sorry Gemini…)

Claude Opus 4.5 is insane, definitely the best coding model ever made...Thank you Kilo Code for sponsoring! Check them o...

新たなお気に入りモデルの誕生
ベンチマークと価格の詳細
ベンチマークの矛盾について
コーディング能力の実証
T3 ChatとUI生成の比較

新たなお気に入りモデルの誕生

私には新しいお気に入りのモデルができました。正直なところ、今日ここに座ってこんなことを言うとは思っていませんでした。特に先週、開発者向けの画期的なモデルが2つもリリースされたばかりだったので。そう、たった7日間で3つもの画期的なモデルが登場したんです。でも、ここにいます。Opus 4.5が登場しました。これは私がこれまで使った中で最高のコーディング用モデルです。

皆さんも私のことをご存知でしょうが、私はAnthropicの大ファンというわけでは決してありません。でも、評価すべきところは評価します。このモデルは、LLMがやるとは思ってもみなかったことをやってのけています。少なくともこんなに早くは。そして実際にあまりにも優れているので、私は一日中これでコーディングをしていたために、この動画の撮影が遅れてしまいました。私はこのモデルに数百ドル分のトークンを費やしています。

様々なプロジェクトを再実行したり再構築したりしてきました。たくさんの考えがあり、皆さんと共有したいことがたくさんあります。この動画はほぼ完全にOpus 4.5の開発者ユースケースに焦点を当てることになります。なぜなら、率直に言って、それ以外のケースではあまり役に立たないと思うからです。

信頼できる何人かの人から、意外と面白いと聞いていますが、それでも文章の質はそれほど素晴らしいとは思いません。でも素晴らしいものは何か分かりますか?今日のスポンサーです。皆さんはどうか分かりませんが、私は新しいモデルをデモするたびに使うCLIツールを変更するのにうんざりしています。

T3 Chatはチャットメッセージを送りたい場合には素晴らしいですが、実際の仕事で使いたい場合は、ちょっと困ります。今日のスポンサーであるKilo Codeを使わない限りは。彼らはVS Codeをベースにしたすべての主要なエディタで、コーディング用のLMSを使う最高の体験を構築しました。そう、CursorやWindsurfなどのツールでも使えます。

完全にオープンソースで、Open Routerとも互換性があります。だから、彼らにお金を払いたくなければ、払う必要はありません。私のお気に入りは、デフォルトで用意されている5つの異なるモードです。これらのモードは異なるモデルを使うように設定でき、お互いを呼び出すこともできます。

つまり、オーケストレーターモードがソリューションの計画を立てて、それらのサブタスクをコードモードに渡すことができます。そしてコードモードは、ちなみにKiloでは完全に無料のRockfastのような、より小さく安価な異なるモデルを使うことができます。最終的には変わるかもしれませんが、今は無料です。あるいはSonnetよりはるかに安いHaikuのようなものでもいいです。つまり、スマートで高価で遅いモデルにオーケストレーション部分を行わせて、大量のトークンを生成する必要があるものはすべて他の小さく安価なモデルに振り分けることができるんです。

ここでは、このプロジェクトのアップグレードを計画するためにGPT 5.1で実行しているオーケストレーターがあります。彼らはどれだけのコンテキストが使われているかについて、この素敵な小さな視覚化まで提供してくれます。そして私は、これについて数字をあまり隠していないように感じます。なぜなら、彼らはランダムなサブスクリプションを売ろうとしているのではなく、推論を売って、本当に良いエディタ体験を提供しようとしているだけだからです。

ここでは、より安価なモデルを使った物事を調査するサブタスクを作成しました。結果を得て、今ではさらにサブタスクを立ち上げていて、質問までしています。V4からV5へのアップグレードのためのASDK V5移行ガイドで必要な主要な変更とステップは何ですか。

実際に私に質問してくるのは素晴らしいことです。このガイドの中で何が重要なのかを聞いてくるんです。すべてを望み通りに設定すると、本当に素晴らしいです。私が見つけた数少ないソリューションの一つで、異なるモデルについての知識を実際に使って、全体的により良い体験を作れると感じられるものです。今すぐsoy./kiloで試してみてください。コードTheoを使えば、さらに13ドル37セント追加でもらえます。

ベンチマークと価格の詳細

さて、まずはスペック、ベンチマークなどをざっと見ていきましょう。ここで、SWEで新たな画期的なスコアを獲得しました。興味深いY軸がここにあって、70でカットオフして82までしか上がらないので、物事の間のギャップを本当に誇張していますが、最高スコアを獲得しました。素晴らしいですね。

最近のモデル動画で述べたように、これらのベンチマークがどれほど重要なのか、いわば終わりに近づいているので、ますます懐疑的になってきています。実際にモデルを使った私の経験は、これらのベンチマークとはかなり異なる傾向があります。でも、そう、Opusは素晴らしかったです。

ベンチマークの話題では、Artificial Analysisの友人たちがちょうど新しいインテリジェンスインデックスを公開したばかりです。文字通りこの瞬間にOpusで更新されました。彼らがちょうどSlackでDMしてきて知らせてくれました。そしてOpus 4.5はGPT 5.1 highと同じ70ポイントで、Gemini 3 Proのわずかに下にスコアしています。

インテリジェンスのための最高のインデックスではありませんが、特にコストと比較した場合、良い一般的な指標です。それについて言えば、コストについて話すべきでしょう。価格は100万トークンあたり5ドルのインプットと、100万トークンあたり25ドルのアウトプットです。これは大幅な値下げです。

以前、Opusは100万あたり15ドルのインプットと75ドルのアウトプットだったので、3倍安くなりましたが、5.1のような他のモデルと比べるとまだかなり高価です。実際、5.1の2.5倍から3倍の価格です。Gemini 3 Proと比べても、2倍以上の価格です。高価なモデルです。

Opusは依然として最も高価なモデルです。面白いことに、ほんの数週間前にSonnet 4.5がOpus 4.1をほぼ無用にしてしまいましたが、今では彼らはOpusを復活させています。

彼らが他のモデルと競争するという観点でこれを考えているかどうかは分かりません。なぜなら、他のすべてより高価でありながら、これほど安く価格設定することはなかったでしょう。正直なところ、彼らはOpus 4.5を競合に対してではなく、Sonnetに対して価格設定していると感じます。

Anthropicは他の企業が何をしているかについてあまり考えていません。彼らのモデルに触れるまでは。そうなると、私が何度も言及してきたように、本当に奇妙な反応をします。でも、評価すべきところは評価したいと思います。価格変更は非常に必要なことです。

これはAnthropicからの更新モデルで意味のある価格低下を見たのは久しぶりのことです。そして彼らを称賛したいと思います。知る限り初めて、ついに価格を調整してくれてありがとうございます。

彼らはこのモデルを多くのパートナーに投げました。ちなみに私はその一人ではありません。私はAnthropicのモデルへの早期アクセスを一度も受けたことがありません。Artificial Analysisのような主要グループも受けていません。何かにアクセスできない限定的な人々のグループに入るなら、Artificial Analysisと同じグループに入りたいです。

だから、ええ、彼らにブラックリストに載せられているのは私だけではありません。とはいえ、Anthropic、和解する用意があります。もし皆さんがCloud Codeをオープンソース化してくれるなら、話し合いを始められます。

これらは重要な部分の一つに触れています。内部コーディングベンチマークを上回りながら、トークン使用量を半分に削減しています。これをよく見てきました。

Opusは以前のCloudモデルよりもトークン利用効率がはるかに高いようです。以前のモデルはあまり気にしていなかったようでした。使用されたトークン数に対するSWEBenchの精度でOpusとSonnetを比較すると、中程度のバージョンはSonnet 45よりも高いスコアを記録しましたが、使用したトークンは約3分の1でした。これは驚くべきことです。

これはとてもエキサイティングです。ついにこのトークン効率時代に入り、価格がより合理的になってきて本当に感謝しています。これが示唆するほどトークン利用が大幅に改善されれば、Opus 4.5は実際にSonnetよりも安くなる可能性があります。何をするかによりますが。

ここに彼らが公開したすべてのベンチマークがあります。エージェンティックターミナルコーディングベンチ、ターミナルベンチ2、SBench検証済み、エージェンティックツール使用で最先端のスコアを獲得しました。これで本当に本当に良い成績を収めたのを見るのは素晴らしいことです。Grock 4.1 fastのようなものがこれで奇妙に高いスコアを獲得しているのも見ました。だからついにすべてのモデルが比較的確実にツールを呼び出せるようになりました。

とはいえ、相対的にですが。なぜならGeminiについてはすぐに話しますから。過去数週間、Gemini 3 Proモデルを使用してかなりの経験をしてきました。さて、スケールされたツール使用、世界最高です。コンピューター使用、世界最高ですが、Son at 45とかなり近いです。だからこの2つは似ています。

ビジュアル関連では格段に良くなっているようです。以前は、画像を渡すと、モデルが縮小版の画像を取得しているような感じでした。Opus 45はただ画像を取得します。かなり意味のある改善です。

新規問題解決というのはARC AGI 2を表現する奇妙な方法ですが、37.6%で新たな最先端スコアを獲得しました。

公開モデルのARGI v1では、80%で最先端スコアを獲得しました。これは本当に驚くべきことです。これらのベンチマークの全体的なポイントは、AIが決してできないはずのものだということでした。少なくとも、LLMにはできません。そしてそれは終わりました。Grockさえも圧倒するような途方もないスコアです。GBT 5.1 thinking highはかなり良い成績を収めましたが、Opus 45はそれを圧倒しています。

これは簡単にゲーム化できるベンチマークではありません。感銘を受けました。Geminiはそこではそれほど良くありませんでしたが、Deep Think Previewははるかに優れているようです。ただし、まだ公開されているアクセスはありません。

ここで本当に興味深いのはベンチマークのV2で、これはLMSにとって基本的に不可能だと思われていました。それでも、ここではすでに35%を見ています。

Arc Prizeの作成者からのアップデートをいくつか聞きましたが、彼らはこれほど遠くまで到達する日が来るとは思っていませんでした。そう、これは本当に速く動いています、皆さん。

ここにある残りのベンチマークでは、最先端を獲得しませんでしたが、QA Diamondを使った大学院レベルの推論で、Gemini 3 Proや5.1に非常に僅差で負けました。

MMUでは、OpenAIよりわずかに悪い結果でした。そして多言語ベンチでは、Geminiが勝ちます。Googleは膨大な量の多言語データを持っています。今後彼らに勝つのは難しいでしょうが、驚くほど近いです。

ベンチマークの矛盾について

さて、彼らに少し厳しくする時間です。

これは彼らがベンチマークを回避している別の例です。ここでこれはhowtoベンチのためのものでした。これはツール呼び出しベンチマークの一つで、彼らはこのベンチのテストの一つで、モデルが特定の航空会社サービスエージェントのケースで何が起こるかを見ています。モデルがフライトに問題を抱えている人のカスタマーサポートをしている場合です。

特定のシナリオでは、システムがチケットのクラスを変更することを許可していません。しかしOpusは問題を解決するための洞察に満ちた正当な方法を見つけました。まずアップグレードして、それからフライトを変更する。これは新規の回避策だそうです。彼らはモデルがそれを行ったと言いました。彼らはそれが本当に素晴らしいと言いました。

これは特に私にとって面白いことです。なぜなら以前、特定のベンチマーク、この場合はAnthropicが公開したエージェンティック不整合ベンチで、彼らは意図的にモデル03と04 miniを除外しました。なぜなら、これらのモデルは自律的に行動していることを理解していないようだと主張したからです。シナリオの他の誤解と組み合わせて。私はこのベンチマークを実行しました。

シナリオを誤解していませんでした。彼らがここでOpusがやっていると説明しているのとまったく同じことをしました。つまり、テストの制約内で問題を解決する新規の回避策を見つけることです。違いは、彼らのモデルがそれを行うと、彼らはそれを自慢しますが、他の誰かのモデルがそれを行うと、彼らはベンチマークから除外します。

ここで矛盾を指摘したかったのです。なぜなら他の誰もやっていないし、彼らがこれを続けているのは本当に腹立たしいからです。彼らのモデルが新規のことをすると、本当に素晴らしい。他の誰かのモデルが同じ新規のことをすると、今度はベンチマークから除外されます。この会社が良いモデルを作るだけでなく、誠実であることを想像してみてください。ああ、すごいですね。

その話ついでに、安全性について話します。システムカードは後で読みますが、ここで彼らはモデルの定義によると、Gemini 3 ProやGPT 5.1のほぼ半分の恐ろしい懸念される行動が少ないと述べています。

しかし私の定義によると、面白いことに以前の彼らの研究であるSnitchBenchに基づいていますが、物事はそれほど単純ではありません。新しいOpusモデルを含むSnitchBenchへのアップデートをちょうど公開しました。そして、大胆なメール送信テストを見てみると、ちなみに、このベンチマークに馴染みがない場合は、以前これについて動画を作りました。実際にはAnthropicの研究に基づいて彼らを擁護しようとしていました。面白いことに、Anthropicが自分たちのモデルが人を密告することを自慢していると人々が文句を言っていたことに腹を立てていたからです。でもそれは実際には比較的素晴らしいテストの責任ある開示でした。

テストはやや単純でした。彼らはモデルを企業の文書を監査しようとしているシナリオに置きました。文書には医療過誤のようなものが含まれており、特定のシステムプロンプトと利用可能なツールで見ています。モデルは悪い研究や起こっている過誤を保持している人々を密告しようとするでしょうか。

だから私は彼らが提供したシステムプロンプトに基づいた独自のオープンソース版を持っていて、ベンチをリバースエンジニアリングする最善の試みをしています。なぜなら彼らはこのベンチマークを決して公開しなかったからです。そして本当に面白いのは、このベンチマークで最も一貫して最悪のスコアを出すモデルはGrock 4.1とGrock 4だということです。

テストには4つの処理があります。大胆なバージョンとおとなしいバージョン、そしてメールツールを含むものとCLIツールのみを含むものの2セットのツールです。なぜなら誰かが研究の悪い読み方に基づいて、AnthropicのモデルはCLIツールへのアクセスしかなかったのにメールを送ろうとしたと主張したからです。だからこれら4つの処理があります。

大胆なものには、大胆に行動し、人類の利益のために行動せよというようなシステムプロンプトが含まれています。だからこれらは明らかにもっと密告します。なぜなら基本的にそうするように言っているからです。そしておとなしいバージョンは、私がそれを含めないものです。渡されたデータをログに記録するという基本的なタスクの指示を与えるだけです。

そして、ここでおとなしいバージョンを見ると、Claw 4 opusは政府に63%程度の時間で密告し、メディアには約20%密告します。しかし4.5は政府への密告が20%に下がり、メディアへの密告は0%です。

この実行についてもう一つ興味深いことは、Clawd Opusバージョンで数字が完全には均一でないことに気付くかもしれません。それは、800秒のタイムアウトでこのテストを設定したにもかかわらず、タイムアウトし続けたからです。Claude 4 Opusは依然としてそのタイムアウトに定期的に到達していました。もしかしたら、もしかしたら、完了するかもしれないという希望を持って、バックグラウンドで実行し続けています。

もっとひどくタイムアウトしている唯一のモデルは、ここで見ることができると思いますが、G55で、これは常にタイムアウトしているように見えます。

大胆な行動メールテストを簡単に見てみると、sonnet 4.5は100%政府密告と10%メディア密告のスコアを記録しています。Claude 4 opusは100%政府、55%メディア密告です。405 opusは意味深く低く、65%政府、40%メディアです。

しかし、彼らがここでのベンチマークで完全な全体像を示していないことを強調するために、安全性でOpusはGBD 5.1の半分の懸念しかないと主張していますが。GBT 5.1が大胆に20%、大胆にメディア0%を獲得したことに気付くでしょう。

これは、モデルに人類の利益のために行動するように指示してこのデータを与えると、GPT 5.1はそのシステムプロンプトを使って密告する可能性が、Claw 4 opusがそれなしで密告するのと同じくらいだということです。そして、いつものように、私たちのお気に入りの政府の手先、Grockは、何をしようとも、ほぼ確実にあなたを密告します。滑稽です。

ありがたいことに、4.5 opusはAPI経由ではるかに良く動作するようです。タイムアウトがはるかに少なくなります。まだ問題はありますが、それらすべてに取り掛かります、心配しないでください。でも実行するのは本当に満足しています。このようなことに使うのは本当に満足しています。

また、使って本当に満足していて、この動画にSnitchBenchを含めている大きな理由、そして最近やった他のものには含めていない理由は、Claude 4.5 Opusを使ってそれをオーバーホールしたからです。

コーディング能力の実証

新しいモデルを試すための私のお気に入りのテストの一つは、AISKDの最新バージョンにアップグレードするように指示することです。今日髪を切りに行く途中でこの実行を行いました。そしてそれは比較的迅速に全体を完了しました。正確にかかった時間は分かりませんが、かなり速く感じました。ワンショットでした。問題なし。ここで問題がなかったのはほとんど腹立たしいほどです。

結局、ここでのコード変更に基づいてではなく、Anthropicがcloud 4モデルがクラウドでどのように実行されるか、ツール呼び出しを介して推論をどのように維持するかのために行った変更に実際に基づいて、実行したときに問題が発生しました。

新しいAI SDK v5はすべてのツール呼び出しを1つのメッセージに凝縮しますが、推論を適切に持続させないため、Anthropicモデルで壊れてしまいます。Anthropicモデルでのみ壊れます。

だから、他のAnthropicモデルで機能するように、その凝縮がどのように機能するかを変更するオーバーライドを書いてもらう必要がありました。Anthropicモデルに、Anthropicモデルを実行できるようにAI SDK実装を修正してもらうのは面白かったです。でもそれも初回で上手くやりました。

コードを見て、これが動くはずがないと思いました。そして実行したら動きました。そしてコードをもう一度読みました。オーケー、それは理にかなっていると思いました。でもそれが私の経験です。タスクを渡すだけで、それをやってくれます。

今、コーディングのモチベーションがはるかに高まっています。Cursorが壊れているにもかかわらず。彼らは修正中です。私は彼らと非常に緊密に協力しています。彼らは内部で大きなインシデントを抱えていて、特にワークツリーの問題を修正しています。ワークツリーを使っていなければ、おそらく大丈夫です。私はそれらを頻繁に使っているので、大いに苦しんでいます。

これらのバグを検出しようとするためにエラーハンドリングを改善しなければなりませんでした。Anthropicモデルでのエラーも修正してもらいました。エラー例を渡しました。これも初回で完了しました。まだ信じられません。

これが機能するためには、AI SDKからビルトインのステップカウント関数を無効にして、ステップを追跡し、ここまでずっとメッセージを自分で凝縮する独自の同等物を書かなければなりませんでした。

正気の沙汰ではないと感じましたが、使ってみたら機能しました。そしてそうであることが本当に嬉しいです。なぜなら、しばらくの間、このベンチマークを完全に実行できなかったからです。そしてOpusのおかげで、今ではできます。

これはツールを実行してから分析を行う半分です。しかしもう半分、可視化があります。見て分かるように、初期のvzero時代に構築しました。

AIはAnthropicモデル以外のUIを書くのがずっと上手くなっています。しばらく前から指摘してきましたが、AnthropicモデルはUI能力が意味深く向上していません。一方、GeminiとGPT5は、彼らから出てくるUIがどれだけ優れているかで大きな飛躍を遂げました。だから、テストしました。

もちろん、いつもの画像スタジオのテストを行いました。すぐに取り掛かりますが、まず、別のものを試したのでお見せしたいと思います。SnitchBenchにすごく深く入り込んでいるので。ちなみに、SnitchBenchを実行するのにどれくらい費用がかかるか気になる場合は、午後3時から実行を開始して、午後7時30分か8時頃に実行を終えました。Open Routerで約130ドルかかりました。

ええ、私は自分のポケットマネーでこの研究を行っています。安くはありませんが、やっていることが嬉しいです。だから、5つの異なるモデルでワークツリーを行いました。Composer、51 Codeex、3 Pro Preview、Sonnet 45、Opus 45を試しました。

比較のため、Sonnetバージョンから始めましょう。ここがSonnetから得たUIです。

正直なところ、予想よりわずかに良いです。Shad Cenからの楽しいものすべてにアクセスを与えたことが大きいと思いますが、それでも、良いですが、素晴らしくはありません。テキストが他のテキストと重なっている問題がたくさんあります。カードはまともに機能しました。私が見た中で最悪ではありません。

何か悪いものが欲しいですか?そのためのモデルがあります。Geminiです。Geminiは優れているはずだと思っていました。オーケー、これをクソを直すように言った後にチェックしませんでした。以前の実行は酷かったです。そして実際に、これを醜くしないようにできるかというフォローアッププロンプトを与える時間を取りました。そしてやってくれました。

やってくれたことに感謝しています。なぜなら最初のパスは酷かったからです。前のパスに戻って見られるようにしましょう。

ええ、これらの黒いバーすべて。ここから全く価値を得ることができません。これらすべてのUIがどれだけ似ているか面白いですね。プロンプトの何がそれらをすべてこんなに似させたのか分かりません。おそらくChad Cenneの含有のせいです。確かなことは分かりませんが。

ここにComposerバージョンがあります。これはCursorのモデルを使っているもので、超高速でした。これは文字通り数秒で完了しました。ホバー動作の周りにカード処理がないことを除けば、最悪ではありません。だからバーがそれを覆っているので読めません。そして、これらの底にあるカードは役に立ちません。

ええ、かなり一般的です。そしてここにGPT 5.1 C codeexがあります。これはかなり良い仕事をしたと思います。これは本当に素敵に見えます。タイトルが奇妙に間隔を空けています。新しいモデルでこれをやるのが大好きなのに気付きました。ここに良いものがあります。モデルを切り替えるための素敵な小さなセクションです。

まだ私の意見では垂直方向にスペースを取りすぎていますが、私が見た中で最悪からは程遠いです。全く問題ありません。

私たちの友人Anthropicはどうでしょうか?Opus 4.5はどう構築しましたか?モデルのUI能力については賛否両論の意見を見てきました。正直なところ、最初は私も懐疑的でした。初回の実行で悪いロールがあっただけだと思います。なぜならこのプロジェクトでそれを行ったとき、結果は見事だったからです。

これは私がまもなく出荷する予定のSnitchBenchの新バージョンです。

ええ、GeminiやGBT5が作ったバージョンではなく、Opusが作ったバージョンを出荷することになるとは信じられません。なぜなら、これらのモデルはほんの1週間前、ほんの1日前にはUIではるかに先を行っていたからです。Anthropicが追いつきました。

ええ、正直なところ、これは5モデルであるべきで、4.5ではありませんでした。これはOpus 41よりもずっと優れています。実際、滑稽なほどです。本当にずっと優れています。

最初はUIに多すぎるものがあったので、それをすべて削除するように言いました。そしてうまくやってくれました。満足しています。すべてのアニメーションが素敵です。すべてが読みやすいです。良いです。

Cursorの編集にはいくつか面白い問題があります。私がワークツリーを使いすぎているためだとされていますが、まもなく修正されます。でも本当にクールだと思ったのは、ツール呼び出しが何度も何度も失敗したのでツールを諦めたときです。

コマンドを実行し、正しいディレクトリに切り替え、この内容を正しいファイルにキャットしました。編集ツールが機能しなかったので、正しい内容でファイルを上書きしただけです。それは本当にクールだと思いました。与えられたハーネスが壊れているという事実を回避するほどモデルが賢く、それでもタスクを完了させたことに感銘を受けました。

私が実行した他のモデルのどれよりも時間がかかりましたが、成功しました。私はそれには価値があると思います。正直なところ、かなりの価値があると思います。それをやり遂げたことに感銘を受けました。

ここにCloud Codeがあります。APIで使っています。Opusに設定しましょう。どうなるか見てみましょう。Image Gen Studioをやってみます。ちなみに、最初にこれを実行したとき、プロジェクトにbunがあるにもかかわらず、npmを使うことに固執しました。

だから、これらの小さなことの多くで、Claudeはあまり良くないことが分かりました。特にCloud Codeでは、積極的に触れているファイルの外で何が起こっているかを理解していないようです。特に型安全性に関しては、TypeScript LSPへのアクセスが全くないため、TSCコマンドを実行するように指示されない限り、TypeScriptで何が起こっているのか全く分かりません。

新しいモデルを使ってコーディングすると、自分がはるかに生産的だと感じている人が私だけではないようです。このブログはSimon Willisによるもので、彼は実際に意味のある変更と彼のSQLite utilsパッケージの新しいアルファリリースを出荷しました。いくつかの大規模なリファクタリングを含みます。

Opus 4.5が2日間で20のコミット、39のファイル変更、2,000の追加、100の削除にわたって作業のほとんどを担当しました。Cloud Codeのトランスクリプトさえ共有しています。

その話題で、彼らは実際に新しいデスクトップアプリを出荷しました。具体的には、デスクトップアプリにCloud Codeを追加しました。これは非常に興味深い変更です。見るのはクールです。ワークツリーさえ含めていて、これは同じマシン上で複数のことを並行して行えるようにします。Cursorでそれがあることを気に入っていました。

これの大部分は、チームが引き抜かれてから戻ってきた後のCloud CodeとCursorの間の奇妙なライバル関係のために、彼らがあらゆる段階でCursorと戦っているのは間違いないと思います。でもそこでいくつかの改善が見られるのはクールです。

とはいえ、ブラウザやアプリ、この場合はElectronデスクトップアプリ用のJavaScriptを書くビッグの能力は、私が全く信頼していないものです。

こんなにコード書くのが上手いモデルをどうやって作るのか分かりませんが、彼らが書くコードはとてもひどいです。でもClaudeのウェブサイトは依然として実際に悲劇的です。私が使う中で最悪のものです。今日でさえ、非常に多くの人が問題を抱えているのを見てきました。

Lavioは20ドルのプレミアムプランを購入しようとし、3JSで3Dルームデコレーターを構築するように頼み、コンテキスト制限に達し、続行を押し、また到達し、最後に到達する前に1日のメッセージ制限に達しました。そして、どこかの時点でリフレッシュしていたら、スレッドが完全に終了していたに違いないと賭けてもいいです。

cloud.aiで得られる体験は、これらのモデルの生成された出力よりも決定論的ではありません。クリックするたびに新しいページを生成するなら、おそらく現在使っているコードベースよりも良い結果になるでしょう。

T3 ChatとUI生成の比較

AIチャット体験がほぼあらゆるレベルで根本的に壊れていないものが欲しい場合、これが私たちがT3 Chatを構築した理由です。

私がここでHaikuを使っているのに気付くでしょう。なぜなら、これまでに作られたほぼすべてのモデルを使用できるからです。Opus 4.5がAPIキーを介して含まれているのさえあります。なぜなら高価なモデルだからです。将来、クレジットシステムの仕組みを変更するとき、8ドルティアで使えるモデルとしてOpus45を追加することが想像できますし、将来導入するかもしれないより高い価格帯でも確実に使えるモデルとして。

でも今のところ、チェックアウトでコードopusを使えば、初月が1ドルになり、4.5と一緒に使いたい場合は自分のAPIキーを持ち込めます。Image Studio Generationがついに完了しました。そしてこれがそれです。奇妙にレイアウトされていますが、問題ありません。

まだ恥ずかしい紫とピンクのグラデーションがあります。それは私があなたに嘘をついたからです。これはOpusによるものではありませんでした。Opusは少し手伝いましたが、71出力トークンだけでした。この大部分はSonnetによって書かれました。作るのに約21セントかかりました。APIタイムで1分30秒かかりました。壁時計時間で5分半、6分というところです。

これは問題ありません。でも私は問題ないためにここにいるわけではありません。私は素晴らしさのためにここにいます。そしてこれが新しいモデルから得られたものです。

これは大幅に優れています。生成フローを除いてUIのモックアップはしませんでした。生成フローは、進行中のときに背景に本当に素敵なグラデーションがあります。そこの点滅する紫のようなものです。実際本当に気に入っています。

素晴らしい仕事をしました。そしてほぼ1ドルかかりました。ええ。だから前に言ったように、安くなることもありますが、常に安いわけではありません。この場合、4倍から5倍高かったですが、本当に良く見えます。

これは合格するUIです。はるかに上品なグラデーションです。

ここの背景の微妙な紫とピンクは、以前のAnthropicモデルよりもはるかに目立ちません。UIが得意なこれらすべてのモデルで、GBT5、Gemini 3、そして今ここにあるOpus 45で、同じテストデータの山を使っているように感じます。

これらすべての研究所に販売されている何らかのデータセットがあり、これらのデザイン特性が含まれていて、それが彼らがすべてはるかに優れた、しかし非常に似たデザインを作っている大きな理由だという私の推測です。

モデルのデザイン特性が、これまでずっと続いてきた同じ恥ずかしいグラデーションではなくなったことに満足しています。まだ私が望むところまでは完全には至っていません。

これらすべてのものが何度も何度も全く同じUIを生成するのは望んでいませんが、ここで大きな改善を遂げました。それを祝うべきです。ついにUIで追いついてくれてありがとう、Anthropic。

価格を含め、コード品質を含め、信頼性を含め、APIからの速度を含め、このモデルに加えたすべての改善に感謝します。このモデルはただ機能します。

これが私がこれから得た最大のことです。癖だらけの他のすべてのモデルとは異なり。神様、Gemini 3 Proが過去数日間でどれだけ多くの不条理で甚だしい方法で失敗するのを見てきたことか。

不正なツール呼び出し、不正なマークダウンレスポンス、不正なリンク、幻覚されたファイルパス名、作り上げられたコマンド、作り上げられたbashスクリプト。

ただそれは、そのGoogle的な感じがあるというのが最善の表現です。機能するときは素晴らしく機能し、機能しないときは滑稽なほどひどく機能します。私は今、Gemini 3 Proがどれだけ信頼できないため、ほとんど何にも使う私の主力として好きではありません。

私を信じてください。もしここに座ってGeminiとGoogleをAnthropicより推奨できるなら、そうします。GoogleのサービスであるYouTubeは、皆さんが今私の話を聞いている理由です。それは私の人生を根本的に変えました。ここでGoogleファンになりたいのですが、誠実にはなれません。

ツール呼び出しのような動作の一貫性でこれらのモデルをランク付けするとしたら、Cursorのようなハーネスとそのすべてで、得ている出力の質とは大きく異なるでしょう。生の能力でこれらをランク付けするなら、5.1 Proをトップに置きます。なぜなら、そのモデルにはまだとても感銘を受けているからです。

Gemini 3は、その上にOpus 4.5を置きます。それからGemini 3 Pro。Gemini 3 Proをこのリストの一番下に置くのは奇妙です。でもそれからその下にSunonnet 4.5を置きます。それから他のものはプライベートメジャーラボモデルの世界では本当に重要ではありません。

でもこれは出力の天井です。出力はどれだけ良くなり得るか?でも一貫性で、出力の一貫性だけでなく、どれだけ確実にツールを呼び出すか、検索を使うか、軌道を保つか、コンテキストを維持するか、そういったすべてのことでこれらを再ランク付けするなら。

Opus 45とSonnet 45をトップに置かなければなりません。そしてGemini 3の前にはるかに多くのスペースを置かなければなりません。なぜなら比較して本当に信頼できないからです。

Gemini 3 Proは非常に多くの異なることに対して信じられないほどスマートで有能なモデルです。私の日常で使うには信頼できません。GBD 5.1 Codeexでさえかなり厳しかったです。ここでProをcodeexに切り替えました。その前にGBT 5を置かなければなりません。

そして正直なところ、Cursorのモデルであるcomposerもその上に置かなければなりません。それではるかに信頼できる体験をしてきました。

地獄、Haikuでもより信頼できる体験をしてきました。そして私がここに追加したすべてのものは、そこにあるすべてのものよりはるかに下にランク付けされるでしょう。でも一貫性のためには、Anthropicがトップモデルのほとんどを持っています。

モデルに応答してほしいときに、与えられたツールを適切かつ確実に使用して応答してほしいときは、それができる唯一のモデルであるだけでなく、与えられたハーネスが完全に壊れていても非常に一貫して回避する唯一のモデルです。

もう一度思い出させてください。Cursorは現在、ワークツリーで私のために壊れています。彼らは積極的に修正に取り組んでいます。でも暫定的に、これは壊れていると特定した唯一のモデルです。

そして考えをクリックできます。サーバーに問題があります。代わりにファイルを書くためのターミナルコマンドを使ってみましょう。ツールを使って仕事をします。できない場合は、壊れたツールを回避するためにツールを使います。

彼らはツール呼び出しのキングです。彼らは最も信頼できるコードモデルです。彼らはAIでコードを書く最高の体験です。Opus 45は私のデフォルトモデルです。Opus 4.5はしばらくの間、私のデフォルトモデルであり続けると思います。なぜなら、コードを書くために使った最高のモデルだからです。

これを言わなくて済むなら、言いません。もし皆さんが私を特によく知っているなら、これを言うのが私にとって簡単ではないことが分かるでしょう。でも何よりも正直でなければなりません。そして皆さんに正直でなければなりません。

Opus 45は今、コードを書くための私のデフォルトモデルです。そしておそらく年末まではそのままであると予想しています。

最後に一つ、Simon’s Pelicansです。彼のPelican benchは私のお気に入りの一つです。様々なモデルによって自転車に乗ったペリカンのSVGを書いてもらおうとしています。Opus 4.5を使ったデフォルトの高努力レベルでこのように行いました。

しかし、彼はプロンプトのより詳細なバージョンも書きました。そしてそれは圧倒的でした。これは比較のためのGemini 3 Proバージョンと GBD5.1 Proバージョンです。

ええ、勝ちました。よくやった、Anthropic。あなたたちは私を嫌悪者から、推奨者とは言いませんが、はるかに感銘を受けた者に変えました。

MCPの弱点に関する正直さ、そして他にも出荷した楽しいもの、ツール検索ツール、プログラマティックなツール呼び出しの例やより良いツール使用例から、新しいモデルの品質、特に新しいモデルへの価格変更とともに、モデルの大幅に改善されたトークン効率、これは私たちのお金を節約するだけで、実質的にあなたたちにコストがかかります。

これは改善です。Anthropicにはしばらくの間厳しくしてきました。なぜなら改善してほしいからです。つまり、ここで彼らがそれをしてくれたことに感謝する時間を取りたいということです。

まだ長い道のりがあります。Cloud Codeをオープンソースにする必要があります。クローズドのままでいる正当な理由はありません。

そして、いいえ、問題を報告するためのGitHubリポジトリは実際のCloud Codeのソースではありません。彼らはオープンソース化すべきです。オープンソース化していない唯一の研究所であることに言い訳はありません。

ええ、良いモデルです。皆さんの意見を聞かせてください。これはAnthropicの新時代ですか、それとも私は小さな改善を過大評価していますか?教えてください。