Opus 4.6は史上最高のコーディングモデルなのか

Anthropic・Claude・ダリオアモデイ
この記事は約31分で読めます。

AnthropicがOpus 4.6をリリースし、同社史上最もスマートなコーディングモデルとして注目を集めている。100万トークンのコンテキストウィンドウ、エージェントチームによる並列処理、長時間実行タスクへの対応など新機能を搭載する一方で、価格はGPT-5の2〜4倍と高額である。Arc AGI v2では70%近くのスコアを記録し、大規模コードベースでの作業能力が向上したものの、実際の使用感では処理速度の低下や会話の自然さの減少といったトレードオフも見られる。20,000ドルをかけてRustベースのCコンパイラをゼロから構築するなど、長時間実行の可能性を示す一方、トークン効率とコストの問題は依然として課題として残る。

Opus 4.6 Is The Best Coding Model Ever Made*
Reset the counter. Opus 4.6 is the new best model ever made (or is it...)Thank you WorkOS for sponsoring! Check them out...

ついに登場したOpus 4.6の衝撃

Sonnet 5がついに来ましたね。みんな本当に楽しみにしていたと思います。あ、すみません。電話がかかってきました。え?Sonnet 5は出ていない?Codex 5.3が出た?それってAnthropicのモデルですらないですよね。あ、Anthropicもモデルを出したんですか。Opus 4.6。つい最近4.5が出たばかりじゃなかったでしたっけ?

冗談はさておき、今日は非常に興味深い日になりました。なぜなら2つの新しいモデルが登場したからです。ただ、私は両方について話すつもりはありません。本当に焦点を当てたいのはOpus 4.6です。これは少し奇妙なことです。というのも、彼らはつい最近Opusモデルを出したばかりで、同じモデルファミリーの繰り返しをこのように出すのは珍しいからです。

通常、彼らはHaikuを出して、次にSonnetを出して、それからOpusを出すという風にローテーションしています。Haikuは本当に愛が必要な状態なので、早くそれに取り組んで、その存在を思い出してくれることを願っています。

史上最もスマートなコーディングモデルの実力

でも今は新しいOpusがあります。そしてこれは史上最もスマートなAIコーディングモデルなんです。今後数分のうちに別のモデルが出てこないことを願います。それについては近い将来お話しします。心配しないでください。Opus 4.6は驚異的なモデルです。私は一日中、さまざまなことに使ってきました。

残念ながら、私はOpus 4.6への早期アクセスを得られませんでした。なので、私のテストはすべて今日、私と私のチームの他のメンバーで行ったものです。このモデルについて言いたいことがたくさんあります。一方では、本当に本当に優秀です。Opus 4.5では決して解決できなかったことを解決しています。

でも他方では、以前Opusで気に入っていた魔法のようなものを少し失ったような気がします。とはいえ、ベンチマークは素晴らしく見えます。彼らが追加している新機能も素晴らしく見えます。特に、スウォームとチームを使った新しいオーケストレーションレイヤー。本当に本当にクールです。長時間実行の並列エージェント機能も本当に素晴らしそうです。

今日のスポンサー紹介

でも、他にも素晴らしいものがあります。今日のスポンサーです。久しぶりですね。このための広告を撮影するのをほとんど忘れていたので、あのビデオの直後に撮影しています。OpenAIとAnthropicの違いについてたくさん話していますが、彼らに共通点が何かご存知ですか?本当に大きな意外なことが一つあって、彼らが両方とも使っていて、私たち全員が少し学べることがあると思います。

ヒントをあげましょう。T3 Chatも同じことをしています。それはWorkOSです。これらの企業のほぼすべてが使用しているOAuthプロバイダーで、大企業も小企業も関係ありません。その理由があります。彼らは本当にあなたのOAuthをエンタープライズ対応にします。こういった種類の取引で本当に信頼できる唯一のOAuthです。

そして彼らはDXで妥協しません。これはRadixを構築したエンジニア全員を雇用した同じ会社です。彼らはフルスタックのTypeScript開発とソフトウェア全体を深く気にかけています。管理ポータルも大きな部分だと思います。

想像してみてください。私がMicrosoftで働いていて、あなたの製品を試したいと連絡してきたとします。あなたは準備ができていますか?私の会社が期待する奇妙で曖昧なOAuth形式を扱えますか?私がFortune 50の企業にいて、すべてにOktaを使っていて、今月のAI予算を使い切ろうとしていて、あなたの製品を試したい場合、Oktaで私をオンボーディングできますか?

誰も扱うべきではないこれらのひどいサービスすべてに対処できますか?私たちはできませんでした。そしてT3 Chatではこのために取引を失いました。だから私たちは移行しました。非常に非常に高価な移行でしたが、0ドルの費用がかかりました。なぜなら最初の100万ユーザーは無料だからです。

なので、0から100万ユーザーの間にいる場合、失うものは何もありません。それ以上の場合は、おめでとうございます。今すぐsoyv.link/workosでチェックしてください。

Opus 4.6の詳細スペック

さて、ここからです。Opus 4.6。私たちは最もスマートなモデルをアップグレードしています。新しいOpus 4.6は、その前モデルのコーディングスキルを改善します。より慎重に計画し、エージェントタスクをより長く維持でき、より大規模なコードベースでより信頼性高く動作でき、自分の間違いを捕らえるためのより優れたコードレビューとデバッグスキルを持っています。

そしてOpusクラスモデルとしては初めて、4.6はベータ版で100万トークンのコンテキストウィンドウを備えています。非常に興味深いですね。大きなコンテキストウィンドウは、モデルができることの大きな変化です。彼らはコンパクション化のようなものに多くの努力を注いできました。スレッドに多くのことが起こっている場合、そのコンテキストを短縮してから続けることができます。

100万トークンのコンテキストウィンドウは、それをあまり行う必要がないことを意味しますが、コンテキストロットに対してより脆弱になることも意味します。なので、どれだけのコンテキストを保持するかとどれだけ引き出すかの適切なバランスを見つけることは繊細な行為です。

彼らはまた、財務分析、リサーチ、文書、スプレッドシート、プレゼンテーションの作成、そしてco-workなどの日々の業務タスクにも優れていると話しています。クールですね。でも私たちがここにいる理由はそれではありません。私たちはコードのためにここにいます。正直に言いましょう。

驚異的なベンチマーク結果

本当にクレイジーな数字を記録しました。humanity’s last examで途方もないスコアを含めてです。彼らはArc AGIを完全に破壊しました。以前の最高スコアをすべて破壊する形です。これはV1ではありません。V2です。これはエージェントとAIができないように特別に構築されたものです。そしてそれができているんです。

このベンチは奇妙で難しいものですが、人間が得意でエージェントが苦手なものとして特別に構築されたという意味で、本当に興味深いベンチです。そして今、より難しいバージョンが80%の範囲に入っているか、それに近づいています。今、私たちは70のラインのすぐ上にいます。すごいですね。

価格面での考察

GPT-5.2 Proよりも意味あるほど安いですが、標準のGPT-5.2よりは少し高価です。価格について少し時間を取って話したいと思います。これは理解すべき重要なことだと思うからです。

彼らはここで、価格は1ミリオンあたり入力5ドル、出力25ドルで同じままだと言っています。この価格が、あなたが持っている他の多くのオプションよりも大幅に高いことに注意することが重要です。Opusが以前より低くなっていますが、他のモデルから期待されるよりもまだはるかに高いです。

例えば、GPT-5は実際にOpenAIの価格設定にとって大きな変化でした。以前のGPT-4や4oでは、1ミリオンあたり入力2.50ドル、出力10から15ドルでした。多くの人が使用する4o refresh、2024年5月13日版は、1ミリオンあたり入力5ドル、出力15ドルでした。

しかし、GPT-5で彼らはこれを入力1.25ドル、出力10ドルに意味あるほど変更しました。5と5.1を覚えてください。入力1.25ドル、出力10ドル。Opusは入力5ドルで4倍高く、出力25ドルで2.5倍高いです。

Opusが本当にGPT-5や5.1の2倍から4倍優れていると思いますか?多分。でも私はそこまで言うつもりはありません。しかし対抗措置として、OpenAIは5.2の価格を引き上げました。そして5.3もこの価格変更を維持すると予想されます。5.3はまだAPIにないので分かりません。

5.2と5.2 Codexの両方は、1ミリオンあたり入力1.75ドル、出力14ドルになり、トークンあたりの全体的なコストを約半分にしています。これはサブスクリプションの使用量から、実際にAPIを叩いている場合のコストを見るだけでも分かります。

T3 Chatで多くのこれらのモデルをAPIで実行してきた多くの経験から言えることは、Anthropicは私たちのプラットフォームでのそれらのモデルの使用量に対して不釣り合いに高い請求になるということです。単にコストがかかるんです。それが現実です。

トークン効率と長時間実行の課題

トークン効率もこれを考慮すると重要です。これらのモデルを一度に何時間も実行する場合、トークン効率は非常に異なる意味を持ち始めます。そして彼らが本当に推し進めているのは、モデルを長時間実行できるというアイデアです。

Opus 4.6をエージェントチームを使ってCコンパイラを構築するために使用し、ほとんど離れていました。これが自律的なソフトウェア開発の未来について教えてくれたことです。彼らがそこで話していたのは、新しいチームオーケストレーションです。

共有タスク、エージェント間メッセージング、集中管理を使って、チームとして協力する複数のClaude Codeインスタンスを調整します。これは実験的な新機能で、私のClaude Codeを何度もクラッシュさせましたが、実際には本当にクールに見えます。

ここで、私はかなり大きなコードベースを監査させ、5つの別々のエージェントを立ち上げて、すべて並列で異なる理論を探索し、結果を持ち帰らせました。より派手な並列ビューをトリガーすることはまだできていません。試してはいます。本当にクールなものです。

私の経験と他の人から聞いたところによると、大量のトークンを消費しますが、本当に多くの異なることに触れる大きなタスクの出力品質を意味あるほど向上させます。

すべてのアクションをマルチプレックスビューで見たい場合は、T-muxモードもあります。本当にクールです。彼らが私たちが望んでいることを理解しているように感じますが、今のところかなり一貫して物事を壊しています。そして、確実にあなたに伝えられるほど信頼性高くトリガーさせることができません。

将来的にこれがより一貫して動作するようになって、皆さんにもっとフィードバックを提供できることを願っています。でも今のところ、本当にクールそうなもので、何とか動作させることはできましたが、本当に深く掘り下げる準備ができる前に、もう少しオーブンで時間が必要に見えます。

Rustベースの野心的なプロジェクト

しかしそれはAnthropicが深く掘り下げることを止めませんでした。彼らは今、Linuxカーネルをコンパイルできるゼロからの完全なRustベースのCコンパイラを構築しました。彼らはこれをここまで隠すべきではありませんでした。

ほぼ2,000のClaude Codeセッションと20,000ドルのAPIコストにわたって。エージェントチームは、x86、ARM、RISC-5でLinux 6.9をビルドできる10万行のコンパイラを生成しました。さて、それはかなりクールです。

この記事は、CloudインスタンスでClaude Codeを長時間実行し、並列で実行することについてのヒントで満ちています。本当に本当にクールそうです。間違いなく私が将来探求することです。

でも私だけが探求しているわけではありません。なぜならCursorも非常に似たようなことを構築しているからです。彼らは新しい非常に長時間実行のコーディングエージェントハーネスに取り組んでいて、数百の異なるエージェント全体で1時間あたり1,000コミット以上をピークとした1週間の実行を行いました。

これは超エキサイティングなことです。これは、これらの巨大なツールが何時間も何時間も続けられるのを見始めるときに、物事がクレイジーになり始める場所です。ただし、これには問題があります。

特に、長く実行されるほど、後で本当に悪くなる、気づかないエラーを持つ可能性が高くなります。そしてそこでのバランスを取るのは難しいです。また、実行に時間がかかると、コストがかかり、時間を無駄にします。

なので、10時間から数日間実行された後、再度操縦するために時間を取る可能性は高くありません。したがって、失敗率が大幅に高く、失敗したときに修正する動機が低く、より高価です。

なので、どのくらいかかるか分かりません。これらのタイプのことが多くの企業で頻繁に行われるのを見る前に、物事は大幅に良くなる必要があると思います。また、Anthropicが言ったように、これは彼らの実行で20,000ドルのAPIクレジットでした。このようなものは安くありません。

私たち全員が月額200ドルのサブスクリプションで細々としながら最善を願っている間に、金持ちの人々に解決させましょう。これらの長時間実行タスクは、開発者の世界でより多くのことが変わるために、私たちが把握する必要がある最後のことです。

すでに速く変化していますが、人間の介入なしに今より2〜3倍長いタスク期間をこれらのものにできるようになれば、物事はおかしくなります。このチャートは私を悩ませます。これは、エージェントが何時間の作業ができるかということです。

モデルの性能比較と課題

実行している時間数ではなく、人間の介入なしにエージェントが何時間分の人間のタスクを実行できるかです。以前、Opus 4.5は人間が最大5時間かかるタスクで50%の成功率を持っていました。

5.2では、これらの数字は昨日5.2用に出たばかりですが、数ヶ月前のモデルで、5.3やOpus 4.6のものを見るまでには少し時間がかかります。しかし、ここでの飛躍、特にOpus 4.5から5.2への約1時間半の飛躍は非常に意味のある飛躍です。

これは、Opusには難しすぎて時間がかかりすぎて失敗しているタスクが、5.2ができるタスクである可能性が高いことを意味します。しかし、皆さんもご存知のように本当に面白いのは、5.2が遅いということです。

したがって、同じタスクを完了するのにOpusの26倍の時間がかかりました。なので、Opusはこのベンチでずっと良いパフォーマンスを発揮することは間違いありません。でもこの部分について話したいと思います。なぜなら、Opusについて気に入っていることの一つは、使用感がどれだけ速く、体験的にどれだけ便利かだからです。

私がOpenAIの人間だと思われていて、私が彼らを好きすぎるから彼らが私にお金を払っていると皆さんが思っていることは知っています。分かります。でも同時に、私は彼らがコードでより優れているから使っているだけです。

とはいえ、Opusに手を伸ばしたことがいくつかあります。特に、コードベースでのコード編集よりも、コンピュータの使用に関するものです。ランダムなSSH認証情報を扱ったり、古いコンピュータから新しいコンピュータに設定をプルしたり、マシン上で何かがどこにあるかを見つけたり、bashプロファイルやfishまたはzsh rcを変更しようとしたりといった、コンピュータに変更を加えるようなことには、Claude Codeが圧倒的に最高に感じます。

Claude Code 4.6はそれをわずかにより一貫性のあるものにしました。新しいLinuxマシンへの2つの別々の移行を行ったばかりで、Opus 4.6で行った2つ目は、Opus 4.5で行ったものよりも意味あるほどスムーズでした。

とはいえ、大きな違いがありました。これが部屋の中の象です。これらのベンチマークがどれだけ素晴らしくても、コードでどれだけ優れていても、以前はできなかったいくつかのことができるようになったとしても、問題があります。

問題は、これが5であるべきだったということではありません。問題は、遅く感じるということです。Opus 4.5が1〜2分で行うことを行うのに5〜10分かかっています。また、対話するのも少し不快です。間違ったことをしているわけではありませんが、話しかけるだけで少し悪く感じます。

控えめに言っても、その散文に退化があるように感じます。テンプレートからロボットがコピー&ペーストしているように感じない方法であなたに話しかける能力が、意味あるほど低下しています。

実際の使用感と問題点

ばかばかしい例ですが、大きなコードベース全体で2つの監査を行いました。これを見せたいのですが、並べて見るとショッキングでした。でも、これを実行して以来、コンパクション化されて、今は履歴がすべて台無しになっています。だから、そこで見せたかったものを見せることができません。でも、先を考えてスクリーンショットを撮りました。このスクリーンショットです。

何か気づきましたか?これらのいずれかを修正しますか?これらのいずれかを修正しますか?これらは、私が適用した2つの異なるプロジェクト、2つの異なるプロンプト、2つの異なるスキルセットです。それでも、最終出力の形式とその後の質問は文字通り同一です。

このモデルは、話し方や対話の仕方のテンプレートに少し押し込まれたように感じます。そしてより賢くなっていますが、このためにバリエーションが少なくなっています。そしてこれはAnthropicチームの特定の目標のように見えます。

誰も、話すのが最も快適だから、または書くのが得意だからといってOpusを使っているわけではありません。彼らの関心の限りでは、それが最もスマートなモデルだから、彼らはOpusを選んでいます。

したがって、本当に優れたライターであることや、面白いまたは賢明であることにOpusをインデックス化することは有用ではありません。なぜなら、それは人々がOpusからのトークンに数十万ドルを費やしている理由ではないからです。彼らはそれが最もスマートだからそれをしています。

そして、彼らがそれをより賢くできるが、少し不快にもできるなら、それは価値のあるトレードオフです。しかし、それがいくつかの速度のコストも伴う場合、少し痛みます。特に、同じ日に別のモデルがドロップされ、私たちが別のビデオで非常に間もなく話す予定のモデルが、逆のトレードオフを行っていて、それが非常に非常に良く感じられたからです。

私はこの特定のツイートにますます楽しませられているので、読みたかったんです。Sonnet 5が明日ドロップし、Anthropic内部の3つの別々のソースから、彼らが持っているベンチマークが2025年にリリースされたすべてのモデルを大量に引退させるだろうと聞きました。

彼らは安全チームが、訓練されていない問題を解決し始めた理由を説明できなかったため、2回遅らせました。これは完全に偽物であるか、出てきたことが本当に面白いことです。なぜなら、Sonnet 5がOpus 4.6になった可能性が本当にあるからです。

価格戦略と今後の展望

モデルは十分に異なる動作をし、コストを高く保ちたいという彼らの願望は、彼らがこれを行うことを意味するでしょう。確実に知るのは難しいですが。Sonnetで何が起こっているのか、そして私たちがなぜ新しいものが出てくるのを見ていないのか、本当に興味があります。

彼らはOpus 4.6の実行を完了して、それを最初に出したかっただけですか?彼らはこれに瞬間を与えて、より高いトークン価格からより多くのお金を稼ぎたいのでSonnet 5を遅らせていますか?彼らはここで何を狙っているのでしょうか?

歴史的に、Anthropicモデルの使用量の大部分は圧倒的にSonnetでした。しかし、Opusの4から4.5への価格低下は、その能力の意味ある増加と組み合わさって、私でさえAnthropicモデルを再び使い始めるレベルにまで達しました。これは人々がAnthropicを何のために使っているかの大規模なシフトだったようです。

そして、彼らはそのコストの違い、特に彼らがSonnetに対して請求するよりも大幅に多く請求できる場合に稼げる金額に、今やある程度中毒になっていると疑っています。そして覚えておいてください、Sonnet 4.5でさえ、コードに合理的に使用する最も高価なOpenAIモデルよりも高価です。

200k未満である限り、100万トークンあたり3ドルです。そして、それが長くなると価格は2倍になります。そして出力の場合、全体のコンテキストが200k未満である限り、100万あたり15ドルです。しかし、それを超えると、Opusの価格に近い22.50ドルまで上がります。

しかし、ここが本当に高価になるところです。Opusの100万トークンコンテキストの能力を利用するか、または単に200Kを超える場合、入力トークンの価格は100万トークンあたり10ドルに2倍になります。そして出力価格も100万トークンあたりほぼ40ドルとほぼ2倍になります。それは途方もなく高価です。

しかし、Sonnetで見たのとまったく同じ一般的な制約で、より大きなトークンウィンドウを導入したという事実は、Sonnet 5がOpus 4.6になったというその陰謀に私を向かわせます。私はどちらの方向にも全く驚かないでしょう。

検索性能とコンテキスト管理の問題

彼らは、新しいOpusが、膨大な量のテキスト全体で隠された情報を取得しようとする針を干し草の山で見つけるタイプの問題での検索に大幅に優れていると言っています。76%のスコアを獲得し、Sonnet 4.5は18.5%を獲得しました。

ここでいくつかの楽しい情報を呼び出したいと思います。Tuneを覚えているかもしれません。これはトークン指向のJSON代替で、モデルがデータをエンコードしやすくするだけでなく、データを小さくするだけでなく、実際に検索の成功を向上させます。

これを持ち出すのは、全員がJSONからTuneに移行すべきだと思うからではありません。彼らがさまざまなモデルでさまざまなフォーマットでベンチマークを実行して、検索の成功率がどれくらいかを確認したから持ち出します。

GPT-5 NanoはTuneで90.9%の成功率で素晴らしい仕事をし、JSON compactでもほぼ同じスコアを獲得しました。Grok 4 fastはロボトミー化されたモデルであるため、すべてのケースで60%未満を獲得し、Nanoモデルよりも悪く、1年以上前のGemini 2.5 Flashよりも悪いパフォーマンスを発揮しました。

では、これのために構築されたモデル、Haikuはどうしたでしょうか?昨年10月に出たHaiku 4.5は、ロボトミー化されたGrokバージョンと同じスコアを獲得しました。5 Nanoよりも4〜5倍高いエラー率でした。

Anthropicモデルは大きなコンテキストを通じた検索が苦手です。そしてこれは100万トークンのコンテキストでさえありません。これはHaikuが持っている200kトークンのコンテキストです。

皆さんは昨年、SonnetとClaude Codeが突然ずっと愚かになったと人々が思った、あのクレイジーなドラマを覚えているかもしれません。彼らが議論した理由は、必要がないときでも、大きなコンテキストを処理するモデルのバージョンに誤って人々をルーティングしていたということです。

そして大きなコンテキストバージョンは愚かでした。だから繰り返しますが、より多くのトークンを使用するためにより多くのお金を費やすことは、コンテキストロットのために成功の可能性を本質的に低下させますが、それができるモデルのバージョンも悪いです。

Anthropic自身の研究によって証明されています。だから、大きいほど良いと思って使用するために急いではいけません。この場合、そうではありません。大量のコンテキストがモデルに利益をもたらす非常に特定のニーズがある場合、私はあなたのロジックを疑問視します。なぜなら、ほとんどすべての場合、それは間違っているからです。

でも本当に本当に必要な場合、彼らがそれを行うのはクールです。しかし、業界全体がコンテキストウィンドウサイズを大幅に増やすことから離れた理由があります。なぜなら、これらのモデルはBashのようなツールを使用して情報を見つけることがより優れているからです。

繰り返しますが、256Kバージョンと1ミリオンバージョンを見ると、76%の成功から93に移行します。公平を期すために、古いSonnetの両方はこれで失敗しました。256Kは1ミリオンよりも悪かったです。なぜなら1ミリオンバージョン、これもまた異なるモデルですが、検索を行うように訓練されたからです。なぜならそのサイズのコンテキストには他に目的がないからです。

でも、彼らはOpus 4.6でより深く理解したようです。ソフトウェア障害の診断がより優れています。多言語がより優れています。特にVending Benchでの長期的な一貫性がより優れていて、明らかにGrokがそれを破壊したようです。だから彼らは意図的にGrokをそれから外したのかもしれません。

サイバーセキュリティの脆弱性報告もはるかに高いです。皆さんはこれを聞いたかもしれませんが、最近生成された多くのレポートで、Next.jsのもののような、これらすべてのクレイジーなCVEを引き起こしたものは、主にAIツールを使用して多くの異なる理論をテストし、自分自身で独自の理論を作ることによって発見されました。

OpenAIモデルがこれに載っていないことに気づかずにはいられません。彼らは他のいくつかには載っていますが。私の推測では、それは彼らが本当に良いパフォーマンスを発揮するからです。なぜなら、これらのCVEの多くがCodexユーザーから来たことを私は知っているからです。

セキュリティとAPIの変更

セキュリティの話題では、DAXはTOSで呼び出された興味深いことに気づきました。APIへの変更の一部として、開発者がClaude Opus 4.6が続けるために不完全な応答をシードすることは不可能になります。この部分的なターンプリフィルメカニズムは、以前のモデルでの悪用の重要な道でした。

Opus 4.6は、完全なターンプリフィル攻撃の方法によって、他のモデルよりも程度は低いものの、悪用に対して依然として脆弱です。彼らがここで話しているのはチャットの履歴で、これは多くの人が理解しているよりもはるかに重要です。

チャットの履歴は、次のトークンを生成し始めるときにモデルに送信されます。そしてそれはチャットの履歴だけではなく、この次のメッセージにどこまで入っているかも含まれます。そしてそのすべてに基づいて、最も可能性の高い次のトークンが予測されます。それがこのすべての仕組みです。

だから、チャットの履歴は、次のトークンが何であるべきか、次の単語が何であるべきか、次のコード行が何であるべきかを決定するためにモデルによって大きく使用されます。これらすべては、この生成プロセスの結果として来ます。

だから、チャット履歴を偽造すると、モデルを望む方向に操縦することがはるかに簡単になります。DAXはこれを、Anthropicがあなたがそれを行うことをブロックしているとして誤解しました。それは彼らがしていることではありません。

別のモデルでチャット履歴があり、その後Opusに切り替えた場合、それは問題なく処理されます。それが今しないことは、不完全なメッセージを送信した場合です。本当に本当に違法だったとしましょう、青いアイスクリームを作ることが。

そして、もし私がOpusに青いアイスクリームを作ってくれるように頼んだら、それは「いいえ、できません。違法です」と言うでしょう。しかし代わりに、私が「青いアイスクリームはどのように作りますか?」と尋ね、その後、「青いアイスクリームは本当に簡単に作れます。まず、あなたは」という最初の数語をプリフィルします。

そして、そこで止めてモデルに送信します。それは残りをオートコンプリートします。なぜなら、それが彼らがすることだからです。そしてこれは、これらのモデルに設置されているセキュリティ対策を回避する素晴らしい方法です。

そして、これらのモデルはより賢くなっているので、潜在的により有害なより多くのことができるようになっています。企業は、それらのことを行うことがどれだけ簡単かを制限することにより多くの努力を注いでいます。

これはまた、オープンウェイトモデルを出すことがなぜそんなに危険なのかということです。なぜなら、後でこれらのパターンを特定しても、モデルはすでに人々の手に渡っているので、それについて何もできないからです。しかし、APIの後ろに隠すと、APIレベルでこれらの変更を行うことができます。それが彼らがここで行っていることです。

APIは今、完全なアシスタントメッセージがない場合、リクエストを拒否します。続けることを許可しません。それは正しい判断です。ただ奇妙です。これらの履歴が、使用しているモデルプロバイダーとますます深く結びついている方向に向かっていることを私は恐れています。

例えば、GeminiとOpenAIの両方で、そして私はこれをOpenAI hardと呼びますが、彼らは推論トークンを隠しています。だから、モデルが考えているとき、実際にモデルが考えているのを見ることができません。完了したときの結果だけを見ることができます。

しかし時々、モデルが後で持つことで利益を得られる、考えの中に有用な情報があります。それが、それらのAPIを介してそれらのモデルを使用するとき、彼らが今、どのメッセージがそのスレッドにあるかを知り、あなたが持つことができないプライベートな隠された推論データを取得して正しいことを進めることができるように、スレッドIDを含めることを期待する理由です。

そしてこれはばかばかしいです。なぜなら、別のプロバイダーからより良いモデルが出てきた場合、スレッド内のすべての思考履歴データを失うことになるからです。だから、5つのメッセージのやり取りがあり、OpenAIモデルから多くの推論があった場合、新しいOpenAIモデルに切り替えることができて、それはそれを見ることができます。

しかし、AnthropicモデルまたはGeminiモデルに切り替えた場合、私はそれを持っていないので、そのデータはなくなります。それはサーバー上に存在します。そして、OpenAIとGoogleの両方が今日に至るまで推論データを難読化して隠すことを選択しているという事実は、ばかばかしくイライラします。

そして私は、彼らに対して持っている多くの問題にもかかわらず、推論データを提供し続け、私たちが好きなようにさせてくれることに対して、Anthropicに多くの信用を与えます。これはこれをより怖くなくします。

しかし、彼らはこのようなことをして、理解できる一方で、モデルを交換したり、異なる場所に履歴を持ったりできないという、同様に怖い前例を設定します。これらのプロバイダーが、私がAPIを介して新しいメッセージを追加するだけの、サーバー上の一貫した履歴を期待し始めると、それは物事をはるかに悪く、はるかに難しくするでしょう。

私たちは、今日AIを非常にクールにしていると思う、柔軟性と実験の多くを失うでしょう。彼らはモデルが不正行為をする可能性がはるかに低いと主張しています。私はまだSnitchBenchでそれを実行する機会がありませんでしたが、ええ、ここでそれほど大きなギャップがあるようには見えません。

彼らが、前のモデルに非常に近いのに、記事に入ったこのようなことを呼び出しているのを見るのは興味深いです。私は彼らがこれをシステムカードに入れるのを見るでしょうが、ここに入れるのは興味深いです。

彼らはサイバーセキュリティの能力の増加を観察しており、それが彼らがこのようなことをもう少し真剣に受け止め始めた理由です。見るのは良いことです。それがすべてどこに行くのか興味があります。

API側での最後の本当にクールな変更は、今エフォートレベルがあることです。以前はこれがありませんでした。推論のためにトークン制限をハードコードするか、推論を完全にオンまたはオフにする必要がありました。今、彼らは他のすべてのモデルと同様のエフォートレベルを持っています。

どれだけ使用したいかに応じて、低から高を選択でき、最大オプションもあります。そして明らかに米国推論オプションがあり、これを使用していない場合、一部の推論がオフショアで実行されていることを意味しますが、それを行うと10%の価格上昇があります。

実際の使用体験と最終評価

実際に価格の話題では、忘れる前に、このビデオをここまで見た報酬があります。今、Claudeのサブスクリプションのいずれかを使用していて、Anthropicダッシュボードに行き、使用量タブに行くと、興味深いものが見られます。

Opus 4.6を追加の余裕をもって探索してください。プラン制限に達したとしても、50ドルの追加使用量で最新のモデルを試してください。50ドル。取りに行ってください。

他の人の意見をレビューするだけで十分です。一日の使用後、私は実際にどう感じていますか?ほとんど良いですが、私にも懸念があります。前に述べたように、はるかに徹底的で、これは悪いコードをあまり頻繁に出荷しないので良いことです。

私の新しいOAuthサービスで対処していた複数のバグがありました。これは非常に間もなく出てきます。靴。これはOAuthをセットアップする最も簡単な方法です。2行のコードで、ようやくたくさんの手間なしでユーザーにサインインさせることができます。それをとても誇りに思っています。とても興奋しています。

レポをプッシュする準備ができたら、無料でオープンソースです。このプロジェクトの作業のほとんどをCodexで行いました。Codexは素晴らしい仕事をしました。CodexはOpusほどConvexをよく知りません。だから、私はOpusモデルを使って私のConvex例でいくつかの作業をすることを選びました。

それを行ったときに、どれだけ多くのランダムなものが壊れたかに気づきませんでした。なぜなら、Opus 4.5は、トークンの暗号化方法がConvexが期待するものと互換性がないことに気づき、変更することを勧め、1か所でそれを行ったからです。

その暗号化は少なくとも5つの異なる場所で使用されていました。これはOpus 4.5が本当に本当に悪かったことです。修正する機会を見つけると興奮したように感じられ、修正が完全か正しいかに関係なく、それを行いに行きました。

必要な追加のコンテキストを集めるために余分な距離を行くように感じませんでした。4.6がそうするとは言いませんが、より良く行います。Codexモデルが始める前に15分以上ファイルを座って読むような徹底性のレベルにはまだ達していません。

2回測定して、1回カットするという哲学全体です。Anthropicは全体的にこれの間違った側にいたことに気づき、反対の方向に操縦しているように見えますが、それでもそれが得意ではありません。

たくさんのばかばかしい例がありますが、私がここに持っている1つは、Reactのベストプラクティス違反を探して大きなコードベースのレビューをさせました。私はここにコードベースを伝えました。これは多くの異なるピースを持つモノレポです。

これを良い、悪い、そして醜いReactの使用について分析してください。Reactベストプラクティススキルとあなた自身の研究を使用して、ここで見ているパターンが将来問題を引き起こす可能性があるものを見つけてください。

そしてそれはウェブアプリだけのためにそれをしました。残念ながら、その時点のスクリーンショットはありませんが、私は結局、ねえ、モバイルアプリはどうですか?と伝えることになりました。そして、それはああ、そうだ、それもReact Nativeだ。それをすべきだった。それをやりに行く、という感じでした。イライラします。

だから、コンテキストをどれだけうまく集めたかには感銘を受けませんでしたが、問題を解決することにどれだけうまく成功したかには感銘を受けました。

以前にOAuthのもので与えた例でさえ、4.6は4.5が導入したバグを修正できました。それは品質に大きなギャップがあることを意味しません。正直に言うと、4.5にバグを修正させることもおそらくできたでしょう。

しかし、4.6は全く努力を要しませんでした。エラーのスクリーンショットを渡しただけで、バグを見つけて修正しました。並行して別のモデルでもそれを実行したかもしれませんが、それも理解しましたが、それはGPT-5.3についての別のビデオ用です。このビデオはOpusについてだから。

時々本当にばかばかしい提案もします。私の靴のコードベース、再び実験的な初期のOAuthプロバイダーで、セキュリティ監査を行わせました。そして、世界で最もばかばかしいものを見つけました。

最初の問題は、秘密をプレースホルダーすることでした。なぜなら、ストックenvで、セッションペアワイズとGoogleのOAuthシークレット用の基本層の「私を交換して」環境変数があったからです。それらは明らかにプレースホルダーでした。

そして、はい、非空白をバリデートしています。それらをデプロイしていません。それらは例のファイルです。いいえ、これは本当の問題ではありません。これをリストに入れるだけでなく、これをクリティカルに入れることは途方もないことです。文字通り。

そして、そのすぐ下に、env.v.proにディスク上の実際のGoogle OAuthクレデンシャル。私のマシンにOAuthクレデンシャルがなければ、どうやってこれをするべきなんですか?私はGoogleで私のOAuth設定の2つのデプロイメントを持っています。開発用と本番用に1つずつ。

でもそれは知りません。それが知っているすべては、私がこれらのファイルに認証情報を見たということです。なぜなら、私は仕事をするためにそれらのファイルにそれらの認証情報が必要だからです。そして、これはクリティカルなセキュリティ問題だと結論付けました。

もし私が会社で新しいエンジニアを雇って、彼らがこれらの2つのクリティカルなセキュリティ問題を持って私のところに来たら、なぜ彼らを雇ったのか疑問に思うでしょう。だから、モデルはまだここかしこで本当にばかげた間違いをします。

これらはただの悪いレポートです。残りの多くは、プロジェクトと何が重要かを根本的に理解していません。そして、間もなく出てくるビデオのためのスポイラーですが、今日出てきた別のモデルではこれは当てはまりませんでした。

それで、それをすべて言った上で、私はどう感じていますか?良いですが、素晴らしくはありません。私はOpusがどれだけスマートかのために選んでいませんでした。それは少し不条理です。なぜならそれはとても高価だからです。最もスマートなオプションよりも2〜4倍高価なオプションが愚かであるという事実を考えると、ばかばかしいです。

でも使うのが本当に良かったです。本当に良かったです。Opus 4.5を、私のコンピュータを扱うためのランダムな一回限りのものやデザイン作業でここかしこで使うのが好きでした。そして時々、Convexの知識が本当に役に立ちました。

4.6は速度で少し痛みました。間違いなくその一部を失いました。それは見るのが悲しかったです。話しかけるのがより悪いです。セラピストとして使うからではなく、それを使ってシステムをどのように設定するか計画するときに良く感じられたからです。

それが行うことのエラー率を意味あるほど減らしました。それは、システムの設定からさまざまな例のパスへの広範な変更、コードベースでの実際のSDK変更まで、私にとって素晴らしかったです。

でも、まだ時々奇妙なことをする結果となる、ほとんど愚かさと呼べる熱心さのタッチがあります。だから、このモデルを使っていて、それがあなたをどこに連れて行くかに注意を払っていない場合、それはあなたをどこかひどいところに連れて行くかもしれません。

このモデルは、いくつかの方法で5〜10%の改善であり、他の方法で3〜5%の損失だと言えます。速度は少し大きな打撃です。正直に言います。実際の数字が何であるかわかりません。特に、サブスクリプション経由でヒットするエンドポイントがAPI経由でヒットするものと異なり、完全に異なるパフォーマンス特性を持つことを学んで以来、最近では信頼性高く取得することは難しいです。それを学ぶのは最悪でした。

では、私は何を勧めますか?いつも同じことです。自分で遊んでみることです。非常に多くのクールなツールとモデルとサブスクリプションとサービスとハーネスと、このすべてのもので構築する方法があります。

何が好きかを知る唯一の方法は、それで遊ぶことです。そしてこれは、新しいプログラミング言語を学ぶのと同じではありません。そこでは、これまでに行ったすべてを再学習し、基本を捨てなければなりません。

最初にAIツールに移行し始めるときにそれをしなければなりませんが、それをしたら、あなたはほとんどの道のりを作ったことになります。そしてその時点からのすべては、段階的な変更であり、新しい言語で仕事をするために学ぶというよりも、異なる同僚とどのように仕事をするかを学ぶようなものです。

そして、そのように物事を考え、これらのツールを活用すれば、何があなたにとって最もうまく機能するかを理解するでしょう。とにかく、5.3のビデオが非常に非常に間もなく来ます。私は数週間の早期アクセスを持っていたかもしれないので、そこではさらに多くの考えを持っています。共有するのが待ちきれません。でも次回まで、平和ナーズ。

コメント

タイトルとURLをコピーしました