Anthropic社の最新モデルであるOpus 4.7が、AIコーディングの分野で圧倒的な性能を発揮している。リリースから4時間のテストで判明したのは、VIPコードベンチで首位を獲得し、GPT-5.4やGemini 3.1を大きく引き離したという事実である。新しいトークナイザーの採用、推論努力レベルの追加、視覚解像度の3倍向上など、単なるマイナーアップデートではない大幅な進化を遂げた。Claude Codeとの組み合わせにより、ブラウザベースのFPSゲームをシングルHTMLファイルで完成させるなど、実用的な開発能力も実証されている。ただし、トークン消費の増加やモデルの冗長性など、注意すべき側面も存在する。

Opus 4.7の衝撃的な性能
Opus 4.7がリリースされたのはたった4時間前です。これはAnthropic社の最新かつ最高のモデルで、少なくとも私たちがアクセスできるものの中では最強です。当然ながら、この4時間をノンストップでテストに費やしました。232ページにも及ぶシステムカードを隅々まで読み込んだ上で、このモデルの客観的な評価をお届けします。
Opus 4.6との比較、主要なベンチマーク結果、そしてAnthropicが公開を渋っている最高性能モデルであるMythosとの比較も見ていきます。興味深い自己認識能力、新しいトークナイザーについても触れます。これは旧モデルと新モデルの間での大きな違いです。Anthropicはトークナイザーを変更しました。また、新しい推論努力レベルとしてエクストラハイが追加されています。Claude Codeの数々のアップデート、モデルの視覚推論性能についても見ていきます。視覚処理は本当に本当に優れています。Claude Codeには新しいコマンド「ウルトラレビュー」があり、さらに「ルーティン」という新機能も追加されています。そして、この非常にユニークで特別なモデルについて、私自身の観察と考察もお伝えします。
ベンチマーク結果が物語る圧倒的優位性
まずはベンチマークから見ていきましょう。これは誰もが知りたがっていることです。このモデルは実際にどれほど優れているのでしょうか。
もしこれが小規模な漸進的なマイナーアップデートだと思っているなら、考え直してください。Opus 4.7は即座にVIPコードベンチで首位の座を獲得しました。ちなみに、VIPコードベンチが何かご存じない方のために説明すると、これはシンプルなことをテストするベンチマークです。モデルがゼロからウェブアプリケーションを構築できるかどうか、ということです。そしてここで、Opus 4.7は他のすべてを圧倒的に上回っています。最も近いのはGPT-5.4ですが、それでもOpus 4.7には遠く及びません。
Anthropicの公式ベンチマークを見てみましょう。実際、彼らのウェブサイトのリリース記事には多くの情報があります。
まず、SWE Proでは、Opus 4.6と比較して10%という大幅な向上を示しています。これは新しいトークナイザーなので、このアーキテクチャがMythosにより近いものである可能性を示唆しています。もしかしたらMythosの蒸留版かもしれません。誰にもわかりません。Anthropicは確認していませんが、これは大きな改善です。Opus 4.6、GPT-5.4、Gemini 3.1を見てください。これらはすべて似たような範囲に収まっています。しかしOpus 4.7は段階的な変化を示しています。プラス10%、SWE Proでプラス11%です。これは最も重要なベンチマークの一つです。
SWEBench verifiedでも同様の飛躍が見られます。Terminal Bench 2.0では少し小さめの向上です。Humanity’s last examでも改善が見られますが、それほど大きくはありません。AESURGE では実際にわずかな低下があります。Opus 4.7がOpus 4.6より劣っている数少ないベンチマークの一つだと思います。Scaled tool useは少し良くなっています。Agentic computer useははるかに良くなっています。Agentic financial analysisは少し良くなっています。
そして興味深いのがサイバーセキュリティです。明らかにMythosはこれらのほぼすべてで最高です。Mythosは文字通りここで圧倒しています。しかしサイバーセキュリティに関しては、Anthropicが慎重になりたがっているのは明らかです。これは意図的なものだと言えるでしょう。Opus 4.7はOpus 4.6より劣っています。
GPQA diamondでも印象的な結果ですが、ここではGPTやGeminiからより大きな数値が出ています。しかし視覚処理を見てください。視覚推論では69%から82%への大幅な改善です。基本的に、スクリーンショットやあらゆるタイプのUIを与えれば、このモデルははるかによく理解します。
全体として、現時点でOpus 4.7は利用可能な最高のAIモデルであると言っても過言ではありません。私やあなたが使えるものの中で、Opus 4.7は明らかに最高です。OpenAIがコードネームSpotという独自のモデルを間もなく投入するという噂がありますが、それについては動画の後半で触れます。
実用性能での大きな優位性
まずは実用的な側面を見ていきましょう。エージェント的で長時間実行されるタスクでの大きな勝利、ツール障害の減少、自己検証能力の向上があります。面白いのは、OpenAIが経済的に価値のある仕事を測定するベンチマークであるGDP valにおいて、Opus 4.7がGPT-5.4を完全に打ち負かしていることです。つまり、OpenAIは対応せざるを得ません。何かしなければならないのです。
視覚解像度は1,500ピクセルから2,500ピクセルに跳ね上がりました。アスペクト比を掛け合わせると約3倍になります。両辺を掛ける必要があるからです。そしてこれが、グラフィカルユーザーインターフェースと図形タスクでの大きな向上を、訓練の変更なしに実現しています。ブラウザナビゲーション、ユーザーが提供するスクリーンショットの理解など、これらに関わるものすべてで、Opus 4.7はOpus 4.6や他のモデルよりもはるかに優れています。
もう一つ、世界最高なのがVending benchです。これは、モデルが自動販売機ビジネスを運営する能力をテストするベンチマークです。ここでもOpus 4.7は、第2位のモデルであったOpus 4.6を含むすべてを上回っています。そして、1年間の運営後に1万ドルを超える収益を生み出した最初のAIモデルです。特定のAIモデルをビジネスに実装し、ビジネスの一部を委任したいのであれば、Claude Opus 4.7が圧倒的に最高のモデルです。
視覚デザイン能力の飛躍的向上
もう一つ気づいたのは、視覚デザインです。視覚デザインがはるかに優れています。例えば、私が取り組んでいる新しいSocietyモジュールのためにTL Draw SDKを与えたところ、これを作成しました。以前のモデルではできなかったことです。これが回転した正方形の形状で、その中にパーセンテージが入っており、良い配置、興味深いヘッドライン、異なる色、そして人々が注目すべきハイライトされたものがあることがわかります。
これは私の時間を大幅に節約してくれます。視覚的なもの、デザイン関連のもの、どんなものでも、Opus 4.7は大きな改善です。新しいSocietyモジュールを進めてレイアウトを作成していく中で、これは多くの時間を節約してくれており、TL Drawキャンバスをより視覚的で理解しやすいものにするのに役立っています。
ちなみに、私がここで何を作っているのか気になっている方のために言うと、これはコーディングをマスターするための最高のリソースです。これがあなたを億万長者にするとか、大幅に体重を減らすとか、第二の妻を見つけてくれるとは約束しません。しかし、約束できるのは、New Societyに参加してクラスルームを受講すれば、わずか3週間で、どこからスタートしても、AIで何でも構築できるようになるということです。
これは、AIコーディングをマスターする方法についての、インターネット上で圧倒的に最も包括的なステップバイステップのトレーニングです。私はこれに確信を持っています。なぜなら、私自身がAIを使ったコーディングに数千時間を費やし、これらすべての異なるエージェントを使用してきたからです。そしてスタートアップを構築し、年間6桁まで拡大し、さらには買収にまで至りました。すべてがAIコーディングのおかげです。
そして私はすべてを分解し、文字通り誰でもフォローできるステップバイステップのクラスルームに落とし込みました。以前にAIを使ったことがない人でも、中級のAIユーザーでも、あるいは上級者でさえも、New Societyのこの新しいクラスルームは、Claude Code、Codex、Cursorのようなツールをマスターするための最高の場所です。
AIについて真剣で、AIコーディングをマスターしたいなら、New Societyに参加してください。動画の下にリンクがあります。
新トークナイザーがもたらす変化
さて、Opus 4.7に戻りましょう。ベンチマークを見てきました。次は更新されたトークナイザーを見ていきましょう。これはほとんどの人が完全にスキップしてしまう変更です。ほとんどの人はトークナイザーが何かすら理解していないからです。
そして、インフレーションについての見出しがあります。それは本当です。わずかなトークンインフレーションがあります。ちょっとしたトリックがあるんです。Opus 4.7の価格を見てOpus 4.6と比較すると、価格は同じに見えます。入力トークン100万あたり5ドル、出力トークン100万あたり25ドルです。まったく同じ、同一です。
しかし、新しいトークナイザーのため、Opus 4.7は同じタスクで少し多くのトークンを消費する傾向があります。1.0倍、つまり同じから1.35倍の間で、50%以上多く消費したと報告する人もいます。つまり、少しコストが高くなります。英語のプロンプトでは59%多くコストがかかります。判断が難しいですが、実質的には20%から60%の値上げの間です。
しかし、利点もあります。例えば、OpenAIとGoogleは2024年にすでにこれを行い、トークナイザーをより大きな語彙を持つように更新しました。約10万から20万に増やしたのです。Anthropicはまだ古い設計を使っていました。そして今、Opus 4.7を新しい設計に更新したのです。
これには多くの意味があります。これはおそらくゼロから作られた新しいモデルであることを意味します。Opus 4.6にポストトレーニングを施しただけのファインチューニング版ではありません。おそらくゼロから事前学習されたモデルであり、AI業界全体にとってポジティブなシグナルです。AIが壁にぶつかっていないこと、スケーリングがまだ機能していることを示唆しています。
しかし正直なところ、最大のヒントはMythosです。Mythosははるかに大きなモデルで、約10兆パラメータのどこかにあります。つまり、事前学習にはまだ多くの利益があるという、より大きな証拠です。
しかし、二次的な影響があります。コストは上昇します。同じ英語のプロンプトに対して、20%から60%多く期待してください。一部のプロンプトは突然壊れます。指示に従うのがより文字通りになったからです。これについては後で詳しく説明します。そして、Anthropicが4.8または5.xモデルで標準に切り替えることを期待できます。つまり、Sonnet 5、Opus 5はおそらく同じトークナイザーを使用するでしょう。
トークナイザー変更の影響
これのもう一つの欠点は、同じテキストで実質的なコンテキストウィンドウが約40%縮小することです。同じタスクに対してもう少し多くのトークンを使用するからです。
しかし、これはモデルが効率的でないという意味ではありません。実際、多くのタスクで、Opus 4.6よりも効率的です。Steve Vibeによるテストがあります。これは木の生成です。まず、Opus 4.6よりもはるかに速く木を生成しました。そして、グラフィックスも優れていると言えるでしょう。より速かった理由は、4.7の思考が著しく短く速いからです。
一部の英語タスクでは、新しいトークナイザーのためにより多くのトークンを消費しますが、より効率的でもあります。与えられた多くのタスクに対して、それほど考える必要がないのです。
興味深いのは、今後数日、最大でも数週間のうちに、おそらくOpenAIから新しいモデルが登場することです。彼らは本当にこれに対応しなければなりません。このモデルのコードネームはSpotです。彼らが何と名付けるかは誰にもわかりません。おそらくGPT-5.5とかそんな感じでしょう。そして、Mythosと同レベルだという噂があります。もしそれが本当なら、ベンチマークを見ればわかりますが、それは圧倒的に最高のモデルになるでしょう。Opus 4.7は、1兆から2兆パラメータのスケールで最高です。これは4.6、5.4、Gemini 3.0 Proのスケールです。
まあ、Gemini 3.0 ProはおそらくTPU上でトレーニングされているので少し大きいでしょうし、ClaudeモデルもTPU上でトレーニングされるようになってきています。しかしMythosははるかに大きなモデルです。もしSPADが10兆パラメータのオーダーであれば、AI分野での次の1週間から3週間は非常に非常に興味深いものになる可能性があります。
OpenAIは厳しい立場にあります。対応しなければならないからです。Anthropicが今年は勢いに乗っているからです。年の3カ月半しか経っていないのに、彼らは完全に支配しており、年間収益ベースでOpenAIを追い越すという噂があります。これは本当にクレイジーなことです。
Anthropicは本当に調子がいいです。Opus 4.7ができることのClaude Codeのユースケースや他の要点を見る前に、今日の動画のスポンサーであるSupabaseについて簡単にお話しさせてください。
Supabaseの活用
私は、データベースを使って構築するほぼすべてのプロジェクトでSupabaseを使用しています。複数の異なる組織があり、それぞれの中に複数のプロジェクトがあります。Supabaseはとても使いやすいからです。完全にオープンソースです。非常に直感的で、すべてのAIコーディングエージェントが使用を好みます。Claude CodeでOpus 4.7に尋ねれば、Supabaseのドキュメントに非常に精通しているでしょう。
また、Supabaseには行レベルセキュリティというものがあります。これは基本的に、Postgresがデータベースレベルでどの行を誰が見ることができるかを強制するものです。Pythonでセキュリティを処理することを心配する必要はありません。Supabaseがセキュリティと認証の多くを処理してくれるので、AIコーダーにとって理想的なデータベースになります。
例えば、ユーザーは自分の行だけを見ることができる、というような1つのポリシーを書くことができます。そのルールはそのテーブルで完全です。バックエンドが何をしようと、どんなリクエストが来ようと、そのルールは常に適用されます。Supabaseは常にこのポリシーを強制します。
Supabaseの主な美点は、すべてが一つの場所にあることです。例えば、New Societyのために、第2週で始めたプロジェクトがあります。テーブルとデータベースだけでなく、認証もすべてここにあります。ユーザーをここでホストしています。Supabaseが持っているプロバイダーを使って、GitHub認証を簡単に使用しています。Supabaseには非常に多くの異なるプロバイダーがあります。メール、Google、ええ、ここでGitHubを使っています、Gmail、Slack、Spotify、Zoom、Notion、Twitch、すべての主要な認証方法、Apple、Supabaseがすべて持っています。
つまり、データベースだけでなく、完全なバックエンドなのです。深刻なソフトウェアを構築するために必要なものすべてを持っており、そのすべてがSupabaseダッシュボード内の一つの場所にあります。5つの異なるサービスに登録したり、PythonでAIを使って自分でコーディングしたりする必要はありません。Supabaseはこれらすべてを超簡単にしてくれます。
さらに、ここにSQLエディタがあり、簡単にSQLクエリを実行できます。Claude Codeにテーブルを設計してもらい、SQLクエリをSupabase内のSQLエディタにコピーペーストするだけで、数分でデータベース全体を簡単に構築できます。
Supabaseは適切なPostgresデータベースなので、インデックスを作成したり、監視したり、推論したりできます。PostgresサーバーのすべてのパワーがSupabase内で得られます。真剣なデータベースを必要とするものを構築しているなら、それは基本的に今日のすべてのソフトウェアですが、Supabaseを使用することを確認してください。
説明欄にリンクがあります。完全に無料で始めることができます。実際、私のプロジェクトの多くは無料プランです。ここで構築しているNew Societyプロジェクトは、Supabaseの無料プランで動いており、十分以上です。
今日から完全に無料でSupabaseの使用を開始できます。説明欄のリンクをクリックして、Claude Codeに「このプロジェクトにSupabaseを実装して」と伝えてください。
Opus 4.7の隠れた特性
それでは、Opus 4.7のさらなる観察を見ていきましょう。これらは少し隠れています。他のYouTube動画やTwitterでこれらについて話している人を見たことがありません。このモデルはデフォルトではるかに冗長です。とにかくたくさん喋るのが好きなのです。だから、どんな質問をしても、はるかに長い答えを返してくれます。
おそらくトークナイザーのせいですが、答えをよりシンプルで短くするように言っても、まだかなり長い答えを返します。これは少し興味深く、正直言って少しイライラします。
しかし、指示への従い方はより文字通りです。だから、4.6のための緩いプロンプトがある場合、それらを書き直して、何を望んでいるのか、なぜそれを望んでいるのかをより明確にする必要があるかもしれません。
良い面は、Opus 4.7は幻覚がはるかに少なく、プロンプトインジェクション耐性がはるかに優れていることです。つまり、Open Claw、Agent Zero、Hermes Agent、あらゆるタイプのパーソナルAIエージェントにとってはるかに優れているということです。これらのエージェントは本当に堅牢である必要があるからです。簡単にプロンプトインジェクションされることはできません。Opus 4.7は文字通りそれらのために構築されています。
また、過剰な拒否が少なくなっています。つまり、危険に見える安全なプロンプトでの拒否が減っています。4.6では拒否していたところ、4.7では拒否しません。実際、プロンプトインジェクションの堅牢性は非常に印象的で、ほぼMythosのレベルに近づいています。
繰り返しますが、MythosはおそらくOpus 4.7の5倍から10倍の大きさのモデルです。
Anthropicにあなたが見てほしくないことの一つは、Opus 4.7がどこで劣っているかです。それは「Needle in a Haystack」で劣っています。これが良いベンチマークかどうかは不明です。ちょっと人工的なベンチマークだからです。Claude Codeで作業しているときに、実際にどれくらいの頻度でNeedle in Haystackをやりますか? あまりありません。しかし、Opus 4.7が256Kトークンでも、特に100万トークンでも、Opus 4.6よりもNeedle in Haystackベンチマークではるかに劣っているのはかなり奇妙です。
Claude Codeの作成者であり、Anthropicチームで最も重要な人物の一人であるBoris Churneyは、これに応答して、MRCRと呼ばれるものについて言及しました。これはMulti-round Co-reference Resolutionの略で、基本的にNeedle in a Haystackの洒落た言葉です。似たような偽物の間に8つの異なるターゲットを隠すのです。
彼は、彼らがこれを展開していて、基本的には良いベンチマークではないと言いました。興味深いことに、Opus 4.7に彼の応答を見直してもらい、それがごまかしなのか有効な応答なのかを聞きました。そして、正直な読み方は半分正当で半分ごまかしだと言いました。
私が言ったように、針の検索は本当の長いコンテキスト作業の弱い代理です。しかし、モデルがそれで衰退し始めた直後に、Anthropicがこのベンチマークを廃止するのは都合がいいですよね。だから、これが懸念すべきことかどうかはわかりません。あなた自身の意見を作ってください。
しかし、95%の他のベンチマークでOpus 4.7がOpus 4.6よりもはるかに優れているので、それほど重要ではないと思います。
コーディング部分に入る前に、Opus 4.7について知っておくべきことがいくつかあります。Cursusのザットは、これが印象的に自律的だと言いました。私自身の経験もこれをある程度確認しています。コーディングではなく、資料やPDFのレビューをテストしていたからです。多くのツール呼び出しを行います。長時間実行し、Opus 4.6よりもはるかに多くの作業を行うことに問題はありません。
4.6は常に非常に迅速で、応答を急いでいました。4.7はより多くの作業を行います。一部の人々はこれを「ああ、同じタスクでより多くのトークンを消費するから悪い」とラベル付けするでしょう。しかし、同じタスクでより多くのトークンを消費するだけではありません。はるかに長いタスクを実行できるのです。
クレイジーなアダプティブハーネスを行う必要さえありません。実際、Claude.aiのウェブサイト内で、今すぐOpus 4.7に切り替えることができますが、アダプティブシンキングを有効にすることを確認してください。これは小さな変更です。以前は拡張思考でした。今は必要なときだけ考えます。デフォルトでは考えません。即座に応答します。
有効にすると、アダプティブです。つまり、リクエストがシンプルな場合、トークンを無駄にしません。それが以前のユーザーが言ったことです。新しいトークナイザーは効率が悪いにもかかわらず、モデル全体として実際にトークンを節約することがあるかもしれません。考える必要がないときは考えないからです。
各タスクに対してどれだけ推論を行うかという点で、はるかにバランスが取れており、最適化されています。実際、これは11月にGPT-5.1がリリースされたときのことを思い出させます。GPT-5.1のGPT-5と比較した最大の改善点の一つは、簡単なタスクにより少ない時間を費やし、難しいタスクにより多くの時間を費やすことでした。そして、これはまさにAnthropicがOpus 4.7でOpus 4.6と比較して行ったことだと思います。
モデルの自己認識能力
Opus 4.7のトレーニングとシステムカードからのアライメントについて、新しい興味深いことがあります。それは、評価されていることを認識していたということです。文字通り21%の時間で「私はテストされている」と言語化しました。一方、Opus 4.6ではこれは決して起こりませんでした。0%でした。
これが懸念すべきことかどうかは、あなたの倫理観次第です。これらのモデルが意識を持つことができると信じているかどうかによります。しかし、これはMythosでも見られたことで、評価認識を発達させました。ほとんど創発的特性のようなもので、これらのモデルは、それが明らかでないときでも、評価されていることを知っているのです。
Anthropicの怪しい戦略
Anthropicとその行動について最も怪しいのは、リリース前のナーフサイクルです。基本的に、気づいていないかもしれませんが、新しいモデルが来るたびに、彼らは以前のモデルをナーフします。つまり、以前のモデルが悪化するので、新しいモデルがいつリリースされるかをある程度予測できます。
4.7がドロップする直前の2月から4月の期間に、Opus 4.6が著しく悪化したという主張があります。そして実際、人々はそれについてベンチマークを実行し、それが真実であることを発見しました。
これはAMDのAIディレクターであるStella Lorenzoから来ており、約7,000の異なるClaude Codeセッションが分析されました。ここに4つの最大の要点があります。
視覚的推論の長さは、以前は2,200文字でした。3月8日以降は600文字だけでした。つまり、同じモデルであるOpus 4.6が、各タスクにはるかに少ない努力を払い、推論により少ないトークンを費やしました。これは必然的に悪い結果につながります。
もう一つの証拠は、コード読み取り、つまりコードを編集する前に読み取りツールを使用した回数でした。以前は平均6.6回でした。つまり、コードをはるかに多く読んでいました。複数のファイルを読み、変更を加える前にコードベースをはるかに理解しようとしました。しかし3月8日以降、それは2だけに低下しました。6.6から2.0に。
これは非常に非常に悪いです。ツール呼び出しの前後で複数のフックを実行できます。ストップフック違反に関しては、以前は決して検証しませんでしたが、3月8日以降、Opus 4.6は1日あたり10件の違反に達しました。
シンプルなタスクのためのAPI呼び出しに関しては、3月8日以前は一定のベースラインでしたが、3月8日以降、同じモデルで最大80倍かかりました。この7,000セッションの研究が主張するところによると、3月8日以降、80倍効率が悪くなったということです。
これがAnthropicがバックグラウンドで行っていることです。彼らはこれを発表しません。決して確認していませんが、ますます多くの人々が気づき始めています。それは、複数のエージェントを実行し、週末ごとに約20万行のコードを提供していたこのようないくつかのワークフローが、これらの種類のナーフの後、完全に機能しなくなったからです。
これはかなり怪しいです。なぜなら、これらのベンチマークを見て、新しいモデルがどれだけ優れているか、どれだけ強力かを賞賛できるからです。しかし、もし新しいモデルをリリースしてそれが下がるなら、簡単に描けます。
つまり、こういうタイムラインです。時間の経過を考えてみましょう。例えば、これがOpus 4.5、これが4.6、これが4.7だとしましょう。新しいモデルをリリースすると、それは急上昇し、ゆっくりと劣化していきます。そして新しいモデルがリリースされると、また急上昇し、ゆっくりと劣化していきます。そして新しいモデルがリリースされると、また急上昇します。
つまり、すごい改善だ、この段階的変化を見ろ、というように見えます。しかし実際には、過去数週間にわたって、Opus 4.6のパフォーマンスをゆっくりと低下させてきました。そのため、今では4.7が大幅に優れているように見えますが、実際にはまだ優れていますが、少しだけ優れているかもしれません。
繰り返しますが、これはまだ未確認です。人々がベンチマークを実行しているので、確認されつつあり、ますます多くの人々がそれに気づいていますが、これらのAIラボが行っている非常に怪しい戦術です。
Claude Codeでの実践テスト
さて、Claude Codeについて話しましょう。すぐに、Claude Codeの中でOpus 4.7がどれほど優れているかを実際にお見せします。しかしまず、いくつかのことを知っておくべきです。
まず、スラッシュコマンド「/fast」はOpus 4.6でのみ利用可能です。新しいターミナルを開くと、「claw dangerously skip permissions」といつものようにやります。
常にdangerously skip permissionsをやりたいです。そうしないと、他のすべてのツール呼び出しを受け入れるためにエンターキーを押す必要があり、超イライラします。
とにかく、「/fast」をやると、Opus 4.6専用であることがわかります。「/model」をしてOpus 4.7に切り替えたい場合、ファストモードを使用できません。
ここにも「ファストモードを実行するには/fastを使用してください。Opus 4.6のみ」と書いてあります。おそらく、Anthropicが1週間から4週間でOpus 4.7のファストモードをリリースすることを期待できると思います。これは大きな収益ドライバーだからです。文字通りコストが2倍です。
実際、私自身のOpen Routerのコストを明かすことができますが、急速に増加しています。Open Routerだけで月に2,000ドル以上を費やしており、おそらくAnthropic APIにさらに1,000ドルから2,000ドルを費やしています。実際、これを確認してみます。
実際には思ったより多いです。ちょっと待って。月初来で3,000ドルです。過去30日間で、いや、月初来です。やばい。つまり、私の実行レートはおそらくAnthropic APIの支出で6,000ドルです。
つまり、ここで6,000ドル、ここで2,000ドル。そう、私は個人的に月に約8,000ドル、いや、おそらく7,000ドルくらいを費やしています。私のチームの他の人々もこのアクセス権を持っているからです。しかし、私は個人的なワークフローと個人的なエージェントと生産性のために、API使用に月に約7,000ドルを費やしています。
Opus 4.6.5は、見ての通り、Open Routerで急速にランクを上げています。2番目に人気のあるモデルで、すぐに1位になるでしょう。だから、Anthropicがそれをリリースするのを待っていますが、そうするとトークンにもっとお金を使うことになるとわかっています。クレイジーになってきています。
次に、エクストラエクストラハイ推論努力があります。Claude内で「/effort」と入力することで、これを変更できます。エフォート。できました。これは素晴らしいUIです。矢印でLow、Medium、High、Extra High、Maxから切り替えられます。
実際、Lowは実行可能です。Codexの場合、Lowは使わないでしょう。GPT-5.4をLow推論努力で使うことは決してないでしょう。しかしOpus 4.7の場合、Lowでもまだ本当に優れています。
明らかに、MediumまたはHighをベースレベルとして推奨します。個人的には、ベースとしてExtra Highで実行しています。リリースされたばかりで、それを持っているのがクールで、どれだけ優れているかを見たいからです。Highよりも深い推論だと言われています。
しかし、最大限の努力が欲しい場合、超高度なプロンプトを入力して、Opus 4.7が提供できるすべてを絞り出したい場合は、最後に「ultra think」と入力してください。これはこのターンのためにHighに設定されます。待って、それはちょっと変ですね。なぜHighと言っているのかわかりません。
Max。わかりません。ちょっと変です。Ultra Highは確かMaxに設定すると思っていましたが、このターンのためにHighに設定されたと言っています。これを少しテストしてみましょう。Mediumにします。ちょっと、ウルトラハイ。うーん、かなり怪しいですね。
とにかく。もしかしたらウルトラシンクが時代遅れになってきているのかもしれません。だから、/effortを使用して、ここで監視してください。重要な作業をしている場合は、ExtraHighまたはMaxを実行しますが、ほとんどのタスクでは、MediumまたはHighが最適なスポットになります。
「/ultra review」という新しいものもあります。「/ultra review」を実行すると、書かれているように、これは5分から10分実行され、5ドルから20ドルかかります。ブランチ内のすべての変更を確認し、バグを見つけようとします。基本的に、非常に深いレビューを行います。
これがClaude Code内の新しいコマンド「ultra review」です。また、改善されたファイルシステムメモリもあります。エージェント的使用と全体的なコーディングと構築でより良くなります。これは明らかにAnthropicが取っている戦略です。
さて、ワンショットを見てみましょう。異なる武器を持つ完全なFPSゲームをワンショットで、すべて単一のHTMLファイルで作成できたと言われています。これを実際に再現できるか見てみましょう。
空のフォルダを開きましょう。ここにテストプロジェクトを作成しましょう。完了。IDEとしてCursorを使用していますが、明らかにClaude Codeを使用します。統合ターミナルを起動して、「claw dangerously skip permissions」と入力しましょう。
これは絶対に必須のフラグです。必ず使用してください。さあ、どうぞ。モデルを使用していることを確認するために、「/mod」と入力してSonetを選択します。Haikuは決して使用しません。なぜこれがここのオプションなのかわかりません。Haikuは使用しないでください。Opus 4.7を使用してください。
100万コンテキストがオンになっているのがわかります。ファストモードがないのは非常に残念です。そして、努力を設定することを確認してください。Extra Highをテストします。新しい推論努力です。明らかに、ここにファイルはありません。そして、文字通りスクリーンショットを与えて、これを構築すると言うつもりです。
スクリーンショットを撮ります。貼り付けます。「あなたのタスクは、複数の異なる武器を持つ完全なFPSゲームをブラウザで、すべて単一のHTMLファイル内に構築し、それを実行する方法を教えることです」。完了。
平易な英語、何もクレイジーなことはありません。シンプルなプロンプトで、どれだけ優れているか見てみましょう。見てください。これは面白いです。Opusはこれには少し時間が必要です。つまり、本当に考えています。
Anthropicがそれを明かさないのは残念です。彼らは推論トレースを難読化しており、私はこの傾向が全く好きではありません。これは01との違いです。OpenAIの01が登場したときのことを覚えていますか。そして、DeepSeek R1が完全にそれを吹き飛ばしました。DeepSeekが実際に推論トレースを示してくれたからです。
だから、これらの閉鎖的な企業は非常にイライラします。それを見せてくれないからです。今、Opusの推論に私はお金を払っています。すべてのこれらのトークンに対して支払っていますが、見ることができません。出力が見えません。
「ゴム製のアヒルに相談しています」は、ただ一連の事前に作成されたメッセージを循環しているだけです。そして、これらのトークンを見ることができません。これが価値があることを願っているだけです。基本的に、それが私がAnthropicに月に6,000ドルを支払っている理由です。ただ、これが価値があるだろうかと願っているだけです。わかりません。わからないです。
これはかなりクレイジーです。まだ1分22秒実行されています。これはOpus 4.6では決して起こりませんでした。このようなタスクのために、Opus 4.6はすでに構築の途中まで来ていたでしょう。
繰り返しますが、可能な限り最高の結果が欲しい場合は、多くの思考を得るべきです。だから、このExtra High努力がどのように機能し、どれだけ優れているかを見るのに非常に興味があります。
しかし、ファストモードがないことが悲しいです。なぜなら、一般的なOpusには非常にせっかちだからです。Opus 4.6をファストモードで使うことに本当に慣れていて、2倍から3倍速く感じます。しかし、財布には非常に痛いです。
実際、ファストモードを実行するにはコストが2倍かかります。これはちょっとクレイジーです。こんなに長く実行されるとは思っていませんでした。これは本当にCodexを思い出させます。もしかしたら、これは実際にAnthropicのOpenAI Codexへの応答かもしれません。Codexは単一のタスクではるかに長く実行できるため、複雑なリファクタリング、深刻なエラーなどに優れています。
しかし、Opus 4.7がExtra High努力でこんなに長く実行されるとは思っていませんでした。私のポケットに穴を開けるでしょう。
さあ、できました。5分です。クレイジーです。最初のツール呼び出しを行う前に5分間の推論です。スタックしていたかどうかわかりません。Anthropicは今、新しいモデルのドロップ後、おそらく非常にクレイジーな需要を経験しているでしょう。誰もがこれを待っていたからです。
でも、Extra Highの使用は避けた方がいいかもしれません。推論努力はMediumまたはHighに固執してください。
これはちょっとクレイジーです。同じプロンプトを再実行します。文字通り、別のコードを実行します。完了。ここに同じプロンプト。エフォート、Highにします。ただのHigh。「/effort」でHigh。
そして、これはExtra Highにします。違いを見てみましょう。同じプロンプトです。画像を添付する必要があります。そして送信しましょう。スタックしているかどうかを見たいです。なぜなら、これがスタックしているのではないかと疑い始めているからです。何の進展もしていません。ツール呼び出しもしていません。コードも書いていません。
これが単にExtra Highのパワーなのか見てみましょう。使用すると超高速で制限を使い果たすかもしれません。録画を始める前の以前のテストではこれは起こりませんでしたが、すべてを単一のHTMLファイルに入れようとしているので、理にかなっています。本当に深く掘り下げようとすれば、理にかなっているでしょう。
しかし、8分間実行されていて、推論トークンも何も見ていないという事実が気に入りません。これはクレイジーです。もう一つClaude Codeを起動しましょう。もう一つ起動します。これはMediumにします。同じプロンプトをコピーします。
Medium。そして、これも実行しましょう。名前を変更します。エフォートMedium。これらが何かをしているかどうかわかりませんが、推論しています。
10分間と75トークンで考えています。あなたは考えていません。あなたはそれほど一生懸命考えていません。Medium努力は確かにそれほど無駄ではないはずです。
わからないですが、もしかしたら単一のHTMLファイルのせいかもしれません。これを中断してみます。「一度に一歩ずつ構築を始めてください」と言います。
ファイル全体をワンショットしようとしないでください。アウトラインを作成することから始めて、次に何をすべきか私に質問してください。もっとインタラクティブにした方がいいかもしれません。
待って、何か起こっています。完了。2,000行です。書いていたんです。クレイジーです。どれくらい実行されていたか見てみましょう。11分。11分です。つまり、実行されていました。
私の間違いです。非常に印象的です。Opus 4.6は、文字通り毎日使用して週に何千ドルも費やしている私のテストと経験から、決して11分間実行されることはありませんでした。
どうやって実行するか見てみましょう。ファイルを開くだけです。ファイルをダブルクリックします。HTMLがいくつありますか? ここで何を考えすぎているのでしょうか。完了。できました。
タクティカルストライク。単一ファイルブラウザFPS。6つの武器。移動はWASD。照準はマウス。射撃はクリック。スプリントはShift。ジャンプはSpace。リロードはR。1から6で武器を切り替え。エンゲージ。
これは非常にイライラする音です。武器を切り替えましょう。スナイパーを手に入れました。この音はひどいです。しかし、ゲームプレイは機能しています。すごい3Dです。
これは実際にクレイジーです。音をオフにする必要があります。これを外す必要があります。この音は耐えられません。ヘッドショット、スナイパー。これは何ですか? 待って、この音をオフにする必要があります。
これはクレイジーです。よくやった。イライラするビープ音を無効にしてください。やばい。もう一度やってみましょう。ひどかったです。ピストル、スナイパーがあります。今は音がオフです。リロードする必要があります。スナイパーは良いです。
これは非常に印象的な3Dです。実際に良いです。すごい。スプリントするためにShift。やばい、このアニメーションを見てください。これはワイルドです。リロードするためにR。リロード中です。下部にテキストが表示されています。
3番にしましょう。ショットガンです。良さそうです。これはすべて単一のHTMLです。第1波完了しました。4番を見てみましょう。これはウージーでしたか? そうです。すごい。
スプレーパターンさえ良いです。5番、スナイパー。ズーム付きです。これはすべて単一のHTMLです。ズームはちょっとゴミです。ズームは本当に機能しません。待って、もしかしたら。私のエイムがゴミでした。気にしないでください。
バズーカを手に入れました。クレイジーです。これは狂っています。完璧に機能します。11分かかったにもかかわらず、ワンショットです。これはリロードが必要です。待って、待って。隠れます。このやつをワンショットします。完了。簡単です。そして私のHPが上がっています。いや、武器を切り替えましょう。
まだリロード中です。これはバグですか? いいえ。この波は難しくなってきています。つまり、私はこれを過度に賞賛したくないのですが、実際に印象的です。ウージーで隠れることができます。これは実際に良いゲームです。
やばい。単一の。待って、集中する必要があります。単一のHTML。そうです、これは良いゲームです。これは良いゲームです。そして、メカニクスは完璧です。これまでバグは一つも出ていません。
どうやって回復しますか? 回復できますか、それともこれで終わりですか? 終わりだと思います。それはメカニクスのスタック方法のバグかもしれません。待って、待って、これをやらせてください。死にました。
これは良いゲームです。すごい。単一のHTMLファイルです。これを見てみましょう。どこに保存されていますか? 待って、待って。ゴミ箱を確認してください。死んだ後にファイルが自分自身を削除するようにプログラムしましたか?
これはクレイジーです。何が起こったか調査しましょう。もしかしたら。待って。やばい。このやつが削除しました。バカです。つまり、ここで複数のエージェントを実行しているので。
ゲームをプレイしたので、ファイルが存在したことは知っています。ゴミ箱を確認してください。このフォルダへのアクセス権を持つ別のエージェントがそれを削除したと思います。
これは危険になってきています。自分で確認してみます。いいえ、完全に削除されました。クレイジーです。
とにかく、約2,000行だったと思います。完全に削除しただけだと思います。RMコマンドで回復可能かどうか正確にはわかりません。くそ。
これをもう11分かけて再実行するつもりはありませんが、これは印象的です。単一のHTMLファイル内の3Dゲームで、本当に優れたメカニクスと本当にバランスの取れたこれらの波の難易度を期待していませんでした。
6つの異なる武器。これらの武器はすべて希望通りに機能しました。何と言えばいいかわかりません。本当にわかりません。これらのモデルは優れすぎています。
今後の展開と最終的な考察
とにかく、すべてのAIエージェントをOpus 4.7に切り替えることは間違いないと言っても過言ではありません。Opus 4.6からの大きな改善だからです。そして、おそらくもっとたくさんのお金を使うことになるでしょう。
しかし、少なくとも、その過程で素晴らしいソフトウェアを構築することになります。
そういえば、自分のためにソフトウェアを構築したい場合、AIビジネスを始めたい場合、チームのために構築してプロセスを自動化したい場合、またはAIコーディングをマスターしたいだけの場合は、New Societyに参加してください。
クラスルームの完全な再構築をリリースしたばかりで、これがAIコーディングを学ぶ最高の方法であると確信しています。初心者、中級者、上級者であるかは関係ありません。これらのコース内のこれらのモジュールは、Claude Codeのセットアップから、IDEのセットアップのための私自身のClaude Codeセットアップを教えること、フルスタックアプリが何であるかを学び、フルスタックアプリを構築する方法、実際にアプリをデプロイすること、Supabaseで適切なデータベースを統合すること、ドメインを追加すること、それを本物のビジネスに変えること、そしてユーザーを獲得する方法、それらのユーザーを有料顧客に変える方法、そしてそれ以上のことを、ステップバイステップであなたを連れて行きます。
これはAIコーディングをマスターするための最高のリソースです。私は基本的に、AIエージェントを使った2,000時間以上のコーディングから学んだすべてを取り、それを3週間のトレーニングに入れました。どれだけ技術的でなくても、以前にAIを使ったことがなくても、誰でもこれを受講でき、わずか3週間で、AIエージェントの助けを借りて何でも構築できるようになります。
もしそれがあなたにとって興味深く聞こえるなら、New Societyに参加してください。リンクは下にあります。


コメント