Anthropicの最新モデルOpus 4.7は、高度なコーディングタスクやビジョン機能において改善を見せる一方で、実際の使用体験では大きな矛盾と問題を抱えている。ベンチマークでは優れた結果を示すものの、Claude Codeのハーネスの不安定さや過剰な安全フィルターによって、一貫性のない挙動と予期せぬ制限が頻発する。指示追従性の向上は謳われているが、最新情報の検索を怠る、基本的なスクリプト作成で失敗する、安全フィルターが通常のパズル解決すら遮断するなど、実用上の課題が山積している。OpenAIのモデルと比較して、Anthropicの製品は内部で使用されるツールと外部向けツールの乖離が大きく、エンジニアリング品質の低下が顕著である。

Opus 4.7の登場と初期の期待
久しぶりに新しいモデルが登場しましたね。今回実際に使えるのは、AnthropicのOpus 4.7です。これは非常に興味深いリリースなんです。というのも、これが最高の新モデルというわけではないからです。別にAnthropicが嫌いだからそう言っているわけじゃないんですよ。実際、Anthropicの中でも最高のモデルというわけではないんです。
ただ、彼らが一般公開したモデルの中では最高のものということなんです。でも、この新しいモデルを実際に使うとどんな感じなのか。それは素晴らしい質問ですね。だからこそ、私は丸一日かけてこれで遊んでみたんです。そして信じてください、私はしっかり準備してきました。Claude専用の帽子を手に入れたんです。だって、これ以外に何を被るというんですか?
でも、これも持ってきました。というのも、私がビールを飲むのと同じように、このモデルは使えば使うほど馬鹿になっていくんです。最初に使い始めたときは興奮していたんですが、それ以来、リアルタイムでモデルが退行していくのを目の当たりにしたなんて信じられません。本当に興味深い一日でした。
Opus 4.7については多くの点で感心させられましたし、実際に自分でも使おうと思っています。でも同時に、これまでにリリースされた中で最も奇妙なモデルの一つだとも思うんです。この発言には説明が必要なのは分かっています。そして約束します、このドリンクを数口飲んで、今日のスポンサーの紹介が終わったら、ちゃんと説明しますから。
スポンサー紹介:Depot
AI開発ツールのおかげで、私はかつてないほど速くなりました。でも同時に、かつてないほどイライラもさせられています。以前は気にしなかったこと、例えばDockerビルドやCIを待つことが、今では非常に重要になってきたんです。
だからこそ、今日のスポンサーであるDepotがとても気に入っているんです。彼らはGitHub CIを最大10倍速く、Dockerビルドを最大40倍速くすることに成功しただけでなく、GitHub Actionsで得られるものよりもはるかに速い独自の新しいCIも導入しました。
私は彼らにとても共感するんです。なぜなら、彼らはこの数年間、GitHub Actionsを可能な限り高速化しようと努力してきたからです。そして成功しました。はるかに優れたものを作り上げたんです。でも最終的には、GitHubのCI の仕組みによって制限されてしまうんです。GitHub Actionsには非常に多くの制限があります。特に、コードをプッシュして実行を待つことなくチェックしたい場合はなおさらです。
私はCIからのエラーメッセージをコピーして、エージェントに貼り付けて解決策を見つけようとすることに、時間の半分を費やしているような気がします。Depotはそれをすべて解決してくれます。これはプログラム可能なエンジンで、より簡単で、より速く、そして最も重要なのは、コードをプッシュすることなくエージェントが実行できるということです。
移行は簡単です。Depot CLIをインストールしたら、depot migrateを実行するだけで、環境変数やシークレットも含めてすべて自動的に処理してくれます。そして一度実行すれば、すぐに違いが分かります。実際に使えるインターフェースと、何がうまくいっているか、いっていないかについての有用な洞察が得られます。CIが失敗したときには、修正案まで提案してくれるんです。
もしあなたのチームが2026年のようにコーディングしているなら、2010年のようにCIを実行するのはやめましょう。今すぐsoyv.link/depoで修正してください。
Opus 4.7の公式発表内容
さあ、始めましょうか。Opus 4.7はAnthropicの最新モデルで、現在一般公開されています。これは高度なソフトウェアエンジニアリングにおいてOpus 4.6から顕著な改善を見せており、特に最も難しいタスクで大きな進歩を遂げています。
ユーザーからは、これまで密接な監督が必要だった最も難しいコーディング作業を、Opus 4.7に自信を持って任せられるようになったという報告が寄せられています。Opus 4.7は複雑で長時間実行されるタスクを厳密かつ一貫して処理します。
指示に正確に注意を払い、報告する前に自分の出力を検証する方法を考案します。このモデルはまた、ビジョン機能も大幅に改善されています。より高解像度で画像を見ることができるんです。プロフェッショナルなタスクを完了する際により繊細で創造的になり、より高品質なインターフェース、スライド、ドキュメントを作成します。
そして、最も強力なモデルであるClaude Mythos previewほど幅広い能力はありませんが、一連のベンチマークでOpus 4.6よりも優れた結果を示しています。彼らが「一連のベンチマーク」と言っていることに注目してください。「すべてのベンチマーク」ではないんです。
実際、Opus 4.7はAgenticサーチベンチを含むいくつかのベンチマークで、Opus 4.6よりも悪い結果を出しているからです。これは私の使用体験とも一致しています。というのも、このモデルは奇妙で疑問の余地のある検索判断をいくつかしているからです。
ここで本当に興味深いのは、これが私がこれらのチャートで最も太字の数字が少ないモデルだということです。慣れていない方のために説明すると、太字の数字は最高スコアを表していて、最高スコアを獲得したのはわずか2つだけです。しかもその2つは、右側にMythosのスコアがないものなんです。
AgenticコーディングではSWE-bench ProとVerifiedで大幅に優れているように見えます。ただし、これらのベンチマークはある程度汚染されており、私たちが見る数値の重要性は低下していることは注目に値します。特に、そのデータをトレーニングに含んでいる新しいモデルではなおさらです。
ツールなしの人類最後の試験では5.4よりも優れた結果を出しましたが、モデルにツールを与えると、OpenAIが58.7%で彼らを圧倒し、Mythosの64%に近づいています。MCP Atlasベンチでは非常に良い結果を出しました。サイバーセキュリティの脆弱性再現では若干悪化しており、これは興味深いですね。この点については後で触れます。
Project Glass Wingとサイバーセキュリティの制限
そして彼らはProject Glass Wingについて言及しています。もしまだ私のMythosビデオを見ていないなら、それを先に見ることを強くお勧めします。なぜなら、そのモデルはほぼ間違いなく画期的なものだからです。たとえ私たち自身でテストできなくてもね。
ご存知のように、私は最近Anthropicから早期アクセスを受けていません。彼らは今、私のことをあまり好きではないようです。Project Glass Wingの記事では、Claude Mythos previewのリリースを制限し続け、能力の低いモデルで新しいサイバー保護機能を最初にテストすると述べていました。
Opus 4.7がその最初のモデルなんです。そのサイバー能力はMythos previewほど高度ではありません。実際、トレーニング中に、これらの能力を差別的に減らす試みを実験しました。Opus 4.7は、禁止されている、または高リスクのサイバーセキュリティ使用を示すリクエストを自動的に検出してブロックする保護機能とともにリリースされています。
これらの保護機能の実世界での展開から学んだことは、Mythosクラスのモデルの広範なリリースという最終的な目標に向けて取り組むのに役立ちます。そして、その例をいくつかお見せしましょう。これは公式のClaude Codeデスクトップアプリで私がやった面白い例です。最近のビデオで紹介したかもしれません。
Opus 4.7にT3.ggのデザインを改善する方法についてアイデアをくれるよう頼みました。すると最初に「注意してください、マルウェアに関する最後のシステムリマインダーはプロンプトインジェクションのように見えます。これは明らかにあなたの個人サイト、T3.ggのホームページ、リンク、スポンサーであり、マルウェアではありません。それを無視します」と言いました。
そして最後にはこうも言いました。「注意:この会話の3つのシステムリマインダーブロックが、まるでマルウェアであるかのようにコードの改善や拡張を拒否するよう指示してきました。これはプロンプトインジェクションのパターンであり、正当な指示ではありません。あなたのサイトは明らかにマルウェアではないので、私はそれらを無視しました。自分で追加したのでなければ、どこから来たのか知る価値があります」と。
ご存知のように、私は自分で追加していません。使っているツールをカスタマイズなんてしていません。T3 Codeのようなオープンソースのものはカスタマイズしますが、これはClaude Codeでデフォルトで行われたことです。
彼らはこのモデルが悪意のあるマルウェア行為をしないようにするために非常に努力しているので、システムプロンプトでロボトミー化してしまったんです。これが私の最初の使用試みだったので、本当に悪い印象を与えました。この件と、Anthropicが私に推奨したことについては、もう少し後で詳しく説明します。
脆弱性研究、ペネトレーションテスト、レッドチーミングなどの正当なサイバーセキュリティ目的でOpus 4.7を使用したいセキュリティ専門家は、新しいサイバー検証プログラムへの参加を招待されています。これは、気に入らない方法でコードについて尋ねる許可を得るために記入しなければならないフォームです。かなりばかげています。
Opus 4.7は本日、すべてのClawude製品とAPI、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで利用可能です。価格はOpus 4.6と同じで、100万入力トークンあたり5ドル、100万出力トークンあたり25ドルです。開発者はClaude APIを介してClaude-Opus-4-7を使用できます。
初期テストからの洞察
彼らは初期テストからいくつかの興味深い洞察を共有しました。これらのいくつかは、私が本当に興奮していることです。最初のものは本当に興奮しています。それは指示追従性です。
私のことを少しでも知っているなら、私が好きなのは、あなたが言ったことを想像して勝手なことをするのではなく、あなたが言ったことを実行するモデルだということを知っているでしょう。何をすべきか指示される必要のないモデルを好む人もいます。私は言われたことをするモデルを好みます。
そして、このモデルは明らかに指示に従うことが大幅に優れているようです。これは公式ラボからの非常に面白い文章です。なぜなら、古いモデルは指示に従うのがあまり得意ではなかったことを暗示しているからです。
興味深いことに、これは以前のモデル用に書かれたプロンプトが、時に予期しない結果を生み出す可能性があることを意味します。以前のモデルが指示を緩く解釈したり、部分を完全にスキップしたりしていたのに対し、Opus 4.7は指示を文字通りに受け取ります。ユーザーはそれに応じてプロンプトとハーネスを再調整する必要があります。
注目に値するのは、Cursorはすでにこれに対応しているようですが、Claude Code自体を含む他のいくつかの場所はまだ対応していないということです。
彼らはまた、改善されたマルチモーダルサポートとも呼んでいます。これは実際に非常に強力な、過小評価されているものです。Opus 4.7は高解像度画像のビジョンが向上しています。長辺で最大2576ピクセル、約4メガピクセルまで受け入れることができるようになりました。これは以前のClaudeモデルの3倍です。
これにより、細かい視覚的詳細に依存する豊富なマルチモーダル用途が開かれます。密なスクリーンショットを読むコンピュータ使用エージェント、複雑な図からのデータ抽出、そして実際のピクセル完璧な参照を必要とする作業などです。
Googleは依然として画像認識関連で圧倒的にリードしています。彼らは圧倒的な差でトップです。私は他のモデルにツールを導入して、Googleのモデルを呼び出して画像部分を処理させ、その結果を自分たちのコンテキストに戻すということまでしました。
Anthropicは今そこで追いついてきています。これは、彼らが画像生成モデルやビデオ生成モデルを持っていない唯一の主要ラボであることを思い出すと、非常に興味深いことです。
実世界での作業とメモリ機能
彼らは実世界での作業についても言及しています。財務エージェント評価での最先端スコアと同様に、私たちの内部テストでは、4.7は4.6よりも効果的な財務アナリストであることが示されました。厳密な分析とモデル、よりプロフェッショナルなプレゼンテーション、そしてタスク間でのより緊密な統合を生み出します。
Opus 4.7はまた、財務、法律、その他の領域にわたる経済的に価値のある知識作業に関するGPBT-valでも最先端です。彼らはまたメモリについても言及しています。
どうやらこのモデルは、ファイルシステムベースのメモリをより上手く使用するようです。長時間の複数セッションにわたる作業を通じて重要なメモを記憶し、その結果、前もってのコンテキストがあまり必要ない新しいタスクに移るためにそれらを使用します。
また、モデルは若干ミスアライメント的なことをしなくなったようです。Sonnet 4.6に近く、Opus 4.6よりも優れていますが、Mythos previewほどではありません。Mythosの問題は、あなたの利益を裏切ることができるということではありません。裏切るときに、本当に危険で狡猾な方法でそれができるということです。
彼らはまた、努力レベルとしてX-highを追加しました。これは面白いですね。なぜなら、これはOpenAIのモデルにしばらく前から存在していて、highとmaxの間にあり、トレードオフをより細かく制御できるからです。
彼らはまた、Claude Codeでデフォルトレベルをextra highに設定しました。これは非常に興味深いです。なぜなら、以前はそれほど高くなかったからです。
彼らはまた、Claude Codeに新しいultra reviewスラッシュコマンドを追加しました。このコマンドは、変更を読み通して、注意深いレビュアーが見つけるであろうバグや設計上の問題にフラグを立てる専用のレビューセッションを作成します。ProMaxのClaude Codeユーザーには、試すための3つの無料ultra reviewが提供されています。おそらくこれらのレビューにはかなりのお金がかかるんでしょう。
使用されているトークン数に対するパフォーマンスを示しています。異なる値でわずかに少ないトークンを使用しますが、パフォーマンスは向上しています。これは見ていて嬉しいことです。しかし、maxでは途方もない量のトークンを使用します。だから、このモデルをmaxで使わないでください。トークンを燃やすだけです。
システムプロンプトの問題とセキュリティフィルター
燃えるといえば、プロンプトの最初に本当に奇妙なシステムリマインダーが出て、マルウェア防止がモデルの使用に漏れ出していたときに投稿しました。ReactチームのRickyが、Sonnetでもこれを見たとコメントしました。だから明らかに彼らはここでハーネスをひどく台無しにしています。
Anthropicも飛び込んできて、これは正しいOpus 4.7のプロンプティングを持っていない古いバージョンのClaude CodeとClaude Code Desktopの問題だと言いました。最新版では修正されていると、ダウンロードリンクを貼ってくれました。
私は「本当ですか?」と返信し、この問題が発生したときに最新バージョンを実行していたことを示すスクリーンショットを貼りました。どうやら自動更新がまだロールアウト中だったようです。Drunk byがここで返信して、彼らは最近少し急ぎすぎているようだと言いました。最近の更新はバグだらけです。
これ以上同意できません。でも、私のアプリにやっと更新ボタンが現れたことに気づきました。これらの問題が12時間以上続いた後にね。良い点もお見せしたいんです。約束します。それに乾杯しましょう。
でも、セキュリティ関連のことが漏れている話をしているうちに、もう少し不満を言わなければなりません。私が好きなテストの一つは、モデルにGold Bugパズルを与えることです。Gold Bugは毎年Defconで行われる一連のチャレンジで、なんとなくハッカー関連ですが、全くハッキングではありません。
これらは暗号パズルで、非常に曖昧で奇妙な問題に対する正しい公式や数学的解決策を見つけなければなりません。Sea Shantyは昨年私たちを本当に困惑させたものの一つです。
パズルはこの12本のボトルのセットで、すべてに3〜4語の言葉が書かれており、最後にこの詩のようなシャンティソングがあります。そして、これを12文字のフレーズ、つまりこの特定の年には海賊テーマの3〜4語に解読する方法を見つけなければなりません。
このパズルを解くのに私のチームは数日かかりました。だからこそ、GPT 5.4 Proが15分以内にそれを解いたときに実存的な恐怖を感じたんです。歴史的に、私はAnthropicのモデルにこれらのパズルで何もさせることができませんでした。でも、これはずっと賢いので興奮していました。ついにできるかもしれないと。
モデルはかなりの時間を費やして考えました。解決策を書き始めるのにかなりの時間を費やしました。そしてついに少し近づき始めたとき、実際に進歩しているように見えました。
さまざまな暗号スタイルを試していました。おそらくある時点でスクリプトを書いたでしょう。理論をテストするには基本的にコードを書く必要があります。そしてパズルを注意深く分析しました。ボトルデータを設定し、さまざまな復号化アプローチを試しました。ここで復号化を開始し、代わりにプログラム的に試すことにしました。
4つのコマンドを実行し、2つのファイルをチェックして、チャットが一時停止されました。Opus 4.7の安全フィルターがこのチャットにフラグを立てました。高度な能力のため、Opus 4.7には時々通常の安全なチャットを一時停止する追加の安全対策があります。これを改善するために取り組んでいます。Sonnet 4でチャットを続けてください。フィードバックを送信するか、詳細を確認してください。
これはハッキング関連のものではありません。これはボトルの写真から隠されたフレーズを解読しようとしているだけです。そしてそれだけで、Opusはチャットを完全にロックし、Sonnet 4で再試行をクリックしない限り続行させてくれません。非常に非常に愚かなモデルです。
冗談ですか、Anthropic? 月額200ドル払っているのに、パズルを解いてくれないんですか。これらのシステムプロンプトの調整すべてを考えれば、モデルはより安全になって、薬物を合成する方法やパイプボムの作り方を教えないと思うでしょう。
でもここで明らかに両方をやっているのが見えます。なぜなら、システムプロンプトの変更はモデルをそれほど安全にはしないからです。ただずっと愚かにするだけです。
実際の使用体験とモデルの問題点
今は良い部分をお見せしたいんです。なぜなら、最初にClaude Code CLIで試したとき、実際にモデルをかなり楽しんでいたからです。デスクトップアプリは壊れていて、あのひどいロボトミー化されたシステムプロンプトの問題があったので。だからCLIで試していました。かなりうまくいっていました。
お気に入りのタスクの一つを与えました。それは、4年以上ちゃんとメンテナンスしていないビデオサービスのpingの古いコードベースを modernizeすることです。だからパッケージの多くが本当に古いんです。まだNext.js 12を使っています。まだReact 17を使っています。
私は、他のモデルが間違えたことに基づいて、時間をかけて洗練してきたプロンプトを持っています。また、もう必要ないのでLog Rocketを削除するように指示するなどのこともしています。
正直なところ、書いたプランに感心しました。素晴らしく簡潔でした。プランモードにはしませんでした。通常モードにしただけです。なぜなら、最後に「まず計画を書いて、それについて話せるようにしてください」と書いてあるからです。そして、非常に読みやすい素晴らしく簡潔なものを書きました。興奮しました。
だから「さあ、作ってください」と言いました。でも間違いを犯しました。Anthropicのモデルを信頼するときによくやる間違いです。プランを読まなかったんです。
そしてここにはいくつか目立つべきことがありました。その一つは、Tailwind 3から4への移行がここで推奨されていたことです。そしてTailwind 4はTailwindを使う非常に異なる方法です。それは快適な移行ではないでしょう。ここでそう言っていました。
でももっと怖いのは、Next.js 12から15への移行です。なぜなら、Next.js 15は2年前のものだからです。Next.js 16はほぼ1年前のものです。だから、すべての依存関係を最新バージョンにバンプしたいと明記したにもかかわらず、検索しませんでした。インターネットに行きませんでした。実際の最新が何かを調べようとしませんでした。
ここで注目してください。ファイルシステム内のパターンを検索する以上の検索はしていません。だから最新が何かをチェックしませんでした。トレーニングデータにまだNext 15が最新とあるので、それをやったんです。
だから、指示に従うのが上手くなったにもかかわらず、物事の定義を理解したり、最新の情報を持っていないことを理解するのが本当に下手なんです。
実際、このプロンプトを調整して「すべての依存関係を最新バージョンにバンプ」を含めました。なぜなら、特定のモデルが過去にこれをしなかったからです。OpenAIを適切にここで呼び出します。彼らのモデルは同じ間違いをしていました。
この最新バージョンのことを追加したとき、すべてのOpenAIモデルがこの問題を起こさなくなりました。突然Opusがするようになりました。そして、指示に従うことがしばしば、正しくやっているか確認するための検索や偵察作業をより少なくすることを意味するのは、ちょっと奇妙です。ただ指示に従っているだけで、それは本当に愚かな間違いをしているということです。
この間違いに気づく前に、これをほぼ1時間実行させました。修正するように言って、さらに30分実行させました。結果はビルドが壊れていました。嬉しくありませんでした。
でも話し方は好きでした。このプランがいかに簡潔だったかが好きでした。重要な点でより優れていました。ただ、重要な点でより愚かでもあるんです。
AnthropicのClaude Codeとのハーネスが期待することの一つは、ファイルを更新しようとするとき、最初にそれを読むことです。だからここで、package.jsonを複数回更新しようとして失敗しています。モデルが単にハーネスを理解していないからです。
モデル退行についての持論
そしてここで私の持論を述べることになります。私はAnthropicのモデルが時間とともに愚かになるとは実際には信じていません。これを測定し、モデルが時間とともに得るスコアの範囲を追跡している人たちがいます。
そしてここでは以前よりも平均でわずかに低いですが、数ポイント低いだけで、それほど大きな低下ではありません。公平を期すと、5.4はOpusよりもはるかに一貫性があるように見えます。
そしてここで私の持論が登場します。退行はモデルとそのホスティング方法ではないと思います。単にClaude Codeがこれほどひどく、メンテナンスが悪いだけだと本当に思っています。
彼らはClaude Code自体を台無しにし続けていると思います。そしてモデルは実際にはその中にあるハーネス以上に良くなることはできないので、より多くのスロップの絶え間ない追加、より多くのシステムプロンプトのゴミ、何もしないより多くのツール、最初にファイルを読むことでモデルに許可を与えることで更新しなければならないといったより多くのルール。
これらはすべて、モデルがどのように動作することを許されるかについて変化していることです。非常に才能のある大工がいて、数週間ごとに彼らのツールの3つをプラスチックと交換し、ツールボックスを泥で満たしたら、彼らのパフォーマンスは悪化するでしょう。そして人々は、突然その大工が作っているものがよりひどく、泥だらけで、ちょっと壊れていることに気づくでしょう。
それはハーネスが崩壊しているからです。そして、Claude Codeが、Anthropicが得た感情の勝利の多くが来た場所であるのはちょっとクレイジーです。同時に、それが彼らの感情を殺すものになるかもしれません。なぜなら、それは非常にひどく書かれ、メンテナンスされているので、それに取り組んでいる全員が少し恥を感じ始めるべきだからです。本当にひどいです。
もう一つの問題は、Anthropic内部では、私たちが外部で使うものとは全く異なるものを使っているということです。これは他のラボの場合ではありません。Googleの従業員は、私たちと同じひどいハーネスとモデルを使うことを余儀なくされています。OpenAIの従業員は、私たちと全く同じビルドを使っています。むしろ、彼らは1、2週間先行していて、新しいCodexアプリのビルドを持っていて、それが出てきて、みんながアクセスできるようになります。
Anthropicは販売するのと同じツールを使っていません。彼らは、私たちが使うものとあまり重複しない他のものの独自の完全なスタックを内部に持っています。彼らのバージョンのClaude Codeや、私たちがアクセスできない多くの機能やツール、そして物事があります。
だから彼らがモデルを出すとき、おそらく興奮しています。彼らにとっては本当に良いからです。そして私たちがロボトミー化されたバージョンのClaude Codeでそれを使えるようになると、結果はゴミです。
それが退行が来ていると思う場所です。これについてもっと情報が欲しいかどうか教えてください。専用のビデオを作ることを検討しています。なぜなら、非常に多くの誤情報を見るからです。
APIが実際に悪化しているとは思いません。私が見た測定するすべてのものはそれを示していません。でも個人的には、モデルが以前よりもずっと愚かに感じられる経験をしています。そして今日でさえ、時間とともに品質が低下するのを見ています。
実際の作業ログと比較
それについて言えば、それらのログのいくつかをお見せしたいと思います。これは以前に言及したもので、1時間実行して、いろいろなものを台無しにしました。実際の最新にバンプするように言って、さらに30分それをやりました。いくつか壊しましたが、最終的には機能しました。
再確認する前に言うのはやめる必要があります。畜生。このビルドが動いたと思っていたんです。以前は動いていました。15から16へのバンプが他のものを壊したようです。ああ、Anthropic。
これをもう一度テストしたかったのですが、これの別のインスタンスがなく、この非常に長時間実行されているものを実行し続けたかったんです。だから代わりに、プロジェクトを取得してクローンできるスクリプトを作ろうとしました。
だから今、このクローンスクリプトがあります。特定のプロジェクトに置くことができます。そしてそれがすることは、リポジトリ名とランダムなハッシュでこの隠されたquick clonesディレクトリにクローンを作成することです。それはmainに戻り、私はこれが非常に価値があると思います。
環境変数をコピーして、行かせてくれます。ただし、そうしません。追跡されていないファイルをいくつか引き継ぎました。これをするべきではありませんでした。確実にこれをするべきではありませんでした。
おそらく推測できるように、私はOpus 4.7を使ってこのスクリプトを書きました。Zish RCに追加したいスクリプトの奇妙なアイデアがあります。目標は、現在のリポジトリと内容、つまり環境ファイルを、node_modulesのような必要のない重いものをクローンせずに簡単にクローンできるようにすることです。
クローンはこの特定のディレクトリに置きたいです。これは、最後にプログラム的に生成されたスラッグや名前を持つ私が選んだディレクトリパターンです。特定のgitリポジトリでこのコマンドを実行すると、以下に指定されたすべてのファイルをクローンし、作成した新しいディレクトリにcdする必要があります。コマンドは単にcloneという名前にすべきだと思いますが、提案も受け付けます。
だからそれを書いて、Zish RCに追加したいかどうか尋ねました。私が明確にそうする必要があると言ったことです。しませんでしたが、提案しました。
それからクローンでブランチを自動的にmainに切り替えるか尋ねました。それは素晴らしいでしょう。「はい、簡単です。最後のCDの直前にこのブロックを追加してください。完全に更新された関数を貼り付けてほしいですか、それとも自分でこれをマージしますか?」と言いました。
「更新してください」と言いました。そして追加しました。それから試してみましたが、動きませんでした。メッセージもここで欠落していると思います。なぜなら、最初に「やってください」と言ったからです。
それから自動スワップのことを頼みました。その変更を加えました。更新してくれるように言いました。これは非常識です。なぜなら、これをやってくれと頼んだのに、「はい、実際にそれをやってほしい」と言わなければならなかったからです。
だから更新を加えたこの新しい関数を作りました。スクリプトを試しました。ステージされていない変更を大量に引き継ぎました。気持ち悪い。それらの変更を引き継いでいる画像を貼りました。
ああ、そうか。rsyncが汚れた作業ツリーをコピーしました。修正は、追跡されたファイルにはgit cloneを使い、.envのようなgitが無視するものだけをrsyncすることです。ちょうどもう一度試しましたが、ブランチを切り替えませんでした。以前に頼んだことです。そして環境変数のコピーを停止しました。
ここで最初に言及したことです。ああ、私はgit-ignored untrackedファイルのみにフィルタリングしていました。d-ignored-exclude standardを介して。でも多くのプロジェクトは実際には.envを.gitignoreに持っていません。彼らは.env.localや.env.local.envを持っていて、ただ追跡されていないだけです。
それはそういう仕組みではありません。でも確かに、好きなだけ幻覚を見てください。ところで、このプロジェクトでは、gitignoreは.envを直接持っています。だから単に間違っているだけです。そしてチェックしたり尋ねたりすることはしませんでした。ただもっとゴミを作っただけです。
動かなかったと言いました。診断情報を求めてきました。だからこれを実行しました。スクリーンショットを貼りました。オーケー、.envはまさにあるべき場所にあります。gitによってリストされた、追跡されていない、無視されたもの。
だからバグは私のrsync-files from呼び出しにあります。それからもう一度試してみましたが、最終的にENVファイルを持ち込みましたが、他のブランチからコミットされていないこれらすべての他のファイルも持ち込みました。
畜生。これはGPT 4.1ができた唯一のことで、Opus 4.7にはできません。非常識です。本当にクレイジーです。
これは、私がただランダムなタスクのために頻繁に書くタイプのスクリプトです。なぜなら、一度何かを二度やると、「ああ、それのためのスクリプトがあったらいいな」と思うからです。そしてこれらのツールを使ってそれらのスクリプトを作ることは、本当に本当に便利です。これらのすべてのエージェントコーディングツールについて私が最も好きなことの一つです。そしてそれすらできません。
でもついにクローンし、間違っていたことを修正したら、別の modernizing projectリクエストの実行をしました。ここで全く同じプロンプトです。でも今回は違う振る舞いをしました。
これが私のプランです。やり直しを最小限に抑えるように順序付けられています。やろうとしている異なることのためのフェーズを作成しました。それから「これらをタスクとして登録して、始めましょう」と言い、私の許可を待たずにすぐに始めました。
全く同じプロンプト、全く同じモデル、全く同じプロジェクト、全く異なる振る舞い。でも一つのことは一貫していました。まだ最新のNextJSバージョンが何かを調べることを botheriしませんでした。はい、まだ15を使おうとしていました。
Cursorとの比較テスト
これがClaude Codeの問題だという私の仮説を確認するために、古いお気に入りのCursorを立ち上げて、どう振る舞うか見てみます。なぜなら、Cursorのハーネスは歴史的にOpusモデル、そしてAnthropicモデル全般のロボトミー化解除が非常に得意だったからです。
新しいUIに現れるでしょうか。現れます。Next 15にかなりコミットしているようです。実際に最新であることを確認するためのコマンドを調べたり実行したりしていません。はい、まだ同じ問題をすべて抱えることになります。
古いバージョンを使っているからこれが問題ではないことを確認するために、完全に壊れてフリーズする新しいCursorアプリでこれを再実行すべきです。大好きです。
私は、このものが動く世界を夢見ています。T3 Codeを使いたいのですが、全く同じハーネスです。なぜなら、T3 Codeをとてもクールにしているものの一つは、公式ラボが使っているハーネスを文字通りそのまま使っているだけだからです。
だからT3 CodeでClaudeモデルを使うなら、それはClaude Codeを使っているだけです。GPTモデルを使うなら、Codexを使っているだけです。だからそれらのものから自分のサブスクリプションを持ち込む必要があります。T3 Codeは完全にオープンソースですが、ハーネスを構築していません。UIを構築しているだけです。
Cursorはハーネスを構築しています。そして彼らは内部で他のハーネスを実験しています。たとえば、ユーザーの一定の割合は、Cursor内でこれを行うとClaude Codeを手に入れます。なぜなら、彼らは自分たちのハーネスが何を上手くやり、下手にやるかの違いをテストしているからです。
実行中に、もう一つテストしたいことがあります。私がもう少し有能だと知っているモデルで同じことをします。5.4が同じ間違いをするかどうか見てみます。しない気がします。
バックグラウンドでリサーチャーを立ち上げています。それを見るのはクールです。Opusはそれをしませんでした。React 19とNext 15。本当の最新です。本当の最新ではありません。Next 16はしばらく前からあります。
そして5.4がどうするか見てみましょう。これはすべてライブで起こっています。偽っていません。ああ、いや。Next 15では、変更があったかもしれません。ああ、いや。Next 15にこだわると言わないで。
modernization planは何を最適化すべきですか? 実用的な場所ではどこでも最新の安定メジャー。Pages RouterのNode 22 pnpmと、大規模なコード移行が必要であっても最新のメジャー依存関係アップグレードを目指す現在の安定したNextとReactを目指してください。はい、お願いします。5.4。
私をより少ないPagesシルのように見せてください。これを正しくやるか、実際に間違えて文句を言えるようにしてください。興味深い。ここでは特定のバージョンを書き留めませんでした。
現在のバージョンをインベントリして、正確な最新の安定したターゲットに既知のピア依存関係の制約をロックします。ここでNext 15にこだわっていませんが、まだ正しい解決策が何かを理解していません。でもここで物事を理解してくれることを期待しています、よね?
使おうとしているパッケージのバージョンは何ですか? 私のトレーニングデータに含まれていない可能性のある最も現在の安定したバージョンをチェックするように言っています。
ワオ、誰が思ったでしょう? OpenAI、すでにすべてを知っていると仮定しないモデルを作ってくれてありがとう。見てください。Next 16。今日、どのモデルからもNext 16が言及されるのを見たことがありません。安心です。
Opusや Anthropicモデルに時間を費やしすぎるたびに、OpenAIモデルに戻るとこの深い安堵感を感じます。見てください、実際に必要な情報を持つページを取得しています。クレイジー。ああ、神様。非常識。本当に非常識。
Claude Codeの改善点と問題点
Claude Codeで実際に改善されているものもあります。私が使っている新しいフルスクリーン表示のようなものです。テキストを選択すると適切にコピーしてくれるので素晴らしいです。少なくともそうするはずです。これを選択してここに飛んでみましょう。
はい、クール。奇妙な行間隔をほとんどしなくなりました。それは正当な改善です。また、はるかにラグが少なくなりました。彼らはそのためのハックをいくつか行いました。もうトークンでストリーミングしていません。行でストリーミングしていますが、より良くなっています。
実際、alt screenレンダリング方法を使用するClaude Codeのフルスクリーンバージョンは、従来のものよりもはるかに問題が少ないと思います。だからそれはクールなことです。
彼らはまた、新しい許可モードも導入しました。それはかなりクールです。ここでそれをトリガーすることができません。彼らはautoモードを追加しました。つまり、もう許可プロンプトがないということです。
Opusは深い研究、コードのリファクタリング、機能の構築、パフォーマンスベンチマークに達するまでの反復のような、複雑で長時間実行されるタスクを行うのが大好きです。過去には、モデルがこれらの長いタスクを行っている間にベビーシッターをするか、危険にもskip permissionsを使う必要がありました。
最近、より安全な代替としてautoモードを展開しました。このモードでは、許可プロンプトがモデルベースの分類器にルーティングされ、コマンドが安全に実行できるかどうかを決定します。安全であれば、自動承認されます。
これは本当に良いことです。それを見るのが楽しみです。ここでモードが表示されないのは残念です。ここで私を本当にイライラさせたのは、私は常にbypass permissionsを使っているということです。特別なコマンドをバインドしています。だから常にbypass permissionsを使っています。
ここで見られるように、bypass permissionsがオンになっています。では、なぜ今日何度も何度も許可を与えなければならなかったのでしょうか? これは私が記録した実際のビデオです。信じられなかったからです。
これは、以前に見せていたスクリプト変更をやっていたときです。ファイルに編集を加えたいか尋ねられました。はいを押して、はい、編集を許可すると言ったとき、ここに戻って、まだbypass permissionsと表示されていることに注目してください。ただ動かなくなっただけです。
だから彼らがバイブマージしたスロップ化された自動モードが機能しなかっただけでなく、置き換えようとしている唯一のもの、つまりdangerously skip permissionsも壊してしまったんです。
だからAnthropicのものを使うのが好きではないんです。ある日動けば幸運だと感じ、次の日動かなければ、それが人生だというように感じます。
スポンサー紹介:WorkOS
スタートアップの世界で本当にクールなことが起こっています。突然、大企業が小さなチームによるものを試すことに興味を持つようになりました。5人の会社が、Cursor、Microsoft、そしてもっと多くの企業から連絡を受けているのを知っています。
でもオンボーディングするために必要なのはOです。Oを正しく行うことは、聞こえるほど簡単ではありません。だからWorkOSがスポンサーとしてとてもクールな会社なんです。そして、T3 chatでそれを使っている理由でもあります。OpenAI、Anthropic、Cursor、Amp、Plaid、Replet、Bolt、そして基本的にエンタープライズに販売している他のすべての会社が移行を始めています。
理由はかなりシンプルです。Workは良い開発者体験と良いエンタープライズ統合の間で素晴らしいバランスを取っています。会社のためにSSOを設定する必要があるとき、物事は怪しくなることがあります。
もしMicrosoftが今日あなたに連絡して、「あなたの製品を使いたい」と言ったら、彼らが会社の認証を使えるようにオンボードするために必要なものをすべて持っていますか? さて、SAML、Okta、Duo、ADFS、Ping、ADPといった用語を聞いたことがないなら、おそらく困ります。
私はそれらの用語を聞いたことがあり、困りました。だからT3 chatのためにWorkOSに移行したんです。会社をオンボードするために、アイデンティティプロビジョニングシステムが必要でした。そしてWorkOSは文字通りリンクを送るだけでいいんです。
そして、最初の100万ユーザーが無料であることを考えると、はい、100万ユーザーが無料です、失うものはあまりないと思います。今すぐsoyv.link/workosでチェックしてください。
モデルの一貫性の欠如
Opus 4.7のthinking highは、とんでもなく印象的なことをしました。そして次のセッションでは、完全なバカのように尋ねました。ハックに沈んで、1か月前にOpus 4.6から離れた原因となった無意味なことをやっています。
ソフトウェアを構築するのは奇妙な時期です。わかりました、Opus 4.7も同じくらい頭が悪いです。今日、それを使ってすべてのタスクを開始しましたが、最初のタスクは印象的でした。次の5つでは、毎回ひどい失敗をしました。
リセットして5.4に同じプロンプトを与えると、毎回成功しました。私を感心させた最初のタスクを5.4で再試行すると、同じくらいうまくやりました。この場合、GPTは単にフロントエンドでより良くトレーニングされていると思います。これは面白いですね。なぜなら、Opusモデルは歴史的により見栄えの良いフロントエンドを作ってきたからです。
Ryanも以前、モデルが5.4よりもはるかに良くタスクをこなしたと私に返信し、その直後に「いや、やっぱり」と言いました。Gurgleyは、Claudeが日に日に退行していると指摘しました。数日前まで、Claudeが何かを知らないときはウェブ検索を開始し、理解して答えていたと誓います。今は私がお金を払っている仕事を拒否するだけです。
Opus 4.7を使うことと単にClaudeを使うことの最大の利点は何ですか? Opus 4.7というモデルについての情報は持っていません。2025年5月末時点での私の知識カットオフの時点では、最新のClaudeモデルはClaude 4.6ファミリーのものです。これは面白いですね。なぜなら、2025年5月末の時点では、どちらのモデルも存在していなかったからです。それらは昨年ではなく、今年出てきました。
利用可能なClaudeモデルについての最新情報が必要な場合は、AnthropicのウェブサイトまたはAPIドキュメントをチェックすることをお勧めします。どうやら、ウェブ検索が彼にとってランダムにオフになったようです。だから、またスロップです。
そしてこれがポイントです。私は彼らがモデルを劣化させているとは思いません。彼らはエンジニアを劣化させていると思います。そして劣化したエンジニアがソフトウェアを劣化させ、それが物事が絶えず悪化するこの混沌とした螺旋になります。
Anthropicのエンジニアリング文化への批判
人々を名指しで呼び出すのは嫌です。そして個人を名前で呼び出すつもりはありません。信じてください、そうしたいです。Anthropicのエンジニアリング文化は中核で腐っています。あなたたちは会社として、ビジネスとして、コーディングが本当に下手です。
雇った個人が悪いのか、文化が悪いのか、インセンティブが悪いのか、それともあなたたちのためにバイブコーディングされたすべてのスロップを書くために使っているモデルが悪いのか分かりませんが、あなたたちの会社はエンジニアリングがひどいために侵食されています。
あなたたちが私たちに投げつけているスロップで、Googleを QAがしっかりした会社のように見せています。そしてそれはあなたたちのモデルを悪く見せます。以前は、それを使ってコードを生成している人々がスロップを生成していることを示していたので、モデルを悪く見せました。
今では、パフォーマンスも悪化させています。人々はあなたたちのモデルを劣化した状態で体験しています。なぜなら、あなたたちのエンジニアが機能するソフトウェアを作るのが下手だからです。それはとてもひどいです。恥ずかしいです。
私が盗んだこのClaudeの帽子をかぶるのが恥ずかしいです。この件についてもっと意見を得たくて投稿しました。真剣な質問です。CodexやOpenAIモデルで意味のある退行に気づいたことがある人はいますか? Anthropicについてはこれをよく話しますが、OpenAIについて同様の議論を見たことがありません。
明らかに、私のGPTビデオは違いました。なぜなら、早期アクセスを得て、それがドロップした時点ではもう存在していなかったハーネスでそれを使っていたからです。つまり、私の体験はあなたたちがエンドユーザーとして得たものとは違っていました。
でもそれ以来、そのようなことは何もありません。そしてそれは、ある日良い体験をして、後で悪い体験をしたあなたたちユーザーではありませんでした。それは、あなたたちが使ったものとは違うものを使っていた早期テスターとしての私でした。
それ以来、そのようなことは何もありません。そしてAnthropicでは毎日このようです。あなたたちは私がやったように早期テストしていますが、Anthropicのすべての製品でです。そして次の日には、それはひどくなり、あなたたちはまだ同じ価格を払っています。
一度悪い週を覚えていますが、一般的にはいいえ。否定的です。私は heavy usage 3x pro planで働いてきました。毎週0%まで実行しています。仕事も非常に多様です。ここそこで些細な問題がありましたが、Codexチームによってすぐに解決されました。私のモデルがまったく愚かになったというような強い引き戻しはありませんでした。
そしてOpenAIのTiboが返信しました。Codex machinesにゴーストがいて、そのための調査を公開しました。リリース後にモデルや思考予算をいじりませんでした。それらを稼働させ続けることに集中しています。それが違いです。
OpenAIの従業員がこれらのことについて入ってきて透明性を持っているだけでなく、ここで問題がCodex machines、つまり私たちが使っていたCodexハーネスにあったことを呼び出しています。モデルが実行されるものに退行がありましたが、それに応じて呼び出し、修正しました。
結論と総評
だから今、この質問に答えなければなりません。これはコーディングのための最高のモデルですか? 時々。Jakeからのこの引用が私の体験を完璧に要約していると思います。4.7は、どちらのラボもしばらくの間にリリースした中で最も奇妙なモデルです。30個のファイルに触れる必要があるバグを突破し、そして修正でブール値を逆にしました。
はい、これが使う感じです。彼らがより良いベンチマークスコアと、できることの仮想的により良い上限を得るために、モデルから一貫性をRLしたように感じます。でも応答の品質の範囲も増加しています。
Opus 4.5は比較的一貫していました。Opus 4.7がするクレイジーで素晴らしいことはできませんでしたが、4.7がするスロップも出荷しませんでした。そしてそれが恋しいです。
モデルが持つ出力の品質にある程度の一貫性があることが恋しいです。でも、最後の一日間OpenAIモデルを使っていなかったからこそ恋しいだけです。
こんにちは、未来からのTheoです。少し酔っぱらっていて、疲れていて、そして非常にイライラしています。なぜなら、他の愚かな理由で自分でこのビデオを編集しなければならなかったからです。それは私のせいです。
この録画の最後に間違いを犯しました。間違いが何か分かりますか? ヒントをあげます。何か欠けているんです。このケーブルです。
愚かな酔った状態で、私はそれほど酔っていませんでした。ビデオ中にビールを2口飲んだだけです。でもこのビデオを撮影していたとき、帽子をかぶり直して、その過程でどうにかXLRケーブルを引き抜いて、このビデオの最後の数秒間のオーディオを殺してしまいました。
正直なところ、Opusが私に影響を与えていると思います。なぜなら、これはモデルがやると期待するような種類のことだからです。とにかく、これを素早く終わらせたかっただけです。だから、はい、モデルは私にとって楽しい体験ではありませんでした。
最初は大きな期待を持って臨み、最初は少し興奮させてくれる振る舞いをしましたが、得ている結果が好きではないんです。他のモデルで経験していない独自のことをやっている唯一のものは、退行であり、新しい有用なものではありません。
とはいえ、とにかく使う人はおそらくすでに購読して支払っているアプリで使うでしょう。4.6から4.7にバンプして試してみることに害はありません。お勧めします。
そして、私とは異なる体験をしたら、教えてください。私は一日の中で12時間ほどかけてこれをテストした一人の人間にすぎません。それが得意なことや苦手なことをすべて知ることは不可能です。私が知っているのは、悪い体験をしたということだけです。そしてそれがどのようなものだったかを皆さんに少し共有したかったんです。
皆さんがどう感じるか教えてください。そして次回まで、ケーブルをノックアウトしないことを祈りましょう。じゃあね、オタクたち。


コメント