君だけじゃない(Claudeは実際にバカになった)

Anthropic・Claude・ダリオアモデイ
この記事は約48分で読めます。

この動画では、AnthropicのClaudeモデルの品質が実際に劣化していたという問題について詳しく分析している。作者は長期間にわたってClaudeの性能低下を感じていたが、それが単なる主観ではなく実際にAnthropicが認めた技術的な問題であったことが明らかになった。動画では、インフラの信頼性問題、透明性の欠如、GPU配分の競合、そして開発者が直面する実際の課題について包括的に検討している。

It's not just you (Claude did get dumber)
I've definitely soured on Anthropic lately, but it's starting to see like that might be because of an infra issue???Than...

インフラと品質の問題

皆さんも恐らく気づいていると思いますが、私は過去1〜2年でAnthropicに対して少し失望してきました。小さな理由はいくつかありますが、大きな理由は、彼らが私の手を骨折させたからです。いや、実際にはそうではありません。彼らが実際にやったことは、私がどんどん役に立たないと感じるモデルやツールを出し続けたことです。

Claude Sonnet 4がリリースされた時は大きな進歩で、その瞬間は感動しましたが、他のモデルが続いて出てきた後、私はそれを使う必要性をますます感じなくなりました。しかし、より重要なのは、GPT5と比較しようと戻ってみた時に、性能がまったく良くないということがわかったことです。ここ数週間で、Claude Codeや公式のClaudeモデルを他のプロバイダーや他のツールと比較しようとする動画を複数撮影しました。

その経験を通して分かったのは、Anthropicのモデルがあまり良くなかったということです。しかし、果たして本当にそうなのでしょうか?私の経験は技術的な問題や、モデルが悪化したということではなかったかもしれません。実は、Anthropic側にバグがあるようです。実際のAnthropicチームによると、彼らはClaudeの一部の応答の品質に影響を与える2つの問題を発見し、解決したとのことです。興味深いですね。

また、第三の別の問題として、Opusの性能が長期間にわたって意味深く劣化していたという問題もあります。さらに、私がこれを撮影している現在、Anthropicのサイトで大規模な障害が発生しています。status.anthropicを2回開いてみましたが、まったく異なるページが表示されました。すべてが混乱状態だからです。また、そこの文字の折り返しを見てください。彼らはこれほど多くのことがダウンすることに慣れておらず、CSSが対応できない状態です。なんというサイクルでしょう。

Anthropicでは多くの興味深いことが起こっています。開発者として受けている品質は大幅に変動しています。これが私たちに与える影響、そしてより重要なのは、これを回避する方法です。これらはすべて話し合う価値のある重要なことだと思います。だからこそ、Anthropicで何が間違ったのか、なぜ最近そんなに悪くなったのか、そして特にクールなバイブコーディングツールを使う体験が、ここでの性能問題や全体的な後退によって影響を受けないようにするために何ができるかについて、非常に深く掘り下げていきます。

スポンサーの紹介

現在ダウンしていないものをご存知ですか?今日のスポンサーです。ユーザーがいない場合は、この部分をスキップできます。しかし、ユーザーがいる方にとって、WorkOSは絶対に知っておく必要があるものです。これらの人々はOを理解しています。設定に使うライブラリのような意味だけでなく、あなたが製品を販売しようとしている企業に対してOプラットフォームを機能させるすべての実装詳細を理解しているということです。

もしMicrosoftが今日あなたに製品を使うよう連絡してきたら、準備はできていますか?彼らがあなたのアプリを使い始めるために必要なすべての統合やSAMLなどを持っていますか?この質問への答えは、「いいえ」か「はい、WorkOSを使っているから」のどちらかです。これらの人々は理解しています。

管理ポータルは、O企業が提供しているものの中で最もクールなものの一つです。Okta、SAML、Duo、ADPなどのすべての混乱に対処する代わりに、顧客に送ることができるリンクを取得し、彼らがITチームと一緒に使ってOを自分たちのやり方で設定できます。そして、これらの異なるすべてのもののための個別の統合を構築することで開発者の時間を無駄にする代わりに、年間数百ドルを節約するために、WorkOSがあなたのためにそれを処理してくれます。

確かに、それはクールです。でも、なぜエンジニアに自分でやらせるためにお金を払う代わりにそれをするのでしょうか?分かりません。OpenAI、Vercel、Cursor、Plaid、Loom、Socket、Perplexity、xAI、WebFlow、Carta、SourceGraph、FAL、Replit、Temporal、またはWorkOSが彼らの生活を楽にすることに気づいた業界の他の企業に聞いてみてはいかがでしょうか。

VercelのGuillermo(究極の懐疑論者)でさえ、私に個人的に、そして今では彼らのページで公に、WorkOSのようなプラットフォームをもっと早く使っていればよかったと思っているし、移行してから生活がどれほど楽になったかを話してくれました。「もしWorkOSをもっと早く使っていれば、さらに多くのビジネスができたかもしれません。それは非常に好評で」と彼は言っています。Vercelに懐疑的であっても、彼らの最大の競合他社であるNetlifyも完全に同意しています。

NetlifyとVercelが同意することはほとんどありませんが、あなたはその反対側にいたくないと思います。soy.link/workで今日チェックしてみてください。

品質劣化の発覚

さて、Claudeは大幅にバカになりました。私はこれを公に言って狂ったのかと思いましたが、これについて長い間推測している人がたくさんいます。サブレディットをチェックすると、止まることのない不満と混乱を見ることができます。

「Claudeは5時間前に死んだのか?」5時間前、「Claudeはダウンしているのか?」5時間前、「Claudeは死んだ」10日前。内部エラー。良い間はよかった。もうClaudeをキャンセルしよう。たくさんあります。「AIのナーフは本当だ。私たちはIs It Nerfという、LLMをリアルタイムでモニタリングするプロジェクトに取り組んでいます。」

「Anthropic公式からRedditでの最近の性能への懸念について非常に興味深いアップデートがありました。これについてのコメントは完全に合理的で、全く動揺していない人々のものになると確信しています。」そして誰かが「すべての返信は偽物でボットの苦情だった。彼らはそのばかげた主張をしてとても得意げに聞こえた。今、彼は性能劣化がないゲームについて文句を言うのをやめろと言うのを見ないだろう」と言いました。

85から94。私が無駄にした200ドルの返金をもらえますか?私の請求サイクルは文字通り94で終了しました。

これは彼らがClaudeで人々が見ていた性能問題について投稿した記事です。先週、一部のClaudeモデルの応答における品質劣化を調査するためにインシデントを開きました。我々は現在解決した2つの別々の問題を発見しました。Claude Opus 3.1の劣化報告を含む、継続的な品質問題を監視し続けています。

彼らがここで「劣化報告を含む」と呼び出したのは、これの直前に別のClaude Opusインシデントがあったからです。つまり、本当に追跡が困難なほど多くのインシデントがあったのです。

インシデントの分類と分析

2つのカテゴリーと何が起こっているか、日付について分析してみます。劣化した知能とは、モデルはまだ応答しているが、応答の品質が悪化しているということです。そして実際のダウンタイムもあります。実際のダウンタイムとは、現在のようにclaude.aiサイトに全くサインインできない状況です。

1分前に試した時、永遠にハングし、その後内部サーバーエラーが発生し、APIもダウンしていました。彼らのインフラ全体が詰まったようです。明らかに、私たちは主に劣化した知能の部分のためにここにいますが、実際のダウンタイム部分についても非常に簡潔にカバーしたいと思います。なぜなら、これが継続して起こることは悪いことであり、私たちが業界として考える必要があることだからです。

今日早くMeduストリームでゲスト出演した際に言ったことの一つは、AIバブルの最大の問題の一つは、日常的に使うものの信頼性が上がるのではなく下がっているように感じることで、これは恐ろしいことです。

Claude.aiウェブサイトのアップタイムは99.24%です。つまり、claude.aiを開く100回のうち約1回は単純にダウンしているということです。または、長時間開いたままにしていてメッセージを送る場合、サイトがクラッシュしていたり、バックエンドが壊れていたりして、単に通らないということです。

正直に言って、claude.aiに行く度に、半分の時間はダウンしているような気がします。公平を期すために、私はそれをそれほど使わないのですが、それは私が非常に信頼性が高いと感じている別のチャットアプリがあるからです。明らかにDeep AI、現在はT3 Chatのことです。非常に良い体験です。

私たちがこれを構築したことに興奮しています。月額8ドルで、すべてのモデルと大幅に優れたアップタイムを取得できます。その理由については少し後で説明しますが、api.anthropic.comはウェブサイトよりもアップタイム的に優れているからです。約0.3%のギャップがあり、これは彼らのAPIを叩いている場合、claude.aiに行くよりもあなたのサービスがアップしている可能性がはるかに高いということを意味します。しかし、アップタイムを向上させる他の方法もあります。それについてはすぐに話します。

このインシデントは1628 UTCから続いており、1時間以上続いています。これを少し理解してみましょう。年の初めに、多くの人が私たちをからかった移行を行いました。データベースを頻繁に変更しすぎるということでです。しかし、それは実際にはデータベースの変更ではなく、バックエンド全体をゼロから書き直したもので、データ移行戦略から、私たちが使っていた古いバージョンのOライブラリに起因する非常に奇妙な組み込みのエッジケースまで、すべてにおいて非常に奇妙なエッジケースに遭遇しました。その後アップグレードしました。

しかし、一部のユーザーが古いバージョンで割り当てられたクッキーを持っていたため、ランダムなエッジケースが壊れました。Convexへの最初の2回の移行を行った際に、私たちのユーザーの一部にとってT3 Chatが使用不可能になる問題を引き起こした多くの小さなことがありました。これらの移行ミスやエラーは、数か月間私を常に悩ませました。

私はこれらのダウンタイム、停止、ミスについて非常に悪く感じました。T3 Chatを常に機能するものとして頼りにしてくれたユーザーが、もう使えなくなったということが、実際に私を深く動揺させました。そのため、これらの停止があった時、私は何がうまくいって何が間違ったか、私たちの計画は何か、どう対処しているかについて、全体的な記事を書く時間を取りました。私はこれを非常に誇りに思いました。私たちは全力で取り組みました。

ここで言及したほとんどすべてのことに対処し、サービスをはるかに信頼性の高いものにしました。私たちは約8分間ダウンしていました。ここでの違いがわかりますか?T3 Chatが8分間ダウンする。私は停止のすべての詳細を所有し、それをどのように対処し、今後このようなことを防ぐために何をするかについて詳細なレポートを提供します。

130億ドルを調達したばかりのAnthropicは、「API、コンソール、Cloudがダウンしています。サービスは復旧されます。修正が実装されました」と識別しました。15分後、「修正が実装されました」。25分後、「修正が実装されました。アップデート:監視を続けています。解決済み。問題は解決されました。」Chatによると、実際にはまだダウンしており、永遠にロードされ続けます。

試してみましょう。「JSで5つのAdvent of Codeの問題を解決してください」。なるほど、再び機能しているようです。しかし、私が生成中にリフレッシュしたのはそのためです。私のお気に入りのチェック。Chatが壊れています。もちろん、私は自分を止めることができません。

Anthropicの従業員からの投稿があり、このバグが修正され、接続をリフレッシュしたり失ったりして戻っても、チャットは問題ないと主張していました。それは3か月前でした。完全に嘘でした。私がリフレッシュしたところ、そのチャットは永遠に消えてしまいました。そのチャットの同じURLにいます。消えています。死んでいます。それが人生です。

実際にチャットやアプリケーションを気にしない会社によって構築された劣悪なチャットアプリを使う時、それは一貫してダウンしており、これは良くありません。彼らのツールに頼ることができないということです。明確にするために、これはサイトとAPIの両方に信頼性の問題があり、それらは深刻です。

私の理解では、ここで間違っている場合は訂正していただきたいのですが、そうでない情報を得た場合です。私の理解では、claude.aiウェブサイトの実装のかなりの部分は、当時内部にフロントエンドの専門家がいなかったために契約した第三者によって行われました。現在は主に内部で維持していると思いますが、claude.aiウェブサイトの多くはClaudeまたは彼ら自身によって構築されたのではなく、第三者の契約者によって構築されたことはほぼ確実です。

サイト品質の比較

それが明らかになっています。主要なラボの中で、サイトは最も壊れています。サイトの品質でランク付けするとしたら、T3 Chatが私たちのトップティア、Deep AIの友人たちが私たちにとって本当に有用なフロアとして、あなたが馴染みがない場合。

彼らにはカーソルに従うドルフィンがあるはずですが、最近それが壊れており、私のすべてのブラウザ、すべてのOSで数日間機能していません。今、ドルフィンは角にいます。これほど多くのスペースがある理由は、それが広告で満たされているからです。興味深いですね。

これが品質のスペクトラムだとすれば、正直に言ってChatGPTは非常に近いと言えるでしょう。持っている機能と信頼性の組み合わせ、それから認めます、これは私を傷つけます。私がこれでどれだけ傷ついているかを知っているでしょう。Grokサイトとモバイルアプリは実際に全体的に非常に良いです。

それから、かなりのギャップがあると主張します。これを使用可能バーと呼びます。使用可能バーは、このバー以下のものはあなたを判断するが、比較的近いことを意味します。Geminiアプリについて言えば、体験の品質と信頼性は全く良くありませんが、機能し、ほとんどの時間生成します、と言うでしょう。

それから、かなり大きなギャップがあり、claude.aiに入り、合理的なギャップがもう一度、そして今、ほとんどのオープンソースモデルラボがあります。特に、これはDeepSeek、Quenなどです。彼らのサイトは良い体験ではなく、モデルを迅速に紹介するために構築されており、粗いです。そして、Deep AIは本当に楽しいミームです。

これら3つのうちの1つを使っている場合、私は大幅に厳しく判断しません。Geminiを使っている場合、私は疑問を持ちます。Claudeを使っている場合、私は懸念があります。DeepSeekウェブサイトを使っている場合、私はどの国家機関があなたに支払っているのかを疑問に思います。Deep AIを使っている場合、あなたは私のビデオを見るには若すぎます。

API停止を防ぐ方法について考えているかもしれませんが、それについてはもう少し後で話します。なぜなら、私たちが本当にここにいる理由である劣化した知能について話したいからです。

劣化したインテリジェンス

一体何が起こっているのでしょうか?まず第一に、Opus 4.1がドロップした時に、かなりの数の人々が性能の劣化を報告していました。ドロップした直後ではありませんが、比較的すぐ後です。人々は性能がそれほど良くないことに気づいていました。思い出してみると、Opus 4.1はGPT5の直前にドロップされました。彼らはGPT5が来ることを知っていて、ローンチを狙い撃ちしようとしていたことは明らかでした。

しかし、同じ理由でローンチを少し急いだようにも見えます。Opus 4.1は2025年8月5日に出ました。8月5日のタイムライン、Opusがドロップ。8月7日、GPT5がドロップ。そして、anthropicステータスページを見ると、彼らによると劣化した品質レポートは8月25日に始まったことがわかります。

これを特に面白くしているのは、彼らが停止中、知能が悪化している間、彼ら自身の言葉で「ユーザーは低い知能、奇形な応答、またはClaude Codeでのツール呼び出しの問題を見た可能性がある」と言っているにもかかわらず、それについて投稿しなかったということです。

この種の言語について重要なことを指摘したいと思います。「ユーザーは見た可能性がある」は非常に特定の言葉の選択です。仮に5%未満のリクエストが影響を受けたとしましょう。これが実際のケースで、それが小さな数字だった場合、それほど悪く聞こえないものだった場合、その割合がここの言葉に含まれていたに違いありません。割合がひどく見えなければ、彼らは絶対に割合を言ったでしょう。

そのため、その表現の使用は5%のリクエストではないことを示唆しています。確実に1%のリクエストではありません。それは意味のある割合です。さらに、「可能性がある」は、ユーザーがそれを見なかった可能性があり、この期間中にAnthropicのAPIやウェブサイトを通してOpus 4.1を使わなかった場合、彼らは見なかったであろうことを示唆します。

つまり、これらの3日間中に使用しなかった場合、Anthropicによると、あなたはそれを経験しませんでした。したがって、100%のリクエストにこの問題があったとしても、あなたはそれを経験しなかった可能性があります。だから、言語はそれが恐らくあったよりも大したことではないように聞こえます。

これは私たちの推論スタックのロールアウトによって引き起こされ、Claude Opus 4.1についてはロールバックしました。モデルの効率とスループットを向上させることを意図した変更を頻繁に行いますが、私たちの意図は常に同じモデル応答品質を保持することです。ここで事態は本当に興味深くなります。

あなたは私が少し前にやったClaude Codeの価格についてのビデオを覚えているかもしれません。Claude Codeがはるかに高くなりました。ここでチェックしました。Anthropicがまだ私を打ち負かしていなかったので、私はまだ手首がありました。より重要なのは、これがOpus 4.1がドロップする直前の8月1日だったことです。つまり、この8月初旬の時期に多くのことが起こっていたようです。

これらのことには、GPT5の前に出ようと急ぐこと、コストが急速に高騰していたためのCloud Codeのコストの削減、そして間違いなく最も重要なのは、トレーニング目的のために可能な限り多くのGPUを利用できるようにすることでした。

GPUの配分問題

現在Anthropicには興味深い問題があり、私は少数の人々から聞いています。彼らは特定の数のGPUを持っているため、内部で少し争いがあります。明らかに、すべてのGPUはボックスで表されています。そして、このボックスの中に、彼らは異なるもののためのGPUを配置する必要があります。

CloudのAPI用のGPUが必要です。つまり、API cloud.aiを叩いている場合、そのためのAPIが必要です。そしてそのために予約されたGPUが必要です。claude.aiのために予約されたGPUが必要です。そして研究目的のためのGPUが必要です。彼らはGPUを使う必要がある3つの異なることがあり、これらは常にお互いに競争しています。

8月11日、GPT5の混乱の中で、Sam Altmanは私をそれ以来悩ませているツイートをしました。これが彼らがコンピュートを優先している方法です。GPT5、より高い需要などのために、より多くのコンピュートが必要になるにつれて、第一の優先事項は、現在の支払いChatGPTユーザーがGPT5以前よりも多くの総使用量を取得することを確実にすることです。十分なGPUがない場合、そのレベルのトラフィックを提供できません。

つまり、ユーザーが購読からより多くの使用量を得るために、彼らはより多くのGPUが必要です。彼らが得ているすべての新しいコンピュートは、まず第一にChatGPTユーザーの体験を向上させるために使用されます。その後、彼らは現在割り当てられた容量と顧客に対して行ったコミットメントに対してAPI需要を優先します。

大まかに言えば、現在の容量から今日いる場所から約30%の追加のAPI成長をサポートできます。つまり、再び、これは彼らがAPIアクセスに提供する予定のコンピュートの量です。需要が特定のポイントまで増加するにつれて、APIに使用されるサーバーに新しいGPUを配置し続けますが、有料のChatGPTユーザーを優先し続けます。

その後、彼らはChatGPTの無料層の品質を向上させます。そして、増加した新しいAPI需要を優先し始めます。つまり、すでにレート制限が設定されているOpenAI APIの顧客である場合、有料ユーザーが良好であることを確認した後、そのために十分なGPUがあることを確認します。そして、新しいユーザーであったり、レート制限を高くしたい場合、あなたはここで4番目に来ます。

企業が内部的にどこの各GPUが行くかを考えている方法について、この透明性と報告レベルを実際に高く評価します。これらのそれぞれをバケツのように考えると、CloudのAPI、claude.ai、研究目的、そして希望するなら無料対有料層も含めることができます。

特に理由もなく緑色の新しいGPUを取得します。間違いなくAMDのブランドカラーです。新しいGPUが入ってきます。それを配置できる場所を見て、どこに行くかを選択します。これがOpenAIだった場合、これらのユーザーが持っているGPUとコンピュートの量に満足するまで、基本的に毎回このバケツに入れるでしょう。

時々、APIに1つ投げ込み、研究にも1つ投げ込みます。しかし、新しいGPUが来ると、Nvidiaから新鮮に取得したこの新しいGPUがあります。どのバケツに入れるかを選択する必要があります。異なる企業でこれらのものがどのように配分されるかには大きな違いがあります。

そして、Anthropicの配分はこのように見えるということが私の理解です。Anthropicの目標は、最高のモデルを作り続けることができるように、可能な限り多くのコンピュートを研究に配置することです。なぜなら、それが彼らがやりたいことだからです。それが彼らが勝ちたい方法です。彼らは優れた製品ではなく、優れたモデルを作りたいと思います。彼らは本当にモデルを例外的なものにしたいと思っています。そのため、彼らはこれを行います。つまり、Anthropicの使用量が実際に人々のニーズを満たすためにこのバーがここにある必要があるほど高いことが判明した場合、彼らは何ができるでしょうか?彼らは多くのことができます。そして信じてください、彼らは多くのことを行います。

新しいモデルがドロップした時にレート制限をリセットするようなことを愛しています。また、モデルのデプロイメントをより効率的で高速にするために更新することも愛していますが、時々わずかにバカになることもあります。また、時には、より一般的でない時間に推論を行う場合により安価なバルクAPIを導入することもあります。

これらのプロバイダーがオフピーク時間(例えば週末の深夜)に推論を行う場合、75%も割引されるバルクAPIを提供することがますます一般的になっています。その理由は、私たちがAIを使用する方法とは異なり、率直に言って私たちの経験からすると非常にシンプルに感じるからです。どこかクラウドにこの大きなブラックボックスがあります。

誰かが生成しようとしているユーザーリクエストがあります。彼らはそのメッセージをクラウドのこの魔法のブラックボックスに送ります。それがレスポンスを生成し、ユーザーはメッセージを受け取り、そして使用されたトークンあたりに料金を支払います。AI企業のコストはトークンあたりのコストではありません。

物事がどのように価格設定され、どのように話されているかを見ると、そのように思えるので、私たちがそれに陥るのは非常に簡単です。トークンコストに行くと、これは入力と出力でトークンがフレーズや用語、またはトークンが何であるかをどのように分解したいかあたりにかかる金額です。そして、これが実行するのにかかるコストだと考えるのは簡単です。

より多くのトラフィックが入ってくると、より多くのレスポンスを行うためにより多くのお金を使うことができます。しかし実際には、彼らが持っているGPUの数は固定されています。一度に実行できることの数も固定されています。例えば、Anthropicが現在のGPUで一度に10のリクエストを実行できると仮定しましょう。

もっと小さくして作業しやすくしましょう。AnthropicがGPUを4つ持っているとしましょう。私は彼らがそれよりももう少し多く持っていることは確信していますが、理解いただけると思います。そして、ユーザーが行いたい生成のリクエストのキューがあります。この場合、APIからです。このリクエストが入ってきて、最初に利用可能なGPUに送られます。次のリクエストが入ってきます。

まだより多くのGPUが利用可能です。だからそれにそれを投げます。これはここに行きます。これはここに行きます。おっと、GPUが足りません。この次のリクエストをどこに送りますか?これをGPUに送る方法は?通常、私たちがしなければならないのは、これらのうちの1つが完了するまで待つことです。今それが完了しました。今、GPUが利用可能です。利用可能なGPUに行くことができます。

リクエスト負荷に対して十分な利用可能なGPUがない場合、事態は非常に早く悪くなり始め、リクエスト負荷を減らし、インフラでの利用可能性を増加させるためにできることは何でもし始めます。これらが通常応答に25秒かかり、それを15秒に減らす方法を見つけた場合、固定数のGPUを持っているため、突然はるかに多くの利用可能性を持つことになります。

夜間や他の時間帯で、より少数のユーザーがいて、突然キューにリクエストの数がある場合(この場合は7または6)から、Anthropicが利用可能なインフラよりも少ないリクエストを持つ場合、物事はさらに楽しくなります。数十万ドルではないにしても数万ドルを費やしたこのGPUが、何もしないで座っています。

その上、ユーザーがGPUを叩く時に存在する固定費があります。はい、彼らはすでにGPUにお金を払っているので、基本的に無料ですよね?いいえ。電気代です。楽しい思考実験です。私はRTX 5090を持っています。私はサンフランシスコに住んでいます。私の5090でランダムなLLMのことをするのが好きです。もしRTX 5090を一か月間100%で実行したら、電力にかかる月額費用はいくらでしょうか?

文脈として、このカードは2,000ドルから3,000ドルです。2,000ドルのカードの月額電気代はいくらだと思いますか?計算をして数字を知った時、私は非常に驚きました。月額200ドル強になるでしょう。それは年間2,400ドルになります。

私の即座の考えは、それはサンフランシスコの電気代が本当に、本当に高いからだということでした。これを米国のより安い場所に置いた場合はどうでしょうか?どれだけ安くできるでしょうか?私が正しかったことが判明しました。SFの電気代は本当に高いです。それらは国内で最も安い場所の約2倍高く、それでもGPUを動かすのに月額100ドルまたは年間1,200ドルが残ります。

そして、これらの企業が使用しているGPUの1つではありません。これはH100やH200やそのようなものではありません。これはビデオゲームをプレイするためのゲーミングGPUです。そしてそれでさえ、月額とんでもない金額を叩いています。H200は700ワットを取ります。5090は575です。だから、それは実際に非常に効率的です。H200がそれほど良くなることができることに驚いています。

HGX 2008 HGPUクラスターは、人々がこれを行うために使用する一般的なボックスで、最大5.6kWです。つまり、より多くのNVLinkコネクタを導入し、同じシステムに複数のGPUを配置して、複数のGPUが同じことに取り組むようにすると、電力は線形ではなく、わずかに悪化します。8GPUは5.6キロワットになるでしょう。つまり、それは5600ワットです。私のすべての数字に10を掛けます。

はい、そのクラスターは8つのGPUで年間24,000ドルの実行コストがかかるでしょう。電気のコストは本当に高いです。5090での私の体験が他のGPUに引き継がれると仮定した私の大まかな計算から、GPUのコストは大体1年間の電気使用量と一致します。本当に、本当に大まかな計算です。コストの50%はGPU、50%は電気です。

しかし、再び、電気コストは繰り返されるものです。これらのGPUを手に入れて3年間使い続ける場合、これはGPUがより安く、電気がより高価になる方向にシフトするでしょう。GPUは開始するための前払いコストです。電気はそれらを実行するための一貫したコストです。

トラフィックパターンとコスト

それでは、トラフィックパターンについて考えてみましょう。日中に十分なGPUがない場合、それはより多くのGPUを購入する必要があることを意味し、トラフィックは今や本質的により高価になります。なぜなら、それを提供するためにより多くのGPUを購入する必要があるからです。ほぼ2倍高価です。

しかし、リクエストよりも多くのGPUを持っている場合、1年以内に測定するそのコストは約50%です。なぜなら、すでにGPUにお金を払っているからです。それらはそこに座っています。そのGPUのために電気の半分だけを支払う必要があります。

明らかに、それは約50%の割引になります。彼らがそれを行う理由がわかりますか?電気のコストを反映しています。しかし、GPUは他の方法で何もしないで座っているため、彼らはそれを何もしないで座らせません。彼らはインフラを割引し、人々がそれを使用する他の方法を見つけて、あなたが彼らに割引を支払うことができ、彼らは実質的に空の家で座る必要がないようにします。家主のように想像してください。

空いている家はすべて彼らにお金を費やしています。そこに住んでいる人がいるほど高価ではありませんが、この空の財産を維持するのにお金がかかります。結果として割引を取ることになっても、誰かをそこに詰め込むことができるなら、それは価値があります。

それはすべて言われていますが、Anthropicは130億ドルを調達したばかりです。だから、彼らはもう言い訳がありません。

キューが大きすぎ、anthropicインフラが小さすぎる問題を解決する方法は何でしょうか?明らかに、それはおそらくやる価値がありますが、時間がかかり、Nvidiaは現在販売する在庫と供給よりもはるかに多くの需要を持っています。だから、インフラを拡張するのに時間がかかるでしょう。

オプション2、アクセスを制限します。これは、彼らがほぼすべてのanthropicアカウントに置いている本当に厳しいレート制限のようなものです。彼らはY Combinatorの会社に取引を与え、その一部はレート制限を増やすことです。そしてそれでも、私たちは一貫してレート制限に突き当たっていることがわかりました。

私たちがT3 chatで信頼性高く提供できるように、Sonnet 4がドロップした時にCloud Sonnet 4により多くの配分を求めた時、彼らの応答は「申し訳ありませんが、それはできません。より高い配分を要求した人々のキューにあなたを置きます」でした。そして、彼らはそれがどれほど悪いかについて私がバイラルな投稿をしているのを見ました。

また、Anthropicに私を好きで、私たちのために物事がうまくいくように懸命に働いている数人の人がいます。だから、彼らは私に興味深いオファーをしました。他のモデルのレート制限を下げることで、私のsonnet 4レート制限を増やすことを申し出ました。

彼らがこれを申し出る理由は、彼らのデプロイメントのそれぞれが特定のモデルのセットを持っているからです。これらのデプロイメントがある場合、彼らはこれら2つをグループ化してOpus 4.1を実行しているデプロイメントにし、Sonnet 3.5のような別のものを実行している他のものを別々に持つかもしれません。

彼らがこの方法で行う理由は、これらのモデルが非常に大きく、これらのGPUのVRAMにそれをロードする必要があるデータがたくさんあり、各リクエストで1つのモデルをアンロードして別のものをロードする必要がある場合、最初のバイトまでの時間がはるかに高くなるからです。

数百ギガバイトをメモリにロードしてからリクエストを提供し、次のものが異なるモデルのために入ってきた時に、すべてのデータを取り出し、新しいデータを入れて新しいリクエストを実行する必要があるまで、応答を開始することができません。それは非現実的です。だから、ほとんどの会社は比較的厳格にインフラをプロビジョニングします。

各GPUは特定のモデルと特定の目的のために専用です。Anthropicが古いモデルに対してGPUが過剰に配分され、新しいもののために不足配分されている問題があり、Opus 4やSonnet 4のような新しいモデルへのより多くのアクセスを提供したい場合、彼らは私のような人に連絡して、「Sonnet 4でより高いレート制限を与えるが、他のレート制限から取ることを許可する場合のみ」と言うでしょう。

そして覚えておいてください、これらのレート制限は保証ではありません。もし誰もがAnthropicの現在のアカウントでレート制限の半分にでも当たっていたら、インフォは完全にダウンするでしょう。彼らは大多数のユーザーがそれに近づかないことを期待し、定期的にそれに当たっているユーザーが合理的な時間内にサービスを受けられることを願っています。

戦略1、より多くのGPUを購入します。戦略2、アクセスを制限します。これには、彼らが実質的に無制限の推論を与え、コストを食い、それと一緒に前進していたcloud codeサブスクリプションに対して行った変更のようなものも含まれるでしょう。

彼らはコストがどれほど大きくなっているか、お金を費やしていた200ドル層にどれだけのGPU配分が使用されているか、cloud codeのためにますます多くのGPUが必要になっているためにAPIのようなもののユーザーにサービスを提供することがより困難になっているかを見ました。

だから、彼らは従来のユーザーのためにより多くのコンピュートを確保することを期待して、cloud codeをどれほど積極的に使用できるかを制限したかったのです。また、これらの従来のユーザーは、おそらくcloud codeユーザーよりもトークンあたりはるかに多くのお金を支払っているでしょう。

しかし、今私たちはポイント3にいます。リクエストに対してより多くの配分、より多くの利用可能性を取得することによって、彼らのサービスの信頼性問題を改善するために彼らができる最後のことは効率です。

リクエストを25秒ではなく15秒で解決することをより効率的にすることができれば、それは効果的に彼らの容量を増加させます。そして、より少ないメモリとリソースを使用し、リクエストにより迅速に応答する方法を見つけた場合、これらの改善のそれぞれ、応答時間の1%の改善でさえ、GPUがより速く解放されるため、より多くの容量を可能にします。だから、彼らは常に効率を向上させる方法を探しています。

他社との比較

Anthropicがこれを行うことと他のラボがこれを行うことの違いは、ほとんどの他のラボがそれと一緒に何かを発表することです。OpenAIがO3をはるかに効率的にした時、彼らは価格を約80%下げました。GPT4をより効率的にした時、彼らはGPT4oと呼ばれる新しいモデルとしてそれを出しました。

Anthropicが物事をより効率的にする時、彼らはより多くのマージンを得るだけです。彼らは本当にそれらのタイプの事柄について話したり開示したりしません。彼らは「やあ、私たちはこれをより速くした」と出てきて言いません。彼らは単にどれだけ多くのお金を節約しているかの波に静かに乗るだけです。なぜなら、彼らの実際のコストが百万トークン当たり15ドルで、40%コストを削減する方法を見つけた場合、Anthropicは決して価格を下げないため、価格を変更しません。

彼らは単にしません。十分なお金を使うことに同意すれば、小さな割引を与えます。彼らは、月に最低20,000ドルを使い、3か月間月に20,000ドルを支払う契約にサインすることに同意すれば、その20,000ドルに対して5%の割引を与えようとしていました。

それ以上使っても、より大きな金額に対しては割引を受けません。それらの20,000ドルのコミットメントに対してのみ5%オフになります。そして、いつでも下回った場合、私たちは困ります。ある月に15,000ドルしか必要なかったが、20,000ドルの契約を持っていた場合。私たちは5,000ドルを燃やしただけです。それを火にくべただけです。

常にAnthropicはこれら3つすべてを実行しています。彼らはより多くのGPU、より多くのコンピュート、より多くの配分を取得するためにできることはすべて行っています。プラットフォームがどれだけ乱用されているかを減らし、API使用ケースと研究ケースのためにどれだけ多くの利用可能性を準備できるかを減らすために、アクセスを制限する方法を見つけようとしています。そして、彼らが1秒あたりにより多くを完了し、結果としてより多くのコンピュートを利用できるように、物事をより効率的にしようとしています。

そして、今私たちは楽しいパートナーシップ側に入ります。これは、開発者としてこの問題を解決する方法について話す部分です。これはAWSコンピュート、特に彼らがAIのことをより速く行うために自分たちのチップを構築しているAIチップエリアにあります。

Anthropicでは、何百万人もの人々が仕事のために毎日Cloudに依存しています。私たちはAWSとの2つの主要な進歩を発表しています。第一に、Amazon Bedrock経由でTranium 2で60%速く動作するCloud 3.5 Haikuの新しいレイテンシ最適化バージョンです。第二に、プロジェクトRainierです。数十万のTranium 2チップを提供し、以前のクラスターの5倍以上のサイズで数百エクサフロップスを提供する新しいクラスターです。

プロジェクトRainierは、私たちの研究と次世代のスケーリングの両方を支えるのに役立ちます。顧客にとって、これはより多くの知能、より低い価格、より高速なスピードを意味します。私たちはまだこれらの結果を見ていませんが、これはCloud 3.5 Haiku時代でしたが、理解いただけると思います。

Anthropicモデルは単にAWSで利用可能なだけではありません。Open Routerに行くと、任意のモデルを見ることができます。Sonnet 4をクリックしてみましょう。そして、ホストできる場所がいくつかあります。Anthropicモデルの重みをダウンロードできないため、混乱するかもしれません。それらはオープンウェイトではありません。なぜ他の場所で使用できるのでしょうか?

彼らは様々なクラウドと戦略的パートナーシップを形成して、そのクラウドでAnthropicモデルをホストできるようにしています。すでにGoogle CloudやAWSの顧客で、自分のクラウド、自分のインフラ、自分の請求、自分のプライバシールール、自分のすべてでこのモデルを実行する能力が必要な場合、これによってそれができます。

そして、Anthropicが十分なインフラを持たずにこれらの人々にサービスを提供することと、より重要なのは、人々が望むように自分のクラウドでインフラを使用できるようにする方法が必要だったことの組み合わせで、これらのパートナーシップを結びました。

これはAnthropicが行った多くの戦略的決定の1つで、開発者と専門的な使用ケースのためのクラウドの選択モデルコレクションになった結果だと私は主張します。AWSに配置でき、Google Cloudに配置でき、開発者とうまく機能し、コードとうまく機能し、ツール呼び出しを本当にうまく処理しました。

これらすべてのことが、開発者である私たちと企業によってAnthropicモデルが好まれるようになりました。Google Vertex、Google Vertex Global、Google Vertex Europe、そしてもちろん公式のanthropicAPIと一緒にAmazon Bedrockがあります。

興味深いことに、Bedrockのアップタイムは現在ごみのようです。私はそれを推測しなかったでしょうし、それは見るのがちょっと恐ろしいです。しかし、例えばGoogle Vertexのアップタイムを見ると、99.75%、グローバルは99.76%です。そして96.35%を見ると、99のアップタイムです。理解していますか?

Open Routerのようなものを使用し、自分のキーを持参しない場合、それは特定の時間に応答する可能性が最も高いと彼らが見ているものに自動的にルーティングします。Anthropicが協力するプロバイダーが彼らと同じ金額を請求することを強制するため、これらの異なるプロバイダーのコストは同じです。それは彼らのポリシーの一部です。

つまり、これらのそれぞれは同じコストです。Google Vertexのようなものの中には、Anthropicよりもほぼ6秒速く応答するものがあります。それは最初のトークンまでの応答時間の約20%の削減です。そして、スループットは大体同じです。Anthropicが遅い瞬間があります。

現在のようにGoogle Vertexが遅いモデルがありますが、それはかなり変動します。また、Bedrockは通常90TPSでかなり速いです。ただし、彼らのアップタイムに何が起こっているかはまったくわかりません。

解決策とお勧め

Anthropicモデルに依存している場合、私の意見では、Anthropicのインフラに依存すべきではありません。Anthropicは何度も何度も、彼らのインフラが実世界の使用ケースにとって十分に信頼性がないことを証明しています。それは非常に不満で迷惑です。

彼らのモデルを使用したい場合、トラフィックが実際に応答を得る場所にルーティングされることを確実にするために、Open Routerのようなレイヤーを使用することを強く推奨します。Anthropicのインフラが構築インフラがあまり得意でないために単にダウンしてしまう窓にたまたまいる場合、サービスのエラー率が突然100%にスパイクするのは本当に最悪です。

彼らがバイブコーディングをしているのか何なのかわかりませんが、定期的にダウンし、入ってくるリクエストに対して十分なGPUがない配分問題があります。このようなものはそれを避けることをはるかに簡単にします。

これが私がOpen Routerの人たちを愛する理由です。これが私が彼らと非常に密接に働く理由です。彼らは私にお金を払っていません。私は彼らにお金を払っていません。お金は交換されません。株式も交換されません。私は単に彼らがやっていることが好きです。

T3 ChatのAPIを求めている場合、あなたが求めているものは実際にはOpen Routerです。そして、なぜ彼らがお金を稼ぐのかを理解できるでしょう。先ほど言ったように、Anthropicに十分なお金をコミットすれば、最大5%の割引を得ることができます。彼らは毎秒これらのもので何百万ものトークンをやっているため、わずかに良い割引を得ることができます。

特定の日に、Claude Sonnet 4だけで最大1100億トークンを通すことができます。それは非常識です。それは理解しがたいほど非常識です。これは彼らがかなり良い割引を得ることができることを意味します。おそらく8から10%の割引を得ているため、それが彼らのマージンです。あなたは通常の価格を支払い、彼らはわずかに割引された価格を支払い、利益を取ります。それが彼らがお金を稼ぐ方法です。

それは合理的なモデルです。私は全体的にそれに満足しています。自分のキーを持参することになった場合、請求がその代わりに通るようになります。代わりに彼らは割合を取ります。クレジットを追加する時に5%の手数料がありますが、より重要なのは、自分のキーを持参する場合、Open Routerでコストがかかる同じモデルプロバイダーを通常使用する場合に5%の手数料があることです。

つまり、自分のキーを持参する場合、実行している推論に対して5%のマークアップを支払っています。しかし、そこでの利点は、異なるプロバイダー間でローテーションするため、ダウンすることを心配する必要がないということです。

私がいくつかの理由でこれをすべて面白いと思います。まず第一に、AnthropicがOpenAIとWindsurfから彼らのモデルへのアクセスを切断しようとしていた以前のドラマがありました。それは特に面白いのは、彼らがアクセスを切断した場合、Open Routerはアクセスを切断しないからです。Googleはアクセスを切断しません。AWSはアクセスを切断しません。彼らはまだモデルにアクセスできます。

彼らは公式のanthropicプロバイダーへのアクセスを失うだけで、とにかく使うべきではありません。彼らがインフラから顧客を追い出すたびに、Open Routerや他のプロバイダーの認知度を構築しているだけなので、私にとってはほとんど面白いです。顧客を追い出すたびに、Anthropicモデルを使用できる他の場所があるという事実を他の人に認知させただけです。

品質問題のタイムライン詳細

モデルの品質の問題のような問題がある時も面白いです。つまり、私たちが以前にタイムライン化していたもので、私がこのすべてに脇道にそれる前のものです。つまり、モデルの品質のひどい問題です。だから、私たちのタイムラインに戻りましょう。

8月25日、OBSの品質失敗がついに確認されました。8月28日、品質失敗がおそらく修正されました。そして8月30日に、初めて彼らが問題があったことを確認しました。そして明確にするために、人々は8月5日まで遡ってAnthropicモデルでの応答品質の問題について文句を言っています。

特に、Claude Codeユーザーは、cloud codeの使用からの品質劣化を報告しています。覚えておいてください、彼らはcloud codeのコストを削減し、トレーニングとopusドロップのためにより多くのGPUを利用できるようにしようとしていました。だから、彼らは明らかに、特定のリクエストに使用されるコンピュートの量を削減するために、いくつかの奇妙なことを行っていました。

品質が様々な理論がありました。人々はモデルを量子化していると言ったり、特定の時間にcloud codeからのトラフィックを非優先化したりしていると言ったり、そのようなことをすべて言っていました。しかし、結局、おそらくそのどれでもありませんでした。それらのことが劣化を起こすことに結果として至ったかもしれませんが、私は彼らがモデルをバカにすることを意図していなかったと言う時、彼らを正直に信じています。

本当にLLMプロバイダーが多くの理由でそれをする意思があるとは思いません。それはすべて言われていますが、それがそれほど長い間気づかれなかったという事実は情けないです。そして、いいえ、私は8月25日から30日について話しているのではありません。

モデルが大多数のユーザーにとって3日間悪化していたにも関わらず、彼らが修正したとされる2日後まで認めなかったことは情けないですが。それがこの話のすべてだった場合、私はビデオをやることについて50/50だったでしょう。しかし、今日物事がはるかに面白くなりました。

私たちはいくつかのcloud応答で品質に影響を与えていた2つの問題を発見し、解決しました。継続的な品質問題を監視し続けています。これらのバグを特定し、分離するのに役立った詳細なコミュニティレポートに感謝しています。これは私たちが見たばかりの問題のように聞こえますよね?それらが同じだと思っても責めません。

しかし、彼らがここで言っているように、先週、いくつかのcloudモデル応答での劣化品質を調査するためにインシデントを開きました。彼らが調査していたそのインシデントは、私たちが話したばかりの別のOpusバグのためでした。そしてこの作業をしている時、彼らはさらに多くを発見しました。現在解決されている2つの別々の問題を発見しました。継続的な品質問題を監視し続けています。

しかし、これのタイムラインを見てみましょう。Cloud Sonic 4リクエストの小さな割合(割合は言いませんが、小さな割合)が、8月5日から9月4日まで、8月29日から9月4日の影響が増大したバグによる出力品質の劣化を経験しました。修正がロールアウトされ、インシデントは解決されています。

より面白いタイムライン用意ですか?8月29日から9月4日はそれが悪化した時です。その頃に他に何が起こったか知っていますか?Opusの修正とされるものです。つまり、opusバグを修正しようとする彼らの試みの中で、このタイムライン中にまだ発見されていなかった既存のバグの上に、より悪いバグを導入しました。

つまり、8月25日から28日の間のOpusでのより大きな性能問題を修正しようとする彼らの試みの中で、彼らは調査しなければならなかった別のより大きな性能問題を引き起こし、それが以前に発見していたバグの指数関数的により悪いバージョンであることを認識し、最終的にそれを修正したとされます。

しかし、ここで私が指摘したい本当に重要な部分は、再び彼らの言語を過度に読むことです。Cloud Sonet 4リクエストの小さな割合が出力品質の大きな劣化を経験しました。小さな割合が何であるかについて私たちはすべて議論することができます。彼らが5未満を意味することを望みます。理想的には、彼らは1未満を意味するでしょうが、おそらく彼らはこれについて5%未満を意味するでしょう。

別のバグが一部のClaude、Haiku、Sonnetリクエストの出力品質に影響を与えました。彼らが小さな割合から一部に変わることに注意してください。彼らは嘘をつくと訴えられる可能性があります。だから、彼らはここで嘘をついていません。再び、彼らは可能な限り大したことではないように聞こえる言語を使います。なぜなら、Anthropicは透明性に興味がないからです。

この最初の問題は小さな割合だったので彼らはそう言い、この問題と以前に議論したopus問題も小さな問題ではなかったため、そう呼ばれませんでした。また、ここで8月29日から9月4日まで影響が増大したという場合、彼らはどれだけ増大したかは言わず、ここのコンマも非常に戦略的です。小さな割合は8月5日から9月4日だったが、影響は8月29日から9月4日に増大したからです。

私は言語を過度に読んでいることは知っていますが、彼らは私たちに何も与えてくれません。再び比較のために、GPT5が私のビデオで議論した体験品質を提供していないために私は大変なことになりました。それ以来、人々はより良くも悪くも私が正しかったことに気づいたようです。GPT5は特にコードのことについて本当に良いモデルです。

しかし、この瞬間彼らはそうしませんでした。なぜ奇妙なバグやGPT5の実装での停止がChatGPTで起こったかが大きな部分でした。OpenAIのCEOであるSam Altmanが公に出てきて、GPT5は今日からよりスマートに見えるでしょうと言います。昨日、オートスイッチャーが壊れ、1日の間サービス停止していました。結果として、GPT5がはるかにバカに見えました。

また、決定境界がどのように機能するかについて、より頻繁に適切なモデルを取得するのに役立つはずのいくつかの介入を行っています。ここでの違いを理解していますか?OpenAIがオープンでないことについて好きなだけ悪口を言ってください。彼らは奇妙に透明です。私はOpenAIが持っていて私が持っていない重要な情報があり、私がそこで知っている人の一人に尋ねるか、TwitterでSamに返信するだけでは得られないと感じたことは一度もありません。それは透明性の異なる世界です。

昨日、オーディターが壊れ、1日の一部の間サービス停止していました。結果は、GPT5がはるかにバカに見えたということです。これはユーザーの小さなまたは大きな割合を言っているのではありません。これは1日の一部、意味のある一部の間、すべてのユーザーがより悪い体験をしたと言っています。ここには不明確さはありません。

正確なタイムラインが欲しい場合、彼らはそれらをステータスページに載せていると確信しています。しかし、彼らはここで多くを隠していません。何が壊れ、その結果について教えてくれています。それはすべてがバカに見えることです。

再び比較のために、Claudeから得られた唯一のコムは、「いくつかのClaude応答で品質に影響を与えた2つの問題を発見し、解決しました。監視し続けています」でした。そして公式ステータスでは、可能な限り曖昧になりました。

つまり、私が文の中でコンマをどこに置くかを過度に読むことで悪口を言いたいなら、実際に何が起こっているかを開示していない彼らに10倍多く悪口を言った方が良いです。Anthropicは開発者フレンドリー、ビジネスフレンドリー、そしてよく整合された代理的モデルツーリング会社として、優れたモデル、優れたツールを構築し、私たちがこのすべてのAIのものを構築する標準を発明するという認識を維持したいと思っています。

彼らはそれのように行動し始めた方が良いです。なぜなら、彼らは良い理由なしに非常に不透明だからです。この情報を開示しないことの利点は1つを除いてありません。私は彼らに否定を与えます。なぜなら私は自分でそれを経験したからです。

私が以前に持ち出したT3 Chatのダウンタイムについて話した投稿を覚えていますか?今日まで、私たちはランダムなヘイターから止まることのない悪口を受けています。「なぜT3 Chatを使うのか?いつもダウンしている。データベースを変更するのをやめない。もっと信頼できるものを使う」と言っています。

99のアップタイム未満を持つプロバイダーのようなより信頼できるもの。数日前に文字通り何時間も応答を生成できなかったウェブサイトのようなより信頼できるもの。OpenAIも厳しくするために、彼らは少し前に大きなおっちょこちょいをしました。

私はChatGPTでメッセージを編集しようとしていて、これが私が試した時に起こったことです。何かの理由で応答を送信しなかったので、編集ボタンをクリックしました。それをした時、すべてが消え、それを元に戻すことができませんでした。リフレッシュしようとしました。このUIが表示され、応答のボタンを表示する空の応答がありましたが、機能しませんでした。

新しいスレッドで再び試しました。52秒間考え、16秒間考えました。何もありません。何をしても応答が表示されませんでした。そして私の個人的なお気に入りはこれでした。3回再生成していました。だから、ここに1、2、3の応答がありました。私はこのUXが嫌いです。だから、私たちはそれをT3 chatに持っていません。

しかし、ここで面白くなります。3つのうち2つは30秒間考え、何もありません。右をクリック、3つのうち3つ、文字通り何もありません。左、30秒間考え、何もありません。そして、3つのうち1つは非常に壊れており、表示さえしません。これらは3つの別々の壊れた空の状態です。1つはUIを壊します。

2つは考えたと言い、何も表示しません。3つは何も表示しませんが、まだボタンがあります。絶対に面白いです。なんという停止でしょう。それはすべて言われましたが、OpenAIはそれを完全に所有しました。ChatGPTが応答を表示していません。私はTwitterでこれについて何かを見ましたが、彼らはそれがどれほど悪いかを隠していません。

これを部分的な停止と呼ばないでしょう。なぜなら、それはChatGPTで絶対に機能していなかったからです。しかし、これがいつ始まり、いつ終わったかの非常に明確なタイムライン。そう長くありません。そして実際、それはかなり長いです。午前1時10分から午前2時51分まで、応答が表示されない2時間のようなものはかなり情けないです。それは彼らに与えます。

これはすべてのプロバイダーで起こることが私が作りたい主なポイントです。誰もこれを完璧にはやりません。だから、これを改善するために、何が間違ったか、何が起こっているかを所有し、透明で、コミュニケーションを取る必要があります。

実際に私はこれについて理論があります。Anthropicで私が早くやったリフレッシュテストを覚えていますか?すぐにサイトを壊しました。それはChatGPTで起こっていました。私は現在5つの言語でAvent of codeを生成しています。

リフレッシュしました。トークン履歴を再生しているため、トークンごとにフラッシュして応答を生成する必要がありますが、生成中にリフレッシュして、非常にうまく機能します。見るのは非常にクールです。間違いなく、それが組み込まれた他のチャットアプリを見たことがありません。絶対にありません。以前にその種の行動を見たことはありません。

私たちのものがポイントまで生成しないことに注意してください。フラッシュインしてから前進して生成します。私たちはこれをどのように構築したかに多くの作業を入れました。つまり、彼らは今これを処理します。しかし、これを処理するために、UIで応答をレンダリングする方法を根本的に変更する必要があります。データがどこから来るかを変更するだけでは、これが機能することを期待できません。

データがどのように入ってくるか、どのように処理されるか、どのようにレンダリングされるかについて意味のある変更を行う必要があります。そして、私の推測では、彼らは新しい再開可能なストリームのものを導入し始めるために入れたABのような機能フラグを持っていました。そしてそれが応答のレンダリング方法を壊し、プッシュアウトされました。

何らかのAPI変更がこの新しい機能フラグがヒットされることをトリガーし、突然応答が表示されなくなりました。それが何が起こったかについてほぼ確信しています。それがそうでなかったら驚くでしょう。それでも、私はここで推測しているだけです。なぜなら、彼らはそれが始まった瞬間、終わった瞬間を超えて何が間違ったかについて透明ではなく、誰かがそれについてツイートしてくれたと思うし、ありがたいことに。

それでも、Anthropicから得ているものよりもはるかに良く感じます。それは問題が解決されるまで問題の認識がゼロということです。これらのモデルの停止が発生している時、Anthropicウェブサイトには通知がありませんでした。実際、応答の品質が悪くなったことに気づいたため、ボットであり、ガスライティングであり、OpenAIから支払われているとして定期的に非難されました。

私が応答の品質が悪化したと言った時、cursorに投資しているため信頼できないと誰かが本当に言いました。これは単一のことと何の関係があるのでしょうか?CursorはAnthropicが良くやればよくなります。何でも、Anthropicの悪口を言うことは、Cursorとの関係を傷つけ、異なるパートナーシップと成功を得る私自身のチャンスを傷つけています。

私はここで悪口を言っているのは、これを知ることが重要だと思うからです。そう、ここが私の問題です。まず第一に、これにまったく気づかなかったAnthropicに非常に失望しています。なんという失敗でしょう。これに完全に気づかなかったことはとても恥ずかしく、二度と彼らを信頼しないでしょう。

そして、それに気づいた後、バグの1つだけに気づき、それを修正する時に他のモデルのためのもう一つのより悪いバグを引き起こしました。それは私には本当に馬鹿げています。そして、最も重要なのは、今それが解決されたにもかかわらず、何が間違ったか、どのコンポーネントが失敗したか、何をしようとしていたか、これを引き起こした変更は何かについて詳細を与えていないことです。

私は彼らがモデルをより愚かにしようとしていないという彼らの言葉を受け取ることができます。彼らはここで特に「需要や他の要因の結果としてモデル品質を意図的に劣化させることは決してない」と言いました。私は君たちと投稿を書きます。私はここでAnthropicの言葉を受け取りたかったのですが、それは正直に行うのが難しいです。

彼らはこれらの停止を引き起こした原因について透明性を提供せず、解決された数日後まで認めさえしませんでした。あなたの言葉を受け取ってもらいたい場合、何が起こったかを見せる必要があります。何か月も適切に機能しなかった理由を開示しない会社を信頼することはできません。

そして再び、明確にするために、私はまだ彼らを信じています。間違い1は、モデルで知能の劣化があることです。間違い2は、どういうわけかモデルがバカになっていることに何日も気づかないことです。ポイント3は、これを修正しようとする試みの中で、他のモデルをさらにバカにすることです。

そして間違い4は、問題が解決された後まででもこれを開示しないことです。私たちがこのすべてを経験し、それが大丈夫だと思うことは正直に狂気です。Anthropic Weird Vibesビデオをやって、それでフレームされたことは本当に、本当に面白いです。絶対にこれでフレームされました。

それは私たちのせいでした。それについて非常に明確にします。GBT5のことが起こったのとちょうど同じ頃にこれを出すことを選んだ時間で私たちは失敗しました。私のカレンダーの混乱のせいで、必要のない論争をたくさん引き起こしました。それは私と私のチームに置く必要がありませんでした。

参考のために、人々が気に入らないビデオ、GPT5について間違っていたのように、87.6%の好き対嫌いを得ます。ほとんどのビデオは95から98の範囲にあります。それが私のビデオが座る傾向にあるところです。Anthropic Weird Vibesビデオは68.2%の好き対嫌いでメインチャンネルで私の最悪です。

今日話していることの多くについて話したこのビデオで私は激しくフレームされました。奇妙な優先順位、透明性の欠如、Anthropicが持っている聖人のような態度、外部でのサービスよりも内部での自分たちの優先順位。再び、私はそのビデオで言ったすべての言葉を支持します。

発表時間が悪かったことは絶対に理解しています。Anthropicとは異なり、私は間違ったことを実際に所有し、それらのことが起こったタイムラインと理由について透明にするため、私は絶対にそこでLを取ります。私は休暇中だったためこれを出すことで失敗しました。それはキューにあり、二度考えることなく投稿しました。それは間違いでした。そして、Anthropicとは異なり、私はそれを所有します。

Anthropicは何かが起こったとあなたに言いますが、彼らは何かを言いません。だから、うまくいけば将来、またはこのビデオでさえ、多くの人がようやく私が長い間見てきたものを見始めているため、嫌いボタンを押す人がそれほど多くないでしょう。Anthropicは奇妙な雰囲気を持っています。

彼らは実際に人間のために機能するものを出すよりも、自分のエゴと研究を優先します。彼らは奇妙に行動します。彼らは愚かなことを常にします。そして、私はここで和解への扉を開いたままにしています。しばらくの間、私は様々なチームと座ってこれらのことについて話すためにオフィスに来ることをAnthropicの人々から申し出を受けています。

私はそれを受け入れるつもりですが、それが起こる前に、Anthropicが透明性をより真剣に受け取ることを丁寧にお願いします。Anthropicオフィスに行き、多くのNDAにサインし、彼らに正直になってもらい、どれだけ言えるか言えないかを理解するために行ったり来たりし、最終的に彼らに無料のブランドのような評判の助けを与え始めることが好きではありません。ここで透明性へのコミットメントがない限り。

私は彼らがここで何が間違ったか、なぜ以前に開示されなかったか、そして彼らの言葉を受け取る場合に今後それを防ぐ方法について説明する必要があります。なぜなら、今Anthropicが何かを言う時に彼らを信頼することは非常に困難だからです。

それがAnthropicがすべてのユーザーを通して入れている完全な混乱について私が言わなければならないすべてです。より信頼できるものが欲しい場合は、T3 Chatをチェックすべきです。

それが私がこれについて持っているすべてです。うまくいけば、彼らは私のもう一方の腕を壊さないでしょう。君たちが何を思うか教えてください。次回まで、ピース、ナーズ。

コメント

タイトルとURLをコピーしました