この動画は、Anthropicが公開したClaude Codeの品質低下に関する詳細な事後報告書について解説している。8月から9月にかけて発生した3つの主要な技術的問題とその解決策を時系列で分析し、大規模言語モデルの推論システムがいかに複雑で困難であるかを示している。また、これらの問題がベンチマークでは検出できなかった理由や、今後の改善策についても考察を加えている。

Claude Codeの品質低下問題とAnthropicの対応
もしあなたがここ数週間でClaude Codeが以前より賢くなくなったと感じているなら、それは幻覚ではありませんでした。実際、一週間前にAnthropicはClaudeに品質低下を引き起こしている2つの問題があることを確認する声明を発表しました。
しかし今、彼らは最近発生した3つの問題に関する詳細な事後報告書を公開しており、これを読むことを強くお勧めします。Anthropicのような企業から期待されるよりもはるかに多くの詳細が含まれています。これらの問題がどのようなものだったか、いつ発生したかのタイムライン、深刻度と対応する影響、そして大規模言語モデルを使って構築している場合に自分自身の評価についてどのように考えるべきかについて詳しく説明されています。
要点は、この規模での推論は極めて困難であるということです。AnthropicはOpenAIがモデルのホスティングで類似の問題を抱えていた唯一の企業ではありません。しかし、Claude Codeのパフォーマンス低下に関する最近のニュースを受けて、OpenAIは実際にCodexの構築と改善を活用しており、多くの人がClaude CodeからCodexに切り替えたり、それについてもっと話したりしているのを見てきました。
問題の発生タイムラインと概要
この動画では、これらの問題が何だったか、そしてそこから何を学べるかを見ていきます。Anthropicによると、大まかなタイムラインは次のようになります。最初の主要問題は8月5日に発生しました。2番目は8月25日、3番目は8月26日に発生しました。これらは互いに独立しているようで、異なる段階で特定されました。
最後の問題は9月12日に修正されました、これは約5日前です。これらの問題を見る前に、懸念を直接的に取り上げたツイートがあります。彼らは「私たちはコミュニティで耳にした懸念に対処したいと思います。需要やその他の要因の結果として、モデル品質を意図的に低下させることは決してありません」と述べました。
これはClaudeからの直接的な声明です。問題を見る前に、非常に興味深いことがあります。Anthropicは内部でAWS NvidiaのGPUとGoogle TPUの組み合わせを使用しています。AWSとGoogleはAnthropicの株主だと思いますが、同じモデルを3つの異なるプラットフォームで提供することの複雑さを考えるだけで悪夢のようです。
第1の問題:コンテキスト窓ルーティングエラー
これらの問題を素早く見て、そこから何を学べるかを確認しましょう。1番目は彼らが「コンテキスト窓ルーティングエラー」と呼んでいるものです。彼らはSonnet 4を100万トークンのコンテキスト窓で設定していたようで、一部のクエリをこの新しいサーバーに誤ってルーティングしていました。これは8月5日に始まりました。
それらが短いクエリだったのか、200,000トークンより長いものだったのかは分かりません。最初は1%未満に影響していましたが、Sonnet 4リクエストのほぼ16%に影響を与えました、これは本当に相当な量です。このブログ投稿を通して学ぶことの一つは、インフラと推論が極めて困難だということです。
もしあなたがバックエンドエンジニアで何かを設定ミスしたとしても、あまり気にしないでください。興味深いことに、特にClaude Codeのパフォーマンス低下に関して多くの報告がありました。彼らは約30%のClaude Codeユーザーがこの期間中にリクエストを行った場合、少なくとも1つのメッセージが間違ったサーバータイプにルーティングされ、応答品質が低下したと述べています。
興味深いことに、これはAnthropicサーバーでのみ発生していました。BedrockやGoogle Vertex AIの顧客は実際にはこれに影響されませんでした。彼らが行った解決策は、短いコンテキストと長いコンテキストのリクエストが正しいサーバープールに送られることを確実にするためにルーティングロジックを修正したということです。この場合、おそらく短いクエリでさえここにルーティングされていて、それが問題を引き起こしたのだと推測します。
第2の問題:出力の破損
2番目は出力の破損です。これはサンプリングパラメータの設定方法により関連しています。8月25日に、彼らはトークン生成中にエラーを引き起こすCloud API TPUサーバーを設定ミスしました。問題は、彼らがパフォーマンスを最適化しようとしていたと思いますが、これがコンテキストを考えるとめったに生成されるべきではないトークンに時々高い確率を割り当てる結果となりました。
例えば、英語のプロンプトを送信した人々の中には、おそらく出力にタイ語や中国語の文字を見た人もいるでしょう。これは主に8月25日と28日にOpus 4.1とOpus 4に影響し、Sonnet 4にも影響があったようです。再び、サードパーティプラットフォームは影響を受けませんでした。これは9月2日までに修正されることになっています。
第3の問題:近似top K XLA TPU誤コンパイル
3番目は彼らが「近似top K XLA TPU誤コンパイル」と呼んでいるものです。8月25日に、彼らはテキスト生成中にClaudeがトークンを選択する方法を改善するコードを展開しました。この変更がXLA TPUコンパイラの潜在的なバグを引き起こし、これがHaiku 3.5のリクエストに影響することが確認されています。
これは特にTPUに関連しており、彼らは実際に何が起こったかについてより多くの詳細に入っています。LLMがテキストを生成する際、各可能な次の単語の確率を計算し、次にこの確率分布からランダムに選択してサンプリングします。top Pを設定した場合、それは累積確率が閾値に達する単語のみを考慮します。
例えば0.9に設定した場合、累積確率が0.9になる部分までのトークンのみを考慮し、その後それらのトークンからランダムにサンプリングします。温度が0に設定された場合に誤作動したようです。TPU XLAでのこのコンパイレーションエラーのため、時々最も確率の高いトークンを落とすことがありました。
技術的根本原因の詳細
しかし原因は非常に興味深いものです。彼らのモデルは次のトークン予測確率を16ビット浮動小数点で計算します。しかし、TPUはすべてをネイティブに32ビットで処理します。これがいくつかの不一致を引き起こしました。
実際、Thinking Machineの「LLM推論における非決定論の打破」記事を見ると、彼らは推論と訓練の量子化レベル間の不一致のこの特定の問題について話しており、それがLLMの非決定的出力の要因になり得るとしています。
その記事では、非決定的出力は主にサンプルをバッチ処理する方法によって引き起こされると報告していますが、LLMがトークンを生成する際になぜ非決定的または確率的性質を持つのかを理解することに興味がある場合、非常に興味深い読み物で強くお勧めします。ここで彼らはバグを修正しようとしていた方法の例をいくつか示しています。
もっと詳しく読むことに興味がある場合は、これへのリンクを貼っておきます。
問題検出の課題と学んだ教訓
彼らがブログ投稿で強調している非常に興味深いことは、コミュニティでいくつかの報告があったにもかかわらず、なぜこれらの問題を捉えることができなかったかということです。彼らは「私たちの検証プロセスは通常、安全性評価やパフォーマンス指標と並んでベンチマークに依存しています。エンジニアリングチームはスポットチェックを実行し、最初に小さなカナリアグループに展開します」と述べています。
彼らが持っているベンチマークは実際にはこのような問題を捉えていないようです。これは特にLLMや一般的な機械学習システムで何かを構築している場合に非常に重要です。
静的なベンチマークを持ちたくはありません。ベンチマークは本番環境で見る問題やバグに基づいて進化する必要があります。内部のプライバシーとセキュリティの制限のため、これは彼らにとって複雑になります。彼らはClaudeで起こっているやり取りを単に見ることはできません。彼らは「私たちはノイズの多い評価に過度に依存していました。オンラインでの報告の増加を認識していましたが、これらを私たちの最近の変更のそれぞれに結び付ける明確な方法がありませんでした」と述べています。
この結果として、彼らは任意の問題の根本原因を発見するのに役立つより敏感な評価を作成する予定です。より多くの場所で品質評価よりも動作する実装と壊れた実装をより確実に区別できる評価を展開しました。
彼らはコンテキスト窓の負荷分散などの問題を捉えるために、真の本番システムで継続的にそれらを実行し、より速いデバッグツールを提供する予定です。Anthropicチームから非常に興味深いことです。
主要な教訓とまとめ
いくつかの重要なポイントがあります。まず、推論は特にこの規模では極めて困難です。展開時にシステムをテストする評価以外に、本番環境に何かを投入する場合、継続的な評価が必要で、ユーザーから集めているフィードバックや本番環境で遭遇する問題の種類に基づいてそれらを更新する必要があります。
最後に、Anthropicが品質低下を潜在的に引き起こしていた問題とともに、この詳細なタイムラインを共有したことを実際に嬉しく思います。これら3つが唯一の理由なのか、それとも他に何かがあるのか、私たちには分かりません。
皆さんの考えを聞かせてください。とにかく、この動画が役に立ったことを願っています。視聴ありがとうございました、そしていつものように、次の動画でお会いしましょう。


コメント