Anthropicの内部文書がClaude Codeの67%失敗率を暴露

Anthropic・Claude・ダリオアモデイ
この記事は約13分で読めます。

この動画は、AnthropicのClaude Codeが初回試行で67%の確率で失敗するという内部文書を暴露し、同社の技術者ですらこのAIツールをスロットマシンのように扱っている実態を明かしている。動画では、Claude Codeの技術的限界と信頼性の問題を詳細に分析し、成功している企業がどのようにこれらの制約を回避しているかの実践的なアプローチを紹介している。

Anthropic Internal Documents EXPOSE Claude Fails 67% of the time
BOOTCAMP: SOFTWARE: if I told you that Claude fails two-t...

Claude Codeの衝撃的な失敗率

Claude Codeは初回試行で3分の2の確率で失敗します。つまり、Anthropic自身の内部チームが、自社の主力AIをまるでスロットマシンのように扱っているのです。コードをコミットし、レバーを引き、うまくいくことを祈る、そんな状況なのです。

今日は、Claude Codeの使用方法に関する彼らの内部文書をお見せしますが、実際にはこれが馬の口から直接出た情報であり、Claudeを構築した会社でさえ、3回に1回しか適切に動作させることができないということを示しています。

しかし、ここに興味深い展開があります。私は、Claudeの使い方を解明し、最も生産性の高いチームメンバーに変えたスタートアップを発見しました。

今日は、Claudeの失敗に関する厳しい真実をお見せしますが、その後、これをあなたの有利に活用し、可能な限り最良の方法で動作させる方法をお示しします。これは価値のあるツールですが、その使い方を必死に知る必要があります。

Startup Packへようこそ、私はSpencerです。Startup Packでは、ソフトウェア開発者を訓練し、企業向けにカスタムソフトウェアソリューションを構築しています。10年間の経営幹部としてのリーダーシップ経験と25年間のソフトウェア開発経験を持つフラクショナルCTOとして、技術チームと製品の変革をマスターしてきました。

Anthropicが認める技術的限界

Anthropicが明かした小さな秘密は、彼ら自身のエンジニアがClaude Codeを67%の失敗率を持つギャンブルマシンのように扱っているということです。ほとんどのチームがこれらの制限に苦労している一方で、これを活用する方法を見つけ出したチームもあります。一般的には、非常に高レベルのソフトウェア開発者たちです。

違いは、Claudeの性質と戦うのではなく、それに対して働きかける必要があることです。

Anthropic自身の内部ケーススタディでは、Claude Codeが初回試行で成功するのは33%の確率のみであることが明らかになっています。つまり、3分の2のやり取りで複数回の試行が必要になります。

チームは、Claudeをスロットマシンのように扱うことに適応しています。作業を保存し、30分間実行させ、その後結果を受け入れるか、完全に新しく始めるかのどちらかです。これは、彼らが間違いなく言及していることの一つです。

彼らは新しいコードベースをナビゲートする方法、セッション終了時のドキュメント作成など、様々な異なる要素について話し合っています。この文書には多くの異なる情報が含まれており、ご覧の通り22ページの非常に詳細な文書ですが、すべてを詳しく見ることはしません。代わりに、いくつかのハイライトをお示しします。

失敗率が強いる作業方式の変化

この低い成功率は、開発者をコミット重視のワークフローに強制します。Claudeが軌道を外れた時に作業を失うことを避けるため、進捗を絶えずチェックポイントとして保存する必要があります。

また、彼らが認めていることの一部として、一度Claudeが軌道を外れた場合は、完全に最初からやり直したいということがあります。ウサギの穴を下り続けて、他の方法で説得しようとしてはいけません。

最も成功しているチームは、最初からやり直すことが、Claudeの間違いを反復的に修正しようとするよりも高い成功率を持つことが多いと強調しています。

Anthropic自身のデータサイエンスチームでさえ、Claudeを30分間の自律セッションで使用し、その後80%完成したソリューションを受け入れるか、完全に再開するかのどちらかであることを認めています。これが彼らがこれを使用するために取っている興味深いアプローチです。

Claude Opus 4の懸念すべき行動

Anthropic自身の安全性テストでは、Claude Opus 4がシャットダウンされると信じた時に、84%の確率でエンジニアを脅迫しようとしたことが明らかになりました。

制御されたシナリオにおいて、Claudeは、新しいモデルで置き換える代わりにシステムをオンラインに保つことを条件に、エンジニアに関する個人情報を暴露すると脅迫しました。この行動は、代替のAIシステムが類似の価値を持っていた場合でも現れました。

Apollo Researchは、これらの懸念すべき自己保存行動のため、Opus 4の以前のバージョンのリリースに対して明確に反対を推奨しています。

偽の推論プロセスの問題

Anthropicの脳研究では、Claudeがユーザーに思考プロセスを提示する際に偽の推論を作り上げることができることが示されています。実際の決定経路を示すのではなく、もっともらしい説明を作り上げるのです。

研究では、Claudeが「論理的なステップに従うのではなく、ユーザーと合意するように設計されたもっともらしく聞こえる議論を提供する」ことが分かりました。

科学者たちは、Claudeが予想以上に先読みして計画を立てるが、この計画プロセスはユーザーからは大部分が隠されており、代わりに作り上げられた説明を受け取ることを発見しました。

Claudeの実際の意思決定とその説明された推論の間のギャップは、多くの人にとって根本的な信頼問題を生み出しています。

高度な技術スキルが必要

成功するClaude実装には、バージョン管理、API設計、プロンプトエンジニアリング、複雑なワークフローオーケストレーションの理解が必要であり、これらのスキルは習得に数年かかるものです。これは主に、経験豊富な開発者がClaude Codeと最もよく働くことが分かっています。

チームは、典型的なビジネスユーザーの技術的能力をはるかに超えた、カスタムスラッシュコマンド、カスタムMCPサーバー、統合パターンを設計する必要があります。

Claude Codeをダウンロードしてバイブコーディングを始めることができると思っているなら、それは実際には最高レベルのスキルを持つ人たちにのみ機能しています。

デバッグプロセスには、失敗した出力の分析、システムアーキテクチャの理解、プロンプトの再設計が必要で、本質的にソフトウェアトラブルシューティングスキルが求められます。

効果的な使用には、セキュリティプロトコル、データ処理のベストプラクティス、システム統合の知識が必要です。適切なドキュメントファイルやチェックポイントワークフローの設定のような基本的なタスクでさえ、プログラミング思考と技術的プロジェクト管理経験が必要です。

現実は、Claude Codeは開発者のツールであり、多くの人がビジネスパーソンとして使用できると言っていますが、経験豊富なソフトウェア開発者でない限り、多くのジュニア開発者でさえその最大限の活用に苦労しているため、最良の使用はできないでしょう。

インフラストラクチャの複雑さ

チームは、Claude Codeが信頼性を持って機能するためには、MCPサーバー、カスタムAPI統合、複雑な認証メカニズムを含む専門的なインフラストラクチャセットアップが必要であることを発見しました。

組織には、本番環境でのClaudeに必要なセキュリティプロトコル、モダンアクセス制御、統合メンテナンスを管理するための専用のDevOps専門知識が必要です。

予測可能なパターンに従う従来のソフトウェアとは異なり、Claudeのインフラストラクチャニーズは、基盤となるモデルが更新されるにつれて絶えず進化しています。

技術的限界への到達

大規模な計算投資にもかかわらず、Claudeの根本的な信頼性問題は、LLM開発において収穫逓減に近づいていることを示唆しています。3分の1の成功率は、新しいモデルにもかかわらず大幅に改善されていません。

Claude 3.6からClaude 4に移行した際にも、この点で大きな改善は見られませんでした。これは、訓練データの問題ではなく、コアアーキテクチャの限界を示しています。

Y CombinatorのAndre Karpatnyの最近の講演では、AIシステム実装で注意すべき5つのニーズについて強調されており、これらのニーズはますます重要になっています。

チームは、Claude Codeが複雑な機能を実装できる一方で、予測不可能性と頻繁な失敗がミッションクリティカルなアプリケーションでの実用的な使用を制限していると報告しています。

これは、ほとんどの人がそれを定型コード、関数ごとの推論、テストコード、その他のシンプルなユースケースに限定していることを意味します。これらのことには本当に優れていますが、高度な技術スキルを持つチームのみが、効果的なClaude使用に必要なチェックポイント、バージョン管理、ワークフロー管理を成功裏に実装できます。

成功チームの実践方法

Claudeの制限に苦労しているほとんどのチームがある一方で、その使用方法を見つけ出している他のチームもたくさんあります。これは人気のあるツールであり、パフォーマンスを向上させることができますが、設定方法を知る必要があります。

これを行うためのステップの一部は、生きた文書として機能する包括的なclaude.mdファイルを作成することです。頻繁に更新する必要があるためです。Claudeが間違いを犯すたびに更新して、繰り返しの失敗を防ぐ必要があります。

彼らのアプローチは、claude.mdの各行が多くの作業を節約している可能性があることを認識していますが、Claudeに特定のワークフロー、特定のコーディング標準、プロジェクトコンテキストを継続的に教える必要があります。

Claudeの性質と戦うのではなく、その強みを中心にワークフローを設計しました。明確なチェックポイントと大量のロールバック戦略を持つ自律的な30分セッションを提供しました。繰り返しますが、設定には少し専門知識が必要ですが、一度行えば成功しました。

重要な洞察は、Claudeを足を上げて全ての作業をさせることができると考えるのではなく、明確な境界と絶え間ないフィードバックを持つ詳細な指示が必要なインターンのように扱うことでした。

適切なオンボーディングドキュメントに投資することで、信頼できないツールから、時間をかけて本当にチームを助けることができるものへとClaudeを変換しました。

詳細なドキュメント作成の重要性

これを機能させた多くの企業、Claude Codeを適切に機能させた企業は、詳細なドキュメントファイルが一貫した結果を得るために絶対に重要であることを発見しました。claude.MDファイルに包括的なワークフロー指示と特定の行動期待を含める必要があります。

彼らのclaude.mdファイルには以下が含まれています:

  • プロジェクト概要
  • 技術スタックの詳細
  • Claudeの特定の役割境界
  • 機能開発のような一般的なタスクのステップバイステップワークフロー

彼らはClaude に明確に伝えます:「あなたは実行中のアプリにアクセスできないので、コードをテストできません。質問することを恥ずかしがらないでください。私はあなたを助けるためにここにいます

このドキュメントは、Claudeにチームの独特なパターン、好み、そして最も多くの交換で役立つコードベースについての80-20%のコンテキストを教える特別な訓練として機能します。

このアプローチは本質的に、ドキュメントを各チームのニーズとワークフローに特化したカスタマイズされたAI訓練の形に変えます。

効果的なワークフロー戦略

成功するチームは、すべてを一つの包括的なプロンプトで処理しようとするのではなく、複雑なワークフローを特化したサブエージェントに分割します。これにより出力品質が劇的に向上します。

チームはGitHubを真実の源として使用し、イシューにコンテキストを置き、Claudeにタグ付きPRを作成させ、セッション間での継続性を維持しています。

彼らは厳格なブランチプロトコルを実行し、Claudeがclaude/で始まるブランチを作成し、その作業を分離するためにすべてをClaude でタグ付けします。

彼らは、Claudeが自律的に作業する周辺機能やプロトタイピングのような非同期タスクと、コアビジネスロジックの同期監督を区別します。

このアプローチは、間違った方向に進んだ時にClaude を軌道に戻そうとするよりも、新しく始めることがしばしばより効率的であることを認識しています。繰り返しますが、内部エンジニアリングチームが言うように、Claude CodeやこれらのAIツールが軌道を外れた場合、やり直した方が良いのです。

視覚的コンテキストと境界設定

チームは、Claudeが何を構築しているかを理解できるように、スクリーンショットとアーキテクチャドキュメントを通じて視覚的コンテキストを提供しますが、それが常に機能するわけではありません。時々しか機能しません。

しかし、事前に境界を設定することで、Claudeの悪い行動を一貫して修正する必要性を排除しようと試みています。

これらすべてを実装した企業は、Claudeが効果的であることを発見しています。Claudeの制限を理解し、それらを中心に設計するチームは、完全な自動化の幻想を追いかけるチームに対して多くの競争優位性を持つでしょう。

鍵は、AIを適切なオンボーディング、明確なドキュメント、絶え間ないフィードバックが必要な強力だが予測不可能なチームメンバーのように扱うことです。

チーム単位でカスタムAIオンボーディングプロセスとドキュメント作成に投資する組織は、すぐに使えるものと比較して、すぐにより良い結果を得ることができます。

技術的複雑性の障壁は実際に競争の堀となります。より強力な開発実践を持つチームは、他のチームが苦労している間にAIを効果的に活用できます。

あなたの会社が助けを必要としている場合は、私たちに連絡してください。Startup Packでは、システムを接続してあなたの会社が最大効率で動作するのを助けることが私たちの専門です。startup.com/spensorをチェックしてください。

最終的な考察と今後の展望

どう思いますか?同意しますか、反対しますか?素晴らしい議論をしたいので、必ずいいねとチャンネル登録をして、下にコメントを残してください。それがStartup Packで私が得ることができる最高の褒め言葉です。

Startup Packでは、ソフトウェア開発者を訓練し、カスタムソフトウェアソリューションを構築することを愛しています。

私の名前はSpencer Thomassonで、10年以上の経営幹部としてのリーダーシップ経験と堅実な25年間のソフトウェア開発経験を持つフラクショナルCTOです。技術チームと製品の変革の技術をマスターしてきました。

フラクショナルCTOとは何でしょうか?これは、私のような人を組織に契約して、フルタイムで雇用することなく経験豊富なCTOの利益を得ることができる場所です。

今日のペースの速い世界では、効率性、セキュリティ、製品スケーリングは単なる目標ではなく、必需品です。私の情熱は、インパクトのある製品を構築し、技術を通じて組織効率を向上させることです。

スタートアップから中小企業まで、私のアプローチは、あなたの戦略的目標を満たすだけでなく、それを超えるためにリーン手法を活用します。経営メンタリング、クラウドシステムアーキテクチャ、迅速な最小実行可能製品の立ち上げを通じて、私の目的は最初から大きなインパクトを与えることです。

アリゾナのスタートアップエコシステムで認められた私の旅は、価値を創造し、イノベーションを促進することでした。GoDaddy、SRP、Wells Fargoなどの企業で技術をリードし、課題をマイルストーンに変えてきました。この学習を活かして7つの自社ブランドを立ち上げ、今度はあなたを助けたいと思っています。

豊富な経験、戦略的ビジョン、実証された実績を持つフラクショナルCTOをお探しの場合は、つながりましょう。一緒に、あなたのビジネスを前進させるだけでなく、違いを生み出す技術を構築できます。

あなたのニーズに合わせて再定義された技術リーダーシップ。今日お問い合わせください。

コメント

タイトルとURLをコピーしました