人類学者がCLAUDEを改善、今や「考える」能力を持ち：あまりにも強力になりすぎた！

3,426 文字

Anthropic Mejoró a CLAUDE, ahora PUEDE PENSAR: ¡es DEMASIADO Poderoso!

¡Suscribete gratis a mi newsletter aquí! este informe especial, analizamos el impresionante avance de Anthropic con su m...

Claudeはより効率的に複雑な問題を解決できるようにする重要なアップグレードを受けたところです。
Claudeは「think tool（思考ツール）」と呼ばれる新しいツールを含む重要なアップデートを受けたばかりですが、これは複雑な問題を処理する際にゲームチェンジャーとなるものです。考え方はシンプルで、タスクに直接取り組むのではなく、Claudeは一度立ち止まり、考え、正しい道筋にいるかどうかを確認してから先に進むという専用のステップを設けています。結果は一目瞭然です。
テストでは、この反省ツールを追加することでClaudeのパフォーマンスが顕著に向上しました。特に、ルールに従い、データを分析し、方針を守ることが重要な複数ステップのシナリオにおいて効果を発揮しています。
しかしこれは単なる一般的な改善ではありません。それを裏付ける数字は印象的です。顧客サービスの現実的な状況でAIモデルを評価するために設計されたt-benchというベンチマークテストでは、反省ツールが組み込まれた後、Claudeの成功率が劇的に向上しました。
このツールがなければ、最初に正解する頻度を測る指標である「pass One」のスコアは0.332でした。開発者が反省ツールを追加したとき、その数字は0.444に上昇し、これはすでに堅実な改善でした。しかし、反省ツールと、どのように反省するかについての具体的な指示を与える最適化されたメッセージを組み合わせたとき、スコアは0.584まで急上昇しました。これは元のベースラインよりも54％以上向上したことになります。
小売業界の顧客サービスタスクにおいては、その影響はさらに顕著でした。この場合のClaudeの基本スコアは0.783でしたが、追加の指示なしで反省ツールを与えただけで、そのスコアは0.812に上昇しました。複雑な設定や追加指示なしでも、ツール自体がClaudeを著しく賢くしたのです。
しかし、この反省ツールは舞台裏で正確に何をしているのでしょうか？これはClaudeの拡張思考モードとは異なります。拡張思考は、Claudeが応答を開始する前に慎重に計画することに焦点を当てています。それはスタートラインで一時停止して、始める前にコース全体を計画するようなものです。これはプログラミング、数学や物理の問題、一度に全てを解決できて追加情報を収集する必要のない状況で有用です。
最も強い種が生き残るのではなく、最も知的な種でもなく、変化に最もよく対応する種が生き残るのです。毎日関連ニュースがあり、常に情報をフィルタリングしていなければ、時代遅れになってしまうのは避けられません。だからこそ、私自身が長い間欲しいと思っていたものを作りました。無料のニュースレターです。メールアドレスを登録するだけで、週に2回のメールで新しいニュース、新しいツール、新しい仕事についてお知らせします。
一方、反省ツールはレース途中で立ち止まり、まだ正しい道筋にいるかどうかを確認するようなものです。ツールの出力を扱う場合、複雑なポリシーに従う場合、または一つのミスで全ての解決策が台無しになる可能性のある複数ステップの問題を解決する場合など、Claudeが何かを見落としている可能性に気付いた時のために設計されています。
例えば、Claudeが航空会社の複雑な顧客リクエストを処理していると想像してみましょう。乗客がフライトをキャンセルしたいとします。反省ツールが有効な場合、Claudeは必要なものをすべて持っているかどうかを確認するために立ち止まります。乗客IDと予約番号を持っていますか？チケットが24時間以内に予約されたかどうか、あるいはフレックス料金の一部であるかどうかなど、キャンセルポリシーを確認しましたか？反省ツールを使うことで、Claudeは決定を下す前にこれらの質問をして、コストのかかるミスを避けることができます。
開発者たちは、Claudeがどのように反省すべきかについての具体的な指示を追加することが、特に航空サポートのような複雑な領域で大きな違いを生み出すことを発見しました。予約の詳細を確認する、キャンセルルールをチェックする、または既に飛行区間が使用されているかどうかを確認するなどのチェックリストをメッセージに含めることで、Claudeははるかに信頼性が高くなりました。この最適化されたメッセージにより、pass Oneスコアは0.404から0.500まで上昇し、精度が大幅に向上しました。
さらに印象的なのは、反省ツールが複数回の試行にわたって一貫性を向上させたことです。顧客サポートのような複雑な環境では、珍しい状況への対応が重要ですが、反省ツールがなければ、シナリオがより珍しいまたは複雑になるにつれて、Claudeのパフォーマンスは一貫して低下しました。反省ツールを使用すると、連続5回の試行後でも、より安定した結果を維持しました。これは、このツールがプレッシャーの下でもClaudeが信頼性を維持するのに役立つという明確な兆候です。
小売部門の顧客サポートタスクでは、状況が一般的により単純な場合、反省ツールはその存在だけでパフォーマンスを向上させました。追加指示や複雑なメッセージなしで、立ち止まって考える余地を与えるだけで、Claudeのpass Oneスコアを0.812に引き上げるのに十分でした。これは拡張思考モードの0.77も上回りました。
このパターンはプログラミングテストでも繰り返されました。SVEというプログラミングベンチマークでは、Claudeがエラーを分析し解決策を提案する必要がありました。開発者は反省ツールを、コード解決策のブレインストーミングツールとして機能するように変更しました。例えば、Claudeがエラーを見つけると、立ち止まり、それを解決するいくつかの方法を生成し、どのアプローチが最もシンプルで効果的かを評価します。この小さな変更により、Claudeはベンチマークで0.623という最先端のスコアを達成し、このツールが顧客サポートだけでなく技術的環境でも非常に強力であることを証明しました。
反省ツールはすべての状況で使用されるべきものではありません。それはミスがコストリーで、各ステップが前のステップに依存する複雑な環境用に設計されています。Claudeが単一のツール呼び出しや直接的な指示に従うなどの単純なタスクを処理している場合、反省ツールはあまり価値を加えません。そのような場合、Claudeのデフォルトの振る舞いは十分に良いのです。
しかし物事が複雑になるとき、Claudeが外部データを処理し、ポリシーをナビゲートし、または複数のステップを組み立てているとき、それは反省ツールが本当に際立つところです。それはClaudeに、先に進む前に考え、確認し、訂正するための精神的なチェックポイントを与えます。
このツールを自分のプロジェクトに追加することに興味がある開発者にとって、実装は驚くほど簡単です。反省ツールそのものは、外部データを変更したり新しいリクエストを行ったりせずに、思考を記録に追加できるようにするための軽微な追加に過ぎません。真の魅力は、いつ立ち止まるべきか、何をチェックすべきか、そしてすべての要件が満たされていることをどのように確認するかについての構造化された計画を与えるなど、明確な指示でClaudeを導くときに起こります。
複雑なタスクでは、これらの指示をシステムメッセージに配置することが、反省ツールのすべての説明に焦点を当てるよりも効果的です。最初から詳細なステップを追加することで、いつ立ち止まって考えるべきかを知るために必要な完全なコンテキストをClaudeに提供します。
このツールの素晴らしいところは、Claudeが立ち止まって考える必要がない場合、単にそのステップをスキップするので、絶対に必要でない限りプロセスを遅くしないという最小限の悪影響を持つことです。そしてClaudeが一旦立ち止まって再考することを決めると、その追加ステップはコストリーなミスを防ぎ、設定に大きな変更を必要とせずに精度を向上させることがよくあります。
動画のここまで見た方は、「いいね」を押し、チャンネル登録して、コメント欄であなたの考えを教えてください。