Anthropic、「思考」機能でCLAUDEをアップグレード:今や強力すぎる!

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,062 文字

Anthropic Upgraded CLAUDE with "THINKING": It’s TOO Powerful Now!
Anthropic has upgraded Claude with a powerful new "thinking" tool that dramatically improves its problem-solving skills,...

Claudeがパワフルなアップグレードを受け、複雑な問題解決がさらに賢くなりました。Perplexity AIはTikTokのアルゴリズム改善を約束し大胆にその買収に乗り出しています。そして画期的なAIモデルが医師の診断能力を大幅に上回る成績を出しています。それではこれらについて詳しく見ていきましょう。
Claudeが「思考ツール」という新機能で大幅なアップグレードを受け、複雑な問題への対応力が飛躍的に向上しました。このアイデアはシンプルです。Claudeはタスクを単に処理するのではなく、立ち止まって振り返り、正しい道筋にいるかを確認してから先に進むという専用のステップを持つようになりました。そして結果は一目瞭然です。テストでは、この思考ツールの追加によりClaudeのパフォーマンスが大幅に向上し、特にルールの遵守、データ分析、ポリシーの順守が不可欠な複雑な多段階シナリオで顕著な改善が見られました。
これは単なる一般的な改善ではありません。その背後にある数字は印象的です。AIモデルを現実的な顧客サービス状況でテストするためのベンチマーク「TBench」では、思考ツールが追加されるとClaudeの成功率が劇的に上昇しました。このツールなしでは、Claudeの「パスワン」スコア(最初の試行で正解する頻度を測定する指標)は0.332でした。開発者が思考ツールを追加すると、その数字は0.444に上昇しました。これ自体が大きな改善ですが、思考ツールと最適化されたプロンプト(Claudeに思考方法に関する具体的な指示を与えるもの)を組み合わせると、スコアは0.584まで急上昇しました。これは当初のベースラインより54%以上の向上です。
小売顧客サービスタスクではその影響はさらに明確でした。Claudeのベースラインスコアは0.783でしたが、追加のプロンプトなしで思考ツールを与えただけで、スコアは0.812に上昇しました。凝った設定や特別な指示なし、ツール自体だけでClaudeは明らかに賢くなりました。
では、この思考ツールは舞台裏で何をしているのでしょうか?これはClaudeの拡張思考モードとは異なります。拡張思考は、Claudeが応答を開始する前の慎重な計画に関するものです。これはスタートラインで一時停止し、先の道筋全体を慎重に描くようなものです。コーディング、数学、物理の問題など、より多くの情報を収集せずに一度に全体を解決できる状況に役立ちます。
一方、思考ツールは、レース途中で立ち止まり、正しい道筋にいるかを確認するようなものです。Claudeが何かを見落としているかもしれないと気づいた瞬間のために設計されています。たとえば、ツール出力の処理、複雑なポリシーの遵守、一つのミスが全体の解決策を台無しにする可能性がある多段階の問題を解決する場合などです。
例えば、Claudeが複雑な航空会社のサポートリクエストを処理しているとします。乗客が飛行機をキャンセルしたいとしましょう。思考ツールが有効な場合、Claudeは必要なものがすべて揃っているかどうかを確認するために一時停止します。乗客のIDはありますか?予約番号はどうですか?キャンセルポリシー(24時間以内に予約されたのか、柔軟な運賃の一部なのかなど)を確認しましたか?思考ツールを使用すると、Claudeは決定を下す前にこれらの質問を自問し、コストのかかるミスを避けます。
開発者は、Claudeがどのように考えるべきかについて具体的な指示を追加することで、特に航空会社のサポートのような複雑な領域で大きな違いが生まれることを発見しました。プロンプトに「予約詳細の確認」や「キャンセルルールの確認」、「すでに飛行済みのセグメントがあるかどうかの確認」などのチェックリストを含めることで、Claudeははるかに信頼性が高くなりました。この最適化されたプロンプトにより、パスワンスコアは0.404から0.584へと大幅に向上し、精度が大きく向上しました。
さらに印象的なのは、思考ツールが複数回の試行にわたって一貫性を向上させたことです。カスタマーサポートのような複雑な環境では、まれな状況への対応が重要です。思考ツールがなければ、シナリオがより珍しくまたは複雑になるにつれて、Claudeのパフォーマンスは着実に低下しました。思考ツールを導入すると、5回連続の試行まででも安定した結果を維持し、このツールがプレッシャーの下でもClaudeの信頼性を保つのに役立つことを明確に示しています。
一般的により簡単な小売サポートタスクでは、思考ツールは単に存在するだけでパフォーマンスを向上させました。特別な指示も凝ったプロンプトも必要なく、立ち止まって考える余地を与えるだけでClaudeのパスワンスコアは0.812にまで上昇しました。0.77で頭打ちとなった拡張思考モードよりも優れたパフォーマンスを発揮しました。
このパターンはコーディングテストでも繰り返されました。Claudeがバグを分析して修正を提案するコーディングベンチマーク「SWE」では、開発者はコーディングアイデアのブレインストーミングツールとして機能するよう思考ツールを修正しました。例えば、Claudeがバグを見つけた場合、一時停止してそれを修正する複数の方法をブレインストーミングし、最もシンプルで効果的なアプローチを評価します。その小さな変更により、Claudeは0.623というSwebenchの最先端スコアに押し上げられ、このツールがカスタマーサポートだけでなく技術的な環境でも強力であることが証明されました。
思考ツールはあらゆる状況に投入したいものではありません。ミスが高くつき、各ステップが前のステップの上に構築される複雑な環境向けに設計されています。Claudeが単一のツール呼び出しや単純な指示に従うような簡単なタスクを処理している場合、思考ツールはあまり価値を加えません。そのような場合、Claudeのデフォルトの動作で十分です。しかし、複雑になると、Claudeが外部データを処理し、ポリシーを遵守し、または複数のステップを組み合わせる場合に、思考ツールは真価を発揮します。これによりClaudeは前進する前に振り返り、検証し、自己修正するためのメンタルチェックポイントを得ることができます。
自分のプロジェクトにこれを追加することに興味のある開発者にとって、実装は驚くほど簡単です。思考ツール自体は、外部データを変更したり新しいリクエストを作成したりせずに、Claudeが思考をログに追加できるようにする軽量な追加機能です。真の魔法は、いつ立ち止まるか、何を確認するか、すべての要件が満たされていることをどのように確認するかについての明確な指示でClaudeを導くときに起こります。複雑なタスクには、これらの指示をシステムプロンプトに配置するのが最も効果的です。思考ツールの説明にすべてを詰め込むのではなく、詳細なステップを最初に追加することで、Claudeはいつ立ち止まって考えるべきかを知るために必要な完全なコンテキストを得ることができます。
このツールの素晴らしい点は、デメリットが最小限であることです。Claudeが立ち止まって考える必要がない場合、そのステップを単にスキップするので、絶対に必要でない限り処理が遅くなることはありません。そしてClaudeが一時停止して再考することを選択した場合、その追加ステップはしばしば高コストのミスを防ぎ、セットアップに大きな変更を必要とせずに精度を向上させます。
次のニュースに移りましょう。Perplexity AIは、TikTokが米国での潜在的な禁止に直面する中、理想的な買収候補として自らを位置づけています。サンフランシスコを拠点とするこのAI企業は最近、独占状態を作り出すことなくTikTokのアルゴリズムを再構築するために「独自の立場にある」と主張しました。技術的な専門知識とテクノロジー業界における独立したプレーヤーとしての地位を組み合わせています。
Perplexity AIの発表は、同社が5億から10億ドルの資金調達を目指し、180億ドルの評価額を目標としているという報告の直後に行われました。同社のCEO、アラヴィン・セルヴァスは、Perplexityは単なる別のチャットボットではなく、AIを活用した検索プラットフォームを通じてユーザーが正確でリアルタイムの情報を見つけるのを支援するための「回答エンジン」であることを強調しました。
TikTok所有権への取り組みは、ドナルド・トランプが1月20日に署名した大統領令に続くもので、このプラットフォームの禁止措置の施行を75日間遅らせています。この一時停止は、アメリカ企業に買収オプションを探り、国家安全保障上の懸念に対処する時間を与えるためのものでした。Perplexityは、OracleやMicrosoft、Walmartなどの主要な競争相手や、元ドジャースのオーナーであるフランク・マコートやRobloxのCEOであるジェシー・ティンズリーが率いるコンソーシアムとともに、TikTokの買収を争っています。イーロン・マスクも入札を検討したという噂もありました。
Perplexityは、コンソーシアム取引ではBite DanceがTikTokのアルゴリズムに影響力を持ち続ける可能性があり、主要な競合他社による買収は独占状態につながる可能性があると主張しています。同社は、NVIDIAのDynamoプラットフォームを活用したAIがTikTokの推奨システムを強化し、誤情報と戦うための透明性を向上させることができると主張しています。
次のAIニュースは、本当に私を微笑ませたものであり、それには良い理由があります。AIは医師のパフォーマンスを大幅に上回る画期的なモデルにより、がん検出においてほぼ完璧な精度を達成しています。オーストラリアのチャールズ・ダーウィン大学の研究者を含む国際的な科学者チームによって開発されたこの新しいAIシステム「ECGMLP」は、子宮内膜がんの特定において驚異的な99.26%の精度を達成しました。
子宮内膜がんは最も一般的な生殖がんの一つであり、早期発見は成功した治療のために不可欠です。現在の診断方法は顕微鏡的な細胞および組織画像の人間による解釈に大きく依存しており、典型的には78.91%から80.93%の精度を提供します。ECGMLPのパフォーマンスはこれらの数字を大幅に上回り、がん検出において大きな飛躍を提供しています。
このモデルは、組織サンプルの詳細な顕微鏡スキャンである組織病理学画像を分析し、初期のがん成長を特定するために重要な視覚的詳細を強化することで機能します。画像内の特定の領域に焦点を当てることで、モデルはそうでなければ見落とされる可能性のあるがんの兆候を特定できます。
さらに有望なのは、ECGMLPの子宮内膜がん以外のがんタイプの検出における柔軟性です。別のテストでは、大腸がんを98.57%の精度で、乳がんを98.20%の精度で、口腔がんを97.34%の精度で特定し、いずれも現在の診断方法より大幅に改善されています。
その強力な能力にもかかわらず、ECGMLPは医師に取って代わるように設計されてはいません。代わりに、医療専門家がより早くがんを特定し、より高い精度で治療の進行を追跡するのを支援する強力なサポートツールとして機能します。研究者たちは、このモデルの高速で正確な診断プロセスが非常に効果的であるだけでなく、よりアクセスしやすく手頃な価格であり、世界中のヘルスケア成果を改善する大きな可能性を提供していることを強調しています。
「Computer Methods and Programs in Biomedicine Update」に掲載されたこの研究は、このAI駆動のアプローチが、より早くより正確ながん検出による生存率の向上を通じて、現代医学における重要なツールになる可能性を強調しています。
今日の要約はこれで終わりです。この内容が気に入ったら、コメントを残してこれらのAIニュースについてどう思うか教えてください。視聴いただきありがとうございます。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました