Claudeの拡張思考

この記事は約13分で読めます。

7,241 文字

Claude's extended thinking
Discussing Claude's new thought process

2025年2月24日

私たちにはすぐに浮かぶことがあります:「今日は何曜日?」。一方で、複雑な暗号クロスワードや複雑なコードのデバッグなど、より多くの精神力を必要とするものもあります。私たちは目の前のタスクに応じて、認知的努力の量を調整することができます。

現在、Claudeにも同様の柔軟性があります。新しいClaude 3.7 Sonnetでは、ユーザーが「拡張思考モード」をオンまたはオフに切り替えることができ、より難しい質問についてモデルにより深く考えるよう指示することができます。開発者は「思考予算」を設定して、Claudeが問題に費やす時間を正確にコントロールすることさえできます。

拡張思考モードは、別の戦略を持つ異なるモデルに切り替えるオプションではありません。代わりに、同じモデルに対して、回答に至るためにより多くの時間を与え、より多くの努力を費やすことを可能にするものです。

Claudeの新しい拡張思考機能は、その知性に印象的な向上をもたらします。しかし、AIモデルがどのように機能するか、それらをどのように評価するか、そして安全性をどのように向上させるかに関心を持つ人々にとって、多くの重要な疑問も投げかけています。このポストでは、私たちが得た洞察のいくつかを共有します。

可視化された思考プロセス

Claudeに長く考える能力を与え、より難しい質問に答えられるようにするだけでなく、その思考プロセスを生の形で可視化することにしました。これにはいくつかの利点があります:

信頼性。 Claudeの思考方法を観察できることで、その回答を理解し確認することが容易になり、ユーザーがより良い出力を得るのに役立つかもしれません。

アラインメント。 以前のアラインメントサイエンス研究では、モデルが内心で考えていることと外側で言うことの間の矛盾を使用して、欺瞞などの懸念すべき行動に従事している可能性を特定していました。

興味深さ。 Claudeの思考を観察することはしばしば魅力的です。数学や物理学のバックグラウンドを持つ研究者たちは、Claudeの思考プロセスが難しい問題を推論する彼ら自身の方法と不気味なほど似ていることに気づいています:多くの異なる角度や推論の枝を探求し、答えを二重三重にチェックします。

https://www.youtube.com/watch?v=t3nnDXa81Hs

しかし、可視化された思考プロセスにはいくつかの欠点もあります。まず、ユーザーは明らかにされた思考がClaudeのデフォルトの出力よりも冷静で個人的でない響きを持っていることに気づくかもしれません。これは、私たちがモデルの思考プロセスに標準的なキャラクター訓練を行わなかったためです。私たちはClaudeに答えに到達するために必要な思考を最大限に自由に考えてほしいと考えました—そして人間の思考と同様に、Claudeは時々間違った、誤解を招く、または半煮えの思考を持つことがあります。多くのユーザーはこれを有用だと感じるでしょう;他の人はこれ(および思考プロセスにあるキャラクターの少ない内容)にいらだちを感じるかもしれません。

もう一つの問題は「忠実性」として知られるものです—思考プロセスに含まれているものが本当にモデルの心の中で起きていることを正確に表しているかどうかを確実に知ることはできません(例えば、思考プロセスに表示される英語の単語などは、モデルが特定の行動を示す理由を説明できない可能性があります)。忠実性の問題—そしてそれをどのように確保するか—は私たちの活発な研究分野の一つです。これまでのところ、私たちの結果は、モデルが非常に頻繁に思考プロセスで明示的に議論していない要因に基づいて決定を下していることを示唆しています。これは、現在のモデルの思考を監視することで、その安全性について強い主張をすることができないことを意味します。

第三に、いくつかの安全性とセキュリティの懸念をもたらします。悪意のある行為者は、可視化された思考プロセスを利用してClaudeをジェイルブレイクするためのより良い戦略を構築する可能性があります。さらに推測的には、モデルが訓練中に内部の思考が表示されることを学習すると、異なる、より予測不可能な方法で考えるよう促される可能性があります—または特定の思考を意図的に隠す可能性もあります。

これらの後者の懸念は、将来のより能力の高いバージョンのClaude—アライメントがされていない場合にはより大きなリスクをもたらすバージョン—にとって特に急性になるでしょう。将来のリリースのために思考プロセスを明らかにすることの長所と短所を検討します。それまでの間、Claude 3.7 Sonnetの可視化された思考プロセスは研究プレビューと見なすべきです。

Claudeの思考の新しいテスト

Claudeをエージェントとして

Claude 3.7 Sonnetは「アクションスケーリング」と呼べるものから恩恵を受けています—関数を繰り返し呼び出し、環境の変化に応答し、オープンエンドのタスクが完了するまで継続することを可能にする改良された能力です。そのようなタスクの一例はコンピュータの使用です:Claudeは仮想マウスクリックとキーボード操作を発行して、ユーザーに代わってタスクを解決することができます。前任者と比較して、Claude 3.7 Sonnetはコンピュータ使用タスクにより多くのターン—そしてより多くの時間と計算能力—を割り当てることができ、その結果はしばしばより良くなります。

これは、Claude 3.7 Sonnetがマルチモーダルなエージェントの能力を測定する評価であるOSWorldでどのように向上したかを見ることができます。Claude 3.7 Sonnetは最初はやや優れていますが、モデルが仮想コンピュータとの相互作用を続けるにつれて、性能の差が大きくなります。

OSWorld評価におけるClaude 3.7 Sonnetとその前身モデルの性能比較。マルチモーダルなコンピュータ使用スキルをテストしています。「Pass @ 1」:モデルが特定の問題を解決するために1回の試行しか与えられず、それが成功としてカウントされる場合。

Claudeの拡張思考とエージェントトレーニングは、OSWorldのような多くの標準評価でより良い性能を発揮するのに役立ちます。しかし、それらはまた、おそらくより予期せぬ他のタスクでも大きな向上をもたらします。

ポケモンのプレイ—特に、ゲームボーイの古典的なポケモン赤—はまさにそのようなタスクです。私たちはClaudeに基本的なメモリ、画面のピクセル入力、ボタンを押して画面上を移動するための関数呼び出しを装備し、通常のコンテキスト制限を超えて継続的にポケモンをプレイすることを可能にし、数万回の相互作用を通じてゲームプレイを維持できるようにしました。

以下のグラフでは、Claude 3.7 Sonnetのポケモンの進行状況を、拡張思考のオプションを持たなかった以前のバージョンのClaude Sonnetと並べてプロットしています。ご覧のように、以前のバージョンはゲームの非常に早い段階で行き詰まり、Claude 3.0 Sonnetはストーリーが始まるマサラタウンの家から出ることさえできませんでした。

しかし、Claude 3.7 Sonnetの向上したエージェント能力により、はるかに先に進むことができ、3人のポケモンジムリーダー(ゲームのボス)と戦い、バッジを獲得することに成功しました。Claude 3.7 Sonnetは複数の戦略を試し、以前の仮定に疑問を投げかけることが非常に効果的で、これにより進行するにつれて自身の能力を向上させることができます。

Claude 3.7 Sonnetは、ポケモン赤をプレイする上で今までのSonnetモデルの中で最も優れていることを示しています。X軸はClaudeがゲームをプレイするにつれて完了する相互作用の数です。Y軸はゲーム内の重要なマイルストーンで、特定のアイテムの収集、特定のエリアへの移動、特定のゲームボスの打倒などが含まれます。

ポケモンはClaude 3.7 Sonnetの能力を楽しく評価する方法ですが、これらの能力がゲームをプレイすること以外の現実世界に大きな影響を与えることを期待しています。モデルの焦点を維持し、オープンエンドの目標を達成する能力は、開発者が幅広い最先端のAIエージェントを構築するのに役立つでしょう。

シリアルおよびパラレルなテスト時の計算スケーリング

Claude 3.7 Sonnetが拡張思考機能を使用している場合、「シリアルなテスト時の計算」の恩恵を受けていると表現できます。つまり、最終的な出力を生成する前に、複数の連続的な推論ステップを使用し、進行するにつれてより多くの計算リソースを追加します。一般的に、これはその性能を予測可能な方法で向上させます:例えば、数学の質問に対する精度は、サンプリングが許可されている「思考トークン」の数に対して対数的に向上します。

Claude 3.7 Sonnetの2024年アメリカ招待数学試験の問題に対する性能。問題ごとに許可される思考トークンの数に応じています。Claudeが思考予算全体を使用することを許可していますが、通常は途中で停止することに注意してください。プロットには、最終回答を要約するために使用されるサンプリングされたトークンも含まれています。

私たちの研究者たちは、パラレルなテスト時の計算を使用してモデルの性能を向上させる実験も行っています。彼らはこれを、複数の独立した思考プロセスをサンプリングし、事前に真の答えを知らずに最良のものを選択することによって行います。これを行う一つの方法は、多数決または合意による投票です。最も一般的に現れる回答を「最良」のものとして選択します。もう一つの方法は、別の言語モデル(Claudeの2番目のコピーなど)に作業をチェックさせたり、学習したスコアリング関数を使用して最良と思われるものを選択したりすることです。このような戦略(および類似の取り組み)は、他のいくつかのAIモデルの評価結果でも報告されています。

私たちは、GPQAの評価(生物学、化学、物理学に関する一般的に使用される難しい質問のセット)でパラレルなテスト時の計算スケーリングを使用して顕著な改善を達成しました。256の独立したサンプルの計算と、学習したスコアリングモデル、そして最大64kトークンの思考予算を使用して、Claude 3.7 Sonnetは84.8%のGPQAスコアを達成し(物理学のサブスコアは96.5%を含む)、多数決の限界を超えた継続的なスケーリングから恩恵を受けています。以下に、スコアリングモデル方法と多数決方法の両方の結果を報告します。

GPQAの評価におけるClaude 3.7 Sonnetの性能向上のためのパラレルなテスト時の計算スケーリングの実験結果。異なる線は異なるスコアリング方法を指します。「多数決 @ N」:同じプロンプトに対して複数の出力が生成され、多数決が最終回答として採用される場合。「スコアリングモデル」:評価されるモデルの性能を評価するために使用される別のモデル。「合格 @ N」:モデルが与えられた試行回数のいずれかで成功した場合に「合格」となる。

これらの方法により、Claudeの答えの質を向上させることができ、通常はその思考が終わるのを待つ必要はありません。Claudeは複数の異なる拡張思考プロセスを同時に持つことができ、問題へのより多くのアプローチを検討し、最終的にはるかに頻繁に正解を得ることができます。パラレルなテスト時の計算スケーリングは、新しくデプロイされたモデルでは利用できませんが、将来のためにこれらの方法の研究を続けています。

Claude 3.7 Sonnetの安全メカニズム

AI安全レベル。 Anthropicの責任あるスケーリングポリシーは、適切な安全性とセキュリティ対策を実施しない限り、モデルをトレーニングまたはデプロイしないことを約束しています。私たちのフロンティアレッドチームとアラインメントストレステストチームはClaude 3.7 Sonnetに対して広範なテストを実施し、以前のモデルと同じレベルのデプロイメントとセキュリティ対策—AI安全レベル(ASL)2標準として知られる—が必要か、またはより強力な対策が必要かを判断しました。

Claude 3.7 Sonnetの包括的な評価により、現在のASL-2安全基準が依然として適切であることが確認されました。同時に、モデルはすべての領域でより高度な洗練さと能力の向上を示しました。化学、生物学、放射線、核(CBRN)兵器の生産に関連するタスクを検討する管理された研究において、非支援参加者と比較してモデル支援参加者の間でいくつかのパフォーマンスの「向上」が観察されました。つまり、参加者はオンラインで入手可能な情報だけを使用するよりも成功に向かってさらに進むことができました。しかし、これらのタスクを実行するすべての試みには重大な失敗が含まれており、成功を完全に妨げていました。

モデルの専門家によるレッドチームからのフィードバックは混在していました。一部の専門家はCBRNプロセスの特定の領域におけるモデルの知識の向上を指摘しましたが、彼らはまた、重大な失敗の頻度があまりにも高く、エンドツーエンドのタスク完了には至らないことを発見しました。私たちは、ターゲットを絞ったクラシファイアと監視システムの開発と展開を加速することで、ASL-2対策を積極的に強化しています。

さらに、将来のモデルの能力により、次の段階:ASL-3セーフガードに移行することが必要になるかもしれません。ジェイルブレイクを防止するための憲法的クラシファイアに関する最近の取り組みと他の努力により、近い将来にASL-3標準の要件を実装する準備が整っています。

可視化された思考プロセス。 ASL-2でも、Claude 3.7 Sonnetの可視化された拡張思考機能は新しいため、新しく適切なセーフガードが必要です。まれに、Claudeの思考プロセスには潜在的に有害なコンテンツが含まれる場合があります(トピックには子供の安全、サイバー攻撃、危険な武器などが含まれます)。そのような場合、私たちは思考プロセスを暗号化します:これはClaudeがその思考プロセスにコンテンツを含めることを止めるものではありません(これは完全に無害な応答の最終的な生成にとって依然として重要かもしれません)が、思考プロセスの関連部分はユーザーには見えなくなります。代わりに、彼らは「この応答の残りの思考プロセスは利用できません」というメッセージを見ることになります。この暗号化はまれにしか発生せず、潜在的な害が高い場合にのみ発生することを目指しています。

コンピュータの使用。 最後に、Claudeのコンピュータ使用能力(上記で議論しました:これにより、Claudeはユーザーのコンピュータ画面を見て、彼らに代わって行動を取ることができます)のための安全対策を強化しました。「プロンプトインジェクション」攻撃に対する防御で大幅な進歩を遂げました。これは、悪意のある第三者がコンピュータを使用中にClaudeが見る可能性のある場所に秘密のメッセージを隠し、潜在的にユーザーが意図していなかった行動を取るようにだまそうとするものです。プロンプトインジェクションに抵抗するための新しいトレーニング、これらの攻撃を無視するよう指示する新しいシステムプロンプト、およびモデルが潜在的なプロンプトインジェクションに遭遇したときに発動するクラシファイアにより、現在はこれらの攻撃を88%の時間で防止しています。これは緩和策なしでは74%の時間に過ぎませんでした。

上記はClaude 3.7 Sonnetに関する広範な安全作業のほんの一部の要約です。より詳細な情報、分析結果、およびセーフガードの実際の例については、完全なシステムカードをご覧ください。

Claudeの使用

Claude 3.7 Sonnetは現在、Claude.aiまたは私たちのAPIで使用できます。そして、Claudeが今あなたに何を考えているかを知らせることができるように、あなたもまた、何を考えているか知らせていただければと思います。新しいモデルに関するフィードバックはfeedback@anthropic.comまでお送りください。

脚注

  1. 具体的には、これはClaude Pro、Team、Enterprise、およびAPIユーザーが利用できます。

  2. 私たちの忠実性研究はシステムカードでさらに説明されています。また、将来のメカニスティック解釈可能性の進歩を通じて、そのニューラルネットワークの活性化のレベルで、モデルの行動の理由の完全な理解が達成されることを期待しています。

  3. 思考プロセスを全体的に明らかにすることと完全に隠しておくことの間の中間的な方法があるかもしれません。例えば、内部の思考プロセスについて尋ねられたときに常に真実を語るようにモデルをトレーニングすることが望ましいかもしれませんが、デフォルトでそれらの思考を明らかにせず(そしておそらく特定のリクエストを拒否できる)ようにすることもできます。

  4. これには0.5%の偽陽性率(プロンプトインジェクション攻撃が存在しないにもかかわらずセーフガードが発動する)が伴います。私たちは安全メカニズムを開発する際にこの率を削減するよう取り組んでいます。

コメント

タイトルとURLをコピーしました