Claude 3.7 Sonnet と Claude Code

この記事は約7分で読めます。

5,742 文字

Claude 3.7 Sonnet and Claude Code
Today, we’re announcing Claude 3.7 Sonnet, our most intelligent model to date and the first hybrid reasoning model gener...

2025年2月25日 5分で読める

本日、私たちは最も知的なモデルであるClaude 3.7 Sonnet¹と、市場初のハイブリッド推論モデルを発表します。Claude 3.7 Sonnetは、ほぼ瞬時に応答を生成することも、ユーザーに見える形で段階的に拡張された思考を提供することもできます。APIユーザーはモデルの思考時間を細かく制御することも可能です。
Claude 3.7 Sonnetはコーディングとフロントエンドのウェブ開発において特に顕著な改善を示しています。このモデルと共に、エージェント型コーディングのためのコマンドラインツールであるClaude Codeも導入します。Claude Codeは限定的な研究プレビューとして提供され、開発者がターミナルから直接Claudeに実質的なエンジニアリングタスクを委任することを可能にします。

Claude 3.7 SonnetはすべてのClaudeプラン(無料版、Pro、Team、Enterpriseを含む)およびAnthropic API、Amazon Bedrock、Google CloudのVertex AIで利用可能になりました。拡張思考モードは無料版Claude以外のすべてのプラットフォームで利用できます。
標準モードと拡張思考モードの両方において、Claude 3.7 Sonnetの価格は前モデルと同じです:入力トークン100万あたり3ドル、出力トークン100万あたり15ドル(思考トークンを含む)。

Claude 3.7 Sonnet:実用的になった最先端の推論

私たちはClaude 3.7 Sonnetを、市場の他の推論モデルとは異なる哲学で開発しました。人間が素早い応答と深い熟考の両方に単一の脳を使用するのと同様に、私たちは推論が完全に別のモデルではなく、最先端モデルの統合された能力であるべきだと考えています。この統一されたアプローチはユーザーにとってよりシームレスな体験も生み出します。
Claude 3.7 Sonnetはこの哲学をいくつかの方法で具現化しています。まず、Claude 3.7 Sonnetは通常のLLMと推論モデルが一体化しています:モデルに通常の応答をして欲しい時と、回答前により長く考えて欲しい時を選択できます。標準モードでは、Claude 3.7 SonnetはClaude 3.5 Sonnetのアップグレード版を表しています。拡張思考モードでは、回答前に自己内省を行い、数学、物理学、指示に従う能力、コーディング、その他多くのタスクでのパフォーマンスを向上させます。一般的に、両モードでのプロンプト方法は同様に機能します。
第二に、APIを通じてClaude 3.7 Sonnetを使用する場合、ユーザーは思考の予算も制御できます:Claudeに最大128Kトークンの出力制限までの任意のN値のトークン数だけ考えるよう指示できます。これにより、応答の品質に対して速度(とコスト)のトレードオフが可能になります。
第三に、推論モデルの開発において、私たちは数学やコンピュータサイエンスのコンペティション問題への最適化を少し減らし、代わりに企業が実際にLLMをどのように使用しているかをより反映した実世界のタスクに焦点をシフトしました。
初期テストではCursorが、Claudeがコーディング能力において再び最高クラスであることを指摘し、複雑なコードベースの処理から高度なツール使用までの分野で大幅な改善が見られたと述べています。Cognitionはコード変更の計画とフルスタックの更新の処理において、他のどのモデルよりもはるかに優れていることを発見しました。Vercelは複雑なエージェントワークフローにおけるClaudeの優れた精度を強調し、一方Replitは他のモデルが行き詰まるような複雑なウェブアプリやダッシュボードをゼロから構築するためにClaudeを成功裏に導入しています。Canvaの評価では、Claudeは一貫して本番レベルのコードを優れたデザインセンスで生成し、エラーを大幅に削減しました。

Claude 3.7 SonnetはAIモデルの実世界のソフトウェア問題を解決する能力を評価するSWE-bench Verifiedで最先端のパフォーマンスを達成しています。スキャフォールディングに関する詳細は付録をご参照ください。
Claude 3.7 Sonnetはユーザーとツールの相互作用を伴う複雑な実世界のタスクでAIエージェントをテストするフレームワークであるTAU-benchで最先端のパフォーマンスを達成しています。スキャフォールディングに関する詳細は付録をご参照ください。
Claude 3.7 Sonnetは指示に従う能力、一般的な推論、マルチモーダル機能、エージェント型コーディングにおいて優れており、拡張思考は数学と科学において顕著な効果を発揮します。従来のベンチマークを超えて、ポケモンのゲームプレイテストでも以前のすべてのモデルを上回る性能を発揮しました。

Claude Code

2024年6月以来、Sonnetは世界中の開発者に好まれるモデルでした。本日、私たちは開発者をさらに強化するため、最初のエージェント型コーディングツールであるClaude Codeを限定的な研究プレビューとして導入します。
Claude Codeは、コードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHubへのコードのコミットとプッシュ、コマンドラインツールの使用ができる積極的な協力者であり、あらゆる段階であなたを情報の輪に入れ続けます。

note ご指定のページが見つかりません

Claude Codeは初期の製品ですが、特にテスト駆動開発、複雑な問題のデバッグ、大規模なリファクタリングにおいて、すでに私たちのチームにとって不可欠なものとなっています。初期テストでは、Claude Codeは通常45分以上の手作業を要するタスクを一度で完了し、開発時間とオーバーヘッドを削減しました。
今後数週間で、私たちは使用状況に基づいて継続的に改善していく計画です:ツールコールの信頼性の向上、長時間実行コマンドのサポート追加、アプリ内レンダリングの改善、そしてClaude自身の能力理解の拡張などです。
Claude Codeの目標は、開発者がコーディングにClaudeをどのように使用しているかをより理解し、将来のモデル改善に役立てることです。このプレビューに参加することで、私たちがClaudeの構築と改善に使用しているのと同じ強力なツールにアクセスでき、あなたのフィードバックが直接その将来を形作ることになります。

コードベースでClaudeと協働する

私たちはClaude.aiでのコーディング体験も向上させました。GitHubインテグレーションは現在すべてのClaudeプランで利用可能であり、開発者が自分のコードリポジトリを直接Claudeに接続できるようになりました。
Claude 3.7 Sonnetは現在までで最高のコーディングモデルです。あなたの個人的、仕事上、オープンソースのプロジェクトをより深く理解することで、最も重要なGitHubプロジェクト全体でバグの修正、機能の開発、ドキュメントの構築においてより強力なパートナーとなります。

責任ある構築

私たちはClaude 3.7 Sonnetの広範なテストと評価を行い、外部の専門家と協力して、セキュリティ、安全性、信頼性の基準を満たすことを確認しました。Claude 3.7 Sonnetはまた、有害な要求と無害な要求をより細かく区別し、前モデルと比較して不必要な拒否を45%減少させています。
このリリースのシステムカードには、いくつかのカテゴリにおける新しい安全結果が含まれており、他のAIラボや研究者が自分たちの作業に適用できる私たちの責任あるスケーリングポリシー評価の詳細な内訳を提供しています。このカードはまた、コンピュータ使用に伴う新たなリスク、特にプロンプトインジェクション攻撃に対処し、これらの脆弱性をどのように評価し、Claudeがそれらに抵抗し緩和するよう訓練しているかを説明しています。さらに、推論モデルからの潜在的な安全上の利点を検討しています:モデルがどのように決定を下すかを理解する能力、そしてモデルの推論が本当に信頼でき信頼性があるかどうかです。詳細については完全なシステムカードをお読みください。

今後の展望

Claude 3.7 SonnetとClaude Codeは、人間の能力を真に拡張できるAIシステムに向けた重要な一歩を示しています。深く推論し、自律的に働き、効果的に協力する能力により、AIが人間が達成できることを豊かにし、拡張する未来に私たちをより近づけます。

これらの新機能を探索し、それらを使って何を創造するかを見ることに私たちはワクワクしています。いつものように、モデルの改善と進化を続ける中で、皆さんのフィードバックをお待ちしています。

コメント

タイトルとURLをコピーしました