新Claude 3.7 Sonnetが世界のあらゆるAIモデルを圧倒！（史上初のハイブリッド推論モデル）

5,098 文字

https://www.youtube.com/watch?v=0CrCpXAC2vA

Claude 3.7 Sonnetが登場しました。単に速いだけではなく、より賢く考え、コードを書き、実際の開発者のようにコマンドを実行することもできます。これは人間の脳のように実際に機能するAIに最も近づいたものかもしれません。
Claude 3.7 SonnetはAnthropicの最新の大規模言語モデルで、彼らはこれをハイブリッド推論モデルと呼んでいます。OpenAIのO3やGoogleのGemini 2.0フラッシュシンキングのような他の研究所は、日常的なタスクと数学の証明や物理問題のようなハードコアな推論タスクのために別々のモデルを持つことがあります。Anthropicは、素早い回答や超深い分析が必要なときに行ったり来たりする必要がないように、すべてを1つのモデルに入れたいと考えました。彼らによれば、スピードモードと深い思考モードの両方ができる一つの脳を持つようなものだそうです。そのアプローチは本当に何かを生み出していると言わざるを得ません。
実際にこのハイブリッドの考え方はどのように機能するのでしょうか？基本的にClaude 3.7 Sonnetを使用する方法は2つあります。「イタリアの首都は何か」のような超高速な回答が必要な場合は、標準モードでそれができ、ほぼ瞬時に応答します。しかし、厄介な数学の問題や複雑なコーディングシナリオがある場合は、「拡張思考モード」と呼ばれるものをオンにすることができます。そのモードでは、Claudeは文字通り内部の思考の連鎖や推論プロセスを表示します。Anthropicによれば、最終的な解決策を出す前に段階的に反映することでこれを行うとのことです。彼らは実際に人間に例えています。時には私たちは素早い精神的チェックを行い、時には座って詳細にすべてのステップを書き出すことがあります。それはAI形式でもまさにそのようなものです。
ここで非常に重要なことは、Anthropicが拡張モードでモデルの生の思考の連鎖を見ることを許可していることです。他のほとんどの研究所はそれを隠したり、少なくとも整理された要約を提供しようとしてきました。Anthropicは将来どれだけ明らかにするかを再考するかもしれないと言っていますが、今のところ文字通り画面上でモデルの思考プロセスを見ることができます。それはすごいですよね？ただし、これは有料プランでのみ利用可能です。無料プランを使用している場合は、拡張思考なしで使用する必要があります。
常にホットトピックである可用性と価格について話しましょう。Claude 3.7 Sonnetはほぼすべての人が利用できます。Anthropic API、Amazon Bedrock、さらにはGoogle CloudのVertex AIを通じて使用できます。そして直接消費者であれば、ウェブ、iOS、Androidでclaude.aiにアクセスできますが、拡張思考モードは無料プランには含まれていないことを覚えておいてください。
価格的には興味深いです。Anthropicによれば、入力トークン100万あたり3ドル、出力トークン100万あたり15ドルかかります。これには拡張モードでの思考トークンも含まれています。OpenAIのO3 Miniと比較しようとすると、Claude 3.7 Sonnetは約4倍高価ですが、大量のプロンプトキャッシングやバッチ処理を行うと割引を受けられるそうです。使用方法によってはバランスが取れるかもしれません。また、予算を管理しやすくするために、APIではモデルが思考に使用できるトークン数に上限を設定できます。AIがアイデアを出し続けて料金が発生することを心配している場合には、かなり便利な機能です。
Anthropicからのもうひとつの新機能はClaude Codeです。これはエージェントコーディングツールと呼ばれるもので、基本的にはコードベースの検索、ファイルの編集、テストの作成、GitHubへのコミットのプッシュ、さらにはコマンドラインツールの使用など、一度に多くのタスクを実行できるという意味です。現在は限定的な研究プレビューなので、すべての人がアクセスできるわけではありませんが、Anthropic自身のアピールからすると、開発者にとって大きな生産性向上になりそうです。彼らの内部テストでは、Claude Codeは複雑なリファクタリングやデバッグタスクを一度で処理でき、通常なら人間が45分以上かかるようなことができると言っています。それは重要なことであり、十分に安定していれば、テスト駆動開発から大規模なコード保守まで、すべてのための標準的な開発者ツールになるかもしれません。
彼らが強調していることの一つは、Claude 3.7 Sonnetがコーディングとフロントエンドウェブ開発において大幅に改善されたということです。Cursorのようなパートナーはそれをテストし、実世界のコーディングタスクにおいて最高クラスであることを発見しました。Replitはクラウドに完全なウェブアプリとダッシュボードをゼロから構築させることができ、一方で他のモデルは行き詰まりました。一方、Cognitionによれば、Claudeはコード変更の計画や完全なSTCアップデートに優れているとのことです。Canvaはそれを使用して、最小限のエラーで本番準備ができたコードを生成しました。また、よく知られた実際のソフトウェア問題のセットであるSBench Verifiedや、ユーザーとツールとの複雑なタスクをテストするT-benchでも優れたパフォーマンスを発揮しています。コーディングが好きなら、Claudeがあなたの新しい親友になるかもしれません。
ベンチマークが好きでない人はいませんので、数字に飛び込んでみましょう。AnthropicはClaude 3.7 SonnetがSBench VerifiedとT-benchで最先端の技術を確立していると主張しています。彼らはスキャフォールディングテストも行いました。基本的にモデルにアプローチを計画させ、複数のステップを実行し、それらをスクラッチパッドで追跡させるものです。例えば、T-benchでは最大100ステップを許可していますが、ほとんどのタスクは30ステップ未満で終了し、1つだけが50ステップになりました。彼らはまた、データセットにいくつかの改良を加えた後、古いClaude 3.5 Sonnetで同じタスクを再実行したことについても言及しています。そのため、新しい数字はより比較しやすくなっています。
SBench Verifiedでは、いくつかの高度なサンプリングとランキング手法を使用すると、合格率は特に印象的でした。彼らは高計算シナリオで489タスクのサブセットで70.3%の成功率を達成したと言及しています。そのスキャフォールディングなしでも、そのベンチマークでは63.7%という優れた結果を得ています。もし最高の合格率を得るためにテスト時の計算に投資する開発者であれば、これらの結果に満足するでしょう。
コンテキストウィンドウの話題では、Claude 3.7 Sonnetは拡張思考モードで驚異的な128,000トークンを処理できます。これは古いモデルの15倍以上長いものです。つまり、巨大なコードベースや膨大なデータセットを与えても、一貫性のある回答を得ることができます。長さだけではなく、その能力を頑健な分析や大規模な企業知識ベースの処理にも使用しています。
また、Claude 3.7 Sonnetのコンピューター使用能力もテストしています。それは何かというと、特定のAPIに制限するのではなく、AnthropicはClaudeに人間のようにコンピューターインターフェースをナビゲートすることを訓練しました。カーソルを動かし、ボタンをクリックし、テキストを入力します。まだパブリックベータ機能ですが、Claudeに本格的なソフトウェアテスト、研究タスク、または定型的な運用タスクを単一のアプリの範囲内だけでなく、マシン上で直接実行させることができるというアイデアです。これはおそらくAIアシスタンスに対する考え方の最大の変化です。これらのモデルは単にチャットするだけでなく、実際のアクションを実行することを学んでいます。
実世界での使用シナリオについて少し話しましょう。Claude 3.7 Sonnetは顧客向けAIなどの重要なタスクに推奨されています。また、幻覚率が低いため、知識Q&Aにも人気があります。サポートツールやアドバンストチャットボットを構築する場合には大きなプラスです。チャート、グラフ、さらには複雑な図表の読み取りなど、視覚的なデータ抽出も処理することがわかっています。もちろん、コンテンツ生成、データ分析、さらにはロボティックプロセスオートメーションなどのより典型的なタスクにも役立ちます。コードを生成するだけでなく、テストを実行し、更新をコミットし、プルリクエストをマージするAIを考えてみてください。それが私たちが向かっている方向です。
AnthropicはまたClaude 3.7 Sonnetについて広範な安全性テストを行ったと述べています。有害なリクエストを拒否しつつも、良性のクエリを過度に拒否しないことが向上しており、以前のモデルよりも45%少ない誤った拒否があるとのことです。また、特にAIがコンピューターを制御できるシナリオでは、プロンプトインジェクション攻撃を通じてモデルが操作される可能性に注意を払っていると言及しています。Anthropicからの新しいシステムカードはこれらのトピックを詳細に扱い、脆弱性をどのように軽減し、より透明な推論がもたらす潜在的な安全上の利点について議論しています。彼らは拡張思考がAIのステップバイステップの論理を見ることができれば、それが誤った方向に進んでいるときに気づきやすくなるかもしれないと考えています。
すべてに加えて、Anthropicはモデルのエージェント能力を測定するために楽しいテストを使用したことに言及するのが好きです。ポケモンのゲームプレイです。基本的にモデルのAPIをゲームコントローラーに接続しました。Claude 3.5 Sonnetは最初の町で立ち往生してしまいましたが、3.7 Sonnetは複数のジムリーダーを倒すことができました。これは標準的な企業ベンチマークではありませんが、このモデルがかなりオープンエンドで目標が分割されたタスクを処理できることを示す素晴らしい指標です。
タイムラインを見ると、AnthropicのClaudeシリーズはアシスタントレベルから彼らが「フロンティア推論」と呼ぶものへと進化してきました。Claude 3.7 Sonnetはこれまでのその旅の集大成です。完璧ではないかもしれませんが、Vercel、Cursor、Replitのような大手からの初期フィードバックでは、実世界のコーディングタスクに対して大きな改善であることが示唆されています。そして、その動きは非常に速いです。Elon MuskのxAIは先週Grok 3を発表し、GoogleはGemini 2.0をパイプラインに入れ、OpenAIも迅速に反復しています。しかし今のところ、Anthropicはフロンティアモデルレースで強い位置を維持しているように見えます。特に素早い回答、拡張された推論、コーディング、さらにはコマンドラインを開くことができる単一のAIが欲しい場合はそうです。
本質的に、Claude 3.7 Sonnetは日常のQ&Aと深い推論、アップグレードされたコーディングスキル、より大きなコンテキストウィンドウ、そして新しいAIコーディングツールであるClaude Codeを組み合わせています。価格は入力トークン100万あたり3ドル、出力トークン100万あたり15ドルのままで、高いと思えるかもしれませんが、ベンチマークは真剣な開発者にとっては価値があることを示唆しています。ウェブサイトの構築、データ分析、あるいはコードのリファクタリングができるAIが必要なら、これが今のところ最高のものかもしれません。
コメントであなたの考えを教えてください。視聴いただきありがとうございました。次回お会いしましょう。