Claude 4.6 Sonnet登場 ― コーディングにおいて驚異的な性能を誇る新モデル

Anthropic・Claude・ダリオアモデイ
この記事は約8分で読めます。

Anthropic社から新たに発表された「Claude 4.6 Sonnet」についての解説である。本モデルは、上位モデルであるClaude 4.6 Opusに匹敵する性能を持ちながら、Sonnetクラスのコストパフォーマンスを実現している。特にプログラミング能力や、ブラウザ操作を含むコンピュータ使用機能が大幅に強化されており、100万トークンの広大なコンテキストウィンドウを活かした高度な推論とエージェント的タスクの遂行が可能となっている。開発者や知識労働者のワークフローを劇的に効率化する、極めて実戦的なモデルの登場と言える。

Sonnet 4.6 Is Here—And It’s a Beast at Coding
Sonnet 4.6 is here! We are looking at Opus level performance at Sonnet prices.

コスパ最強のプログラミングモデル:Claude 4.6 Sonnetの衝撃

Anthropicからまた新たな大型リリースがありました。今回登場したのはClaude 4.6 Sonnetです。このモデルは、Claude 4.6 Opusと比較すると小規模なモデルという位置づけですが、Sonnetモデルの価格帯でありながら、Opusレベルのパフォーマンスを提供してくれます。

現在、Anthropicは知識労働者層をターゲットに据えており、特にエンタープライズ顧客や開発者に焦点を当てています。今回のリリースでは、モデルの新しい反復進化によって、コンピュータ使用機能(computer use)が具体的に改善されました。これにより、ブラウザをより効果的に操作できるようになっています。また、100万トークンのコンテキストウィンドウを備えているため、プログラミングにおいて非常に有用なツールになるはずです。歴史的に見ても、Anthropicは最先端のコーディングモデルを構築してきましたが、今回のモデルもそのパターンを踏襲しているようです。

一部の状況においては、Claude 4.6 Opusの組み込みの代替品として位置づけられており、UI操作能力も大幅に向上しているように見受けられます。まずはベンチマークの結果を確認しておきましょう。多くの主要な指標において、Claude 4.6 Opusに非常に近い数値を出しています。現時点では、両者の決定的な差を見出すのが難しいほどです。エージェントによる検索やブラウザ利用などの特定のユースケースではわずかに遅れをとる場面もありますが、全体としては極めて肉薄しています。

さらに今回のリリースに伴い、Web検索機能も向上し、ダイナミックフィルタリングが追加されました。私は普段からよくClaudeを使っていますが、Web開発やテストの自動化を試みている人々にとって、これらは大きな価値をもたらすことになるでしょう。

進化した「コンピュータ使用機能」と驚異的なスコア

今回のリリースで特に強調されているのが、このモデルのコンピュータ使用機能です。2024年10月に、前身となるモデルが初めてこの機能を導入した際、OS Worldの検証済みベンチマークでのスコアは20%未満でした。しかし、今回の新モデルでは、なんと72.5%にまで到達しています。これは本当に驚くべき進化です。

このモデルはすでにClaude上で利用可能になっており、選択してすぐに試すことができます。私がAnthropicを気に入っている理由の一つは、モデルを発表すると同時に一般公開してくれる点です。待ち時間なしで、すぐに触ることができる。開発元がいつ公開してくれるのかと、期待しながら待つ必要がないのです。このモデルは無料プランのユーザーにも提供される予定です。もっとも、Anthropicの無料プランは、他の最先端AIラボほど太っ腹ではありませんが。

公式ブログの内容を素早くチェックしてみましょう。そこには、コーディング、コンピュータ使用、長いコンテキストの推論能力、そしてエージェント的な計画立案や知識労働、デザインといった幅広いスキルがアップグレードされたと記されています。100万トークンのコンテキストウィンドウについても触れられていますね。繰り返しになりますが、性能はClaude 4.6 Opusに非常に似ていますが、価格設定には少し注意が必要です。

ベースとなる20万トークンまでは、これまでの価格と変わりません。Anthropicは、SonnetやOpusレベルのモデルの価格を一貫して維持してきました。他社が価格を下げている中で、ユーザーは最高峰のモデルであれば対価を支払うことを厭わないと考えており、Anthropicはそれを実現できているのです。ただし、コンテキストウィンドウ内で20万トークンを超える分については、劇的に異なる料金体系が適用されます。20万トークンを超えると、それ以下の価格の5倍にあたる15ドルを支払うことになります。すべてのトークンが同じ単価ではない、という点は覚えておくべきでしょう。

リリース順序の変更と知識労働への特化

いくつかのハイライトを紹介します。早期アクセスユーザーの多くは、前身のSonnet 3.5よりもこの新しいClaude 4.6 Sonnetを好んで使用しました。これは予想通りですね。しかし、中にはClaude 3.5 Opusよりもこちらを好むという声もありました。当初、Anthropicは先にSonnet 5をリリースするのではないかという噂もありました。通常、彼らはまずSonnetに大きなアップグレードを施し、その後にOpusを出すという傾向があるからです。

しかし今回は、その逆の手順を踏みました。まずOpusをアップグレードし、次にSonnetをマイナーバージョンのアップグレードとして更新したのです。ですが、今回のリリースで彼らが最も強調しようとしているのは、やはりコンピュータ使用機能です。この機能の素晴らしいところは、モデルのために特別なAPIを必要としない点にあります。人間が操作するのと同じように、既存のセットアップをそのまま利用して操作を行うのです。

これは非常に困難なタスクですが、業界全体で劇的な改善が見られるようになりました。私の経験上、SonnetやOpusクラスのモデルは、おそらくその最前線に立っています。今回の更新も、その方向性をさらに推し進めるものになるでしょう。初期のユーザーからは、複雑なスプレッドシートの操作や、複数のブラウザタブを跨いだ多段階のWebフォーム入力といったタスクにおいて、人間レベルの能力を発揮しているという報告も上がっています。

知識労働において、コンピュータ使用機能はますます重要になっています。最近、彼らは「co-work」という製品を導入しました。これは、非技術的な人々でも使いやすいようにClaudeのコード機能をラップしたものですが、システムの真骨頂は、あなたのコンピュータ上でアクションを実行できることにあります。知識労働の自動化が進む中で、この能力は極めて重要になります。Claude 4.6 Sonnetは、その点においても能力が向上しているようです。

一方で、プロンプトインジェクションには大きな課題が残っています。Webナビゲーションを自動化したり、エージェントに様々なWebサイトでアクションを許可したりする場合、これは深刻な問題です。Anthropicはこれに直接対処しており、このモデルはプロンプトインジェクションや同様の攻撃を検出する能力が強化されていると説明しています。

また、長いコンテキストウィンドウを使いこなす能力も向上しているようです。100万トークンの範囲全体で、効果的に推論を行うことができます。実用面でどれほど優れているかはこれから見ていく必要がありますが、公式の例では、長期的な計画立案が可能であることが示されています。ベンディング・ベンチ・アリーナでのテストでは、以前のバージョンよりも効果的に利益を上げ、貯蓄することができたそうです。モデルの反復ごとに大きな改善が見られるのは、全体的なトレンドと言えますね。

開発者のためのレーザーフォーカス

ベンチマークに目を向けると、特にコーディングに関してはClaude 4.6 Opusに非常に近い結果となっています。これは、GoogleのGemini Proに対して、コーディングタスクで肉薄していたGemini Flashのような、Anthropic版の高速・高機能モデルと言えるかもしれません。

Anthropicの目標は非常に明確です。彼らは知識労働者と開発者をターゲットにしています。これは他の競合他社とは異なる戦略であり、だからこそ、この特定のドメインにレーザーフォーカスして、極めて優れたモデルを構築することができているのだと思います。

Claude 4.6 Opusと同様に、このモデルも「adaptive thinking(適応的思考)」と「extended thinking(拡張思考)」の両方をサポートしています。適応的思考とは、タスクの複雑さに応じて、モデルが思考の予算を自律的に割り当てる能力のことです。ユーザーは何も心配する必要はありません。モデルが自動的に判断し、APIの裏側でコンテキストの圧縮なども自動で行ってくれます。

実機テスト:Web開発とシミュレーション

それでは、Claude上でいくつかテストを行ってみましょう。Claude 4.6 Sonnetを選択しました。まずは、かなり詳細な指示を含むWeb開発のタスクを試してみます。Web開発において、どれほどの能力を発揮するでしょうか。

このモデルは、思考のプロセス(Chain of Thought)の途中でツール呼び出しを織り交ぜることができます。Webページの作成を依頼したところ、すぐにフロントエンド開発のスキルを直接使い始めたようです。別のタブでは、500個の星が重力によって相互作用する銀河のシミュレーションを作成し、クリックで巨大なブラックホールを追加できるように依頼しました。

さて、結果を見てみましょう。重力下での500個の星のシミュレーションがこちらです。非常に動作が速いですね。もう少しコントロール機能を追加する必要があるかもしれませんが、クリックしてブラックホールを導入してみると、シミュレーションは正確に機能しているようです。フロントエンドのデザインもかなり優れていますね。ただ、このシミュレーションが物理的に正しいかどうかは、天体物理学者に確認してもらう必要がありますが、それはまた別の話です。

次に、作成されたWebサイトを見てみましょう。こちらは、もう少し手を入れる必要がありそうです。必ずしも期待通りとは言えませんが、プロンプトをもう少し工夫すれば、より良いUIデザインが得られるでしょう。

いずれにせよ、私は今後もこのモデルを徹底的にテストしていくつもりです。もし興味があれば、ぜひチャンネル登録をお願いします。今回の動画が皆さんの役に立てば幸いです。ご視聴ありがとうございました。それでは、また次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました