Anthropicの新しいAIがついに登場！

4,371 文字

https://www.youtube.com/watch?v=_THEzb83YHE

Anthropicが彼らのフラッグシップモデルであるClaude 3.7 Sonnetを発表しました。これはAnthropicから登場した初の推論モデル、ハイブリッド推論モデルであり、Anthropicによれば、これは彼らがこれまでに作った中で最も知的なモデルとのことです。このモデルはClaude 3.6 Sonnetからのアップグレード版、あるいはClaude 3.5 Sonnetの新しいバージョンとなります。
このモデルには開発者が気に入るであろう二つの特徴があります。一つ目は、生の段階的な思考をユーザーに見えるようにすることです。OpenAIが思考の連鎖（Chain of Thought）を要約バージョンとしてのみ表示することを決めたのに対し、Anthropicは可視化された思考の連鎖を透明に共有することを決定しました。二つ目は最も重要な点で、私はこれまでどの企業もやっていないことですが、理想的にはやるべきことだと思っていたことです。それはAPI利用者、つまり開発者がモデルがどれだけの時間考えることができるかを指定できるということです。
Claude 3.7 Sonnetには「拡張思考」と呼ばれる機能が搭載されています。これは拡張思考モードであり、オンにもオフにもできます。例えば、より複雑な質問がある場合はオンにし、そうでない単純な質問の場合はオフにすることができます。さらに、拡張思考モードをオンにした場合でも、開発者としては思考予算を設定する能力があります。例えば10,000トークンを使用できる、あるいは20,000トークンを使用できるというように指定できます。このような正確な制御が可能になっています。
特定の問題に対してClaudeがどれだけ長く考えることができるかというこの機能は、思考モデルの上に構築しようとしている開発者にとって素晴らしい特徴となるでしょう。なぜなら、現在の最大の問題は、思考モデルが時々、与えられた問題には必要のない不必要に長い思考を行うことがあるからです。そしてこれはまさにClaude 3.7 Sonnetが解決したことなのです。
さらに、このモデルはコーディングにおいても驚くほど優れています。私たちはClaude 3.5 Sonnetの登場以来、Claudeモデルがベンチマークの結果やリーダーボードの順位に関係なく、優れたコーディングモデルであることを常に目にしてきました。人々はいつもClaude 3.5 Sonnetのコーディング品質について絶賛してきました。
特にCursorとの使用においては、Claude 3.5 Sonnetのコーディング能力は高く評価されており、このClaude 3.7 Sonnetは新しいベンチマークを設定することになるでしょう。またClaudeには「Claude Code」という新機能が搭載されており、これはAnthropic自身が提供するコードエディタのようなセットアップです。これはおそらく、AnthropicがOpenAIのように主にフロンティアモデルに焦点を当ててきたものの、バリューチェーンの上流へ移動し、垂直統合を進めようとしていることを意味するかもしれません。つまり、Anthropicも「結局のところ、私たちはお金を稼がなければならず、一つのフロンティアモデルだけでは多くのお金を稼ぐことができない」と判断しているのかもしれません。
WindsurfやCursorのようなツールはClaudeをモデルとして使用して多くのお金を稼いできたので、「なぜそれを商業化しないのか」という考えがあるのでしょう。Claude Codeはその一環であり、彼らは実際にどのように進展するかを見極めようとしているのかもしれません。ちなみにClaude CodeはCursorというよりはNeovimに近いものです。このモデルの最大の問題点は、私が最初に指摘したいのは価格設定です。このモデルの価格を比較すると、Claude 3.7 Sonnetは…
可視化された段階的推論を備えた最も知的なモデルであるClaude 3.7 Sonnetは、200,000のコンテキストウィンドウを提供しますが、入力トークンのコストは100万トークンあたり3ドルです。これをOpenAIのo3 miniと比較すると、o3 miniはコストが半分以下です。o3 miniの入力トークンは1.10ドルです。
o3 miniの入力トークンは1.10ドルであるのに対し、Claudeの入力は3ドルです。出力トークンについても、キャッシュを考慮しない場合、Claudeは4.4ドルであるのに対し、o3 miniは15ドルです。これは大きな差ですが、これは私がAnthropicの新モデルであるClaude 3.7 Sonnetをo3 miniレベルのモデルと仮定した場合であり、o1やo1 miniレベルのモデルではないと考えた場合です。もしこれをo1レベルのモデルと考えるなら、この価格はかなり競争力があります。しかし、それは待って確認する必要があることです。ベンチマークの観点からは、素晴らしいモデルのようです。
さまざまなベンチマークを見ることができます。SWE Bench Verifiedは、GitHubの課題からのデータセットであり、これらのモデルがこれらのGitHub課題を解決することが期待されています。OpenAI o1は48.9%ですが、このモデルはカスタムスキャフォールディングなしで62.3%のスコアを達成しており、カスタムスキャフォールディングを使用すると70%、70.3%まで向上します。
これは拡張思考を使用した場合の結果であり、エージェンティックな使用事例についても同様です。Anthropicはこのモデルでエージェンティックなユースケースとコーディングユースケースに力を入れているようです。そして再び、このモデルはOpenAI o1よりも良いスコアを出しています。これをo1レベルのモデルとみなす場合、私がo1レベルに位置づけなかったのは、OpenAIにとってo1はフラッグシップモデルであり、miniは小型バージョンであるのに対し、Anthropicにとっては「Opus」がフラッグシップであり、「Sonnet」はその一段階下のレベルだからです。しかし、リリース内容とベンチマークに基づくと、これはo1を超える可能性があります。
このモデルをOpenAIと比較した場合、この価格設定は非常に理にかなっています。また、バッチ処理では50%の割引があり、プロンプトキャッシングなど開発者が好むであろう他の機能も備えています。私がここで最も重要だと思うのは、このモデルが拡張思考なしの場合と拡張思考ありの場合で一貫してパフォーマンスの向上を示していることです。Claude 3.7 Sonnetと拡張思考を備えたClaude 3.7 Sonnetを見てみましょう。
64,000トークンの拡張思考を備えたClaude 3.7 Sonnetは一貫してパフォーマンスの向上を示しています。拡張思考を有効にするだけで、多言語MLUのモデル精度が83.2%から86%に、GPQAが68%から78%に、Math 500が82%から96%に、そしてAIMが23%から61%に向上しています。すべてのベンチマークにおいて、拡張思考を有効にするだけでこのモデルははるかに優れた仕事をしています。最近話題になっているモデルの一つであるDeepSeek R1と比較することもできます。DeepSeek R1が71.5%であるのに対し…
GPQAではDeepSeek R1が71.5%であるのに対し、Claude 3.7 Sonnetは78.2%、Grok 3は80.2%です。ただし、Grok 3がこのような結果を得ている理由は、ここに脚注があり、Grok 3 Highとo1の結果はサンプル数64に基づいているからです。彼らは多数決投票を使用しており、64のサンプルがある場合、64のサンプルの中から最良の回答を選び、それに基づいてスコアを与えています。一方、Claude 3.7 Sonnetは…
Claude 3.7 Sonnetは、並列テスト時間計算による内部スコアリングに基づいています。彼らは別々に行っているわけではなく、別のスコアリングを行っているのです。これは非常に非常に印象的なモデルだと思います。彼らはClaude Codeの使い方など、さまざまなデモを用意しており、ビジョンも設定しています。そのビジョンは基本的に、2024年にはClaudeはアシスタントであり、個人が現在の仕事をより良くできるように支援し、それぞれの人を最高のバージョンの自分自身にすることを支援するというものです。
2025年には、Claudeはコラボレーターになることが期待されています。最初のものはインターンのようなもの、2番目のものはパートナーのようなものです。そして2027年には、Claudeがチームが達成するのに何年もかかるような難しい問題に対する画期的な解決策を見つけることが期待されています。これはおそらく素晴らしいビジョンですが、OpenAIという企業がより商業的な企業になりつつあるのに対し、Anthropicという企業はより開発者コードファーストの企業になっているように見えます。Claude 3.7 Sonnetを使用したい場合は…
Claude 3.7 Sonnetを使用するには、claude.aiにアクセスして質問を入力するだけです。最新モデルであるClaude 3.7 Sonnetが現在利用可能であることが確認できます。これは無料プランの一部として利用可能なモデルですが、Anthropicはインフラが大半の時間利用できないことで知られているので、これが改善されていることを願っています。とりあえず今はここにアクセスして検索すれば、すぐにClaude 3.7 Sonnetが…
Claude 3.7 Sonnetがあなたのために動作しているのを見ることができます。二次方程式を解いてみると、モデルがいくつかの処理を行っています。このモデルは非常に分かりやすく、この時点では速度に関するベンチマークはありませんが、非常に高速に見えます。彼らがこれをコードの一部として使用する計画であることを考えると、このモデルは多くの人々が絶賛することになるモデルだと思います。このモデルについてあなたの意見を聞かせてください。また別の動画でお会いしましょう。