アンスロピック・ソネット3.7 – 思考するソネット

8,025 文字

Anthropic Sonnet 3.7 - The Thinking Sonnet

In this video, we look at the latest model from Anthropic: Sonnet 3.7, and how it adds thinking tokens as well as gettin...

アンスロピックが最新モデルであるClaude 3.7 Sonnetをリリースしました。多くの人がこれはClaude 4になるのかと疑問に思い、Claude 4がどのようになるか非常に期待していました。Claude 4はまだ先のようですね。これはまだClaude 4ではありませんが、このモデルはコーディングや推論タスクなどにおいて、かなり大幅な強化が図られています。
モデルの紹介に入る前に、現在のアンスロピックの状況について非常に興味深いことを指摘したいと思います。最近、The Informationがアンスロピックが新たな企業価値評価で追加資金を調達していることについての記事を公開しました。その中には、アンスロピックの今後数年間、2027年までの収益予測が含まれていました。
そこでは彼らの製品の使用が大幅に増加する可能性が予測されています。明らかになってきているのは、アンスロピックが今、人々が使用しているコーディングモデルの中で圧倒的にナンバーワンだということです。Cursorや他の様々なコーディングツールなどを見ると、人々はアンスロピックのSonnet 3.5 バージョン2を使用してきました。現在の新バージョンが3.7と呼ばれていることを考えると、多くの人が以前のバージョンを3.6と呼んでいたのは正しかったようです。アンスロピックがこの分野で大きな急成長を見ていることは非常に興味深いです。そのため、今日彼らが発表した最新モデルと新製品がこのようなコーディング用途に関連しているのも驚くことではありません。
今日彼らがリリースした2つのものは、詳しく話す新しいモデルと、そのモデルが推論や思考モードを持っていること、そして彼らがClaude Codeもリリースしたことです。これは、Cursor、Bolt、Lovableなどのコーディングアシスタントツールに対抗する最初のステップと考えることができます。
まず見るべきは、Claude 3.7がアンスロピックの初めての推論・思考モードを持つリリースだということです。彼らは基本的にこれを2つの方法で実現しています。ここでは、このモデルで拡張思考を選択できるようになっています。これにより基本的に思考スタイルのトークンをより多く得ることができます。
そしてコードでは、思考をオンにできるというアイデアがあり、トークンの予算も設定できます。ここで見られるように、通常はClaudeを呼び出すだけですが、今は思考プロパティがあり、それを有効にして思考のためのトークン予算をどれだけ割り当てるかを設定できます。
これは非常に興味深いことで、例えば「3万トークンの思考が欲しい」などと決めることができます。実際にどれだけの長さになるのか、あるいは思考モードを見るときに彼らがどのように並行して処理しているのかが分かります。実際、ブログ記事では最大128,000トークンの思考を使用できることが分かります。
これはスピードとコストと回答品質のバランスを取る大きなトレードオフであり、この選択肢を与えてくれるのは素晴らしいことです。新しいモデルとこの新しい思考機能と共に、もちろん新しいベンチマークが提供されます。このモデルがSWE bench（ソフトウェアエンジニアリングベンチマーク）でどれだけ優れているかを示すベンチマークは非常に興味深いです。また、思考モードやモデルの特定の使用方法によって異なる結果が得られることも示されています。
これは、拡張思考について話している他のブログ記事でも触れられていることですが、今やベンチマークを再考する必要があるということです。モデルから出てくる回答だけをベンチマークするのではなく、特定の計算量を与えた時の回答をベンチマークする必要があるでしょう。
このブログ記事で非常に興味深いと感じたのは、彼らが「並列テスト時の計算」について話していることで、複数の独立した思考プロセスをサンプリングし、そこから多数決やコンセンサス投票を行うか、あるいは「LLMを審判とする戦略」を使用して、Claudeの別バージョンでそれらを評価するというものです。
これは最後まで実行するのではなく、「Let’s Verify Step by Step」という論文のように、途中の複数のステップで行うのです。これはDeepSeekが行ったものとはかなり異なります。
これがどのように展開されるのか、DeepSeekの新バージョンでも彼らがGRPOでのRL処理ではなく、このような方法を工夫するのかは非常に興味深いところです。もっともシンプルな見方は、ここで示されているように、より多くのトークンを与えることでより良い回答が得られるということです。
DeepSeekでも同じベンチマークで全く同じ傾向が示されていました。これは現時点で、これらのモデルから本当に高品質な思考を得たい場合は、最終的な回答を出す前に多くのトークンを生成させたいということを示しています。
アンスロピックが明らかに力を入れているもう一つの点は、このモデルがエージェント的なユースケース、主にエージェントツールを通じて使用されることを目指しているということです。ここでは、この新しいモデルを以前のモデル（3.6と呼びましょう）とOpenAIのo1と比較したベンチマークが示されています。
最近OpenAIは、o3をAPIなどとしてリリースしないと言及したと思います。GPT 4.5（噂によると今週末か来週リリース予定）まで待つ必要があるのか、あるいは数か月後にリリースされるGPT 5まで待つ必要があるのか分かりませんが、これらを比較するのは興味深いことです。
しかし、これまでのクロードバージョンに比べてどれだけ向上しているかを見るのは確かに興味深いことです。より一般的なベンチマークを見ると、あまり驚くべきことはないように感じます。ただ、彼らがDeepSeek R1と32kの拡張思考を比較してベンチマークを行い、拡張思考なしとより長い思考での結果を示しているのは興味深いです。
また、視覚的推論などの一部の分野では、Grok 3ベータが彼らを上回っているのも興味深いです。私がこれについてビデオを作っていない理由は、テストするためのAPIがないからです。数週間以内にリリースされることを期待しています。
Claude Codeについては別のビデオに取っておき、このツールは今後数か月でフィードバックを得て改良されていくと思います。しかし明らかにこのモデルはコーディング用に作られており、Cursorなどで十分にテストできますし、コーディングタスクでどのように機能するかをテストすることもできます。
他のブログ記事をざっと見ると、本当に興味深いことがいくつかあります。私が本当に気に入っているのは、アンスロピックが現時点で最も洗練されたプロバイダーの一つであるという点です。彼らは他のフロンティアラボよりもはるかに透明性が高く、自分たちが何をしているのかを説明しています。
これは彼らが思考プロセスを生の形で可視化することを宣言していることからも分かります。「思考プロセスを生の形で可視化することにした」と述べ、その理由を挙げています。ここで挙げられている理由は実際に非常に良いものだと思います。
1つ目は信頼性です。人々がこれを実際に見ることができると、その結論に至った過程が見えるため、出力を信頼できるようになります。これはブラックボックスの要素を取り除くことになります。いくつかのラボが思考プロセスの要約だけを提供しているやり方は、本当に良い代替手段とは思えません。
2つ目はアラインメントです。彼らはOpenAIが認めたことも認識していて、思考と出力が一致していないときを特定しようとしたいということです。彼らが今回の思考部分にアラインメント訓練をしなかったというのは興味深いことです。
出力に対してはアラインメント訓練を行ったと思いますが、実際の入力などには行っていないようです。3つ目は非常に適切なことだと思いますが、それは単に興味深いということです。これらのものがどのように決定に至るかを見ることは実際に興味深いことなのです。
彼らが「ユーザーは最初、公開された思考がClaudeのデフォルト出力よりも冷静で個人的な響きが少ないことに気づくかもしれない」と人々に準備させているのは良いことだと思います。つまり、この思いわゆる「内部」思考がどのようにプロセスを進めるかについて、より感覚的に理解できるということです。
そこでは、思考が間違っている箇所や、誤解を招いたり、途中で不正確な思考をしている箇所を見ることができるでしょう。このブログ記事を読むことをお勧めします。彼らはClaudeの拡張思考についていくつもの非常に興味深いことを述べています。
さて、モデルを使ってみて、実際にどのように機能するか、拡張思考はどうなのか、そして実際のコーディングは実世界のタスクで尋ねたらどうなるかを見てみましょう。
最初に試すのを我慢できず、イチゴの質問を試してみました。興味深いのは、視覚的な方法でそれを行う方法です。単に答えを与えるのではなく、コードと視覚的な方法で示しているのが面白いと思いました。このモデル全体の基調を表していると思います。物事を示すためにコードを使用する方法と、その推論が特徴的です。ちなみに、これは推論機能をオンにせずに行いました。
次に、最近興味を持っていた少し実世界的なことをやってみます。これは基本的にサム・アルトマンのブログ記事で、成功する方法についての本当に興味深いアイデアについて語っています。私がやりたかったのは、LLMにルールを抽出させ、それを物事を評価する方法に変換することです。
以前のモデルはこれをとてもうまくやりました。これがどうなるか、そしてこれに関連して何かコードを書くかどうか興味があります。以前のモデルはReactチェックリストと関連するものを提供でき、それは興味深いと思いました。
これはまた、ある種の実世界のものの分析です。かなり長い間考えていることがわかります。今、実際の思考に20〜30秒経過しています。32秒の思考の後、いくつかの重要なことを抽出することができました。
「これを実際に使用するためのソフトウェアを構築してくれますか？」と尋ねてみましょう。確かに、今は「機会評価ツール」のソフトウェアを構築しています。そして興味深いことに、前のモデルができたものよりもはるかに詳細な重み付けシステムを考え出しているようです。
かなり長く続きました。コードを見ると、コード行数は表示されませんが、ここには多くのコードが書かれています。これは本当にこのモデルの使用方法を強化し、このモデルがいかに様々なコーディング関連の用途のために構築されたかを示しています。
ここでは新しい機会を入力できます。重み付けを変更することもできます。基本的にブログ記事からルールを抽出し、今や異なる重み付けなどを持つソフトウェアに変換しました。入力したものを保存すると、スコアが表示され、CSVにエクスポートして複数の機会を比較できます。
今、複数のエントリーがあることがわかります。編集をクリックして戻り、編集して更新することができます。すごい、すでにこれらすべてのコードがあります。比較機能もあり、選択したものを比較して、それぞれの項目でどこに位置するかを確認できます。
短いプロンプトをいくつか入れただけで、これほど詳細でコード化されたものを思いつくことができるのは驚異的です。いくつかの推論例を入力するのではなく、いくつかの発想とコード例を見てみましょう。
過去に意図とスロットフィリングモデルがどのように機能したかを説明してほしいというプロンプトを与えました。これを説明するだけでなく、視覚的な方法でそれを行うことができるかどうかを見てみましょう。なぜなら、これらのものが本当にクールなことができる領域の一つは、人々が知らない概念を、多くの場合視覚的な方法で説明し、人々が理解できるようにすることだと感じるからです。
これに対して大量のコードを書いています。実際に機能するのか、そしてこれから何が得られるのでしょうか？確かに、意図認識が一つのこと、スロットフィリングがその意図を満たすために必要な特定のパラメータを抽出することだと理解していることがわかります。
多くのコードが続いています。また、ここに「公開」ボタンがあるのも興味深いですね。他の人が見ることができるように公開できるのでしょう。正直なところ、この量のコードでは、どこかでバグが発生することを予想します。ほとんどのモデルでは、どこかに何らかのバグがあるものです。
さて、これはどのように機能するのか、ここに何かを入力してみましょう。「ニューヨークから来週の金曜日にロンドン行きの航空便を予約したい」と入力し、処理します。意図はフライト予約でしょう。
確かに、最初の生成後は機能しませんでしたが、基本的に「良さそうですが、処理ボタンを押しても何も起こりません」と言っただけでした。それから考え直し、デモを更新しました。フライト予約を選択すると、これがシステムから得たい意図だと判断しています。出発地はニューヨーク、目的地はロンドンだと正確に理解しています。
また、日付と時間も取得しました。基本的に、NERシステムが素晴らしいわけではないにしても、それらすべてを取得しています。次に進みましょう。天気の例を見てみましょう。確かに、意図とスロットをとても上手に取得していることがわかります。正直なところ、過去にどのように行われていたかをLLMしか知らない人々にどのように示すかを考えるのに多くの時間を費やしました。
これが基本的にこれらを理解できたことは素晴らしいことです。私のトークでこれを示すことができるように、これを公開します。
もう一つ、人々に説明したいと思っていたのは音声アクティビティ検出です。同じプロンプトを試してみましょう。これは大きなプロンプトではありません。これらのものがどのように進化してきたか、このようなものに何が含まれているのかを説明してもらいます。実際にデモを作成できるでしょうか？
これが行われる様々な方法を多数教えてくれましたが、それは完全に正しいです。出てくる実際のデモがどのようなものか、そして実際に何ができるのか興味があります。これは本当にエキサイティングです。突然、非常に複雑なトピックやものが、テキストだけでなく視覚的な方法でも説明されるのです。
ChatGPTやClaudeで常に見つけた問題の一つは、図表や何かが欲しい場合、モデルに何かを作成させるのは非常に難しいことが多いということです。
さて、このデモができました。しきい値を変更できることがわかります。これはすごいです。これは絶対にすごいです。エネルギーベースだけでなく、統計ベースの方法もあり、さらに様々な検出手法を持つML方法もあり、説明も付いています。
これも私のプレゼンテーションに入れます。このようなものが今や、このような視覚的な方法で多くのことを説明できるのは本当にすごいことです。
次に、ランディングページを作成してもらいたいのですが、ある程度制限を設けたいと思います。最近Twitterで、オリバー・ケニョンが投稿した良いホームページのランディングデザインに必要なものについて話した素敵なグラフィックを見ました。
これについての「やるべきこと」と「やってはいけないこと」が本当に良かったと思います。そこで、その画像を取って、ここにドロップしました。「核の冬に備えた水耕栽培の準備サイトのランディングページをコーディングしてください。マーケティングとコピーを本当に強力にして、これが人々が来るものに備えるのに役立つことを示してください」と依頼しました。
また、Tailwindで作成するよう依頼しました。思考モードを使用しています。おそらくそれほど長くは考えないでしょうが、マーケティングコピーと実際のコードの両方について考えるでしょう。確かに、すぐにTailwindを使用しています。
これは良い兆候です。ビジネスの名前などは伝えていません。実際にどのようなものを思いつくか見てみましょう。どのように指示に従ったかが気になります。画像にもっと注意を払うよう指示すべきだったかもしれません。
結果を見て、さらに指示を与えてみましょう。デザイン機能は優れているわけではありませんが、確かに異なる要素を含んでいます。公開してみて、見た目が良くなるか確認しましょう。
公開後も、CSSがやや不具合のようです。しかし、確かに指示に従っていることは興味深いです。「ガイドからのベストプラクティスに従っています」と書かれています。クリアで利点に焦点を当てた見出しがあり、ガイドを見ると実際に言及されている重要なポイントの一つだとわかります。
そして他のすべての事柄も彼らが言及していることです。このような形で何らかのガイドやものを取り、これを誘導できるアイデアが本当に気に入っています。そしてこれらすべてのコードを書き出すことができます。見た目から判断すると、実際にはTailwindを引き出していないようです。
後でもう少し試してみるかもしれません。もう一つの素晴らしいことは、これがClaude codeで使用されているモデルであることを忘れないでください。Cursorに移動すると、このモデルがすでにCursorで利用可能であり、思考版と非思考版の両方があることがわかります。
これはアンスロピックのコーディングモデルとコーディングエージェントなどを支援するツールの構築におけるリードを強化することになるでしょう。
まとめると、Claude sonnetをコードなどで実行したい場合は、非常に簡単です。Colabなどでは、これを取り込むだけです。重要なのは、基本的にトークン数を設定し、思考モードを有効にし、思考トークンの予算を設定することです。
これを行えば、思考を別の出力として見ることができ、マークダウンで最終回答も得ることができます。また、実際に使用したトークンの量も確認できます。これが異なる思考トークンをすべて含んでいるのか、それとも返ってきたものだけなのかは100%確信できません。複数の並列ツリーを生成して除外した場合、それがどのように機能するのかはわかりません。
現時点ではそれに対して課金されています。しかし、確かにこれを始めて試すことができます。全体的に言って、コードのためのクロードの拡張思考は、様々なタスクを実行するために、ここで本当に印象的です。そして、このようなものがコーディングなどで本当に普及するかどうかについて悩んでいた多くの人々を変えることになると思います。
それは今や完全に明らかです。おそらくClaude Code、Cursorでの使用などについてのフォローアップビデオを作ることになるでしょう。いつものように、コメントであなたの考えを聞かせてください。あなたが試したプロンプトで、どのようなものがうまくいったか、何がうまくいかなかったかを教えてください。もちろん、この段階ですべてがうまくいくわけではないので、人々が試して失敗したこと、そこでどのような結果を得ているかを聞くのは本当に興味深いでしょう。
いつものように、このビデオが役立ったと思われたら、ぜひ「いいね」と「購読」をクリックしてください。次のビデオでお話ししましょう。さようなら。