新しいAnthropic Claude Sonnet 3.7 – 昨日テストした全てのモデルを打ち負かす！

3,195 文字

https://www.youtube.com/watch?v=2Vm4DUeZY00

これはとても短い内容になりますが、ちょうど携帯を手に取ったところ、Sonnet 3.7がリリースされたことを知りました。つまり、Anthropicの有名なClaude Sonnet 3.5が3.7に置き換わったということです。すでに多くの人が、この新しいモデルはコーディングに関して3.5よりもはるかに優れていると話しています。3.5自体がすでに素晴らしい成果を上げていたことを考えると、これは驚くべき進化です。
噂ではバージョン4が出るという話でしたが、実際には3.7が登場しました。これは途中のティーザーのようなものでしょうか。待って見るしかありませんね。最近、AIモデルを追いかけるのはモグラたたきゲームをしているような感覚です。つい最近X AAIが登場したと思ったら、今度はSonnet 3.7です。
そこで、この簡単なテスト動画を急いで作りました。昨日アップした動画については説明欄やエンドスクリーン、さらにはこの画面上部にタグ付けしておきます。その動画では、Grok 3、OpenAI o1、Gemini Pro 2.0モデル、そして最後にDeepSeek R1の比較を行いました。そのテストでは、推論とコードを必要とする課題としてトランスフォーマーアーキテクチャを視覚的に理解できるようなビジュアルを作成するよう全モデルに挑戦してもらいました。いくつかのモデルは良い結果を出しましたが、私の見解では完全に合格したものはありませんでした。結果は驚くべきものだったので、詳細を知るにはその動画を見る必要があります。
今回は、先日比較した4つのモデルに加えて、Sonnet 3.7でもテストしてみます。私はSonnet 3.5をすでに高く評価しており、誰が何と言おうと、コーディングにおいてはナンバーワンだと思っています。新しいモデルが登場するたびに比較していますが、3.5に近いものはまだないと思います。Cursorのようなツールでコーディングする多くの人々は、今でも3.5 Sonnetを使用することを好んでいます。
そして今や3.7バージョンが登場し、すでにテストしている人々は、コーディングに関するあらゆる面で3.5よりも優れていると言っています。私はこれから同じプロンプトを実行しますが、詳細については再度説明しません。この課題が何を達成しようとしているのかを詳しく理解するには、前の動画を見てください。信じてください、興味深い内容です。どのモデルも本当にうまくいかなかった課題です。
このプロンプトを新しいSonnet 3.7モデルに送信し、結果を見て、Replitで実行して、トランスフォーマーアーキテクチャの説明ツールの最終結果をお見せします。これは推論、理解、コーディングを必要とする本物のテストです。もしまだ前の動画を見ていないなら、まずこの動画を続けて見て、Sonnet 3.7モデルから得られる結果を確認することをお勧めします。それを見た後で、前の動画に戻り、テストした他のモデルとその結果を確認して、自分自身で判断してください。Daddy’s Channelをチャンネル登録してください。
画面を見ると完全なプロンプトが表示されています。下部にはすでにClaude 3.7が設定されているのが分かります。オプションを確認して、これはコーディングなので「簡潔」ではなく「通常」のままにしておきます。モデルに送信し、結果が出たらReplitに貼り付けて実行します。
完了しました。すべてを1つのHTMLファイルにまとめることを選択しているようです。コードがたくさんありますね、すでに良さそうです。Claude自体のプレビューも非常に良く見えます。Replitで実行して、何が得られるか見てみましょう。ここで実行ボタンを押すと結果が出ます。カラフルですね、他のどのモデルでも得られなかった特徴です。
判断や結論を急がずに、新しいタブで開いて自分でテストしてみましょう。「Hello World」という入力シーケンスが表示されています。そしてエンコーダーを示し、ここでセルフアテンションを説明しています。ブロック全体を説明しています。以前テストしたいくつかのモデルは全体の説明を提供していましたが、これは両方を提供しているようです。全体の説明と、各セルフアテンションとフィードフォワードの説明があります。一部重複しているようですが。
そしてデコーダーに進みます。マスクドセルフアテンション、エンコーダーデコーダーアテンション、そしてフィードフォワードを順番に見ることができます。アーキテクチャの観点から非常に高いレベルで、正しく表現していると言えるでしょう。そして他のモデルが示さなかった例も表示しています。そして最後にテキストがあります。
正直に言うと、小さな部分がうまく機能していません。各エンコーダーとデコーダーの各サブステップの詳細があるようですが、それらは互いに重なり合って見えづらくなっています。点滅する矢印が見えますし、同じことがここでも起こっています。正直なところ、まだ結果に満足していません。求めていたものではありませんが、昨日テストした他のどのモデルよりも明らかに優れています。
カラーコーディングは明らかにプラスの効果です。ここで見られるような小さな効果がいくつかあり、本当に素晴らしいです。入力シーケンスをクリックすると点滅して戻ってくるようですし、出力についても同様だと思います。点滅する矢印が見えますし、テキストはきれいで読みやすいです。下部には「教育目的で作成されたインタラクティブなトランスフォーマーアーキテクチャの可視化」というフッターも追加されています。
確かに他のどのモデルよりも優れた結果でした。昨日の評価では、意外にもGeminiが1位でした。GeminiとOpenAI o1は非常に接近していて、1位と2位を争っていました。つまりGemini 2.0 ProとOpenAI o1モデルがトップで、次にX AAIモデル、最後にこのテストで最悪の結果を出したDeepSeek R1でした。この結果から私の意見では、他の動画とこの動画を見て自分で判断してほしいですが、Sonnet 3.7が1位になり、それに続いて昨日公開した動画で取り上げた同じ順序のモデルが続くと思います。
これが私に教えてくれることは、それほど大きな変化ではないということです。多くの競合他社が最近モデルや大きなものを発表しているため、Claudeが沈黙したままでいられなかったのだと思います。バージョン4まで待てなかったので、途中で何かを出す必要があったのでしょう。これが私の推測です。競争は激しく、クレイジーな状況です。
3.5はすでにコーディングにおいて最高のモデルでしたが、3.7はおそらく3.5をさらに少し超えています。少なくとも次の3〜6ヶ月間（AIの世界では長い期間）は、3.7が1位を維持するだろうと思います。これが彼らの狙いだったのでしょう。そしておそらくその後、噂が現実となり、Claude 4.0モデル、つまりSonnet 4.0やOpus 4.0が登場するかもしれません。将来的にそういったことが起こる可能性がありますが、とにかく素晴らしい結果です。
この短い動画を楽しんでいただけたなら、昨日公開した動画もチェックしてみてください。両方楽しんでいただけたなら、この簡単なショーケースを見て、自分で試してみてください。ちなみにSonnet 3.7モデルは無料でアクセスできます。あなたの意見を教えてください。チャンネル登録をお忘れなく、無料ですし、コメント欄にもコメントを残してください。良い一日を。Daddy’s Channelをチャンネル登録してください。