
2,845 文字
ついにAI界に朗報です。今日の動画ではClaude 3.7 Sonnetと、Claude Codeについて話していきます。Claude Codeは私の理解では現在まだ完全には利用できませんが、まずは3.7について話しましょう。推論モデルについては詳しく触れません。というのも、私は推論モデルにそれほど熱心なファンではないからです。また、映像が少し変に見えるかもしれませんが、今イタリアにいて、ラップトップを使い、いつもと違うマイクを使っているためです。でもこれについて話したかったのです。
これは私が待ち望んでいたアップデートです。注目すべき点で、残念なことに、価格が下がっていないんです。この記事にあるように、APIでは入力トークン100万あたり3ドル、出力トークン100万あたり15ドルのままです。これはAnthropicとしては少し残念だと思います。大きな失敗ではありませんが、他のモデルがみんな値下げしているように、もう少し安くできたら大きな前進だったと思います。とはいえ、コストが全てではなく、本当に良いモデルであれば気にする必要もないでしょう。
Claude Codeは基本的にKleinやAdlerのようなものですごく良いので、別の動画で必ずチェックしますが、この動画ではClaude 3.7 Sonnetのワンショット版に焦点を当てたいと思います。推論モデルは大のファンではありません。推論モデルは実質的に、どの会社がより良いプロンプトを作れるかの問題であり、どのモデルが実際に優れているかという問題ではないと思うからです。
ご覧のように、Claude 3.7 Sonnetはこれらのベンチマークの多くでDeepSeek R1と同レベル、あるいはそれを上回っています。ユーザーの視点から考えると、ワンショットプロンプトでClaude 3.7 Sonnetを使って、DeepSeek R1と同等かそれ以上の結果を得られるなら、選択は明らかですよね。3.7 Sonnetを使うでしょう。これはAnthropicのかなり賢い戦略だと思います。
彼らが推論機能を追加した理由は理解できますが、個人的には推論モデルにこだわらなくても良かったのではと思います。というのも、今はあらゆるAIモデル、AIカンパニーがみんな同じことをしているからです。彼らが自分たちのやり方を貫いて欲しかったです。正直、推論モデルはそれほど素晴らしいとは思っていません。自分でもできる思考連鎖プロンプトに過ぎないので。でも全体的には、これは素晴らしいアップデートです。
それでは、私がいつもすべてのモデルに対して行う「ブラックタイアタイアテスト」をやってみましょう。その前に、これを3.5 Sonnetと比較してみましょう。こちらがその出力です。
このテストをご存じない方のために説明すると、これは新しいLLMの性能を評価するための私のテストです。基本的に、以前私が働いていたiSitというウェブサイトからの大量の画像と製品リストがあります。このプロンプトでは、リストから10個のブラックタイアタイア製品を選ぶように指示しています。
3.5 Sonnetを見ると、1、2、3、4、5、6、7個選びました。スニーカーは着用できませんし、ポロシャツもこれも着用できません。なので7個中正解は7つです。しかしもう一つ注意点があって、このプロンプトでは「記事用に10個の関連製品とデザイナーリンクを選んでください」と言っているのにデザイナーリンクが提供されていません。これでマイナス1点なので、3.5 Sonnetは10点中6点と言えるでしょう。
このプロンプトをコピーして、新しいチャットを始めましょう。3.7 Sonnetを使うのは初めてなので、ここでEnterを押して、どのような結果になるか見てみましょう。あ、Claude Proにアップグレードする必要があるようです。幸い私はエージェンシーで働いているので、有料アカウントを持つ別のアカウントに切り替えられます。上部に「プロフェッショナルプラン」と表示されています。有料プランには異なるコンテキストウィンドウがあるのが興味深いですね。
ここでEnterを押すと、これが前の回答より改善されているかどうかすぐに分かります。あれ?記事を作成し始めていますが、私が頼んだことではありません…待ってください。製品を選ぶようにお願いしました。どのような結果になるか見てみましょう。
これが1つ目、良い製品です。2つ目、3つ目、4つ目、5つ目、6つ目、7つ目、8つ目、スカーフは確かに着用できますので9つ目…これは存在する中で最高のワンショットモデルです。ただし、デザイナーへのリンクがないのでマイナス1点で、8点中8点といったところでしょう。
全体として、これは以前のSonnetモデルから大きな改善です。大量の情報を素早く簡潔にまとめる作業を非常に上手く、非常に簡単にこなしています。最後に試してみたいのは、DeepSeekというモデルです。
拡張モードを選択して、もう一度同じことをやってみましょう。「製品を選んでください」と言って、Enterを押して、この思考モデルがどのように機能するか見てみましょう。これは絶対に素晴らしいと思いますが、先ほど述べたように、私は推論モデルの大ファンではありません。プロンプトの作り方の勝負に過ぎないと思います。
興味深いことに、これは03より性能が劣っているようです。ほぼ同じ製品を選んでいますね。これはマイナス点なしの10点中10点と言えますが、やはりデザイナーリンクがないのでマイナス1点で、9点中9点でしょう。そしてワンショットは8点中8点です。全体として3.5からの大きなアップグレードです。
24時間以内に私のSaaSにこれを組み込むつもりです。大きなアップグレードなので、Harborに組み込む価値があります。しかも価格は同じです。価格を下げて、人々を喜ばせるためだけに推論モデルに焦点を当てなければ良かったのにと思います。多くの人がそれを求めていたのでしょうが。
総じて良いアップデートです。3.7は特にこの種のタスクでは3.5より優れています。これは彼らが焦点を当てたと言っているタスクの種類、つまり奇妙なベンチマークではなく、人々が実際にLLMをどのように使うかということです。
ここで動画を終わりにします。イタリアから土曜日に戻ります。ちょっと休憩中で、実はここで動画を作るつもりはなかったのですが、Anthropicが新しいモデルをリリースしたので、抵抗できませんでした。私はAnthropicが大好きで、Claudeは私のお気に入りのLLMですから、新しいモデルがリリースされたら人々に知らせる必要があります。
視聴ありがとうございます。最後まで見てくれた人は伝説です。また近いうちに新しいコンテンツでお会いしましょう。では!


コメント