Claude 3.7 Sonnet 実践テスト – ハイブリッド推論モデル

AGIに仕事を奪われたい
この記事は約7分で読めます。

3,624 文字

https://www.youtube.com/watch?v=hccdsP91AZg

こんにちは、Fahad mzaです。チャンネルへようこそ。お待たせしました。Anthropicが彼らの評判の高いClaudeモデルの新バージョンをリリースしました。Claude 3.7は、Anthropicがこれらのモデルを構築してきた方法に変化をもたらします。他の開発者やモデル提供者の流れに従い、Anthropicは現在このハイブリッド推論モデルを発表しました。このビデオでは、このモデルを様々なベンチマークでテストするだけでなく、この新しいモデルが実際に何であるかをできるだけ簡単な言葉で説明していきます。
Anthropicはこの画期的なモデルをリリースしました。大規模言語モデルと推論モデルの機能を組み合わせたものです。このハイブリッドアプローチにより、Claude 3.7 Sonnetは瞬時に近い応答を生成したり、段階的な思考に取り組んだりすることができ、様々なアプリケーションにとって優れたツールとなっています。そしてすぐにテストもしていきます。
このClaude 3.7には4つの主要な特徴があります。第一に、先ほど言及したハイブリッド推論です。LLMと推論能力を統合することで、迅速な応答と深い考察の両方を必要とする複雑なタスクに取り組むことができます。第二に、ユーザーはモデルの思考時間をコントロールできます。これにより自己反省が可能になり、数学、物理学、コーディング、指示に従うなどのタスクでのパフォーマンスが向上します。第三に、思考に対する予算を設定できるAPIも提供しており、速度とコストを回答の質とトレードオフすることができます。このAPIはAmazon Bedrockを含む様々なプロバイダーから利用でき、これについてはすぐに別のビデオを作る予定です。第四に、最後のポイントとして、Claude 3.7は数学やコンピュータサイエンスの競争問題に単に焦点を当てるのではなく、実用的なタスクに最適化されています。つまり、他とは異なる非常に汎用的なモデルと言えるでしょう。
このベンチマーク情報を見ると、非常に印象的なストーリーが見えてきます。初期のテストでは、Claude 3.7はコーディングとフロントエンドのWeb開発で非常に良い成績を収めています。また、複雑なコードベースの処理、高度なツールの使用、コード変更の計画においても大幅な改善を示しています。ちなみに、このモデルをCursorやContinueなどのコーディングアシスタントでどのように使用するかについても、別のビデオをすぐに作成する予定ですので、ぜひご覧ください。また、リアルタイムでのテストも行います。
Claude 3.7 Sonnetはすでに利用可能です。このモデルを使うには、cloud.anthropic.comにアクセスし、メールアカウントでログインするだけです。無料版、プロ版、チーム版、エンタープライズ版で利用でき、価格は変わらず、入力トークン100万につき3ドル、出力トークン100万につき15ドルです。これには思考トークンも含まれます。価格はまだ高いと思います。AnthropicにはぜひPrice見直しをお願いしたいですね。まだかなり高価だと思います。
さて、これが新しいモデルですが、テストしてみましょう。その前に、このビデオのスポンサーであるCamel AIをご紹介します。Camelはオープンソースコミュニティで、データ生成、タスク自動化、世界シミュレーションのアプリケーションを持つエージェントのスケーリング法則を見つけるためのマルチエージェントインフラストラクチャを構築することに焦点を当てています。
それでは、このモデルをテストしてみましょう。すでにClaude 3.7を選択しており、自動的に選択されているのが分かります。以前は3.5でした。
まず、この文法の質問でテストしてみましょう。学術的な原稿から選ばれた段落の修正を依頼しています。言語だけでなく、文法やスペルチェックも修正するよう依頼しています。実行してみましょう。思考中ですので、一緒に確認しましょう。
正しい答えが得られました。速度を見てください。すぐに確認すると、別々にテストしてあります。これが修正後のもので、これが修正した部分です。的確な回答です。非常に的確な回答です。
先ほど見た回答は推論型のものではありませんでした。無料プランを使っていたことを思い出してください。Claude 3.7の拡張思考を使用するには、プロフェッショナルプランにアップグレードする必要があります。プロフェッショナルプランにアップグレードしたところで、オーストラリアドルで約34ドルかかりました。USドルに換算すると月額約25ドルだと思います。アップグレードしたので、ここをクリックすると「拡張」というオプションが表示されます。数学とコーディングの課題に最適です。拡張オプションを選択して、こちらの質問をしてみましょう。不正確な方程式に括弧のペアを追加するように依頼しています。
思考中です。クリックして確認してみましょう。思考が進んでいます。自己反省して、回答を再確認しています。正しいかどうかをチェックしています。Deep SeekやOpenAIのGPT-4o1で見たものと非常に似ています。自分自身について話しており、思考の連鎖が走っています。代替の方程式の配置を証明しようとしています。
まだ疑問に思っているのは、時間をどのように制限できるかという点です。その部分はまだありません。回答が得られました。これはかなり良いですね。Deep Seekのビデオや GPT-4o1のビデオを覚えていれば、それらは回答にたどり着くのに多くの時間がかかりました。例えば、Deep Seekは約10分かかりましたが、これはわずか48秒で済みました。速度的にはかなり良いので、34ドルは十分に価値があったかもしれません。数学はかなり良く、また検証もしています。
別の数学の質問をチェックしてみましょう。これは三角法の質問で、cosine xを求めるよう依頼しています。ここをクリックします。ピタゴラスの定理を使用することを期待しています。象限をチェックしています。今のところ良さそうです。待ちましょう。ピタゴラスの定理を使用しているのが見えます。正しい軌道に乗っています。確認中です。完璧に進んでいます。速度もかなり良いです。回答は4x/5です。非常に良いです。完全に的確な回答で、無駄なことはしていません。速度はかなり良いと思います。Anthropicの速度に関する主張は、完全に正確だと認めざるを得ません。
もう一つの質問を試してみましょう。少し難しい質問を出してみます。ビット単位のXOR操作について質問してみましょう。ビットレベルの数学はこれらのモデルにとって少し難しいものです。2つの32ビット整数間のビット単位XOR操作を実装するよう依頼しています。
マークダウン形式で回答が得られました。上に戻って確認してみると、正しいアプローチを使用しています。この関数を定義し、C言語コードを使用しています。実装が示されています。完璧です。コードがすでに表示されており、これは確実に素晴らしい回答ですが、他のコーディング例もチェックしてみましょう。
Swiftを使った基本的なiOSアプリを開発するよう依頼しています。これは通貨コンバーターです。ユーザーが基本的なiOSアプリの開発を依頼しており、右側を見てください。すべて表示させて、速度も確認できるようにしています。速度は本当に素晴らしいです。アプリケーション全体がここにあり、右側には概要が示されています。コードを説明しています。上にスクロールしてコードを確認すると、ビューなどすべてが揃っています。素晴らしいですね。もちろん、このようにアーティファクトとして公開することもできますが、今回はそうしません。
私の意見では、コーディングや数学は本当に素晴らしいです。ただし、有料版を使用していても、この拡張思考を多用すると制限がかかる可能性があるので注意してください。バランスを取ることが重要です。もう少しテストしたいところですが、もう一度やるとおそらく制限がかかるでしょう。
すでに十分テストしたと思いますし、これは以前のClaude 3.5バージョンよりもはるかに優れていると思います。思考と速度の面では、Deep Seek Car1よりも優れていると言えるでしょう。あなたの意見を聞かせてください。もしこのコンテンツを気に入っていただけたら、チャンネル登録を検討してください。すでに登録されている方は、ネットワーク内で共有していただけると大変助かります。このモデルについてはさらに多くの情報を提供する予定ですので、お楽しみに。ありがとうございました。

コメント

タイトルとURLをコピーしました