🧠 Claude 3.7 Sonnet: AIの新しい推論能力とコーディング機能!

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,592 文字

https://www.youtube.com/watch?v=uopuRMnuSy0

大きなニュースです!Anthropicが再び注目を集め、最新モデルのClaude 3.7 SonnetとClaude Codeをリリースしました。詳細を見ていきましょう。すでにClaude.aiのウェブサイトで新しいモデルClaude 3.7 Sonnetを選択できます。まずは記事を読んでから、モデルを試してみましょう。
本日、2月24日にClaude 3.7 Sonnetが発表されました。これは彼らの最も知的なモデルであり、特に初のハイブリッド推論機能を持つモデルです。ハイブリッドというのは、即時の回答を提供することも、ステップバイステップの思考プロセスを拡張することもでき、そのプロセスをユーザーが見ることができるからです。APIを使用するユーザーは、モデルがどのように、そしてどれだけの時間「考える」かをコントロールすることもできます。これは素晴らしい機能です!
このモデルはコード作成においても大きな改善があり、特にフロントエンド開発において顕著です。モデルと共に、エージェンティックコーディング用のコマンドラインツールも導入されました。それが「Claude Code」です。「Welcome to the Claude Code Research preview」というようにコマンドラインツール専用で開発者向けに設計されており、開発者が多くのエンジニアリングタスクを直接ターミナルからClaudeに委任できるようにします。これは素晴らしいので、ぜひ試してみたいと思います。
すでに見たように、無料プラン、Proプラン、Teamプラン、Enterpriseプランのすべてで利用可能です。また、AnthropicのAPI、Amazon Bedrock(提携しているため)、Google Cloud Vertex AIでも利用できます。興味深いのは、標準モデルと推論・思考モデルの両方で同じ価格を維持していることです。入力トークン100万あたり$3、出力トークン100万あたり$15という価格設定で、これは驚くべきことです。
OpenAIの価格を見てみましょう。推論モデルでは入力トークン100万あたり$15、出力トークン100万あたり$60です。一方、GPT-4oは$2.50と$10です。つまり、Claude 3.7 SonnetはGPT-4oよりも安価で、さらに推論機能も備えているので、OpenAI o1の価格はもはや意味がありません。ClaudeのAPIを利用する方が良いでしょう。
なぜo3 miniと比較しないのかと思うかもしれませんが、o3 miniは推論において最も強力ではないからです。私はOpenAI o1と比較する必要があります。なぜなら、それが最も強力なモデルだからです。さらに、ベンチマークを見ると、Claude 3.7 SonnetはOpenAI o1を上回っているのです。つまり、はるかに安価でありながら、より高性能ということです。そのため、3.7のコストをminiモデルと比較するのは無意味です。確かに安価ですが、性能が劣るからです。
これは興味深い点です。人間は単一の脳で両方のこと(即時応答と深い思考)を行います。「私たちは、推論がこの能力を最先端モデルに統合すべきだと考えています」と彼らは述べています。だからこそ、このハイブリッドモデルを開発したのです。これは市場初です。これまでは、推論するモデルか推論しないモデルのどちらかしかありませんでした。ハイブリッドモデルは作られていませんでした。
まず、3.7は通常の大規模言語モデルであると同時に、推論能力を持つモデルでもあります。質問に通常の方法で回答するか、より深く考える必要があるかを自動的に選択します。
次に、API視点からのClaude 3.7 Sonnetは、ユーザーが思考のためのバジェットを制御できるようにします。推論に時間がかかりすぎると非常に多くのトークンを消費するため、ユーザーが推論時間に上限を設定できるのは良いことです。制限時間を過ぎると、モデルは強制的に回答を出します。出力制限は128,000トークンとのことで、速度、推論、コストのトレードオフを設定できます。
三つ目の興味深い点は、最近のo3に関する私の最後の動画に関連しています。彼らはコンピュータサイエンスの最適化ではなく、実際のビジネスが直面している問題解決を向上させるために、現実世界の問題に焦点をシフトしました。私の最後の動画をぜひご覧ください。そこではo3について、彼らも特定のセクターに特化するのではなく、モデルを水平方向に特化させたことについて話しています。これにより、モデルは複数のタスクにわたって水平的であるため、より良い一般化能力を持ち、以前は特化していたモデルを垂直的な単一タスクでも上回ります。
これはコーディングでも見られます。Claude 3.7 Sonnetはコーディングに最適化されていないにもかかわらず、S-benchベンチマークでOpenAI o1、o3 mini、Anthropicのpre-release model(R1)を大きな差で上回っています。49%対62.3%という結果です。
次に、エージェンティックツール使用についてです。これは私のような、AIアシスタントや様々なCRM、データベースと統合するマルチエージェントを作成するコンサルティング企業を持つ人にとって非常に興味深いものです。ここでは、OpenAI o1から73%から81.2%への改善が見られます。これは、モデルがファンクションコーリングをより適切に行い、さまざまなAPIを呼び出し、エラーを減らしながらより多くのパラメータを渡せることを意味します。
ベンチマークを見てみましょう。ここでは、拡張思考ありと拡張思考なし(考える場合と考えない場合)の64%があります。このモデルは前モデルのClaude 3.5 Sonnet、OpenAI o1、o3 mini、R1を上回っていますが、真の競争相手はGrok 3 Betaかもしれません。ここでは78.2、84.8、82.84という数値が見られます。これらの範囲は推論時間に基づいて設定されていると思います(最小値と最大値)。いずれにせよ、このモデルは多分野・多言語のベンチマークで非常に良い結果を出しています。
エージェンティックツール使用は86.83%、ビジュアル推論は75%、71%、70%、78%と推論で高い数値を示しています。Grok 3 Betaも76.78%とビジュアル推論で非常に強力です。指示の遵守に関しては99.3.2%、90%という非常に高い精度を示しており、これまで見たことがないほど高い数値です。クラウドはこの点で最高のモデルになるでしょう。
数学問題については96.2%、82%、78%があり、o1は96%なので、数学問題解決ではよく競争しています。ただし、高校レベルの数学ではGrok 3 Betaに負けています。
ですが、ベンチマークは参考程度に見るべきで、最も重要なのはモデルを実際に試して応答を確認することです。ベンチマークは多くのことを偽装できますが、変えられないのは実際にモデルを試した時の出力です。
次に、最も魅力的なClaude Codeについて見てみましょう。こちらが動画です。ターミナルでClaude Code Research Previewを起動しています。基本的に、コードが入っているフォルダを開き、そのフォルダで直接ターミナルを開いてClaude Codeを起動します。このツールはフォルダ内のすべてのコードを読み込みます(外部に行くことはできません)。
素晴らしいのは、コードベース全体を読み込めることです。例えば、「コードの構造を説明して」と頼むと、このツールは自動的にフォルダ内のすべてのファイルを読み込み、Anthropicのサーバーに送信し、大規模言語モデルが自動的にすべてのコードを分析し始めます。現在、このようなターミナルツールは利用できません。VS Codeのような様々なツールはありますが…
ここでは、そのコードベース上にウェブインターフェース、チャットボット、エージェントなどがあると説明しています。素晴らしいのは、コマンドラインからプロンプトを指定して、モデルに何をしてほしいかを伝えられることです。
例えば、「チャットをローカルに保存できるようにしたい。思考コンポーネントをチャット履歴に置き換えてください」と書いています。フロントエンド側の変更を指示すると、「Cooking」アニメーションが始まり(考えている、料理している状態)、モデルが行う変更を見ることができます。Reactコードをすべて修正しており、モデルが行っている推論のテキスト部分も見ることができます。これはモデルが正しく動作しているかを理解するのに非常に役立ちます。
続いて、モデルが行った変更が表示され、コマンドラインから変更を承認するか、キャンセルするか、または今後のすべての変更を自動的に承認するかを選択できます。「自動操縦で進め」と言うようなものです。ここではモデルが引き続き変更を行っています。
次に変更の要約が表示され、フロントエンドに移動して正しく機能しているか確認します。左側に履歴が追加されていることがわかります。チャット履歴と様々なコンポーネントがあります。テストして、チャットを開きます。モデルが応答し、新しいチャットを開くと、左側に前のチャットのチップが表示されているかを確認します。
さらに素晴らしいのは、この新機能をテストするためのテストコードを直接書くよう指示できることです。そして最後にすべてをリポジトリにコミットし、ソリューションをビルドします。基本的にすべてを自動で行います。これは新しいプログラミングパラダイムだと思います。もはやテキストエディタを持つ必要はなく、ターミナルとファイル、ドキュメントを含むフォルダを直接持ち、ターミナルで望むことを尋ね、フロントエンドで確認・テストするだけです。
「Claude Codeは通常45分以上の手作業を要するタスクを1回のパスで完了します」と書かれており、これは素晴らしいです。彼らの計画を説明しています。まずはClaude Assistからスタートし、コンピュータを制御するClaude Computeを2025年にリリースする予定です。次にClaude Collaboratesで、何時間もの独立した作業をあなたの代わりに行い、チームの能力を向上させます。その次のステップはClaude Pioneersで、チームを開発し問題に何年も取り組む必要があったような難しい解決策やブレークスルーを見つけます。これは本当に未来の姿です。年単位の研究作業をわずか数分で行うような研究グループを持つようなものです。
Claude Codeは素晴らしいツールだと思い、開発者として間違いなく使用したいと思います。Visual Studio Code用の拡張機能も作るでしょう。私はこのようにターミナルだけでコードを見たくはなく、すべてがきれいに書かれたIDEとターミナルが欲しいです。しかし、コードベース全体を読み込む能力と、コードベース専用に設計されたという点では素晴らしいです。
現在のツールであるCursor、Lovableなどの裏では、OpenAIへのAPI呼び出しが行われています。つまり、単純なコードのプロンプトであり、コードベースが非常に大きいとき、多くの場合コードの一部が失われます。プロンプトに入れるためにチャンク分割すると、コードベース全体を入れることができないからです。一方、このようなツールを開発したのなら、これらの制限を考慮して、確実により良いものを作ったはずです。そのため、Claude Codeのリリースを心待ちにしています。
Claude 3.7 Sonnetを試してみましょう。例えば、ビデオゲームを生成してみましょう。最近、地下鉄や飛行機に乗っているときにBlock Blastをプレイしているので、1億ダウンロード以上を誇るこの有名なゲームを再現できるか見てみたいです。
「Pythonを使ってPygameでゲームを作ります。ゲームには要求されたすべての要件と、いくつかのオプション機能も含まれます」と書いています。ここに生成されたコードを貼り付けて、試してみましょう。
スコアゼロから始まり、これが配置できるブロックです。1つをここに、1つをここに置いてみます。この1つをここに…行が消えるか見てみましょう。はい、消えました!スコア10点になりました。このように、1000万ダウンロードのゲームが生成されました。もちろん、グラフィック効果、サウンド、コンボ効果など追加できることはたくさんありますが、最初のプロンプトでこのビデオゲームの開発要求を満たしてくれました。
Claude 3.7 Sonnetに非常に興奮しています。Anthropicの製品は本当に高品質で、特にコーディングにおいてClaudeは常に最高のソリューションの一つでした。特にClaude Codeの部分に興味があります。最新情報については、私のチャンネルをチェックし続けてください。この3.7 Sonnetのリリースについての意見をコメントで教えてください。また、さらに詳しくこのモデルをテストする動画を作成すべきか、おそらくイーロン・マスクのGrok 3 Betaモデルと比較する動画が見たいかも教えてください。
次の動画でお会いしましょう。さようなら!

コメント

タイトルとURLをコピーしました