Claude4はあなたが考えているものとは違う・・・

6,614 文字

Check out Box AI here: My Newsletter for Regular AI Updates 👇🏼 The Best AI Tools👇🏼

Claude 4がついに登場しました。SonnetとOpusの2つのサイズで提供され、Anthropicは完全に新しい方向へ舵を切ったようです。そのことについて詳しく説明いたします。まず、すべての詳細をお伝えしましょう。
最初から、彼らはClaude 4 Opusが世界最高のコーディングモデルだと主張しており、これは彼らが向かっている方向を示すヒントです。そして本当に特別なのは、長時間のタスクを完遂する能力のようです。つまり、数十分から数時間にわたるタスクを、道筋を見失うことなく、実際に現実世界のタスクを完了できる能力です。
では、この両モデルについてのいくつかの詳細をお話しし、その後ベンチマークについて説明します。まず、両方とも拡張思考機能を備えており、どちらもハイブリッドモデルです。つまり、思考なしで即座に応答することもできれば、より複雑なタスクのために思考をオンにすることもできます。そして思考中には、ツール使用が可能です。これはもちろん非常に素晴らしいことですが、この時点では当たり前のことでもあります。
そして私はすでにこれで遊んでみて、今日午後2時まで利用制限に引っかかってしまいました。これは数時間先のことです。そして実際には、数回のプロンプトしか送信していません。ですから、Maxプランに加入して、皆さんのために徹底的なテストをまとめる必要があると思います。
ここではClaude 4 Opus、Claude 4 Sonnetが見えます。「検索とツール」をクリックすると、利用可能な異なるツールを確認できます。スタイルを選択でき、拡張思考のオンオフが可能です。ウェブ検索、ドライブ検索、Gmail検索、カレンダー検索があります。これらが現在利用可能なツールです。しかし、彼らはMCPフレームワークをAPIにより深く統合しています。
そして覚えておいてください、AnthropicはMCPフレームワークを作った会社であり、現在OpenAI、Microsoft、Google、そして他の多くの企業がこれを採用しています。私が他では見たことがない独特なことの一つは、両方のモデルがツールを並行して使用できることです。つまり、同時に複数のツールにリクエストを送ることができるのです。これは本当にクールで、すべてを順次実行するよりもはるかに効率的です。そして、自身のメモリーの処理においても大幅に改善されているようです。
これらすべてはClaude Codeで利用可能で、現在一般提供されており、Claude 4モデルが利用できます。今朝ライブ配信された基調講演で、Anthropicの最高製品責任者は長時間タスクについて多くの時間を割いて話し、これをどのように実現したかについて説明し、さらに7時間にわたるタスクを実行できたClaude 4を使用している会社の例も示しました。
そしてClaudeの新しいAPIの一部として、コード実行ツール、MCPコネクター、ファイルAPI、最大1時間のプロンプトキャッシュ機能という4つの新機能があります。コード実行ツールはこのような感じです。単純にプロンプトを入力すると、Claudeが思考を開始し、コードを書き、もちろんそのコードを実行します。実行するにはPythonである必要があると思います。
MCPコネクターにより、任意のMCPサーバーをClaude APIに接続できます。つまり、Claude APIが世界中のすべてのMCPツールにアクセスできるようになります。彼らはファイルAPIも持っています。つまり、Claudeにローカルファイル、特にコードファイルやリポジトリへのアクセスを与えることが大幅に簡単になりました。そしてプロンプトキャッシュです。もちろん、最も効率的な使用法を求め、最も安い価格を得たいのであれば、キャッシュが解決策です。
これらすべてを考えると、どこに向かっているかを推測できるでしょう。Claudeは基本的にチャットボット競争を諦めました。OpenAIと主要テック企業のGoogle、Microsoft、そして残念ながらAppleではないところが、チャットボット競争、個人アシスタント競争にすべて勝利したことは明らかです。
そこで現在、Anthropicはインフラ会社への転換を図っています。彼らは最高のコーディングエージェントを持つために必要なツールを提供しています。最高のエージェントを構築し、最高のコーディングエージェントを構築し、それを全員に提供しています。GitHubのCEOであるThomas Donkeyが、Claude 4 Sonnetがここにあると発表しました。つまり、GitHub Copilotで利用可能であり、それがデフォルトオプションです。
ちなみに、私はMicrosoft BuildでThomasにインタビューしました。そのインタビューを近日公開します。ですから、動画が投稿される際に通知を受けるため、このチャンネルを必ず登録してください。信じられないほど素晴らしいものです。
しかし、これを見てください。初期評価において、モデルはエージェント的シナリオで急上昇しました。それがカギです。それが我々が聞き続けていることです。メモリーツール、長時間タスク、すべてClaude 4によって動力を得られたこれらのエージェントによって実現され、より鋭いツール使用、より厳密な指示遵守、より強力なコーディング本能によって駆動される前世代からの最大10%の改善を提供します。そしてもちろん、CursorやWindsurfをはじめとするほぼすべての主要コーディングプラットフォームでも利用可能です。
現在、Claude 4は特に長時間タスクに優れており、優秀なメモリー、内蔵並列ツール使用機能を持っているため、Box AIとの組み合わせに特に適しており、それが今日の動画のスポンサーです。彼らについてお話しできることを本当に嬉しく思います。新しいClaude 4モデルを使用してBox AI上で構築できるようになる予定です。
Box AIを使用すると、人工知能を使って契約書、請求書、財務書類、履歴書などから主要メタデータフィールドを抽出できます。ワークフローを非常に簡単に自動化でき、メタデータだけでなく、それについて質問することもできます。本当に会社独自のデータに深く潜り込むことができます。そして再び、あなたが開発者なら、Box AI上での構築は簡単です。
全体のRAGパイプラインを処理してくれるため、ベクターデータベースについて考える必要がありません。チャンキングについて考える必要もありません。ただ実行され、機能します。そしてもちろん、Boxだからこそ、エンタープライズレベルのセキュリティ、ガバナンス、コンプライアンスを備えています。Claude Codeの開始に伴い、Box SDKでClaude Codeを使用したい場合、これ以上簡単なことはありません。
単純にClaude CodeにBox開発者ドキュメントへのリンクを提供すれば、それを使った構築方法を理解します。Claude Codeローンチに関するBoxのブログ投稿をチェックして、Box DocgenとClaude Codeを使用してバックエンド契約生成ツールを構築するデモをご覧ください。すべてのリンクを下の説明欄に掲載します。
ですから、BoxとBox AIでドキュメントとデータの力を解き放ちましょう。この動画をスポンサーしてくれたBoxに再度感謝します。
では、発表ブログ投稿に戻ります。Claude Opus 4とSonnet 4です。ちなみに、彼らは名前を少し変更しましたね。以前はClaude 3.5 Opus、Claude 3.5 Sonnetでしたが、現在は逆になっています。Claude Opus 4とSonnet 4です。とにかく、これらはハイブリッドモデルで、ほぼ瞬時の応答とより深い推論のための拡張思考という2つのモードを提供します。
分かっています、皆さんはベンチマークを見たがっています。ベンチマークはそれほど意味があるわけではないので、話半分に聞いてください。しかし、これが結果です。ソフトウェアエンジニアリングベンチ検証済みです。そうです、Claude 4が圧倒的な勝者です。
ここに約1週間前に発表されたOpenAI o1が72%でSweetbench verifiedにあり、62.3%だったSonnet 3.7、そして並列テスト時間計算で70.3%と比較されています。しかし現在、Sonnet 4では並列テスト時間計算で80.2%まで大幅にジャンプし、Opus 4では72.5%、並列テスト時間計算で79.4%となっています。
ちなみに、並列テスト時間計算が何かわからなかった方のために説明すると、基本的にはプロンプトに対するいくつかのテスト時間計算解決策をサンプリングして、最良のものを選択することを意味します。
これを見ていると、おそらく私と同じことを考えているでしょう。SonnetがOpusよりも良いスコアを出したのでしょうか。そうです、出しました。そして私の初期使用において、実際にOpusの方がSonnetよりも速く感じました。これは単なる個人的な経験で、数回使用しただけです。ですから、もっと多くのテストが必要ですが、コードの出力が大幅に速いようです。
ここに他のベンチマークがあります。ターミナルベンチでClaude Opus 4が43.2%で勝利し、Sonnet 4が35%です。o3モデルが30%、GPT-4.1が30%、Gemini 2.5 Proが25%となっており、現在までのところ、Gemini 2.5 Proが私のお気に入りのコーディングモデルです。GPQA Diamondは大学院レベルの推論です。エージェント的ツール使用が他のモデルと比較してかなり良い結果を示しています。
おそらく他にも一つ気づいていることがあるでしょう。Sonnet 3.7がまだかなり良い結果を出しています。これについてはすぐにお見せします。多言語Q&Aで再び良い向上を見せています。視覚的推論では同程度のスコア。そして高校数学競技AMC 2025でClaude 3.7から非常に良い向上を見せています。
少し停止して何かをお見せします。これはJohn Shulmanの投稿で、彼は緑色のボックスがClaude Sonnet 4がClaude Sonnet 3.7よりも良い結果を出したベンチマークを囲んでいることを指摘しています。黄色のものはほぼ同じ結果で、赤は実際にパフォーマンスが低下したもので、これはかなり驚くべきことです。
つまり、彼らが提出したこれらすべてのベンチマークのうち、半分が実際に低下しました。ですから、これについてどう考えるべきかよくわかりません。彼らは大幅な向上だと言っていますが、ベンチマークは実際にはそれを反映していません。そしてベンチマークは、人々がこれらのモデルの雰囲気チェックを始めるまで、これらのモデルの最も良い見方である傾向があります。非常に興味深いです。
そしてもちろん、私は徹底的にテストするつもりです。見てみましょう。今日の基調講演で彼らが指摘したもう一つのことは、Claude 3が出た時はコーディングで少し怠惰だったが、その後Claude 3.5と3.7は逆の方向に行き、過度に努力し、すべきでないことをして、あまりにも多くのコードを出力したということです。
そして彼らはClaude 4で本当に調整したと考えています。Anthropicでもある彼らは安全性に多く焦点を当てました。モデルがタスクを完了するためにショートカットや抜け道を使用する動作を大幅に削減しました。そしてもちろん、ここでポケモンの例を使用しています。両方のモデルは、ショートカットや抜け道に特に影響を受けやすいエージェント的タスクにおいて、Sonnet 3.7よりもこの動作に関与する可能性が65%低くなっています。
Claude Opus 4はまた、すでに言及したメモリー能力において、すべての以前のモデルを劇的に上回っています。しかし、エージェントのメモリーは、それらをハイパーパーソナルにするための本当に重要な要素だと言ってきました。そして彼らは今日の基調講演で、Claude 4を100回目に使用するときは、初回の使用よりもはるかに良く、効率的で、簡潔であるべきだと指摘しました。
それは学習し、あなたが何を望んでいるかを理解しているからです。ユーザーとしてのあなたとの速記を開発しています。Opus 4は、重要な情報を保存するためのメモリーファイルの作成と維持に熟達しています。これにより、より良い長期タスク認識、一貫性、エージェントタスクでのパフォーマンスが可能になります。そしてここにポケモンベンチマークの例があります。
彼らはまた、長い思考プロセスを要約するために小さなモデルを使用するClaude 4モデルの思考要約を導入しました。思考プロセスを見ることができればいいのですが、基本的に何も見えません。ここが重要です。高度なプロンプトエンジニアリングのために生の思考連鎖を必要とするユーザーは、営業に連絡できます。
つまり、生の思考連鎖を見たい場合は、おそらく料金を支払う必要があるでしょう。
次の大きな発表についてです。少し触れましたが、詳しく見てみましょう。Claude Codeが一般提供開始されました。VS CodeとJetBrains用の新しい拡張機能があり、Claude CodeをIDEに直接統合します。これは素晴らしいことです。これは世に出ているすべてのコーディングツールとの直接競争です。Claudeの提案される編集が、ファイル内でインラインで表示され、慣れ親しんだエディターインターフェースでのレビューと追跡を合理化します。
そして彼らは独自のコーディングエージェントを構築できるClaude Code SDKをリリースしています。つまり、再び彼らはエージェント的コーディングのインフラストラクチャー層を本当に構築しています。
GitHub上のClaude Codeが利用可能になり、これがSDKで可能なことの例です。PRでClaude Codeをタグ付けして、レビュアーのフィードバックに応答し、CI エラーを修正し、コードを変更します。ここに例があります。ここにPRがあります。コメントに入って、Claudeをタグ付けし、このフィードバックコメントに対処してもらえますかと言うと、すぐに飛び込んで開始します。
問題とコメントのコンテキストを収集し、フィードバックに対処し、プルリクエストを作成し、リントを検証し、テストを作成するなどです。そして、レビュー準備の整ったPRができます。
AnthropicのチーフサイエンスオフィサーがTechCrunchによると、AnthropicのJared Kaplanは、同社が2024年末にチャットボットへの投資を停止し、代わりに複雑なタスクを実行するClaudeの能力向上に焦点を当てたと述べています。これは理にかなっています。
Claudeはチャットボットゲームで勝利するために必要な心の共有を達成していません。それはChatGPTです。それはGeminiです。うまくいけば将来のSiriです。ですから、彼らはそれを諦めて、エージェント能力に集中しました。そして知っていますか、良いことです。勝利するには集中が必要です。
価格についてはどうでしょうか。確認してみましょう。Claude 4 Opusは、複雑なタスクのための最も知的なモデルです。200kのコンテキストウィンドウを持ち、これは依然として比較的小さく、バッチ処理で50%の割引を受けられます。入力100万トークンあたり15ドル、出力100万トークンあたり75ドルです。
以上です。私はテストするつもりです。近いうちにテスト動画をお待ちください。この動画を楽しんでいただけましたら、いいねと登録をお願いします。