
4,687 文字

私は物事を誇張するタイプではありませんので、これ以上の前置きなしに言わせていただきます。まさにこの瞬間から、私たちの関連するすべての製品サービスでClaude 4 OpusとClaude 4 Sonnetをリリースすることを発表できて嬉しく思います。ついに来ました、皆さん。
私は全く予期していませんでした。Claudeが何ヶ月も何ヶ月も待った後にリリースされたのです。Opusという大物がついに登場し、OpenAI O3やGemini 2.5 Proと真正面から対決することになります。
このローンチで、状況がとても明確になってきました皆さん。OpenAIは汎用人工知能のような道筋を取ろうとしています。一方、AnthropicのClaudeはコーディングに非常に重点を置いています。それが得意分野だからです。それほどまでに、彼らは基調講演イベントを「claude with code」と呼んでいるのです。
そして一方で、Gemini 2.5 Proはこれらすべてを均等な割合で行っています。私の目の前に記事があります。私は記事全体を読み、すべてのベンチマークなどを確認し、皆さんが実際にモデルを理解し比較できるよう詳細な図解を作成しました。
それでは、これ以上の前置きなしに始めましょう皆さん。ベンチマークを一つずつ見ていきます。エージェント端末コーディングを見ると、Claude 4 Opusが50%で最高スコアを記録し、続いてClaude 4 SonnetとClaude 3.7 Sonnet、その後にOpenAI O3とGemini 2.5 Proが続いていることがわかります。明らかに皆さん、OpenAI O3とGemini 2.5 Proは端末コーディングに関してはかなり後れを取っています。
次に移りましょう。大学院レベルの推論を見ると、ベンチマークが明らかに飽和状態に達していることがわかります。すべてのモデルが83%付近にあり、Sonnet 4が実際に最高スコアを記録しています。しかし、これらのポイント差は誤差の範囲内の可能性があるため、それを真剣に受け取ることはできません。
Claude 4 Sonnetが実際にこれらの非常に大きなモデルと競争できているのは非常に印象的です。そして一つ見て取れることは、Gemini 2.5 Proがわずかに後れているということです。次に進みましょう皆さん。
エージェントツール使用を見てみましょう。ここでもClaudeモデル間では非常にわずかな差しか見られず、それがClaude 3.7がClaude 4 Sonnetを上回っている理由です。Gemini 2.5 Proのデータはありません。しかしOpenAI O3を見ると、このモデルはツール使用に関してはあまり優秀ではないことがわかります。そして私たちは既にClaudeモデルがエージェントタスクや適切なツールの使用において非常に優秀であることを知っています。それがすべてのエージェントIDEで人気のモデルの一つである理由です。さらに進みましょう。
これはTower Benchと呼ばれる別のベンチマークです。これもツール使用に関するもので、ここでも同様のパフォーマンスが見られます。ここで特に言うべきことはありません。次に、大規模多言語理解、つまりMMLUベンチマークに移ります。ここでもパフォーマンスは非常に接近しており皆さん、Claude 4 OpusとOpenAI O3が同点で、続いてClaude 4 SonnetとClaude 3.7 Sonnetが続いています。Gemini 2.5 Proのデータはありません。
視覚的推論について話すとき、ここで状況が実際に少し変わると思います。Claudeモデルが後れを取っているのが見えるからです。おそらく視覚理解においてはClaudeモデルはそれほど優秀ではないかもしれませんが、これらはベンチマークであり、皆さんご存知のように私たちはテストに入る予定です。ベンチマークを見ると、OpenAI O3が実際に最高位にランクされ、続いてGemini 2.5 Pro、そしてClaude 4 Opusが続いており、その差は実際にかなり大きいものです。
次にMath and AIMeme 2025に移ります。ここでも皆さん、差はそれほど大きくありません。特にClaude 4 OpusとOpenAI O3の間では。そして興味深いことに、Claude 4 SonnetはGemini 2.5 Proを実際に上回っています。
このClaude 4 Sonnetモデルは非常に優秀です皆さん。実際にミドルティアのモデルでありながら、これらの大物たちと対等に戦っているのです。なぜ彼らがFrontier Mathを考慮しなかったのかわかりませんが、皆さんご存知のように、私たちは比較でFrontier Mathテストを行う予定です。次に進みましょう。
コーディングで最も信頼されるベンチマークの一つ、SWE-Benchです。ここではClaudeモデルが実際に王者であることがわかります。ソフトウェアエンジニアリングタスクはエージェントコーディングに関連しており、皆さんご存知のように、エージェントに関してはClaudeモデルは比類がないからです。それが私たちが見ることができるものです。良いことの一つは、OpenAIが実際にGemini 2.5 Proよりも優秀だということです。私の記憶では、OpenAIはそれほど優秀ではなかったからです。ですから、OpenAIが少なくとも最下位でないのは良いことですが、皆さんご存知のように、Claude 4モデルはそれに非常に優秀です。次に進みましょう。
私が見る限り、OpenAI O3とClaude 4 Opusの間で真っ向勝負が繰り広げられているのがわかりますが、実際に非常に良いパフォーマンスを示しているモデルはClaude 4 Sonnet皆さんです。これらのモデルと対等に戦っています。私たちがこれを見ている理由は、ベンチマークが実際に飽和状態になり、パフォーマンスの差がこれらのベンチマークでは非常に見えにくくなっているからである可能性があります。それが彼らがFrontier MathやARCGIをベンチマークとして使用したり、さらには人類最後の試験を使用したりできた理由ですが、彼らはそれをしませんでした。より良い理解を得るために結果が出ることを願っています。
しかし、実際にモデルの価格を見てみましょう。価格は絶対に狂っています皆さん。つまり、Gemini 2.5 Proは価格に関しては比類がありません。とても安く、それに続くのがOpenAI O3です。皆さんが見ているのは、入力と出力の合計価格です。そしてClaude 4 Opusは非常に狂った価格設定皆さん。入力価格を見ると、それほどでもありません。しかし出力に関しては、つまり比類がありません。価格はチャートから外れています。それが実際に価値があることを証明してくれることを願います。それは比較でわかるでしょう。
これらがベンチマークで見たすべてのことでした皆さん。彼らが公開した記事を詳しく見てみましょう。最初から彼らはClaude 4 Opusが世界最高のコーディングモデルだと言っています。私のウェブサイトでは、最高のフロントエンドコーディングモデルはClaude 3.7でした。最高のバックエンドコーディングモデルではありませんでしたが、彼らは確実にこれを主張しようとすることができます。
モデルと並んで、彼らがリリースした機能の一部は、ツール使用による拡張思考です。これは何でしょうか?OpenAI O3の発表で、モデルが思考中にさまざまなツールを使用してより良い応答を提供できることが明確に言及されたことを覚えているかもしれません。それはOpenAI O3の発表イベントで非常に大きなハイライトでした。ウェブを検索し、コードを実行し、すべてを行うことができました。それがここで言及されていることです。両方のモデルが拡張思考中にウェブ検索などのツールを使用でき、Claudeが推論とツール使用を交互に行って応答を改善できると書かれています。
私が言ったように、これはOpenAI O3と非常に似ており、これを行うことができるモデルがますます増えているのを見るのは素晴らしいことです。新しいモデル機能の一部は、より正確な指示追従と最も重要なのは改善されたメモリ機能です。彼らはイベントで、Claude 4にはノートやタスクを実際に保持して、それを参照し直すことができ、文脈から外れることがないという習慣があると言いました。それは素晴らしいことです。
Claude Codeもプレビューから正式に利用可能になりました。彼らはAPIでのコード実行ツール、MCPコネクター、ファイルAPI、そして最大1時間のプロンプトキャッシュ機能など、他のAPI機能もリリースしました。価格についてはすでに話しました。Claude 4 Opusは100万入力トークンあたり15ドル、100万出力トークンあたり75ドル、Claude 4 Sonnetは100万入力トークンあたり3ドル、100万出力トークンあたり15ドルです。
モデルの改善について話すと、良いことの一つは、モデルがタスクを完了するためにショートカットや抜け穴を使用する行動を大幅に減らしたことです。これはOpenAIモデルで非常に明白です。実際にタスクを求めるたびに、彼らはより短い長さで完了しようとし、実際に叱って、より良い応答を強制しなければなりません。
比較的にClaudeモデルはそれに優秀でしたが、今では彼らは、そのような行動に従事する可能性が65%低く、実際にユーザーが求めていることに従うと言っています。それは素晴らしいことです。私たちはテストでこれらすべてを知ることになります。チャンネルを購読して、3つのモデルすべての完全なテストを見ることができるようにしてください。Gemini 2.5 Pro、Claude 4 Opus、そしてOpenAI O3です。
そして私が前に言ったように、Opus 4は重要な情報を保存するためのメモリファイルの作成と維持に熟練していることがわかります。これは自分自身の中に培った一種の行動です。たとえば、ポケモンのゲームをプレイしているとき、実際に自分自身のためのノート、ナビゲーションガイド、そして従うべきさまざまなポイントを作成したのがわかります。
これがClaude 4モデルについてのすべてでした皆さん。正直に言うと、パフォーマンスはほとんどの場合においてOpenAI O3とClaude 4 Opusの間で実際に比較可能であり、いくつかの場合ではGemini 2.5 Proとも比較可能です。私によると真のヒーローはClaude 4 Sonnetです。なぜなら私が言ったように、そして何度も何度も言っているように、これは効率的なモデルでありながら、少なくともベンチマークによると、より大きなモデルに非常に近いパフォーマンスを示しているからです。実際のテストを行うとき、私たちはチェスマッチを行います。これについてさらに知ることになります。ですから必ず購読してください皆さん。さて、私はそれらのビデオを作ることに取り掛かります。


コメント