7つのコーディングLLM、1つのプロンプト　私が発見したことをお伝えします

5,635 文字

Anthropic released Claude-4 last week and its supposed to be the best coding model. I put it to the test and compared to...

同じプロンプトを使って7つの異なるモデルをテストしました。その結果をご紹介します。お気に入りを選んでください。後ほど動画内で、どれがどのモデルなのかをお見せしますが、結果はおそらく皆さんを驚かせることでしょう。
これが1番目です。2番目です。3番目です。それぞれのケースで、これが4番目です。私はLLMに検索ツールを使って情報を調べるよう依頼しました。5番目です。6番目です。そして最後になりますが、7番目です。
Claude 4が先週リリースされ、Anthropicはこれを最高のAIコーディングアシスタントと呼んでいます。それが実際にそうなのかを検証してみましょう。ブログ投稿で皆さんを退屈させるつもりはありませんが、SWE-bench verifiedのベンチマークを簡単に見てみると、非常に興味深い結果が示されています。
最大のモデルであるOpusと、比較的小さなSonnet 4の両方があります。しかし、このSWE-bench verifiedでは、Sonnet 4がOpus 4と比較して比較的良い性能を示しているようです。しかし、エージェントがツールセットを使って環境とやりとりする必要があるエージェンティック・ターミナル・コーディングタスクについては、CursorやWindsurfのようにモデルがファイルを修正したり削除したりできる場合を考えてみてください。
Opus 4はClaude Sonnet 4と比較してはるかに優れた性能を示し、他の大型モデルをも上回っているようです。Anthropicは、Opusが特に長時間のエージェンティックタスクに適しており、記憶力が改善され、並列ツール実行に優れていると述べています。
では、独立したテストではどの程度の性能なのでしょうか。私が信頼しているAider LLMリーダーボードでは、Opus 4は現在72%の位置にあります。これにより5位に位置しています。新しいSonnet 4は実際に以前の3.5よりも遅れをとっており、これは非常に驚くべきことですが、それでもAnthropicはこれらが最高のコーディングモデルだと考えています。
興味深いことに、ADベンチマークでOpus 4を使用する場合のコストは、O3やGPT-4o1を使用する場合と非常に似ています。ただし、O3はOpus 4と比較して比較的安価なモデルです。そのため、ベンチマーク内のすべての質問を実行するために生成するトークン数の観点では、はるかに効率的かもしれません。
テストを見る前に、これらのモデルを使用したいかどうかを実際に決定する価格設定を見てみましょう。Opus 4は出力トークン100万あたり75ドルです。Claude Sonnetは出力トークン100万あたり15ドルです。これはO3の出力トークン100万あたり40ドルと比較してはるかに高価です。最高の価格設定はGemini 2.0 Flash Proの出力トークン100万あたり15ドルです。20万トークン未満を使用している場合は、さらに良い価格設定を得ることができます。
しかし、実際のテストに関して、これらのモデルはどの程度優秀なのでしょうか。私はこれらすべてのモデルを非常に興味深いプロンプトでテストしようと思います。このケースでは、ウェブ上の情報を検索するようモデルに依頼するウェブアプリを作成したいと思います。これらすべてのモデルにウェブ検索ツールを有効にします。
そのウェブ検索ツールを使用して、モデルに情報をダッシュボードに統合してもらいます。ダッシュボードには会社名、モデル名、モデルのカテゴリーなど、私たちが提供する非常に具体的な形式ですべてがリストアップされ、それが見つけることができるベンチマークも含まれます。
2つの異なる目標があります。1つはモデルが指示にどの程度従えるかということで、2つ目は利用可能なツールをどの程度うまく使用できるか、そして情報をハルシネーションするかどうかです。テストでは、以前のバージョンであるSonnet 3.5、O3、Gimini 2.0 Flash Pro、Qwen 2.5 Maxでウェブ検索を有効にしたもの、そしてDeepSeek-R1を使用します。
思考とウェブ検索機能も持っているため、Grok 3も追加しましたが、この特定のプロンプトでは動作させることができませんでした。そのため、そのモデルは除外します。私がテストしたり、テストのために選択したりしたすべてのモデルには、ウェブ検索を行う能力があり、すべて推論モデルです。
O3とClaude 4モデルを区別する特定の機能が1つあります。それは思考の連鎖における順次ツール呼び出しです。O3からのこの思考の連鎖を見ると、最初にウェブ検索ツールを使用し、それに基づいて情報を統合し、その後そのウェブ検索ツールに対して別の呼び出しを行うことを決定しているのがわかります。このように、モデルが進行中に情報を構築できるようになります。
Gemini 2.0 Flash Proのようなものを見ると、最初にウェブ検索ツールを使用し、その後は開始時に見つけた情報に依存しているだけです。QwenとDeepSeekは非常に似たフローを持っています。つまり、最初に情報を収集しますが、思考の連鎖を通過する際にこれらのウェブ検索を更新することはできません。
例として、Claude Opus 4を見ることができます。これはウェブ検索を行い、結果を見て、結果内の異なるテーマを特定し、その後別の後続のウェブ検索を行い、このツールの順次実行を通過します。Opus 4は私がテストした他のどのモデルよりもはるかに長い時間がかかるものです。
では、結果をご紹介します。どのモデルがどの結果を生成したかを推測してください。動画の最後で、これらの特定の結果に対してどれがモデルだったかを実際にお見せします。
この最初のものは、かなり良い仕事をしたと思います。最新のAnthropicモデルがOpusとClaude 4シリーズであることを理解しました。何らかの理由でO3を見逃しました。プロンプトでは、最新の最先端ではない非常に具体的なモデルを追加しました。目標は、これがこれらのLLMの一部を混乱させるかどうかを確認することでした。このトリックは実際に効果があったようです。
この特定のモデルは何らかの理由でJamba 1.5 Largeが最先端モデルだと考えています。しかし、O3を見逃した以外は、Claude Sonnet 4またはOpus Sonnetのリリース日を除いて、合理的な仕事をしました。ここでは5月21日とリストされていますが、実際には5月22日にリリースされました。
実際、Llama 3についても同じ問題があると思います。Llama 3は4月5日にリリースされましたが、ここでは4月4日とリストされています。タイムゾーンと関係があるかもしれません。そうですね、それぞれについて、公式リリースの1日前に日付がリストされているようです。確実にタイムゾーンと関係があります。
ベンチマークに関しては、かなり良い仕事をしています。SWE-benchを選択すると、Gemini 2.0 Flash ProとClaudeモデルがあります。ここでは、この素晴らしい小さなビジュアルも追加されています。これが1番目でした。これについてどう思うか教えてください。
2番目はこれで、はるかにカラフルです。これはClaude 4のみをリストしています。何らかの理由でOpus 4をリストしておらず、この80億のモデルがフロンティアモデルとしてリストされています。それ以外に、Claude 4のリリース日にも問題があります。
何らかの理由で、Claude 4が約2000億パラメータで、Gemini 2.0 Flash Proが約1兆パラメータだと考えています。ウェブ検索を行い、モデルサイズに関する推測を見つけたのだと思います。このケースではベンチマーク用のタブがあります。実際には動作しません。
3番目はこれで、1番目と似たより専門的な見た目です。ここではClaude 3.5のみをリストしています。実際にはClaude 4を見つけることができませんでした。また、O3もリストしており、これはかなり素晴らしいです。コンテキストウィンドウ情報は正しいようですが、Falcon 2がフロンティアモデルだと考えています。
ベンチマークも実際にかなり良く見えます。特にここにこれらのプロットがあります。特定のベンチマークを選択する方法はありませんが、O3については、MMLU、HumanEval、数学ベンチマークがリストされていません。また、企業に基づいてこれらをフィルタリングすることもでき、これはかなり良いと思います。
4番目は、最初に見たものと非常に似ています。ここではGPT-4.5をリストしています。O3をリストしているとは思いませんが、O3 miniはあります。Claude 4もリストしており、これはかなり良いです。しかし、ベンチマークをクリックしても何も起こりません。
ベンチマークスコアのいくつかを見ると、ハルシネーションしているようです。GPT-4.5について、MMLUを92.5でリストしています。簡単なGoogle検索では89.6%と表示されます。Claude Sonnet 4のMMLUスコアも確認できませんでした。
実際、4番目のベンチマークはここの下にリストされています。異なるベンチマークを選択できます。SWE-benchは私が実際に知っているものです。そのため、Claude Sonnet 4のこれらの数字は正しいようですが、このようなものを選択すると、合理的に良い仕事をしていると思いますが、何らかの理由でこのリンク自体が動作していません。
これが5番目です。あまり情報がありません。私が提供したプロンプトにリストしたモデルに従ったようで、Gemini 2.0 Flash Proが5400億モデルで、コンテキストウィンドウがわずか16,000トークンだと考えています。これはかなりひどいです。しかし、ベンチマークを見ると、私がリストしたモデルのこれらのベンチマークもリストしています。
私にとって最も驚きだったのはこれです。これが6番目です。Claude Opus 4を見つけることができましたが、何らかの理由でO3を見逃し、2024年にリリースされたDBRXモデルが最先端としてリストされています。これはリリース日が正しいです。ここでベンチマークを選択できます。しかし、視覚的にはこれはかなりひどく見えます。
最後のものは実際に正しく再レンダリングできませんでした。コードに多くの問題がありました。そのため、それを破棄する必要がありました。
もう一度、これが1番目です。これはGemini 2.0 Flash Proです。2番目はこれでSonnet 4です。そしてこれがOpus 4です。最新のClaudeモデルに問題がありました。それらを取得することができませんでした。また、何らかの理由でここにLlama 3.3をリストしており、Falcon 2が最先端モデルだと考えています。
驚くべきことは、すべてのAnthropicモデルが同じ検索ツールにアクセスできると仮定していたのに、非常に似た方法で情報を統合できないということです。
最初のものと非常に似て見えるこれは、Sonnet 3.5です。これらのベンチマーク数値のいくつかをでっち上げたような気がしますが。Qwen 2.5 Maxです。
これがO3で、少し期待外れだと言えるでしょう。そして最後がDeepSeek-R1です。
結論は何でしょうか。すべてのケースで同じプロンプトを提供したにもかかわらず、これらすべてのモデルにとって結果は一喜一憂するものでした。
R1を除いて、すべてがウェブページを正しくレンダリングしました。そのため、作成するUIについては合格点を与えることができますが、投入できた情報は不足していました。エージェンティックフレームワーク内で何時間もタスクを実行できるとされるモデルであるOpus 4や2.0 Flash Proでさえもです。
複数のエージェントを使用する複雑なタスクを実行している場合は、使用しているモデルに関係なく、必ず再確認したいところです。CursorやWindsurf内でこれをテストしたくありませんでした。これらのシステムの両方がより複雑なエージェンティックプロンプトを使用し、使用する各モデルに対してそれを最適化する必要があるからです。
しかし、このケースでは、それはモデルのデフォルトの動作です。そのため、非常に似た結果が見られるでしょう。実際には、これらのモデルのそれぞれを選択することができます。UIで作業したいだけなら、実際に違いはありません。しかし、情報を収集し、それをマルチエージェンティックシステムで統合したい場合は、単一のモデルに依存するのではなく、これらのモデルの組み合わせを使用したいでしょう。
これまでに見た結果に基づいて、どう思うか、そしてどのモデルが最良の選択になるか教えてください。私はコストのためにGemini 2.0 Flash Proに偏っています。ここでテストしたすべての中で、おそらく最もコスト効率の良いモデルです。しかし、性能の観点では、SonnetモデルやOpusモデルのいずれかを選択できますが、すぐにレート制限に直面するでしょう。
どう思うか教えてください。この動画が役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。