新着:5分でAnthropic Claude 4!

AGIに仕事を奪われたい
この記事は約6分で読めます。

2,986 文字

NEW: Anthropic Claude 4 in 5 mins!
Claude Opus 4 and Claude Sonnet 4, setting new standards for coding, advanced reasoning, and AI agents.Claude Opus 4 is ...

最も待ち望まれていたClaude 4が本日リリースされました。Anthropicは2つのモデル、Claude 4 OpusとClaude 4 Sonnetを発表しました。これらはおそらく最高のコーディングモデルである2つのモデルです。しかし、それには代償が伴います。この代償とは、このモデルがコーディングに特化して最適化されているように見えることです。AnthropicがこのAI戦争に勝つためには、他の何よりも強力なコーディングモデルを持つ必要があると決断したかのように感じられます。
このモデルは一般的な推論に最適化されているわけではありません。つまり、それも一つの機能ではありますが、これらのモデルを見ると、特にコーディング、できればエージェンティックコーディングに最適化されています。そして、これはVisual Studio CodeやJetBrainsの拡張機能として利用可能なClaude Codeの一部にもなる予定です。
Anthropicが今日行っていることはすべて、プログラマーを改善する、あるいはプログラマーを置き換えることです。コップに水が半分入っているのか半分空なのか、どちらの見方をするかによりますが。しかし、ベンチマークを見ると、これらは2つの異なるモデルです。Claude 4 OpusとClaude 4 Sonnet、そして彼らが最初に強調したいベンチマークは、SWE bench verifiedというエージェンティックコーディングベンチマークです。ここで見ることができるように、このモデルは拡張思考なしで72.7を獲得し、Claude Opus 4は72.5を獲得しました。これもまた非常に驚くべき要因です。
これを見ると、これは多くの企業が追いかけているベンチマークですが、この場合Claude Opus 4はClaude Sonnetよりも劣っています。つまり、これを見るとClaude Sonnet 3.7は拡張思考なしで62.3%を獲得しています。これはGemini 2.5 Proと同等で、GPT-4oよりも優れています。今、私たちは拡張思考について話しているわけではありません。Sonnet 4を取ると72.7ですが、Opus 4はそれよりも良くないということは、このベンチマークが依然として言語モデルを検証するための良いベンチマークであることを示しています。
ですから、今問うべき興味深い質問は、Claude Opus 4は単にClaude Sonnetからの単純な限界的な一歩に過ぎないのかということです。この質問への答えは、人々が実際に使い始めてからでないと分からないと思います。しかし、ターミナルコーディングを見ると、このモデルはClaude Sonnet 4よりもはるかに優れているようです。そして、これが人々がCursor内、Claude Code内、JetBrains内など、これらすべての種類のIDEでClaude 4 Opusを使い始める理由の一つです。このモデルは利用可能な他のすべてのモデルを置き換えることになると思います。
例えば、現在人々はGemini 2.5 Proについて絶賛していますが、このモデルはGemini 2.5 Proよりも70から80%優れています。つまり、人々が現在絶賛しているものよりも70から80%優れたモデルを手に入れることになります。
ベンチマーク以外で最も興味深いことは、楽天という会社、確か通信会社だと思いますが、Claude Opusを実行したことです。彼らはこのモデルを7時間実行しました。これは私にとって何よりも最も興味深いことだと思います。これがClaude Opusで、Anthropicがインフラストラクチャの問題を解決したのであれば、これは真にエージェンティックな環境になるための真の競争相手となります。なぜなら、受動的な人間の相互作用はあっても能動的な人間の相互作用なしに、つまり見守る必要もなく7時間モデルを実行できるなら、これは多くの長時間のコーディングタスクにとって非常に有用になるからです。
実際、AnthropicはClaude 4がExcalibraのGitHubリポジトリから非常に長い間未解決だった問題をどのように解決したかも実演しました。彼らがプルリクエストを作成したかどうかは分かりませんが、このモデルが人々が求めていた機能をコーディングすることに成功したのが分かります。1時間程度かかっただけで、モデルはそれを解決することができました。ですから、これは間違いなく優秀なコーディングモデルであり、GitHub、Manners、Augment Code、その他多くの企業からの証言をたくさん見ることができます。
ここで最も興味深いのは、これが安価なモデルではないということです。ですから、すべてのモデル統合業者がどのように対応するかを見るのを待っているところです。これはかなり高価なモデルで、Anthropicは価格設定を維持し、それについて妥協することを決めませんでした。Opus 4は100万入力クエリあたり15ドル、100万出力クエリあたり75ドルから始まり、Sonnet 4は100万入力クエリあたり3ドル、100万出力クエリあたり15ドルから始まります。
これは間違いなくすべての大規模言語モデルの中でも高価な部類に入ります。OpenAIやGoogle Geminiなどの企業が新規顧客を獲得するためにコストを削減しようとしている、いわゆるCAC(顧客獲得コスト)を下げようとしているのを見る一方で、Anthropicは新規顧客を引き付ける能力に非常に自信を持っているようです。あるいは単にエンタープライズアプローチを取り、高いコストを維持しているのかもしれません。これは非常に興味深いことです。
全体的に、今日の発表を見ると、それはClaude 4です。Claude 4は2つの異なるフレーバー、OpusとSonnetで提供され、拡張思考とツール使用が付属しています。人々はすでにツール使用について絶賛し始めており、これは真にエージェンティックなモデルだと言っています。そして、誰でも使用できる一般的に利用可能なCLAベースのコーディングエージェントであるClaude Codeも、GitHub Actionsで利用可能になる予定です。
VS CodeとJetBrainsでも利用可能になります。ですから、AIとのペアプログラミング環境は白熱しており、この時点で全員がこれに参入している中で、OpenAIのWindsurf買収をどう正当化するかよく分かりません。この時点で明らかなことは、すべての企業が真に最高のコーディングエージェントを持つためにコーディングエージェントを作ろうとしていることです。
Googleだけが何か違うことを試みていると思いますが、コーディングモデルが汎用人工知能を作成するための前進の道であることを彼らが理解したとすれば、非常に興味深いでしょう。いずれにせよ、Claude 4についてどう思うか教えてください。Claude 4のサブスクリプションにお金を払って使用するつもりかどうか。また別の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました