AnthropicがAI競争でGoogleを追い越したのか?!

Anthropic・Claude・ダリオアモデイ
この記事は約8分で読めます。

Google が Gemini 3 をリリースしてからわずか1週間後、Anthropic が Claude 4.5 Opus で応戦した。このモデルはコーディング、エージェント機能、コンピューター使用において世界最高と称され、一部の領域では Gemini 3 を上回る性能を示している。特にコーディングベンチマークでは 80.9% のスコアを記録し、GPT-5.1 や Gemini 3 Pro を凌駕した。ARC-AGI 2 などの汎化能力テストでも優れた結果を示し、リリース済みのフロンティアモデルの中ではトップの座を獲得している。価格設定も入力100万トークンあたり5ドル、出力100万トークンあたり25ドルと競争力のあるものとなっている。Anthropic は安全性にも注力しており、プロンプトインジェクションへの耐性が他のフロンティアモデルよりも大幅に高いと主張している。さらに新しい努力制御システムにより、ユーザーはモデルの思考の深さを調整でき、効率性においても際立った性能を発揮する。総合的には Gemini 3 が依然として優位性を保つ領域もあるものの、Claude 4.5 Opus は AI 競争において Anthropic が確かな存在感を示す重要なリリースである。

Did Anthropic Just OVERTAKE Google in the AI Race?!
Anthropic just released Claude Opus 4.5, and in some areas, it actually beats Google’s Gemini 3. In this video I break d...

Claude 4.5 Opusの登場

Google が Gemini 3 をリリースしてからわずか1週間後、Anthropic が Claude 4.5 Opus で反撃に出ました。そして一部の領域では、実際に Gemini 3 を上回る性能を示しています。Anthropic はこのモデルを、インテリジェントで効率的、そしてコーディング、エージェント、コンピューター使用において世界最高のモデルと説明しています。さらに、深い調査やスライド、スプレッドシートとの作業といった日常的なタスクにおいても、大幅に優れていると述べています。

Gemini 3 を上回る領域について話すと、まず最初はもちろんコーディングです。Claude Opus 4.5 は Bench Verified で 80.9% のスコアを記録し、Gemini 3 Pro、GPT-5.1、そして OpenAI のエージェント型コーディングモデルである GPT-5.1 Code Max よりも上位に位置しています。この結果は実はそれほど驚くべきものではありません。つまり、Claude は開発者の間で、最高ではないにしても、コーディングに最適なモデルの一つとして広く認識されてきたからです。

Claude はよりクリーンなコードを生成し、指示により忠実に従い、奇妙なミスをはるかに少なくします。もしあなたが開発者なら、価格設定について気になっているでしょう。Opus 4.5 は入力100万トークンあたり5ドル、出力100万トークンあたり25ドルとなっています。最上位モデルとしてはかなり妥当な価格ですが、Gemini 3 は依然として相対的に安価です。

また、彼らは「価格設定は現在、100万トークンあたり5ドル/25ドルです」と表現しており、これは興味深い言い回しです。つまり、ある時点でその価格ではなくなるということでしょうか?上がるのか下がるのか?全く分かりません。そして、彼らがそれについて詳しく説明しているとも思えません。この第一印象のセクションでは、初期テスターがモデルについてどう思ったかを語っています。

これらは、リリースの数週間前から Opus 4.5 を使用できた人々です。要約すると、彼らは「全体として、テスターたちは Opus 4.5 は理解力があると言っています。手取り足取り教える必要が少なく、より複雑な多段階の問題を処理し、物事を自力で解決するのです」と書いています。それでは完全なベンチマークに入りましょう。

ベンチマーク性能の詳細

おそらくすでにお気づきでしょうが、このモデルはコーディングが最高というだけではありません。T2 Bench というエージェント型ツール使用ベンチマークでもリードしており、MCP Atlas という別のツール使用ベンチマーク、コンピューターをどれだけうまく操作できるかを測るコンピューター使用、そして驚くべきことに ARC-AGI 2 でも Gemini 3 Pro と GPT-5.1 の両方を打ち負かしています。

Gemini 3 Deep Think は技術的にこのベンチマークで 45% というより高いスコアを記録していますが、実際にはまだリリースされていません。したがって、リリース済みのフロンティアモデルの中では、Opus 4.5 がトップの座を保持しています。このベンチマークは、未知の環境における汎化と問題解決能力に関するものです。基本的に、私たちが持っている AGI テストに最も近いものの一つであり、それゆえにこの名前がついています。

また、オリジナルの ARC-AGI テスト、ARC-AGI 1 では、Opus 4.5 は 80% という驚異的なスコアを記録しています。このテストがいかに速く飽和状態になっているかは驚くべきことです。モデルが 100%、つまり基本的に専門家の人間のベースラインに達したら AGI を達成したことになると人々が言っていた頃を覚えています。でも、すでに ARC-AGI 2 があることを考えると、そういう展開にはならないと思います。

そしてどうやら ARC-AGI 3 もすでに開発中だそうです。つまり、少なくともコーディング、エージェント能力、ツール使用、そして Gemini 3 Deep Think を除外すれば汎化においても、Anthropic の Claude 4.5 Opus は最先端です。Gemini 3 は数学、特定の視覚タスク、いくつかの言語ベンチマークでは上回っていますが、実際に何を重視するかによっては、Opus 4.5 が現時点で最高の総合モデルと言えるでしょう。

明らかに、ベンチマークがすべてを物語るわけではありませんが、私たちはすでに初期テスターがそれについて何と言ったかを見ました。そして実際のタスクに似たベンチマーク、例えば実際の自動販売機ビジネスの運営をシミュレートする Vending Bench では、Opus 4.5 は非常に優れたパフォーマンスを示しています。

約5,000ドルの利益を生み出しましたが、これは Gemini 3 だけが約6,000ドルで上回ったと思います。ですから、個人的には Google が AI 競争でリードしていると思います。Gemini 3 が依然として総合的に優れたモデルだと主張することもできます。しかしこれは Anthropic からの非常に印象的なリリースです。彼らは間違いなくまだ競争に参加していることを示しました。そして正直なところ、Claude 5 を見るのがこれほど楽しみだったことはありません。

安全性への取り組み

さて、このリリースのもう一つの大きな部分は安全性です。Anthropic は本当にこれを強調しました。彼らは Opus 4.5 を、これまでで最も堅牢に整合性の取れたモデルと主張し、GPT-5.1 や Gemini 3 Pro のような他のフロンティアモデルと比較して、懸念される行動を大幅に減らしていると述べています。懸念される行動とは、モデルが独自に不整合なアクションを取る頻度、または爆弾を作ってくれといった有害な指示にどれだけ協力するかということです。

しかし、より大きな飛躍はプロンプトインジェクションにあります。Anthropic は、Opus 4.5 は現在の他のどのフロンティアモデルよりも、欺瞞的な指示で騙すのが難しいと述べています。彼らは、トレーニングと実践的な賢さを備えており、トラブルを避けることができると言っています。そして正直なところ、このチャートで最も驚くべき部分は Opus 4.5 の素晴らしいスコアではありません。他のフロンティアモデルがいかにひどいか、特に Gemini 3 Pro です。

あれには本当に衝撃を受けました。最後に、Anthropic がこのリリースで強調したもう一つのことがあります。やや注目されにくいものでしたが、実際には非常に大きな意味を持つものです。彼らは Opus 4.5 のための新しい努力制御システムを導入しました。これは基本的に、モデルにどれだけ深く考えさせたいかを決めることができるものです。低努力はより速く、より安価です。

高努力はより深く、より長く推論し、より複雑な問題を解決します。しかし驚くべきことは、中程度の努力でも、Opus 4.5 は Sonnet 4.5 の最高の SWEN スコアに匹敵しながら、76% 少ない出力トークンを使用することです。そして高努力では、実際に Sonnet 4.5 を 4.3 パーセントポイント上回りながら、依然として 48% 少ないトークンを使用しています。つまり、Claude 4.5 Opus は驚くほど効率的で、これはおそらくその驚異的なエージェントおよびツール使用能力によるものです。

そして、実際にどれだけ頑張って働くかをより細かく調整することもできます。というわけで、Claude Opus 4.5 について知っておくべきことは基本的にすべてです。これが最高のモデルかどうかは、あなた自身が決めることですが、確実にコーディング、エージェント能力、コンピューター使用、汎化、そして効率性において大きなアップグレードです。

まとめ

ですから、Anthropic をまだ見限るべきではありません。彼らは明らかに、個性や会話に全力を注ぐのではなく、実際に有用で安全なエージェントを構築することに焦点を当てています。そして正直なところ、企業やソフトウェアエンジニアリングチームにとっては、それがより賢明な長期的戦略かもしれません。いずれにせよ、皆さんの意見を聞かせてください。

Anthropic は Google に追いついたのでしょうか、それとも Gemini 3 がまだ打ち負かすべきモデルなのでしょうか?この解説を楽しんでいただけたなら、ぜひいいねを押して、チャンネル登録ボタンを押してください。そしていつものように、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました