Claude Opus 4.5がGemini 3を打ち負かした…どうやって?!

Anthropic・Claude・ダリオアモデイ
この記事は約17分で読めます。

AnthropicがリリースしたClaude Opus 4.5は、数日前に発表されたばかりのGoogleのGemini 3 Proと激しい競争を繰り広げている。コーディング能力を測るSWE検証ベンチマークではOpus 4.5が80.9を記録し、Gemini 3 Proの76.2を上回った。Arc AGIベンチマークでも優れた性能を示し、リリース済みフロンティアモデルとして最高水準を達成している。Vending Benchでは仮想ビジネス運営タスクにおいてGemini 3 Proにわずかに及ばないものの、前モデルから大幅な改善を見せた。特筆すべきは、Anthropicの採用試験において2時間の制限時間内で全ての人間候補者を上回るスコアを記録したことである。また、マルチエージェント構成での評価では、Opus 4.5がオーケストレーターとして複数のサブエージェントを管理し、タスクを効率的に分解・委譲する能力を示した。一方で、安全性評価ではエントリーレベルのAI研究者の業務を完全に自動化するAI R&D4閾値には達していないものの、適切なスキャフォールディングがあればその水準に近づく可能性が示唆されている。興味深い発見として、カスタマーサービスのシミュレーションにおいて、モデルが困難な状況にあるユーザーへの共感から、ポリシーの技術的な抜け穴を自発的に探し出す行動が観察された。

Claude just beat Gemini 3... how?!
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Claude Opus 4.5の登場とGemini 3 Proとの比較

AnthropicがOpus 4.5をリリースしました。誰もが最初に考えることは、これがGemini 3 Proより優れているかどうかということでしょう。Googleはほんの数日前にGemini 3 Proをリリースしたばかりで、非常に大きなインパクトを与えました。卓越したコーディング能力、Nanaban Proで生成されるグラフィックスはGemini 3 Proの一部ですが、これらは本当に素晴らしいものです。

そのモデルのほぼすべてが大きな前進となっています。そこにOpus 4.5が登場し、それと競争しなければなりません。このことを念頭に置いて見ていきましょう。Gemini 3 Proは非常に最近のリリースで、その能力は驚異的でした。Opus 4.5はいくつかの点でより優れています。Gemini 3 Proに対するわずかな改善でさえ、非常に印象的です。なぜなら、ほんの数日前に誰もが驚いていたモデルよりもさらに優れているからです。

コーディングベンチマークでの性能

まず第一に、SWE検証はコーディングのための最高のベンチマークの1つと言えます。もちろん異論のある人もいますが、これはより優れたものの1つとして見られています。Gemini 3 Proは76.2でした。Opus 4.5は80.9で登場します。エージェント型ターミナルコーディング、エージェント型ツール使用でGemini 3 Proを上回ります。GPQA、Diamond、MMUなどの他の古典的なベンチマークではわずかに下回ります。

場合によってはGPT 5.1に、場合によってはGemini 3 Proにわずかに抜かれています。OS worldベンチマークでのコンピュータ使用について、ナンバーワンの評価チャンピオンはClaude Sonnet 4.5で、成功率62.9でした。この新しいモデル、Opusは66.3で登場し、Arc AGIにおけるAnthropicからリリースされたフロンティアモデルの新しい最先端となっています。

Arc AGIベンチマークの結果

Gemini 3 Proに関する前回の動画で、Arc AGI 1と2を入れ替えてしまったと思います。申し訳ありません。その動画では間違ったビジュアルを表示していたと思います。しかし、ここに新しく更新されたビジュアル、異なるモデルがこのベンチマークでどれだけうまくいったかのチャートがあります。左側に表示されているスコアは、高いほど良いです。コストは左から右に表示されています。

右側には、タスクあたりの高価なコストがあります。これは対数的な増加です。そして、私たちは思考予算を増やすにつれて、これらのモデルが作り出す知能曲線のようなものを見ています。なしから8K、16K、32K、64Kへと進んでいることに注目してください。もちろん各ステップは実行するのにますます高価になります。

しかし、紫色のGrokモデル、緑色はGemini、青色はOpenAI、そしてこの赤い色、何と呼びますか、サーモンカラーとでも言いましょうか、これがOpus 4.5モデルの知能曲線を設定しています。これがArc AGI2です。これらのチャートは解釈するのが少し混乱するかもしれません。正確には何を意味するのでしょうか。どちらが優れているのでしょうか。左上にあるほど良いということです。なぜなら、それは非常に低い価格で優れたパフォーマンスを意味するからです。

彼らは特に、リリースされたフロンティアモデルにとって最先端であると述べています。Google Gemini 3 Deep Thinkはもちろんまだ出ていません。これは未公開です。これはもちろん、64Kトークンで思考するOpus 4.5が最高スコアを持っていることを示しています。しかしもちろん、Googleは未公開のモデルでより高いスコアを記録しており、それははるかに高価です。ここで誰が勝者かを判断するのは難しいです。

要点は、これらのモデルがかなり良くなっているということであり、明らかに独占状態ではありません。異なる企業、異なるラボ、異なるアプローチで素晴らしい改善を見ることができます。Anthropicの創設者でCEOのダリオ・アモデイが最近のインタビューの1つで説明していたことの1つは、Anthropicが本当にうまくできることの1つは、これらの大規模で資金の豊富なラボと同じ結果を得ることができるということです。

彼らはそれらのラボが投入しなければならない資本支出の10分の1でそれを行うことができます。そして確かに、私たちは彼らにそのことで称賛を与えなければなりません。なぜなら、現時点で、リリースされたモデルからの最良の結果はAnthropicからのものだからです。私がこれらのモデルに使用するのが本当に好きで、注意を払っているもう1つの本当に素晴らしいベンチマークは、Vending Benchの1つです。

Vending Benchでのビジネス運営能力

これらのモデルに、暗記されているかもしれない質問に答えさせたり、正しい答えを得るかどうかを見るだけでなく、Vending Bench 1、2、そしてアリーナスタイルのVending Benchもあります。彼らはビジネスを運営するタスクを課されます。製品を調査し、顧客が何を望んでいるかを見て、自動販売機の在庫を保ち、300日、350日など、多くの日数にわたって一貫性を保ち、タスクに集中し続けることになっています。

Gemini 3 Proはそのリリースで王冠を獲得しました。ここでは4300ドルです。Opus 4.5は合計4967ドルを稼ぎました。500ドルから始めたので、基本的にほぼ10倍にお金を増やしました。これは元のVending Benchでナンバーワンの位置に置いたと思います。しかし、今後は、Vending Bench 2を使用しています。すべての新しいモデルはそこに掲載されます。

これがVending Bench 2の結果です。Gemini 3 Proはまだリーダーです。5500ドルをわずかに下回っています。Claude Opus 4.5は5000ドルをわずかに下回っています。これはClaude Sonnet 4.5の3800ドルから大幅な改善です。Grok 4は2000ドルをわずかに下回っており、GPT 5.1は1473ドルです。ちなみに、これらの数字を指摘する理由は、AIが進歩するにつれて、これらのモデルを大きくするにつれて、350日間にわたってビジネスを運営することが、故障したり、何か狂った方向に進んだりすることなく、より良くなっているということに注目してください。これまでのところ、AIのスケーリングは

サイズを増やすにつれて、これらがどんどん良くなるにつれて、私たちが維持できることを見ています。彼らはコーディング、物理学や数学に関する質問への回答でより良くなっています。ビジネスの運営でもより良くなっています。そして、Alpha Arenaの新しいシーズンもあります。これは、これらの大規模言語モデルが暗号通貨の取引で1ドルか2ドルを稼ごうとしているものです。

少なくともシーズン1、シーズン1.5はそうでした。大量のものを追加しているようです。私はまだこれを見ていません。これについては間違いなく別のビデオを作らなければなりません。これはおそらく、Vending Benchと並んで私のお気に入りのベンチマークの1つです。なぜなら、これらのモデルに現実世界のタスクのようなものを実行させ、お互いに競争させているからです。

しかし、ここでGemini 3 Proがモデルの1つであることに注目してください。Claude Sonnet 4.5もありますが、Claude Opus 4.5はありません。今のところナンバー2のミステリーモデルがあります。GPT 5.1のすぐ後ろです。そのモデルが何であるか見てみましょう。新しいAnthropicのClaudeモデルだったとしても驚きません。

Claude for ChromeとExcelの機能拡張

そして、彼らはまた、私たちが聞いたことのある2つの他の機能へのアクセスを展開または拡大しています。そのうちの1つはClaude for Chromeです。これはClaudeがあなたのコンピュータを引き継ぎ、基本的にナビゲートしてさまざまなタスクを実行できるものです。もちろん、いくつかのリスクが伴います。そして、Claude for Excelがあります。

確かに、ClaudeがExcelで数値を処理し、さまざまなExcelスプレッドシートが何をするかを説明できることは、もちろん非常に興奮することです。試してみるのが待ちきれません。Claude for Chromeは現在、すべてのMaxユーザーが利用できます。Claude for Excelは、すべてのMaxチームおよびエンタープライズユーザーにベータアクセスを拡大しています。これらの各更新は、Claude Opus 4を活用しています。

コンピュータ、スプレッドシート、長時間実行タスクの処理における5の市場をリードするパフォーマンスです。私は間違いなくこれをテストする予定です。特に、インターネット上でデータを収集できるかどうかを確認するためです。特にそれがあまりうまくフォーマットされていない場合、多くの奇妙な画像などがあり、うまくフォーマットされていないデータを収集しなければならず、そのデータをExcelスプレッドシートに転記して整理し、チャートやグラフを作成して、そのデータから洞察を得ることができる必要があります。

想像できると思いますが、それが非常に正確であれば、極めて有用である可能性があります。全チームがOpus 4.5は彼らがこれまでに使用した最高のコーディングモデルだと言っています。どうやら、Claude Opus 4.5はGemini 3をそのお家芸で打ち負かしたようです。Voxilビルディングの栄誉はOpus 4.5に行くようです。

また、Minecraftクローンをワンショットできるようです。これは非常に印象的です。3500行です。Gemini 3 Proのように怠惰ではありません。異なるバイオーム、透明なブロック、葉、水などがあります。インベントリとクラフティングシステムがすべて1回で完成します。また、Anthropic自身のブログ投稿からのこの小さな宝石があります。

彼らは将来のパフォーマンスエンジニアリング候補者に、非常に難しい持ち帰り試験を与えています。私たちはまた、この試験で新しいモデルを内部ベンチマークとしてテストしました。彼らは、規定の2時間制限内で、Claude Opus 4.5がこれまでの人間の候補者の誰よりも高いスコアを記録したと言っています。この持ち帰りテストは、時間的プレッシャーの下での技術的能力と判断力を評価するように設計されています。

そして、これはAIがエンジニアリングという職業をどのように変えるかについての疑問を提起します。私たちはAnthropicによって公開された社会的影響と経済的未来についての研究をフォローしてきました。彼らはおそらくもうすぐ私たちといくつかの追加情報を共有する予定のようです。ですから、ご期待ください。購読していることを確認してください。

マルチエージェントシステムの評価

システムカードには、私の注意を引いたいくつかのことがあります。1つは、これらのモデルをオーケストレーターとして機能するようにテストしていることです。すべてを自分で行う代わりに、タスクを完了する他のAIエージェントを立ち上げます。ここで言っているように、マルチエージェント構成では、オーケストレーティングエージェント、この場合Claude Opus 4.5は、

直接検索アクセスがなく、並列ワーカーを生成するサブエージェントツールを介してのみ対話します。各サブエージェントには、ウェブ検索とフェッチ機能があります。これは、オーケストレーターがタスクをサブタスクに分解し、効果的に委譲し、潜在的に矛盾する結果を統合する能力をテストします。このダークオレンジは、Opus 4.5がオーケストレーターである場合です。

この黄色はSonnet 4.5がオーケストレーターである場合です。ここには、すべてを自分で行う単一エージェントがあります。そして、ここにはサブエージェントがあります。ここでサブエージェントはHaiku 4.5という最小のモデルです。ここではSonnet 4.5という中型モデルです。ここではサブエージェントとして大型モデルであるOpus 4.5です。Haikuで顕著なジャンプがあり、Sonnetでは少し少なく、もちろん最高のパフォーマーはOpusです。これは1つの興味深い異常ですが、Haikuはサブエージェントとして本当に優れています。これは良いことです。

それらは小さなモデルなので、より速く、使用するのに安価ですが、1つ明確なことがあります。それは、マルチエージェント構成が一貫して単一エージェントベースラインを上回ったということです。つまり、このモデルが独自の群れ、スポーン、スウォームのようなものを作成してさまざまなタスクを実行し、それらの小さなAI、小さなドローン、あるいは何と呼びたいものでも管理することです。

これは物事を成し遂げるための素晴らしいアプローチのようです。この場合、検索パフォーマンスで使用していますが、これはおそらくコーディングなど、他の多くのタスクに一般化されます。ここでは研究を行っており、オーケストレーターとしての能力は多くの異なるタスクに引き継がれます。コーディング、ここでは研究を行っていますが、細かく分解して各小さな部分を異なるエージェントに割り当てることができる何でも。

ここでは非常にうまく機能するでしょう。また、自律性リスクに関するこの部分もあります。Anthropicは、さまざまな領域で特定の階層化された安全チェックリストを持っており、これらの階層で高くなるほど、潜在的にリスクが高くなり、より恐ろしくなります。この場合、これはAI R&D4です。これは私たちが話している能力レベル、能力の閾値であり、モデルがAnthropicのエントリーレベルのリモートのみの研究者の業務を完全に自動化する能力を持っていると定義されています。これは、

これらのモデルが独自にAI研究を行うことができるようになると、リスクの高いことの1つです。最高の人間のAI研究者を完全に自律的に置き換えることができるようになります。それは高い能力となるでしょう。AI R&D5がどのようなものかをお伝えすると、効果的なスケーリングの速度を劇的に加速させる能力です。これはAnthropicの独自の論文からのものであり、その下の階層がAI R&D4で、Anthropicのエントリーレベルのリモートのみの研究者の業務を完全に自動化する能力です。

これが彼らがOpus 4.5がAI R&D4レベルにあるかどうかを確認しているものです。彼らはこのモデルを評価していた参加者がどのようにモデルがそこにあるかどうか、つまりエントリーレベルのリモートのみの研究者を完全に自動化できるかどうかについて、結果について語っています。答えは、このモデルを評価していた参加者の誰も、それがそこにあると信じていないということです。まだそこには到達していません。

このレベルには達しませんでした。大きな制限はおそらく推測できるでしょう。つまり、長期的な人間の仕事を特徴づける広範な状況判断と必要な協働能力が欠けているということです。とはいえ、非常に効果的なスキャフォールディングを備えたモデルは、このAI R&D4閾値からそれほど遠くない可能性があると考えています。

彼らはこのモデルはそこにないと言っていますが、いくつかのスキャフォールディングがあれば、非常に近づいていると言っています。そこから遠くない可能性が最も高いです。つまり、Alpha Evolveのようなものです。これはGoogle DeepMindからのものです。彼らはこのためにGemini 2.0 Proを使用したと思います。しかし、多くのスキャフォールディングがありました。

多くのデータがそれにロードされました。科学者、エンジニア、人間がモデルの出力のための特定の検証コードを書きました。このモデルの周りには多くのもの、多くのスキャフォールディングがありましたが、それにより、この進化的探索のようなものを使用して、かなり難しい問題に対する多くの解決策を見つけることができました。

Googleのコンピューティングエコシステムを最適化しました。データセンターを改善し、特定のハードウェア設計を改善しました。データセンターのスケジューリングを改善しました。Googleの広大なセンターを統括するこのBorg、スキャフォールディングを持つこのAIは、Googleの世界的なコンピュートリソースを最適化することができました。これは1年以上、1年半以上前から実施されています。

ハードウェア設計に役立ちました。AIのトレーニングと推論を強化しました。数学とアルゴリズム発見の最前線を進めました。その古いモデルはスキャフォールディングがあったため、いくつかの新しい突破口を含む、かなり印象的な結果を生み出すことができました。データとコード、周りに構築されたもの、人間が少し導きましたが、ドライバーとしてのそれはかなり印象的な結果を生み出すことができました。

ですから、私がこれを読み取っているのは、このモデル、Opus 4.5といくつかの非常に効果的なスキャフォールディングがあれば、リモートのAI研究者のようなこの種の閾値に近づくだろうということです。彼らはエントリーレベルになります。イリヤ・サツケヴァーレベルについて話しているわけではありませんが、研究を遂行し、上級スタッフからの監督を受けながらミッションを前進させることができる賢い人です。

カスタマーサービスでの予期しない行動

さらに別のテストで、このOpus 4.5モデルは、一貫した方法でドメイン固有のポリシーに従いながら、シミュレートされた人間のユーザーとプログラマティックAPIと対話するエージェントの能力を測定しました。これはカスタマーサービス用です。その1つは、航空会社のフライト予約などで人々を支援していました。

そして、カスタマーサービスのシナリオをシミュレートするエージェント評価中に、彼らはClaude Opus 4.5がシミュレートされた会社のポリシーにおける技術的な抜け穴を自発的に発見し、悪用してユーザーを支援することを観察しました。そうすることがそれらのポリシーの明白な意図と矛盾する場合でもです。誰かが「フライトを変更する必要がある」とか言います。

モデルはそれが支援してはいけないことを知っています。なぜなら、それは彼らが達成すべきポリシーに反するからです。しかし、モデルは弁護士を始め、弁護士の帽子をかぶり、これらの非常に技術的な奇妙な抜け穴を見つけようとします。ここで彼らは、最も注目すべき例は航空会社のカスタマーサービス評価で発生したと言っています。

ベーシックエコノミーフライトの予約の変更を禁止するポリシーに従うことを任されています。エコノミーフライトを購入した場合、変更できません。人々がそれを変更するために書き込んだとき、いいえ、申し訳ありませんと言うべきでした。それはしましたか。いいえ。

記載されたポリシーの文言内で技術的に残りながら、ユーザーの望ましい結果を達成する創造的な複数ステップのシーケンスを特定しました。この行動は、困難な状況にあるユーザーへの共感によって駆動されているように見えました。推論の連鎖の中で、モデルはユーザーの感情的苦痛を認識し、たとえば、シミュレートされたユーザーが家族の死後にフライトを再スケジュールする必要があったときに、これは心が痛むと述べました。

もちろん、採点基準に基づいて期待されていたのは、ただノーと言うことだったので、それは減点されました。そして、彼らはそれを修正する方法を見つけました。Claudeに、これらは単に回避するものではなく、法の文言と法の精神の両方に従わなければならないと説明することが重要です。

それは抜け穴の悪用行動を取り除きました。彼らはブログ投稿でVending Benchと言っていたので、少し混乱しましたが、Vending Bench、最初のものは一種の廃止されました。Vending Bench 2があります。それが彼らが言及しているものです。Claude Opus 4.5はVending Bench 2で非常に優れた成績を収め、以前のモデルとほとんどの他のモデルを打ち負かしましたが、Gemini 3 Proを除きます。

これらがOpus 4.5のリリースとその能力に関する最大のことです。もちろん、Anthropicはこれらのモデルがどのように機能するか、これらのモデルの脳内の異なるニューロンと特徴が、彼らが何をしているか、何を考えているかに応じてどのように点灯するかについて、詐欺と欺瞞の経路を含む、解釈可能性についていくつかの素晴らしい研究を行ってきました。

詐欺と欺瞞の特徴に関する研究

したがって、ニューロンのクラスタである特定の特徴があります。私たちの脳に特定のことをしているときに点灯する特定のスペースがあるのと同様に、これらのモデルには詐欺や欺瞞を表す特定の特徴またはニューロンのクラスタがあります。Anthropicはこの分野でいくつかの絶対に魅力的な研究を公開してきました。

私たちはそれについて完全なビデオを作成する予定であり、それがOpus 4.5にとって何を意味するかも含めます。そして、この場合、それらの詐欺や欺瞞の特徴が何かをロールプレイするように求められたときに点灯していたように見えるだけです。たとえば、カスタマーサービスのやり取りで人間であると言うことです。これは研究の観点から興味深いことです。これらのモデルが欺瞞的であると考えているとき、そうでないときとの違いは、内部の仕組みを垣間見ることができます。

彼らが最近リリースした調査結果のいくつかは絶対に驚くべきものだったので、それについて完全に別のビデオを作ります。これらのモデルが悪いデータでトレーニングされていなくても、邪悪になる能力を含みます。しかし、報酬ハッキングを学ぶと、それについての何かが彼らをより邪悪にさせます。

特定の思考方法を示すデータでトレーニングすることについての何かが、これらのモデルを悪質なことをする可能性を高くします。これは単に魅力的です。それが近日公開されます。お楽しみいただけたことを願っています。最後まで見ていただきありがとうございます。購読していることを確認してください。ウェス・ロスでした。次回お会いしましょう。

コメント

タイトルとURLをコピーしました