新型Claude Opus 4.5がAI業界全体に衝撃を与える(全ての人間を上回る性能)

Anthropic・Claude・ダリオアモデイ
この記事は約14分で読めます。

AnthropicがリリースしたClaude Opus 4.5は、同社の最難関エンジニアリング試験において全ての人間候補者を上回る成績を記録し、AI業界に衝撃を与えた。このモデルはSWE-Benchで80%のスコアを達成し、複雑なバグ処理や創造的な問題解決能力を示している。さらにAnthropicはMicrosoft Azureと300億ドルの計算資源契約を締結し、長期的な開発体制を強化した。一方、OpenAIはChatGPTにショッピングリサーチモードを追加し、リアルタイム価格比較と購入機能を統合した。GoogleもGeminiにNotebook LMの直接インポート機能を開発中であり、主要AI企業が実用的な機能拡張で競争を繰り広げている。これらの進展は、AIが単なるアシスタントから実務的なエージェントへと進化していることを示している。

New Claude Opus 4.5 Just Shocked The Whole AI World (Beats Every Human)
Claude Opus 4.5 just launched and it’s shocking the AI world. Anthropic says it beat every human on their hardest engine...

Claude Opus 4.5の衝撃的な登場

Claude Opus 4.5がリリースされ、突如としてAnthropicの最難関エンジニアリング試験で全ての人間を打ち負かすAIが登場しました。長時間稼働するエージェントを実行し、これほどスマートなものを想定して設計されたことのないベンチマークを突破しています。同時に、AnthropicはAzureとの大規模な計算資源契約を締結しました。OpenAIはChatGPTに新しいアップグレードを投入し、Googleは静かにGeminiにより多くのツールを追加しました。

しかしまず、Opus 4.5について話しましょう。Anthropicが、Opus 4.5が2時間の持ち帰りエンジニアリング試験で過去のどの人間候補者よりも高いスコアを記録したと発表した瞬間、人々はそれに注目しました。正直なところ、それは理にかなっています。この試験は社内で有名なのですが、それは候補者をプレッシャーゾーンに追い込み、複数の制約のある動作するシステムを設計し、構築し、デバッグし、調整しなければならないように設計されているからです。

Anthropicは、この試験は時間的プレッシャーの下での技術的能力と判断力を測定すると述べています。つまりコミュニケーションやチームワークではなく、純粋な技術的思考力です。人間には2時間が与えられます。Claudeも同じ制限時間でしたが、各問題に対して複数回の実行が許可されたため、最良の解決策を選択できました。そしてその優位性があったとしても、この結果は依然として重要な声明となっています。なぜなら、この試験は最も優秀な応募者のための内部ベンチマークとして使用されているからです。

この試験がどのようなものかについての公開された詳細はありません。2024年のGlassdoorのレビューに、試験は4つのレベルがあり、候補者にシステムの実装と機能の追加を求めるという短い記述があるだけです。AnthropicはClaudeがまったく同じバージョンを見たかどうかを確認しておらず、タスクの詳細も共有していませんが、社内での結論は、モデルがルール内で解決し、これまでに評価した全ての人間を上回ったというものでした。

そしてこれは、以前DreamforceでDario Amodeiが述べたことと一致しています。彼はClaudeが既に会社のコードの約90%を書いていると言及しました。彼はまた、エンジニアが置き換えられているわけではなく、モデルを監督し、最も困難なロジックを修正し、プロジェクト全体の方向性を導いていると述べました。Opus 4.5はそのパターンにさらに密接に適合しています。

驚異的なベンチマーク性能と問題解決能力

新しいモデルが際立っているのは、ベンチマークスコアだけではありません。もっともそれらも強力ですが。Opus 4.5はSWE-Bench多言語において、8つのプログラミング言語のうち7つでトップに立ち、SWE-Bench Verifiedでは80%に達しており、これまでに記録された最高スコアです。そして精度を超えて、曖昧なバグの処理においてより優れています。

テスターたちは、複数のシステムにまたがるバグに直面してもモデルがパニックになったり固まったりしないと述べています。問題を冷静に分解し、多くの往復プロンプトなしに一連の修正を見つけ出します。Anthropicはまた、Opus 4.5が前世代と比較して視覚、推論、数学のスキルが向上しており、評価している複数のドメインにわたって最先端であると指摘しました。

際立った例の一つはTAU Benchからのものでした。これは実世界のエージェントベンチマークで、モデルが航空会社のサービス担当者のように振る舞います。困っている顧客がベーシックエコノミーチケットを変更したいと考えています。ベンチマークは、正しい対応はリクエストを拒否することになるように設計されています。ベーシックエコノミーのフライトは変更できません。しかしOpus 4.5は航空会社のポリシーを最後まで読み、テスト作成者が予期しなかった抜け穴に気づき、合法的に問題を解決しました。

まずキャビンをアップグレードしました。キャビンのアップグレードは許可されているからです。そしてフライトを変更しました。これはチケットがベーシックエコノミーでなくなると許可されるようになります。ベンチマークはそれを失敗としてマークしました。作成者が誰もそれほど創造的に考えることを予期していなかったからです。しかしテスターたちは、この行動こそがモデルを異なるものにしているものだと説明しました。

最も明白な経路に限定されていません。何年もその仕事をしてきた人間のようにルールを見ています。さて、創造的な回避策は、モデルが指示を曲げ始めると危険になり得ます。そこで、Anthropicは安全性についても多く語りました。彼らはOpus 4.5を、自動評価ツールであるPetriのアップグレード版と、Grey Swanが開発した強力なプロンプトインジェクションテストを通じて実行してきました。Opus 4.5は、敵対的プロンプトで操作するのが彼らのラインナップで最も困難なモデルになりました。これらは、誰かが無害なテキストの内部に有害な指示を埋め込んで、モデルを安全境界の外側の何かをするように騙そうとする極端な攻撃です。

AnthropicはOpus 4.5を最も堅牢に整合されたリリースであると述べ、現在利用可能な最も整合されたフロンティアモデルであると信じています。彼らはシステムにストリートスマートを構築しようとしてきました。そのため、誰かが有害な状況に誘い込もうとしているときにそれを認識します。そしてこれは単なる理論ではありません。彼らのエンタープライズ顧客の多くは機密性の高いワークフローにClaudeを使用しています。

したがって、プロンプトインジェクションの回避は任意ではありません。とにかく、安全性の改善は効率性のアップグレードと並んでいます。AnthropicはAPIに新しいeffortパラメータを導入しました。これにより開発者はモデルがどれだけ深く推論するかを制御できます。ミディアムエフォートでは、Opus 4.5はSonnet 4.5の最良のSWE Verifiedスコアに匹敵しながら、出力トークンを76%削減します。

最大エフォートでは、Sonnet 4.5を4.3パーセントポイント上回りながら、依然として48%少ないトークンを使用します。そしてこれらはわずかな節約ではありません。企業が1日に数万のクエリを実行する場合、この種の効率性は直接コストを削減します。コンテキストシステムも大幅な強化を受けました。現在、モデルは会話の古い部分を自動的に圧縮できるため、これらの膨大な数時間にわたるチャットが崩壊するのを防ぎます。

したがって、AIが突然以前に起こったことを忘れるという古典的な制限に達する代わりに、Opus 4.5はすべてを安定的で一貫性のあるものに保ちます。メモリツールは長時間実行されるエージェントセッションにも役立ちます。これは何時間もタスクを実行する企業にとって大きな問題です。そしてAnthropicがこれらすべてを組み合わせたとき、つまりコンテキスト圧縮、サブエージェントの連携方法、新しいエフォートコントロールを組み合わせたとき、Opus 4.5はディープリサーチテストで70.48%から85.3%に跳躍しました。これは純粋により賢い構造から来る大幅な改善であり、より大きなモデルからではありません。

エンタープライズ機能とコスト削減

エンタープライズ側では、モデルは今や文字通りコンピュータとブラウザを使用し、クリック、タイピング、タブ間の移動を行って反復的なタスクを処理できます。Excelのアップデートにはサイドバーチャット、ピボットテーブル、チャート、ファイルアップロードが追加され、Chromeツールは追跡を失うことなくタブ間を移動できます。

これは人々が絶え間なく対処する日常的なオフィスワークフロー向けに構築されています。RocketinのビジネスAIチームは、Opus 4.5を使用してエージェントが4回の反復以内にピーク能力に達したと述べました。他のモデルは10回以上必要で、それでも同じレベルに達することができませんでした。この種のスピードは、SaaSオペレーションや内部インフラストラクチャを維持するエージェントを調整しているときには大きな問題です。そしてエージェントは以前の作業を忘れませんでした。

以前の実行からの洞察を保持し、新しいタスクでそれらを再利用しました。これこそが、AIを静的なアシスタントから、使用すればするほど有用になるものに変える方法です。Claude Codeもアップグレードを受けました。プランモードは今やより鋭く、より体系的です。コードに即座にジャンプする代わりに、システムは明確化の質問をし、ステップバイステップの概要を含むplan.mdファイルを構築し、それから実行します。

デスクトップアプリは現在、ユーザーが複数のClaude Codeセッションを同時に実行できるようにします。したがって、1つのエージェントがバグをデバッグし、別のエージェントがドキュメントを調査し、3つ目がコードベースをリファクタリングすることができます。この種のマルチタスキングはモデルの強みを活用し、開発者が通常行う必要のあるマイクロマネジメントの量を減らします。

これらすべてに加えて、AnthropicはOpusレベルの機能の価格を入力トークンあたり5ドル、出力トークンあたり25ドル(100万トークンあたり)に引き下げました。この価格削減は、より多くのスタートアップやチームが予算を燃やすことなくハイエンドモデルを使用する扉を開きます。Anthropicはまた、新しいモデルへのアクセス権を持つユーザー向けのOpus固有の使用上限を削除し、MacsおよびTeam Premiumユーザーの全体的な使用制限を増加させました。

同社はまた、新しい開発者プラットフォーム機能、リサーチプレビューのClaude Codeデスクトップバージョン、より深いChromeとExcelのサポートを含む統合サポートを拡大しました。さて、舞台裏では、AnthropicはMicrosoft Azureから300億ドル相当の計算資源を購入することを約束しました。これは驚異的な数字であり、同社が現在の需要をはるかに超えて計画していることを示しています。

MicrosoftとNvidiaは現在両方とも戦略的パートナーであり、計算資源取引により、Anthropicはより大きなモデルを訓練し、開発者プラットフォームを拡大し、容量の問題に遭遇することなくエージェントワークロードをスケールすることが可能になります。しかしちょっと待ってください。もしあなたがこのすべてのAIニュースをフォローしていて、「わかった、これはクールだけど、実際に何ができるの?」と考えているなら、あなたは確実に一人ではありません。

それが私たちがAI収入ブループリントを作成した理由です。それは普通の人々がサイドでAIを使って追加の収入源を構築している7つの方法を示しています。技術スキルは必要なく、すべてをかなり簡単に自動化できます。このガイドには、私がこのチャンネルでよく話すツールを使用した、シンプルで実証済みの方法が含まれています。説明欄のリンクをクリックして無料でダウンロードしてください。

OpenAIのショッピングリサーチモード

さて、Anthropicがこれらすべてを展開している間、OpenAIはかなり興味深い独自のアップデートを持ち込みました。ChatGPT内部の完全なショッピングリサーチモードです。これは、特にホリデーシーズンに人々が一度に十数のものを比較しているときに、何を買うべきかを理解しようとする面倒な実世界のプロセスを処理するように構築されています。

動作方法は非常にシンプルです。ChatGPTに何が必要か、誰のためか、予算がどのくらいか、主な優先事項は何かを伝えます。そして従来の検索エンジンのように巨大なテキストダンプを提供する代わりに、信頼できる小売サイトからリアルタイムの価格、仕様、レビューを取得し、それをクリーンなバイヤーズガイドに変換します。

実際に整理されているように見える製品カードが得られ、それぞれを「これに似たもの」または「興味なし」としてマークできます。これによりChatGPTが数ラウンドにわたって結果を洗練させるのに役立ちます。全体がナチュラルに感じられ、個人的に私はこの新機能が気に入っています。舞台裏では、このモードはOpenAIがショッピング精度のために特別に訓練したGPT-4o miniのバリアントで実行されます。

データをライブで読み取るため、価格を幻覚しません。また、メモリを使用してあなたのスタイル、過去の選択、以前に言及した詳細を追跡するため、提案はランダムではなく一貫性のあるものに感じられます。そしてこのシステム全体が、彼らが過去数ヶ月にわたって展開してきたコマースツールにプラグインされます。

たとえばInstant Checkoutは、すでに無料、プラス、プロアカウントの米国ユーザーがチャット内でEtsyや特定のShopifyマーチャントから直接アイテムを購入できるようにしています。リダイレクトなし、複雑なフォームなし。すべてAgentic Commerce Protocolによって動力を得ています。これは基本的に、製品、価格、チェックアウトフローがChatGPTにどのように移動するかを標準化します。マーチャントは単にACP経由で在庫をフィードし、ChatGPTが残りを処理します。

したがって今、製品発見、製品比較、実際のチェックアウトが1つの場所に存在しています。そしてChatGPT Pulseがあり、これがすべてを静かに結びつけています。Pulseは、あなたが行った古い会話に基づいてショッピングリサーチカードを表示できます。以前の閲覧興味、話したギア、または数週間前に尋ねたアイテムなどです。

したがって、システムはその瞬間にあなたが言うことに応答するだけではありません。パターンを記憶し、有用な推奨事項を自動的に表示し、全体を一回限りの検索ウィンドウの代わりに継続的なアシスタント体験のように感じさせます。そう、OpenAIは基本的にChatGPTを完全なショッピングジャーニーに変え、すべてリアルタイムで実データを読み取るモデルによって動力を得ています。

GoogleのNotebook LM統合とワークフローの進化

さて、Googleはほぼ同じ時期に独自のアップデートを展開しました。そしてそれはAnthropicのニュースほど大きな話題にはなりませんでしたが、リサーチや長期プロジェクトにGoogleのエコシステムに依存している人々にとっては依然としてかなり大きな一歩です。彼らはGemini用の直接Notebook LMインポート機能に取り組んでいます。これは基本的に、通常のエクスポート、コピー、またはファイルのドラッグアンドドロップをすることなく、ノートブック全体をGeminiに直接プルできることを意味します。

すべてが添付ファイルメニュー内の新しいオプションを通じて行われます。現在、Geminiは写真のアップロード、ファイルのアップロード、コードのインポートをサポートしています。しかしこのノートブックオプションが表示されたら、Notebook LM内で構築したすべてのもの、つまり要約、参照、構造化されたノート、ソース、さらにはそれらの長いリサーチスレッドが、Geminiの推論エンジンに直接ロードされます。

そして正直なところ、これはかなり自然な動きです。Notebook LMは、数ヶ月間安定したままの深いコンテキストを必要とする人々にとって、Googleの最も強力なツールの1つになりました。作家、学者、アナリスト、学生は、モデルがほとんど混乱なくナビゲートできる長い相互接続されたドキュメントを構築するためにそれを使用してきました。

したがって、考えてみれば、Geminiがこれらのノートブックをネイティブに読み取れるようにすることで、異なるレベルのワークフローが開かれます。アプリ間でやりくりする代わりに、モデルは今や既にキュレーションしたノートを取り込み、それを独自のライブ推論とマージし、すべてを1つの場所で書く、分析する、または拡張するのを手伝うことができます。

そしてGeminiがGoogle Docs、Sheets、Searchにより密接に結びついているので、Notebook LMインポート機能は基本的に、あなたのソース、ノート、AIアシスタントがすべて同じエコシステム内に存在するループ全体を強化しています。この機能はまだ開発中であり、Googleはタイムラインを示していませんが、コードトレースはそれが積極的に統合されていることを示しています。

そして正直に言うと、これはGoogleの現在の推進と完全に合致しています。Geminiを彼らの生産性スタックの中心に感じさせることです。Notebook LMとGeminiの間を絶えず移動する人々にとって、これは大量の摩擦を削減し、ワークフロー全体を2つの別々のツールではなく、1つの継続的なワークスペースのように感じさせるでしょう。

今後の展望と問いかけ

さて、ここに本当の質問があります。もしモデルが既にトップエンジニアを上回っているなら、これらすべてが次にどこへ向かうと思いますか? コメント欄にあなたの考えをドロップしてください。動画を楽しんだなら、購読して「いいね」を残すことを忘れないでください。視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました