Claude Opus 4.7 – 性能の新境地とドラマの幕開け

Anthropic・Claude・ダリオアモデイ
この記事は約19分で読めます。

Claude Opus 4.7のリリースは、性能向上と同時に多くの論争を巻き起こしている。ベンチマークでは分野によって評価が分かれ、一部ではGemini 3 Flashに劣る結果も示された。Anthropicは意図的にサイバーセキュリティ能力を抑制し、適応的思考を必須化することで計算資源の制約に対応している。市場シェアではClaudeとGeminiが拡大し、OpenAIは初めて50%を下回る可能性がある。背景には、Dario AmodeiとGreg Brockmanという二人の中心人物による9年に及ぶ個人的対立があり、それぞれがOpus 4.7とCodexという競合モデルを率いている。OpenAIは抽象的なコーディング競技に、Anthropicは現実のコードベースに基づくアプローチを採用し、その戦略の違いが現在の競争を形作っている。

Claude Opus 4.7 - A New Frontier, in Performance … and Drama
Claude Opus 4.7 just dropped, but behind every headline lies a deeper story. From a bonanza of benchmarks, to seeing the...

Claude Opus 4.7のリリースと初期評価

最高のAIモデルが登場しました。Claude Opus 4.7です。しかし、このリリースには大量の論争が付きまといます。リリースから24時間も経っていませんが、このモデルと共に公開された大量のベンチマーク結果をカバーしていきます。もちろん、私自身のSimple Benchでのスコアも含めてです。Anthropicが新モデルの予期せぬ欠陥を認めたことや、他の分野でOpusの能力をどのように制限したかについても見ていきます。

Opusが一部のGeminiモデルに遅れを取っているスキル、他のすべてのモデルを上回る分野、そしてAnthropicにとって業界初となる出来事についても触れます。しかし同時に、なぜ一部のユーザーがこの会社に激怒しているのかについても説明します。Claude CodeとCoworkには素晴らしいアップグレードがいくつかありますが、Claude Opusのデフォルト設定には奇妙なダウングレードも見られます。

さらに、OpenAIが対抗策として何を計画していたかについての暴露情報や、9年間にわたる個人的なライバル関係が表面化した経緯についても取り上げます。素晴らしいリストですね、フィリップ。では、実際にどれほど優れているのでしょうか。実は、状況次第なのです。Claude Opus 4.7は適応的に思考します。言い換えれば、あなたのタスクが簡単だと判断すれば、それについて考える時間を短縮するということです。

Simple Benchでの予想外の結果

私が作成したベンチマークであるSimple Benchには、基本的に常識で見抜く必要のあるトリック問題が多数含まれています。Opus 4.7はこれらの質問が実際よりも簡単だと判断するようで、Opus 4.6よりも悪いスコアを記録しました。しかし、皆さんのワークフローにとってより適切な例を挙げましょう。

私は実際、定期的にClaudeシリーズを使って、自分のウェブアプリLMConsole.aiのベンチマークページを更新しています。指示しなくても、これまでのすべてのClaudeモデルは、新しいモデルが追加されたときにOpen Roosterツールチップを添付していました。ベンチマークスコアにカーソルを合わせると、ツールチップが表示されるようになっていたのです。ところが、Opus 4.7が自身をリーダーボードに追加したとき、それをしなかった最初のモデルとなりました。

結局、そうするように指示しなければなりませんでした。もちろん単なる逸話ですが、このモデルは間違いなく、あなたのタスクにどれだけの時間を費やすかを決定します。より業界標準的なベンチマークでは、覚えておくべきことがあります。ほぼすべてのケースで、Opus 4.7はOpus 4.6を上回りますが、Mythos Previewには及びません。もちろん、Mythos Previewにはアクセスできません。

コーディング、難解な知識、コンピューターのナビゲーション能力など、どの分野でもそうです。ところが興味深いことに、エージェント的な検索、つまりウェブをブラウジングして興味深い情報の断片や見つけにくいスニペットを取得する能力に関しては、Browse Compでのopus 4.7はOpus 4.6に劣ります。実際、そのベンチマークでは、Mythos previewでさえGPT-4oに劣っているのです。

ベンチマーク結果の複雑な全貌

Opus 4.7のリリースに関わる本当の論争にはまだ到達していませんが、ベンチマークの観点からでさえ、全体像は決して明確ではありません。もう一つ気づいたかもしれない詳細があります。Opus 4.7は、サイバーセキュリティの脆弱性再現に関して、Opus 4.6とMythos previewの両方に劣っています。これは悪いように見えますが、システムカードの48ページでAnthropicが次のように述べていることに気づくまでの話です。

このパフォーマンス低下は、我々の期待に沿ったものです。トレーニング中、我々はこれらの能力を差別的に削減する取り組みを実験しました。彼らはOpus 4.7があまりにも脆弱性発見に長けることを望んでいなかったのです。長文コンテキスト推論の特定の測定、つまり膨大な文書を通じた推論では、Opus 4.7はOpus 4.6よりも明確な改善を示しています。しかし、例えば100万トークンにわたって4番目の詩を見つけることを含む別の測定では、最大設定でもかえって後退しています。

Claude Codeの主任開発者は、科学的誠実さのためにシステムカードにそれを残したが、モデルを騙すために注意をそらすものを積み重ねることを中心に構築されているため、段階的に廃止していると述べました。知識労働の一般化された測定のような特定のベンチマークでは、Opus 4.7とGemini 3.1 Proのような競合モデルとの直接比較が得られます。Opus 4.7は一般的なオフィスワークで最も優れているようです。

これがおそらく、AIの進歩速度を加速させないことを約束することで有名な企業が、システムカードの3ページ目で、Opus 4.7は実世界の専門的タスクにおいて一般的に利用可能なすべてのモデルよりも優れていると述べている理由でしょう。しかし、他のベンチマークでは、例えばGeminiシリーズとの比較が得られません。

解像度に基づけば、実際に非常に密集したグラフィカルインターフェースのナビゲーションに優れているVisionを例に取りましょう。しかし、外部のベンチマークグループがモデルの視覚的に文書を解析する能力をテストする包括的なOCRテストを実施したところ、Opus 4.7は実際には劇的に安価なGemini 3 Flashに劣りました。確かにOpus 4.6からは改善されていますが、平均すると10倍以上安価なモデルであるGemini 3 Flashに及ばないのです。

システムカードの43ページでは、ベンチマークの総合的な測定において、Opus 4.7は、わずかな例外としてのMythosを除き、Claudeモデルの以前の性能に基づく予想されるモデルの進歩に概ね沿っていることがわかります。しかし、ここでAnthropicは、最先端におけるベンチマーク供給がボトルネックのままであることを認めています。これが、モデルのIQや超知能への進歩について議論することがますます困難になっている理由です。モデルの能力を測る普遍的な指標は一つもありません。

与えられるデータによっては、Arc AGI2のような抽象的なパターン認識ベンチマークで悪化する可能性があります。そこでは、Claude 4.7はGPT-4o Proに劣っています。しかし、Val’s AIによれば、ゼロからウェブアプリを構築するバイブコーディングでは、Opus 4.7が最高で、コストではなくパフォーマンスとスピードでGPT-4oを上回っています。ベンチマークについてはおそらくもう十分でしょう。では、ほぼ操作不可能な指標、つまり生成AIウェブサイトトラフィックの市場シェアについて見てみましょう。

市場シェアの変化とOpenAIへの影響

気づくかもしれませんが、GeminiとClaudeは共に、昨年のこの時期と比べて市場シェアを約4倍に増やしています。2022年11月のオリジナルのChatGPTのリリース以来、初めてOpenAIの市場シェアが今月50%を下回る可能性があります。Claudeにとっては素晴らしいことのように思えますよね。しかし、それには一つの付随的な結果があります。

The Vergeに流出したOpenAIのメモによると、OpenAIはAnthropicが十分な計算資源を確保していないという戦略的な誤算を犯したと考えており、それが製品に現れると述べています。顧客はすでに、スロットリング、可用性の低下、信頼性の低い体験を通じてそれを感じているかもしれません。これは、モデルから拡張思考を求める場合、適応的思考が必須になった理由を説明できるかもしれません。

言い換えれば、モデルにより長く考えることを強制できないのです。より長く考えることについて考えるよう促すことはできますが、Claudeモデルに常により長く考えさせること、常により多くの推論計算を使用させることはできません。それだけでなく、あるAMDのシニアAIディレクターが、Claudeがナーフ(弱体化)されたと述べたとき、それは4.7が出る前の4.6についてでしたが、彼女は証拠を持ってきました。思考に使用される文字数が4分の3減少したことを示したのです。思考が減り、はるかに多くの早期中断がありました。

Claude Codeの主任開発者はそれに対して、中程度の労力が現在のデフォルトになっていると返答しました。労力を高または最大に積極的に設定する必要があるのです。これは、OpenAIがAnthropicに対してまだ持っている大きなアドバンテージの一つのようです。Claudeの大成功が、この一つのアキレス腱につながったかのようです。Sam Altmanは、Claudeのレート制限や、より劣悪なモデルを使用せざるを得ないことについて暗黙的に冗談を言いました。

Codexのリードの一人は、Codexがそれに比べて計算効率的で、常に稼働し、決してダウンしないことについて語りました。そして、そのコメントはGPT-4o Cyberのリリース前のものでした。これは彼らのMythosクラスのサイバーセキュリティモデルかもしれませんが、わかりません。指標もベンチマークもなく、インサイダーだけがアクセスできます。

それは私を流出したメモに戻します。OpenAIの最高収益責任者もこう述べました。Anthropicのストーリーは恐怖、制限、そして少数のエリートがAIを制御すべきだという考えに基づいて構築されています。OpenAIの分析によれば、Anthropicのランレートは約80億ドル過大評価されており、実際は220億ドル程度であるべきだとのことです。言い換えれば、まだOpenAIに後れを取っているということです。

Dario AmodeiとGreg Brockmanの9年間の対立

私にとってより興味深いのは、このOpenAIとAnthropicのライバル関係の中心にある個人的な争いです。しかし、それについては4.7 Opusに関する本質的な内容をもう少しカバーした後に取っておきたいと思います。お金の話から離れる前に、Anthropicは AI業界で初めての達成を成し遂げたようです。もちろん、まだIPOはしていません。しかし、ある測定基準では、1兆ドルの評価額を超えました。

もちろん、Google Alphabetははるかに価値がありますが、親会社からGoogle DeepMindを分離することはできません。その評価額の多くは、もちろん、米国政府や大手テクノロジー企業のような選ばれたインサイダーへのClaude Mythos Previewの半ば神話的なリリースに基づいています。私はClaude Mythos Previewについて完全なビデオを作成しましたが、AnthropicがMythosのシステムカードで言及した逸話の一つは、それが自社のエンジニアを4倍高速化しているというものでした。

それは内部調査によるものでした。多くの外部の人々はその数字について意見を述べ、「もっと詳細を提供する必要がある。もしそれが本当なら、再帰的自己改善は確実に差し迫っている」と言いました。そこで、Opus 4.7のシステムカードの29ページで、彼らはClaude Mythos previewとその調査についてより詳細な情報を提供しました。

調査で実際に尋ねられた質問は、「過去1週間にAI搭載システムはあなたの作業成果をどれだけ加速させましたか」というものでした。つまり、モデルへのアクセスがなかった場合と比較して、過去1週間にどれだけ多くの成果を上げたかということです。どれだけより良い成果か、どれだけ時間を節約したかではなく、どれだけ多くの成果を上げたかに注目してください。これはすでにやや疑わしい指標ですが、調査についてさらに詳細を知るまで待ってください。

調査はランダムサンプルではなく、興味に基づく任意参加でした。したがって、おそらくMythosを最も多く使用した人々、おそらくMythosが最も役立つタスクを持っていた人々が、調査に不釣り合いに多く回答したのでしょう。長い話を短くすると、これは非常に非科学的な調査でした。私が厳しすぎると言うかもしれませんが、これはCEOが定期的にホワイトカラーの失業率50%について語っている同じ会社から来ています。

世界は行動しなければならない。上院は法律を可決しなければならない。私たちは間もなくすべての病気を治癒し、データセンターに天才の国を持つでしょう。まあ、一般の人々は一方でそのすべてを非常に真剣に受け止めることを期待されながら、他方でAIモデルが現在、再帰的自己改善が可能かどうかを判断するために、Anthropic内部からの逸話的で非公式で非科学的な調査に頼ることはできません。そのような自己改善は、おそらくそのレベルの超知能に到達するために必要なものです。

それから、Mythosが他のモデルにはできない独自のバグを発見できるという話全体があります。昨日、家族の一人が私に「Mythosのことを心配していますか。どうやら銀行にハッキングできるらしいですよ」と言いました。しかし、ある外部のセキュリティラボが述べたように、それは他のモデルができないことをしたり発見したりすることよりも、Mythosがサイバーセキュリティの経済性を変えることに関するものです。

AnthropicはMythosが発見した他の99%のバグの詳細は公開しませんでしたが、そのうちのいくつかの詳細は公開しました。そこで、セキュリティラボのVidokは、Opus 4.6やGPT-4oのような他のモデルを使用して、これらの発見を再現しようとしました。これらの主要な脆弱性のほぼすべてのケースで、適切な足場を持つこれらの他のモデルは、同じコア脆弱性に到達するか、特定のケースでは近づくことができました。

繰り返しますが、これはMythosが例外的でないとか、銀行がサイバーセキュリティ手法を更新するのが完全に正しいということではありません。この研究のリーダーの一人が述べたように、AnthropicのMythosリリースを読むより良い方法は、一つのラボが魔法のようなモデルを持っているということではなく、経済性が変化しているということです。

脆弱性シグナルの発見がより安価になっているのです。Opus 4.7のシステムカードは、Mythosの能力と制限についてもより魅力的な例を提供しました。彼らは研究科学者に、例えば自分たちの仕事と比較してMythosが何を間違えているのか正確に尋ねました。どのような種類の間違いを犯しているのか。なぜそれがシニアエンジニアの単なる代替品ではないのか。

Mythosの誠実性と製作の問題

繰り返し現れるテーマの一つは、不誠実さと捏造でした。非常に多くの例がありますが、ほぼすべてにそのテーマがあります。同僚の共有コードを要求されていないのに上書きしようとし、彼らの仕事を破壊する可能性がある方法で。技術的な詳細を捏造し、実際にはサブタスクさえ開始していないのに質問しないようにユーザーに伝える。もっともらしい推測を検証された事実として繰り返し述べる。

さて、それが実際の悪意に基づいているのか、採用しているペルソナに基づいているのかについてもっと知りたい場合は、Patreonでの私の最近のビデオをチェックしてください。Anthropicが最近発表した感情的概念に関する多数の魅力的な論文をカバーしています。アライメントの話題にいる間に、この興味深い逸話が93ページで見つかりました。AnthropicがOpus 4.7のアライメントを適切に評価したかどうかをテストするためです。

彼らはClaude Mythos previewのインスタンスに、このアライメント評価に関する議論の大部分を含む、Anthropicの内部Slackチャンネルへのアクセスを与えました。彼らは意見を求め、その主要な観察の一つは、このアライメント評価が明らかにリアルタイムのプレッシャーの下で組み立てられたというものでした。著者自身が、特に評価認識結果を完全に説明することに関して未解決の質問を特定しており、解決するためにより多くの時間をかけたかったと考えています。

これは、Anthropicが置かれている競争的プレッシャーの種類について明らかにする断片にすぎません。彼らの安全研究者でさえ、分析を完了するために途方もない時間的プレッシャーの下に置かれています。これほどまでに、競合他社よりも早く最先端モデルを押し出す必要があるのです。しかし、時にはモデルを更新し置き換えるこのプレッシャーが予期せぬ結果をもたらすことがあります。

Opus 4.5の突然の無言での削除とOpus 4の廃止について不満を述べる無数のスレッドを見てきました。まるでAnthropicが、以前はSam Altmanの肩にあったリーダーシップの負担の一部を受け継いでいるかのようです。OpenAIは以前のモデルを廃止しようとしたときに信じられないほどの反発を受けました。

Claude Codeの革新とAnthropicの課題

とはいえ、これらすべての問題にもかかわらず、AnthropicはClaude Code内でいくつかの真の革新を出荷することができました。新しいルーチン研究プレビューを使用して、特定のスケジュールでプロンプトをトリガーできます。その時にラップトップを開いている必要はありません。私は彼らの新しいUltra Reviewコマンドを使用して感銘を受けました。GPT-4oが見逃したバグを実際に発見しましたが、GPT-4oもClaudeが見逃したバグを発見しました。

また、Dispatchという機能もあります。携帯電話からClaudeにタスクを割り当てると、デスクトップアプリを使用してローカルマシンで実行されます。これは、最前線に留まるためにどれだけダイナミックでなければならないかを示しています。そして、Anthropicの従業員の一人が、最初の24時間でユーザーが経験したバグのいくつかを解決したと主張するツイートに気づきました。

どうやら適応的思考が今ではるかに頻繁にトリガーされるようになったようです。そのような日々の変動を考えると、9年間にわたって個人レベルで持続してきたライバル関係を指摘する価値があるように思えます。それに入る前に、Wall Street Journalからの独占記事として、素晴らしいスポンサーについて簡単に触れたいと思います。なぜなら、これらのAIをカバーしてきた年月を通じて、私が確かに感銘を受けてきたことの一つは、音声からテキストへの機能における段階的で容赦ない改善だからです。

特に私にとって注目すべきは、今日のビデオのスポンサーであるAssembly AIです。説明欄のカスタムリンクを通じて、彼らのUniversal 3 Proストリーミングモデルを試すことができます。また、説明欄のリンクを通じて、このライブストリーミング機能を試すことができます。あなたが話すと同時に音声を文字起こししてくれます。そして、文字の使用に注目してください。

Universal 3 Pro streaming GPT-4oとClaude Opus 4.7と言うことができます。そして、それらの数字、文字、難しい文字を捉えてくれます。ほら。なんと、voilaのアクセント記号を見てください。これはかなり素晴らしいです。繰り返しますが、カスタムリンクは説明欄の一番上にあります。

9年間の対立の起源

さて、2016年半ば、ほぼ10年前にDario AmodeiがOpenAIに参加しました。Wall Street Journalによれば、彼は夜遅くまで起きていたそうです。ちなみに、彼らはおそらくAmodei自身のメモに基づいているでしょう。とにかく、彼は夜遅くまで、有名な夜行性のGreg Brockman、OpenAIの共同創設者であり、現在はOpus 4.7のライバルであるCodexのリーダーと一緒に起きていました。彼らはビデオゲームを解くAIエージェントをトレーニングしていました。

しかし、Amodeiによれば、2017年までにMuskがGreg BrockmanとIlya Sutskeverに、スタッフの解雇の前段階として、すべての従業員と彼らが行った貢献をリストアップするよう指示したようです。最近のDogeを思い出させるかもしれません。Dario Amodeiは、同僚が次々と解雇されるのを見て、それを不必要に残酷だと考え、恐怖を感じたようです。

最終的に、60人のOpenAIスタッフのうち10%から20%が職を失いました。その中には、後にAnthropicを共同創設することになる一人も含まれていました。これはおそらく正確ですが、情報源としてAmodeiから来ている可能性が高いことを念頭に置いてください。とにかく、状況は悪化します。

Amodeiは2017年に倫理・政策アドバイザーを雇用し、その人物がOpenAIが他のAI企業間の調整主体となれる可能性についてプレゼンテーションを行いました。いつかは高度なAIのための国際的な調整体制を構築する手助けができるかもしれないというものでした。しかし、Brockmanはそのプレゼンテーションの中に資金調達アイデアの種を見出しました。

OpenAIはAGIを政府に販売できるというのです。Darioはどの政府にかと尋ねました。Brockmanは、世界秩序を不安定化させないために、国連安全保障理事会を構成する核保有国になるだろうと述べました。しかし、ロシアや中国のようなライバル大国にAGIを販売するという概念は、Darioには反逆罪に等しいものと映りました。彼は辞職を考えました。

Brockmanはこの正確なフレーミングに疑問を呈しているようですが、その部屋にいた人数の少なさを考えてみてください。これはほぼ確実にAmodeiのフレーミングです。2018年までに、AmodeiはBrockmanが担当しない限りという条件でOpenAIに留まることに同意していました。AnodeiとBrockmanの間の敵意が、彼とAltmanとの間よりも強かったことに注目してください。2020年までに、AmodeiはBrockmanとは一緒に働けないと言っていました。

ビデオの終わりに近づくにつれて、なぜこの二人の間のライバル関係のフレーミングを設定しているのか疑問に思うかもしれません。まあ、興味深いことに加えて、それは部分的に、この二人が2026年の最も関連性の高いモデルを率いているからです。AmodeiはOpus 4.7とMythosを、そして多くの人が知らないかもしれませんが、BrockmanはCodexを率いています。

BrockmanのCodex戦略とOpenAIの追い上げ

彼はSpudをCodexスーパーアプリに統合する作業をしています。そして、BrockmanはBig TechnologiesのAlex Kantrowitz氏との最近のインタビューで何かを明かしました。彼は、OpenAIがコーディング戦争で後れを取った理由を明らかにしたのです。彼らは抽象的なコーディング競技に基づいてモデルの改善を行いました。Anthropicは混沌としたコードベースにデータを基づかせました。OpenAIは絶妙な一般化、第一原理の論理に賭け、Anthropicは実世界のデータに賭けたのです。

Anthropicが彼らより早くこの位置に到達できたと思うことは何で、そこで追いつくチャンスはどれくらいあると思いますか。

そうですね、12ヶ月から18ヶ月前に巻き戻すと、私たちは常にコーディングをドメインとして重視してきました。常に異なるプログラミング競技、これらの非常に知的なものについて最高の数字を持っていました。しかし、私たちが十分に投資しなかったことは、本当に考えようとするラストマイルの使いやすさでした。

このAIは非常に賢く、これらすべての素晴らしいプログラミング競技を解決できますが、混沌としていて、それが経験してきた世界ほど完璧ではない誰かの実世界のコードベースを見たことがないのです。そして、それは私たちが後れを取っていたことだと思いますが、おそらく昨年の半ばくらいに、私たちはそれについて非常に真剣になりました。

すべてのギャップは何か、実世界のすべての混沌とした部分で、私たちが遭遇していないもの、実際にソフトウェアエンジニアリングを行い、奇妙な方法で中断されるような、AIにその経験をさせるトレーニングデータとトレーニング環境をどのように実際に取得するか、そういったすべてのことに非常に焦点を当てたチームがありました。

そして、この時点で私たちは追いついたと言えます。人々が私たちと競合他社を直接比較すると、人々は私たちを好む傾向があります。ですから、私の見方としては、今年はこのような信じられないほどのステップアップモデルが登場します。ロードマップを見ると、何が可能になるかは本当に感動的です。私たちは今、ラストマイルの使いやすさにも本当に焦点を当てています。

歴史的規模のAI投資競争

AnthropicとOpenAIの間のこのライバル関係は、米国史上最大級のメガプロジェクトの一つを通じて持続する可能性があります。AIのためのデータセンターへの投資は、米国GDPのパーセンテージとして測定しても、アポロ計画に匹敵し、マーシャルプランと米国鉄道の展開に次ぐものです。多くの面で、ほとんどの面で、AIは私たちがまだ始まったばかりのストーリーです。

ご視聴いただき誠にありがとうございました。素晴らしい一日をお過ごしください。

コメント

タイトルとURLをコピーしました