Claude Opus 4.7がリリース、ベンチマークと今後の展望を解説

Anthropic・Claude・ダリオアモデイ
この記事は約11分で読めます。

Anthropicが新たにリリースしたClaude Opus 4.7は、前モデルのOpus 4.6から大幅な性能向上を遂げた一方で、セキュリティ上の懸念から一部機能が意図的に制限されている可能性がある。ベンチマーク結果を見ると、Opus 4.7はOpus 4.6とMythos Previewの中間に位置する性能を示しており、ソフトウェアエンジニアリング、視覚的推論、大学院レベルの推論において顕著な改善が見られる。しかし、エージェント検索やサイバーセキュリティ脆弱性再現といった一部の領域では、前モデルよりも低いスコアを記録しており、これは意図的な安全対策である可能性が高い。本動画では、AI技術が既に3年前から根本的には可能であった作業を、現在はより簡易な方法で実現できるようになったという観点から、新モデル追求よりも既存インフラの最適化が重要であると提言している。

Claude Opus-4.7 Just Dropped, And...
🔥 Join Maker School & get customer #1 guaranteed: 📚 Watch my NEW 2026 Claude Code course:

Claude Opus 4.7のベンチマーク詳細分析

皆さんこんにちは。Opus 4.7が数分前にリリースされたので、数分間お時間をいただいて、ベンチマークについてお話しし、このモデルに対する私の考え、Mythos Previewとの関連性、そしてより広い市場全般についてお伝えしたいと思います。

正直なところ、SpudあるいはGPTの新モデルがOpus 4.7の直後に非常に早くリリースされる可能性が高いです。ですので、今後数日以内にそれが予想されます。

さて、Opus 4.7は、1つか2つの重要な点を除いて、Opus 4.6と比べてほぼあらゆる面で優れています。これは少し奇妙だと思うのですが、それについては後ほど取り上げます。こちらが4.6、4.7、GPT-5.4、Gemini 3.1 Pro、そして右側にはMythos Previewのベンチマーク比較スコアカードです。Mythos Previewというのは、皆さんがご存知なければお伝えしますが、彼らのギャラクシーブレインインテリジェンスモデルのようなもので、わずか1週間半前にインターネット全体をハッキングしたようなものなんです。

さて、Opus 4.7はOpus 4.6からのステップアップですが、ほぼ半分のステップのようなものなんです。つまり、こちら側がOpus 4.6で、こちら側がMythos Previewだとすると、彼らが提供してくれたのは、4.6とMythosの中間にあたる中間層のようなものなんです。そして、それは単純に彼らが地球上のあらゆる男性、女性、子どもとMythosを共有することに本当に抵抗があるからです。なぜなら、Anthropicのスタッフによれば、彼らはそれを子どもたちに核兵器を与えるようなものだと考えているからです。

それについてどう思うかは人それぞれですが、私としては、Chromeや複数のオペレーティングシステムをハッキングする能力があるというのであれば、彼らがもう少し慎重になるのも理解できます。とはいえ、私としてはその核爆弾を自分の手に持ちたいと思いますが。

ベンチマーク項目ごとの性能比較

では、ベンチマークを簡単に見ていきましょう。ソフトウェアエンジニアリングベンチプロは、ProとVerifiedというもので、ソフトウェアエンジニアリングのようなことをするこれらのモデルの能力をテストするために使われる主要なものの1つです。これは4.6からのかなり大きなステップアップを示しています。53.4%から64.3%になっています。つまり約10%の向上です。

ここで注目すべきは、これがOpus 4.6とMythos Previewの間のステップアップのほぼ数学的に半分であることです。ですので、何らかのベンチマーク最適化が行われているのかどうか、本当のところはわかりません。このモデルが内部でどのように作成されたのか正確には知りません。しかし、これらのベンチマークの多くが文字通り正確に50%のステップアップになっているのは興味深いことです。

Opus 4.7がどのようにトレーニングされたかについての私の見解は、おそらくMythos Previewを蒸留して、少し簡略化し、はるかに高速で優れたハードウェアで動作させたものだと思います。

それはさておき、これがソフトウェアエンジニアリングベンチプロです。ソフトウェアエンジニアリングベンチVerifiedでも全く同じことが見られます。エージェンティックターミナルコーディングで興味深いのは、65.4%、69.4%、そして82%となっています。ここでのステップアップははるかに小さいです。これはおそらく、セキュリティ上の懸念の多くがこの部分から来ているからだと思います。つまり、モデルがbashスクリプトなどを使用し、実際にターミナルを制御して、さまざまなポートにpingを打つようなことをする能力です。ですので、私の一部は、この部分が不均衡に簡略化されているのではないかと感じています。

もちろん、私がこれを言っている根拠は自分の直感以外には何もないので、これはすべて話半分に聞いてください。

次にヒューマニティズラストエグザムがあります。皆さんが馴染みがないかもしれませんが、これはかなり強力にマーケティングされたベンチマークで、AIモデルにできる最も過酷なタスクセットのようなもので、これらのタスクを実行できれば本質的にAGIだというものです。ここでOpus 4.6が約40%のスコアを出しているのがわかります。つまり、10問中4問正解するということですね。Opus 4.7は46.9%、一方Mythosは56.8%でした。つまり、ほぼ半分まで来ているということです。

そして注目すべきは、少なくともAIのタイムスケールでは、半分まで来ているということは、実際には90%まで来ているようなものだということです。なぜなら、通常これらの進展の仕方はこういう感じだからです。50%のスコアを出しているなら、ここにいるわけです。そして現実的には、50%と100%の間のギャップは非常に小さいんです。ですので、私の見解では、これらのベンチマークのほとんどは1世代以内に飽和するだろうということです。それが私の大胆な予測です。

BrowseCompのエージェンティック検索は79.3%です。私にとって非常に興味深いのは、これがOpus 4.6が実際に4.7よりも優れていた1つの状況だということです。おそらく、彼らがこれら2つを互いに関連させて特に制限したからかもしれません。わかりません。もしかしたら、これもまたコンピューターセキュリティ上の懸念の大部分が来ている部分なのかもしれません。しかし、これは実際にエージェンティック検索においてOpus 4.6と比べて低いパフォーマンスを示すことになります。少なくともこのベンチマークに関しては。

スケールドツールユースは、MCP-Atlasで実施している新しいベンチマークだと思います。Mythos Previewには存在しなかったものです。興味深いことに、あるいはMythos Previewでは単にやらなかっただけかもしれませんが、ここでは4.6よりもほんの少し良いスコアを出しています。

エージェンティックコンピューターユースもわずかに良くなっています。Mythos Previewに非常に近いです。

エージェンティック財務分析は本当に興味深いもので、Opus 4.6より4.3%良くなっています。

ああ、もうベンチマークをやるのに疲れてきました。このビデオを作らされた自分が信じられません。

セキュリティとパフォーマンスのトレードオフ

サイバーセキュリティ脆弱性再現は、Opus 4.6より少し悪くなっていますが、これは彼らがより安全にしようとする試みです。

大学院レベルの推論では圧倒的な成果を上げています。つまり、この時点で、このモデルはほとんどの修士号よりも優れているということです。そして、質的に優れているだけでなく、量的にも優れています。人間の脳よりも数千倍速く動作し、そのインスタンスを並列化できるといったことです。これは冗談ではありません。

視覚的推論では、おそらく今日までで最大の飛躍が見られました。ツールなしで、基本的に生のままで69.1%から82.1%まで上昇しました。これは率直に言って驚異的です。つまり、ここでの視覚的推論のステップアップは驚異的です。おそらく、以前はモデルが15/20の視力で物事を見ていたのが、今では19/20の視力で物事を見ることができるようになったような感じだと想像します。

このビデオを見ている眼科医の方々、申し訳ありません。実際にどう機能するかは知りませんが、私の頭の中ではそのようにマッピングしています。

そして多言語Q&Aですが、Mythos PreviewもGPT-5.4もテストされていませんでした。明らかにはるかに良い結果です。

モデル進化の全体像

さて、ここで何が見えているでしょうか。述べた通り、セキュリティに関連していると思われるいくつかの点を除いて、事実上すべての能力でOpus 4.6からの大きなステップアップです。それについてあまりコメントしたくはありませんが、セキュリティはAnthropicがモデルをリリースする際に持っていた正当な懸念だと思います。彼らが単に「ムハハ、世界最大の企業を集めて、彼らにモデルへのアクセスを与えて、残りの私たちを永久に下層階級にしよう」と考えているとは思いません。

歴史上いつでも、企業であれ組織であれ、何らかの集団であれ、誰かを指差して、「彼らは邪悪で私たちを憎んでいるからこんなことをしている」と言う能力があったとき、大抵の場合、私たちは間違っています。通常、彼らが私たちを憎んでいるからやっているわけではありません。彼らは何らかのインセンティブを持っているか、あるいはこのようなものは実際に外に出すべきではないと強く信じているからやっているのです。

それが正しいことかどうかについて判断することはできません。しかし、モデル技術を扱って約7年になる者として、モデルが多くの変化を経てきたのを見てきました。

最初のビジネス、最初のビジネスの1つを始めたとき、私は戸別訪問をしたり、企業に電話をかけたりして、ローカルマーケティングサービスを売り込もうとしていました。当時は1時間に10から15の企業に到達できるくらいでした。今日、Opus 4.6のようなものを使えば、同じ時間内に5,000以上に到達できます。

そして、同等レベルのアウトリーチで到達しているわけではありません。はるかにカスタマイズされた高品質なアウトリーチで到達しているのです。つまり、そのレバレッジの増加について考えてみてください。そして、その上にさらに10倍から20倍のことができる可能性があるものを考えてみてください。

AI技術の実用的展望

本当にそれを地球上のあらゆる男性、女性、子どもに与えることは、かなりの訓練と準備が全体的に伴わない限り、おそらく少し無責任です。

では、この状況がどこに向かっていると思うか。完全に正直に言うと、これは根本的に何も変えません。多くの人がおそらくこれについてビデオを作ったり、ブログ投稿を書いたりするでしょうし、すべてが終わりだというXのスレッドがたくさん見られるでしょう。しかし、これは過去3、4年にわたる着実な段階的進歩なんです。

3年前にAIでできたことは、今でもできます。ただ、今はもう少し雑で緩いやり方でも同じ結果が得られるということです。AIを実際に使うかもしれないことについて考えてみてください。根本的に言えば、あなたが賭けている技術は過去3年ほど存在していました。ただ、当時はその周りにたくさんの足場を組む必要があり、プロンプトに非常に具体的である必要があり、ちょうど正しい方法で尋ねる必要がありました。

一方、今ではプロンプトを生のまま投げ入れるだけで、80%の確率でかなり良い仕事をしてくれます。

では、これは何か新しいアプリケーションを開くのでしょうか。そうではありません。私の主な見解は、AIはもはや物事を可能にするのではなく、単に物事をわずかに収益性の高いものにするだけだということです。そして、以前は収益性がなかったビジネスユースケースのいくつかが、単にAIを投入できるために今では収益性があるというものがあります。

大量のアウトリーチを非常に迅速にパーソナライズしたり、多くの財務分析を非常に速く簡単に実行したりといったことができます。しかし、私たちが無から何かを生み出しているわけではありません。実際にそのポイントに行きたいのであれば、2020年までさかのぼらなければなりません。OpenAIがGPT-3をリリースし、モデルに自然なリクエストを与えて、それを何らかのbashコマンドに変換させることができるようになり始めたときです。

それが私にとってはゼロからイチへの瞬間でした。それ以外のすべては、能力の水平展開に過ぎません。ですので、同じ結果を達成するためにより少ないハーネスを構築する必要があるということです。あるいは、モデルを使ってモデルのためのより良いハーネスを構築して、より良い結果を達成することもできます。

しかし、これらはすべて小さなパーセンタイルの上下のシフトに過ぎません。今、ベンチマークへの執着のせいで、このようなモデルのコモディティ化が見られています。人々は、あるものやこのものでわずかに高いスコアを持つモデルを選んでいます。

しかし同時に、これらのモデルのわずかな個性の違いにより、Opus 4.6を選んでいるのであれば、申し訳ありません、Opus 4.7を選んでいるのが、スケールドツールユースで77.3%のスキルを持っているからで、仮にOpus 4.6が75.8%だとします。そして、これら2つのモデルの間に大きな個性のシフトがあるとします。すでにかなりうまく機能しているものに固執して、その周りにより良い足場を構築する方が、心を再調整したりインフラを変更したりするよりもよいでしょう。

実践的なモデル選択のアドバイス

明らかに、1つのOpusモデルから次のモデルへの移行は大したことではありません。APIの仕様とエンドポイントが全く同じだからです。しかし、GPT-5.4とOpus 4.6の間のようなわずかな違いを考えてみてください。過去数か月間、エージェントコーディングで3〜4%高いスコアを追いかけて、Opus 4.6からGPT-5.4に切り替える人々をたくさん見てきました。しかし、それに対応するために全体のインフラを完全に再調整しなければならないのです。

明らかに、モデルはあるグループから別のグループへの移植を簡単にしようとしていますが、そのようなコモディティ化は残念だと思いますし、おそらく実際に物事を修正するよりも邪魔になっていると思います。

ですので、これらすべてに対する私の見解は、光るものを追いかけるなということです。モデルは良くなり続けるでしょう。それらについて多くのノイズやニュースがあるでしょうが、それは必ずしもあなたがやっていることをすべて止めて、すべてのインフラをOpus 4.7に切り替えなければならないという意味ではありません。

ご覧の通り、これはMythosに向けた限界的なステップアップの改善に過ぎないからです。

これが理にかなっていることを願っています。ニュースの数分以内にビデオを投稿したことで誰かを怒らせてしまったなら、あまり怒らせていないことを願っています。本当にこれをニュースチャンネルにするつもりはありませんが、通知を受け取ったときにオンラインだったので、もしかしたらあまり時間がない人のためにこれを解釈するのに役立つかもしれないと思いました。

素晴らしい1日の残りをお過ごしください。次のビデオでお会いしましょう。さようなら。

コメント

タイトルとURLをコピーしました