Anthropicのベンチマークがすべてを変える—ほとんどの人が見逃す理由

Anthropic・Claude・ダリオアモデイ
この記事は約10分で読めます。

本動画では、AI研究評価機関METRが発表した最新ベンチマーク結果を通じて、AIエージェントが超指数関数的な成長曲線を描いていることを解説する。Claude Opus 4.5は約5時間の人間相当の作業を50%の成功率で実行できるようになり、この能力は4〜4.5ヶ月ごとに倍増している。この超指数関数的成長は、AIが自己強化的なフライホイール効果に入ったことを示唆しており、2025年が「最後の普通の年」となる可能性が高い。2026年以降、労働市場は根本的に変容し、AIエージェントに1週間分の作業を適切に委譲できるスキルが競争優位性の鍵となる。従来の職種区分やキャリア進行の概念は再定義を迫られ、すべての職業人が成果志向とオーナーシップ意識を持ってエージェントチームを戦略的に管理する能力を求められる時代が到来する。

Anthropic's New Benchmark Changes Everything—Most People Will Miss Why
My site: Story w/ Prompts:

AIエージェントの超指数関数的成長とその意味

私たちはAIエージェントの超指数関数的なタイムラインの中にいます。これが何を意味するのか、そしてなぜ私たち全員がこれに注意を払うことが極めて重要なのかを説明したいと思います。

METRはモデル評価と脅威研究を行う企業です。非営利団体であり、モデルのパフォーマンスを理解することに特化しています。彼らはAIモデルが一度にどれだけの時間、有用なエージェント作業を行えるかを示すグラフを作成することで有名です。

これは少し理解しにくいグラフなので、本当にシンプルに説明します。基本的に、彼らはタスクを取り上げて、人間がその作業タスクを行うのにかかる時間を測定します。そして、AIが少なくとも50%の成功率でそのタスクを実行できるかどうかを確認したいのです。なぜ50%かというと、どこかで数字を設定する必要があったからです。彼らは80%でも測定しています。これについては後ほど説明します。

METRベンチマークの特徴と重要性

METRが重要なのは、上限がないからです。多くのベンチマーク、例えばエンジニアリング関連のSWE-benchなどは100%で上限に達します。私たちはすでに上の方にいて、91から93に進んでももう大した違いはありません。モデルがどう変化するかの感覚を得られないのです。

METRは違います。なぜなら、このグラフには上限がないからです。どんどん多くの作業を続けられるため、超指数関数的な進歩を示すことができます。2025年の最大の議論の一つは、私たちはAIにおいて指数関数的なタイムスケールにいるのか、それとも指数関数よりも速く増加する超指数関数的なタイムスケールにいるのかということでした。

私たちは超指数関数的なトレンドラインにいるようです。そう思わせる要因の一つが、Claude Opus 4.5の最新結果です。これは4時間以上、4時間45分、ほぼ5時間の人間相当の作業を50%の成功率で行うことを示しています。

80%の基準値も測定されており、Opus 4.5では27分から28分です。それほど遠くないと思うかもしれませんが、1分、2分、10分、30分だった時期からそれほど前ではないことを忘れないでください。そして今、私たちはほぼ5時間に到達しています。これが超指数関数的カーブのポイントなのです。

倍増速度と今後の予測

私たちは現在、4〜4.5ヶ月ごとの倍増率にいます。ですから、もし50%完了で、時間軸がほぼ5時間であれば、第1四半期末までに10時間、第2四半期末から第3四半期にかけて20時間、そして年末までには40時間かそれ以上になる可能性があります。

だからこそ、私たちはこれに注意を払わなければなりません。超指数関数的な成長は、AIが自己強化的なフライホイールに到達したことを示唆しています。そして実際、それはモデル開発者たちから聞こえてくる話です。だからこそ2025年が最後の普通の年だったのです。

2026年以降、AIから本当に奇妙な進歩が見られるでしょう。AI自体がAIシステムを強化し始めているからです。私たちはAIシステムのトレーニングを支援するためにAIを導入しています。これはますます自動化されていきます。AI自体が成長を助ける能力を持つようになり、プロセス全体がスピードアップします。そのすべてが、上限のないこれらの難しいタスクで進歩を続けることを可能にするのです。

有意義な仕事の定義と委譲能力

これが重要なのは、本当に私たちが有意義な仕事をする能力が、AIが一定期間にわたって行える有用で高品質な仕事を定義できるかどうかによって決まるからです。あなたには1週間かかるような作業がAIのためにありますか。多分税金の処理かもしれません。分かりません。しかし、それがますます問題になっていくのです。

もしそれがなければ、問題はそこに到達するために何が必要かということになります。その仕事を割り当てるスキルを獲得するために何が必要でしょうか。超指数関数的な世界では、私たちが学ぶ必要のあるスキルも超指数関数的だからです。

1月、2月、3月に今エージェントに仕事を割り当てる方法を理解する人々は、エージェントがはるかに難しいことができるようになったときに、エージェントに仕事を割り当て続ける方法を学ぶのがはるかに簡単になります。一方、待って「追いつこう。第2四半期か第3四半期、来年に予定している。それが私のAI四半期だ」と言うなら、頑張ってくださいという感じです。

そうはいかないのです。あなたの周りを走り回っている人々がいるでしょう。なぜなら彼らはエージェントに1週間分の仕事を割り当てることができるからです。そして、エージェントに1週間分の仕事を割り当てて、2つか3つ立ち上げることができれば、それがあなたをどれだけ生産的にするか見てください。あなたは人々の周りを走り回ることになるでしょう。

べき乗則の世界とスキル開発の重要性

それが私たちが生きることになるべき乗則分布の世界です。超指数関数はべき乗則を生み出します。べき乗則というのは、私たちが住む世界が正規分布していないという考え方です。正規分布の世界では、ほとんどの人が平均にいて、少数の人が端にいます。アインシュタインははるか向こうにいます。しかし、べき乗則の世界では、ごく少数の人々が途方もない量のことができるようになるのです。

そしてそれは、必ずしも彼らがそれをするための多額のお金を持っているからではありません。彼らがそれをするスキルを持っているからです。AIは人工知能に関連するスキル開発を不釣り合いに報酬するでしょう。それ以外のすべてで、人々は牽引力を失い始めるでしょう。

もしあなたがキャリアに影響を与えたいと考えているなら、2026年には自分の職種の伝統的な要件をあまり見ず、この伝統的な職種分野でエージェントが1週間有意義な量の仕事ができる場所と、その仕事を定義して割り当てる方法を確実に知り、それに責任を持たせる方法を知り、優れた品質基準を置いてその仕事で優れたものがどのようなものかを知り、介入してエージェントを軌道に乗せ続ける方法を知り、エージェントシステムを定義してセットアップするために必要な技術的基盤を持つように自分を設定する方法をもっと見るべきだと思います。

職種を超えた技術スキルの拡散

これは私たち全員にとってますます関連性が高くなります。技術スキルセットは職種ファミリー全体に広がっていきます。非技術的なスキルセットも職種ファミリー全体に広がっていきます。伝統的にコードだけをやればよかったエンジニアは、今やビジネスの流暢さと顧客の流暢さを持たなければなりません。システムを設計する際に優れた品質基準を持つ人でなければならないからです。

率直に言って、彼らは今や非技術者がコードを貢献できるシステムを設計しなければなりません。ですから、エージェントが時間をかけて仕事をする能力というその一つのシフトだけで、私たち全員への影響が何倍にもなるのです。より長く働くエージェントを持つということは、私たち全員の仕事が永遠に変わることを意味します。

あなたは私が誇大広告屋のように思うかもしれません。これは私が誇大広告をしているのではありません。これは私たちが超指数関数的なカーブにいるという現実について話しているだけです。人間は超指数関数的なカーブを見積もるのが苦手です。ですから、本当に具体的にしたいのです。

もし私たちが5時間で4ヶ月ごとに倍増する場所にいるなら、全員の仕事が変わらない方法はないと思います。4月までに10時間になります。7月か9月までに20時間になります。12月までに40時間になるかもしれません。そうでしょう。多分そうではなくても、とにかくクレイジーなことになるでしょう。

2026年の中心的問い:週単位の委譲能力

あなたは1週間分の仕事を委譲できますか。それが2026年の問いです。私たち全員が多くを手放さなければなりません。キャリア進行についての伝統的な理解を手放さなければなりません。職種ファミリーについての伝統的な理解を手放さなければなりません。職種ファミリーが何を知っていて何を知らないかについても。

私たちは成果に執着し、オーナーシップに執着しなければなりません。未来の仕事は、オーナーシップと成果に執着する人々を報酬するでしょう。なぜなら、そこに人間の価値が現れるからです。私たちが作られたものが実際に人々にとって関連性があり、実際に有用で、実際に良いものであることを確認するときです。ただのバイブコーディングされたがらくたではありません。

バイブコーディングされたがらくたはたくさんあるでしょう。実際、2026年には100倍になると予想しています。なぜなら、エージェントにたくさんのひどいことをするように頼めるからです。エージェントの仕事が価値があるかどうかを決めるのはあなた次第になるでしょう。

あなたがエージェントを割り当て、エージェントが時間とともに複利的に増える有意義な仕事を成し遂げるために良い仕事をしているということです。戦略的な報酬はかつてリーダーに蓄積されていました。戦略は今や個人的なものです。なぜなら、あなたは効果的にエージェントチームの戦略的マネージャーであるか、2026年にはそうなるからです。

個人レベルの戦略的マネジメント

あなたは自分でエージェントを作ることができます。おそらくあなたにそれらを販売するスタートアップがあるでしょう。しかし、いずれにせよ、あなたのために働くエージェントのチームを持つことになります。あなたは彼らをどう管理するか知っていますか。どうリードするか知っていますか。時間とともに複利的な利点を開発するようにどう駆り立てるか知っていますか。

これはかつてディレクター以上への質問でした。今は誰にとってもです。誰もがこれをできる必要があり、できる人々は何でもできるように見えるでしょう。彼らは自分自身のドメイン専門知識を活用し、そこから影響範囲を拡大できるため、その幅は信じられないものになるでしょう。

私が言いたいのは、あなたが持っていない深いドメイン専門知識を必要とする何でもできるという意味ではありません。エージェントを追加するだけでは到達できない本当の価値がまだあるでしょう。

ドメイン専門知識の価値増大

例えば、もしあなたが弁護士で何十年もの経験があるなら、エージェントは法律専門職とあなたの働き方を変革するでしょう。しかし、弁護士ではない私が入ってきて大手法律事務所のために仕事をして、何十年もの経験を持つ弁護士とまったく同じ品質の仕事を最終的に成し遂げられるほどには変革しないでしょう。

ビジネスを深く理解することへの報酬があり、それはAIエージェントを有用な目的に向ける能力に現れるでしょう。ですから、エージェントが仕事をするから私たちは何もしないと言っているように見えるかもしれませんが、私が本当に言っているのは、私たちのドメイン専門知識がますます価値があるということです。しかし、2026年に行く必要がある場所に到達するために、それを本当に賢く、本当に異なる方法で活用しなければなりません。

そしてそれは私たち全員のスキルセットを変えるでしょう。私たち全員が一緒に学ばなければなりません。私たちはこのワークフローと労働力の変革を以前に経験したことがありません。ですから、私たち全員がただ飛び込んで、一緒にそれをする方法を見つけなければなりません。

超指数関数的成長の現実性

しかし、私はそれが現実だと思います。それが来ると思います。そして、鍵はその超指数関数的グラフだと思います。Opus 4.5は5時間に到達した最新のものに過ぎません。最後ではありません。Claudeが特別な独占権を持っているわけではありません。

私たちはこれをGeminiから見るでしょう。ChatGPTからも見るでしょう。他のモデル開発者からも見るでしょう。私たちは2026年にエージェント作業時間から指数関数的な成長を見続けるでしょう。そしてそれは私たち全員が仕事をする方法を変えるでしょう。

コメント

タイトルとURLをコピーしました