Replitの30億ドル評価が示すエージェント時代の到来:自律性カーブの驚異的進化

スタートアップ・VC
この記事は約13分で読めます。

この動画では、Replitが30億ドルの評価額を達成したことを起点に、AI エージェントの自律性が急激に向上している現状と未来予測について詳細に分析している。発表者は、モデルの自律性向上を示すMeterデータを基に数学的回帰分析を実施し、現在の成長カーブが超指数関数的であることを明らかにする。この分析によると、2030年までにAIエージェントは理論上32万年分の作業を自律実行できる能力を持つに至ると予測される。しかし、このような極端な自律性は現実的には意味を持たず、真の課題は人間側のボトルネックへとシフトしていくと論じている。具体的には、タスク定義、アクセス権限、検証、修復、コンプライアンスなどの領域で人間がボトルネックとなるため、これらを解決するエージェント群の構築が急務であると提言している。

Replit’s B Signals the Agent Era: The Autonomy Curve is INSANE
All my links:

AI自律性の驚異的な成長トレンド

最近私が最も興奮していることの一つは、モデルの自律性のトレンドを見ることなんです。この動画を作るきっかけとなったのは、エージェント型コーディング企業であるReplitが現在約30億ドルの評価額になっているというニュースを見たことでした。では、エージェント型自律性がどこに向かっているのか、そしてそれが何を意味するのかについて話していきましょう。

まず簡単に概要をお話しすると、Replitは年間売上1億5000万ドルで30億ドルの評価額を達成しました。ここで指摘したいことの一つは、多くの人がこれらの企業を基本的にはLLMのラッパーだとからかっているということです。しかし、これらの企業はLLMの単なるラッパー以上の価値をスタックに追加しています。

第一に、これらの企業の多くはLLMに依存しない、つまり顧客側で好きなモデルを選択できるということ。そして第二に、エージェント型フレームワークという、より多くの価値をスタックに追加している点です。これこそが真の競争優位性なのです。

過去数年間のジョークとして、すべてのAIスタートアップは基本的にラッパーに過ぎず、競争優位性がないと言われてきました。しかし、もうそうではありません。その上に構築されるこれらのエージェント型フレームワークがますます洗練されているからです。

Replitの自律性進化における10倍成長

この話を始めるきっかけとなったツイートがあります。AmjadはReplitの創設者で、ニュースでよく取り上げられる人物です。彼らが言ったことの一つは、エージェントv1では2分のタスクができ、エージェントV2では20分のタスク、そしてエージェントV3では200分のタスクができるようになったということです。つまり10倍ずつ向上しているわけです。

明らかにここにはX軸がありません。時間経過を示しているだけです。つまり、これは実際のデータというよりもマーケティング用のグラフィックです。

しかし、多くの人から聞いていることの一つは、Meterペーパー(METERのこと、後で詳しく説明します)が実際にはこれらのツールができることを大幅に過小評価しているということです。業界からのプライベートなニュースで、エージェント型フレームワークなしでClaudeが単独でできることについて、本当に驚愕するような話があるのです。

つまり、どんどん良くなっているモデル自体と、その上に構築されるエージェント型フレームワークが同時により良くなっているという双方向の相互作用があるのです。

超指数関数的成長の数学的分析

これが有名なMeterグラフのようなデータにつながります。時間の経過とともに、ベースラインモデルがより自律的になり、より長時間のタスクを実行できるようになる明確な指数関数的カーブが見えます。

幸いなことに、Meterはそのデータを公開しており、私は更新されるたびにそのデータを取得して、ChatGPT ProやGeminiに渡し、そのデータに対する回帰分析を依頼しています。これが最新の回帰分析結果です。

私がGPT-5 ProやDeep Researchなどのツールの助けを借りて行ったすべてのモデリングと予測作業から学んだことの一つは、データを理解しようとするときに最も良い方法の一つは、異なるモデルでテストすることです。ここで言うモデルとは、数学的モデルのことです。AIモデルのことではありませんが、異なるAIモデルを試すことも同様に重要です。

生データを渡して、どのモデルがこのデータに最も適合するかを解明してもらいました。指数関数なのか、超指数関数なのか、対数関数なのか、最適なデータは何なのかを聞きました。結果として、最も急勾配のカーブがデータに最も適合することが判明しました。

一文で答えると、生のMeterデータセット28ポイントにおいて、モデル自律性の最適な傾向は超指数関数、具体的にはy(t) = a * exp(bt^c)という形の拡張指数関数です。ここでtは2019年2月14日のデータ開始以降の年数です。

事実上、私たちは最も急な勾配上にいます。これは単なる指数関数ではありません。二次指数関数でもありません。拡張指数関数なのです。この数学的な影響を完全に理解するほど私は数学に強くないので、ここではAIに頼っています。しかし、カーブが急になるということが要点です。

2030年への予測と現実的制約

この公式を導き出した後、2030年まで予測してもらい、何が見えるかを確認しました。現在は10の2乗、つまり大体100分程度のところにいます。しかし、非常に急速に伸びており、2028年には10の6乗、そして2030年には10の10乗の自律性を見ることになります。

グラフ上ではこのように見えます。フィットは非常に良好です。とても良い適合度です。私の方法論の欠陥として、Twitterで指摘されたことの一つは、サンプルの一部を除外するという異なる方法があることです。サンプルの3分の1や4分の1を保留して、精度をテストするのです。

私はそれを行いませんでした。なので、結果は保証の限りではありませんが、これもAIの助けを借りたナプキンの裏の計算に過ぎません。しかし、そうは言っても、私たちが導出したカーブは以下のしきい値を示しています。

2026年7月1日までに、約1547分、つまり25時間の自律性が期待されます。翌年の2027年7月1日には857時間。これは文脈として、約年間の10分の1に相当します。つまり2027年には1ヶ月以上の自律性です。2028年中頃には59,000時間の自律性。2029年には860万時間の自律性。そして最終的に2030年には1710億分、つまり20億時間または32万3000年です。大きな数字ですね。

現実的な限界と真のボトルネック

大きな数字はさらに大きくなります。ここで指摘したいのは、これらの数字は機能的に無意味だということです。基本的にこれは、これらのエージェント型モデル、エージェント型コーディングプラットフォームが、人類が存在する以前よりも長い時間を要するタスクを50%の精度で成功させることができるようになることを意味します。

そして、それは現実が機能する時間ステップではありません。32万3000年もの間何かをコーディングし続けるのでしょうか?いいえ、それより前にリソースの制限に直面するでしょう。それより前に権限の問題に直面するでしょう。それより前にフィードバックが必要になるでしょう。

つまり、本質的にこれが意味することは、モデルの自律性は今後数年間で、あらゆる意図と目的において機能的に解決されるということです。つまり、より長い時間軸で作業するモデルの成功レベルはボトルネックにならないということです。

では、何がボトルネックになるのでしょうか?しかしまず、面白い質問をしてみました。「このモデルがAI自律性が宇宙の熱死を超える時期を予測できるか計算して、このカーブがいかに馬鹿げているかを示してください。正確な日付を教えてください。」

私たちの勝利の公式を使って、モデル自律性が宇宙の熱死である10の100乗年を超える時期を算出しました。それは26.66年後、つまり2045年10月22日に達すると予測されました。これはシンギュラリティにちょうど間に合います。基本的に、モデル自律性は現在の率で進めば、もちろんそこまで到達しない理由はありますが、現在の率が続けば、自律的に機能できる期間の観点で宇宙の熱死を超えることになります。

シンギュラリティにちょうど間に合うタイミングです。このデータがいかに馬鹿げているかがわかります。しかし、だからこそ機能的に無意味だと言うのです。しかし、実際的には、ボトルネックが移動することを意味します。

長期実行における成功率の数学的直感

ボトルネックについて説明する前に、最近出てきた論文を共有したいと思います。これはプレプリントなので、割り引いて考える必要があります。しかし、この論文の中心的なアイデアは「収穫逓減の錯覚:LLMの長期実行測定」です。

核心的な洞察の一つ、そしてこれは私が独立して到達したものでもあります。だからこそこの論文に食いつき、これは共有する価値があると言ったのです。それは、ワンショットタスクの90%成功率から95%成功率に向上したとき、成功率がわずか5%向上しただけだと思うかもしれません。いいえ、実際には成功率を倍増させているのです。失敗率を半分に削減しているからです。10%で失敗していたのが、5%でしか失敗しなくなったのです。これが多くの人が持っていない数学的直感です。

90から95%を見ただけでは分かりません。彼らが発見したのは、90%成功率から95%成功率へのその最後の数パーセントポイントを獲得すると、長期実行が非常に非常に急速に向上するということです。

私は過去にこの種の推論について非常に懐疑的でした。私のチャンネルを長く見ている人は覚えているかもしれませんが、私はシグモイドカーブについて話していました。「シグモイドカーブに注意してください。収穫逓減に直面するでしょう」と。

しかし、それを言い始めてからの過去1、2年間で、それは真実であることが証明されませんでした。人々が言ったことの一つは、「別のシグモイドカーブがあるでしょう。飛び石のように、一つのシグモイドカーブの後に別のものが続く」ということでした。そして、それがまさに私たちが見てきたものです。

この場合、最初のシグモイドカーブは単なるモデルスケーリング、より多くのパラメータ、より多くのデータでした。私たちが発見した2番目のシグモイドカーブはテスト時間計算でした。私たちが持つ3番目のシグモイドカーブは長期実行または長期実行でした。そして4番目のシグモイドはおそらく何か他のもの、おそらくより多くの監督や合成データなどでしょう。

壁にぶつかっているように感じるたびに、実際にはそうではありません。これらのAIをより使用する方法についての数学的探索空間は機能的に尽きることがないため、別の機会を思いつくのです。

人間の脳が必要とするデータ量と人間の脳が必要とするエネルギー量を見ると、それは事実上、私たちの現在の下限です。人間の脳が私たちのAIよりもはるかに少ないデータとエネルギーで汎化できることを私たちは知っています。

私たちの脳がそれを行うことができ、私たちの脳は魔法ではありません。まだどのように機能するかわからないという意味では魔法ですが、明らかに機能しています。したがって、私たちはまだ人間の脳のデータとエネルギーの両方の効率の何桁も上にいるのです。

おそらく、今後10年か20年の間に、効率の向上と知能の向上のために、8、10、20、50、もしかすると100以上のシグモイドカーブがあるでしょう。

人間がボトルネックとなる未来

では、コーディング、エージェント型自律コーディングがボトルネックにならないとしたら、何がボトルネックになるのでしょうか?モデル自律性は他のボトルネック、すなわち人間をすぐに追い越すでしょう。私たちがもうすぐボトルネックになります。多くの場合、すでになっています。

まず、タスク仕様です。人間がユーザーストーリーやケースなどを書くのではなく、AIにタスク定義を引き継いでもらう必要があります。とにかく、彼らはすでにそれがかなり得意です。適切な入力が必要なだけです。

次に、アクセスと権限です。適切なリソース、ロールベースのアクセス制御、十分なデータなどを持っているかということです。サンドボックスに閉じ込めておくことは、実際には彼らの足かせになるでしょう。つまり、独自の小さなコーディング環境に閉じ込めて、エージェントにリソースへのアクセスを要求し、別のエージェントが必要に応じてそれらのリソースを許可または拒否する能力を与えないということです。

そうすると、「申し訳ありませんが、他のリソースを待っているか、人間の承認を待っているので、お手伝いできません」という状況になってしまいます。そして、それは検証につながります。

誰が出力を検証し、統合するのでしょうか?検証エージェントが必要です。単体テスト、統合テストなどを行うエージェントが必要です。それがなければ、人間が手動で物事を統合するのを待つことになってしまいます。

もちろん、手動統合は特に大きなショップでは必ずしもしばらくの間存在していませんでした。完全に自動化されたDevOpsパイプラインがあり、自動的にテスト、デプロイ、ステージングなどを行うことができるからです。

とにかく、すべてのショップがそうしているわけではありません。ですから、検証やDevOpsエージェントを構築することには多くの利益があります。

次に修復です。何かがうまくいかない場合、バックアウト戦略が必要です。SREエージェント(サイトリライアビリティエンジニアエージェント)などを持つことができます。

コンプライアンス、法的および規制上の摩擦。また変更管理、変更が適切に文書化されていることを確認することなども重要です。これも、すべてがAPI駆動になるため、エージェントが行うのに最適です。

安全性には、サイバーセキュリティ、さらにはX-riskエージェントも含まれます。「これをデプロイすると、人類を脅かすことになるか、サイバーセキュリティの脆弱性を提示することになるか」と言うエージェントを構築できます。

そして最後に、あるサイロから別のサイロにメッセージを運ぶ小さなハトのような調整エージェントです。これらはすべて、エージェント自律性が最大の問題となる2027年までにボトルネックとなるでしょう。

企業が準備すべき未来戦略

もしビジネスとしてカーブの先を行きたいなら、これらの方向で考え始め、これらのボトルネックをどのように軽減できるかを理解してください。わずか数年以内に、1日あたり文字通り何十億行ものコードを1ドルあたり数ペニーで書くことになるからです。

コードが極度に豊富にある場合、そのコードをどのようにテストしますか?そのコードをどのように統合しますか?これが主要なことです。私たちはマトリックスをコーディングアップしています。無限のソフトウェアがもうすぐやってきます。

企業は今からこの未来に向けて準備を始めるべきです。ボトルネックはコードの記述から、作業の調整、リスク管理、そしてソフトウェアを混沌とした外の世界に結合することにシフトするでしょう。

適切なCEO計画は、企業のための自律性対応オペレーティングシステム、つまり瞬時に近いコードを吸収し、それを安全で観察可能で可逆的な本番での変更に変えることができるプラットフォーム、プロセス、ガバナンススタックを構築することです。

第一に、スループット。コード生成を豊富なものとして扱い、オーケストレーションが希少になることを計画してください。それがすべてをどのように組織するかという新しい希少なボトルネックになります。

次に実現。ソフトウェア定義すべてに移行して、エージェントがチケットや会議ではなく、APIとポリシーを通じて変更を実行できるようにします。エージェント同士で会議をしてもらいましょう。人間をループに入れる必要はありません。

しかし、必要なのはダッシュボードです。文字通り何万ものエージェントが作業を行うため、人間がすべてのエージェントを監視できるようにする必要があります。メッセージキューのように監視することになります。

実際、AMQPに配置するのがおそらく最良の方法でしょう。AMQPは自動メッセージキュープロトコルで、アプリケーションが互いに通信する方法です。実際、これは私が認知アーキテクチャで最初に試したことの一つです。エージェントはルーティング可能なメッセージだからAMQPを使用すべきだと言いました。

そして、これらは何でしょうか?メッセージで話しているのです。とにかく、申し訳ありません、詳細に入り込みすぎました。

チェックポイント、ガバナンスを実行可能にします。ポリシー、承認、リスクリミット、監査は、外部委員会としてではなく、配信機械内でコードとして実行されなければなりません。これが最大の課題の一つになるでしょう。

最後まで見てくださってありがとうございます。このような内容をもっとご希望でしたら、First Moversで私のコースを公開しています。それだけでなく、他にもたくさんのコースがあります。私だけではありません。first movers.ai-shapiroに行くか、サインアップコードDave Shapiroを使用して割引を受けてください。最後まで見てくださってありがとうございました。また後でお会いしましょう。

コメント

タイトルとURLをコピーしました