AIは2030年までに完全自律型でAAAゲームをリリースするだろう！

15,544 文字

AI Will Ship a AAA Game AUTONOMOUSLY by 2030!

いつAIが人間との関わりを一切必要とせず、プロンプトと最終承認だけでAAAゲームを制作できるようになると思いますか？これは私が解決しようとしていた問題ではありませんが、プロセス全体をお見せします。まず重要なことを先に言うと、私とChatGPT-3が予測するところでは、2030年頃には一般的なプロンプト、つまりその頃に出ているであろうChatGPT-7や8などを使って（おそらく別の名前になっているでしょうが、OpenAIの命名規則は素晴らしいですね）、あなたの身近なAIが一回のプロンプトだけでAAAクオリティのゲームを制作できるようになるでしょう。
そこに至るまでの計算過程をお見せしましょう。かなりの計算量があります。AIの加速度はまだ加速していますが、徐々に緩やかになっています。それを示す計算も行いました。しかし、2026年には、AIが自律的にShopifyのストアフロントを設定できるようになると予測しています。これは今年末までに実現する可能性もあるので、技術的には2026年1月頃といったところでしょうか。総人間作業時間は、プロンプトを入力するだけの約5分です。
2027年には、機械の自律性が技術書全体をスライドや教育コンテンツも含めて独自に執筆できるレベルに達すると考えています。これは素晴らしいことで、私は世界に教えたいことがたくさんあります。ビデオ合成、音声合成、技術研究などができるようになります。今日でもほとんどの部分は様々なツールで実現できますが、35章の技術書となると、現時点ではまだかなりの人間のフィードバックが必要です。そのため、完全に自律的になるまでに2年かかると見ています。
2028年には、フル機能を備えたモバイルバンキングアプリが可能になると予測しています。これは、03と私が予測している基盤となる機能に基づいた興味深い予測です。2029年には、インディーゲーム全体を一つのプロンプトだけで作れるようになり、その翌年の2030年には、ダブルAまたはAAAのオープンワールドタイトル（No Man’s SkyやCyberpunk 2077のような）を制作できるようになります。
では、この結論に至るために使用した数学と科学の解説に時間を割きましょう。準備したスライドをお見せしますが、スライドには面白い部分が少し欠けているかもしれません。今日は「ジャーク」（加加速度）について多くを学ぶことになります。
ジェンセン・フアンは昨年末に「ムーアの法則の二乗」と言いましたが、実際の計算はむしろ「ムーアの法則の三乗」に近いものでした。その計算方法をお見せしますが、基本的には彼の発言は誇張ではなく、加速度が加速していることの観察でした。
ジャークに馴染みがない方のために説明すると、微分の順序があります。位置は時間と空間における現在地です。速度は位置の時間変化率なので、毎秒10メートル移動するようなものです。加速度は速度の変化率で、重力は毎秒毎秒9.8メートルの加速度です。そしてジャークは、加速度も変化している場合のものです。加速度の係数自体が変化するなら、それがジャークです。
大きく考えると、AIの予測が常に保守的すぎた理由は、みんながAIは単なる加速度だけを経験していると考えていたからです。ムーアの法則自体は加速度です。18ヶ月ごとに倍増するので、進歩率、つまり1ドルあたりのフロップス数は加速しています。しかしAIでは、その基本的な加速度の上に複数の要素が加速しています。従って、私たちはジャークを経験しています。
では「ジャークが加速したらどうなるか」と思うかもしれませんが、それは「スナップ」「クラックル」「ポップ」と呼ばれます。計算してみましたが、光学コンピュータや量子コンピュータなど、根本的に新しいパラダイムがない限り、スナップは見られないと思います。いずれにせよ、ジャークは私たちが見過ごしていた多くを説明します。
まずデータを見ていきましょう。これがすべての発端となったグラフです。これはMER（メーター）データに基づいており、AIが人間の助けなしで実行できるタスクの時間的長さが指数関数的に増加していることを示しています。しかし、2024年と2025年の過去18ヶ月で、その地平線は7ヶ月ごとに倍増していたものが、今では4ヶ月ごとに倍増しています。これがジャークの好例です。AIが自律的にタスクを実行できる長さがジャークしている、つまり加速度が加速しています。
これが全ての発端で、03との会話の全体を最後にお見せします。もし本当に詳細に入りたい人は最後まで見てください。ここではデータをきれいに前面に出します。
これは最初の微分、つまり最初の加速度の種類です。120年間のムーアの法則は減速していません。物理学や熱力学の基本的限界には全く近くありません。これが最初の計算基盤です。
次に、訓練フロップスが指数関数的に増加していることがわかります。これは主にお金の関数です。基本的にAIにより多くのお金を投入すれば、それだけ多くのフロップスが投入されます。これは必ずしも何か根本的なものを示すものではありませんが、データとしては良いものです。
根本的な加速について言えば、例えばムーアの法則の各ステップは計算科学の根本的な進歩です。集積回路の時代では、これはすべてシリコンウェハー技術です。それ以前はトランジスタ、真空管、電気機械式のリレー、そして純粋な機械式計算でした。計算方法自体に別のステップチェンジがない限り、この軌道上にとどまります。私たちはこの軌道に何十年もいます。
しかし、集積回路から光学や熱力学などに切り替わる可能性もあります。いずれにせよ、それは私たちが立てている仮定に組み込まれています。ムーアの法則は固定の仮定だと基本的に言っているからです。計算基盤は変わるかもしれませんが、それがトランジスタ密度を実際に変えるかどうかはわかりません。それとも1フロップあたりのコストかもしれません。
これは定額あたりの1秒あたりの計算数です。基本的に時間が経つにつれて、1ドルあたりの計算量が増えるということです。これが主要な生成関数です。1ドルあたりにどれだけの知能を得られるか、それが私たちが本当に測定しているものです。
前述のように、これはお金の関数です。AIのスケーリング自体にはアルゴリズム的なものも必要ですが、お金の投入が主要な制約です。
次に、AIベンチマークが飽和点に近づいていることを示す、最近誰もが見たチャートです。飽和とは人間レベルのパフォーマンスを意味しますが、多くのものが人間レベルのパフォーマンスを超えています。これはお金の問題だけでなく、基礎的な改善を示すものです。画像認識、読解、コード生成などがあります。
これもジャークの良い例で、初期に始まったAI問題はスケールアップに時間がかかっていましたが、最近ではより速くスケールアップしています。進歩の速度が加速しています。このチャートにもジャークが見られます。タスクが始まってから完全に飽和するまでの平均時間から見ると明らかです。読解力は2016年にほぼ0だったのが、数年で人間を超えました。これもジャークの例です。
次に、AIは7ヶ月ごとに確実により自律的になっています。これはメーターデータで、7ヶ月を示していますが、2024年以降だけを見ると実際には4ヶ月ごとになります。これは以前のグラフに戻りますが、加速が起きているリアルタイムの証拠が見られます。
指摘しておきたいのは、これは50%の成功率なので、100%の成功率で常にできるわけではないということです。また、必ずしもAIが人間と同じくらいの時間がかかるわけではありません。タスクごとに人間がどれくらいの時間がかかるかを見て、AIが自分でそれをできるかどうかを見ています。AIが4時間完全に自律的だったわけではなく、人間がそれをやるのにかかる時間です。AIはすでに人間より速いです。これはこのデータについて指摘すべき重要なことです。
最後のいくつかだけを見ると、それはジャークしています。これが実証的データの最後です。他のすべては私の作業と主に03によってモデル化されたものです。
ケタ違いの予測について話しているとき、例えば2028年までに完全なバンキングアプリができるとか、2030年までに人間の承認だけでAAAゲームを出荷できるとか、私たちが見ているのはこのようなものです。
まず、これはフォーチュン500の生成AIの採用率です。現在は70%で、年間約6%の成長率です。これを外挿すると、フォーチュン500の生成AI採用の飽和は2029年までに約90%に達します。2028年には近く、2029年から2030年には100%に近くなります。
このチャートについて指摘したいことは2つあります。1つ目は、これはAI能力の遅行指標です。フォーチュン500企業は新技術に恐怖心を持っているからです。これはまた非常に低いしきい値でもあります。これは基本的に、少なくとも1つの機能に公式に生成AIを使用しているかどうかを言っています。現在、フォーチュン500企業は少なくとも1つの機能に生成AIを使用していますが、30%は公式に生成AIを全く使用していません。飽和レベルは時間とともに上昇し続けますが、2028年、2029年、2030年あたりに達すると、飽和は超飽和の点に達します。
インターネットとイーサネットの歴史を考えてみてください。これは実際に私たちが飽和点をどこに推定したかの方法の一つです。イーサネットの歴史を見ました。イーサネットは、Cat5やCat6ケーブルのことですが、毎秒100メガビットに達するまでは普及していませんでした。それ以上のビットはイーサネットをデフォルトのローカルエリアネットワーク技術としてさらに説得力のあるものにしました。
基本的に私たちが言っているのは、2028年までに生成AIは非常に説得力があり、イーサネットがネットワーキングのデフォルトの選択肢になったのと同じように、デフォルトの選択肢になるだろうということです。それがAI能力と堅牢なビジネス展開の大きな転換点を見ることになる時です。
続いて、すべての歴史的データに基づいて、深層ニューラルネットワークの現代史全体を見て、時間とともにジャーク係数を推定しました。これは実証的データに基づいています。後でその計算をすべてお見せしますが、今は、ジャークが減速していることがわかります。かなり大幅に減少しています。尺度は少し誤解を招くかもしれません。ゼロではありませんし、予測がどこに向かうかをすぐにお見せします。要点は、ジャークは深層ニューラルネットワーク時代の初めから減少していると推定したことです。始めが最も速かったのですが、減速しています。それでもまだジャーク係数があります。つまり、加速度はまだ加速していますが、加速度の加速は減速しているということです。
これが私が何年も前から話している、シグモイド曲線です。しかし、「我々は停滞するだろう」と言うシグモイド曲線ではありません。私たちは通常の指数関数に向かう傾向があるということです。歴史的傾向に基づいて、AI能力のジャークの減少をモデル化しています。加速度の加速度は2026年頃には減少し始めます。つまり、加速度の加速度が消えて普通の加速度だけになるまでにあと1年ほどかかります。もちろん、別のブレークスルーがないことを前提としています。
多くの方が指摘するように、ステップ関数のステップ関数かもしれませんが、新しいスキーマでも歴史的データを見ると、ジャークの減少が見られます。最も速いAI加速の時代は今後1年か2年で終わるかもしれません。しかし、その後も通常の指数関数が続きます。価値提案が上がり続けないということではなく、すぐにお見せするのが楽しみです。
これがジャークを説明する最も簡単な方法です。ジャークとは、知能のコストが下がっていることです。トークンコストは指数関数的に下がり、一方でトークンあたりの効用は指数関数的に上がっています。GPT-2やGPT-3は特に賢くなく、1000トークンあたり6セントかかっていましたが、今ではその金額で100万トークンを買えます。トークンあたりのコストは実質的に些細なものです。
GPT-3のトークンを初めて受け取ったとき、「40,000トークンがあります」と言われましたが、それは当時大きなプレゼントでした。実験用に40,000トークンがありました。数ヶ月後、ファインチューニングジョブは10万トークンになりました。
さて、トークンコストが下がるにつれて、それらはより賢くなりました。2020年のGPT-2トークンやGPT-3トークンは、元のChatGPTトークンに比べるとかなり愚かでした。ChatGPTトークンは総効用の面でGPT-2やGPT-3単体よりも約1,000倍から3,000倍賢くなりました。そしてそれは上がり続けています。
このグラフの下落を説明しているのかわかりませんが、推論モデルが導入されたからだと思います。推論モデルは、より多くのトークンを使用するため少し高価です。そのため、トークンあたりの効用が少し薄まっています。これが下落の原因だと思います。これは一時的なものだと思いますが、トークンあたりの効用が減速し始めるシグモイド曲線が明らかに見られます。
この逆転が永続的なトレンドだとは思いません。それは洗練されて、推論トレースは将来のモデルに組み込まれるようになるので、推論が見えなくなるでしょう。
さて、これがグランドフィナーレです。これが、見たときに「私たちが見ているすべてに基づいて、AIが実際に何をできるようになると予想しているのか」と言った大きなデータです。私たちは、ベンチマーク飽和やタスクの複雑さなど、知能からのすべてを1ドルあたりの効用に織り込もうとしました。そして時間とともにプロットしました。
現在の中程度の予測に基づくと、中程度のラインは、今後数年でどうなるかを示しています。このグラフが何を示しているかについて直感を与えましょう。2020年、これはGPT-2からGPT-3への移行です。オリジナルのGPT-3、古き良きDaVinciモデルがリリースされました。トークンあたりの効用がNLPよりも少し高かったのですが、NLPはまだずっと安価でした。NLTKは電卓で実行できましたが、GPT-3は電卓では実行できませんでした。そのため、1ドルあたりの効用はNLTKなどの他のNLP処理技術よりも実際には低かったのです。
そのため、GPT-3は基本的なNLPタスクには使う価値がありませんでした。リスト生成、要約、いくつかの非常に小さなタスクには依然として優れていましたが、最初は4,000トークンに制限されていたことを覚えておいてください。そして2,000トークン、最終的に4,000トークンウィンドウを得たとき、それはGPT-3時代には大きなことでした。4,000トークンウィンドウは3.5まで得られなかったかもしれません。覚えていません。長い時間が経ちました。今では百万トークンウィンドウがあります。たった5年後です。
関数が上がるのを見てください。相対的な効用が10、100、1,000、10,000、100,000、100万、1,000万などに上がっています。GPT-3がどこにあったか、数年後にはChatGPTがあり、プレーンなChatGPTはGPT-3より無限に役立ちました。だから爆発的に広がりました。有用性のオーダーが上がりました。
数年後の2024年は、いくつかの統合がある時でした。ところで私が言及しなかったのは、RAG、ツールの使用など、すべての統合です。これらは1ドルあたりの効用を増やし、実際に効用を増やす最も安価な方法の一つです。
2025年、私たちは推論モデルを導入しました。これは約10の3.5乗なので、約3,000倍、GPT-3よりも1ドルあたりの効用があります。この計算が合っているとすれば。
先に進むと、5つのシナリオに分けました。最悪のシナリオは、ムーアの法則を含むすべてのパラダイムが消えるというものです。おそらく起こりません。最悪のシナリオは0.1%未満の確率です。TSMCが閉鎖し、Nvidiaが閉鎖し、OpenAIが閉鎖するなど、ほぼすべてが悪い方向に行けば、2035年までにAIは今日より30倍良くなるだけでしょう。
悪いケースのシナリオは、基本的にジャークに関するすべての仮定が誤っていることが証明され、また、私たちが特定したすべてのトレンドの低いエラーバーに当たるというものです。前述のように、私たちはたくさんのデータを持っています。基本的に、これらすべてが少しずれていて、非常に悲観的な見方をすれば、2035年までにAIは今日より300倍強力になるでしょう。
中程度のものは3,000倍です。しかし、私は間違っているかもしれません。いくつかのオーダーが上がっているのがわかります。今10の3.5乗にいますが、10の5乗をちょっと超えています。つまり、今日よりもさらに1.5オーダー高いです。これは約、ChatGPTと今日の間のジャンプです。中程度のシナリオでは、10年後に別のオーダーになります。基本的に、通常のAIは、2年前のChatGPTと比べて03がそうであるように、さらに良くなるでしょう。
より楽観的なシナリオでは、正直言って、結果を見て、楽観的なシナリオが実際にはこれらのアークを見ると、はるかに現実的だと思います。そうすれば10の6乗を超えます。今は10の3.5乗なので、今後15年で、ジャークがジャークし続けるのは全く可能性があります。楽観的なシナリオはジャークがジャークし続け、さらに多くの改善層を見つけることです。そうすれば、今日持っているものより約30万倍良いものを見ることになります。
そして超楽観的なものも計算しました。それは「スナップ」です。スナップはジャークが実際に効用の面で何が起こるかを過小評価しているというものです。そうすれば、今日のAIより約500万倍強力になるでしょう。それが最初にお見せした予測に至った方法です。
私のリンクツリーのプラグを少し紹介します。時間をかけませんので、調べたい方は調べてください。
戻って細分化すると、これは実証的データに基づいて予測していることです。2026年には、エージェントが主流になります。最初のコンピュータエージェントは今日主流になりつつありますが、それは先端ユーザー向けです。2026年に起きることは、100万トークンウィンドウがすべてのプラットフォームで普及することです。Geminiはすでにそこにあり、OpenAI、Anthropicもそれほど遅れていません。トークンは引き続き安くなります。
今年末、2025年末か2026年には、4時間の自律タスクで50%の成功率になります。つまり2026年のどこかで、AIは必ずしも長い時間がかかるわけではなく、30秒か数分かかるかもしれませんが、人間なら約4時間かかるようなタスクを完全に独力でこなすことができるようになります。それは画像分類器の訓練のような作業です。経験豊富な人間が画像分類器を訓練するのを、AIは2026年末までに自分でできるようになるでしょう。
フォーチュン500のAI飽和率は約85%になると予想しています。これは85%の企業が生成AIを少なくとも1つの機能に使用するということで、必ずしも完全な飽和ではありません。価格は結果あたりのコストが9ヶ月ごとに下がり続けます。メーターの地平線は7ヶ月ごとに倍増し続けます。これはメーターの地平線が実際には4ヶ月ごとに加速したように見えるという事実を考慮していません。
これがこの予測全体がまだ少し保守的だと思う理由です。今日持っているすべてのデータを組み込んでいないからです。単に歴史的傾向が続くと仮定しましたが、楽観的な傾向はさらに正確かもしれません。これをモデル化しようとするたびに、保守的すぎることが判明しています。ここでも保守的すぎると思ってください。
2027年はコモディティ化の年です。基本的に、10万トークンジョブあたり1セント、8時間タスクでの50%成功率、つまりAIは一度のプロンプトで1日分の人間の仕事を行うことができます。これはワンショットまたはゼロショットの成功です。特にエージェントが他のエージェントを監視したり、ユーザープロキシエージェントなどがある場合、必ずしもフィードバックやレビューがあるとは限りません。
2027年はフォーチュン500の普及率が90%のしきい値を超える年です。これは基本的に、新しいソフトウェアはデフォルトでAIファーストになると言っています。ソフトウェアがAI互換でない場合、AI互換にするための大きなプレッシャーがあるでしょう。タスク長曲線は私たちが立てた仮定に基づいて変わりません。現在は加速しているように見えるので、すべてが間違っている可能性があります。
2028年は認知プラトーに達する年です。これは本当に興味深いことで、私や他の人が言っていることに戻ります。2027年頃に人工超知能の同等物に達するように見えます。人工超知能の現在の定義は、基本的に私たちが思いつくすべてのベンチマークが飽和することです。
これは単一のタスクにおける精度を意味し、必ずしもタスクの複雑さやサイズを追跡するものではありません。タスクの複雑さやサイズを追跡したい場合、タスク長やメーター指標が重要です。時間の地平線はタスクのサイズや複雑さのための最良の単一のプロキシだからです。単一のタスクのゼロパフォーマンスではなく。
「デイブ、それはASIの非常に薄い定義だ」と言うかもしれませんね。同意します。2028年までに生成されるすべてのベンチマークが飽和したとしても、それはまだ測定していない多くのことがあるでしょう。しかし、それでも、トークンあたりの基本的な効用、トークンあたりの基本的な知能を表すシグナルになるでしょう。
この時点で、エージェントは定期的に一日中のワークフローを、人間よりもずっと速く調整します。RAGやcodeexecなど、ツールの使用はすべてのSDKにデフォルトで組み込まれます。AnthropicがMCPをリリースしたように、すべてのベストプラクティスと標準は十分に定義され、デフォルトのパッケージとして出荷されます。
トークンメータリングは、帯域幅のようなものになります。月に10億トークンまでなどと言えるようになります。サム・アルトマンの「計測するには安すぎる知能」というアイデアを達成するのは2028年頃だと予想しています。
同時に、モデルは安くなり、速くなり、賢くなります。基本的な知能のIQ余裕がなくなり、OpenAI、Microsoft、Googleなどのベンダーは、エージェント性や自律性、速度、プライバシーなどに焦点を当てなければなりません。2028年には基本的に知能を解決したことになります。必要なすべての数学や科学をこなせるので、それからの差別化要因は統合の度合い、記憶力などがどれだけ優れているかということになります。この時点で、機能が少ないモバイルバンキングアプリをほぼ独自に作成することができますが、AAAゲームを出荷することはできません。なぜなら、AAAゲームにはより多くのコンポーネント、より多くの人時間が必要だからです。
2029年はジャークが完全に消える時です。基本的な加速度だけになります。これもまた保守的すぎるかもしれないという説得力のある議論があります。この時点で、すべてのエンタープライズソフトウェアはエージェントファーストになります。ジャークが消えれば、私たちは単なるムーアの法則ベースに減少します。ムーアの法則の二乗またはムーアの法則の三乗は、現在のモデルでは2029年までに消えますが、タスクの長さは減速していないため倍増し続けます。加速しているだけです。
この時点では、メタオーケストレーション層が主要な差別化要因になります。エージェントの集団やエージェントが他のエージェントを監視するのではなく、メタオーケストレーション層があり、それらは独立して戦略、リソースなどを決定します。これは私とACEチームが2年前に行ったACEフレームワークの仕事に戻ります。
基本的に、エージェントの階層があり、単なる一層や監視層を持つエージェントだけでなく、「誰が監視者を監視するか」の層やその他の差別化があります。これが2029年頃、すべてのトレンドが続けば、UnrealやSteamで独自にインディーゲームをコーディングし、ほぼ自律的に出荷することが期待できる時期です。
そして2030年、これは基本的に完全な飽和点に達する時です。複数週にわたるプロジェクトの自律性が20%の成功率に達します。これは一つのプロンプトでのゼロショット成功です。これがAIが賢く統合されて、人間の介入なしにAAAゲームを構築し出荷するのに十分な時だと予想する時期です。少なくとも時々は。
それが何層あるかを考えると、私たちが見ている自律性のレベルについての良いアイデアが得られます。そしてそれはすべてデータに基づいています。そう言っても、参考にするために、この結論に至るまでの完全なプロセスをお見せしたいと思います。少し一時停止して水を飲みます。声が乾いてきたので。戻りました。
すべては、このプロンプトから始まりました。AI進歩のマージンが常に保守的すぎたことなどについてどう思うか、ジェンセン・フアンがムーアの法則の二乗と言った、それを形式化できるのか、加速度の加速をどれだけ経験しているのか定量化できるのか、ジャークを定量化できるのかと尋ねました。そこで03は3分間考えました。人間の思考時間にすれば、おそらく数時間です。
最初のデータによると、訓練の1ドルあたりで購入できる作業量は3ヶ月ごとに倍増しているとのことでした。つまり、効果的な加速率は3ヶ月ごとに倍増するということです。それは正しいと感じました。ChatGPTが登場したときや、その後のバージョンが登場したときを覚えていますか？それは予想を上回るものでした。18ヶ月ごとに新しい基礎モデルが登場するたびに、予想よりも速かったのです。
しかし、すべての統合などを含めた有効な能力が3ヶ月ごとに倍増するという加速率の倍増は、正しいとは感じませんでした。近いですが。そこで私は「再確認してください。自分が間違っていることを証明してみてください」と言いました。そこで複数の時代を見ました。2012年から2018年、2018年から2022年、そして2022年から現在までです。
ここで初めて、ジャークが減速しているという証拠を見ました。深層ニューラルネットワークの最初の時代が最も速かったからです。2012年から2018年にかけて、加速度の倍化時間が最も速かったのですが、それ以降の時代はすべて減速しています。この6年間のバッチは3.4ヶ月、次の4年間は5ヶ月、その後は6.4ヶ月でした。もし加速度が実際に少し減速しているなら、ジャークは減速しているということであり、それは一部の人が恐れていたことです。
ジャーク係数が消えたとしても、加速度が消えるわけではないことを覚えておいてください。まだ加速していますが、加速度は加速しなくなります。グローバルな純効果は、合計で3.7ヶ月に近いものでした。これはすべて大まかな計算であり、方法論を批判することもできますし、私はその方法論を擁護するつもりもありません。これは単なる私たちの最良の推測です。
私たちはMMlu、GMS8K、Human Evalなどを見ていますが、同時に、お見せしたチャートは実際のデータです。私たちは基本的に、データが何を教えているのかを理解しようとしているだけです。ジャークは、特にここ3、4年の間のAI能力予測の誤差の一部を説明します。ジャーク係数を考慮に入れれば、AI能力が定期的に私たちを驚かせた理由をよりよく説明できます。
次に、私は「少なくともここ18ヶ月はまだジャーク体制を見ています」と言いました。TLDDRでは、確かに減速していますが、ジャーク体制は引き続き存在しています。ハードウェア、政策、製品のタイムラインを計画している人は、そのジャーク曲線の減少を基準として、四半期ごとに再調整し続ける必要があります。
次に、私たちは、実際に何を測定しているのかという点に移行しました。なぜなら、ベンチマークのパフォーマンスを見て「すべてのトークンがより賢くなっている」と言うことができますが、それからドルあたりの知能をどう測定するのかが問題になります。トークンは安くなっていますが、より賢くなっています。これが直感でした。そこで私たちは効用関数を定義しようとしました。
遡ると、2020年のGPT-3 Da VinciはMMLUで43%、千トークンあたり6セントでした。3年後のGPT-4は8Kウィンドウを持ち、MMLUで86%でした。パーセンテージは2倍になりましたが、それは桁違いに知能が高く、コストは千トークンあたり半分でした。2025年のGPT-4.1 NanoはMMLUでは少し低いですが、無限に安いので、GPT-3のパフォーマンスを基準にした場合、ドルあたりの知能は2700倍になります。
繰り返しますが、方法論を批判することもできますし、MMLUが必ずしも最良のベンチマークではないことも同意します。しかし、この方法論は他のどのベンチマークにも適用できます。結論として、「はい、ドルあたりの知能という視点は、スタック全体をスカラーに圧縮し、そのスカラーは最近の生コンピュート成長の減速があっても爆発しています。わずか半世紀で2〜3オーダーの飛躍は、ジャーク体制がまだ非常に生きていることを意味します。」
AIが同じ速度で賢くならなくても、安くなり、統合が増えるので、能力はまだ爆発的に増加しています。組み込みのPythonインタプリタや組み込みのツール呼び出し、これらすべてがAIの能力を劇的に向上させます。メモリ体制、RAGなどもAIの効用を増加させます。また、より大きなトークンウィンドウの価値を過小評価しないでください。より多くのプライマリソースを読めるのでAIを効果的に賢くします。
次に、私たちは知能の飽和について話し始めました。残念ながら、03はGemini 2.5が出ていることを認識していなかったので、「2.5を調べて」と伝えなければなりませんでした。最初はGemini 1.5 ProとGPT-4を比較していましたが、「Gemini 2.5 Proの指標やベンチマークを調べて03と比較して」と言いました。長い話を短くすると、モデル間に差別化要因があることに気づき始めました。
多くの人は「Gemini Proが最高だ」と言っていますが、Gemini Proは03とは異なる市場ニッチに合っています。長い会話や大きなコンテキストではより強力で、ほぼ同じくらい賢いですが、より速くて安いので、その効用はかなり上がります。しかし、03はよりエージェント的で、より多くのツール呼び出しがあります。
一方では、Googleはスケールに焦点を当てています。モデルをいかに安くできるかということです。最終的に、Geminiは入力に関して非常に安価であり、入力トークン100万あたり1.25ドル、出力は適度で出力トークンあたり10ドルです。対照的に、03は入力にトークンあたり10ドルを求めます。つまり、03は入力で8倍、出力で4倍高価です。
Geminiのドルあたりトークンは5倍低いですが、03ははるかに成熟したツール呼び出しを持っています。関数、ファイル検索、コード実行、ウェブブラウザ、RAGなどすべてのものがあり、タスクによっては03がGeminiよりも効用が高いことを意味します。しかし、Geminiは速度、コスト、トークンウィンドウでは03を完全に上回ります。
速度、コスト、トークンウィンドウがボトルネックなら、Geminiは100％間違いなく選ぶべき道です。実験的な3〜4ヶ月のジャークは今日の現実を説明します。特にGeminiは、6ヶ月前の1.5と比較して入力価格を大幅に削減しました。03は同じ期間にベンチマークの上限をさらに2〜3％押し上げ、ツールの幅を2倍にしました。
Gemini 1.5 Proと2.5 Proの違い、01と03の違いを見るだけでも、私たちはまだそのジャークを見ていますが、必ずしもすべてが基本的なモデルパフォーマンスにあるわけではありません。一部は基本的なモデルパフォーマンス、特にトークンウィンドウと基本的な知能にありますが、統合もあります。これが主要なものの一つです。
会話のほんの一部しか進んでいません。まだ見ている人には忍耐力に感謝します。限界をプッシュしていきます。次に、この次のターンでは、様々なコンポーネントを理解しようとしていました。ムーアの法則は一部を説明します。ハードウェア経済学、ライツの法則、アルゴリズム効率などがあります。
基本的に、同じレベルのパープレキシティを得るためのアルゴリズム上の利点は、9ヶ月ごとに半分のコストになることを意味します。ムーアの法則は上昇し、パープレキシティのコストは下がっています。そして、ポジティブフィードバックループがあります。マージン圧縮による規模の経済もあります。
非常に安価に追加できる他の効用倍率もあります。関数呼び出し、RAG、ツール使用、API呼び出し、コードサンドボックスなどがあります。これらは実際には、知能とコストの面でモデルが自分の重量をはるかに上回るパンチを打つことを可能にします。これは効用を劇的に増加させます。
基本的に、新しい効用関数を思いつきました。効用はハードウェア、アルゴリズム、マージン、そしてツールです。これは誰でも採用できる非常に単純な関数で、AIプラットフォームの総効用を理解することができます。モデルだけでなく、製品全体の効用です。Metaが製品スタックの残りを無視していることは、取り残されることを意味すると思います。
Metaの理論は、単にバニラモデルのフロンティアモデルをリリースするだけというものですが、Llama 4は「いや、実際にはもっと投資する必要がある」ということを証明しています。Metaは間違った方向に進んだと思いますし、トップの競争相手はまだOpenAIだと思います。彼らはその周りのすべてのエージェントフレームワークに注力しているからです。
LLMをエンジンのように扱い、ブレーキ、ステアリング、安全機能もまだ必要だと長い間言ってきました。それは単なる発電所、認知発電所に過ぎません。
次に、ジャークがどこで減少するかを把握しようとしました。基本的に「過去18ヶ月のジャークの減少に基づいて、どこで減衰するか予測できるか」と尋ねました。2026年中頃だと考えています。長い話を短くすると、フロンティア実行フロップとアルゴリズムの半減時間が各四半期ごとにあります。いずれかの傾きが年間1倍未満に明確に平坦化すれば、超指数関数時代が終わったことがわかります。2026年後半が基本的に予想される時期ですが、見るデータによってはまだ保守的すぎるかもしれません。
次に、グラフの生成を依頼し始めました。先ほど見たグラフはジャークの減少をモデル化したものですが、これは2027年12月またはさらに2028年まで延長される可能性があります。タスクの長さが上がり続けるか加速し続ける場合、または統合が離陸する場合には、さらに上がる可能性があります。現在03は約600のツールを持っていますが、60万ツールになったらどうでしょうか？それは可能性の範囲内にあります。また、マルチモーダリティにもまだ触れていません。これはLLMの現在の体制下でのことです。
これは他のグラフの一部で、これはドルあたりの効用の複合です。これは、先ほどお見せした4つのコンポーネントを持つ式に基づく総効用です。効用は上がり続け、もちろん無期限に上がり続けるでしょう。上がらなければ、もうAIに投資しません。収益逓減の点に達するかもしれませんが、まだジャークしています。加速度はまだ加速しているので、AIへの投資を続けることは理にかなっています。
ここには他のいくつかのグラフがあり、基本的に同じデータを示していますが、もう少し外挿したかっただけです。トークンあたりの総効用が減少し始める可能性がありますが、これを信じるかどうかわかりません。かなり長い間、複合リターンが見られると思います。しかし、これは現在の体制下でのことです。
これが価値ある情報の大部分だと思います。多くは私の側の明確化の会話でした。最後に「対数スケールで限界ドルあたりの総要素効用を見せてください」と言ったところ、これが得られました。ビデオの前半で言ったように、スナップと楽観的な部分、これは向かう先としてより現実的だと思います。
前のものを見て「対数スケールでの直線なので、スナップでさえ十分ではないかもしれない」と言うかもしれません。それも納得できます。これは単なる大まかな計算でした。
長い話を短くすると、「すべてのあなたの微分はあなたのものです」ということで、ここに行き着きます。最後まで見てくれてありがとう、かなりのマラソンでした。TLDDRとしては、基礎モデルはエージェント的なコンポーネント、統合、API呼び出し、サンドボックス、検索、RAGなどすべてのものに焦点を当てる必要があります。それが現在の大きな差別化要因であり、また、単なる単一タスクの精度だけでなく、タスクの長さと複雑さが重要です。ありがとう。