AI業界の構造的危機:計算資源不足が2026年を決定づける理由

AIインフラ
この記事は約10分で読めます。

AI業界は深刻な構造的問題に直面している。GoogleのGemini 3.1 Pro公開直後に発生した容量不足問題は、地球上で最も強力なインフラを持つ企業でさえ需要に追いつけない現実を浮き彫りにした。問題の本質は、AI需要が単月で桁違いに増加する一方、データセンター建設は電力不足や許認可の遅れにより実質的に減少している点にある。特にエージェント技術の台頭により、1セッションあたりの計算資源消費量は従来のチャット対話の数十倍から数百倍に達し、DRAMメモリ価格は1ヶ月で75%も急騰している。Anthropicは第三者ツールへのアクセスを遮断し、OpenAIは全く逆の戦略を採用するなど、各社は限られた計算資源の配分に苦慮している。この構造的制約は2028年から2030年まで解消されず、今後のAI業界を規定する決定的要因となる。モデルの性能ではなく、いかにスケールで提供できるかが勝敗を分ける時代に突入したのである。

Google, Anthropic, and OpenAI Are All Running Out of Compute
LINKS in the VIDEO:

AI業界を襲う深刻な構造問題

AI業界における大きな構造的問題についてお話ししましょう。多くの人がまだ気づいていない問題ですが、これから本当に深刻な状況になると考えています。具体例として、GoogleのGemini 3.1 Pro プレビューモデルのリリースについて取り上げます。

リリースから数時間以内に、開発者たちは「容量不足」というエラーに遭遇し始めました。有料顧客がロックアウトされ、ClaudeやGPTと競合するはずのモデルを、Google自身が提供できない状態に陥ったのです。

Googleは地球上で最も強力なインフラを持つ企業の一つと言えるでしょう。そのGoogleでさえ需要に追いつけないという事実は、業界全体がどこに向かっているのかを物語っています。これはGoogleだけの問題ではありません。2026年の残り期間を決定づける構造的問題なのです。

Googleが直面した容量問題の実態

業界全体の話をする前に、もう少しGoogleの状況に焦点を当てましょう。Googleは全ユーザーに対してレート制限の問題を抱えていましたが、状況はさらに悪化しました。Googleはユーザーのアカウント停止を始めたのです。

GoogleでGemini APIを統括するWurun Muanが、Xに投稿しています。「Gemini APIバックエンドの悪意ある使用が大幅に増加し、ユーザーへのサービス品質が著しく低下した」と述べています。

彼は続けて「私たちの容量は限られており、実際のユーザーに公平でありたい」と述べました。何が起きたかというと、OpenClawのユーザーたちがサブスクリプションを通じてGoogleのGemini APIバックエンドに接続し、これらの自律エージェントによるトークン消費がシステムを圧倒したのです。

過去にはClaude Codeでも同様の事態が発生しています。Peter Steinbergはこれを「過酷すぎる」と呼び、OpenClawからGemini APIサポートを完全に削除する可能性を示唆しました。Googleは一部のユーザーのアカウント停止を解除しましたが、ここで強調したい点があります。あまり語られていないことですが、これは単なる計算資源の制約だけの問題ではないということです。

Googleが抱える独自のリスク

Googleのような企業は、他のプロバイダーよりも失うものが多いのです。GoogleはただのAI企業ではありません。検索、Gmail、Workspace、Androidなど、多くのサービスを展開しています。

想像してみてください。たった一つの悪いニュース見出しが、あなたの評判を傷つける可能性があるのです。もしGoogleのバックエンドで動作しているAIエージェントが何か有害なことをした場合、たとえそれがOpenClawであっても、ニュース記事では「OpenClawエージェント」ではなく「Googleエージェント」として報道される可能性が高いでしょう。

OpenAIやAnthropicのようなAIファーストの企業は、そうした評判へのダメージをある程度許容できるかもしれません。しかしGoogleはより慎重にならざるを得ません。なぜなら、影響範囲がはるかに大きいからです。

複数のサービス展開がもたらす課題

Googleの状況をさらに複雑にしている側面があります。AnthropicやOpenAIが製品をローンチする場合、通常3つの異なるサービス面で提供されます。Anthropicの場合、Claude.ai、Claude Code、そしてAPIです。OpenAIならCodexチャット、ChatGPT、そしてAPIです。

一方Googleは、Geminiアプリ、AI Studio、Gemini API、Vertex AI、Gemini CLI、NotebookLM、Google検索(Geminiを搭載)など、12以上のサービスでGeminiを提供しています。FlowやJulesもあります。つまり、誰よりも多くの製品に容量を分散させなければならないのです。

しかし、それでも十分ではないようです。地球上で最も多くの計算資源を持つ企業が、モデルのリリースを安定的に提供できないとしたら、これは業界全体について何を物語っているのでしょうか。

業界全体が直面する計算資源不足

Gemini 3.1のリリースから数日後、Google DeepMindでAI Studioを統括するLoganが、Xに非常に重要な投稿をしました。

「計算資源のボトルネックは大幅に過小評価されている。私の推測では、需要と供給のギャップは毎日一桁パーセントずつ拡大している。実際には、これがAIが経済と社会に与える影響のレート制限要因となるだろう」

この発言で重要なのは、彼がGoogleについて語っているのではなく、業界全体について語っているという点です。同時期に流出したGoogleの内部スライドには、「AIの計算ニーズは6ヶ月ごとに2倍になる必要があり、業界は4〜5年で次の1,000倍の性能向上が必要だ」と記されていました。

他の主要プロバイダーを見ても、パターンはほぼ同じです。Anthropicは数ヶ月間この問題に対処してきました。開発者たちは、Claude Codeで実際に使用できる容量が約60%減少したと報告しています。Claude Opus 4.5の制限は、1月のリリース以来最も厳しいものと言われています。

Anthropicはさらに踏み込んで、サードパーティツールがClaudeサブスクリプショントークンを使用することを全面的にブロックしました。Cline、OpenClawなど、すべてが一夜にしてブロックまたはシャットダウンされたのです。

サブスクリプションモデルの限界

理由は明快でした。20ドルのサブスクリプションで、API価格なら1,000ドルかかるような自律的なOPUSワークロードを実行されては、計算資源が持たないのです。エージェント的な使用に対して定額アクセスを補助するだけの計算資源が単純に存在しないのです。

興味深いことに、OpenAIはこの状況を見て、全く逆の方向に進みました。OpenAIは、OpenClawのようなサードパーティツールでのサブスクリプション使用を明示的に許可しています。AnthropicがOpenClawを禁止した時、OpenAIの対応は基本的に「こちらへどうぞ」というものでした。彼らはPeter Steinbergを雇用さえしました。

つまり、AnthropicとGoogleが計算資源を保護するためにアクセスを制限している一方で、OpenAIはエコシステムプレイがコストに見合うと考えて開放しているという、興味深い対立構造があるのです。しかし、根本的なプレッシャーはすべての企業で同じです。

OpenAIは「レート制限を超えて」というタイトルのブログ投稿を公開し、CodexとSoraの使用が「当初の予想を超えた」ため、レート制限とクレジットを組み合わせた全く新しいシステムを構築する必要があったと述べています。

共通する構造的問題

少し俯瞰してみましょう。Googleは容量を保護するためにユーザーをアカウント停止しています。Anthropicは計算資源の流出を止めるためにサードパーティツールをブロックしています。OpenAIはアクセスシステム全体を再構築しなければなりませんでした。

これらは世界最大級の3つのAI企業であり、すべてが同時に同じ壁にぶつかっているのです。これは偶然ではありません。顧客にとって悪化する一方の構造的問題なのです。

なぜこの問題は解決しないのか

では、なぜこれが起きているのか、そしてなぜこれが自然に解決しないのかを理解しましょう。まず理解すべきは、計算資源がどこに使われているかです。

数年前、AIの計算資源のほとんどはモデルのトレーニングに使われていました。しかし、それは逆転しました。Delightによると、推論、つまりこれらのモデルを実際に実行するために使用される計算資源は、全体の約3分の1から約3分の2に増加しました。

もはやボトルネックはモデルのトレーニングではなく、それらを提供することなのです。第二の要因は、私が「エージェント乗数」と呼ぶものです。典型的なチャット対話では数百トークン程度かもしれません。しかし、自律的に動作するコーディングエージェントのセッションは、数十万、あるいは数百万トークンを消費する可能性があります。

OpenReviewに掲載された学術論文によると、コーディングエージェントのトークン消費量は最大10倍も変動する可能性があり、現在すべての主要企業がエージェントを出荷しています。

供給側の深刻な制約

供給側を見ると、単にデータセンターをもっと建設すればいいと思うかもしれませんが、ベイン・アンド・カンパニーによると、AIの計算需要はムーアの法則の2倍以上の速度で成長しています。

ここからが直感に反する部分です。米国のデータセンター建設は、記録的な需要にもかかわらず、昨年実際に減少しました。2020年以降初めてのことです。建設中の実際の容量が減少したのです。

理由は、許認可の遅れ、電力不足、地域の反対です。Axiosは、今年予定されている世界のデータセンタープロジェクトの最大半分が遅延に直面する可能性があると報じています。

そして、メモリの問題があります。業界はこれを「RAMアルマゲドン」と呼んでいます。DRAMの価格は1ヶ月で75%も急騰しました。世界のメモリのほぼすべてを製造している3社が、生産をAIチップ向けに再配分しています。

SK hynixは投資家に対し、今年の容量は本質的に売り切れていると伝えています。IDCはこの不足を「前例のないもの」と呼び、新しいファブが供給に有意義な影響を与えるのは2028年になってからだと述べています。

MicrosoftのCEOであるサティア・ナデラは、ポッドキャストでこう総括しています。「現在私たちが抱えている最大の問題は、計算資源の過剰ではなく電力です。チップの供給問題ではありません。実際には、接続できる温かいシェルがないという事実なのです」

2026年に予想される展開

需要が爆発的に増加し、供給の構築には何年もかかります。では、これが実際に何を意味するのか考えてみましょう。私が思うに、2026年の残り期間を形作ることになるいくつかの展開があります。

すでにレート制限が見られています。Loganが言うように、需要が毎日一桁パーセントずつ成長しているなら、供給の構築には何年もかかるため、短期的な解決策はありません。これらの企業が持っている唯一の手段は、各ユーザーがどれだけ消費できるかを制御することです。

そして潜在的にクレジットシステムが導入される可能性があります。第二に、ハードウェアの状況が多様化しています。おそらくNvidiaとxAIのGrokとの推論に関する取引を覚えているでしょう。OpenAIはCerebrasと取引しています。Intelも追随しているという噂があります。

つまり、GPUがすべてを処理する世界から、専用の推論チップが重要になる世界へと移行しているのです。

真のボトルネックは何か

第三に、これが最も重要な点だと思いますが、AIの真のボトルネックはもはやモデルの品質ではありません。私たちは何年もかけて、どのモデルが賢いか、どのベンチマークスコアがどのモデルで高いかを議論してきました。

今でもそうした議論は続くでしょうが、勝者を決定するのは最高のモデルを持っているかどうかではなくなります。最高のモデルを大規模に提供できるかどうかなのです。ベンチマークで95点を取るモデルも、ユーザーがアクセスできなければ意味がありません。

良い例がDeepSeekです。DeepSeek-R1がリリースされた時、当時は本当に良いモデルでしたが、DeepSeekはそのモデルを提供できませんでした。極端なレート制限があり、おそらく他の企業でも同じことが起こるでしょう。

興味深いことに、すべての企業がエージェントが未来だと言っており、それはおそらく正しいでしょう。実際にそれを目の当たりにしています。しかし、エージェントはチャットターンよりもセッションあたり桁違いに多くの計算資源を消費します。

業界は、これまでに構築した中で最も計算集約的な製品を出荷しながら、それらを提供するための計算資源が不足しているのです。そしてこれを解決するためのインフラ、これを動かすための電力、メモリは数ヶ月では到着しません。何年もかかるのです。

新しい容量が有意義に追いつくのは、2028年から2030年になるでしょう。ですから問題は、AIモデルがより良くなり続けるかどうかではありません。それは間違いなく続くでしょう。トレンドを見ています。

問題は、今後誰が実際にそれらを大規模に提供できるかということです。そして今のところ、最も多くの計算資源を持つ企業を含むすべての主要プロバイダーからの答えは、「常にではない」というものです。

いずれにせよ、この動画が役に立ったことを願っています。ご視聴ありがとうございました。それでは、次回お会いしましょう。

コメント

タイトルとURLをコピーしました