GPU時代の終焉

世界最高の時価総額を誇るNvidiaだが、その地位は長くは続かないかもしれない。AnthropicがGoogleのTPUへ移行し、OpenAIがCerebrasと提携し、MetaもGoogleのTPUを利用し始めている。Nvidia自身さえもGroqのような代替技術に200億ドルを投資している状況である。理由は単純だ。GPUは汎用的な計算には優れているが、AI推論という特定タスクには最適化されていない。Bitcoin採掘でASICがGPUを駆逐したように、CerebrasやGroqといった企業が開発する推論専用チップは、同じモデルをNvidia GPUの10倍もの速度で実行できる。TSMCが実際の製造を担い、各社が独自のSDKを開発する中、マージンの論理は明確である。AI推論需要が拡大するにつれ、Nvidiaの汎用GPUは専用アクセラレータに取って代わられる運命にあるのだ。

The end of the GPU era

Seems like everyone's starting to look for a Nvidia alternative...Thank you Depot for sponsoring! Check them out at: mak...

Nvidiaの圧倒的地位とその揺らぎ
なぜNvidiaは危機に瀕しているのか
専用チップの台頭
Nvidiaを打ち負かすための条件

Nvidiaの圧倒的地位とその揺らぎ

Nvidiaが世界で最も価値のある企業だってご存知でしたか。まあ、理にかなっていますよね。巨大なAI企業たちはすべて、私たちが期待するAI機能を実現するためにNvidiaに完全に依存しているわけですから。だからこそNvidiaの企業価値は銀に匹敵するんです。そう、世界中の銀の総価値が、ゲーマー向けチップを作るたった一つの企業、Nvidiaの価値に匹敵しているんですよ。

そして今、その同じチップがAI用途に非常に優れていることが判明したため、誰もがそれを使っています。では、Anthropicはどうでしょう。ああ、AnthropicはGoogleのTPUに移行するんですか。まあ、いいでしょう。OpenAIのような他の企業はたくさんありますから。おや、OpenAIはチップ企業のCerebrasと提携しているんですって。

じゃあ、少なくともMetaはありますよね。ああ、GoogleがMetaの協力を得てNvidiaのソフトウェア上の優位性を侵食しようとしているんですか。GoogleがMetaにTPUを提供するんですね。ふむ。非常に興味深いですね。実際、状況はあまりにも狂っていて、Nvidia自身さえもNvidiaの代替品に投資しているほどです。例えばGroqに対して、彼らはとんでもない金額を支払ったばかりです。

現在の推定では約200億ドルでGroqの技術をライセンスし、創業者と何人かの人材を引き抜いて、GroqがやっていることをNvidiaに持ち込もうとしています。なぜなら、今後AIにとってGPUが実際には最適なソリューションではないかもしれないことが判明したからです。文字通り世界で最も価値のある企業が、今後数年、いや数ヶ月のうちに関連性を失うかもしれないタイプのチップを販売しているかもしれないなんて、考えるだけでクレイジーですよね。

そして私にはこれについて言いたいことがたくさんあります。でも、おそらく価値を保ち続けるであろうものをご存知ですか。今日のスポンサーです。大企業がAIツールを採用する際に私が目にする最大の障害の一つは、マインドセットとフローの変化です。彼らの多くの仕組みは、こんなに速く動くようには作られていません。特に彼らのCI。一日に10個のプルリクエストを出せるのは素晴らしいことですが、それぞれのプルリクエストのビルドに40分もかかるとしたら。1分以内に終わる方がずっといいですよね。でも、それは不可能に思えます。

今日のスポンサー、Depotを使わない限りは。彼らはあなたのビルドを驚異的に高速化してくれます。PostHogは30倍速くなりました。ビルド時間が138分から4分半に短縮されたんです。笑っちゃうくらい速いですよね。Zedでさえ最悪のケースでも1.4倍の高速化を実現しました。ほとんどのケースでは3倍から20倍の高速化で、Mastodonは46分から2分半へと19倍の高速化を達成しました。

PostHogがこれを最もうまく表現していると思います。この界隈では、PostHogは異常に速く出荷すると言われています。でも、出荷するのに1時間45分も待っているなら、PostHogが異常に速く出荷するなんて言えませんよね。私自身、ラップ機能のためにT3チャットで変更を出荷しようとしていたときにこれを経験しました。PostHogが私たちのために出荷してくれていたんです。

彼らはホリデーウィーク中に文字通り10分で出荷を完了させました。ビルドがほぼ瞬時に完了したからです。Depotに移行したおかげで。Depotは私のために機能のブロックを解除してくれました。これは多くのスポンサーについて言えることではありません。時間を無駄にするのはもうやめましょう。soyv.link/depoでビルドを修正してください。

なぜNvidiaは危機に瀕しているのか

さて、Nvidiaがある意味運命づけられている理由について少し話しましょう。これを理解するには、まずそもそもどうやってここに至ったのかを理解する必要があります。なぜゲーミングPC用のグラフィックスカードを作っていた会社が、突然世界で最も価値のある企業になったのでしょうか。Nvidiaのハードウェアパートナーとしての奇妙な歴史について、彼らがどうやってAppleを裏切ったかとか、他にも色々なことについて、深く掘り下げすぎることもできます。

私はこれについてのオタクなんです。知りすぎているくらい知っています。私はもう15年くらいNvidiaアンチでいます。なぜなら、彼らがPCビルダーとしての私の人生をずっと大変にしてきたからです。彼らはAppleの人生もずっと大変にしてきました。Nvidiaは本当に長い間、市場において非常に悪いプレイヤーでした。でもNvidiaには一つだけあったんです。最高のGPUです。GPUを作るのは難しいことが判明しました。

だから多くの企業が自分たちで参入しようと苦労してきたんです。Intelは数年前に独自のGPU部門を立ち上げて、NvidiaとAMDに追いつこうとしましたが、大いに苦戦しています。AMDも試みて失敗し、代わりに当時Nvidiaとかなり近いレベルで競争していた会社であるATIを買収することを選びました。当時というのは20年くらい前のことですが、それ以来AMDのグラフィックス部門として完全に統合されています。

そして、それらのグラフィックスチップは、今日ほとんどの家庭用ゲーム機で使用されているものです。XboxやPlayStationのようなものです。なぜなら、SonyもMicrosoftも、Nvidiaとの問題があまりにも多かったため、できるだけNvidiaから離れようとしたからです。そして面白いことに、ゲーム機でまだNvidiaに賭けている唯一の会社は任天堂です。なぜなら、彼らはNvidiaのタブレット向けに販売しようとしていた失敗したARMチップをすべて使用するために、何らかのクレイジーな個別契約を結び、それらをSwitchに移して市場を見つけることを期待したからです。

そしてそれは誰もが予想していたよりもうまくいきました。だからNvidiaの唯一のゲーム機販売、唯一のゲーム販売は、今のところよりによって任天堂に対するものなんです。でも大部分において、Nvidiaは過去20年間ですべてのパートナーを怒らせてきました。その結果、ハードウェア販売と流通の分野でNvidiaに大きく依存することを選ぶパートナーはほとんどいません。

そして彼らがそれでやっていけるのは、繰り返しになりますが、GPUを作るのが本当に、本当に難しいからです。あまりにも難しいので、Nvidiaでさえ自分たちでは作っていません。じゃあ一体何がNvidiaをそんなに価値あるものにしているんでしょうか、GPUを作っていないなら。実際にチップとダイとNvidiaのGPUに入るシリコンを作っている会社は、TSMCという会社です。台湾半導体製造会社です。

彼らは世界で最高のチップのすべてのシリコンを製造しています。他にもチップを作る会社はありますが、TSMCほど小さく、洗練され、強力なチップを作る会社はありません。だからこそAppleは自社のすべてのチップに対してTSMCに大きく依存しているんです。Mシリーズ、Max、そしてiPhoneやiPad全般がこれほど高性能である理由は、Appleがシリコン製造パートナーとして早い段階でTSMCに賭けたからです。

そして、より多くの企業も移行せざるを得なくなりました。驚くべきことに、歴史的に自社で製造を所有してきたIntelのような会社も含めてです。TSMCは私の意見では、これらすべてにおいて実際に最も価値のある会社です。なぜなら、TSMCがなければ、Nvidia、AMD、Intel、Apple、これらすべてから期待するパフォーマンスはもはや不可能だからです。

この会社は、おそらく次の世界大戦が始まる中心になるでしょう。クレイジーに聞こえるかもしれませんが、TSMCをコントロールする者が、世界の他の国々にとってのチップの強力さをある種コントロールすることになります。しかしTSMCは単に設計図を受け取って構築しているだけです。その設計図は企業から来なければなりません。

それらの仕様、計画、許容誤差、期待値、それらを取り巻くSDKとプラットフォーム、実際にユーザーに出荷するもの。TSMCはチップをユーザーに出荷していません。TSMCは設計図を受け取り、それを信じられないほど小さなダイに印刷し、それからAppleやNvidiaのような会社に送って、彼らが好きなようにできるようにしているんです。

そしてNvidiaは、TSMCによって開発されたプロセスを通じて、GPUを作るための本当に、本当に優れたアーキテクチャを持っています。Nvidiaはシリコンで計算を行うためのクレイジーな方法を考え出し、それをTSMCに計画として転送し、製造されてからNvidiaに返されます。そして契約の一部として、TSMCはそれらの設計図を保持したり、Nvidiaが考案または発見した設計図や技術を再利用または販売したりすることはできません。つまり、Nvidiaのチップを汎用的なクレイジーな数学処理に非常に優れたものにしている多くのことは、TSMCは知っているけれど再利用または再販できないものなんです。

そして漏洩したすべてのものは非常に重くパテントされているため、あなたがそれらをコピーしようとすればNvidiaはあなたの魂の人生を訴えるでしょう。そしてこれの理由は比較的単純です。NvidiaのGPUは汎用的な計算処理に本当に優れています。特に、他のYouTubeチャンネルで聞くような、すべての派手なベクトル数学とマトリックス変換などに優れています。

Nvidiaチップは、画面上の多くのピクセルを処理するために作られたため、これらのタイプのことを処理するように作られました。プロセッサーが4コアで、1920×1080ピクセルを処理しなければならない場合、それは毎フレーム200万ピクセルを処理しなければならないということです。時間は16ミリ秒です。4から8コアで16ミリ秒の間に200万以上のピクセルを処理することを想像してみてください。頑張ってください。頑張ってください。

これがGPUがこれほど強力である理由です。彼らはこれらのはるかに小さく、より愚かなコアを事実上数千個持っていて、この大規模な数学変換処理を行うために作られています。そして、暗号通貨のマイニングのようなものを処理したのと同様に、これらのタイプのワークロードをはるかに簡単に処理できます。おそらくここで自分の年齢を明かすことになると思いますが、私が高校生だったとき、素晴らしいGPUを持つことについて私が最も気に入っていたのは、それが無料の収入源だったことです。なぜなら、それを使ってBitcoinをマイニングできたからです。Bitcoinマイニングは、強力なGPUが解決できるほど複雑な数学の問題で、Bitcoinネットワークに電力を供給しながらいくらかのお金を稼ぐことができました。

それは非常に強力で非常に有用だったので、人々は数学を最適化する方法を探し始めました。なぜなら、GPUはこれらのタイプの汎用的な問題に本当に優れているからです。しかし、まったく同じことを何度も何度も行っている場合、GPUがこれほど汎用的であることは、それほど有益ではなくなり始めます。

専用チップの台頭

そしてこれがASICが人気になり始めた理由です。ASICとは、Googleがここで要約してくれているように、ありがとう。おそらく面白いことにASICで動いているんでしょうけど、特定用途向け集積回路です。特にBitcoinに対して一般的に使用されていました。なぜなら、Bitcoin数学は、そのひとつの数学を実行するためだけに専用に作られたチップを作れば、さらに最適化できたからです。

そして非常に速く、ASICがBitcoinマイニングの世界を席巻しました。GPUを使っていると損をするほどでした。なぜなら、電気代が稼ぎを上回ってしまうからです。一方、ASICマイナーは非常に最適化されていたため、より速い時間でより多くのブロックを破壊でき、より少ない電力を使用することができました。

これが私たちがここで話すべきことです。Bitcoin ASICではなく、一般的にチップ上の特定用途向け統合というアイデアについて。Cerebrasはこの分野で最も著名な企業です。私たちがここで話している分野は、これらのワークロードを与えられて実際にそれらを実行し、結果を生成できるアクセラレータハードウェアチップです。

数百ギガバイトの大きさになることが多いパラメータの巨大な山、つまりモデル自体を横断できるチップ、それからユーザーが生成したテキストの山やチャット履歴などを引き込み、これら二つのものを組み合わせて、次にどのトークンが最も可能性が高いかを把握することができます。

すべてのパラメータとその巨大なマップを使用し、あなたが入力したテキストから計算した数学を追加して、次に最も可能性の高いパラメータが何かを指し示します。それは互いに向かってと互いから離れて指すベクトルの巨大なウェブで、計算するのが難しい数学ですが、チップをそれではるかに優れたものに最適化できることがわかります。

GPUは、従来の世界に存在するほぼすべてのものよりもこれが優れています。そして、トレーニングのための多くのワークロードは、できることにおいてより多くの能力と実力を必要とする傾向があるため、GPUは依然としてトレーニングのための選択肢のチップです。しかし、焼き上がったモデルを実際に実行したい場合、同じチップはカスタムメイドのソリューションほど効率的ではありません。

ここでのもう一つの興味深いことは、AIを考えるときに最もすぐに思い浮かぶ企業、つまりOpenAI、Anthropic、Metaなどの世界の企業は、独自のアクセラレータハードウェアを作っていないということです。彼らはすべて、他の企業から購入したチップを使っているだけです。主にNvidiaからです。しかし、アクセラレータハードウェアにいくつかの投資が行われています。

最も注目すべきはGoogleです。Googleは、AIで使用するアプリからモデル、モデルをホストする場所、モデルが実行されるハードウェアまで、すべてをカバーする唯一の企業です。Googleはこれらすべての分野で競争し、それで何らかの成功を収めている数少ない企業の一つです。

Nvidiaでさえ、クラウドからGPUをレンタルさせることは実際にはしていません。彼らはそれを行う会社を買収しました。ほとんど維持していません。たくさんのNvidia GPUを使いたい場合は、Nvidiaから購入するか、すでに持っている他の誰かを見つけた方がいいでしょう。だからNvidiaは歴史的に、推論トレーニングやその他すべてのことをしようとしているときに、他のすべての企業が依存するデフォルトオプションでした。

しかしそれは、他の企業が存在することに気づいた楔です。Groq、Cerebrus、SANAのような企業です。これら3つの企業はすべて、これがより良く最適化できることを知っています。特に実際の推論側は、Bitcoin ASICのようなもので過去に見たものに基づいています。推論を行うためにより高速なものを作る明らかな機会がここにあります。

この証明が欲しければ、Open Routerを見れば十分です。ご存じない方のために説明すると、Open Routerを使用すると、LLMトラフィックをさまざまな場所にルーティングして、使用しているモデルやモデルをホストしているプラットフォームなどを簡単に変更できます。したがって、GPOSS120Bのようなオープンウェイトモデルを取り、実際に実行している場所を変更するのは非常に簡単です。文字列を変更するだけ、または彼らにやってもらうだけです。

従来のNvidia GPUを使用しているDeep Infraのような企業は、このモデルを約60トークン/秒で実行できます。私のラップトップ、MacBookでは、同じモデルを80トークン/秒で実行できました。しかし、この目的のために独自のチップを作っているGroqのような企業までスクロールダウンすると、60から80TPSから360トークン/秒まで上がります。またはCerebrasを使うと、最大702TPSまで上がります。

それは10倍の違いです。つまり、モデルを10倍速く実行しているということです。クレイジーです。最適化が正しく、モデルが彼らのチップのアーキテクチャとうまく機能するように構築されていれば、Cerebrasが3,000TPSを引き出せるモデルがあります。今のOpenAIモデル、特にGPT-5.2 Codecsのようなモデルに対する最も一般的な不満の一つは、それらが本当に賢いけれども、本当に遅く、その結果として使うのがそれほど快適ではないということです。

だからこそ、このパートナーシップは本当にエキサイティングであり、サム・アルトマンがそれについて最初に言わなければならなかったことが「非常に高速なCodecsが来ます」だった理由です。そう、これは彼らにモデルをはるかに高速にさせるための賭けであり、理論的にも、この推論に使用されていたNvidia GPUの一部を解放することができます。

したがって、それらのGPUを代わりにトレーニングに使用できます。トレーニングに使用しているすべてのGPUは、推論に使用できないGPUです。したがって、推論をGPUから外せば、トレーニング作業を行うためにより多くのGPUが利用可能になります。そして、Cerebrasのような企業を見ると、彼らがこれすべてを実現させるためにどれだけ一生懸命やっているかがわかります。

彼らは一方で巨大なチップを作っています。なぜなら、その上により多くのものを置きたいからですが、同時に、TSMCがNvidiaに対して持っているのと同じ製造へのアクセスを持っていないからでもあります。したがって、実際のダイサイズも大きくなければなりません。とはいえ、彼らのウェーハはクレイジーな推論ができます。これを見て、チップがどれほど巨大であるかを見るのはワイルドです。

このように大きなチップを製造する問題は、その中に入れるすべての部品が機能する可能性が低いということです。チップが大きければ大きいほど、その上に置くダイが多ければ多いほど、それらのいくつかが故障している可能性が高くなります。これは彼らが多くの革新をしなければならなかった大きなことの一つです。

到着時に束のダイが死んでいることなく、このように大きなチップを実際に作れるほど故障率を十分に低く減らすにはどうすればいいか。また、彼らがこのページにどれだけ少ない情報を載せているかに注目してください。これは選択です。これらの企業はすべて、自分たちがやっていることのすべてを完全に隠しています。

Cerebras、Groq、Sonova、Nvidia、AMD、Intel、これらの企業のどれも、これらのものをどうやって作るかについての詳細を共有していません。これは、15のNDAに署名し、長子を約束し、それから静電気防止のトップからボトムまでのガウンを着て、施設の中に入ることさえ許される前に殺菌される部屋を通過する必要があるタイプの情報です。

これらのことに関する秘密性とプライバシーの量は、Appleをオープンソース企業のように見せます。かなりナッツですが、それには理由があります。非常に高価な理由があります。Nvidiaは4.5兆ドルの価値があります。彼らのチップをそれほど優れたものにしている秘密が公開情報になれば、Nvidiaはもはや4.5兆ドルの価値はありません。

そしてNvidiaはこれを知っていて、これを恐れています。だから彼らは、これらのチップ企業の一つであるGroqとのパートナーシップのために、その4.5兆ドルのうち200億ドルを費やしました。Kを持つGrokではありません。Qを持つGroqです。Qを持つGroqは、これらのチップを構築している企業の一つです。彼らは自分たちのチップをLPUと呼んでいます。これらのチップは、私たちが話している他のものと同じように、推論を本当に、本当にパフォーマンス良く実行するために構築されています。

無駄な操作なし、予測不可能な遅延なし、すべてのサイクルが説明されています。彼らはメモリをチップ上に統合しています。なぜなら、そうすればものごとがはるかに速くなり、より大きなモデルに適合させるためにはるかに多くのRAMを詰め込むことができるからです。それらは電力効率が良いです。彼らは世界中のどこにでも置ける巨大なラックに入っています。彼らはまた、独自のSDKを構築しなければならないことがよくあります。なぜなら、GPUではないチップを持っている場合、CUDAのようなクールなもの、GPU最適化作業を構築するための標準にアクセスできなくなることを覚えておいてください。

したがって、これらの企業は、すべてを実行している実際のチップを再考しているだけでなく、その上に構築しているSDKとソフトウェアも再考しなければなりません。そして多くの場合、これは前後のやり取りです。Groqのような企業は、Llamaのようなモデルがどのように機能するか、GPUのどの部分にヒットしているかを深く分析し、それらのものを取り出してそれらを最適化し、カスタムチップに詰め込むために地獄まで絞り込まなければなりません。

そしてその前後のやり取りはクレイジーです。時々、新しいモデルがドロップされて、それがGroqチップにうまく適合しません。そして今、彼らは引き返して、モデルとチップの両方を修正して、それらをより良く噛み合わせようとしなければなりません。そして、すべてがまだNvidiaでトレーニングされているので、すべてが依然として主にNvidiaで実行されるように構築されています。

だから、そう、特定の目的のためにチップを作ると、より汎用的な作業のために作られたチップを上回ることができることがわかります。そして、NvidiaのCurrentアーキテクチャが彼らをナンバーワンに保つ唯一の方法は、何らかの奇妙な神の介入によって、GPUアーキテクチャがAI作業を行うのに最も意味のある正確なアーキテクチャであることがたまたま判明した場合だけです。

Nvidiaを打ち負かすための条件

Nvidiaを打ち負かすためには、Nvidiaを素晴らしいものにしているすべてのものを置き換えなければなりません。彼らが汎用的な方法で行っているすべてのことを他の場所でアクセス可能にしなければなりません。すべてがCUDAとその周りのクレイジーなツールを中心に構築されているという事実に対処しなければなりません。これらの他のものではまだ機能しません。それらすべてのレベルで戦う準備をしなければなりません。

しかし、その戦いの準備ができていて、激しく押し進めている企業はたくさんあります。しかし、それがどれくらいかかるかを知ることも重要です。TSMCが新しい製造を立ち上げたい場合、それは数ヶ月では起こりません。1年でも起こりません。

TSMCが「よし、このプロセスがあります。それを実装したい。そのための新しい工場を建設します」と言うのに5年以上かかります。5年から10年です。だからチップ不足が今起こっているのです。需要が上がったからです。そして製造がそれに追いつくのに5年から10年かかります。だから私たちは今、GroqやCerebrasのようなこれらの企業が本当に競争力を持ち始めているのを見始めています。なぜなら、彼らが始めてから約5年から10年が経っているからです。

しかし最終的には、マージンが常に勝ちます。そして今Nvidiaが持っているマージンは、彼らのチップが最適化できるほど最適化されていないときには、あまりにも高すぎます。今、私たちはトレーニングと推論に多くのお金を投入していますが、時間が経つにつれて、AIバブルが成長し続けるなら、推論側にはるかに、はるかに多くのお金と時間が費やされるでしょう。そして、Nvidiaが推論用にチップを販売することは、基本的な規模の経済学で非常に速く意味をなさなくなるでしょう。

しかし、それまでは、私は予想しています。繰り返しますが、これは財務アドバイスではありませんが、市場がTSMCが実際に価値を生み出している会社であることをゆっくりと認識するにつれて、Nvidiaはしばらくの間トップにかなり近いところにとどまると予想します。そしてさらに重要なことに、Nvidiaをこれほど高くしている新規性は、彼らが必ずしも最良のソリューションであるとは限らないものです。

ここで言うべきことはすべて言ったと思います。ゲーマーとしての長い人生で会社について多くの意見を持っている者として、Nvidiaに怒るのはいつも楽しいことですが、最終的には、競争が起こっているのを見て、推論が速くなることに興奮しているだけです。私はこれらのモデルを可能な限り速く実行してほしいです。なぜなら、それによってそれらが使いやすくなり、日常の仕事でより強力になるからです。

今日得られるわずか30から40ではなく、3,000トークン/秒でCodecsのようなものを実行することに興奮しています。皆さんがどう思うか教えてください。それでは次回まで、ピースナーズ。