
6,666 文字

私はいくつかの意見を聞いています。Grok 3がこの信じられないほどの性能を持っている理由は、少なくとも次に大きな一貫したクラスターの3倍の大きさの一貫したクラスターでトレーニングできたからだという意見があります。それはおそらくギャビン・ベイカー陣営のような考え方でしょう。一方で、Grok 3が03と比べて劇的に優れていなかったという事実は、より大きな一貫したクラスターでトレーニングすることで得られる限界リターンに壁にぶつかっていることを証明しているという意見もあります。
GPT-4.5についてはどうでしょうか?GPT-4.5は、推論モデルではないものの、最近のより良いデータポイントの一つです。GPT-4.5については少し複雑な感情を持っています。私は多くのことに使用していて、文章作成には本当に素晴らしいですし、事実ベースの質問に対しても優れています。医療診断のようなことをする場合、すべての薬の副作用について百科事典的な知識を持っています。なぜなら、より多くのパラメータを持っているので、世界に関する事実ベースの知識をより多く適合させることができるからです。
しかし、プログラミングなど多くの重要なダウンストリームタスクに関するパフォーマンスはそれほど向上していません。そして、サービス提供コストは絶対に莫大です。GPT-4oと比較して15〜20倍も高価なのです。それは本当に大きな問題です。しかも、20倍も優れているわけではありません。おそらく14%ほど優れているだけです。
つまり、14%のパフォーマンス向上を得るために、推論コストが15〜20倍、トレーニングコストが少なくとも10倍かかるということです。そして、それは実際にとても高価なので、推論モデルのベースとして使用することさえ意味がないと思います。非常に高価になります。おそらく、小さなバージョンに蒸留して大幅に量子化すれば、推論モデルの優れたベースになるでしょう。きっと彼らはそうするか、少なくともDeep Seekがやったように、専門家の混合アーキテクチャのすべての専門家で推論を実行しないようにするでしょう。
しかし、一貫したクラスターに関する質問に戻ると、それは非常に現実的なものだと思います。すべてのノードが全く同じで、同じメモリ帯域幅、同じCPU速度を持っていれば、このトレーニングプロセスについて考える方法が簡素化されます。トレーニングとは、1台のコンピュータがあるという架空の抽象化を永続化することです。異種のノードの集まりではなく、互いに通信しなければならない別々のノードの集まりではありません。各GPUを物理的なコンピュータの境界を越えて考えることができれば、考えるのがはるかに簡単になります。
ほとんどそれらをコアのように考えることができます。そして、これらのマルチコアチップを見るときのことですが、例えばAMD CPUの32コアは、通常すべて同じです。それは同じクロック速度で動作することを意味します。または少なくとも、同じメモリ帯域幅を持っているので、物事が簡略化されます。これで、すべてにデータが同じように供給されていると考えることができます。
問題が生じるのは、一部が他の部分よりも速く進んでいる場合です。それらは同期が取れなくなり、この部分は他の部分から結果を得るまで計算を続けることができなくなります。そして一種のボトルネックやトラフィックジャムが発生します。すべての計算ユニットが同じ速度でデータを消費し、同じ速度でデータを処理していれば、シャンパングラスのように考えることができます。上からシャンパンを注ぐと、すべてに同じ速度で流れ込み、最終的にはすべてにほぼ同量のシャンパンが入り、すべてがうまくいきます。
一方、一部がA100、一部がH100、一部がB200、そして一部が奇妙なカスタムシリコンだとすると、すべてが混乱します。あるグラスはあふれているのに、他のグラスにはほとんど入っていないという状態になります。そして、より多くのバグや問題が発生し、トレーニング実行を停止してチェックポイントから復元しなければなりません。また、数値安定性の問題が発生します。良いケースは、クラッシュしたことに気づき、バックアップから復元できることです。より厄介なケースは、気づかないことです。
何十億ドルも失ったのに気づかないというわけではありません。いいえ、最悪なのは、あなたのモデルが微妙に愚かになっているのに、それを指摘できないことです。モデルの悪い量子化を行った場合のように、正確に指摘することはできませんが、いくつかのIQポイントを失ったようなものです。鉛管で頭の後ろを殴られたようなものですが、それが起きたことさえ気づかず、少しずつ愚かになっていくか、あるいは一貫した方法でモデルをトレーニングしたことがないため、反事実的な比較ができず、一貫したクラスターがあれば避けられたかもしれない方法で微妙に悪くなっているのです。
確かにそれには真実があります。しかし、私は以前の人々のプレトレーニングのスケーリングに対する考え方は極端すぎたと思います。人々は「スターゲート」について話していました。私たちは10億から20億ドルのトレーニングクラスターから、100〜150億ドルのクラスターに移行しました。次は1000億ドルだというのですが、それは本当に意味があるのでしょうか?十分なトレーニングトークンがあるのでしょうか?これらの巨大なモデルを持つことが本当に意味があるのか、それともより優れたパフォーマンスを得るための、よりスマートでエレガントなアルゴリズムアプローチがあるのでしょうか?
それが本当なら、Deep Seekのニュースについての私の分析は興味深いです。彼らが推論効率を7.5倍にしたという時、私は「これは推論がこの量だけ上がらなければ、より多くのスラックが生じることを意味する」と言いました。しかし、私が見た別の分析(独自に導出したわけではありませんが、Twitterで二人の異なる人が投稿しているのを見ました)は、Deep Seekの推論効率を世界中の既存のデータセンターにある全GPUに当てはめると、地球上のすべての男性、女性、子供に対して、毎日R1 V3レベルのモデルのトークンを10,000個生成するのに十分な既存のGPU計算能力があるということです。
需要はそれほど高くありません。なぜなら、中国やインドの農村部には、トークンをまったく使用しない人がたくさんいるからです。これらの効率の向上がどのように考えても非常に大きな影響を与えることを示す別の独立したデータポイントです。トレーニング側では、一貫性は本当に重要です。これがNVIDIAが消えていくとは誰も主張していない理由です。しかし、B200sはすでに登場していますし、H100sもまだ非常に有能です。多くのものが出回っており、これらのトレーニング効率を活用できます。
これらのテクニックの多くは様々なケースに適用可能です。H100、B200で、以前行っていたすべての同じトリックを使うことができますが、彼らが考案したトリックを重ねることもできます。そして今や、1GW(ギガワット)のデータセンターを手に入れたと思っていたのが、実際には5GWや10GWのデータセンターを効果的に手に入れたようなものです。それにより、一貫性が良いという考えに同意していても、すでに持っているものでずっと大きく優れたモデルをトレーニングできるようになります。
しかし、状況はさらに悪いです。H100よりもはるかに高速で、より多くのVRAM、より多くのメモリ帯域幅、より多くのコアを持つB200sは、すでに注文され、前四半期だけで120億ドル以上が販売されています。出荷は増加しており、これらはすでに予約されています。すでにその効果が出ると考えられており、効率的な余剰状況にあります。
一点注意が必要なのは、Deep Seekの効率向上が必ずしも既存のすべてのモデルに直接適用できるわけではないということです。例えば、これらの多くはANE(専門家の混合)アーキテクチャに特有のものです。そのため、Llama 3.37ビリオンのような完全に密なモデルについて話す場合、直接適用できない可能性があります。しかし、私の答えは、まず第一に、誰がそのモデルを使いたいのかということです。それははるかに安価なものによってすでに凌駕されています。そして第二に、Llama 4がどうなるかは廃止され、彼らはトリックを使って作り直しています。
データブリックスのように発売日に時代遅れになるようなことはしないでしょう。最先端のものを作るために時間をかける方が良いのです。そして、Deep Seek 2の興味深い点は、プロセスを逆転させたことです。通常、これらのモデルの理論チームとエンジニアリングチームは分かれています。理論チームがモデルを設計し、それをエンジニアリングチームに引き渡して、どのように高速に実行するかを考えてもらいます。しかし、Deep Seekでは、どのように高速に実行するかということから始めました。
彼らは制限されたH800 GPUで高速に実行する方法を重視しました。なぜなら、それが多く購入できるものだからです。これはメモリのフットプリントを減らし、必要なインターコネクト帯域幅を減らすことに非常に重点を置いています。なぜなら、メモリ帯域幅は制限されているからです。より良い通信プロトコルに関するスマートなアルゴリズムの変更や、可能な限り低い精度で処理を行うことなどがあります。
特にKVインデックスのような部分では、高精度でトレーニングしてから最後に量子化するのではなく、低精度で最初からトレーニングできるようになっています。これは、メモリを少なくて済むので少ないGPUで実行できるだけでなく、より圧縮された形式でデータをチップに供給できるので、データをより速く供給できます。また、ノード間通信を行う際には、精度が低いので線を介して送信するデータが少なくなります。
すべての前進と後退のパスで文字通り計算が少なくなります。単に少ないデータを送信するだけでなく、それはウィン・ウィン・ウィンの状況です。これが利益が非常に大きい理由です。これらは個別のことですが、複合的な影響は乗算的です。1.8倍のブーストを得て、2.2倍のブーストを得たら、それらを掛け合わせなければなりません。それがこれらの非常に大きな数字を得る方法です。
すでに注文されて来ているものからすれば、最先端のモデルの革新と改善を行うための計算能力がたくさんあります。それ以上に、他の大きなアルゴリズムの発明がなければ(私は必ずしも効率の向上だけを言っているわけではありませんが、それも大きな部分です)、推論のような事柄について話しています。それはプレトレーニングに追加された一種の別の次元で、新しい機能をまったく異なる軸で与えてくれました。
それは何か新しい革新的なことです。例えば、アトムよりも優れた新しいオプティマイザー、ミューオンやシャンプーなど。あるいは、プレトレーニングを使ってより優れたモデルを見つけたり、拡散LLMのような新しいものがあります。トークンを自己回帰的に順次生成するのではなく、画像生成モデルのように、ノイズ削減プロセスとして行うのです。
そのような根本的に異なる新しいものがなければ、より多くのパラメータ数、より多くのトークンを持つ普通のトランスフォーマーを使用することのメリットは減少しているように思えます。なぜなら、合成ではないトレーニングトークンが不足しており、合成的に生成されていないテキストに関しては、本当に変化をもたらすのに十分ではないからです。そして、モデルは優れていても、トークンあたり20倍も支払う人は誰もいません。他のモデルも十分に良いので、1ドルではなく5セントかかるモデルを選びます。
これが私の答えです。そして、私がその記事を書いた日、NVIDIAや多くの企業は、これらのことをまったく織り込んでいませんでした。それは既に実質的に起こっていたことでしたが、点と点を結びつけ、正しい数学をし、これらすべてのことがどのような意味を持つのかを理解する必要がありました。それが市場が今追いついてきたことです。
たとえトランプの関税やその他の人々が話していることがなかったとしても、この過剰なものはまだあると思います。そしてそれが人々を脅かしているでしょう。
特に大手ハイパースケーラーの間で見られるダイナミクスの一つは、フロンティアモデルで自分の運命をコントロールする能力がなければ、企業全体が崩壊する可能性があるという軍拡競争です。そのため、ザッカーバーグは彼が投資するレベルで投資する意思があり、サティア(ナデラ)はサム・アルトマンのような不安定な人物と取引をする意思があるのです。
そして私が疑問に思っているのは、イーロンが、これらの大きな一貫したモデルでまだフロンティアの進歩の余地があることを示し、NVIDIAが本当にその規模の同一の計算ユニットを集めて、これらの大規模な一貫したトレーニングクラスターを構築できる唯一のプロバイダーであるとすれば、私たちが話したすべてにもかかわらず、レースがまだ続いており、決定的に勝利していないと感じる限り、2、3のプレーヤーが続けてイーロンを追いかけてこれらの大きなクラスターを構築しようとするかもしれないということです。
私はそれに懐疑的です。なぜなら、むしろ物事は逆方向を指し始めていると思うからです。モデルの知能はある種の商品化され始めており、私たちが大きな競争上の優位性と差別化要因だと思っていたものは、Deep Seekのgar one V3が出てきたときに崩壊し始めました。このモデルは本当に良くて、本当に安価で、安価な金額でトレーニングされていました。そしてこれは軍拡競争を弱めるものです。もし軍拡競争に留まるためには100億ドルかかると思っていたとすれば、この人が同じものを5億ドルで作り出したことを知って、あなたはばかげていると感じるでしょう。
もちろんそれもありますが、その1週間後にアリババの人が出てきて、ほとんど同じくらい良いけれど、メモリフットプリントの5%しか占めないものを出してくるのです。特に、この種の軍拡競争の勝者がPalerのような会社や、ビジネス問題を解決するために創出している価値の余剰を捉え、粘着性のあるインターフェースを持つ会社であるという明確さが増しているからこそ、あなたはほとんど無謀に思えます。
モデルを切り替えるよりも、Boundaryから離れる方が簡単です。そして消費者の心の中で、一般の人はClawが何かを知らないかもしれませんが、ChatGPTは知っています。ChatGPTは多くの心の中を占め、それは価値があります。
あなたはすでにこれをMicrosoftとAmazonで見始めています。MicrosoftはOpenAIと、AmazonはAnthropicと提携しています。特に、Anthropicが訓練のために400,000個のTrinum 2チップを使用するという大きな契約があるからです。ちなみに、NVIDIAだけが一貫したものを持つわけではありません。400,000個の同一のTriniumチップがあります。それぞれはB200ほど良くないかもしれませんが、もし400,000個あって、他の人が100,000個か200,000個しか持っていなければ、それで十分かもしれません。
そしてGoogleを忘れないでください。彼らはTPUを持っており、もはや多くを教えてくれませんし、もはや販売もしていません。しかし、TPUはすでにV6、つまり6番目のバージョンになっています。それが一貫した計算プールを構成しないと思いますか?私はそう思います。彼らはTransformerを発明し、TPUを長年持っていたことを考えると、モデルの質はそれほど高くないように見えますが。
人事部が…彼らがどのように驚くべき浪費をしているのか、Suがまだ仕事を持っているのか分かりませんが、それはどうでもいいことです。


コメント