マスク曰くH100の4分の1で十分。彼は正しいのか?

イーロン・マスクがTeslaのAI4チップはNvidia H100の約4分の1の消費電力で動作すると主張し、AI業界に波紋を広げている。Epic Gamesのティム・スウィーニーは人間の脳のシナプス数を引き合いに出してこの主張に疑問を呈したが、マスクの論点は単なるパラメータ数ではなく「知能密度」――つまりワットあたり、ギガバイトあたりの知性効率である。実際、TeslaのAI4チップは150ワットで動作し、完全なフェイルオーバー冗長性を備えながら自動運転とOptimusロボットの両方を駆動している。これは単なる技術比較ではなく、エッジデバイスの効率性がデータセンターの力任せスケールを上回り始める、AI経済学の根本的転換を示唆している。

Musk Changes the AI Arms Race!

Get 5% off your Jowua order: help navigating AI, robotics, and the future of tech? I offer keynotes, h...

イーロン・マスクの大胆な主張
AI業界が理解していない知能密度の可能性
ティム・スウィーニーの生物学的比較論
TeslaのAI4チップの実力
H100とAI4の詳細比較
知能密度が示す真の意味
AI経済学への影響
まとめ

イーロン・マスクの大胆な主張

イーロン・マスクが、TeslaのAI4コンピュータ、つまりTesla車両における実世界の運転を処理するコンピュータは、Nvidia H100の約4分の1の電力しか使用していないと述べました。これはかなり大胆な主張です。そしてティム・スウィーニーは生物学的比較可能性の論拠を用いて反論しました。もし脳が約100兆個のシナプスを持っているとしたら、この比較はそもそも筋が通っているのでしょうか?

今日は、このノイズを切り抜けて3つの質問に答えたいと思います。イーロンとティムは同じ種類のものを比較しているのか? ここで実際に重要な指標は何なのか――パラメータ数、FLOPS、ワット数、レイテンシ、それとも安全性の結果なのか? そして3つ目、これはAIにおけるはるかに大きなシフト、つまりエッジでの効率性がデータセンターでの力任せのスケールを打ち負かし始めるという変化を示しているのでしょうか? なぜならもしそのシフトが本物なら、これは単なるTeslaの話ではありません。自律性の話であり、ロボティクスの話であり、そしておそらく次のAI経済学の話なのです。では見ていきましょう。

始める前に、私のチャンネルスポンサーであるJoahに簡単に感謝を。彼らはTeslaや他のEV向けの素晴らしいアクセサリーを作っており、優れた保証とカスタマーサービスも提供しています。実際、私は彼らのアクセサリーを毎日使っています。説明欄のリンクから、ファン冷却式の携帯電話充電器、ポータブルタイヤインフレーター、折りたたみ式ラップテーブル、その他多くのアイテムが5%オフで手に入りますので、ぜひチェックしてください。ああ、それにこれらはあなたやEV好きの友人への完璧なギフトにもなりますよ。ぜひJoahをチェックしてください。では、本題に戻りましょう。

やあ皆さん、Dr. Know It Allです。まずはこのティム・スウィーニーのリポストから始めます。これは2月28日のダスティンの投稿に対するものです。そしてこれは実際には、イーロンが約2週間ほど前、バレンタインデー頃に行ったインタビューです。ただしこれははるかに長いインタビューのほんの一部です。オリジナルへのリンクは説明欄に残しておきます。私はすでにこのインタビューの一部について動画を作りましたが、この特定のセクションについてはまだでした。

ところで、もしチャンネルを手伝って10万人の登録者達成を助けたいと思ってくださるなら、ぜひ登録を検討してください。とても助かります。ありがとうございます。では、インタビューのこの部分を再生しましょう。わずか1分18秒です。その後にティム・スウィーニーの反応、そしてティム・スウィーニーに対するイーロン・マスクの返答が続きます。そこでかなりクレイジーな主張が出てきます――TeslaのAI4チップは、データセンターに存在するNvidia H100の約4分の1の電力だという主張です。

AI業界が理解していない知能密度の可能性

AI界の大多数の人々はまだ理解していないんです。つまりですね、ほとんど誰も理解していないことがあります。知能密度のポテンシャルは、私たちが現在経験しているものよりもはるかに大きいということです。ですから私は、ギガバイトあたりの知能密度という点で、桁違いに足りていないと思っています。

達成可能なものの100分の1だと?

はい。

ギガワットのエネルギーあたり?

いや、ファイルサイズあたりです。

AIのファイルサイズのことですか。もし知能を得ようとするなら…

分かりました。

ラップトップでも何でもいいんですが、同じことができます。

つまり2桁の改善ということですか?

はい。

そしてあなたが言ったように、あなたはリングサイド、コートサイドの席に座っているわけですから、分かるでしょう?

そうですね、はい。

アルゴリズム的な改善だけで2桁の改善。同じコンピュータでです。そしてコンピュータ自体も良くなっています。

ええ、そうですね。

そしてより大きく。つまりコンピュータは良くなっていますし、予算も大きくなっています。

だから私は、年間10倍の改善のようなものだと思っています。絶対に。

ええ。そしてそれは今後も起こり続けるでしょう。予見可能な未来にわたって。

ティム・スウィーニーの生物学的比較論

ティムは3月1日にこれに返信しました。それはかなり驚くべき考えです。もしそれが本当なら、今日の最先端のテキストAIと競合するモデルが今日のラップトップで動作し、今日最高のものと競合する画像モデルは100枚の写真のサイズになるということを意味します。つまり知能密度のその増加、データセンター全体を使って保存し動作させる必要がある非常に拡散した知性から、小さなハードドライブに収まりデータセンターではなくラップトップで動作できるものへと縮小されるということです。それがイーロンが主張していることであり、ティムが少し反論していることです。

それからティムは自分自身に返信して、人間の脳は約100兆個のシナプスを持つと推定されており、これは非ゼロの行列要素、今ではパラメータと呼ばれるものにほぼ匹敵すると述べています。つまりそれらはニューラルネットワークモデルで調整する小さなノブです。これらは人間の脳のシナプスにほぼ相当するものです。

比較は完璧ではありませんが、まあ大まかな桁数レベルの計算をしているわけですから、そう呼んでもいいでしょう。とにかく彼は、生物学的比較可能性の論拠により、これは無理があるように思えると言っています。言い換えれば、私たちは現時点で100兆パラメータのモデルを持っていないということです。

しかしそれからティムは自分自身の返信で自分に反論します。しかしながら、もう一つの可能性は、生物学が極めて非効率的で低帯域幅のシグナリングに最適化せざるを得なかったということです。言い換えれば、私たちの人間の脳とデジタルアーキテクチャは、より少ないリソースではるかに優れた結果を出せるということです。

TeslaのAI4チップの実力

そしてこれに対するイーロンの返答は、TeslaのAI4コンピュータというものでした。つまり、現代のTesla車両すべての内部にあり、実世界での運転の膨大な複雑さを理解しているコンピュータは、H100の約4分の1の電力しか使っていないということです。それが私をこの結論に導いたものです。

つまり彼がここで言っているのは、電力の面でもストレージの面でも、AI4チップはNvidia H100の約4分の1の電力しか使っておらず、実世界で運転できるという事実、実世界でものを操作でき、また現時点でOptimusがどのレベルで機能していようとも、Optimusに電力を供給できるという事実を考えると、この知能を100%の何であれから25%に圧縮できるということを意味すると言っているのです。これが彼の主張です。

さて、これは10倍や100倍の改善ではありませんが、知能密度における4倍の改善ではあります。そして2月20日付けのTesla AIからの投稿、つまり現時点でわずか数週間前の投稿が、実際にこれと関連していて、私が実際には確実に真実だと知らなかったことを説明しています。投稿の内容は、私たちのAI4チップは完全なフェイルオーバー冗長性を備えて構築されています。

つまり2つのコンピュータが並行して動作し、お互いをチェックし続けるので、もし一方に問題があれば、もう一方が即座に引き継ぐことができるということです。このチップは、車両のFSDとTesla Optimusの両方に電力を供給しています。明らかに、AI5が出たらそれを使用するでしょうが、現時点ではAI4を使用しています。しかしここでの重要な声明は完全なフェイルオーバー冗長性です。

つまり、これらのチップの両方がAI4において互いに独立して動作しているということであり、これはかなり注目すべき偉業です。AI3では、Teslaは両方のチップを同時に利用しなければなりませんでした。なぜなら計算ニーズが非常に激しく、AI3チップが個別にはそれを処理できなかったからです。ですから彼らは必要な速度で動作させるために、両方のチップを一緒に結び付ける必要がありました。

しかしAI4にはまだ十分なオーバーヘッドがあり、完全に独立して動作させることができ、完全なフェイルオーバー冗長性を持つことができるようです。これは安全要因の観点から知っておくと本当に本当に有用です。つまりこれらのTeslaでは、これらのチップの1つが故障したり間違った結果を出したりしても、もう一方が即座に引き継ぐことができるということです。ですからこれは実際、安全の観点から本当に良いことです。しかし計算の観点からも同様です。

つまり彼らはこのレモンから大量のジュースを絞り出したということです。そして私個人としては、彼らがこれら両方のAI4チップを結び付けているとただ想定していました。しかしこれは、先ほど言ったようにわずか数週間前の投稿で、実際には両方を結び付けてすべての計算を一緒に利用する必要がなく、個々のチップで同時にニューラルネットワークスタック全体、必要なすべてを動作させていることを示しています。

ですからこれは知っておくと本当にクールなことです。

H100とAI4の詳細比較

それでは、ChatGPTに作成してもらった、Nvidia H100とTesla AI4チップの違いについてのサマリーに進みましょう。ここにはいくつかの推定値があることが分かります。特にTesla AI4チップについては、Teslaがこの時点でこのチップのすべてのスペックを公開していないからです。でもとにかく、これら2つのチップの違いについてかなり妥当な試みをしています。

左側にNvidia H100があります。右側にTesla AI4チップがあります。そして比率、違いです。これはイーロンが約4分の1の電力と言ったことに関連しています。とにかく、明らかにデータセンター対車両とOptimusにおけるエッジ推論です。ここでの消費電力は非常に重要です。

H100は最大700ワットを消費しますが、Tesla AI4チップは最大150ワットしか消費しません。ちなみにこれは、両方のチップが同時に動作している完全なボードについてです。明らかにこれは非常に非常に重要です。なぜならバッテリーで動作しているからです。ですからこれを700ワットや1,000ワットで動作させることはできません。車両自体の航続距離を食いつぶしてしまいます。

次に、メモリはNvidiaチップで約80から94GBの高帯域幅メモリであるのに対し、AI4チップでは約16GBのDDR5 RAMしかないことが分かります。メモリ帯域幅、そしてこれも重要です。もし昨日の私の動画を見逃したなら、ここでチェックできますし、この動画の最後にも置いておきます。

しかしメモリ帯域幅は、ストローを通してデータを吸い上げることです。これはAI計算にとって本当に大きな問題です。でもNvidia H100のメモリ帯域幅は約3.5テラバイト毎秒であることが分かります。一方、TeslaのAI4は約300から400ギガバイト毎秒しかありません。つまりメモリ帯域幅は約10分の1で、メモリ自体も5分の1です。

そしてFP8、FP16、FP32はスキップして、INT8推論に進むことができます。なぜならTesla AIはAI4チップでこれを使用していると述べているからです。Nvidia H100は約3,958 TOPSであるのに対し、TeslaのAI4チップは約500から700 TOPSしかないことが分かります。つまりAI4ボードは、INT8を使用したこれらのH100の推論パワーの約5分の1しか持っていないということです。

そしてもちろん、熱放散もあります。データセンター冷却があります。液体冷却があります。ファンがあります。巨大な、まあ何でもいいですが。データセンターを冷却するために必要なだけのエネルギーがあります。一方、Teslaは液体冷却を使用しています。ボードに液体を流しているからです。しかし一般的には受動的です。車がラジエーターにファンを回して熱を取り除いているのです。ですから、Tesla AI4チップの熱放出エンベロープは、エッジデバイスなので、データセンターの計算ノードよりも明らかにはるかに小さいです。

そしてChatGPTが最も重要なH100のスペック対AI4のスペックを抽出したことが分かります。そして私たちは、イーロンが行ったH100の4分の1という主張に到達します。

INT8推論スループットを比較すると、つまり私たちが話していたものですが、H100は約4,000 TOPSであるのに対し、AI4チップ、Tesla AI4チップは約600 TOPSで、これは約0.15、つまり精度によりますが5分の1と4分の1の間くらいです。そしてここで非常に非常に重要なことが記されています。AI4はこれを700ワットではなく約120ワットほどで行っているということです。

ですから具体的には、ワットあたりのパフォーマンスが非常に非常に高いのです。そしてこれはTeslaのAIチームが取り組まなければならなかったことです。これは問題を解決する上で多くの創造性を生み出す種類の制約です。なぜなら彼らはバッテリーで動作しなければならない非常に低電力エンベロープのチップを持っているからです。ええ、大きなバッテリーではありますが、それでもそのバッテリーで動作しなければならず、そのバッテリーは車自体にも電力を供給しなければなりません。

ですから、AI4チップが非常に低いワット数で動作できることが非常に重要なのです。

知能密度が示す真の意味

さて、ここで見ることができるように、AI4コンピュータはH100の約4分の1の電力しか使っていないというイーロンの主張は、すべてのスペックを見れば、かなり妥当な主張です。そしてティムの人間の脳の100兆パラメータカウント、人間の脳の実効的な100兆パラメータカウントについての指摘は重要なデータポイントですが、それは不完全です。

最も重要なのは、すでにそこにある知能の利用です。私はタコについてのビデオを見たばかりです。彼らは頭に脳を持ち、目に2つ、そして手足のそれぞれに1つずつ持っています。彼らは人間とは非常に異なる分散型ニューラルネットワークアーキテクチャを持っています。それでも彼らは信じられないほど知的です。

彼らはチャイルドプルーフのボトルを開けることができます。非常に非常に洗練されたパズルを解くことができます。しかし彼らは人間よりもはるかにはるかに少ないニューロンしか持っていません。そしてそれは人間の知能とは非常に異なる方法で分散されています。ですからこれらの計算ノードと類推して考えるなら、アーキテクチャ、トレーニングデータの質、トレーニングする目的関数、そしてこれらすべてをどのように展開するかが、生のパラメータカウントと同じくらい、おそらくそれ以上に重要であるという事実について考えることができます。

そしてイーロンとTesla自体にとって本当に重要なのは、ワットあたりの知能とギガバイトのメモリあたりの知能です。これらが他の何よりも重要な2つのことです。明らかに、使うお金の額も重要ですが、2つの主要なものは、ポータブルな計算デバイスなので吸い込む電力のワットあたりにこのモデルをどれだけ賢くできるか、ということです。

そしてまた、取得するRAMのギガバイトあたりにこのモデルをどれだけ知的にできるかです。なぜなら、覚えておいてください、RAMの1ギガバイトごとに、私たちは長いストローを通して物を吸い上げているのです。それが昨日の私のビデオのすべてでした。そしてもしモデルを小さくできれば、それは相対的に低帯域幅のデータパイプを通してデータを前後に吸い上げることを、非常に肥大化した低密度の知能モデルを持っている場合よりもはるかに効率的に行っているということを意味します。

AI経済学への影響

そしてここで経済学が関係してきます。もしH100やGrace Blackwellチップのようなものに一定額のドルを使うつもりなら、使用する電力の各ワットから最大の計算を絞り出したいと思うでしょう。なぜならそれはお金がかかるからです。そのカード上の、そしてデータセンターやエッジデバイス内のメモリの各ギガバイトから可能な限り最大の計算を絞り出したいと思うでしょう。なぜならそれも莫大な経費だからです。

もし低密度の知能モデルと比べて10倍少ないGPUやテンソル処理ユニットなどを買う必要があるなら、それは経済的影響があります。お金を節約したい。電力を節約したい。トークンや運転の決定やその他何であれ、それを可能な限り最も効率的な方法で生成したいのです。

そしてそれがイーロンがここで話していることです。ですから本当にこれは経済的議論になります。もしより小さい電力とメモリのフットプリントからより多くの知能を絞り出すことができれば、競合他社に対して経済的優位性を持つことになります。そしてそれが、過去10年ほどの間にTeslaのAIチームが対処しなければならなかった実世界の制約が本当に実を結ぶところです。

そして私が大きく間違っていない限り、XAIもこの情報の一部を活用し、より効率的なモデルを作成していると予想します。例えばGrok 5は、本当に本当に最先端で、非常にリーディングエッジであるはずです。そして私はそれがまた非常にエネルギー効率的でメモリ帯域幅効率的でもあると予想します。私たちはまだこれについての事実を知りませんが、可能な限り最高密度の知能を作ることについてTeslaが行ってきたすべての研究がXAIに転送され、彼らによって活用されていると予想します。そしてそれは彼らにも大きなアドバンテージを与えるでしょう。

つまりこれは、バッテリーで動作しなければならないエッジデバイスから、巨大なデータセンターで動作するデバイスまで、スペクトル全体にわたって、イーロンの複数のAI重点研究チームが、最小のエネルギーとメモリのフットプリントから最大の計算、最大の知能を得ているということを意味します。

そしてそれは、今後数年間のAI競争で誰が先頭に立つかに大きな影響を与えるでしょう。そしてもちろん、イーロンを信じるなら、それは近い将来、TeslaとXAI、あるいはSpace XAIになるでしょう。

まとめ

さて皆さん、今日お届けした内容は以上です。これらすべてについてどう思うか、コメント欄で教えてください。そこにいる間、もしよろしければビデオに「いいね」をしていただけると、本当に助かります。

そして言ったように、もし私が10万人の登録者に到達するのを手伝いたいと思ってくださるなら、登録しているか確認し、していない場合は登録してください。それでは次のビデオでお会いしましょう。バイバイ。