Nvidia CTO Michael Kagan:ムーアの法則を超えて100万GPUクラスタへのスケーリング

Nvidia CTOのMichael Kaganが、半導体産業における40年以上のキャリアを通じて培った知見を語る。Mellanox共同創業者として、そして現在NvidiaのCTOとして、彼はAIコンピューティングの最前線を推進してきた。本動画では、ムーアの法則を超えたスケーリングの実現方法、単一チップから数十万チップを統合する巨大なファブリックへの進化、そしてネットワーク技術がいかにしてNvidiaのAI覇権を支えているかを解説する。さらに、訓練と推論のワークロードの違い、100万GPU規模のクラスタ実現に向けた課題、そしてAIが物理学や歴史をも実験科学に変える未来の可能性について語る。

Nvidia CTO Michael Kagan: Scaling Beyond Moore's Law to Million-GPU Clusters

Recorded live at Sequoia’s Europe100 event: Michael Kagan, co-founder of Mellanox and CTO of Nvidia, explains how the ...

Nvidiaの成功を支える文化とMellanoxの統合
コンピューティングの指数関数的成長とスケーリングの必要性
並列処理とネットワークの重要性
大規模クラスタの課題とソフトウェアによる設計
訓練と推論のワークロードの違い
データセンタースケーリングの限界と将来
IntelとNvidiaのパートナーシップ
Nvidiaの文化の変化と成功
AIの未来とサイエンスフィクション
最も楽観的なAIの未来

Nvidiaの成功を支える文化とMellanoxの統合

Nvidiaの興味深い点の一つは、ウィンウィンの文化です。私たちは既存のパイをより大きく切り取ることを目指しているわけではありません。私たちは皆のためにより大きなパイを焼くことを目指しています。そして、私たちの成功は顧客の成功なのです。私たちの成功は競合の失敗ではありません。

従来のコンピューティング、つまり人間と機械の融合と、Nvidiaが提供する高速コンピューティングを融合することで、実際にNvidiaとIntelに市場へのチャネルを与え、市場を拡大し、そうでなければより困難だった市場にサービスを提供することができると思います。

本日は半導体業界のレジェンドの一人、NvidiaのCTOであるMichael Kaganからお話を伺います。Michaelは以前Intelの主任アーキテクトであり、その後Mellanoxの共同創業者兼CTOとなりました。NvidiaはMellanoxを2019年3月に70億ドルで買収しました。

それ以来、MichaelはNvidiaがAIコンピューティングプラットフォームとしての支配的地位を確立する上で主要な推進力となってきました。これは主に、Mellanoxとインターコネクトがムーアの法則を超えてチップを推進する役割によるものです。

AI競争は最終的にはシリコン競争であり、シリコンの各ユニットから可能な限り最大の知能を引き出すための競争です。Michaelは、コンピューティングの最前線がどのように進化してきたかの旅に私たちを連れて行ってくれます。単一チップにより多くのトランジスタを詰め込むことから、数千、数十万のチップをネットワーキングで接続された単一のファブリック、つまりAIデータセンターに統合することへと進化してきました。

Michaelは40年以上にわたってコンピューティングの最前線を推進してきており、今日のショーに彼をお迎えできることを光栄に思います。

それでは、現在世界で最も価値のある企業であるNvidiaのCTO、Michael Kaganをお迎えしています。Michael、参加していただきありがとうございます。

こちらこそ、光栄です。

それでは、まず始めに、私たちのパートナーであるSeanは6ヶ月ごとに、NvidiaはMellanoxなしではNvidiaではなかっただろうという主張をしています。Mellanoxはあなたが約25年前に共同創業した会社で、今日までその一部であり続けています。その全体像を描いていただけますか。なぜMellanoxの買収がNvidiaにとってそれほど重要だったのでしょうか。

コンピューティングの指数関数的成長とスケーリングの必要性

世界にはコンピューティングの面で大きな転換があり、コンピューティングに対する需要があります。それは指数関数的に成長しています。私たちが通常直線的に推定するものの一つですが、世界は指数関数的であり、指数関数的成長は今や実際に加速しています。

かつてはムーアの法則のようなもので、基本的なシリコンに関するものでした。2年ごとに2倍になるというものでした。物理学の観点からムーアの法則がもうあまり機能していないという議論はさておき、2010年から2011年にAIが本格化したとき、そしてGPUがグラフィック処理ユニットから汎用処理ユニットになったとき、実際にワークロードを実行するようになりました。

初めてAIワークロードがGPU上で実行され、プログラマビリティとこのマシンの並列性を活用したとき、性能に対する要求は、はるかに高い係数で成長し始めました。

モデルはサイズと容量の面で3ヶ月ごとに2倍になり始めました。これは年間10倍または16倍の性能成長を必要とします。これは従来の2年ごとに2倍という古い学校の方式に比べてです。

このスケールで成長するためには、イノベーションが必要であり、基本的なコンポーネントよりもはるかに大きなスケールでソリューションを開発する必要があります。そこでネットワークが登場します。それがネットワークの役割であり、性能をスケーリングするための複数のレイヤーがあり、高速ネットワークと高性能ネットワークが必要です。

一つは私たちがスケールアップと呼ぶものです。基本的にCPU時代に遡ると、スケールアップはより多くのトランジスタであり、マイクロアーキテクチャのいくつかの進歩、例えばアウトオブオーダー実行や、ある時点でマルチコアなどでした。これがコンピューティングの基本的な構成要素です。

GPU世界では、基本的な構成要素はGPUです。そして、私たちがマイクロアーキテクチャや先進技術で行っている多くの進歩を持つ単一のシリコンチップ上でできることを超えてスケールアップするためには、マルチコアCPUのスケールと同様のことを、しかしはるかに大きなスケールで行う必要があります。それが私たちがエンベロープソリューションで行っていることです。

私たちが今日GPUと呼んでいるものは、ラックサイズのマシンです。持ち上げるにはフォークリフトが必要です。Amazonで単にGPUを注文すると、この巨大なラックが現れることに驚かないでください。人々はチップを思い浮かべますが、実際にはシステムなのです。

それがまさに1つのGPUです。基本的なコンピュータであり、アプリケーションソフトウェアが実行される最も基本的なコンピュータは、このGPUです。そしてそれは単なるシリコンではなく、単なるハードウェアでもなく、単なる配線でもありません。CUDAをAPIとして公開するソフトウェアレイヤーもあります。

これが実際に、単一のGPUだったものから最大72まで、ほぼシームレスにスケールすることを可能にし、同じソフトウェアインターフェースを維持します。私は話を少し簡略化していますが、このビルディングブロックを電力、コスト、効率の観点から考えられる限り大きく構築したら、次はスケールアウトを始めます。

スケールアウトとは、これらのビルディングブロックを多数取り、それらを接続し、アルゴリズムレベル、アプリケーションレベルで、アプリケーションを複数のピースに分割し、これらの大きなマシン上で並列に実行することを意味します。

そして、そこでもネットワークが登場します。スケールアップについて話すと、基本的に単一のコンピュートノード、単一のGPU上の単一のコンピュートノードを超えてメモリのようなドメインを作りました。そしてそれが実際に、Mellanox技術が登場する最初のポイントです。

なぜなら、Mellanox買収前は、NVINKを使ったNvidiaのスケールアップは単一ノードマシンに限定されていたからです。単一のコンピュートノードの外に出ること、これら72個のGPU、実際には2つのGPUを持つ36台のコンピュータであり、それらが配線されています。

これらすべてを単一のGPUとして提示し、単一ノードの外に接続を得ることは、単にコネクタにワイヤーを差し込むだけではありません。多くのソフトウェアがあります。複数のノードを単一のマシンとして機能させるためのネットワーク内の多くの技術があります。それがMelanloxの最初の、上流に行く方法という観点での最初のものです。

並列処理とネットワークの重要性

2つ目は、複数のマシンにわたって操作をどのように分割するかです。やり方としては、1つのGPUが1秒かかるタスクがあるとします。それを高速化したい場合、1000個に分割し、各ピースを異なるGPUに送ります。そうすると1ミリ秒で、1秒でやっていたことが完了します。

しかし、この部分的なジョブを分割し、タスクを分割し、結果を統合する必要があります。そして、これを何度も実行するたびに、複数の反復があり、複数のアプリケーションが実行されます。

計算を行う部分と通信を行う部分があります。ここで重要なのは、可能な限り多くのピースに分割したいということです。なぜなら、それがスピードアップ係数だからです。しかし、通信が実際にブロックしている場合、時間を無駄にし、エネルギーを無駄にし、すべてを無駄にします。

したがって、非常に高速な通信が必要です。多くの多くのピースに分割すると、各ピースにかかる時間は非常に短くなります。しかし、その後、通信される別のピースがあり、それをこの時間に供給する必要があります。それが純粋な帯域幅です。

もう一つは、アプリケーションをチューニングするとき、計算の背後に通信を隠すことができるようにアプリケーションをチューニングします。つまり、何らかの理由で通信が長くなると、全員が待つことになります。

したがって、ネットワークで行う必要があることは、ヒーローナンバーと呼ばれる単なる生のパフォーマンスを持つだけでなく、誰が誰と通信するかに関係なく、レイテンシ、つまりかかる時間の分布が非常に狭いことを確認する必要があります。

他のネットワーク技術や他のネットワーク製品を見ると、ヒーローナンバーに行きます。ある場所から別の場所にビットを送るのは基本的に物理学です。したがって、ほぼ全員に近いです。私たちは少し優れていますが、それは大きな利点ではありません。

しかし、これを何千回も行い、毎回同じ時間がかかる場合と、他の技術の非常に広い分布がある場合とでは、マシンの効率が低下します。したがって、ジョブを1000個のGPUに分割できる代わりに、10個のGPUにしか分割できなくなります。なぜなら、計算フェーズ内で通信内でネットワーク上のジッターに対応する必要があるからです。

本質的に、ネットワークはこのクラスタのパフォーマンスを決定し、私たちはこのデータセンターを基本的に単一のコンピューティングユニットとして見ています。単一のコンピューティングユニットとは、このデータセンター、つまり10万個のGPUを一緒に機能させたいと知っている時点で、コンポーネント、ソフトウェア、ハードウェアのアーキテクチャを始めることを意味します。

複数のチップ、コンピュートチップ2個、ネットワークチップ5個が必要です。これがスケールです。影響と、この単一のコンピューティングユニットを作成するために必要な投資の観点から言えばです。

それがMelanlox技術が登場した場所です。そして、これのもう一つの側面は、GPUを接続してタスクを実行するネットワークについて話しましたが、このマシンの顧客向けの別の側面があります。

このマシンは複数のテナントにサービスを提供する必要があり、このマシンはオペレーティングシステムを実行する必要があります。すべてのコンピュータはオペレーティングシステムを実行します。Melanlox技術のもう一つの部分は、BlueField DPU、データ処理ユニットと呼ばれるもので、実際にはデータセンターのオペレーティングシステムを実行するためのコンピューティングプラットフォームです。

従来のコンピュータでは、オペレーティングシステムとアプリケーションソフトウェアを実行するCPUがあり、利点と欠点について話すことができる多くのことがありますが、2つの重要なことがあります。

一つは、アプリケーションを実行するために汎用コンピューティングにどれだけの時間を費やすかであり、それを最大化したいということです。もう一つは、インフラストラクチャコンピューティングをアプリケーションコンピューティングからどのように分離するかです。ウイルスやサイバー攻撃などがあるためです。

異なるコンピューティングプラットフォームでインフラストラクチャコンピューティングを実行できることは、特にサイドチャネル攻撃において、同じコンピュータで実行する場合と比較して、攻撃面を大幅に削減します。

5年前、実際にはほぼ10年前になりますが、Meltdownなどのサイドチャネル攻撃がCPUに対してありました。これは起こらないか、異なるもので実行する場合は攻撃面が大幅に削減されます。

ネットワークの反対側にも技術があるため、データセンターがより効率的になります。私は客観的ではないかもしれませんが、MelanloxとNvidiaの合併に同意します。そして実際には双方向です。

現在はNvidia、以前はMelanloxのネットワークビジネスが、それほど大幅に成長することはできなかったと思います。私たちは最も急速に成長しているインターネットビジネスだと思います。NV LinkとInfiniBandを除いても、インターネットビジネスは史上最も急速に成長しているビジネスです。

大規模クラスタの課題とソフトウェアによる設計

10万、最終的には100万GPUクラスタに到達したときに何が壊れるのか、そしてそれを回避するためにソフトウェアをどのように使用するのでしょうか。

これは多段階の課題です。心に留めておく必要があることの一つは、すべてのエンジニアにとってあまり明白ではないことですが、マシンや物を設計するとき、それをどのように操作するかです。これらのコンポーネントがあって機能しているので、さあ、解明しましょう。

問題は、ハードウェアコンポーネントが99.999何パーセントの時間機能しているということで、単一のボックスやそのいくつかを扱っている場合は通常問題ありません。しかし、10万個のGPUマシン、つまりコンポーネントの観点では何百万個もある10万GPUマシンを構築している場合、すべてが機能する確率はゼロです。

何かが確実に壊れており、それを継続させるため、可能な限り効率的に継続させるため、パフォーマンスを維持するため、電力効率を維持するため、そしてもちろんサービスを継続させるために、ハードウェアとソフトウェアの両方の観点から設計する必要があります。

これが課題ナンバーワンです。数百万に到達する前でさえ、この課題は実際には数万から始まります。それがナンバーワンです。

ナンバーツーは、これらのワークロードを実行しているとき、時には全体のデータセンター上で単一のジョブを実行することが本当に重要であり、その場合、ソフトウェアを書く必要があり、ソフトウェアにすべてのインターフェースを提供して、ジョブのさまざまな部分をより効率的に配置する必要があります。

このスケールでネットワークを構築することは、単に汎用データセンターネットワークを構築するのとは非常に異なる話です。このスケールでコンピュートネットワークを構築することは、単に汎用データセンターネットワークを構築するのとは非常に異なる話です。

汎用データセンターネットワークはインターネットです。それは大したことではありません。まあ、大したことではありますが、それは異なる問題です。外部から顧客として見えるサービスを作成する、疎結合の協調的なマイクロサービスを提供しています。

ここでは、10万台のマシン上で単一のアプリケーションを実行しています。それは訓練ワークロードに特有のものですか、それとも推論ワークロードにも当てはまりますか。

すべてに当てはまります。スケールと推論に応じて異なりますが、推論はまた別のトピックです。最近まで訓練が重要なことでした。多くのGPUがあり、訓練が行われる非常に特定の方法がありました。

基本的に、このモデルを別の方法で複数のマシンまたは複数のマシンセットにコピーし、それらを実行し、結果を統合するなどです。推論では話が少し異なりますが、重要なのは、アプリケーション用にハードウェアと低レベルのシステムソフトウェアにフックを提供し、スケジューラがジョブとジョブのさまざまな部分を最も効率的な方法で配置できるようにする必要があるということです。

マシンが建物に収まる限り、約10万GPUで、ギガワットの電力について話していますが、多くの理由で複数のデータセンターにわたってワークロードを分割したいということです。

時にはデータセンターが何キロメートル、何マイルも離れています。大陸を横断する場合もあります。これはまた別の課題をもたらします。それは光速です。

マシンのさまざまな部分間のレイテンシ変動が劇的に異なり、さらに困難なのは、ネットワークについて話すとき、ネットワーク上の輻輳がネットワークパフォーマンスを悪化させる主要な問題の一つであることです。

このようなレイテンシ差を持って輻輳を管理することは、昔の古いテレコの時代のように、巨大なバッファを持つ何らかのボックスをデータセンターのエッジに置いて、輻輳のショックアブソーバーにするようなものではありません。

巨大なバッファは良くありません。大きければ良いというわけではありません。有名なWuanの有名な声明があります。したがって、これらのバッファ、またはこれらのデバイスは、基本的に外部世界を内部から隔離するためのものです。

しかし、キロメートル離れたデータセンター間で単一のワークロードを実行したい場合、片側のすべてのマシンは、誰と通信するか、それが短い通信か長い通信かを認識し、それに応じてすべての通信パターンを調整する必要があります。

したがって、これらの大きなバッファは必要ありません。大きなバッファはジッターだからです。そこで、最近開発した技術があります。すべてのイーサネットネットワークはSpectrum Xであり、これはデータセンターのエッジに配置するSpectrum Xスイッチに基づいて設計および開発したデバイスです。

それは、エンドポイントが輻輳に合わせて調整するために必要なすべての情報とテレメトリを提供します。

訓練と推論のワークロードの違い

訓練対推論についてもう少し話せますか。ワークロードの形状はどのように異なるのでしょうか。バックプロパゲーションははるかに計算集約的で、フォワードパスはそれほどではありませんが、ワークロードはどのように異なるのでしょうか。

そして、顧客の需要が事前訓練から推論へとシフトし始めているのを目にしていますか、それとも現在でも非常に訓練重視だと思いますか。そして、それに関する簡単なフォローアップ質問ですが、人々は訓練に使用するのと同じデータセンターで推論ワークロードを実行するのでしょうか、それとも異なる最適化のために、最終的には2つの異なるデータセンターセットを使用することになるのでしょうか。

素晴らしい質問ですね。最初のものから始めましょう。訓練には2つのフェーズがあります。一つは推論で、これは単なるフォワードプロパゲーションであり、その後、重みを調整するためのバックプロパゲーションがあります。

データ並列訓練では、複数のモデルコピー間で重みの更新結果を統合するためのさらに別のフェーズがあります。つい最近まで、コンピュートの主要な推進力は訓練でした。

2年ほど前まで、AI時代では長い期間ですが、推論やAIは主に知覚的なものでした。写真を見せて「それは犬です」と言います。人の写真を見せて「それはMichaelです」「それはSoniaです」というように、それは単一パスであり、それで終わりです。

その後、生成AIが登場し、実際に再帰的な生成が行われるようになりました。プロンプトを入力すると、それは1つの推論だけでなく、多くの推論になります。なぜなら、テキストを生成したり画像を生成したりするすべてのトークンに対して、マシン全体を再び通過する必要があるからです。

ワンショット推論の代わりに、さらに多くがあり、そして現在は推論があります。これは、マシンが考え始めることを意味します。今何時ですかと尋ねられたら、それは簡単です。今何時か言えます。

しかし、もっと複雑な質問をされたら、考える必要があります。待つ必要があるか、複数の解決策や複数のパスを比較する必要があるかもしれません。そしてそのような各事柄が推論です。すべてが推論です。

推論自体には実際に2つのフェーズがあります。一つははるかに計算集約的で、もう一つはメモリ集約的です。それは私たちがプリフィルと呼ぶもので、推論を行うときに何らかの背景、つまりプロンプトがあります。

答えを生成するためのコンテキストを処理して作成する必要がある関連データがあり、これは非常に計算集約的です。あまりメモリ集約的ではありません。もう一つの部分は、実際に答えを生成することで、これが推論のデコード部分であり、トークンごとに生成します。

複数のトークンを生成できる技術がありますが、それでも単一パスは最終的な答えよりもはるかに少ないです。したがって、これらすべてを組み合わせると、推論の計算需要は訓練よりも実際には少なくありません。実際にはさらに多いのです。

これには2つの理由があります。一つは、私が説明したように、推論に使用されていたよりもはるかに多くの計算があることです。もう一つは、モデルを一度訓練しますが、何度も推論するということです。

ChatGPTには、ほぼ10億人、10億人近い顧客がいますよね。彼らは同じモデルを常に叩いています。彼らは一度訓練しましたが、今は推論を行っています。今は動画を作っています。誰もが推論を行っています。

私の妻は、彼女がChatを発見してから、私よりもChatと話すことが多いと思います。それが彼女の親友です。したがって、マシンに関するあなたの質問に関しては、電話で推論できます。

したがって、推論のためのはるかに小規模なインストレーションが確実にあるでしょう。モバイルデバイスのようなものです。データセンタースケールを見ると、データセンタースケールと、プログラマビリティの効率は、ハードウェアの最適化よりもはるかに実行可能です。

すべてのハードウェアインスタンスには独自のコストと独自の欠点があります。特定しない限り、そして私は思いませんが、プリフィル対デコードのためのGPUとは別に、非常に似たGPUであり、同じプログラミングモデルです。

いつ起こったか覚えていませんが、実際にプリフィルに最適化されたGPU SKUを構築していると発表しました。したがって、デコードを行うことができ、デコードGPUはプリフィルを行うことができます。

データセンターをプリフィルのためのSKUまたはデコードのためのSKUで装備して、典型的な使用に最適化できます。しかし、ワークロードがより多くのデコードからより多くのプリフィルにシフトする場合、そのいずれかを使用して補完できます。

そして、これがプログラマビリティの重要性です。GPUの同じインターフェースです。CUDAに基づいています。これがMelanloxの前にNvidiaをNvidiaにしたものです。

データセンタースケーリングの限界と将来

データセンタースケーリングについて質問させてください。何十年もの間、ムーアの法則があり、チップはますます高密度になり、ますます良いパフォーマンスを生み出しました。

その後、物理法則にぶつかり、量子力学的特性のために分解するため、チップはそれ以上高密度になれませんでした。そのため、ラックレベルにスケールアップし、現在はデータセンターレベルにスケールアウトする必要がありました。

データセンタースケーリングの類似した法則があり、データセンターが大きくなりすぎると通信オーバーヘッドがパフォーマンスを分解させると言っているのでしょうか。あるいは、もっと単純に言えば、データセンターがどれだけ大きくなれるかには自然な限界がありますか。

データセンターの特定のサイズ内でどれだけのエネルギーを消費できるかという実用的な限界があると思います。しかし、原子力発電所に囲まれていて、エネルギーが利用可能であれば、データセンター自体は機能するでしょうか。

わかりません。私は建設の専門家でさえありません。しかし、エネルギーが入ってくると、熱が出て行きます。したがって、私たちは今、基本的にほぼ完全に液体冷却に移行しました。

私たちがそれを行った理由の一つは、はるかに高密度の計算能力を可能にするためです。私たちが今構築しているような高密度のコンピューティングを、空冷では構築できませんでした。

したがって、これをより高密度にするのに役立つ多くの技術が登場しています。現在、xAIのスケールのような最後の大規模データセンターは100または150メガワットです。現在、ギガワットのデータセンターについて話しています。人々は10ギガワットのデータセンターについて話しています。

したがって、はるかにはるかに大きなデータセンターを構築することを楽しみにしています。そして、データセンターを他の宇宙に送っているのですか。とてもクールです。

データセンターの展開速度を決定するものの一つは、コンクリートがどれだけ早く安定するかです。

IntelとNvidiaのパートナーシップ

Melanloxを始める前、あなたはIntelにいましたね。16年間、主任アーキテクトになりました。NvidiaとIntelは最近パートナーシップを発表しました。そのビジョンについて少し共有していただけますか。

出発点は、過去10年、あるいはもう少し長い期間で、コンピューティングが変化したということです。Nvidiaは高速コンピューティング会社として始まりました。ビデオゲームが最初でした。その後、データ処理の新しい方法であるAIに進化しました。

汎用の人間マシンだけでは、問題を解決するためのプラットフォームとして使用することはできません。人間マシンでプログラミングすることは、誰かに何をすべきかを説明することです。

私は多くのことを説明できますし、多くの人に何をすべきかを説明できますが、猫と犬を区別する方法を説明することはできません。したがって、AIが解決する新しい課題があり、そこには加速が必要です。

Intelとの私たちのパートナーシップは、実際には高速コンピューティングと汎用コンピューティングを融合することです。なぜなら、汎用コンピューティングはなくなりません。

すべてが加速されますが、私たちは汎用コンピューティングを加速し、アプリケーションを加速します。x86はそこで支配的なアーキテクチャであり、両社に大いに役立つでしょう。

実際、Nvidiaについての興味深いことの一つは、ウィンウィンの文化です。私たちは既存のパイのより大きなピースを取ろうとしているわけではありません。私たちは皆のためにより大きなパイを焼こうとしています。

そして成功、私たちの成功は顧客の成功です。私たちの成功は競合の失敗ではありません。私たちの成功は顧客の成功であり、エコシステムの成功です。

そして、従来のコンピューティング、人間マシンと、Nvidiaが提供する高速コンピューティングを融合することは、実際には、それが何であるかはわかりませんが、別の次元を開くでしょう。

しかし実用的な短期的な見方では、これはNvidiaとIntelに市場へのチャネルを与え、市場を拡大し、そうでなければより困難だった市場にサービスを提供します。

Nvidiaの文化の変化と成功

あなたはNvidiaの文化について言及しました。Melanloxが2019年にNvidiaの一部になったとき、合併会社の時価総額は約1000億ドルでした。それは冗談ではありませんが、今日の時価総額は約4兆5000億ドルです。

そうです。

したがって、6年間で価値が45倍に成長することは非常に驚異的です。それはNvidiaの文化をどのように変えましたか。今日のNvidiaは、世界で最も賞賛される企業の一つ、最も賞賛される企業でないにしても、6年前と比べてどのように異なりますか。

私たちが参加したばかりのとき、Jensenがイスラエルにいて、私は彼にプレゼンテーションしました。1+1は10になると信じていると。そして実際、私は4倍外れていました。

しかし、MelanloxとNvidiaは、ある意味では似ています。最初から文化が非常に似ていますが、絶対的に似ているものはありません。そして、私は買収後数ヶ月後に残った唯一の創業者でした。

そして、最初の私の主な焦点は、シャワーで何を考えるかでしたが、この買収を確実に成功させる方法でした。NvidiaはI私が創業した会社に70億ドルを支払いました。そこにあったすべての複雑な感情がありましたが、一度それが行われたら、それは行われました。

今、私はそれを成功させなければなりません。最終的にはうまくいきました。イスラエルの従業員のほとんどは残りました。元の従業員の85%または90%だと思います。実際、Nvidiaはイスラエルで人員の観点から2倍以上成長しました。

したがって、私たちは成長しており、実際にイスラエルにNvidiaの新しいキャンパスを建設すると発表しました。したがって、全体として合併は非常に成功したと思います。

私は成功を確実にするために最善を尽くしましたし、私が見ていた技術以外に、これは技術の一部であり、技術と神学であり、人々がイスラエルの本社であるMelanloxの中心にいることから、遠く離れたどこかに残されていると感じないようにするための他の多くのことがあります。

Jensenは基本的に、ネットワーキングをMelonの成功、Nvidiaの成功の重要な部分として強調しています。彼は正しいです。したがって、これは技術の歴史の中で最も成功した合併の一つと考えられていると思います。

あなた方は私よりもこれらのことをよりよく追跡していると思いますが、全体として、それは素晴らしい動きだったと思います。

AIの未来とサイエンスフィクション

あなたが時間を費やして考えているサイエンスフィクション的なことは何ですか。たとえば、光インターコネクトです。それが存在すると思いますか。AIが物理学で私たちよりも優れ、データセンター設計で私たちよりも優れると思いますか。

私が考えていることは、歴史を実験科学にする方法です。物理学を見ると、何かを試してみて、それが機能するかどうかを見てから、他のことを試すことができます。歴史では時間は一方向に進みますが、世界の優れたシミュレーションがあれば、歴史を経験にすることができます。

私たちはEarth 2気候シミュレーターを持っており、このタイプの技術で、今日行うことが50年後に地球温暖化にどのように影響するかを実際にシミュレートできます。

実験科学です。何かを試してみて、50年後に何が起こるかを見ます。それがサイエンスフィクション部分です。

そして物理学では、現在、推論などから移行しています。AIモデルが物理学を理解するようになったら、実際に物理学を学ぶことができます。

AIは物理学を教えることができます。なぜなら、私たちが観察する物理法則に到達する方法、理論物理学は、何らかの現象を観察し、それを一般化し、基本的にこの現象の下にある物理法則である規則を構成するからです。

AIはデータ処理と観察の一般化に本当に優れています。したがって、私たちが今想像さえしていない物理法則を知るのに役立つことができます。

ムーアの法則は2年ごとに2倍でした。Hang+Kaganの法則とは何ですか。傾きは何で、どのくらいの期間維持できると思いますか。

傾きは年間10倍または数桁の範囲のどこかにあります。そして、それが私たちが実際に行っていることです。現在、約2、3年前から、製品導入を2年ごとから毎年に加速しました。

現在、毎年新しい製品の新しい波を導入しており、それは桁違いに高いパフォーマンスです。そして、それはチップレベルのパフォーマンスではなく、これで構築できるマシンのパフォーマンスです。それが私たちが見ているものであり、単一のコンピューティングユニットです。

どのくらいの期間続くかはわかりませんが、必要な限りそれを維持し、おそらくさらに加速するために最善を尽くします。すべては指数についてです。すべては指数についてです。

想像するのは難しいです。このムーアの法則曲線や任意のロール曲線を見ると、通常、対数スケールでプロットします。したがって、直線のように見えますが、それは間違った見方です。何が起こるかを予測することはできません。

iPhoneやスマートフォンが最初に導入されたとき、2007年ですよね、2007年、17年前です。誰が予測できたでしょうか。このスマートフォンで、少なくとも私にとって、最も使用されていない機能が電話であることを。

すべてがeコマース、テキスト、ニュース、メール、基本的にこのマシンから人生を運営しています。認証、IDがそこにあります。

今から10年後、今日行っているこれらすべての開発で何が起こるかを誰が想像できるでしょうか。しかし、私たちはイノベーションのためのプラットフォームを構築しています。

最も楽観的なAIの未来

誰が想像できるかというあなたのコメントにもかかわらず、あなたが考えるのが好きな、AIとの私たちの未来の最も楽観的な見方は何ですか。5年後、10年後、15年後、AIは世界のために何ができるでしょうか。

Steve Jobsはコンピュータを心の自転車と呼びました。AIは、宇宙船かもしれません。なぜなら、やりたいことがたくさんありますが、それを行うための十分な時間やリソースがないからです。

AIがあれば、それを持つことになります。そして、それは2倍多くやるという意味ではないかもしれません、10倍多くやるかもしれませんが、重要なのは、今日やりたいことの100倍をやりたいと思うということです。

そして、それがどこに行くかです。どのプロジェクトリーダーに行っても、十分な人材がいる、十分なリソースがあると言う人はいません。もう必要ありません。

2倍効率的なリソースを与えれば、4倍多くのことをします。そして10倍多くのことをやりたいと思うでしょう。それは電気が世界を変えたようなものです。

ロンドンでは、まだこのガスランプとガスをエネルギー源として使用するためのこのインフラストラクチャが見られます。この電気が発明されたときに、それが世界を変え、電気なしでは生きられないと誰が考えたでしょうか。

AIも同じです。

美しく言われました。本日はご参加いただきありがとうございました。この会話が大好きでした。

ありがとうございます。

お招きいただきありがとうございました。