
40,257 文字

これが知性が作られる方法です。新しい種類の工場、AIの構成要素であるトークンのジェネレーター。トークンは新しいフロンティアを開き、非凡な世界への第一歩となりました。そこでは無限の可能性が生まれます。
トークンは画像を科学データに変換し、異星の大気を図示して明日の探検家を導きます。生データを予見に変え、次回に備えることができるようにします。トークンは物理法則を解読して、より速く、より遠くへ私たちを連れていきます。
トークンは病気が発症する前に見つけ出します。生命の言語を解読し、私たちの仕組みを学ぶのを助けます。トークンは点と点を結びつけて、最も気高い生き物を守ります。潜在能力を豊かさに変え、収穫を助けます。
トークンはロボットに動き方を教えるだけでなく、喜びをもたらし、手を貸し、生活を手の届くところに置きます。
私たちは共に次の大きな飛躍を遂げ、誰も行ったことのない場所へ勇敢に進みます。そしてここがすべての始まりです。
NVIDIAの創業者兼CEOのジェンセン・フアンをステージにお迎えします。
GTCへようこそ。なんと素晴らしい年でした。人工知能の魔法を通じて、NVIDIAの本社にお連れしようと思います。あれがNVIDIAの本社です。あそこが私たちの職場です。
素晴らしい一年でした。お話しすることがたくさんあります。スクリプトもテレプロンプターもなく、ネットなしで話していることをお知らせしておきます。たくさんのことをカバーしなければならないので、始めましょう。
まず、スポンサーの皆様、このカンファレンスに参加してくださったすべての素晴らしい方々に感謝申し上げます。ほぼすべての産業が代表されています。ヘルスケア、交通、小売り、そしてもちろんコンピュータ業界のすべての企業が参加しています。皆さんにお会いできて本当に素晴らしいことです。
GTCはGeForceから始まりました。今日ここにGeForce 5090を持っています。信じられないことに、GeForceの開発を始めてから25年後、25年経った今でもGeForce 5090は世界中で売り切れています。これは90、Blackwell世代です。490と比較すると、体積が30%小さく、エネルギー放熱が30%良くなり、パフォーマンスが信じられないほど向上しています。比較するのも難しいほどです。
その理由は人工知能です。GeForceはCUDAを世界にもたらし、CUDAがAIを可能にし、AIがコンピューターグラフィックスを革新しました。お見せしているのはリアルタイムのコンピューターグラフィックス、各ピクセルに対して100%パストレースされています。レンダリングされる各ピクセルに対して、人工知能が残りの15を予測します。
これは一瞬考えてみてください。数学的にレンダリングした各ピクセルに対して、人工知能が残りの15を推論しています。そして画像が正しく見え、時間的に正確であるよう、非常に高い精度で行わなければなりません。つまり、フレームからフレームへ、コンピューターグラフィックスなので前後に動いても時間的に安定していなければならないのです。信じられない、人工知能は素晴らしい進歩を遂げました。
AIについて話すようになってからわずか10年です。それ以前からAIについて少し長く話してきましたが、AIが世界の意識に入ってきたのは約10年前です。知覚AI、コンピュータービジョン、音声認識から始まり、次に生成AI。過去5年間は主に生成AIに焦点を当ててきました。AIに一つのモダリティから別のモダリティへの変換方法を教えること、テキストから画像、画像からテキスト、テキストから動画、アミノ酸からタンパク質、化学物質の特性など、AIを使ってさまざまな方法でコンテンツを生成する方法です。
生成AIはコンピューティングの方法を根本的に変えました。検索コンピューティングモデルから生成コンピューティングモデルへ。過去のほとんどすべては、コンテンツを事前に作成し、複数のバージョンを保存し、使用時に適切と思われるバージョンを取り出すというものでした。
現在、AIはコンテキストを理解し、私たちが尋ねていることを理解し、リクエストの意味を理解し、知っていることを生成します。必要に応じて情報を検索し、理解を増強して回答を生成します。データを取り出すのではなく、回答を生成するのです。コンピューティングの方法を根本的に変えました。
コンピューティングのあらゆる層が過去数年間で変革されました。過去2~3年で大きなブレークスルーが起こりました。人工知能の根本的な進歩、それをエージェントAIと呼んでいます。エージェントAIは基本的に、状況のコンテキストを認識し理解できるAIを持つことを意味します。非常に重要なのは、質問への答え方や問題の解決方法について推論できることです。そして行動計画を立て実行できます。ツールを使用できます。
マルチモダリティ情報を理解するようになったので、ウェブサイトにアクセスしてウェブサイトのフォーマット、言葉、動画を見ることができます。場合によっては動画を再生し、そのウェブサイトから学んだことを学び、理解し、戻ってその情報、その新しい知識を使って仕事をすることができます。
エージェントAIの基礎にあるもの、それは非常に新しいものです。推論、そして次の波はすでに起きています。今日はそれについて多く話します。ロボティクス、それを可能にしているのは物理的AIです。物理的世界を理解するAI、摩擦や慣性、原因と結果、物体の永続性などを理解します。物体が角を曲がると見えなくなりますが、この宇宙から消えたわけではなく、まだそこにあります。ただ見えないだけです。
物理的世界、三次元の世界を理解する能力が、AIの新しい時代を可能にします。私たちはそれを物理的AIと呼び、ロボティクスを可能にするでしょう。これらの各フェーズ、各波はすべて私たち全員に新しい市場機会をもたらします。それによって新しいパートナーがGTCに参加するようになります。その結果、GTCは今や満員です。
GTCで人をもっと収容する唯一の方法は、サンノゼを成長させることです。そして私たちはそのために取り組んでいます。GTCを拡大できるように、サンノゼを成長させる必要があります。
ここに立っている私から見える景色を皆さんにもお見せできればと思います。私たちはスタジアムの中央にいます。昨年がライブで行った初年度で、まるでロックコンサートのようでした。GTCは「AIのウッドストック」と称されていました。今年は「AIのスーパーボウル」と称されています。唯一の違いは、このスーパーボウルでは全員が勝者だということです。
AIがより多くの業界、より多くの企業のより興味深い問題を解決できるようになるにつれて、毎年より多くの人々が参加しています。そして今年、私たちはエージェントAIと物理的AIについて多く話します。
AIの各波と各フェーズを可能にするコアには、三つの基本的な問題があります。一つ目は、データの問題をどう解決するか。これが重要な理由は、AIはデータ駆動型のコンピュータサイエンスアプローチだからです。学習するためのデータ、デジタル経験から学ぶためのデータが必要です。知識を学び、デジタル経験を得るために。データの問題をどう解決するか。
二つ目は、人間のループなしでトレーニングの問題をどう解決するか。人間のループが根本的に難しい理由は、私たちの時間には限りがあり、AIが超人的な速度で、超リアルタイムの速度で学習できるようにしたいからです。そして人間が追いつけないほどの規模で学習できるようにしたい。だから二つ目の質問は、モデルをどうトレーニングするか。
三つ目は、どうスケールするか。どう作るか、どうアルゴリズムを見つけるか、そこでどんなリソースを提供しても、AIがより賢くなるようにするか。スケーリング法則です。
この過去1年間、ほぼ全世界がこれを誤解していました。AIのスケーリング法則、計算要件は、より回復力があり、実際にはハイパー加速しています。推論AI、エージェントシステムの結果として、現時点で必要な計算量は、昨年の今頃考えていたよりも簡単に100倍多いです。
それが真実である理由を考えてみましょう。まず、AIができることから始めましょう。バックワードに考えます。エージェントAIは、その基礎は推論であると述べました。現在、推論できるAIがあります。これは基本的に問題を段階的に分解することです。いくつかの異なる方法で問題にアプローチし、最良の答えを選ぶかもしれません。同じ問題を様々な方法で解き、同じ答えになっていることを確認するかもしれません。一貫性チェックと呼びます。
あるいは、答えを導き出した後、それを方程式に戻して確認するかもしれません。二次方程式などで、実際に正しい答えであることを確認するためです。ワンショットでブラートアウトするのではなく、2年前にChat GPTでの作業を始めた時のことを思い出してください。奇跡的なものでしたが、多くの複雑な質問や単純な質問に対して単に正しく答えられませんでした。
それは理解できることです。事前トレーニングされたデータを研究することで学んだことを、他の経験から見たことを、ワンショットで出してきました。サウーン(Savant)のように。今や私たちには推論できるAIがあります。ステップバイステップバイステップ、チェーン・オブ・ソートと呼ばれる技術を使って、N個の中から最良のもの、一貫性チェック、さまざまなパス計画、さまざまな異なる技術を用いて。
今や私たちには推論できるAI、問題を分解し、ステップバイステップバイステップで推論できるAIがあります。結果として生成されるトークンの数は大幅に増えていることは想像できるでしょう。AIの基本的な技術はまだ同じです。次のトークンを生成する、次のトークンを予測する、トークン。ただ、次のトークンが今やステップ1を構成し、その後のトークンがステップ1を生成した後に、AIの入力に再度入り、ステップ2、ステップ3、ステップ4を生成します。
単に次のトークンや次の単語を生成するのではなく、推論のステップを表す一連の単語を生成します。結果として生成されるトークンの量は大幅に増加しており、すぐにお見せしますが、簡単に100倍多くなっています。
100倍多いとはどういう意味でしょうか?それは100倍多くのトークンを生成する可能性があり、先ほど説明したようにそれが起きているのを見ることができます。あるいはモデルがより複雑になり、10倍多くのトークンを生成し、モデルを応答性良く対話的に保つために、私たちが待つのに我慢できなくなる前に、今や10倍速く計算する必要があります。つまり、10倍のトークン、10倍の速さ、行う必要のある計算量は10~100倍多くなり、簡単にそうなります。
プレゼンテーションの残りの部分でこれを見ることになるでしょう。推論に対して行う必要のある計算量は、以前よりも劇的に高くなっています。
そこで質問は、今説明したことをAIにどう教えるか、このチェーン・オブ・ソートをどう実行するかということになります。一つの方法は、AIに推論の仕方を教えることです。先ほど述べたように、トレーニングには二つの基本的な問題があります。データはどこから来るのか、そして人間のループに制限されないようにするにはどうするか。人間のデモンストレーションからのデータには限りがあります。
これが過去数年間の大きなブレークスルーです。強化学習、検証可能な結果。基本的には、AIが問題解決に取り組むときのステップバイステップの強化学習です。人類の歴史の中で解決されてきた多くの問題があり、答えを知っています。二次方程式の解き方を知っています。ピタゴラスの定理の解き方を知っています。直角三角形の法則を知っています。数学、幾何学、論理学、科学の多くの規則を知っています。
制約のある問題、例えば数独のような問題を与えることができます。これらの問題空間が何百もあり、何百万もの異なる例を生成して、AIに何百回も解く機会を与えることができます。AIがステップバイステップバイステップで解いていくなかで、より良い仕事をするよう報酬を与える強化学習を使います。
結果として、何百もの異なるトピック、何百万もの異なる例、何百もの異なる試行、それぞれの試行が何万ものトークンを生成します。これらすべてを合わせると、モデルをトレーニングするために何兆何兆ものトークンが必要になります。強化学習により、膨大な量のトークン、合成データ生成を生成する能力を持ちました。基本的にロボット的なアプローチを使ってAIを教えます。
これらの二つの組み合わせにより、業界の前には膨大な計算の課題がもたらされました。業界の反応が見られます。これからお見せするのは、上位4つのCSP(クラウドサービスプロバイダー)のHopperの出荷量です。パブリッククラウドを持つトップ4のCSP、Amazon、Azure、GCP、OCIです。トップ4のCSPだけで、AIの会社は含まれていません。スタートアップも含まれていません。エンタープライズも含まれていません。たくさんのものが含まれていません。ただ、これら4つだけです。
HopperのピークイヤーとBlackwellの最初の1年を比較して感覚をつかんでもらうためです。HopperのピークイヤーとBlackwellの最初の1年です。AIが変曲点を通過している様子がわかります。より賢くなり推論できるようになったため、より有用になっています。もっと使われているのがわかります。最近Chat GPTを使うと、待ち時間が長くなっているように感じますが、これは良いことです。多くの人が効果的に使っていることを示しています。
それらのモデルをトレーニングし、それらのモデルに影響を与えるために必要な計算量は大幅に増加しています。わずか1年で、そしてBlackwellは出荷を始めたばかりですが、AIインフラの信じられない成長が見られます。
これはコンピューティング全体に反映されています。紫色は、世界のデータセンターの資本支出の増加についてのアナリストの予測です。CSPとエンタープライズを含む世界のデータセンターの2030年までの予測です。
以前、データセンターの構築が1兆ドルに達すると予想していると言いましたが、それがすぐに達成されることは確実だと思います。同時に二つのダイナミクスが起きています。
一つ目のダイナミクスは、その成長の大部分が加速される可能性が高いということです。汎用コンピューティングがコースを使い果たし、新しいコンピューティングアプローチが必要であることを長い間知っていました。そして世界は、手書きのソフトウェアが汎用コンピュータで動作するプラットフォームから、機械学習ソフトウェアがアクセラレーターとGPUで動作するプラットフォームへと移行しています。
このコンピューティング方法は現時点でティッピングポイントを超え、世界のデータセンター構築の変曲点が起きているのを見ています。そのため、最初のことはコンピューティングの方法の移行です。二つ目は、ソフトウェアの将来には資本投資が必要であるという認識の高まりです。
これは非常に大きなアイデアです。過去においては、ソフトウェアを書き、それをコンピュータで実行していました。将来、コンピュータがソフトウェア用のトークンを生成することになります。コンピュータはファイルの検索からトークンの生成へと変わりました。検索ベースのコンピューティングから生成ベースのコンピューティングへ、データセンターの古いやり方から新しい方法へとインフラを構築しています。
私はそれらをAIファクトリーと呼んでいます。AIファクトリーである理由は、たった一つの仕事があるからです。それは、私たちが音楽、言葉、動画、研究、化学物質、タンパク質などに再構成する、この素晴らしいトークンを生成することです。さまざまなタイプの情報に再構成します。世界は、構築されるデータセンターの量だけでなく、どのように構築されるかについても移行しています。
データセンターのすべてがアクセラレーションされますが、すべてがAIというわけではありません。これについて少し言及したいと思います。
このスライドは本当に私のお気に入りです。その理由は、GTCに何年も来ている皆さんは、私がこれらのライブラリについて話すのを聞いてきたからです。これが実際にGTCの全てです。このスライド一枚が。実際、20年前、これが唯一のスライドでした。次々とライブラリがありました。
ソフトウェアを加速するだけではなく、AIを作成するためにAIフレームワークが必要だったように、AIフレームワークを加速します。物理学、生物学、マルチフィジックス、量子物理学などのさまざまな分野のためのフレームワークとライブラリが必要です。私たちはそれらをCuda Xライブラリと呼んでいます。科学の各分野のアクセラレーションフレームワークです。
最初のものは驚くべきものです。これはCaiNumeric、NumPyです。NumPyは世界で最もダウンロードされているPythonライブラリです。最も使用されているPythonライブラリで、昨年は4億回ダウンロードされました。CaiNumericはNumPyのゼロ変更ドロップインアクセラレーションです。NumPyを使用している方は、CaiNumericを試してみてください。気に入るでしょう。
Kitho、計算的リソグラフィーライブラリ。4年の間に、リソグラフィー処理全体のプロセス、計算的リソグラフィーを取り込みました。これはファブの二番目の工場です。ウェハーを製造する工場とウェハーを製造するための情報を製造する工場があります。
工場を持つすべての産業、すべての企業は、将来二つの工場を持つでしょう。彼らが構築するものの工場と、数学のための工場、AI用の工場。車のための工場、車のためのAIのための工場。スマートスピーカーのための工場、スマートスピーカーのためのAIのための工場。
Kithoは私たちの計算的リソグラフィーです。TSMC、Samsung、ASMLがパートナーです。Synopsis、Mentorからの信じられないサポートがあります。これは今ティッピングポイントにあると思います。あと5年で、すべてのマスク、すべてのリソグラフィーがNvidia Cudaで処理されるでしょう。
Arielは5G用のライブラリで、GPUを5Gラジオに変えます。信号処理は私たちが非常にうまくできることだからです。それができれば、その上にAIを重ねることができます。AIラン(AI RAN)と呼ぶものです。次世代のラジオネットワークにはAIが深く組み込まれるでしょう。
なぜ情報理論の限界に制限されているのでしょうか?スペクトル情報をこれだけしか得られないからです。AIを加えれば違います。Cuopは数値的数学的最適化です。ほぼすべての産業がこれを使用しています。座席と飛行機、在庫と顧客、労働者と工場、ドライバーとライダーなどを計画するとき、複数の制約があります。
変数がたくさんあり、時間、利益、サービス品質、リソースの使用などを最適化しています。Nvidiaはサプライチェーン管理にこれを使用しています。Cuopは信じられないライブラリです。何時間もかかっていたものが数秒に変わります。これが大きな問題である理由は、より大きな空間を探索できるようになるからです。
Cuopをオープンソース化することを発表しました。ほとんどの人がGuurobi、IBM CPLEX、FICOのいずれかを使用しています。3つすべてと協力しています。業界は非常に興奮しています。業界を高速化しようとしています。
Parbricksは遺伝子配列と遺伝子分析用、Moniは世界をリードする医療画像ライブラリ、Earth 2はマルチフィジックスで非常に高解像度での局所天気予測用、C-Quantumと CudaQは量子用です。GTCで初めての量子の日を開催します。エコシステムのほぼすべての人と協力しています。量子アーキテクチャ、量子アルゴリズムの研究を支援したり、古典的に加速された量子ヘテロジニアスアーキテクチャの構築を支援したりしています。
Cuoequivarianceとcensorはテンソル縮約、量子化学用です。もちろん、このスタックは世界的に有名です。人々はCudaと呼ばれる一つのソフトウェアがあると考えていますが、実際にはCudaの上に多くのライブラリがあり、それらがエコシステムのさまざまな部分、ソフトウェアやインフラに統合されて、AIを可能にしています。
今日、新しいものを発表します。QDSSです。私たちのスパースソルバー、CAEにとって非常に重要です。これは過去1年間で起きた最も大きなことの一つです。Cadence、Synopsis、Ansis、その他のシステム企業と協力して、ほぼすべての重要なEDAおよびCAEライブラリを加速可能にしました。
驚くべきことに、最近まで、Nvidiaは他の全ての人のために加速されたコンピュータを設計するために、非常に遅く実行されるソフトウェアを搭載した汎用コンピュータを使用していました。その理由は、そのソフトウェア、そのソフトウェア本体がCuda用に最適化されていなかったからです。現在、私たちの業界全体が、加速されたコンピューティングに移行するにつれて、スーパーチャージされるでしょう。
CDFは構造化データ用のデータフレームです。現在、Sparkのドロップインアクセラレーションとpandasのドロップインアクセラレーションがあります。信じられないことです。そして物理学用のPythonライブラリ、Cuda用の物理学ライブラリであるWarpがあります。大きな発表がありますが、後ほどお話しします。
これは加速されたコンピューティングを可能にするライブラリのほんの一部です。Cudaだけではありません。Cudaを誇りに思っていますが、Cudaがなければ、そして私たちがそのような大きなインストールベースを持っていなければ、これらのライブラリはそれを使用する開発者にとって有用ではないでしょう。
使用するすべての開発者にとって、使用する理由は二つあります。一つは、信じられない高速化を提供し、信じられるスケールアップを提供することです。二つ目は、Cudaのインストールベースが現在どこにでもあるからです。すべてのクラウド、すべてのデータセンターにあり、世界中のすべてのコンピュータ企業から利用可能です。
したがって、これらのライブラリの一つを使用することで、あなたのソフトウェア、あなたの素晴らしいソフトウェアが誰にでも届くことができます。そして今、私たちは加速されたコンピューティングのティッピングポイントに達しました。Cudaがそれを可能にし、皆さん全員、これがGTCの本質です。エコシステム、皆さん全員がこれを可能にしました。
クリエーター、パイオニア、未来の建設者の皆さんに感謝します。Cudaはあなたのために作られました。2006年以来、200カ国以上の600万人の開発者がCudaを使用し、コンピューティングを変革してきました。900以上のCuda Xライブラリとモデルで、科学を加速し、産業を再形成し、機械に見る力、学ぶ力、推論する力を与え、現在、Nvidia BlackwellはCuda GPUの初代より50,000倍高速です。この速度とスケールの桁違いの向上により、シミュレーションとリアルタイムデジタルツインの間のギャップが縮まっています。そしてあなたにとって、これはまだ始まりに過ぎません。あなたが次に何をするか楽しみにしています。
私たちがしていることが大好きです。さらに皆さんがそれで何をするかがもっと好きです。そして33年間これを行ってきた中で最も感動したことの一つは、ある科学者が私に言った言葉です。「ジェンセン、あなたの仕事のおかげで、私は生涯で自分の人生の仕事をすることができます。」これに感動しないならば、あなたは死体でしょう。これは皆さんのためのものです。ありがとうございます。
さて、AIについて話しましょう。AIはクラウドで始まりました。AIにはインフラが必要だからです。科学が機械学習と言うなら、科学を行うための機械が必要です。そして機械学習にはインフラが必要であり、クラウドデータセンターにはインフラがありました。また、彼らは非常に優れたコンピュータサイエンス、優れた研究を持っていました。クラウドでAIが離陸するための完璧な環境でした。
しかし、AIの限界はそこではありません。AIはどこにでも行きます。私たちはAIについて様々な方法で話します。クラウドサービスプロバイダーはもちろん、私たちの最先端技術を好みます。フルスタックを持っていることを評価しています。なぜなら、加速されたコンピューティングは、先ほど説明したように、チップだけではないからです。チップとライブラリだけでもなく、チップ、プログラミングモデル、その上に載るソフトウェア全体です。
そのスタック全体が信じられないほど複雑です。それらの各層、それらの各ライブラリは本質的にSQLのようなものです。SQLは、ご存知のように、ストレージコンピューティングで呼ばれています。IBMによるコンピューティングの大革命でした。SQLは一つのライブラリに過ぎません。先ほど多くのライブラリをお見せしましたが、AIの場合はさらに多くあります。
スタックは複雑です。また、CSPはNvidia Cuda開発者がCSPの顧客であることを愛しています。なぜなら、最終的には世界が使用するインフラを構築しているからです。そして豊かな開発者エコシステムは非常に価値があり、深く感謝されています。
さて、AIを世界の残りの部分に持ち出すとき、世界の残りの部分には異なるシステム構成、運用環境の違い、ドメイン固有のライブラリの違い、使用の違いがあります。そしてAIがエンタープライズに移行し、製造業に移行し、ロボティクスや自動運転車、あるいはGPUクラウドを始める企業にも移行します。おそらく20社ほどがNvidiaの時代に設立され、彼らがしているのはGPUをホストすることだけです。彼ら自身をGPUクラウドと呼んでいます。
私たちの素晴らしいパートナーの一つ、Corweaveは公開プロセスにあり、彼らを非常に誇りに思っています。そしてGPUクラウドは独自の要件を持っていますが、私が非常に興奮している分野の一つはエッジです。
今日、私たちはCisco、Nvidia、T-Mobileが世界最大の通信会社であり、CUS ODCが米国内にラジオネットワーク用のフルスタックを構築することを発表しました。これは二番目のスタックになります。このスタック、今日発表するこのスタックは、AIをエッジに組み込みます。
世界の資本投資の1000億ドルが毎年ラジオネットワークと通信のためのすべてのデータセンターのプロビジョニングに使われています。将来的には、それは加速されたコンピューティングでAIが注入されることになるでしょう。AIは変化する環境とトラフィック状況に合わせてラジオ信号、マッシブMIMOを適応させるのにはるかに良い仕事をするでしょう。
もちろん、それを行うために強化学習を使用するでしょう。もちろん、MYO(5G)は本質的に一つの巨大なラジオロボットです。もちろんそうです。そして、もちろん、それらの機能を提供します。もちろん、AIは通信を革命的に変えることができます。
家に電話をするとき、ほんの数語で通じます。なぜなら妻は私がどこで働いているか、どんな状況か知っており、会話は昨日から続き、私が何を好み何を嫌うかを覚えているからです。多くの場合、ほんの数語で多くのことを伝えることができます。その理由は、コンテキストと人間の事前知識のためです。
これらの能力を組み合わせることで通信を革命的に変えることができます。ビデオ処理で何が起きているか見てください。先ほど3Dグラフィックスで何が起きているか説明しました。もちろん、エッジでも同じことをするでしょう。T-Mobile、Cisco、Nvidia、CUS ODCがフルスタックを構築することを発表したことに非常に興奮しています。
AIはあらゆる産業に入っていきます。それは単なる一例です。AIが最も早く入った産業の一つは自動運転車でした。AlexNetを見た瞬間、そして私たちはコンピュータビジョンに長い間取り組んできましたが、AlexNetを見た瞬間は非常に啓発的な瞬間、非常に興奮する瞬間でした。それによって自動運転車の構築に全力を注ぐことを決定しました。
自動運転車に10年以上取り組んできました。ほぼすべての自動運転車企業が使用する技術を構築しています。それはデータセンターにある場合もあります。例えばTeslaはNvidiaを使用しています。データセンターでたくさんのNvidia GPUを使用しています。データセンターにあるか、車にあるかもしれません。WaymoとWaveはデータセンターと車の両方でNvidiaコンピュータを使用しています。
車だけにある場合もありますが、それはまれです。時には私たちのソフトウェアをすべて使用する場合もあります。それに加えて、自動車業界が望む方法で彼らと協力しています。3種類のコンピュータすべてを構築しています。トレーニングコンピュータ、シミュレーションコンピュータ、そしてロボティクスコンピュータである自動運転車コンピュータ。その上に乗るすべてのソフトウェアスタック、先に示したすべての他の産業と同様に、モデルとアルゴリズムも構築しています。
今日、GMがNvidiaを選んで彼らの将来の自動運転車フリートを構築するために協力することを発表できることを非常に嬉しく思います。自動運転車の時代が到来し、GMと協力して3つの分野すべてでAIを構築することを楽しみにしています。
製造業のためのAI、それにより彼らが製造方法を革命的に変えることができます。エンタープライズのためのAI、それにより彼らが働き方、車の設計方法、車のシミュレーション方法を革命的に変えることができます。そして車内のためのAI。GMのためのAIインフラストラクチャ、GMとのパートナーシップ、GMとの構築です。それに非常に興奮しています。
深く誇りに思っているが、めったに注目されない分野の一つは安全性です。自動車の安全性、私たちの会社ではHalosと呼ばれています。安全性には、シリコンからシステム、システムソフトウェア、アルゴリズム、方法論まで、すべてからの技術が必要です。多様性からダイバーシティモニタリング、透明性、説明可能性まで、これらすべての異なる哲学がシステムとソフトウェアの開発方法のあらゆる部分に深く組み込まれている必要があります。
私たちは世界で最初に、すべてのコードライン、700万行のコードが安全性評価されている会社だと思います。私たちのチップ、システム、システムソフトウェア、アルゴリズムは、多様性、透明性、説明可能性を確保するように設計されていることを確認するために、すべてのコード行を調査するサードパーティによって安全性評価されています。
また、1000以上の特許に従っており、このGTC中に、そしてあなたにそうすることを強く勧めますが、Halosのワークショップに時間を費やして、将来の車が安全でありながら自律的になることを確保するために一緒に来るすべての異なることを見ることができます。これは私が非常に誇りに思っていることですが、めったに注目されません。そのため、今回はこれについて少し余分に時間を費やしました。
Nvidia Halos、皆さんは自動運転する車を見てきました。Wayoのロボタクシーは信じられないほど素晴らしいですが、AIの魔法を使ってAIを作成するために使用する技術の一部をビデオで紹介します。
Nvidiaは、OmniverseとCosmosを使用して、AVs(自動運転車)のためのAI開発を加速しています。Cosmosの予測と推論機能は、新しい開発方法、モデル蒸留、クローズドループトレーニング、合成データ生成でエンドツーエンドでトレーニング可能なAIファーストAVシステムをサポートします。
まず、モデル蒸留はポリシーモデルとして適応されます。Cosmosの運転知識は、より遅いインテリジェントな教師からより小さく高速な学生に転送され、車内で推論されます。教師のポリシーモデルは最適な軌道を示し、それに続いて学生モデルが教師とほぼ同じレベルで実行されるまで反復を通じて学習します。蒸留プロセスはポリシーモデルをブートストラップしますが、複雑なシナリオにはさらなる調整が必要です。
クローズドループトレーニングにより、ポリシーモデルの微調整が可能になります。ログデータは3Dシーンに変換され、Omniverseを使用して物理ベースのシミュレーションで運転クローズドループを行います。これらのシーンのバリエーションが作成され、モデルの軌道生成機能をテストします。
Cosmosの行動評価者は、生成された運転行動をスコアリングして、モデルのパフォーマンスを測定できます。新しく生成されたシナリオとその評価により、クローズドループトレーニング用の大規模なデータセットが作成され、AVSが複雑なシナリオをより堅牢にナビゲートするのに役立ちます。
最後に、3D合成データ生成により、AVの多様な環境への適応性が向上します。ログデータから、Omniverseはマップと画像を融合し、各ピクセルを分類してCosmosを誘導するセグメンテーションを含む実世界のデジタルツインを構築します。Cosmosはトレーニングデータを拡大して、正確で多様なシナリオを生成し、SimからRealのギャップを埋めます。
OmniverseとCosmosにより、AVSは学習し、適応し、インテリジェントに運転することができ、より安全なモビリティを進化させます。
Nvidiaはそれを行うのに完璧な会社です。それは私たちの運命です。AIを使用してAIを再作成します。そこで示した技術は、デジタルツインに連れて行くために楽しんでいる技術とよく似ています。私たちはそれをNvidia [ガウシアンスプラット]と呼んでいます。
データセンターについて話しましょう。Blackwellはフル生産中で、これがその姿です。信じられないほど素晴らしいです。私たち、特に美しさの光景です。これが美しくないはずがありますか?
これは大きな出来事です。なぜなら、私たちはコンピュータアーキテクチャの根本的な移行を行ったからです。実際、約3年前に、このバージョンをお見せしました。それはGrace Hopperと呼ばれ、システムはRangerと呼ばれていました。Rangerシステムは、画面の幅の約半分の大きさで、3年前に世界初のMV Link 32として機能しているRangerを示しました。
それは大きすぎましたが、それは正確に正しいアイデアでした。スケールアップ分散コンピューティングは、非常に大きな問題を解決するために協力して動作する多くの異なるコンピュータを使用することについてですが、スケールアップに代わるものはありません。スケールアウトする前にスケールアップします。両方とも重要ですが、スケールアウトする前にスケールアップしたいです。
スケールアップは信じられないほど難しいです。簡単な答えはありません。SCをスケールアップすることはできません。Hadoopのようにスケールアウトすることもできません。多くのコモディティコンピュータを大きなネットワークにつなぎ、Hadoopを使用してインストレージコンピューティングを行うことはできません。
Hadoopは革命的なアイデアでした。それによりハイパースケールデータセンターが巨大なサイズの問題を解決できるようになりました。既製のコンピュータを使用して。しかし、私たちが解決しようとしている問題は、その方法でスケールすると、単純に多すぎる電力、多すぎるエネルギーを消費することになり、ディープラーニングは決して起こらなかったでしょう。
私たちがしなければならなかったことは、まずスケールアップすることでした。これがスケールアップした方法です。これは70ポンドですので、持ち上げません。これは前世代のシステムアーキテクチャでHGXと呼ばれていました。これはコンピューティングを知る限りで革命を起こしました。これは人工知能に革命を起こしました。
これは8つのGPU、8つのGPU、それぞれがこのようなものです。これは2つのBlackwell GPUが1つのBlackwallパッケージに入っています。2つのBlackwell GPUが1つのBlackwallパッケージに入っており、これらが8つこの下にあります。これはMV Link 8と呼ばれるものに接続されます。これはCPUシェルフに接続され、上に二重CPUがあり、PCI Expressで接続されます。これらの多くがインフィニバンドで接続され、AIスーパーコンピュータになります。
これが過去の方法でした。これが私たちが始めた方法です。これはスケールアウトする前にスケールアップした限界でした。しかし、さらにスケールアップしたいと思いました。Rangerはこのシステムを取り、さらに4倍スケールアップしたと言いました。そしてMV Link 32を持っていましたが、システムは大きすぎました。
そこで、MVリンクの動作方法とスケールアップの動作方法を根本的に再設計する必要がありました。最初に行ったことは、MVリンクスイッチがこのシステムのマザーボードに埋め込まれていると言いました。MVリンクシステムを分解して取り出す必要がありました。
これがMVYリンクシステムです。これはMVYリンクスイッチです。これは世界で最高性能のスイッチです。これにより、すべてのGPUが同時に完全な帯域幅で通信することができます。これがMVリンクスイッチであり、分解して取り出し、シャーシの中央に配置しました。
18のスイッチが9つの異なるラック、9つの異なるスイッチトレイにあります。スイッチが分解され、コンピュートはここに座っています。これはコンピュートにおいてこれら2つのものと同等です。驚くべきことに、これは完全に液体冷却されており、液体冷却することで、これらのコンピュートノードをすべて1つのラックに圧縮できます。
これが業界全体の大きな変化です。会場の皆さん、統合MVリンクから分解されたMVリンクへ、空冷から液体冷却へ、コンピュータあたり約60,000コンポーネントからラックあたり600,000コンポーネントへ、完全液体冷却された120キロワットへのこの根本的な移行に感謝します。その結果、1ラックに1エクサフロップスのコンピュータができました。信じられないことではありませんか?
これがコンピュートノードです。これがコンピュートノードであり、これらのうちの1つに収まります。今や3,000ポンド、5,000ケーブル、約2マイル分、信じられない電子機器、600,000パーツ。それは20台の車、20台の車分のパーツであり、1つのスーパーコンピュータに統合されています。
私たちの目標はこれを行うこと、スケールアップすることでした。これが現在の姿です。本質的にこのチップを構築したかったのですが、どんな理論的限界もこれをできず、どんなプロセス技術もこれをできません。これは30兆トランジスタで、そのうち20兆が計算に使用されています。
近い将来これを合理的に構築することはできないので、この問題を解決する方法は、Grace Blackwell MVリンク72ラックに分解することです。その結果、私たちは究極のスケールアップを行いました。これは世界が行った最も極端なスケールアップです。ここで可能な計算量、メモリ帯域幅570テラバイト/秒、すべてがTで、すべてがテラです。
あなたはエクサフロップスを持っています。それは1秒あたり1兆浮動小数点演算です。この極端な問題を解決したかった理由は、その極端な問題が多くの人が簡単だと誤解していたもので、実際には究極の極端なコンピューティング問題であり、それは推論と呼ばれるものです。
その理由は非常に単純です。推論はファクトリーによるトークン生成であり、ファクトリーは収益と利益を生み出す、または生み出さないものです。したがって、このファクトリーは極端な効率、極端なパフォーマンスで構築する必要があります。なぜなら、このファクトリーに関するすべてが、あなたのサービス品質、収益、収益性に直接影響するからです。
このチャートの読み方を説明させてください。後でもう一度戻ってくるからです。基本的に、X軸には1秒あたりのトークンがあります。Chat GPTにプロンプトを入力すると、トークンが出てきます。これらのトークンは単語に再構成されます。1単語あたり1トークン以上があります。
彼らはTHのようなものをトークン化します。THは、the、them、theory、theatricsなど様々なものに使用される可能性があります。THはトークンの例です。彼らはこれらのトークンを再構成して単語にします。
AIをよりスマートにしたい場合、多くのトークンを生成したいということを既に確立しました。これらのトークンは推論トークン、一貫性チェックトークンであり、それらのアイデアの中から最良のものを選択するためにたくさんのアイデアを思いつくトークンです。
それらのトークンは自分自身を疑っている可能性があります。「これが最善の仕事ですか?」と自問するかもしれません。ちょうど私たちが自分自身に話しかけるように。より多くのトークンを生成するほど、AIはよりスマートになりますが、質問に答えるのに時間がかかりすぎると、顧客は戻ってきません。
これはWB検索と変わりません。スマートな答えを返すまでにかかる時間には実際の制限があります。そのため、二つの次元の間で戦っています。多くのトークンを生成しようとしていますが、できるだけ早く行おうとしています。したがって、トークンレートが重要です。
そのため、1ユーザーあたりの1秒あたりのトークンをできるだけ速くしたいです。しかし、コンピュータサイエンスでは、ファクトリーでは、レイテンシー(応答時間)とスループットの間に根本的な緊張があります。その理由は非常に単純で、大量ビジネスにいる場合、バッチ処理と呼ばれるものを行います。多くの顧客の需要をバッチ処理し、後で全員が消費するためにそれのある種のバージョンを製造します。
しかし、バッチ処理されて製造されたものから、あなたがそれを消費するまでの時間がかかる場合があります。コンピュータサイエンスでも、AIトークンを生成するAIファクトリーでも変わりません。そのため、二つの根本的な緊張があります。
一方では、顧客のサービス品質をできるだけ良くしたいと思います。超高速でスマートなAI。一方で、データセンターができるだけ多くの人にトークンを生成するようにして、収益を最大化しようとしています。
完璧な答えは右上です。理想的にはその曲線の形は正方形であり、ファクトリーの限界までは人あたり非常に高速なトークンを生成できるはずです。しかし、どのファクトリーもそれはできず、おそらくある種の曲線があり、あなたの目標は曲線の下の面積を最大化することです。XとYの積です。さらに押し出すほど、より良いファクトリーを構築している可能性が高いことを意味します。
全ファクトリーの1秒あたりのトークンと応答時間の1秒あたりのトークンのうち、一つは膨大な計算のフロップスを必要とし、もう一つの次元は膨大な帯域幅とフロップスを必要とします。これは非常に難しい問題です。
良い答えは、たくさんのフロップス、たくさんの帯域幅、たくさんのメモリ、そしてすべてをたくさん持つべきだということです。それが始めるための最良の答えであり、これが非常に素晴らしいコンピュータである理由です。可能な限り最も多くのフロップス、最も多くのメモリ、最も多くの帯域幅から始めます。
もちろん、最高のアーキテクチャ、最高のエネルギー効率、そしてこのすべてのソフトウェアを実行できるプログラミングモデルが必要です。非常に難しいことです。これを行うためにです。
これからお見せするデモで、私が話していることを実感してください。
従来のLLMは基本的な知識を捉えますが、推論モデルは思考トークンを使って複雑な問題を解決します。ここでは、伝統、写真映えのある角度、敵対する家族など、制約を守りながら結婚式のテーブルに人々を座らせるようにプロンプトが要求しています。
従来のLLMは500トークン未満で素早く回答しますが、ゲストの着席に間違いを犯します。一方、推論モデルは8,000以上のトークンを使って考え、正しい答えを導き出します。平和を保つには牧師が必要です。
皆さんがご存知のように、300人の結婚式で全員の最適な着席を見つけようとすると、それはAIだけが解決できる問題か、あるいは義理の母だけが解決できる問題です。それはCuopでも解決できない問題の一つです。
ここで見られるのは、推論を必要とする問題を与え、R1がそれについて推論し、さまざまなシナリオを試し、戻ってきて自分の答えをテストし、正しく行ったかどうか自問していることです。一方、前世代の言語モデルはワンショットを行います。
ワンショットは439トークンで、高速で効果的でしたが、間違っていました。つまり、439のトークンが無駄になりました。一方、この問題について推論するためには、そしてこれは実際には非常に単純な問題です。いくつかの難しい変数を加えるだけで、推論するのが非常に難しくなります。そしてそれには8,000、ほぼ9,000トークンがかかりました。モデルがより複雑であるため、より多くの計算が必要でした。
それが一つの次元です。いくつかの結果をお見せする前に、別のことを説明させてください。Blackwellを見て、このスケールアップしたMV Link 72のBlackwellシステムを見ると、まず行わなければならないことは、このモデルを取ることです。このモデルは小さくありません。R1の場合、人々はR1が小さいと思いますが、6800億パラメータあります。次世代モデルは兆単位のパラメータになる可能性があります。
この問題を解決する方法は、これらの兆兆のパラメータとこのモデルを取り、GPUの全システムにワークロードを分散することです。テンソル並列を使用して、モデルの1つのレイヤーを複数のGPUで実行することができます。パイプラインのスライスを取り、それをパイプライン並列と呼び、それを複数のGPUに置くことができます。
異なる専門家を取り、それらを異なるGPUに置くことができます。これをエキスパート並列と呼びます。パイプライン並列性とテンソル並列性とエキスパート並列性の組み合わせ、その組み合わせの数は膨大で、モデルによって、ワークロードによって、状況によって、そのコンピュータをどう構成するかは変わらなければなりません。最大スループットを得るためです。
また、非常に低いレイテンシーを最適化することもあります。スループットを最適化しようとすることもあり、そのためにインフライトバッチングを行うこともあります。バッチングやワークの集約にはさまざまな技術があります。これらのAIファクトリーのオペレーティングシステム、ソフトウェアは信じられないほど複雑です。
一つの観察事項、これはMVリンク72のような均質なアーキテクチャを持つことの本当に素晴らしい点ですが、すべてのGPUが今説明したすべてのことを行うことができ、これらの推論モデルがいくつかのフェーズの計算を行っていることが分かります。
計算のフェーズの一つは思考です。思考しているとき、多くのトークンを生成していません。自分自身が消費するかもしれないトークンを生成しています。考えているのかもしれません。読んでいるかもしれません。情報を消化しているのかもしれません。その情報はPDFかもしれません。その情報はウェブサイトかもしれません。文字通り動画を見て、スーパーリニアな速度ですべてを摂取しているかもしれません。
そのすべての情報を取り、答えを構成し、計画された答えを構成します。情報の消化、コンテキスト処理は非常にフロップス集約的です。一方、次のフェーズはデコードと呼ばれます。最初の部分を事前入力と呼びます。デコードの次のフェーズは浮動小数点演算を必要としますが、膨大な量の帯域幅を必要とします。
計算するのは比較的簡単です。モデルがあり、それが数兆のパラメータを持っている場合、1秒あたり数テラバイトが必要です。先ほど576テラバイト/秒と言いましたが、HBMメモリからモデルを引き出し、文字通り1つのトークンを生成するには、1秒あたりテラバイトが必要です。1つのトークンだけを生成する理由は、これらの大規模言語モデルが次のトークンを予測しているからです。
だからこそ次のトークンと言うのです。すべてのトークンを予測しているのではなく、次のトークンを予測しているのです。今では投機的デコーディングなど、それをより速く行うための新しい技術がたくさんありますが、最終的には次のトークンを予測しています。
つまり、モデル全体とコンテキスト(KVキャッシュと呼ばれるもの)を取り込み、1つのトークンを生成します。そしてそのトークンを脳に戻し、次のトークンを生成します。毎回、トリリオンのパラメータを取り込み、1つのトークンを生成します。トリリオンのパラメータを取り込み、別のトークンを生成します。トリリオンのパラメータを取り込み、別のトークンを生成します。
先ほどのデモでは8,600トークンを生成しました。つまり、トリリオンバイトの情報、トリリオンバイトの情報がGPUに取り込まれ、一度に1つのトークンを生成しています。これがMVリンクが欲しい根本的な理由です。MVリンクにより、すべてのGPUを一つの巨大なGPUに変えることができます。究極のスケールアップです。
二つ目は、すべてがMVリンク上にあるので、事前入力とデコードを分離でき、事前入力用のGPUをより多く、デコードには少なくするかを決定できます。なぜなら、多くの思考をしているからです。エージェント的で、多くの情報を読み、深い研究をしているからです。
深い研究中、マイケルの話を聞いていると、彼が研究をしているという話をしていました。私も同じことをしています。私たちは本当に長い研究プロジェクトを書き、AIに与えます。私はそれが大好きです。なぜなら、すでに支払いを済ませており、GPUを働かせるのが大好きだからです。それ以上の喜びはありません。
そこで書き上げると、それがすべての研究を行い、94の異なるウェブサイトに行き、私はこのすべてを読み、この情報をすべて読んでいます。そして答えを構成してレポートを書きます。信じられないことです。
その全期間中、事前入力は非常に忙しく、あまり多くのトークンを生成していません。一方、チャットボットとチャットしているとき、何百万人もの私たちが同じことをしているとき、それは非常にトークン生成が多く、デコードが多いです。
そのため、ワークロードによっては、デコード部門により多くのGPUを配置することを決定し、ワークロードによっては事前入力により多くのGPUを配置することがあります。この動的な操作は本当に複雑です。
パイプラインパラレル、テンソルパラレル、エキスパートパラレル、インフライトバッチング、分散推論、ワークロード管理について説明しましたが、KVキャッシュと呼ばれるものを取り、正しいGPUにルーティングし、すべてのメモリ階層を通じて管理する必要があります。このソフトウェアは信じられないほど複雑です。
そこで今日、Nvidia Dynamoを発表します。Nvidia Dynamoはそのすべてを行います。それは本質的にAIファクトリーのオペレーティングシステムです。過去にデータセンターを運営していた方法では、オペレーティングシステムはVMwareのようなものであり、現在もそうですが、多くの異なるエンタープライズアプリケーションを私たちのエンタープライズ上でオーケストレーションしています。
しかし将来、アプリケーションはエンタープライズITではなく、エージェントであり、オペレーティングシステムはVMwareのようなものではなく、Dynamoのようなものになります。このオペレーティングシステムはデータセンターの上ではなく、AIファクトリーの上で実行されています。
それをDynamoと呼ぶ理由があります。ご存知のように、ダイナモは前回の産業革命、エネルギーの産業革命を始めた最初の機器でした。水が入り、電気が出てきます。素晴らしいことです。水が入り、それに火をつけ、蒸気に変え、そして出てくるのはこの目に見えない、信じられないほど価値のあるものです。交流に移るのにさらに80年かかりましたが、ダイナモはそこから始まりました。
そこで、このオペレーティングシステム、この信じられないほど複雑なソフトウェアをNvidia Dynamoと呼ぶことにしました。これはオープンソースであり、多くのパートナーが私たちと協力してくれていることを嬉しく思います。
お気に入りのパートナーの一つはPerplexityで、彼らの革命的な仕事と、Aaronが素晴らしい人であるという理由でとても好きです。Perplexityは、これを通じて取り組む素晴らしいパートナーです。
とにかく、本当に素晴らしいです。さて、このインフラをすべてスケールアップするまで待つ必要がありますが、その間に非常に詳細なシミュレーションをたくさん行いました。スーパーコンピュータがスーパーコンピュータのシミュレーションを行っており、それは理にかなっています。
今から、私が言ったすべてのことの利点をお見せします。ファクトリー図を覚えていますか?X軸には1秒あたりのトークン、スループットがあります。Y軸にはファクトリーの1秒あたりのトークンスループット、X軸にはユーザー体験の1秒あたりのトークンがあります。超スマートなAIが欲しく、それをたくさん生産したいのです。
これがHopperです。これがHopperで、1ユーザーあたり、各ユーザーあたり約100トークン/秒を生成できます。これは8つのGPUで、インフィニバンドで接続されています。1秒あたりのトークンをメガワットあたりに正規化しています。これは1メガワットのデータセンターで、非常に大きなAIファクトリーではありませんが、とにかく1メガワットです。
各ユーザーに1秒あたり100トークンを生成でき、このレベルでは(それが何であれ)、1メガワットのデータセンターに対して1秒あたり10万トークンを生成できます。あるいは、そのAIファクトリーに対して1秒あたり約250万トークンを生成できます。もし超バッチ処理され、顧客が非常に長い時間待つ意思があれば。それは理にかなっていますか?うなずいてください。
なぜなら、ここがGTCの入場料が必要な所です。皆さんご存知のように、ここでは数学で拷問されます。これはNvidiaだけで、数学で拷問されるのです。
さて、Hopperでは250万個得られます。その250万とは何でしょうか?それをどう翻訳するか。Chat GPTは100万トークンあたり10ドルですよね?100万トークンあたり10ドル。一瞬、その10ドル/100万トークンはおそらくここ(グラフの下部)にあると思います。おそらくここにあると思いますが、上にあると仮定してみましょう。250万なので、10で割ると…1秒あたり25万ドルとなります。意味が分かりますか?そう考えるのです。
あるいは、こちらの方が下にある場合、つまり10万であれば、それを10で割るだけです。データセンターあたり、1秒あたり25万ドルです。そして1年間に3100万秒、3000万秒あり、それがその1メガワットのデータセンターの収益に変換されます。
そこで、一方では、できるだけ速くトークン率を上げて、本当にスマートなAIを作りたいと思っています。そしてスマートなAIがあれば、人々はそれにより多くのお金を払うでしょう。一方、AIが賢くなればなるほど、量を減らすことができます。これは理にかなった取引であり、これが私たちが曲げようとしている曲線です。
今お見せしているのは、世界最速のコンピュータであるHopperです。これはすべてを革命的に変えたコンピュータであり、どうすればそれをより良くできるでしょうか?
最初に行うことは、MVリンク8を持つBlackwellを開発することです。同じBlackwell、同じコンピュート、そしてMVリンク8を持つそのコンピュートノードがあり、FP8を使用します。Blackwellは単に高速で、より大きく、より多くのトランジスタ、より多くのすべてを持っています。
しかし、それ以上のことをしたいと思います。そこで新しい精度を導入します。それは4ビット浮動小数点ほど単純ではありませんが、4ビット浮動小数点を使用してモデルを量子化し、より少ないエネルギーを使用します。同じことをするのにより少ないエネルギーを使用し、その結果、同じことをするのにより少ないエネルギーを使用すると、より多くのことができます。
一つの大きなアイデアは、将来のすべてのデータセンターがパワー制限されるということです。あなたの収益はパワーによって制限されます。あなたが持っているパワーに基づいて収益を計算することができます。これは他の多くの産業と変わりません。
そのため、私たちは今やパワー制限された産業であり、収益はそれに関連します。そのため、可能な限り最もエネルギー効率の良いコンピュートアーキテクチャを持つようにしたいです。
次に、MVリンク72でスケールアップします。それは理にかなっていますか?MVリンク72 FP4とそれとの違いを見てください。そして私たちのアーキテクチャが非常に緊密に統合されているため、Dynamoを追加すると、Dynamoはそれをさらに拡張できます。
ついていますか?Dynamoはホッパーも助けますが、Dynamoはブラックウォールを信じられないほど助けます。
GTCだけが、それに拍手をくれる場所です。そして今、私が配置した2つの輝く部分に注目してください。それはあなたの最大Qがある場所です。それはあなたがファクトリー操作を実行する可能性が高い場所です。最大スループットと最大AIの品質、最もスマートなAIのバランスを見つけようとしています。
それらの2つのポイント、XY交点は本当にあなたが最適化しようとしているものであり、それらの2つの四角形の下を見ると、BlackwellはHopperよりもはるかに優れています。これはISOチップではないことを覚えておいてください。これはISOパワーです。これは究極のムーアの法則です。これはムーアの法則が常に意味していたものです。
そして現在、一世代で25倍のISOパワーを実現しています。ISOチップではありません。ISOトランジスタではありません。ISO何でもないです。ISOパワー、究極の制限要因です。データセンターに入れられるエネルギーには限りがあり、ISOパワー内でブラックウェルは25倍になります。
こちらの虹、それは信じられないことで、楽しい部分です。見てください、すべての異なる構成、パレート最前線、パレート最前線の下にはデータセンターを構成できる何百万もの点があります。仕事を並列化し、分割し、様々な方法でシャードできました。そして最も最適な答えがパレート最前線です。
そしてそれらは色によって、それぞれが異なる構成であることを示しています。これがこの画像が非常に明確に示している理由です。可能な限り均質で代替可能なプログラム可能なアーキテクチャが欲しいのです。なぜなら、ワークロードが最前線全体で劇的に変わるからです。
上部には、エキスパート並列8、バッチ3000、分解オフ、Dynamoオフがあります。中央には、エキスパート並列64、コンテキスト26%を使用、Dynamoがオン、他の64%は74%で、バッチは64、片方のエキスパート並列は64、もう片方は4です。
そして一番下には、テンソル並列16、エキスパート並列4、バッチ2、コンテキスト1%があります。コンピュータの構成はそのスペクトル全体で変わっています。
これが起こっていることです。これは入力シーケンス長です。これは比較的簡単にベンチマークできるテストケースです。入力は1,000トークン、出力は2,000トークンです。先ほどのデモでは出力が単に9,000、8,000だったことに注意してください。このテストは明らかにそのチャットの一つを代表するものではありません。
このテストはより代表的であり、これがNext Generationコンピュータを次世代ワークロード用に構築する目標です。ここに推論モデルの例があり、推論モデルでは、Blackwellはホッパーの40倍、真っ向から40倍のパフォーマンスを発揮します。信じられないほど素晴らしいです。
以前、「Blackwellが大量に出荷されるとき、Hopperを無料で配っても受け取る人はいない」と言いました。これが私の言っていることであり、これは理にかなっています。まだHopperを買おうと思っている方は心配しないでください。大丈夫です。しかし、私は最高の収益破壊者です。営業担当者は「言わないで」と言いますが、Hopperが適している環境もあります。Hopperについて言える最も良いことは、適している環境もあるということです。多くはありませんが。
私が言っているのは、技術がこれほど急速に進化しており、ワークロードがとても集中的で、これらのことを構築している場合、それらはファクトリーであり、私たちは本当に正しいバージョンに投資してほしいのです。
この観点から見ると、100メガワットのファクトリーはこのようになります。ホッパーベースでは、45,000ダイ、1,400ラック、1秒あたり3億トークンを生成します。
そしてブラックウェルではこうなります。8つ…そうです。それは意味をなしません。私たちはより少なく売ろうとしているわけではありません。営業担当者は「ジェンセン、彼らにより少なく売っている」と言いますが、これは良いことです。
より多く買うほど、より多く節約できます。それはさらに良くて、より多く買うほど、より多く稼げます。
すべてはコンテキスト内にあることを覚えておいてください。すべてがAIファクトリーのコンテキスト内にあり、チップについて話していますが、常にスケールアップから始めます。チップについて話していますが、常に最大までスケールアップから始めます。
今からAIファクトリーがどのように見えるかをお見せしますが、AIファクトリーは非常に複雑です。先ほど1つのラックの例を示しましたが、それには60万パーツあり、3,000ポンドあります。それを取って他の多くのものと接続する必要があります。
私たちはすべてのデータセンターのデジタルツインと呼ぶものを構築し始めています。データセンターを構築する前に、デジタルツインを構築する必要があります。
世界は最先端の大規模AIファクトリーを構築するために競争しています。AIギガファクトリーを立ち上げることは、サプライヤー、建築家、請負業者、エンジニアなど数万人の労働者が、50億近くのコンポーネントと20万マイル以上のファイバー(地球から月までの距離に近い)を構築、出荷、組み立てる非凡な工学の偉業です。
Nvidia Omniverse ブループリントは、AIファクトリーのデジタルツインを可能にし、物理的な建設が始まる前にこれらのAIファクトリーを設計し最適化することができます。ここでNvidiaのエンジニアがブループリントを使用して、1ギガワットのAIファクトリーを計画し、最新のNvidia DGX SuperPodsの3Dデータとレイアウトデータ、Vertiv and Schneider Electricからの先進的な電力と冷却システム、そしてネットワークロジック、レイアウト、プロトコルをシミュレーションするフレームワークであるNvidia Airからの最適化されたトポロジーを統合しています。
この作業は伝統的にサイロで行われてきましたが、Omniverseブループリントにより、エンジニアチームが並行して協力して作業でき、さまざまな構成を探索してTCOと電力使用効率を最大化できます。
NvidiaはCudaとOmniverseライブラリによって加速されたCadence Reality Digital Twinを使用して、空気と液体の冷却システムをシミュレーションし、Schneider ElectricはEAP、電力ブロックの効率と信頼性をシミュレーションするアプリケーションを使用しています。リアルタイムシミュレーションにより、数時間ではなく数秒で大規模なwhat-ifシナリオを反復して実行できます。
デジタルツインを使用して、大規模なチームとサプライヤーに指示を伝達し、実行エラーを減らし、立ち上げ時間を加速します。そして改修やアップグレードを計画する際、コストとダウンタイムを簡単にテストとシミュレーションでき、将来のためのAIファクトリーを確保します。
これはデータセンターを構築する人が初めて…それは本当に美しいです。
さて、急いでいます。なぜなら、お話することがたくさんあり、少し速く進めても、あなたを気にかけていないわけではなく、ただ多くの情報を伝える必要があるからです。
まず、私たちのロードマップについてです。ブラックウェルは現在フル生産中で、世界中のコンピュータ企業がこれらの信じられないマシンを大規模に立ち上げています。皆さんがこの新しいアーキテクチャへの移行に懸命に取り組んでくれたことに非常に満足し、感謝しています。
今年の後半には、アップグレードに簡単に移行します。Blackwell Ultra MV link 72があります。これは1.5倍多くのFLOPS、アテンションのための新しい命令があり、1.5倍多くのメモリがあります。そのメモリはすべてKVキャッシュなどに役立ちます。ネットワーク帯域幅も2倍あります。
同じアーキテクチャを持っていますので、優雅にそれに移行します。これがBlackwell Ultraと呼ばれるものです。今年後半に登場します。
私たちがこれを発表するのには理由があります。これはどんな企業でも、皆が「次は?」と言う唯一の製品発表です。実際、それは私が期待していた反応です。
その理由は、私たちはAIファクトリーとAIインフラを構築しており、計画には何年もかかるからです。これはラップトップを買うようなものではありません。これは自由裁量の支出ではなく、計画しなければならない支出です。
当然、土地と電力が必要であり、資本支出の準備をし、エンジニアリングチームを整え、数年前から計画しなければなりません。それが私が数年先のロードマップを示す理由です。5月に驚かせないようにするためです。「来月、この信じられない新システムに移行します」と。
これを複数年で計画しました。1年後の次のステップは、天文学者にちなんで名付けられています。彼女の名前はヴェラ・ルービンで、彼女はダークマターを発見しました。彼女の孫がここにいます。
ヴェラ・ルービンは素晴らしいです。CPUは新しく、Graceの2倍のパフォーマンス、より多くのメモリ、より多くの帯域幅がありますが、わずか50ワットのCPUは本当に素晴らしいです。ルービンは真新しいGPU、CX9、真新しいネットワーキング、スマートニック、MVリンク6、真新しいMVリンク、真新しいメモリHBM4を持っています。
基本的にシャーシを除くすべてが新しいです。この方法で、一つの方向に多くのリスクを取ることができ、インフラに関連する他の多くのことにリスクを取らないようにします。
ヴェラ・ルービンMVリンク144は来年後半です。一つ訂正しなければならないことがありますが、これは一度だけの修正です。Blackwellは実際に1つのBlackwellチップに2つのGPUがあります。私たちはそのチップを1つのGPUと呼んでいましたが、それは間違いでした。その理由は、MVリンクの命名法などをすべて混乱させてしまうからです。
Blackwellに戻って修正せず、今後MVリンク144と言うとき、それは144のGPUに接続されていることを意味し、それぞれのGPUはGPUダイであり、何らかのパッケージに組み立てられる可能性があります。組み立て方は時に変わる可能性があります。
各GPUダイがGPUであり、各MVリンクはGPUに接続されています。したがって、ヴェラ・ルービンリンク144、そしてこれが翌年後半のルービンウルトラの段階を設定します。ヴェラ・ルービンウルトラ、これこそあなたが「いいね!」と言うべきものです。
これがヴェラ・ルービンウルトラで、27年後半です。MVリンク576、極端なスケールアップ、各ラックは600KW、25万パーツです。そして明らかに多くのGPU、すべてがXファクター倍です。14倍多くのFLOPS、1エクサフロップスではなく15エクサフロップスです。
先ほど述べたスケールアップされたエクサフロップスです。そして300…4.6ペタ、つまり4,600テラバイト/秒のスケールアップ帯域幅です。集約ではなく、スケールアップ帯域幅です。
当然、真新しいMVリンクスイッチとCX9があります。16サイト、1パッケージに4つのGPU、非常に大きなMVリンクに注目してください。
これが何を意味するかを説明します。今、これは楽しくなります。これは現在まさにGrace Blackwallを立ち上げているところです。ラップトップのように見せるつもりはありませんが、行きましょう。
これはGrace Blackwallの姿です。そしてこれがルービンの姿です。ISO寸法です。これは言い換えれば、スケールアウトする前にスケールアップする必要があることを意味します。スケールアウトする前にスケールアップし、その後、すぐに後でお見せする素晴らしい技術でスケールアウトします。まずスケールアップし、それにより私たちが動いているペースがわかります。
これはスケールアップされたFLOPS(浮動小数点演算)の量です。Hopperは1倍、Blackwellは68倍、Rubinは900倍のスケールアップFLOPSです。そして本質的にあなたのTCO(総所有コスト)に変換すると、上部の電力あたり、下部は先ほど話していた曲線の下の面積であり、基本的にはFLOPS × 帯域幅です。
AIファクトリーが進歩しているかどうかの非常に簡単な直感的なチェックは、ワット数をそれらの数字で割ることです。Rubinでは、コストが大幅に下がることがわかります。
これがNvidiaのロードマップの簡単な説明です。時計のように一年に一度です。
どうやってスケールアップするのか?スケールアウトの準備をしていました。スケールアップはMVリンクで、スケールアウトネットワークはInfinibandとSpectrum Xです。私たちがイーサネットの世界に入ったことに多くの人が驚きました。
イーサネットがInfinibandのようになり、Infinibandの特性を持つようにできれば、ネットワーク自体が全員にとってはるかに使いやすく管理しやすくなると考えたからです。そこでSpectrum Xに投資することを決め、輻輳制御、非常に低いレイテンシー、コンピューティングファブリックの一部である多くのソフトウェアの特性をもたらしました。
その結果、Spectrum Xは信じられないほど高性能になりました。Spectrum Xで史上最大の単一GPUクラスターを一つの巨大なクラスターとしてスケールアップしました。それがColossusです。他にも多くの例があります。Spectrum Xは間違いなく私たちにとって大成功です。
非常に興奮している分野の一つは、Spectrum XがAIクラウドだけでなく、あらゆるエンタープライズがAI企業になることを可能にすることです。先週か先々週、チャック・ロビンスとシスコとNvidiaが、世界最大のエンタープライズネットワーキング企業であるシスコがSpectrum Xを取り入れ、世界のエンタープライズがAI企業になるよう支援するためのパートナーシップを発表しました。
私たちはCX8、CX7で10万に達しています。現在CX8が登場し、CX-9も登場します。Rubinの時間枠の間に、GPUの数を何十万にもスケールアウトしたいと考えています。
何十万ものGPUをスケールアウトする課題は、スケールアウトの接続です。スケールアップの接続は銅線です。できるだけ銅線を使用すべきです。それは1〜2メートルであり、信じられないほど良い接続、非常に低い、非常に高い信頼性、非常に良いエネルギー効率、非常に低コストです。
スケールアップではできるだけ銅線を使用しますが、スケールアウトでは、データセンターがスタジアムの大きさになっている現在、より長距離の走行が必要です。ここでシリコンフォトニクスが登場します。
シリコンフォトニクスの課題は、トランシーバーが電気から光への変換に多くのエネルギーを消費することです。CISを通過し、トランシーバーを通過し、複数のCISを通過する必要があります。
まず、Nvidiaの初のコパッケージオプションシリコンフォトニックシステムを発表します。これは世界初の1.6テラビット/秒CPOであり、マイクロリングレゾネーターモジュレーターと呼ばれる技術に基づいています。これは完全にTSMCでの素晴らしいプロセス技術で構築されており、これからお見せするものを発明するために巨大なテクノロジープロバイダーのエコシステムと提携しています。これは本当にクレイジーなテクノロジーです。
MRMに投資することを決めた理由は、通信に使用されるモアンダーと比較して、MRMの信じられない密度と電力、密度と電力の向上を準備するためです。
あるデータセンターから別のデータセンターに移動するとき、通信や使用するトランシーバーでは、密度要件がこれまでそれほど高くなかったため、モアンダーを使用します。
これらのトランシーバーを見てください。これはトランシーバーの例です。これを絡ませるのに本当に良い仕事をしました。これは30ワットです。覚えておいてください、30ワットで、大量購入すると1,000ドルです。この側はプラグで、こちら側は電気、こちら側は光学です。
光学は黄色を通って入り、これをスイッチに接続すると、こちら側は電気です。こちら側にはトランシーバー、レーザー、モアンダーと呼ばれる技術があります。これを使用して、GPUからスイッチへ、次のスイッチへ、次のスイッチへ、最終的にGPUへと接続します。
これらのそれぞれが、例えば10万GPUがあれば、この側に10万、そしてスイッチとスイッチを接続する別の10万があり、他の側にはそれを他のNICに結び付けます。25万あれば、もう一層のスイッチを追加し、すると各GPU、25万のすべてのGPUには6つのトランシーバー、6つのこのようなプラグがあります。
これら6つのプラグは、GPUあたり180ワット、GPUあたり6,000ドルを追加します。質問は、どうやって数百万GPUにスケールアップするかです。100万GPUがあれば、それに6をかけると、600万トランシーバー × 30ワットで、180メガワットのトランシーバーになります。彼らは計算をせず、単に信号を動かすだけです。
どうやって180メガワットの電力を差し引いても負担できるでしょうか?先ほど言ったように、エネルギーは私たちの最も重要な商品であり、すべてが最終的にエネルギーに関連しています。
これが私たちが行った驚くべきことです。世界初のMRM(マイクロリング)を発明しました。小さな波導管があり、その波導管がリングに行きます。そのリングが共鳴し、周囲を通過する波導管の反射率の量を制御し、通過する光の量を制限し変調します。それをオフにするか通過させるかを決めます。
連続的なレーザービームを1と0に変え、それが奇跡です。そのテクノロジーは、フォトニックICが電子ICと積層され、それが多くのマイクロレンズと積層され、それがファイバーアレイと呼ばれるものと積層されます。
これらはすべて、TSMCでCoupと呼ばれるこのテクノロジーを使用して製造され、3D Coosテクノロジーを使用してパッケージ化されています。先ほどお見せした名前を含む、多くのテクノロジープロバイダーとともに、この素晴らしいマシンに変えます。
これらのスイッチ、私たちのInfinibandスイッチになります。シリコンは素晴らしく機能しています。今年後半にシリコンフォトニックスイッチを出荷し、来年後半にMRMのおかげでSpectrum Xを出荷します。
過去5年間に行った素晴らしいテクノロジーリスク、何百もの特許を出願し、パートナーにライセンス供与して全員が構築できるようにしました。これにより、トランシーバーなし、直接ファイバーという共パッケージオプションを持つシリコンフォトニクスをスイッチに組み込む位置にあります。
これは512ポートの512ラディックスです。これは他の方法では単に不可能でしょう。これにより、数十万、数百万のGPUにスケールアップする準備が整いました。
データセンターでは数十メガワット、例えば10メガワット、いや60メガワット、60メガワットを節約できると想像してください。60メガワットは100のRubin Ultraラックです。シリコンフォトニックスの節約分をRubinに投入できます。
これが私たちのロードマップです。一年に一度、一年に一度、二年ごとに新しいアーキテクチャ、毎年新しい製品ライン、Xファクターがアップします。シリコンリスク、ネットワーキングリスク、システムシャーシリスクを部分的に取り、業界を前進させながら、これらの信じられないテクノロジーを追求します。
ヴェラ・ルービン、そして彼女の孫がここにいることに本当に感謝しています。これは彼女を認め、彼女が行った信じられない仕事を称える機会です。次の世代はファインマンにちなんで名付けられます。
これがNvidiaのロードマップです。エンタープライズコンピューティングについて話しましょう。これは非常に重要です。AIを世界のエンタープライズに持っていくために、まずNvidiaの別の部分に行く必要があります。Gaussian Splatsの美しさです。
AIをエンタープライズに持っていくために、一歩下がって思い出してください。AIと機械学習はコンピューティングスタック全体を再発明しました。プロセッサが異なり、オペレーティングシステムが異なり、その上のアプリケーションが異なります。アプリケーションの違い、それらをオーケストレーションする方法の違い、それらを実行する方法の違いです。
一例をあげましょう。データにアクセスする方法は、過去とは根本的に異なります。欲しいデータを正確に取り出して読む代わりに、将来はPerplexityと同じことをします。Perplexityに欲しいものを尋ね、質問をすると答えを教えてくれます。
これが将来のエンタープライズITの仕方です。私たちはデジタルワークフォースの一部であるAIエージェントを持つでしょう。世界には10億の知識労働者がいて、おそらく100億のデジタルワーカーが私たちと並んで働くでしょう。
将来的には世界中の3,000万のソフトウェアエンジニアの100%がAI支援されると確信しています。Nvidiaのソフトウェアエンジニアの100%が今年末までにAI支援されるでしょう。
AIエージェントはどこにでもあるでしょう。それらがどのように実行されるか、エンタープライズが何を実行するか、どのように実行するかは根本的に異なるでしょう。
そのため、新しいコンピュータラインが必要です。これがすべての始まりです。これがNvidia DGX1です。20のCPUコア、128ギガバイトのGPUメモリ、1ペタフロップスの計算、15万ドル、3,500ワットです。
新しいDGXを紹介します。これはNvidiaの新しいDGXであり、DGX Sparkと呼びます。驚くかもしれませんが、20のCPUコアです。私たちはMediaTekと提携してこれを構築しました。彼らは素晴らしい仕事をしました。RickieとMediaTek Teamとの協力は大きな喜びでした。彼らのパートナーシップに感謝します。
チップツーチップMVリンク、CPUからGPUへと構築し、現在GPUには128GBあり、これが面白いところです。1ペタフロップスです。これは元のDGX1とピンパーティクルのようなものです。それはGTCでウケるジョークだと思っていました。
世界には3,000万のソフトウェアエンジニア、1,000万から2,000万のデータサイエンティストがいます。これは明らかに選択すべき装備です。
各バッグにはこれが入っているはずです。これは世界中のすべてのソフトウェアエンジニア、AIリサーチャー、あるいはデータサイエンティストの開発プラットフォームです。
ソフトウェアエンジニア、AIリサーチャー、データサイエンティストなど、あなたが気にかける家族の一員、配偶者がいて、完璧なクリスマスプレゼントを渡したいなら、これが欲しいものでないと言ってみてください。
紳士淑女の皆様、本日、GTCの参加者のために最初のDGX Sparksを予約することを発表します。すでにこれらの一つをお持ちですので、これらの一つを手に入れるだけです。
次のものも、世界が今まで持っていなかった全く新しいコンピュータです。全く新しいパーソナルコンピュータ、新しいパーソナルワークステーションを発表します。信じられないかもしれませんが、これをご覧ください。
Grace Blackwell液体冷却、これがPCの姿であるべきです。20ペタフロップス、信じられないほどです。72のCPUコア、チップツーチップインターフェース、HBMメモリ、そしてGeForce用のPCI Expressスロットもいくつかあります。
これはDGX Stationと呼ばれています。DGX SparkとDGX Stationは、HP、Dell、Lenovo、Asusなどすべてのオリジナル機器メーカーから入手可能になります。世界中のデータサイエンティストと研究者のために製造されます。
これはAI時代のコンピュータです。これがコンピュータの姿であるべきであり、これが将来のコンピュータの実行方法です。
エンタープライズ向けの全ラインナップがあり、小さなものからワークステーション、サーバー、スーパーコンピュータまであります。これらはすべてのパートナーから入手可能になります。
コンピューティングスタックの残りの部分も革命的に変えます。コンピューティングには三つの柱があります。コンピューティング、これを見ているものです。ネットワーキング、先ほど述べたSpectrum X、世界のエンタープライズとAIネットワークに行きます。
三つ目はストレージです。ストレージは完全に再発明される必要があります。検索ベースのストレージシステムではなく、セマンティクスベースの検索システム、セマンティクスベースのストレージシステムになります。
ストレージシステムはバックグラウンドで継続的に情報を埋め込み、生データを取り、知識に埋め込み、後でアクセスするときには検索するのではなく、単に話しかけます。質問をし、問題を与えます。
その例の一つを示すビデオがあればよかったのですが、BoxのAaronがクラウドに一つを設置し、私たちと協力してクラウドに設置しました。それは基本的に超スマートなストレージシステムであり、将来的にはそのようなものがすべてのエンタープライズにあるでしょう。それが将来のエンタープライズストレージです。
ストレージ業界全体と協力しています。素晴らしいパートナーであるDDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast、Weka、基本的に世界のストレージ業界全体がこのスタックを提供するでしょう。初めて、ストレージシステムはGPU加速されるでしょう。
マイケルがスライドが足りないと思ったようで、「ジェンセン、スライドが足りない場合のために、これを入れさせてください」と言いました。私はスライドが多すぎるのですが、これは素晴らしいスライドで、その理由を説明します。
一枚のスライドで、Dellが全ラインのNvidia Enterprise IT AIインフラストラクチャシステムとその上で動作するすべてのソフトウェアを提供することを説明しています。世界のエンタープライズを革命的に変えているのが分かります。
また、本日、誰もが実行できる素晴らしいモデルを発表します。先ほどR1という推論モデルと、非推論モデルのLlama 3を示しました。明らかにR1の方がはるかに賢いですが、さらに良くできます。
あらゆる企業がエンタープライズ対応できるようにしました。現在、完全にオープンソースであり、Nimsと呼ぶシステムの一部です。ダウンロードして、どこでも実行できます。DGX Spark、DGX Station、OEMが作るどのサーバーでも実行できます。クラウドでも実行でき、どのエージェントAIフレームワークにも統合できます。
世界中の企業と協力しており、これらをすばやく通過しますので、注意してください。会場には素晴らしいパートナーがいます。
Accentureのジュリー・スウィートと彼女のチームは、AIファクトリーとAIフレームワークを構築しています。AMDOSは世界最大の通信ソフトウェア企業です。AT&Tのジョン・スタンキーと彼のチームはAT&T AIシステム、エージェントシステムを構築しています。
ラリー・フィンクとBlackRockチームは彼らのものを構築しています。アニー・ルードと将来、私たちはASICデザイナーを雇うだけでなく、アヌードからデジタルASICデザイナーもたくさん雇うでしょう。Cadenceは私たちのチップの設計を手伝います。
これらのそれぞれには、Nvidiaモデル、Nvidia Nims、Nvidiaライブラリが統合されており、オンプレミス、クラウド、どのクラウドでも実行できます。
Capital Oneは、テクノロジーを使用した最も先進的な金融サービス企業の一つであり、Nvidiaがあらゆる場所にあります。デロイトのジェイソンと彼のチーム、EY、ジャネットと彼のチーム、NASDAQとアディナと彼女のチームはNvidiaテクノロジーを彼らのAIフレームワークに統合しています。SAPのクリス・ジェンと彼のチーム、ServiceNowのビル・マクダーモットと彼のチーム。
それはかなり良かったですね?これはそれらのキーノートの一つで、最初のスライドに30分かかり、他のすべてのスライドに30分かかります。
次に別の場所に行きましょう。ロボティクスについて話しましょう。
時が来ました。ロボットが物理的な世界と相互作用し、デジタル情報では不可能なことを行うという利点があります。世界は人間の労働力、人間の労働者の深刻な不足に直面していることを明確に知っています。
この10年の終わりまでに、世界は少なくとも5,000万人の労働者が不足するでしょう。彼らが働きに来れば、各人に5万ドル払うことを喜んでするでしょう。おそらく、ロボットに年間5万ドルを払って働きに来てもらう必要があるでしょう。
これは非常に大きな産業になるでしょう。すべての種類のロボットシステムがあります。インフラはロボット化され、倉庫や工場に数十億のカメラ、世界中に1,000万から2,000万の工場があります。すでにすべての車はロボットです。先ほど述べたように、現在私たちは汎用ロボットを構築しています。
動くすべてのものは自律的になります。物理的AIはあらゆる種類、あらゆる産業のロボットに組み込まれます。Nvidiaによって構築された3つのコンピュータは、ロボットAIのシミュレーション、トレーニング、テスト、実世界の経験の継続的なループを可能にします。
ロボットのトレーニングには膨大な量のデータが必要です。インターネットスケールのデータは常識と推論を提供しますが、ロボットはアクションと制御データが必要であり、それを捕捉するのは高価です。
NvidiaのOmniverseとCosmosに構築されたブループリントを使用して、開発者はロボットポリシーをトレーニングするための、多様な合成データを大量に生成できます。
まず、Omniverseで開発者は実世界のセンサーやデモンストレーションデータを、彼らの異なるドメイン、ロボット、タスクに従って集約します。次にOmniverseを使用してCosmosに条件付けし、元のキャプチャを物理ベースのシミュレーションで運転するための閉ループ用の3Dシーンに変換された大量のフォトリアルで多様なデータに増幅します。
開発者はIsaac Labを使用して、拡張されたデータセットでロボットポリシーをポストトレーニングし、模倣学習を通じて行動をクローンするか、強化学習での試行錯誤を通じて新しいスキルを学習させます。
ラボでの練習は実世界とは異なります。新しいポリシーはフィールドテストが必要です。開発者はOmniverseを使用して、ソフトウェアとハードウェアのループ内テストを行い、実世界の環境ダイナミクスを持つデジタルツインでポリシーをシミュレーションします。
実世界の運用には複数のロボットが協力して働く必要があります。Megaというブループリントは、開発者がポストトレーニングされたポリシーのフリートを大規模でテストすることを可能にします。
ここでFoxconnは、仮想的なNvidia Blackwell生産施設で異種のロボットをテストします。ロボットの脳がミッションを実行すると、センサーシミュレーションを通じて彼らの行動の結果を認識し、次のアクションを計画します。
Megaは開発者に多くのロボットポリシーをテストする能力を提供し、空間的推論、ナビゲーション、モビリティ、器用さのためにシステムとして働くことを可能にします。
素晴らしいものはシミュレーションから生まれます。今日、Nvidia Isaac Groot N1を紹介します。Groot N1はヒューマノイドロボット用の汎用基盤モデルです。合成データ生成とシミュレーションでの学習の基盤の上に構築されています。
Groot N1は、人間の認知処理の原則に触発された、速く考えるシステムと遅く考えるシステムの二重システムアーキテクチャを特徴とします。遅く考えるシステムはロボットが環境と指示を認識し、推論し、取るべき正しいアクションを計画することを可能にします。速く考えるシステムは計画を正確で連続的なロボットアクションに変換します。
Groot N1の一般化により、ロボットは共通のオブジェクトを簡単に操作し、協力的に複数のステップのシーケンスを実行できます。
合成データ生成とロボット学習のこの全パイプラインにより、ヒューマノイドロボット開発者は、世界中のあらゆる産業の多くの環境で、複数の実施形態とタスク全体でGroot N1をポストトレーニングできます。
世界中のあらゆる産業で、開発者はNvidiaの3つのコンピュータを使用して、次世代の具現化されたAIを構築しています。
物理的AIとロボティクスは非常に速く進化しています。皆さんこの分野に注目してください。これは非常に可能性が高く、すべての中で最大の産業になる可能性があります。
その核心には、先ほど言及したのと同じ課題があります。焦点を当てる3つの課題があります。それらはかなり系統的です。
一つ目は、データの問題をどう解決するか。AIをトレーニングするために必要なデータをどこで作成するか。
二つ目は、モデルアーキテクチャは何か。
三つ目は、スケーリング法則は何か。データ、計算、またはその両方をどうスケールして、AIをより賢くできるか。どうスケールするか。
これらの二つの根本的な問題はロボティクスにも存在します。ロボティクスでは、Omniverseと呼ばれるシステムを作成しました。これは物理的AIのためのオペレーティングシステムです。Omniverseについては長い間話してきました。
今日、二つのテクノロジーを追加します。二つのことをお見せします。一つは、生成機能と物理的世界を理解する生成モデルでAIをスケールできるようにするためのものです。これをCosmosと呼んでいます。
OmniverseをCosmosの条件付けに使用し、Cosmosを使用して無限の環境を生成することで、私たちがコントロールする接地されたデータを作成でき、系統的に無限のデータを同時に作成できます。
OmniverseではCandyの色を使用して、ロボットとシナリオを完璧にコントロールしている例を示していますが、Cosmosはこれらすべての仮想環境を作成できます。
二つ目は、先ほど話したように、今日の言語モデルの信じられないスケーリング能力の一つは、検証可能な報酬を持つ強化学習です。質問は、ロボティクスでの検証可能な報酬は何かということです。
よく知られているように、それは物理法則、検証可能な物理報酬です。信じられない物理エンジンが必要です。ほとんどの物理エンジンはさまざまな理由で設計されてきました。大きな機械のために設計されたり、仮想世界やビデオゲームなどのために設計されたかもしれません。しかし、私たちは非常に細かい剛体と柔らかい物体のために、触覚フィードバックや微細な運動技能、アクチュエータ制御のためのトレーニングができるように設計された物理エンジンが必要です。
これらの仮想世界がスーパーリニアタイム、超リアルタイムで存在し、AIモデルを信じられないほど速くトレーニングできるようにGPU加速される必要があります。また、世界中のロボット工学者が使用するフレームワークであるMuJoCoと調和的に統合される必要がありました。
そこで今日、本当に特別なものを発表します。それはDeep Mind、Disney Research、Nvidiaの3社のパートナーシップであり、私たちはそれをNewtonと呼んでいます。Newtonを見てみましょう。
これは驚くべきものではありませんか?
ブルー、元気?どう?新しい物理エンジンは気に入った?好きだよね?そうだろうね。触覚フィードバック、剛体、柔らかい物体のシミュレーション、超リアルタイム、想像してみてください。今見ていたのは完全なリアルタイムシミュレーションです。これが将来、ロボットをトレーニングする方法です。
ブルーは内部に2台のコンピュータ、2台のNvidiaコンピュータを持っていることをお知らせします。なんて賢いんだ、そうだよね、君は賢い。
よし、ブルー、家に帰ろう。このキーノートを終了しよう。ランチタイムだ。準備はいい?終わらせよう。別の発表があるよ。いいよ、ここに立ってて、ここに。そのまま、そのまま。よし。
もう一つの素晴らしいニュースがあります。ロボティクスが進歩していると言いましたが、今日、Groot N1がオープンソース化されることを発表します。
皆さんがGTCに来てくれたことに感謝します。いくつかのことについて話しました。
まず、Blackwellはフル生産中であり、その立ち上げは信じられないほどです。顧客の需要は信じられないほどであり、それには良い理由があります。AIに変曲点があるからです。推論AIとエージェンティックシステムの結果として、AIで行わなければならない計算量ははるかに大きくなっています。
第二に、Dynamoを備えたBlackwell MVリンク72は、Hopperの40倍のAIファクトリーパフォーマンスであり、推論は次の10年間で最も重要なワークロードの一つになるでしょう。
第三に、AIインフラを計画できるように、年間のロードマップのリズムが確立されています。
そして私たちは3つのAIインフラを構築しています。クラウド用のAIインフラ、エンタープライズ用のAIインフラ、そしてロボット用のAIインフラです。
もう一つのお楽しみがあります。
皆さん、ありがとうございます。このビデオを可能にしたすべてのパートナーに感謝します。このビデオを可能にしたすべての人に感謝します。素晴らしいGTCをお楽しみください。ありがとうございます。
ブルー、家に帰ろう。よくやった、いい子だね。ありがとう、私も愛してるよ、ありがとう。


コメント