E16: この手のひらサイズのAIスーパーコンピューター

AGIに仕事を奪われたい
この記事は約16分で読めます。

9,546 文字

E16: This AI Supercomputer Fits In The Palm of My Hand
Most investors think #nvidia ( #nvda ) only builds data center chips for training generative AI models like GPT-4, which...

Funding Awesome、科学と株式の背景をより深く探究する私のポッドキャストにお帰りなさい。今年の初め、私はNvidiaの大型開発者会議GTCに参加しました。この会議は、自動運転車やスーパーコンピューターからロボットやエージェンティックAIまで、あらゆる主要市場におけるAIの画期的な進歩に焦点を当てたものでした。このエピソードでは、エッジコンピューティングの最新イノベーションについて、内部の独占的な視点をお届けします。
本日は、NVIDIAのエンタープライズプラットフォーム製品マーケティング部門のディレクター、アラン・バーグゴインにご参加いただき、NvidiaのRTX Pro 6000 GPUから、文字通り手のひらに収まるスーパーコンピューターDGX Sparkまで、次世代AI アプリケーション開発のためのハードウェアについて探求していきます。
アランはAI開発が次にどこに向かうのかについて、いくつかの驚くべきことを語ってくれました。皆さんの時間は貴重ですので、早速始めましょう。
私がNvidiaのことを考えるとき、通常はデータセンターに入るような巨大なGPUを思い浮かべますよね。しかし、今私たちはRTX Pro 6000 GPUの前に立っています。このようなワークステーションに入るものと、私の後ろにあるすべてのものとの大きな違いを、人々は何を知る必要があるでしょうか。
それは本当にワークロードに関わってきます。ワークステーションの人々は汎用マシンを求めています。製品デザイナーかもしれません。医師かもしれません。研究者かもしれません。彼らは多くのことを行います。可視化だけでなく、コンピューティングやAIも行いたいのです。これらのサーバーは本当にその高性能コンピューティングに焦点を当てています。グラフィックスや可視化はそれほど重視されていません。
自転車をデザインするためにそれらのうちの1つを購入することはないでしょう、そうでしょう。しかし、これらは人々が私たちの周りの世界にある製品をデザインするために毎日使用するものです。ですから、異なる使用例で同じワークロードを実行します。これらのものはAIを実行でき、コンピューティングを実行でき、グラフィックスに対応できます。ただ、サーフェスで潜在的に何千、何百万のユーザーがいる大きなマルチユーザー環境ではなく、デスクトップ環境により適しているということです。
つまり、クラウドで共有リソースを使用して開発し、既存のワークステーションでエッジで開発するということですね。ゲーム用ではないということですね。これは完全に別物です。これらでゲームを実行することはできますが、おそらくゲーム向けに設計されたGeForceのようなより適したものをお勧めします。これらは本当にエンタープライズプロフェッショナル向けに設計されています。
はい。エンタープライズプロフェッショナルとして、私が今日すでに強力なワークステーションを持っているとき、次世代のRTX Proが私に提供してくれるものは何でしょうか。理解を助けてください。
この世代では、いくつかのことがあります。まず、Blackwellを得ることができます。これは私たちの最新世代のGPUです。より高度なグラフィックス、より高度なAIとコンピューティングを提供します。メモリも倍増させました。96 GBのメモリが利用可能になりました。前世代は48でした。人々はマルチアプリケーションワークフローを実行しています。より多くのAI拡張ワークフローを得ています。つまり、例えば製品デザインを行っているだけでなく、医学研究を行っているだけでなく、おそらくその作業を支援するAIモデルを実行しているということです。
私たちが話したコパイロットやエージェントのようなものですね。ですから、その追加メモリ、Blackwellの追加機能を持つことで、ワークフローがより複雑になり、AI技術がより浸透するにつれて、人々がそれらのワークロードを加速させるのに役立つでしょう。
はい。ここにBlackwellが入っていますが、これはグラフィックス部分だけですよね。これはGPUです。ここにはCPUは入っていませんよね。
CPUはありません。これらは標準的なワークステーションに接続され、そこのCPUを活用します。この製品はデータセンター用です。つまり、実際にサーバーに入ることになります。ここで見ることができるように、ファンがありません。サーバーラックのクーリングに依存しますが、同じグラフィックス機能を提供します。
人々はサーバーからこれらを駆動したい場合があります。それらを仮想化して、どこにでも出て行く仮想ワークステーションを持つかもしれません。しかし、ワークステーションに持っているか、サーバーに持っているかに関係なく、RTXの同じ体験を得ることができます。
このフォームファクターとこのフォームファクターの違いは何ですか。
この世代で私たちが実際に行ったことは、Blackwellワークステーション GPUから得ることができる性能を最大化したかったということです。このカードは実際に600ワットで動作しています。非常に強力です。基本的にできる限り速く動作させています。しかし、環境によっては、ノイズとスケーラビリティが考慮事項になる可能性があることがわかっています。
この製品にはブロワークーリングユニットが付いており、300ワットで動作します。ジェンスンがスケールアップとスケールアウトについて話していたのを聞きましたね。
スケールアップしたい場合、これはデスクトップシステムで得ることができる最も強力な単一のGPUです。ワークステーションシャーシにそれらをたくさん入れることはできません。おそらく1つ、運が良ければ2つかもしれません。これらは最大4つまで入れることができます。
ですから、スケールアウトしたい場合、性能は少し劣ります。おそらく3500に対して4000TOPSについて話しているでしょう。しかし、はるかに電力効率が良く、300ワットで4つをワークステーションに入れることができます。それがスケールアウトですね。単一のワークステーションシャーシで得ることができるコンピューティングを本当に最大化したい場合、それがあなたが欲しい製品です。
最大性能は最大GPU。最大性能毎ワットと最大シャーシ内。そしてこれはもちろん別々の冷却です。スケールアップとスケールアウトについて話していますが、あのものを見ると、皆さんはスケールダウンしているように見えます。私たちはあらゆる方向に進んでいますよね。これは何ですか。
これはDGX Sparkです。1月のCESでProject Digitsとして紹介し、デスクトップスーパーコンピューターを提供することが目標でした。データセンターで見つかるのと同じGrace Blackwell技術を使用しています。そこにチップが見えるでしょう。それはGrace Blackwellスーパーチップです。CPUとGPUがあり、それらは統合されています。これら2つの間に高速接続で接続されています。非常に小さなコンパクトなパッケージでデスクトップで優れた性能を得ることができます。
今日の多くの開発者は、おそらくノートパソコンで作業しており、最大のモデルと作業することができないか、使用しているノートパソコンでNvidiaツールスタックにアクセスできないかもしれません。これらの1つをデスクに置くことができます。今、私は自分自身の個人用小さなスーパーコンピューターを持っています。より大きなモデルと作業する必要がある場合、そこに作業を送るだけです。Nvidia、おそらくNIMSや私たちのブループリント技術や他の技術と作業する必要がある場合、そこに作業を送ります。
そして美しいのは、それがDGXであるということです。つまり、データセンターのサーバーと同じオペレーティングシステムを実行します。このシステムから任意のDGXシステムや任意の加速NVIDIA クラウドインフラストラクチャに作業を簡単に移行できます。ですから、素晴らしい開発ツールです。そして、それは本当に開発者に焦点を当てています。
ここで見ることができるように、スケールアップする必要がある場合、スケールアップできます。それらを2つ一緒に接続できます。私たちはConnectX技術をここに持っています。高速接続を提供します。ここで最大2000億パラメーターモデルと作業できます。ここで最大4000まで行けます。それらを接続することで。ですから、デスクトップで本当に強力な小さな構成を提供します。
それほど多くのスペースを取らず、基本的に作業を送るための独自の個人クラウドAIクラウドを持つことができます。
それはすごいですね。はい。伝統的にスーパーコンピューターについて考えるとき、私たちの後ろにあるもののことを考えます。しかし、これがどれほど小さいかを感じ取っていただくために、私は全然大きな手をしていません。私は基本的にバーガーキングのコマーシャルの小さな手の男です。そして、これを本当に手のひらに収めることができますよね。
私が理解に興味があることの1つは、使用事例は何かということです。プロフェッショナルがデスクトップで開発のためのスタンドアロン資産を持つことについて多く話しました。すでにそのようなものがある時に、なぜデスクの上にこのようなものが欲しいのでしょうか。この2つの違いは何ですか。
この2つの違いは、これが本当に開発者に焦点を当てているということです。ワークロードを見ると、AI開発作業を行っているかもしれません、AIモデルを微調整したいかもしれません、データセンターに行く前にテストや検証のための推論を実行したいかもしれません、私のものが機能することを確認したいのです。
そして、デスクに個人サーバーが欲しいかもしれません。質問を尋ねることができるチャットボットが欲しいかもしれません。ソフトウェア開発者かもしれません。そこにコードチャットボットを持つことができ、それが私を助けることができます。私たちのコードベースで微調整して、私たちのソフトウェアのような答えを与え、そこで使用できます。
再び、どこでもスタックを実行できます。しかし、微調整の例を行っている場合、実行に数時間かかるかもしれません。ですから、システムを取り上げて他の作業ができなくなることは望みません。これらのうちの1つを持っている場合、またはおそらくデスクトップやノートパソコンワークステーションを持っている場合、「ああ、その微調整が実行されるとき、私が持っているすべてのリソースを使用するでしょう」と言って詰まることは望みません。
ですから、私のマシンは基本的に数時間使用不能になります。それらのワークロードをここに送ります。まだメール、Zoomコール、その他何でもできます。はるかに強力ですよね。作業をそこに送ります。ノートパソコンや小さなデスクトップシステムを持っている人々は本当にこれらを使いたがると思います。
今、これらのうちの1つをスケールアップして素晴らしいAI開発ボックスを作ることができますが、大きなフットプリントを取ることになりますよね。私のデスクに収まったり、おそらく旅行する時にバックパックに入れることができる小さなものではありません。
これには本当のBlackwellが入っています。これにはGrace Blackwellスーパーチップが入っています。これがまさにここにあるGB10です。そして、全然大きくありません。これには本当にGrace Blackwellアーキテクチャ全体が入っています。
私の大きな質問の1つは、なぜこのフォームファクターなのかということです。なぜ2倍の大きさから始めないのですか。何かそんなに小さなものになる最適化があるのですか。
本当に、目標は非常に小さく、目立たず、デスクに置くことができるものを構築することだったと思います。そして、持ち運び可能、推測ですが、そして移動したい場合、人々はプラグインしてそこに座ると思います。しかし、小さく、コンパクトで、もちろん、Grace Black Beltチップがそれを可能にします。
美しいのは、それが完全なシステムであるということです。マウス、キーボードを接続でき、ディスプレイ出力があります。これは文字通りデスクに置いて、周辺機器を接続するだけです。それを行いたい場合は稼働状態になります。または、デスクに置いて、ネットワークに接続し、ネットワークコンピューティングリソースとして構成することもできます。そうすれば、ノートパソコンで作業しています。ジョブを送りたいです。
ノートパソコンを詰まらせたくないか、そこにツールがないかもしれません。そのボックスに送り、ノートパソコンで作業を続けます。バックグラウンドで座ってコンピューティングし、その仕事をします。どのように構成したいかによります。しかし、どちらの方法でも設定できます。スタンドアロンワークステーションとして、または独自の個人AIクラウドとして。
そう思えるのは、ここでのアイデアは、共有リソースの私の分け前を取り始める前に、私が作業しているプロジェクトのリスクを減らすために使用するものだということですね。すべてのコードが機能することを確認するために、そのようなものですね。
私たちは皆、データセンターが貴重なリソースであることを知っているので、データセンターで実験することは作業を完了する最良の方法ではないかもしれません。なぜなら、大きなサーバークラスターで時間を得るために数日または数週間待たなければならないかもしれず、実験しているだけなら、最善の使用を得ているかどうかわからないからです。アイデアを具体化し、テストし、検証できれば、クラウドや データセンターで時間を得るとき、それを最大限に活用するという高い信頼を持ちます。
とても興味深いです。私はずっと昔に電気エンジニアでした。そして、これから直接あれに行くことは決してありませんよね。実際には、そこでより多くのリソースを見ることができる別のリソースがあり、それは小さなチーム間でリソースを共有することについてです。機会があるときにDGXワークステーションを案内していただけませんか。
ここで見ているのは何ですか。これはDGX Stationです。ジェンスンが基調講演でこれについて話し、私たちはこれを発表しました。これは再びスケールアップです。Digitsは素晴らしいボックスです。約1000 TOPSを持っています。ここでは20ペタフロップスのコンピューティングを見ています。再び巨大なステップファンクションアップです。
これは実際にGrace Blackwellを持っています。つまり、より多くのサーバーチップのようなものです。それがGraceで、それがBlackwellでしょう。そして、ここに本質的にサーバースタイルの実装があります。グラフィックスはありません。グラフィックスディスプレイ出力用の別のGPUがそこにあることに気づくでしょう。これは基本的に私たちのデータセンター構成だからです。
ここで途方もないコンピューティング、途方もない力があります。Sparkで得ることができるよりも多くの力が必要な場合、これはパワーユーザー向けである可能性があります。非常に大きな実験を行いたいです。何らかの訓練や本当に重い微調整を行いたいかもしれません。
ワークグループ間で共有される可能性があります。使用できるコンピューティングリソースを望む数人のエンジニアがいるかもしれません。データセンターと彼らのデスクトップの間の中間のようなものです。本当に強力なシステムで、実験させ、作業させます。そして、それは力を必要な場所に持ってくることについてです。ユーザーがデスクトップで得ることができる最も強力なシステムを与えること。これがそれになるでしょう。
本当に何をしているか、どのような作業をしたいかによります。しかし、これはデスクで持つことができる最も強力なAIシステムになるでしょう。
エンジニアリングチームがこのようなものを何のために使用するかの例をいくつか教えてください。
モデルを微調整したいとしましょう。非常に大きなデータセットがあります。そのコーディング例を使いましょう。会社が持つすべてのソフトウェア、おそらく何百万行ものコードを取るとしましょう。そのモデルを微調整したいです。それは一緒に訓練したいかなり大きなデータセットですよね。Sparkで実行したいよりも少し多いでしょう。
できますが、おそらく数日間それが起こるのを待ちたくないでしょう。このようなボックスに置けば、実際にかなり迅速にそれを行えます。そして、そのモデルを検証し、機能しているかどうかを確認しますよね。より多くのコードを取り、データセンターに移動し、より大きな訓練実行を行うと言ったかもしれません。
いくつかのモデルを実際に訓練したいかもしれません。ここで数千億パラメーターは行わないでしょうが、1兆パラメーターですが、おそらく10万程度かかるかもしれません。少し訓練します。機能をテストし、機能することを確認し、結果を得て、その後データセンターやクラウドでその微調整に行くかもしれません。
それは、負荷を必要な場所に移動させる準備をするための次のレベルの作業に行かせてくれます。本当に強力なシステムです。次のステップアップを行う前に、ここでローカルではるかに多くの作業の扉を開きます。
分かりました。2つのフォローアップ質問があります。後ろではより多くの推論について本当に話していますよね。既存のモデル、微調整推論を使用することですよね。そして、それは単一ユーザーシステムです。重要なことは、ネットワークに置いて何百人もの人がそれを叩くことはしないということです。
これをネットワークに置くことができます。Connect X8があるので、希望すればいくつかを一緒にクラスターできます。しかし、これは小さなエンジニアや開発者のチーム間で共有リソースになる可能性があります。そのように設定したい場合、または私が幸運で自分自身のためにこれらのうちの1つを得ることができれば、自分の開発目的に使用できる非常に強力なシステムを持っています。
本当に違いは単一ユーザーです。これは小さなマルチテナント用である可能性があります。そして、私たちは大型言語モデルについてだけ話しているのではありませんよね。画像、動画、大規模開発に役立つあらゆる種類のモデルについて話しています。私のデータについて質問に答えるのを助けるだけでなく、私の会社のための新しいリソースや資産を構築するのを助けることです。
また、エージェント、複数のモデルについて多く話しました。私のワークステーションやSparkで快適に実行できるものを超える可能性があるものです。ここでそれを実行できます。はるかに多くのメモリを持つことになります。ここで786ギガバイト以上のメモリを持つことになると思います。
非常に大きなワークロードを実行できます。マルチモデル、エージェントの作成実験ができます。また、テスト時間スケーリングについて多く話しました。今、はるかに多くのトークンを生成することになります。これらの推論モデルを評価したいときに、それらがどのように考え、モデルを通して何回パスするかを見るでしょう。
それがテストワークフローの重要な部分である場合、それらのトークンを迅速に生成する能力は、多くの推論モデルを持つエージェント環境で作業している場合に、これらのうちの1つを選択したいかもしれません。その知能のコストはより多くのコンピューティングだからです。
そして、これらの新しい推論モデルのいくつかと作業するとき、それらの種類の実験にとって完璧なシステムです。私はいつもこれを尋ねるので、あなたの考えを知りたいです。どのような業界がこれを最初に影響すると見ますか。自動車でしょうか。芸術とデザインでしょうか。他よりも早くこの種のシステムを採用する特定の業界を見ますか。
顧客の何人かと話をしていて、Sparkのようなものを見ると、もちろんクリエイティブな人々はその見た目を愛しますが、外観や感触を行っている人々はおそらく少し小さなワークロードや実験したいもののことを考えていると思います。私たちのワークフローのどの部分をここで加速するために使用できるかということです。微調整している場合、私たちのクリエイティブ資産を通してルック・アンド・フィールを得るために50から100の画像を送りたいかもしれません。
そのようなもので数時間実行させることができ、今、すべての人のシステム全体にデプロイして資産を作成できる訓練されたモデルを持っています。ですから、人々が業界を横断してそれらを試すので、おそらくより業界に依存しないでしょう。金融の人々、エンジニアリングの人々、自動車業界の人々、すべてが試してみたいと聞いています。つまり、それはより実験についてですよね。
そして、おそらくローカルデスクトップ実験、おそらくローカルデスクトップ展開です。これらはより重い作業を行う人々になるでしょう。それは研究部門になり、重いエンタープライズ、従来のAIモデル開発会社にある可能性があります。これらは少しより焦点を当てられるでしょう。
本当に会社やビジネスによります。彼らは人員を配置したAIチームを持っていますか、これを活用できるでしょうか。そして、もちろん最初に思い浮かぶのは、大きなモデルベンダーやプロバイダーです。彼らは確実にこれを活用できます。しかし、多くの大企業や多くの異なるエンタープライズがあり、彼らはAIチームを人員配置し、自分たちの独自データで自分たちのモデルを作成したり訓練したりしています。それが実験やテストをしたい人々です。
そして、それが経験豊富なAIチームや重い… そうですね。これは信じられません。私は自分のPCを組み立てて育ちました。今日、物事がどれほど速く動いているか、おそらく10年でコンピューティングがどれほど変わったかは驚くべきことです。
すべてを案内していただき、ありがとうございました。これは本当に信じられません。そして、未来の残りを見ることを楽しみにしています。
RTX Pro 6000 GPUからDGX Sparkまで、Nvidiaのエンタープライズワークステーションデスクトップ製品を案内し、大型言語モデルだけでなく、あらゆる主要市場におけるAIモデルやアプリケーションの開発をどのように支援するかを説明してくれたアラン・バーグゴインに大きな感謝を申し上げます。
今年も再びGTC Liveを取材するよう招待してくれたNvidiaに大きな感謝を申し上げます。そして、チャンネルをサポートしてくださった皆様に大きな感謝を申し上げます。ご視聴いただき、ありがとうございました。次回まで、これはTickerol U.です。私の名前はアレックスです。最良の投資はあなた自身への投資であることを思い出させてくれます。

コメント

タイトルとURLをコピーしました