NVIDIA DGX Spark: 開梱とセットアップガイド

NVIDIA DGX Sparkは、ローカルAI開発と推論のために設計されたAIシステムである。本動画では、開梱から初期セットアップ、SSHによるリモートアクセス、そして実際のモデル推論テストまでを詳細に解説している。GB10 Grace Blackwell SoCを搭載し、128GBの統合メモリを備えたこのデバイスは、大規模モデルの実行、ネイティブFP4サポート、そしてファインチューニングに最適化されている。外部モニターを接続した従来型のセットアップと、NVIDIA Syncアプリを使用したネットワーク経由のセットアップの両方が可能で、開発者にとって柔軟な作業環境を提供する。実際にSmolLM 3BとGPT-OSSモデルでテストを行い、GPU使用率や推論速度を検証している。

NVIDIA DGX Spark: Unboxing and Getting Started

The NVIDIA DGX Spark is a dedicated local AI workstation powered by the Grace Blackwell superchip and 128GB of unified m...

NVIDIA DGX Sparkの開梱
外観とインターフェース
初期セットアップ
外部デバイスでの接続
NVIDIA Syncによるリモートアクセス
開発環境のセットアップ
仮想環境の構築とモデルテスト
このデバイスの対象ユーザー
システムの利点

NVIDIA DGX Sparkの開梱

これがDGX Sparkです。NVIDIAが提供するローカルAI開発と推論のためのAIシステムです。約1ヶ月前にこのデバイスを送っていただいたのですが、国際配送のトラブルがあって、実際に触る機会がなかなかありませんでした。そこで今回、開梱体験や使用感を共有する動画を作ろうと思いました。セットアップ方法についてお話しし、このデバイスがどんな人に向いているのかも考えていきます。

箱の中には、本体、書類、大きな電源アダプター、そして電源ケーブルが入っています。前面には多孔質の表面が見えます。背面にも全く同じものがあります。これは放熱に役立つと思います。内部が重要なのですが、その前にIOポートについて見ていきましょう。

外観とインターフェース

背面には電源ボタン、電源プラグ、3つのUSBポート、HDMI、イーサネット、そしてこの2つの非常に興味深い形をしたポートがあります。これらはQSFPポートと呼ばれるものです。複数のデバイスを接続して、さらに大規模なモデルを実行することができます。

このデバイスにはGB10 Grace Blackwell SoC、つまりシステムオンチップが統合されています。これはARM CPUとBlackwell GPUを単一ユニットに融合したもので、128GBの統合メモリを備えています。かなり大規模なモデルを実行できるわけです。

では、このデバイスにどうやって接続するのでしょうか。2つの異なるオプションがあります。専用システムとして使用することもできます。つまり、外部モニター、キーボード、マウス、そしてイーサネットまたはWi-Fiを接続して、別個のシステムとして使用できます。あるいは、ネットワークに接続してSSHでアクセスすることもできます。

NVIDIA Syncという非常に優れたユーティリティがあり、このデバイスにSSH接続できるようになっています。外部モニターやIOデバイスを接続する必要がありません。それでは、セットアップ方法をお見せします。電源プラグだけを接続しました。外部モニターやキーボード、マウスは接続したくありません。

初期セットアップ

電源LEDがありません。デバイスがオンになっているかどうか実際にはわからないんです。これはNVIDIAが改善すべき点だと思います。良いニュースは、非常に詳細なドキュメントが用意されているということです。NVIDIA DGX Sparkの専用ウェブサイトがあります。私が興味を持っているのは、この初期セットアップです。

初期セットアップには2つの異なるオプションがあります。1つ目は外部IOデバイスを接続する方法で、そのためにはディスプレイを接続する必要があります。もう1つはネットワーク経由で行う方法です。これが私のやりたい方法です。これがどれほど簡単か、または難しいかを見ていきましょう。

デバイスの電源を入れただけです。Wi-Fiを見ると、実際に接続すべきこのホットスポットが表示されています。パスワードについては、この紙が必要になります。ホットスポットIDとパスワードの両方が記載されています。

「DGX Sparkへようこそ」という画面に移動しました。アクセスする必要があるローカルアドレスがここにあります。この画面が表示されます。「始める」をクリックします。言語として英語を選択します。Wi-Fiに接続しています。おそらく大量のファイルをダウンロードする必要があると思います。これには少し時間がかかるでしょう。

外部デバイスでの接続

他の部分もお見せしますね。外部キーボードとマウスを接続しました。これが今現在のデバイスです。外部コネクタが接続されています。現時点では外部モニターに接続されています。

デバイスではカスタムLinuxカーネルが実行されています。次にSSH経由でアクセスする方法をお見せします。NVIDIA Syncアプリを使用します。すでにアプリをダウンロードしているので、実行します。インストール済みのIDEを検出しています。

NVIDIA Syncによるリモートアクセス

次へをクリックすると、DGX Sparkのホスト名またはIPを入力する必要があります。NVIDIA DGX Sparkでこちらに移動する必要があり、ここにこのUIが表示されます。作成したユーザー名とパスワードを入力する必要があります。

実際にログインすると、このダッシュボードが表示されます。これはとても素晴らしいです。ここでホスト名を見つける必要があります。これが現在使用しているホスト名です。

デバイスが正常に接続されました。これは素晴らしいです。以前と全く同じダッシュボードにアクセスできます。今、ローカルデバイスで見られるものすべてを実際に見ることができます。これは非常に便利です。

開発環境のセットアップ

DGX Sparkに開発用にSSH接続する方法をお見せします。そのために、再びNVIDIA Syncを使用します。ターミナルを使用できます。直接ターミナルに移動してそこに接続するか、CursorまたはVS Codeを使用できます。VS Codeを試してみましょう。

DGX Sparkにトンネル接続します。Pythonが利用可能か見てみましょう。Pythonはインストールされていないようです。Python 3はどうでしょうか。これは動作しているようです。Transformersが利用可能か見てみましょう。そうではないようです。

nvidia-smiを実際に実行してみましょう。スペルを間違えました。nvidia-smiです。CUDAバージョン13がインストールされています。何らかの理由で、ここでは利用可能な総GPUやGPU VRAMが表示されていません。これは統合メモリシステムを使用しているためだと思います。

Pythonさえも、あ、PyTorchがインストールされていません。おそらくここでセットアップが必要です。手動でインストールすることもできますが、もっと便利だと思ったのは、CursorのようなコーディングエージェントやClaude Codeを使って、システム全体をセットアップしてもらうことです。

Claude Codeを使ってCondaをインストールしてもらいました。これは今の私のやり方です。システムのセットアップを自分ではしません。これらのコーディングエージェントに依頼してセットアップしてもらいます。

仮想環境の構築とモデルテスト

仮想環境を作成します。Sparkと名付けましょう。Python 3.12を使用します。それをアクティブ化します。Transformersをインストールする必要があります。この特定の仮想環境にPyTorchもインストールする必要があります。

2つの異なるテストをお見せします。1つ目はSmolLM 3Bです。これはHugging Faceの大規模言語モデルです。32ビット浮動小数点精度でロードされます。2つ目はGPT-OSSで、4ビット浮動小数点精度でトレーニングされました。

bitsandbytesやaccelerateなどのライブラリをインストールする必要がありました。これで4ビット浮動小数点精度でロードされます。nvidia-smiの画面があります。まずこれを実行します。最初にモデルがロードされるのが見えます。比較的小さなモデルです。現在シャードをロードしています。

GPU使用率は非常に良好です。現時点で約90%です。レスポンスが得られました。GPU使用率は約90〜91%でした。推論速度は妥当です。最高ではありません。RTX 4090やRTX 4080などと比較してどうかを確認するため、さらに多くのテストを行う予定です。続報をお待ちください。

2つ目はGPT-OSSです。現在モデルをロードしています。デバイスがCUDA 0に設定されているのが確認できます。現在GPU使用率は約75〜78%で、かなり早くレスポンスが得られました。

より包括的なテストについては、続報をお待ちください。他のGPUとの比較を行う予定です。FP16への逆量子化に関する警告が表示されなかったので、これは実際にFP4を使用しているようです。

このデバイスの対象ユーザー

では、このデバイスが誰に向いているかについてお話ししましょう。簡単に答えると、開発者です。ローカルモデルを高速な推論速度、つまり非常に高いトークン毎秒で実行したい場合は、おそらく他のオプションを検討したほうが良いでしょう。このデバイスは、ローカルAIモデルの上にアプリケーションを構築している人々のために特別に設計されています。

見てきたように、オンボーディング体験は非常にスムーズでした。これは本当に嬉しい驚きでした。また、これにはすべてのNVIDIAソフトウェアスタックがプリインストールされています。新しいシステムにCUDAをインストールしようとしたことがある方はご存知でしょうが、かなりの作業です。NVIDIAがこのシステムにすべてをまとめてくれたのは本当に良いことで、多くのパフォーマンスが得られます。

NVIDIAは1ペタフロップスを主張していますが、これはFP4を使用している場合の理論上のパフォーマンスであることに注意してください。

システムの利点

このシステムの利点は何でしょうか。1つ目は、128GBの巨大な統合メモリです。実際には、システムがメモリの一部を占有する必要があるため、実質的には120GB程度になるでしょうが、それでもかなり大規模なモデルを実行できます。

2つ目は、あまり語られないことですが、FP4をネイティブサポートしていることです。GPT-OSSのようなモデルを見ると、これらはFP4、つまり4ビット精度でネイティブにトレーニングされています。NVIDIAの古いアーキテクチャのGPUはFP4をサポートしていません。つまり、基本的にソフトウェアトリックを使ってFP4に変換するか、16ビットで実行することになります。

しかし、これはハードウェアでFP4をネイティブサポートしているため、4ビット浮動小数点精度でこれらの大規模モデルを実行するのに非常に優れています。

最後のユースケースは、これが本当に得意とすることですが、大規模言語モデルのファインチューニングやトレーニングです。RTX 4090のような他のコンシューマーハードウェアでも大規模言語モデルをトレーニングできますが、トレーニングには単純な推論と比較して実際にはるかに多くのVRAMが必要です。

この統合メモリは、他のコンシューマーハードウェアではトレーニングできないような大規模モデルのトレーニングに非常に役立ちます。単に大規模言語モデルを推論のために実行したいだけなら、おそらく他のオプションを検討したほうが良いでしょう。推論ははるかに高速です。しかし、ローカルAIで構築したい場合は、これは本当に良い選択肢です。

他のパートナーも登場するでしょう。同じGB10アーキテクチャを使用したサードパーティベンダーのデバイスが登場し始めており、今後さらに多くのデバイスが登場すると思います。

皆さんの考えをぜひ教えてください。このDGX Sparkシステムを使って、さらに多くのコンテンツを作成していく予定です。興味がある方は、チャンネル登録をお忘れなく。とにかく、この動画が役に立てば幸いです。