世界最大のAIスーパークラスター xAIコロッサスの内部

6,338 文字

https://www.youtube.com/watch?v=Jf8EPSBZU7Y

このxAIが建設中のんは世界最大規模のAIクラスターでして、10万台以上のGPUとエクサバイト級のストレージ、超高速ネットワークを備えた巨大なAIスーパーコンピューターなんです。本当にすごい場所で、このスーパーコンピューター全体がGroを動かすために作られてるんですわ。
xAIがGroで開発してるもんは、今までに見たような単なるチャットボット以上の何かなんです。そやから、ここにこんな巨大なクラスターがあるわけですね。今日は、データホールの中に入って、これがどないして動いてるのか、何が特別なんか、あと、どんな素晴らしいエンジニアリングが投入されてるんかをお見せしていきます。
実は私、この施設に来るのは2回目なんですけど、この施設が建設されたスピードには本当に驚かされましたわ。10万台以上のGPUを備えたこの施設全体が、たった122日で建設されたんです。参考までに申し上げますと、最大規模のスーパーコンピューターでも、xAIがここに持ってるGPUの半分か4分の1程度しかなくて、それでも一般的には完成まで何年もかかるんです。
ここでの工学的な成果は本当に驚くべきもので、まだ作業は続いてますが、データホールの中を見て、施設の様子も見せながら、こういったものがどないして建設されるんかを見ていきましょう。
このビデオはスーパーマイクロのスポンサーシップによるものですが、XとxAIのチームには撮影許可をいただき、感謝申し上げます。もちろん、イーロンと彼のチームにも、これを可能にしていただき、ありがとうございます。
では、データホールの中に入って、これがどないして動いてるんか見ていきましょう。データホールの中で、xAIはかなり一般的な設計を採用してます。これは床上げ式のデータホールで、上部に電源、下部には液冷用のパイプが全部通ってて、施設のチラーに熱を排出できるようになってます。
これらの計算ホールには、それぞれ約2万5千台のGPUと、全てのストレージ、光ファイバーの高速ネットワークが組み込まれてて、それらがホール内に設置され、相互に接続されてます。各データホールへの接続は、基本的に光ファイバーケーブル、液冷用の配管、そして大量の電力供給で構成されてて、これがめっちゃクールなんです。
計算ホール内には、これらのクラスターがあります。それぞれが8台の液冷式ラックで構成されていて、スーパーマイクロ製のNVIDIA H100ラックです。この8台のラックそれぞれに、8台のNVIDIA HGX H100プラットフォームが入ってます。これらの液冷システムとネットワーキングも全部揃ってて、それぞれが512個のNVIDIA GPUを持つミニクラスターになってるわけです。
このスーパーマイクロとNVIDIAの液冷式AIラックは、おそらく現在この規模で展開されてる中で最も先進的なAIラックやと思います。その理由を具体的にお見せしましょう。
各ラックには合計8台のNVIDIA HGX H100システムがあって、ラックごとに64個のGPUを搭載してます。上部セクションには、スーパーマイクロのNVIDIA HGX H100があって、これらのHGX H100にはシステムに重要な要素がたくさん組み込まれてます。8個のNVIDIA H100つまりHopperGPUに加えて、NVIDIAのNVLinkスイッチなども全部ベースボードに搭載されてるんです。
スーパーマイクロのプラットフォームが市場の他のものと決定的に違うのは、この上部セクションを引き出せることです。ここにある小さなレバーが見えますよね。今やったら怒られそうなんで実演はしませんが、他の動画で液冷システムでもやってるんで見てもらえると分かります。それを引き出すと下のトレイが出てきて、そこには高速なx86 CPUとか大きなPCIeスイッチなどが搭載されてます。
これがどれだけ先進的かというと、これら全部がラックスペースの4Uしか使ってないんです。しかも全部トレイ上でサービス可能なんです。スーパーマイクロや他のメーカーからも、同じようなシステムで6Uか8Uのオプションもありますが、市場にはこういった利便性とサービス性を備えてないものもあります。そやから、これらのシステムは非常にコンパクトながら、極めて先進的で簡単にサービスできるんです。
このパーツの前面には、たくさんの小さなチューブが見えると思います。それらは小さなバーを通ってて、このバーはマニホールドと呼ばれてます。各システムに1Uのマニホールドがあって、それが液冷の接続部になってます。これらの小さなチューブは全部ペアになってて、青と赤のチューブがそれぞれから出てます。
これらのチューブの中には、2つの異なる液冷ブロックがあって、想像通り、冷やされた液体が青い側からサーバーに入って、赤い側から出て行きます。それがここにあるマニホールドに運ばれ、ラック背面にある全体のラックマニホールドに戻ります。この設計のおかげで、これらのシステムを引き出して、HGX H100ボード、CPU、メモリなどの全てをサービスできるんです。
今これは実際にモデルのトレーニング中なんで実演はしませんが、数秒もあれば出来ます。このラックには合計8台のサーバーがあって、64個のGPUと16個のCPU、大量のメモリなどが入ってます。でも下部にあるのが、これを本当にスケーラブルなソリューションにしてる大きな要素なんです。
これらはスーパーマイクロのCDU（冷却分配ユニット）です。CDUについて特筆すべき点が何個かあって、まず管理ユニットがあります。各CDUには独自の管理システムがあって、フローレート、温度など、ラック内の全サーバーに適切な量の液体を供給するために必要な全てのものをモニタリングできます。もちろん、これは中央管理インターフェースに接続されてて、何か問題が起きたらリモートで確認できます。
もう一つ面白いのは、ここに2つのポンプがあることです。これらのポンプは冗長性のために設置されてて、サービス可能です。ポンプが故障したら、取り出して交換するだけです。稼働中のシステムではやりませんが、以前STでやったことがあります。
ではラックの反対側に行って、ラックの背面がどないなってるか見てみましょう。側面には全体のラックマニホールドがあって、また赤と青の液冷レールが見えます。その後ろには、3相の電源ストリップがたくさんあります。これらのラックは大量の電力を使うからですね。
反対側には、これら全てのサーバーが見えます。この4Uのスーパーマイクロサーバーには、合計8個のNVIDIA BlueField-3 SuperNICがあって、これはAIネットワーク用です。それにConnectX-7もあって、これはCPU側で必要な他の全ての機能用です。
液冷システムなのになんでファンがあるんか不思議に思うかもしれませんが、これらのファンは、メモリのDIMMとか、その他の小さな部品を冷やすために必要なんです。ただ、ファンはありますが、全部空冷の場合ほど騒がしくないです。
もう一つ重要なのは、これがそれほど熱くないってことです。ここに立ってても、空冷システムみたいに熱風にさらされてる感じがしません。液冷と空冷では、大きな違いがあるんです。
このラックの背面には、リアドア熱交換器があります。これの仕組みは、サーバーからの熱が、ラジエーターを流れる液体に伝達されて、大きなファンがその熱交換器を通して空気を引き込んで、それがラック内の余分な熱を全部除去する仕組みです。
この設計の特徴は、各ラックがデータセンター全体の冷却に対して室温中立になることです。何年もの間、多くのデータセンターで見られたような巨大なエアコンや空調ユニットがここを歩き回っても見当たらないんです。これは本当にクールな機能で、各ラックを独立したユニットとして機能させるのに役立ってます。
もう一つ面白い事実は、これらの背面が青く光ってるのが見えると思いますが、これはブランディングのためでも、STが青いからでもありません。これは実際にステータスライトなんです。ここを歩いてて青いのがたくさん見えたら問題ないですが、赤とか他の色が見えたら良くないってことです。
データセンターホールを歩いてて赤いのを見つけたら、そこはサービスが必要で、他は大丈夫ってことが分かるんです。数週間前に、これらが一斉に起動するのを見れたんですが、それは本当にすごかったです。
もちろん、大規模なクラスターではGPUが得意じゃないタスク用にCPU計算も必要で、これがまさにそれです。1台のラックに42台の1Uサーバーがあって、データ準備など、CPUで効率的に処理できる作業用の全てのCPU計算処理能力を提供します。そやから、大規模なクラスターでは、必ずGPU計算ノードと一緒にCPU計算ノードも見かけるんです。
このクラスター全体はイーサネットで動いてて、これはノートパソコンやPCなどのネットワーキングと同じ基本技術です。各サーバーはNVIDIA BlueField-3 SuperNIC DPUを使用してます。STでは何年もの間、NVIDIA BlueField-3 DPUと以前の世代について扱ってきましたが、ご覧になった方なら、これが基本的なイーサネット以上の多くのことが行われてることを意味するのはご存知でしょう。
これらのNVIDIA BlueField-3カードは、AIインフラに対して400ギガビットのネットワーキングを提供します。これは、PCやノートパソコンがこの動画を見るためにインターネットにアクセスするのと似たような感じです。
スーパーコンピューター界に精通してる方々は、多くの人がInfiniBandなどの特殊なインターコネクトを使ってクラスターを作ってると言うでしょう。これらのファブリックは世界のスーパーコンピューターでは機能しますが、世界の巨大なネットワークはイーサネットで動いてて、それがここで使われてる理由の一つです。
スーパーコンピューターの規模だけでなく、巨大なAIクラスターの規模にまでスケールする必要があるからです。もちろん、これはPCやノートパソコンなどにあるイーサネットと同じじゃありません。おそらく400倍は速いです。でもNVIDIAには他のプロセスもあって、私の後ろにあるのがNVIDIA SN5600です。これは64ポートの800GBイーサネットスイッチで、各スイッチを分割して128の400Gbitイーサネットリンクを実行できます。
これらのNVIDIA Spectrum-Xスイッチは、BlueField-3 DPUと組み合わせることで、驚くべきことができます。これらには様々な機能と処理能力があって、NVIDIAのGPUとクラスター全体を最大限のパフォーマンスで動かすことができます。NVIDIAのソリューションは、様々なセキュリティプロトコルのオフロードができ、ネットワークの輻輳を防ぐための高度なフロー管理機能があります。
また、クラスター全体でデータとパケットのフローを維持し、適切なタイミングで適切な場所に確実に到達するようにすることもできます。ここでは、GPUのRDMAネットワークだけでなく、ストレージの提供などにも使用できます。
私の黄色いシャツがシングルモードファイバーと同化してるのが分かると思いますが、この建物全体には通信を効率的かつ高速に行うための光学機器やファイバーが大量に配置されてます。
これらは南北スイッチです。現代のAIクラスターでは、通常、東西トラフィックパターンが支配的ですが、これらの高級スイッチは、東西用に見たスイッチと同様に、大量の400ギガビットイーサネット接続を南北トラフィック用に処理できます。
これらはGPUが必要とする高速なRDMAネットワークには使用されず、クラスター内の他の全ての作業、他の全てのスーパーコンピュータータスクに使用されます。でも、これらのスイッチも64ポートの800GBイーサネットスイッチで、本当にクールな高性能システムです。これは間違いなく、この種のスイッチの世界初の導入事例の一つです。
このような大規模なAIクラスターでは、ストレージの提供方法が、デスクトップやノートパソコン、タブレットなどで慣れ親しんだものとは異なります。ローカルストレージの代わりに、大部分のストレージがネットワーク経由で提供されます。
その理由は、このタイプのAIトレーニングには膨大なストレージが必要で、それを各GPUサーバーに収めることができないからです。また、全てのGPUとCPUサーバーが全てのストレージにアクセスする必要があるため、ここには巨大なストレージクラスターがあるんです。
液冷式データセンターでは、もちろん液冷が大きな部分を占めます。周りを見渡すと、これらの本当に巨大なパイプが見えると思います。これらのパイプは、一般的に冷たい外部の液体や水を施設内に取り込み、異なるデータホールに分配します。
そこから、先ほど見たCDUに送られ、そこでGPUなどを搭載した全てのラックがあります。それらのGPUサーバーからの熱が全てCDUに送られ、これらのラックで熱交換され、温かい水として外に出て行き、その時点でチラーに送られます。
これらのチラーは、アイスキューブを作るためのものではなく、水温を数度下げるだけです。その水が冷やされた温度で再循環され、このプロセス全体が何度も繰り返されます。このようにして、このようなデータセンターは水を再利用することができ、ちなみにこれらのパイプは本当に巨大で、今でも水が流れてるのを感じることができます。
もう一つの驚くべき革新は、私の隣にあるTesla Megapackで、これが実際にこの施設でのトレーニングジョブに電力を供給してます。全てのGPUがトレーニングを開始するとき、ミリ秒単位の電力変動があることが分かり、それが電力インフラに様々な問題を引き起こしてました。
そこで、発電機などからの全ての入力電力をバッテリーに供給し、バッテリーが放電してトレーニングジョブに電力を供給するという解決策を採用しました。もちろん、これはこの規模のものを構築する際に解決しなければならない工学的課題の一つです。
今日見ていただいているのは、このクラスター全体のフェーズ1のようなものです。これは既に世界最大のAIトレーニングクラスターですが、まだ建設中というのが本当に驚くべきことです。
もちろん、このようなプロジェクトには多くの人々が関わっています。私たちのチームはもちろん、スーパーマイクロチーム、xAIチーム、そしてこれを実現するために関わった全ての人々に感謝申し上げたいと思います。
もちろん、この動画とこの素晴らしいAIインフラが気に入って、仕事を探してる方は、キャリアページをチェックしてみてください。何か興味を引くものがあるかもしれません。これは素晴らしいプロジェクトに携われる機会だと思います。
このスーパーマイクロサーバーを搭載したコロッサススーパーコンピューターの動画が気に入っていただけたなら、友人や同僚とシェアしていただけると嬉しいです。また、この動画にいいねを押して、購読して、通知をオンにしていただければ、新しい素晴らしい動画が出るたびにお知らせします。いつもご視聴ありがとうございます。素晴らしい一日をお過ごしください。