世界最速のデータセンターの内部 | Cerebras

AIインフラ
この記事は約11分で読めます。

この動画は、Cerebrasが新たに開設したオクラホマのデータセンターの内部を紹介するものである。世界最速のAIインフラとして44エクサフロップスの計算能力を提供するこの施設では、ディナープレートサイズの巨大なウエハースケールエンジンを採用し、従来のGPUの2500倍の速度でデータにアクセスできる。メモリをチップ上に搭載することで推論時のレイテンシを劇的に削減し、液体冷却システムと6000トンのチラープラントで熱管理を行う。天然ガスを主電源とし、バックアップ用に3メガワットの発電機を配備することで、ほぼ完璧な稼働率を実現している。CEOのアンドリューは、医療や教育分野におけるAIの可能性に期待を寄せ、薬剤開発期間の大幅な短縮や教育方法の革新を展望している。

Inside the World's FASTEST Data Center | Cerebras
Join me on a tour of the FASTEST data center in the WORLDDownload One Hundred Ways to Use AI Guide 👇🏼 Humanities Last Pr...

世界最速のAIインフラの全貌

AIチャットボットを開きます。プロンプトを入力してエンターキーを押します。次に何が起こるのでしょうか。私たちは、あなたが目にするすべてのAI応答の背後にある隠れたバックボーンのベールを引き剥がします。

オクラホマの空の下に、目立たないコンクリートの建物があります。一つの目的のために建てられたAI工場です。スピードです。熱です。熱です。

私は今、Cerebrasの真新しいデータセンターの前に立っています。彼らはちょうど開所式を行ったばかりで、現在、顧客に44エクサフロップスの新しい計算能力を提供しています。これは地球上で最速のAIインフラであり、今日私たちはツアーを受け、CEOと話をすることができます。

この施設は顧客に44エクサフロップスの新しい計算能力を提供し、地球上で最速のAIインフラです。今日、私たちは内部に入り、Cerebrasがどのように従来のチップの限界を超え、この巨大な施設をゼロから構築したのかを見ていきます。まず、なぜオクラホマを選んだのかから始めます。

オクラホマを選んだ理由

アンドリュー、お招きいただきありがとうございます。私たちはCerebrasの新しいオクラホマのデータセンターに来ています。なぜオクラホマを選んだのですか?

場所を選ぶ理由はたくさんあります。妥当な人件費の場所を探しています。建設でき、拡張できる場所を探しています。手頃な価格の電力がある場所を探しています。そして、私たちはこれらすべてをオクラホマシティで見つけました。

オクラホマの気候への備えが建物自体の形状を決定しました。竜巻への耐性を念頭に置いて設計された鉄筋コンクリートです。

場所を選ぶとき、エネルギーミックスについても考えなければなりませんか。データセンターをどのように保護するかを考えなければなりませんか。つまり、オクラホマは竜巻で知られています。それについてどう考えますか?

確かに。一般的に建物の構造とそれが何に対して定格されているかを考えます。それは保険のコストに影響します。保険会社が出てきて建物を見て、その地域のあらゆる自然災害に対して定格されていることを確認します。

ですから、カリフォルニア州サンタクララにデータセンターがある場合、私たちは持っていますが、あるいはカリフォルニア州ストックトンにある場合、それらは明らかに地震に対して定格され、準備されています。これはコンクリートで建てられた施設で、竜巻に備えています。

ウエハースケールエンジンの革新

ここでのスピードは一つの革新的なアイデアから来ています。ウエハースケールエンジン、これまでに作られた最大のプロセッサです。

ここで見ているものと比較して、従来のチップはどのくらいの大きさですか。

これは46,250平方ミリメートルのチップです。メートル法を使わない人のために言うと、ディナープレートのサイズです。従来のチップは750平方ミリメートル以上あれば大きいとされていました。ですから、これはディナープレートのサイズで、他の最大のチップは切手のサイズ、またはおよそ親指の爪のサイズです。

これらのシステムの一つ一つに一つのチップがあり、それは電源の後ろに置かれ、直立しています。従来、人々はこのようにマザーボードにチップを置きますよね。私たちはそれを直立させて、およそ中間の位置に置いています。なるほど。わかりました。その反対側は冷却されています。

画期的だったのは単にサイズだけではありませんでした。メモリをチップ上に保持し、推論時に従来のGPUを遅くするオフチップレイテンシを排除したことです。

私たちはすべてのメモリをチップ上に持っています。わかりました。他の人々はメモリをチップの外に持っています。わかりました。そのレイテンシ時間、そのレイテンシ時間がGPUが推論で遅い理由です。それだけです。なるほど。それだけで、私たちはデータへのアクセスとそれを使用する速度が2500倍速いのです。わかりました。それがこの巨大なパフォーマンス上の優位性を与えているのです。メモリ帯域幅です。

液体冷却システム

一つのウエハーは18キロワットを消費します。この熱を移動させるために、Cerebrasは液体冷却を採用しました。彼らが2017年に始めたアプローチです。

これらは水冷式のマシンなので、信じられないほどエネルギー効率が高いです。青い線は入ってくる冷水で、赤い線は出ていく温水です。そして下に見えるのは、現代のデータセンターが二重床で建設される方法です。

すべての水のインフラは下にあります。そこで冷水、チル水の戻りを見ることができます。チル水があります。オレンジ色のバルブはBimoという会社のものです。そして、それらは水圧とすべての詳細について私たちに教えてくれるので、私たちは追跡できます。

すべては6000トンのチラープラントに結びついており、ウエハーを最適な状態に保つために温度と湿度のデルタを管理しています。

わかりました。私たちはここでScale Data CentersのCOOであるビリーと一緒にいます。私たちの後ろにあるものと、これらのマシンで水がどのように冷却されるかを正確に教えてください。

はい、これは6000トンの液体冷却チラープラントで、Cerebrasのサーバーにチル水を供給しています。そして、さらに6000トンのチラー容量を増やす余地があります。

ですから、Cerebrasが成長すれば、私たちはチラーを増やすことができます。私たちは42度の水を送り出します。彼らはそれを受け取り、私たちは熱交換器にぶつけて、およそ70度まで温め直します。それがウエハーチップ自体に送られるものです。それが戻ってきます。外側に冷却塔があり、その熱交換を受け取り、外の空気の冷却塔に蒸発させます。そしてそれは大きなサイクルで続いていきます。

なぜウエハーに送る前に温めるのですか。

まあ、私たちがそれを温めるのは、それによってウエハーがより効率的になるからです。それほど冷たい水には耐えられません。なぜなら、露点によってサーバー内に水分が生じ、サーバー内に結露が発生するからです。ですから、サーバーから水分を遠ざけるために、約15度のデルタTを保つ必要があります。

これらのマシンで実際に水を冷却しているのはどのようなアプローチ、どのような技術ですか。

チラー、凝縮水です。実際にそれを冷やす凝縮水があります。チラー自体が冷却を生み出します。わかりました。

ここでわかるのは、入口の水の温度と出口の水の温度です。まさにそれが起こっていることです。そして、私たちはこれをすべてのCD、すべての部分について捉えることができます。

電源とバックアップシステム

高速コンピューティングには安定した電力が必要です。ここでの主要な電源は、天然ガスを電気に変換したもので、バッテリーが約5分間をつなぎ、3メガワットの発電機が起動するまでを橋渡しします。これが彼らがほぼ中断のないサービスを維持する方法です。

これは3メガワットの発電機です。ディーゼルまたは液化天然ガスで動作し、あなたが見たばかりの部屋に電力を供給する発電機の一つです。わかりました。これはバックアップ発電機ですか、それとも現在電力を供給するために使われているのですか。

これはバックアップ発電機です。これは主要な電源が停止した場合に使用される発電機です。主要な電源は何ですか。主要な電源は、電気に変換された天然ガスです。

そして、部屋に送られます。信じられない。そして、あなたの同僚の一人が、これはオクラホマ州全体で4つのうちの1つだと教えてくれたと思います。

これは大物です。これらは信じられないほどクールな発電機です。これが私たちがほぼ完璧な稼働時間を達成できる方法です。つまり、何らかの理由で停電があった場合、これらの悪い子たちが起動します。

即座に、切り替え時にダウンタイムはありません。その2つの間には、バッテリーバックアップがありますよね。データセンターでのバックアップの仕組みは、約5分間持続するバッテリーがあることです。何かが停止すると、これが起動する前にバッテリーが即座に起動します。これが起動します。

通常は3分ですが、私たちは5分を想定しています。そして、この悪い子があなたが必要とするすべての電力を供給し、稼働し続けます。そして、これが3台あります。

電力が停止したとしましょう。これら3台のマシンすべてが同時に起動するのですか、それともこれらはフェイルオーバーですか。

これらの一つ一つは3メガワットです。私たちは必要な電力量に応じて、異なるフィードから電力が入ってきます。そうですね。そのうちの1台、2台、または3台が、あなたが見たばかりの部屋のために起動します。

他のAI工場の建設者から聞いているのは、彼らはギガワット規模について話していますが、彼らは推論の出力ではなく、エネルギー消費について話しています。正しいです。しかし、明らかにあなた方は世界で最速のスーパーコンピュータです。なぜ異なる指標があるのですか。なぜ彼らは異なる方法で話しているのですか。

ギガワットは、この建物全体の容量を表す方法です。わかりました。それは、合計でコンピューティングにどれだけの電力を供給できるかを言う方法です。そして、今日ギガワットを持っている人はいませんよね。これらはまだ将来の夢です。

これは世界でトップ50の施設だと思います。今あなたが見ているものです。もっと大きいものもありますが、これ以上効率的なものはほとんどありません。

エネルギーが入力で、コンピューティングが出力だからです。なぜあなた方は出力について話すのに、他のみんなは出力について話さないのですか。それはあなた方がただそれほど効率的だからですか。

そうです。出力について話せば、私たちの数字は彼らのものよりも良く見えるからです。なるほど。それだけのことです。

第二のデータホールの拡張

これまでのところ、私たちはOKC1、最初のデータホールを見てきました。それは稼働して生産中です。今から見るのはOKC2、3週間から4週間後に生産に入る第二のデータホールです。さあ、行きましょう。

キャンパスは急速に拡大しています。OKC2、第二のデータホールは完成に近づいており、次の波の高速ワークロードのための容量を追加しています。

ああ、すでにかなり大幅に構築されていますよね。建設のプロセスでは、ラックとケーブル配線を配備します。それがステップ1です。ラックを転がし入れ、すべてがまったく同じ方法で設定されるべきです。それらはラックでした。それがステップ1です。わかりました。

ステップ2は、マシンが挿入されることです。これらがオンになると、どれだけの追加の計算能力を提供しますか。

この部屋は約20エクサフロップスを追加します。つまり、米国がエネルギー省で所有する最大のコンピュータの約10倍です。

米国での製造へのコミットメント

システムは、カリフォルニア州ミリタスで製造および組み立てられ、ハードウェアパイプラインを国内に保っています。

あなたは米国で建設することを選択しており、また言及されたように、実際のモジュール式のCerebrasユニットは米国で製造されています。なぜその決定をしたのですか。それはあなたに何を与えますか。

私たちはカリフォルニア州ミリタスで製造しています。私たちは米国での製造にコミットしています。あなたが見た最終システムは米国で製造されています。パッケージング、組み立てを行っています。

私たちは、それがこの経済において良い市民であることの重要な部分だと考えています。

克服した技術的挑戦

10年前、システム全体、ハードウェアとソフトウェアは、まだ単なるアイデアでした。チームは、それが不可能に見えた期間を押し進めました。

私たちができなかった15か月または18か月の期間がありました。私たちは月に800万ドルを費やしていましたが、問題を解決していませんでした。わあ。そして、それはたくさんのお金です。

そして、私たちの取締役会は私たちと共にいてくれました。私たちは優れたエンジニアリング方法論を使用しました。失敗するたびに根本原因を突き止めました。私たちはその間違いを二度と犯さないために何をしなければならないかを考え出しました。バン。私たちは別の間違いを犯しました。私たちは何か別のものに何度も何度もぶつかりました。

そして、ある日私たちはそれをセットアップして、それが動作しました。そして私たちは、ハードウェア用に設計されていない建物の小さなオフィスのサイズくらいの実験室に立っていました。窓を開けていました。熱気を外に送り出すために壁に穴を開けました。

そして、5人の創設者、私たちは30分間そこに立ち、話すことができませんでした。私たちが75年にわたって世界で最高の人々が解決できなかった問題を解決したということを。

AIがもたらす社会変革への期待

医療と教育において、最も速い現実世界の変革が期待されます。より速く、より正確なモデルから直接恩恵を受ける、変化が遅れている2つの分野です。

AIによる社会的変化のどの側面に個人的に最も興奮していますか。

AIと医療です。私はAIがそこで提供できるものが膨大だと思います。部分的には、これまでの私たちの技術がある種初歩的だったからです。私たちは薬剤設計プロセスから何年も削減できるはずだと思います。

今日、ゼロから薬剤を開発するには17年から19年かかります。私たちはそれを10年未満にできるはずです。私はまた教育についても興奮しています。

多くの点で、私たちが子供たちを教える方法は、アレクサンダー大王がアリストテレスに個人教授を受けて以来変わっていません。AIは子供たちを教える方法を変える非常に異なる機会を提供します。

アンドリュー、本当にありがとうございました。すべておめでとうございます。そして、これが継続して構築されるのを見るのが待ちきれません。

お招きいただき本当にありがとうございました。

コメント

タイトルとURLをコピーしました