SambaNova Systemsが実現するAIインファレンスの革新

8,849 文字

How SambaNova Systems Is Disrupting AI Inference

This episode is sponsored by RapidSOS. Close the safety gap and transform your emergency response with RapidSOS.Visit to...

もしNVIDIAがトレーニングで持っていた強固な地位を見てみると、インファレンスではそれが終わりを迎えているわけではありませんが、ただしプレイヤーとしては存在し続けるでしょう。しかし電力、性能、コストが他社の提供できるものと比べてかなりかけ離れている場合、多くの開発者が他のサービスに流れ、そこからAPIを取得するようになってきています。GoogleクラウドやAWS、あるいはお好みの場所から参入できます。なぜなら、それは単なるAPIだからです。私たちは顧客の望む場所でそれらのAPIをホストすることができます。実際、今日私たちはサウジアラビアにいて、Saudi Arcoにサービスを提供しています。
このエピソードはrapid SOSの提供でお送りします。テラバイトやペタバイトのデータは日常生活で爆発的に増加しています。あなたは何台の接続デバイスを所有していますか?この全てのデータが緊急時にどのように活用できるか考えたことはありますか?2030年までに、IoTデバイスは現在の2倍の320億台以上に達する見込みです。このデータの豊富さにもかかわらず、重大な安全上のギャップが存在します。重要な情報が緊急対応者に適時に届いていないのです。このギャップは、生命や財産を不必要なリスクにさらす、反応的な緊急対応をもたらしています。
私たち多くは自宅での緊急事態でEMSの迅速な対応に頼った経験があります。rapid SOSは、AIを活用したインテリジェント安全プラットフォームでこの安全上のギャップを埋めています。彼らは5億4000万台以上のデバイスから、6カ国2万1000以上の公共安全機関に命を救う情報を接続しています。年間2000億ドルの安全システムへの投資にもかかわらず、企業は緊急時にタイムリーで実用的な情報が不足していることがよくあります。rapid SOSはそれを変えようとしています。
問題を回避するだけではありません。安全への投資は、顧客満足度、従業員の定着率、企業の長期的価値と結びついています。rapid SOSで安全上のギャップを埋め、緊急対応を変革しましょう。rapid sos.com/ionaiにアクセスしてください。それはion AIです。Y-E-O-N AIと続けて書きます。rapid sos.com/ionaiにアクセスして、AIを活用した安全性があなたの人々を守り、収益を向上させる方法について学んでください。rapid SOSはR-A-P-D SOSです。rapid sos.com/ionaiに今すぐアクセスしてください。
あなたの自己紹介と経歴、学歴、そしてSambanovaをどのように立ち上げたのか教えていただけますか?
はい、私はSambanovaの共同創業者でCEOのロドリゴ・レオンです。スタンフォード大学で学部と大学院を修了し、30年間ハイパフォーマンスチップの設計に携わってきました。HPでPRISCから始まり、その後マイクロシステムのSPARCプロセッサを15年間担当し、2017年にスタンフォード大学の2人の教授と共にこの会社を設立しました。彼らは今でも在籍しており、人工知能の半導体について根本から考え直し、電力効率、性能、そして最終的にはスケールを追求しています。
新しいインファレンス、システムオンチップについてお話ししたいと思います。これはグロックとセレブラスを上回るものですが、時間があまりないので、それが何であり、なぜインファレンスが新しい競争分野になっているのかを教えてください。
はい、とても誇りに思っています。現在私たちはSambanova Cloudを展開しており、これは開発者が最高のオープンソースモデルを利用できるインファレンスサービス、APIサービスです。トークンサービスとして提供しています。他のプレイヤーも同様のことを始めているのを見てきましたが、このゲームは全て精度と性能に関わっています。
本日、私たちはMetaの最高モデルである405BのLlama 3.1を、フル精度で1秒あたり132トークンでインファレンスできることを発表しました。比較すると、NVIDIAは405Bに対して量子化によって精度を落として低ビット精度で実行せざるを得ず、それでも1秒あたり30-40トークン程度の速度です。そして性能を比較すると、私たちは世界で唯一の存在です。なぜならCerevasとGroqは現在それを提供していないからです。
また、70Bモデルでも世界記録を打ち立てました。フル精度の16ビットで、Llama 70Bで1秒あたり570トークンを実現しています。これも世界一です。しかし私が最も興奮しているのは、グレッグ、これを単一のラックで、10キロワット未満の電力で実現していることです。
私はずっと言ってきましたが、AIが本番環境に移行すると、インファレンスのコストはトレーニングにかかるコストの10倍以上になるでしょう。本番環境のAIは全てインファレンスと、プライベートデータをそれらのモデルに微調整することに関わってきます。そのため、効率的なインファレンスの方法を見つける必要があります。効率とは速度と性能を意味し、精度も意味しますが、電力も意味します。今日、他のサービス、スタートアップであれ大企業であれ、電力について語りたがらない傾向にあります。
セレブラスは市場での牽引力を得るのに苦労し、グロックも同様にNVIDIAがクラウドを支配しているため苦戦しています。そしてCUDAで開発者を囲い込んでいます。このAPIインファレンスサービスはその問題を回避します。非常に高速なインファレンスなので、その上に構築できます。しかし、クラウドにSambanovaを採用させ、NVIDIAから切り替えさせるにはどうすればよいのでしょうか?
それは素晴らしい点です。現在のNVIDIAのトレーニングにおける強い支配力を見ると、インファレンスではそうはなっていません。プレイヤーとして存在し続けるでしょうが、電力、性能、コストが他社の提供できるものと比べてかなりかけ離れている場合、多くの開発者が他のサービスに流れ、そこからAPIを取得するようになってきています。SambanovaはGoogle Cloud、AWS、あるいはお好みの場所から参入できます。なぜならそれは単なるAPIだからです。OpenAIのように、ただのAPIです。
私たちは顧客の望む場所でそれらのAPIをホストすることができます。実際、今日私たちはサウジアラビアにいて、Saudi Arcoにサービスを提供しています。彼らの内部メタブレインに力を与えています。90年分のデータを取り込み、プライベートで安全なモデルにトレーニングし、サウジアラビアの彼ら自身のデータセンターで完全にプライベートにインファレンスを実行しています。完全に安全で、従業員のためにこれらのモデルでデータをインファレンスしています。
これは、人々が非常に早く採用すると考えられる使用モデルです。もはやCUDAやトレーニングの方法を心配する必要がなく、任意のオープンソースモデルを投入できるからです。
生産と容量についてはどうでしょうか?セレブラスに関する記事を書いた際、私が受けた反論の一つは、Reusは需要を満たす生産能力を持っているのかということでした。クラウドを通じてAPIを提供する容量はどの程度あるのでしょうか?
それは本当に正当な質問です。Llama 70Bを例に取ると、人々が尋ねるべき最も重要な質問は、それを実行するのに何個のソケットが必要か、何枚のウェハーが必要か、何台のラックが必要かということです。なぜそれが重要かというと、あなたは1つのモデルを実行していますが、そのモデル1つを実行するのに数百個のチップや多くの非常に高価なウェハーが必要な場合、あるいはNVIDIAの場合はまだ多くの電力を使用する必要がある場合、それはスケールしません。
Sambanovaでは、これらのモデルを単一のラックで10キロワット未満で実行しています。そのため、非常にモジュラーな方法で、単に効率的にラックを追加展開できます。既存のデータセンターに導入でき、システムの電力が高すぎて新しい液冷データセンターを建設する必要はありません。
これはNVIDIAが行っていることです。私が読んだところでは、インファレンス用に独自のデータセンターを建設し始めているようです。チップの消費電力が非常に大きく、新しい液冷が必要で、その冷却は特別な方法で行う必要があるからです。
Sambanovaでは、そのようなことは一切行わないことにしました。既存のインフラストラクチャで性能と可用性を提供したいと考えています。10キロワットのデータセンターでこのラックを導入し、405Bで1秒あたり132トークンを単一のラックで実現できます。
生産はどこで行っているのですか?チップはどこで製造していますか?
チップは台湾のTSMCで製造しています。
調達に苦労していますか?誰もが苦労していますよね。
はい、これは私たちのRDU(再構成可能なデータフローチップ)の本当に素晴らしい点の一つです。データフローであるため、チップの総数を1桁のオーダーで削減できます。NVIDIAなら100個のチップが必要だと思われるものを、私たちは10個程度のチップで実現できます。そのため、チップの需要を大幅に削減でき、それは他のサプライチェーンの利点にもつながります。
十分な資金を持つスタートアップとして、会社の最初の3年間で11億ドルのベンチャーキャピタルを調達しました。
設立からどのくらい経ちましたか?
6年、もうすぐ7年になります。最初の3年間で、業界トップの投資家から多くの資本を調達できました。Google、Intel、BlackRock、SoftBank、Temasekなど、素晴らしい投資家たちです。
サウジアラビアも投資していると思いますが?
はい、公表している投資家は既に発表したものですが、これらの投資家のおかげで、チップを早期に、かなり前から確保することができました。チップを早期に入手できたので、迅速に供給できます。しかし、この需要の伸びを見ると、常にリードタイムが発生し始めています。ここ数ヶ月の間に、材料を大量に事前購入したにもかかわらず、割り当ての積極的な管理を始める必要が出てきました。
つまり、チップの良好なパイプラインがあり、おそらくクラウドとも交渉中ということですね。私はジャーナリストですが、Sambanovaのことを知りませんでした。それは特定の種類のインファレンスに焦点を当てているからですか?それとも全く制限がないのでしょうか?
私たちの歴史は、企業に参入し、オンプレミスで展開してきました。現在、米国政府で最も展開されているAIチップのスタートアップであることは、あまり知られていません。主要な研究所や、銀行など、3大陸で展開しています。プライベートで機密性の高いデータを持ち、それを他者に開示したくない企業に参入しています。今日、企業データの83%はオンプレミスにあります。
彼らはそのデータを持っていますが、それが何を意味するのか分かっていません。Sambanovaは過去数年間、効率が非常に高いため、モデルを読み込むために完全なデータセンターを作る必要はなく、数台のラックを導入するだけで済みます。モデルがあれば、そのデータを読み込むことができ、独自のプライベートGPTを持つことができます。
私たちにとって、これは企業と非常に効率的に、そして迅速にエンゲージメントを行える方法です。世界が本番環境に移行するにつれて、インファレンスへの大きなエネルギーを感じています。率直に言って、私たちの技術はインファレンスに本当に適しています。405Bで世界記録、70Bで世界記録、すべて16ビットで示されたように、他社にはできない方法でこれらの結果を達成し、他の誰もが使用している電力のごく一部で実現できます。そのため、今回クラウドに参入することを決めました。顧客のプレミスで行っていることを、クラウド環境に展開できるからです。これは私たちのデータセンターではなく、パートナーのデータセンターです。サービスを彼らを通じて提供します。
パートナーのデータセンターを通じて提供することで、自分たちでオンプレミスで行いたくない幅広い人々にこれらのサービスを提供できます。より高速な速度により、はるかに大きなコンテキストウィンドウが得られるのでしょうか?
Sambanovaから得られることは3つあります。1つは速度です。速度は複数の目的に使用できます。世界はリアルタイムを求めています。多くのAIはリアルタイムである必要があり、速度がないと遅すぎます。私たちは待ち切れない世界にいます。数秒経つとマシンが止まってしまったと思ってしまいます。そのため、リアルタイムには速度が必要です。ほとんどの遅いモデルは機能しません。これが私たちがSambanovaで提供できる1つ目の利点です。
2つ目は、405Bから1兆パラメータのモデルまで対応できるため、精度を提供できることです。モデルが大きいほど精度が高くなります。他社が言うように、チップが大きいほど良いわけではありません。モデルが大きいほど良いのです。大きなチップは単に多くの電力を消費するだけです。大きなチップが大きなモデルを実行できない場合、その利点を得ることはできません。私たちは大きなモデルを求めています。MetaのLlama 405Bは最高のオープンソースです。
そのアーキテクチャはどうなっているのでしょうか?重みを直接チップに載せているのですか?それともメモリにあるのですか?
はい、Sambanovaは非常に洗練されたメモリ階層を持っており、チップ上に多くのSRAMがありますが、HBMとDDRも備えています。単一のシステムで、Sambanovaのボックス、Sambanovaのチップに直接接続された12テラバイトのDDRを持っています。これにより、様々なことができます。非常にコンパクトなフットプリントで400Bパラメータのモデルをホストし、非常に効率的に実行できます。
さらに、同時に数百のAPIモデルを仮想的にホストすることもできます。AIの世界に仮想化をもたらしましたが、これはNVIDIAや他のスタートアップは行っていません。なぜこれが重要かというと、いつかあなたは独自のLlamaチェックポイントを持ち、彼も彼のチェックポイントを持ち、誰もが独自のものを欲しがるからです。
今日の既存のレガシーな世界では、あなたのモデルに1つのハードウェアラック、彼のモデルに別のハードウェアラックが必要です。私たちは1つのシステムで数百のチェックポイントをマルチテナントで実行でき、VMwareが20-30年で事業を築いたように、動的に仮想的に切り替えることができます。
このメモリがそれを可能にしてくれましたが、それはメモリだけではありません。ソフトウェアもそれを実現するために非常にインテリジェントですが、マルチテナンシー、速度、そしてラックの実際の生の性能を提供できます。
APIはどのくらい高速ですか?インファレンスは高速かもしれませんが、APIを使用する誰かへの帯域幅も必要ですよね?
私たちが行っていることの一部は、モデルの最初のトークンまでの時間が0.09秒で、これは世界一です。しかし、あなたが言うように、それはあなたがどこにいるかによります。なぜ私たちがこのようにサービスを提供できるかというと、ギガワット級のデータセンターを建設する必要がないため、世界中にこれらのラックを展開できるからです。
既存のデータセンターに入り、それをサービス用のマイクロポッドに変えることができます。8台のラック、80台のラック、800台のラックを設置できます。非常にモジュラーで、単一のラックで完全なモデルを実行できるからです。これにより、AIをローカルに持ち込む柔軟性が得られ、すでにオンプレミスの人々のために実現しています。
オンプレミスについて、現在オープンソースではないものも提供していますよね?おそらく他のオープンソースモデルも?
HuggingFaceから幅広いオープンソースモデルをサポートしています。私たちのトップモデルはSamba Oneと呼ばれ、これは専門家の集合体です。基本的に、多くのオープンソースモデルのチェックポイントを持ってきて、プロンプトに基づいてモデルがルーティングする仮想プラットフォームです。これがマルチテナンシーを実現するアーキテクチャです。
OpenAIはまだ91の異なるモデルを提供していますが、彼らは独自のものです。他にも強力な独自モデルがあります。OpenAIがNVIDIA GPUの代わりにSambanovaを使用するようになるには何が必要でしょうか?
確かに、彼らがNVIDIAと持っているものよりも良く実行する必要があります。これらのモデルが大きくなるにつれて、Sambanovaの技術は大きなモデルで優位性を発揮します。これが私たちの強みであり、他の誰よりも大きなモデルをうまく実行できます。小さなモデルでもすでに世界一を示していますが、モデルが大きくなるほど、私たちのアーキテクチャは輝きを増します。
なぜOpenAIはNVIDIAと結びついているのだと思いますか?
分かりません。時間の問題だと思います。GPUに対して既に行った投資など、おそらく彼らが行った過去の決定に縛られているのだと思います。なぜならGPUは私たちより前からあったからです。しかし、今や必要なハードウェア投資の規模は、次の段階では1桁大きくなっています。
インファレンスはどこに向かっているのでしょうか?基盤モデルのトレーニングに多くの注目が集まっていましたが、今はインファレンスにシフトしています。あなたは、いつか各自が独自のLlamaチェックポイントを持つようになると言及しましたが、それはどこに向かうと思いますか?どのような製品がこれを活用すると考えていますか?
3つのことがあると思います。世界はオープンソースになり、それは継続すると思います。モデルは今でも本当に優れています。より大きくなっていくでしょう。なぜなら、人々は精度を求め、マルチモダリティを求めているからです。様々なことを求めており、それがモデルを大きくすることにつながります。
そして、人々はカスタマイズを求めています。プライベートデータをトレーニングに組み込みたいと考えています。私は自分のチェックポイントを作り、自分の価値を創造したいと考えています。これら3つのことが、私たちが将来の成果をはるかに優れた方法で実行するために必要なことを推進しています。つまり、高速で大規模なものを扱え、非常に多くの同時チェックポイントを扱える必要があります。
数社の大手プレイヤーになると思いますか?長い間NVIDIAが独占してきました。セレブラスは注目を集めており、あなたたちは登場したばかりですが長年活動してきました。この新しいサービスを持っています。結果として10の異なる選択肢を持つことになるでしょうか?
10社になるとは思いません。非常に資本集約的な事業なので、一貫して実行できる必要があります。私たちはすでに市場で4世代目のハードウェアを展開していますが、一貫して実行する必要があります。しかし、世界は選択肢を求めています。最高の製品が人々を引き付けるでしょう。なぜなら、この世界で電力は本当に問題だからです。電力がなければ、容量もありません。
このエピソードはrapid SOSの提供でお送りします。テラバイトやペタバイトのデータは日常生活で爆発的に増加しています。あなたは何台の接続デバイスを所有していますか?この全てのデータが緊急時にどのように活用できるか考えたことはありますか?2030年までに、IoTデバイスは現在の2倍の320億台以上に達する見込みです。このデータの豊富さにもかかわらず、重大な安全上のギャップが存在します。重要な情報が緊急対応者に適時に届いていないのです。このギャップは、生命や財産を不必要なリスクにさらす、反応的な緊急対応をもたらしています。
私たち多くは自宅での緊急事態でEMSの迅速な対応に頼った経験があります。rapid SOSは、AIを活用したインテリジェント安全プラットフォームでこの安全上のギャップを埋めています。彼らは5億4000万台以上のデバイスから、6カ国2万1000以上の公共安全機関に命を救う情報を接続しています。年間2000億ドルの安全システムへの投資にもかかわらず、企業は緊急時にタイムリーで実用的な情報が不足していることがよくあります。rapid SOSはそれを変えようとしています。
問題を回避するだけではありません。安全への投資は、顧客満足度、従業員の定着率、企業の長期的価値と結びついています。rapid SOSで安全上のギャップを埋め、緊急対応を変革しましょう。rapid sos.com/ionaiにアクセスしてください。それはion AIです。Y-E-O-N AIと続けて書きます。rapid sos.com/ionaiにアクセスして、AIを活用した安全性があなたの人々を守り、収益を向上させる方法について学んでください。rapid SOSはR-A-P-D SOSです。rapid sos.com/ionaiに今すぐアクセスしてください。