No Priors エピソード96 | Modal社のCEOおよび創業者エリック・ベルンハルドソン氏との対談

10,595 文字

No Priors Ep. 96 | With Modal CEO and Founder Erik Bernhardsson

Today on No Priors, Elad chats with Erik Bernhardsson, founder and CEO of Modal Labs, a platform simplifying ML workflow...

今日はModalの創業者兼CEOであるエリック・ベルンハルドソン氏とお話しします。Modalは、AI、機械学習、データアプリケーション向けのサーバーレスクラウドプラットフォームを開発しています。その前は、better.comやSpotifyで働いており、Spotifyでは機械学習部門を率い、レコメンダーシステムを構築しました。エリックさん、今日はNo Priorsに参加していただき、ありがとうございます。
ええ、参加できて光栄です。
私の記憶が正しければ、あなたはSpotifyで働き、MLチームとレコメンダーシステムの構築を支援し、その後better.comにも在籍されていましたが、Modalを立ち上げようと思ったきっかけと、解決したいと考えていた問題は何だったのでしょうか？
はい、2008年にSpotifyで働き始め、7年間在籍していました。音楽レコメンデーションシステムを構築しましたが、当時はデータインフラの面では何もなく、Hadoopが最も進んでいた技術でした。そのため、多くのインフラ構築に時間を費やしました。特に、今では誰もほとんど使っていないワークフローシステムのLuigiを構築しました。また、ベクトルデータベースのLenoiも構築しましたが、これも短期間使われただけで、今では誰も使っていません。
その後、better.comではCTOとして、開発者の生産性などについて多く考えていました。パンデミック中に時間を取って、いろいろとハッキングをしていた時に、データ、AI、機械学習のためのより良いインフラを構築したいという思いが常にあったことに気づきました。そしてすぐに、これが私のやりたいことだと悟り、それがModalの始まりとなったのです。
それは面白いですね。そのアプローチはどのように進化し、現在の会社の主要な注力分野は何ですか？
まず、データ、AI、機械学習インフラの課題は何かを見始め、開発者の生産性の観点から、どのようなツールが欲しいかを考え始めました。大きな課題の一つは、クラウドの扱いが面倒だということです。クラウドのパワーは素晴らしく、2009年頃から使っていますが、実際に作業するのは結構frustatingです。そこで、クラウド開発をローカル開発と同じくらい良い体験にできないかと考えました。高速なフィードバックループを実現するにはどうすればよいかを考え始め、すぐにDockerやKubernetesは使えないことに気づき、それらを捨てる必要がありました。
そして、おそらく独自のファイルシステムを構築する必要があると気づき、早い段階でそれを実現し、独自のスケジューラーと独自のコンテナランタイムも構築しました。これが、Modalの最初の2年間の基本的な取り組みで、すべての基盤となるインフラ層を整備することでした。
現在、お客様に提供している主なサービスや製品についてお聞かせください。
私たちはインフラストラクチャ・アズ・ア・サービスを提供しています。一方で、数千台のGPUとCPUを備えた非常に大きなコンピュートプールを運営しています。100台のGPUが必要な場合でも、通常数秒以内に提供できます。これは大きなマルチテナントプールで、キャパシティプランニングは私たちがお客様のために解決する課題の一つです。お客様は予約について考える必要がなく、常にオンデマンドのGPUを提供しています。
もう一方で、アプリケーションの構築を非常に簡単にするPython SDKがあります。基本的にPythonの関数としてコードを書くと、それらをクラウド上のサーバーレス関数に変換します。コンテナ化やインフラの部分はすべて私たちが処理するので、KubernetesやDockerなどについて考える必要はありません。
実際のキラーアプリは、予期せぬことでしたが、Stable Diffusionがリリースされた時に多くの人々が私たちのところに来て、「これは面白そうだ、GPUにアクセスできて、マシンのスピンアップやプロビジョニングについて考える必要がない」と言ってきたことでした。これが私たちの最初のキラーアプリとなり、サーバーレスな方法で生成AIを実行することでした。
現在では、より多くのモダリティに対応しています。テキストから画像への変換は依然として多く使われていますが、音声や音楽など、他の用途も見られます。例えば、とても素晴らしいものを作っているお客様の一つにSosoがあります。AIで音楽を生成しており、すべての推論をModalで大規模に実行しています。音声、ビデオ、画像、音楽などのモダリティで、クールな生成AIモデルを構築しているお客様が多くいます。
確かに、Sosoは現在、拡散モデルベースではなく、Transformerバックボーンを使用していると思います。
はい、私の理解では両方を組み合わせて使用していると思いますが、確実ではありません。
10月に「AIの未来にはより柔軟なGPU容量が必要」という記事を書かれましたが、業界で一般的に聞くのは、多くの人々のGPUの使用方法が無駄が多いということです。GPUの使用の柔軟性について、実際の使用量と無駄な使用量、既存のGPUタイプでもまだ最適化の余地があるのかについて、あなたの見解をお聞かせください。
GPUは高価です。パラドックスのように、クラウドの容量の多くは、長期契約を結ばないと入手できません。これは多くのスタートアップにとって適切なモデルではないと思います。クラウドの素晴らしい点は、必要なだけのCPUにオンデマンドでアクセスできることですが、GPUに関しては、不足のために長期契約を結ぶことが主な入手方法となっています。
根本的に、これはスタートアップのあり方ではないと思います。これは需要と供給の問題でもありますが、CPUマーケットを見ると、必要な時に数千台のCPUに即座にアクセスできるという事実があります。私のビジョンは、GPUも同じようになるべきだということです。
特に推論にシフトしていく中で、これは重要です。トレーニングに関しては、必要なトレーニングリソースを確保して使用できるので、あまり問題ではありませんでした。しかし、推論に関しては、事前にどれだけ必要かさえわかりません。非常に変動が激しく、これは多くのお客様のために解決している大きな課題です。
Modalでは、コンテナが実際に実行されている時間に対してのみ課金する完全な使用量ベースのモデルを採用しています。これは、キャパシティプランニングや必要なGPU数を考える必要があり、過剰なプロビジョニングをすれば多くのアイドル容量に対して支払いが発生し、過少なプロビジョニングをすればサービスの品質が低下するという、従来の大きな課題を解決しています。
一方、Modalでは、これらの非常にバースト的で予測不可能なワークロードを、多くの異なる顧客のワークロードを集めて数千台のGPUの大きなプールで実行することで、うまく処理できます。
トレーニングについて常に印象的なのは、あなたの指摘通り、GPUクラスタを立ち上げ、巨大なスーパーコンピュータを何ヶ月も運用し、最終的な出力はファイル1つだということです。考えてみれば非常に奇妙ですね。そのファイルは、ある意味でインターネット全体や人類の知識の集合体を表現しているわけです。推論に関しては、より柔軟にスピンアップやダウンができる必要があります。あるいは、短期のトレーニングや、トレーニング後の特定の側面では、より柔軟な容量が必要かもしれません。
その通りです。それは今、私たちが非常に興味を持っている分野です。従来、Modalは主に推論のユースケースがメインでしたが、トレーニングにも非常に興味があります。特に、これらの短期で非常にバースト的な実験的なトレーニング実行に焦点を当てています。非常に大規模なトレーニング実行は、全く異なるマーケットだと思うので。
人々のエンドツーエンドのニーズをどのように満たすかについて、どのようにお考えですか？多くの人々がRAGを使用して行っていることや、推論時にさまざまなアプローチを取るためにコンピュートを使用していることなど、さまざまな方法があります。インフラストラクチャとして提供できるエンドツーエンドのスタックについて、どのようにお考えですか？また、Modalはどこに焦点を当てているのか、あるいは当てたいと考えているのでしょうか？
私たちの目標は常に、プラットフォームを構築し、エンドツーエンドのユースケースをカバーすることでした。ただ、最初のキラーアプリとして推論に焦点を当てる位置にいただけでした。しかし、私の最終目標は常に、エンジニアの生産性を向上させ、MLの高コード側、つまり私たちのターゲットオーディエンスとなる従来のMLエンジニア、自分のモデルを構築する人々に焦点を当てることでした。
そこには、データの前処理、トレーニング、推論など、多くの異なる側面があります。さらには、フィードバックループ、REGAデータ、オンラインランキングモデルなど、もっと多くのものがあります。Modalの目標は常に、それらすべてをカバーすることでした。
興味深いことに、多くのお客様が現在、トレーニングはModalにはありませんが、バッチ前処理にModalを使用しています。例えば、ビデオモデルをトレーニングする場合、ペタバイト単位のビデオデータがあれば、GPUを使用して特徴抽出を行い、その後他の場所でトレーニングを行い、推論のためにModalに戻ってきます。
そのため、トレーニングを行うことは私たちにとって非常に理にかなっており、一般的に、機械学習のライフサイクル全体をエンドツーエンドで処理できるプラットフォームを構築することは理にかなっています。データパイプラインや夜間バッチジョブなど、関連する多くのことも同様です。
あなたが説明されているのは、かなり広範なプラットフォームベースのアプローチですね。同じような分野やマーケットにいくつかの企業がありますが、Modalはどのように差別化を図っているとお考えですか？
まず第一に、私たちはクラウドネイティブです。クラウドマキシマリストとして、マルチテナントプラットフォームを構築し、すべての人のコンピュートをそこで実行することを決めました。その利点は非常に大きく、キャパシティ管理をより良く行うことができます。これが、必要な場合に数百台のGPUに即座にアクセスを提供できる方法の一つです。
もう一つの利点や差別化要因は、非常に汎用的であることです。私たちが「高コード」と考える部分に焦点を当てています。私たちのコンテナとインフラで独自のコードを実行しており、これはより難しい問題です。コンテナ化とユーザーコードを安全に実行することは難しい問題で、コンテナ呼び出しの処理、独自のスケジューラー、独自のコンテナランタイム、コンテナを高速に起動するための独自のファイルシステムを構築する必要がありました。
多くの他のベンダーとは異なり、推論やLLMのみに焦点を当てているわけではなく、私たちのアプローチは常に、非常に汎用的なプラットフォームを構築することでした。長期的には、コンピュートレイヤーがより成熟してきているため、その上に構築できる多くの他の製品があると考えています。
大企業にAIの採用について話を聞くと、多くの企業がすでにAzure、GCP、またはAWSにデータを持っており、アプリケーションを実行し、マーケットプレイスでクレジットを購入し、セキュリティレビューも完了しています。他のサードパーティサービスへのレイテンシーやpingについて心配し他のサードパーティサービスへのレイテンシーやpingについて心配し、既存のクラウドプロバイダーやハイパースケーラー、あるいは複数のハイパースケーラーで実行することを望んでいます。Modalのコンテキストで、自社のコンピュートとハイパースケーラー、そしてどこでも実行できる能力についてどのようにお考えですか？
もちろん、セキュリティとコンプライアンスの側面もあります。これは確かに課題です。2008年や2009年頃にクラウドが登場した時を振り返ると、私の最初の反応は「なぜ誰かが自分のコンピュータを他人のコンピュータに置いて実行するのだろう」というものでした。それは私にとって狂気の沙汰に思えましたが、数年後には実際にはとても理にかなっていることに気づきました。
今では、企業の間でも、大手ハイパースケーラーの方が自社のコンピュータよりも安全かもしれないという認識が広がっています。同様に、2012年頃にSnowflakeと話をした時も、彼らは「クラウドでデータベースを実行し、それはあなたの環境ではないかもしれないが、インフラストラクチャ・アズ・ア・サービスとして提供する」というアプローチを取っていました。私はそれは狂気だと思いましたが、明らかにSnowflakeは今や非常に大きな上場企業となり、インフラストラクチャ・アズ・ア・サービスが理にかなっていることを示しました。
このマルチテナントモデルの採用には多少の抵抗があると思いますが、クラウドのセキュリティと採用を見ると、私たちの方向に追い風が吹いていると思います。セキュリティはネットワーク層からアプリケーション層へと移行しており、帯域幅コストは低下しています。帯域幅転送コストを最小限に抑えるためのテクニックもたくさんあります。例えば、egress料金が無料のR2にデータを保存することができます。
これは現実的に、私たちが多くのプッシュをする必要があることを意味しますが、キャパシティ管理の面でこのマルチテナントモデルには非常に多くの利点があり、AIの未来の大きな部分は、大規模なコンピュートプールを実行し、それを非常に動的にスライスすることだと私には非常に明確です。
先ほど、Modalの初期採用を促したのはStable Diffusionと、画像生成に関するこれらのオープンソースモデルだったとおっしゃいましたが、最近数ヶ月で本当に人気が出始めているオープンソースのプロジェクトやモデルはありますか？
それは良い質問ですね。もしあるとすれば、実際にはより独自のモデル、つまり独自のオープンソースモデルの方向へと少しシフトしていると思います。最近では、Fluxが注目を集めているモデルの一つだと思います。個人的には音声に非常に興味があります。音声は非常に未開拓の分野で、オープンソースモデルには多くの機会があると思いますが、まだ本当にクールなものは見ていません。
今日のAIインフラストラクチャやインフラストラクチャ・アズ・ア・サービスの世界で、何が欠けていると思いますか？
私は偏っていると思いますが、エンジニアがコードを取得して実行する方法がModalには欠けていると思います。私はコードと、人々が自分でコードを書いて物を作りたいと思うことに非常に強気です。LLM空間の外では、人々が自分のモデルをトレーニングしたり、実行したり、少なくとも他のモデルを実行しながら非常にカスタマイズされたワークフローを持ちたいというアプリケーションが常にたくさんあると思います。
そしてそれを行う素晴らしい方法がないと思います。かなり面倒なことです。そのため、それは非常にエキサイティングだと思います。ストレージ側でも本当にエキサイティングなものがあります。Modalではストレージにはあまり触れていません。非常にコンピュートに焦点を当てています。
個人的にはベクターデータベースにとても興味があります。それがどのように進化していくのか、誰も本当にはわかっていないと思います。トレーニングデータの周りのより効率的なストレージにも興味があります。また、現在非常に魅了されているもう一つのことは、トレーニングワークロードです。大規模なモデルを効率的にトレーニングするには、ネットワーキングのセットアップに多くのお金と時間を費やす必要があります。
私が本当にエキサイティングだと思うのは、トレーニングの帯域幅の要求を減らすことができたらどうなるかということです。それはトレーニングのインフラを大きく変えると思います。異なるデータセンターのGPUを多く結びつけることができ、InfiniBandなどを備えた非常に大きなデータセンターを持つ必要がなくなります。これは、より多くの開発を期待している別のインフラの側面です。
ベクターDBについては、時々少し議論があります。あなたはSpotifyでそれを構築したとおっしゃいましたね。Spotifyは今日、時価総額1000億ドルに達し、ヨーロッパのテクノロジー企業として初めてだと思います。これはとてもクールですね。多くの人々は既存のベクターDBを使用するか、場合によってはPG Vectorを使用してPostgresを使用していますが、独立したインフラのピースとしてのベクターデータベースの必要性について、あるいはPostgresを採用することについて、または他の何かをすることについて、どのようにお考えですか？
私はみんながそれを議論していると感じています。必ずしも答えはわかりませんが、すべてをリレーショナルデータベースに入れて問題ないという主張もできると思います。私にとって、より大きな疑問は、長期的に見て、AIネイティブなデータストレージソリューションとは何かということです。それが必ずしもデータベースと同じ形態や同じインターフェースを持つ必要があるかどうかさえわかりません。
これは私がより興味を持っている大きな疑問です。人々はベクターデータベースを見て、それがリレーショナルかどうかにかかわらず、データを入れて取り出すという古い学校のモデルに無理やり当てはめようとしています。しかし、AIの時代にはそれを根本的に考え直し、そのデータとの非常に異なる相互作用モデルを持つ余地があると思います。少し曖昧に聞こえるかもしれませんが。
非常に興味深いですね。もう少し詳しく説明していただけますか？
一つ私がよく考えることは、データベース自体が埋め込みエンジンになるかもしれないということです。ベクトルを入れて、そのベクトルで検索するのではなく、より本来的なAIネイティブなストレージソリューションは、テキストを入れ、ビデオを入れ、画像を入れて、それで検索できるというものだと思います。それが私の一つの考え方です。私たちはまだとても初期段階にいて、これが本当に形になるには5年から10年かかると思います。
とても面白いですね。先ほど、少なくともModalが扱う多くの分野で、より多くの人々が自分たちのモデルをトレーニングしているとおっしゃいましたが、既製品を使用するか、自分でモデルをトレーニングするかを決める際に、人々が従うべき何らかのヒューリスティックはありますか？
最終的に、モデルの品質が本当に重要な企業にとっては、最終的に自分たちのモデルをトレーニングしない限り、より良いソリューションを持っていると主張することは難しいと思います。自分たちのモデルを持っていなければ、スタックのどこか他の場所でモートを見つける必要があり、それは可能かもしれませんが、他の場所にあるかもしれません。
しかし、少なくとも自分たちのモデルを持ち、そのモデルが明らかに他のものよりも優れている場合、それ自体が本質的にモートとなります。LLM空間の外側、つまり音声、ビデオ、画像モデルを構築している場合、それがコアフォーカスである場合、自分たちのモデルをトレーニングする必要があることは非常に明確だと思います。
もし私の記憶が正しければ、あなたはIOI金メダリストで、明らかにコードとコーディングについてよく考えていらっしゃいますが、AIによってそれがどのように変化すると思いますか？あるいは、それについて何か異なる予測をお持ちですか？
これが異なる見解かどうかわかりませんが、私は実際にこれは開発者の生産性における多くの改善の一つに過ぎないと思います。振り返ってみると、コンパイラは元々開発者をより生産的にするツールでしたし、その後、高水準プログラミング言語、データベース、クラウドなど、すべてのものがありました。
そのため、AIがこれらの変化と異なるかどうかは、実際にはわかりません。そして、ちなみに、それが起こるたびに、ソフトウェアに対する潜在的な需要が非常に大きいことがわかり、実際にソフトウェアエンジニアの数は増えています。
過去40年のソフトウェア開発を振り返ると、より良いフレームワークやツールなどのおかげで、エンジニアの生産性は10年ごとに10倍になっていますが、それは実際にソフトウェアエンジニアに対するより多くの潜在的な需要を解放しただけです。そのため、私はソフトウェアエンジニアについて非常に強気です。その需要を破壊するには多くのことが必要だと思います。
人々はAIを固定的なものとして見ていますが、私の意見では、それはより多くの潜在的な需要を解放するだけだと思います。そのため、ソフトウェアエンジニアリングについて非常に強気です。
そして、あなたが以前触れたもう一つの分野は、高校時代にスウェーデンの物理学コンペで優勝されたことですが、物理学ベースのAIモデルやシミュレーション関連のものについて、何か追跡されていますか？それは非常に興味深い分野だと思いますし、そのためのモデルの考え方は異なりますね。
はい、スウェーデンの高校物理学コンペで優勝しました。10代の頃は完全な数学オタクでしたね。
それは本当に魅力的な分野だと思います。本当の再発明が必要で、取り組んでいる人があまり多くない分野の一つです。そのため、相対的に多くの異なるアプリケーションを思いつく可能性があるという点で、私は非常にワクワクしています。
物理学は、1920年代、30年代、40年代の黄金時代を振り返ると、その分野はあまり進化していないと思います。あなたの言う通りで、物理学ベースのモデルに新しい復興があることを願っています。
短期的には基礎研究には必ずしも役立たないかもしれませんが、シミュレーションには役立つと思います。物理学という分野は、物理学のEdwiの道を二重に進み、そこで少し道を失ったのかもしれません。よくわかりません。
より材料に関することや、より計算ベースのことについて話しているのですか？他の会社のように、飛行機の翼をシミュレーションしたり、荷重を…
ああ、HPCのことですね。特に石油・ガス業界では常に存在していましたが、それは特定のものに対する多くの小規模な、カスタマイズされた、あるいは手チューニングされたモデルです。
深層学習は気象学を変えるべきだと思います。深層学習は乱流などの予測に非常に適していると思います。なぜなら、乱流は従来の物理モデルでは実際に解くのが非常に難しいからです。そのため、理論的には深層学習は理にかなっていると思います。
はい、Nvidiaからいくつかの論文が出ていて、Googleにもチームがあって、いくつかの異なる気象シミュレーションチームが、かなり興味深いものを発表し始めているように見えます。
はい、また隣接する分野として、バイオテクも計算手法が非常に成功している分野だと思います。特にタンパク質フォールディングですが、配列アラインメントなども含めて、計算手法が非常に成功している分野だと思います。これは実際に、Modalでもより多くの使用が見られ始めている分野です。計算生物学には一種の復興があり、それは本当にエキサイティングです。
それは本当に素晴らしいですね。お客様のベース全体で、科学関連で最も多く見られる特定のユースケースはありますか？
私はバイオの専門家ではないので、これはかなり表面的な理解ですが、お客様を見ていて一つ多く見られるのは、実際には医療画像です。私の理解では、現代の手法を使えば、何百万もの実験を行い、それを自動化された電子顕微鏡でイメージングすることができます。そのため、実際に多くのお客様がModalを使って、それらの画像の処理とコンピュータビジョンを行っているのを見ています。これはかなりクールですね。
これらのモデルの人間への影響という観点から、最も期待している分野はありますか？
Spotifyでの私のバックグラウンドから考えると、Sosoは私にとって非常にエキサイティングです。AIで生成される音楽はまだとても初期段階で、それがAIによって生成されたものだとまだ聞き分けることができ、少しアンキャニーバレーのようですが、Sosoのモデルは世代を重ねるごとに良くなっています。
まず、音楽自体は常に新しいテクノロジーの影響が最初に見られる分野の一つです。Spotifyや iTunes、海賊版、あるいは蓄音機まで遡っても、すべてそうでした。その意味で、音楽は新しいテクノロジーの機会を示す興味深い分野だと思います。
また、Sosoは生成AIがなければ根本的にできなかったことだと思います。そのため、私にとって本当にエキサイティングです。フロンティアを押し広げ、5年前には存在し得なかった全く新しい製品を可能にしているのです。
素晴らしいですね。今日は多くのことをカバーできました。ありがとうございました。
ありがとうございました。とても楽しかったです。
TwitterでNo Prior Pod、YouTubeチャンネルで私たちの顔をご覧ください。Apple Podcast、Spotify、または他のお好みのプラットフォームでショーをフォローしていただくと、毎週新しいエピソードをお届けします。また、メール登録や各エピソードの書き起こしはno-pri.comでご覧いただけます。