本動画は、NVIDIAの年次イベントであるGTCカンファレンスにて行われた、AI業界を牽引する4つの企業(CoreWeave、Perplexity、Mistral、IREN)のCEOへのインタビュー映像である。AIインフラの構築から、最新の推論モデルやオープンソースAIの展開、そして増大する電力需要とデータセンターの未来に至るまで、各界のトップランナーたちがAIの最前線と今後の展望について深く語っている。

- NVIDIA GTCカンファレンス開幕:AIの未来を担うCEOたち
- CoreWeaveの起業秘話:暗号資産からAIインフラの覇者へ
- 大規模言語モデルの台頭と推論の時代
- GPUの寿命と需要の真実
- 資金調達のカラクリ:CoreWeaveの革新的なファイナンス
- 電力とインフラの制約:AI発展のボトルネック
- Perplexityが描く未来:検索から「コンピューター」へ
- デスクトップ回帰とローカルモデルの可能性
- 複数モデルの統合とAIのオーケストレーション
- Mistral AIの戦略:オープンソースとエンタープライズの融合
- オープンモデルとデータプライバシーの課題
- IRENが挑むインフラ構築:データセンターと再生可能エネルギー
- テキサスの広大な土地とデータセンター開発
- AIとエネルギーの未来:原発と新たなパラダイム
NVIDIA GTCカンファレンス開幕:AIの未来を担うCEOたち
ここはNVIDIAの年次カンファレンス、GTCの会場です。本日は、AI業界で素晴らしい活躍を見せる4人のCEOにインタビューを行います。ぜひ最後までご覧ください。
本日のエピソードはニューヨーク証券取引所(NYSE)の提供でお送りします。世界を変え、資金を調達したいとお考えですか?それならNYSEで実現しましょう。NYSEは現代のマーケットプレイスであり、スケールと長期的なインパクトのために構築された巨大なプラットフォームです。未来に向けてビジネスを構築するなら、NYSEこそがふさわしい場所です。
さて、AI時代における偉大な企業の1つといえば、もちろんCoreWeaveですね。彼らはハイパースケーラー向けに巨大なインフラを構築しています。ある意味で、あなたは元祖ハイパースケーラーと言えるかもしれません。マイケル・イントレーターさん、番組へようこそ。
ありがとうございます。
CoreWeaveの起業秘話:暗号資産からAIインフラの覇者へ
皆さんは非常に早い段階でこの分野に参入し、どのGPUを手に入れたのかは分かりませんが、このトレンドをいち早く掴んでいました。どうしてそんなに早く気づき、当時のいわゆるネオクラウドを構築するに至ったのでしょうか。
そうですね、最初からネオクラウドとして始めたわけではないんです。私は元々、天然ガスに特化したアルゴリズムベースのヘッジファンドを運営していました。アルゴリズムベースのヘッジファンドというのは、一度アルゴリズムを構築してしまえば、あとは監視したり、様々な仮説をテストしたりするだけなんですね。つまり、空き時間が結構あるんです。
そこで私たちは暗号資産にとても強い関心を持つようになりました。私たちはかなりオタク気質なので、システムの裏側を掘り下げていき、セキュリティレイヤーに興味を持ちました。ビットコインとそのマイニングについて調べたのですが、あまりしっくりきませんでした。ASICを開発した優秀なエンジニアがいて、彼らの方が私たちよりも上手く運用するだろうと思ったんです。
そのため、私たちはGPUに焦点を当てるようになりました。GPUならEthereumのマイニングもできますし、それ以外の様々なことにも使えるからです。最初からコンピューティング能力を様々なユースケースに展開するための選択肢として、コンピュートそのものに注目していました。
そうして2017年に会社を設立し、最初の3年間は暗号資産のマイニングを行い、何度かの「仮想通貨の冬」を乗り越えました。ヘッジファンド出身だったこともあり、資本やリスクエクスポージャー、アロケーションといったリスク管理に関しては本物のスキルを持っていました。ですから、最初からその辺りは非常に慎重に進めていました。仮想通貨の冬をうまく乗り切り、会社をスケールさせ始めると同時に、このコンピュートを他のユースケースにどう使えるかをすぐに探し始めました。暗号資産は価格変動が激しかったですからね。
ええ。それに当時の暗号資産はまだ未知数な部分が多かったですからね。
その通りです。
ビットコインは投機的でしたし、他にも投機的なプロジェクトがたくさんありました。当時、この種のハードウェアを使っていたのは、他にはクオンツや医療研究者くらいでしたよね。
私たちの製品開発の変遷を考えると分かりやすいと思います。最初は暗号資産でしたが、すぐにCGIレンダリングへと移行しました。アニメーションや画像のレンダリング、つまり映画をカッコよくするための作業を行う人たちに向けたプロジェクトを構築したんです。
そこからバッチコンピューティングへと進み、医療研究など、科学の発展を促進するためにコンピュートを使う様々な方法を模索し始めました。そうやって、GPUの複雑な使い方へと徐々にスタックを上っていったわけです。
そして最終的に、2020年から2021年頃にかけて、ニューラルネットワークにGPUをどう活用できるかを真剣に考え始めました。当時はそのやり方を全く知らなかったんです。そこで実際にA100を大量に購入し、EleutherAIというオープンソースプロジェクトに取り組んでいるグループに寄付しました。寄付したコンピュートを使ってもらえれば、最初は私たちがうまく運用できなくても、彼らから文句を言われることはないだろうと考えたんです。
それは素晴らしい戦略ですね。SLA(サービスレベル合意)について文句を言えませんから。
彼らは「もっとこれが必要だ、これに取り組むべきだ」とずっと言い続けてくれました。それがきっかけで、大規模な並列コンピューティングを運用するために何が必要かを理解し始めました。
最初のGPU購入は、このビジネスの運営方法を学ぶための授業料だったと感じています。そして面白いことに、このプロジェクトに参加していた人たちは皆、ボランティアとして参加している志を同じくする科学者たちだったので、本業に戻っていったんですね。彼らが本業に戻ったとき、「あのインフラが欲しい。あれこそ正しい構築のされ方だ。研究者が使いたいと思うやり方だ」と言ってくれたんです。それが私たちのビジネスの本格的なスタートになりました。
驚くべきストーリーですね。暗号資産から研究者、そして学界や深層研究へと進んでいったわけですが、このポーカーゲームで次にめくるカードは何だったのでしょうか。
非常に早い段階で明らかになったのは、スケーリング則がビジネスを牽引するだろうということでした。これはChatGPTの登場よりも前の、2020年から2021年頃のことです。
私たちは、コンピューティングが規模の拡大とともに脱コモディティ化していくことを理解し始めました。誰でもGPUを動かすことはできますが、世界を変えるようなモデルをトレーニングできるほど大規模なクラスターを運用できるかとなると、それは全く別の問題です。
そこで、より大規模な顧客に対して、このコンピューティングの提供をどうスケールアップしていくかについて真剣に考え始めました。それが次にめくるべきカードでした。これを単なるエンジニアリングのプロジェクトとしてではなく、ビジネスとして捉え始めたんです。私たちが提供するのは、NVIDIAのGPUの上であり、モデルの下の領域です。
その間にあるすべてのソフトウェア、オペレーションとの統合、可観測性など、この特定のユースケースに特化したクラウドを構築するために必要なすべての要素です。私たちはすべてをやるわけではありません。1つのユースケースに集中しています。
ウェブサーバーをやりたいならAWSがありますからね。彼らは素晴らしい仕事をしていますし、問題を解決するための見事なソリューションです。
私たちは単に、「新しい問題が存在している。その問題を検討し、それを解決するためのコンピュートを提供するソリューションを考え出そう」としただけです。
大規模言語モデルの台頭と推論の時代
言語モデルの企業がキャパシティを求めてあなたに電話をかけてき始めたのはいつ頃ですか。
私たちが関わった最初の言語モデルはEleutherAIでしたが、商業的に大規模だったのはInflectionです。Mustafa SuleymanやInflectionと協力し、そこからハイパースケーラーやOpenAIなど、基盤モデル全体へと顧客を多様化させていきました。
コンピュートの脱コモディティ化、つまり世界を変えるようなスーパーコンピューターを構築するというソリューションを提供する能力を信じて、規模を拡大し続けました。それがモデルのトレーニングへの入り口でした。
そして今、世界は研究段階から製品化の段階へと移行する瞬間を迎えています。組織の周辺部から中核へと入り込み始めています。それは、私たちのインフラレイヤーを通じて実行されている推論コンピュートの膨大な量を見れば明らかです。人々は単にモデルを構築するだけでなく、それをデプロイして実際に活用しているのです。
私は常に、推論こそが人工知能への投資をマネタイズするものだと考えています。
私たちが提供するコンピュートが、毎日膨大な規模の推論を支えているのを見ると、本当にワクワクします。推論とは、モデルに質問をして答えが返ってきたり、モデルに何かをするよう指示したりすることです。そこでは、モデルそのものの外側、つまり現実世界に価値を生み出す機会があります。それこそが私たちが注目していることであり、ビジネスの健全性を測る上で見守っていきたい部分です。
それはどのチップを使っているのですか。
私たちは、NVIDIAの新しいアーキテクチャを大規模な商業生産に持ち込む最前線にいます。H100を大規模に導入したのも、H200、GB200を導入したのも私たちが最初でした。そして今はGB300があります。
私たちにとって非常に魅力的で驚くべきことは、新しいアーキテクチャが登場すると、人々は最先端のGPUを使ってモデルをトレーニングし、その後、そのGPUを別の実験に移し、時間が経つと推論へと移行させ、非常に長い期間にわたって推論で使用し続けるということです。
GPUの寿命と需要の真実
現在のH100の寿命はどれくらいですか?これは大きな議論になっています。Microsoftにとっても、元クオンツでいらっしゃるあなたならご存知であろうMichael Burryのような人が「業界全体が崩壊する」と言っていたりもします。しかし、業界内の人間は、このハードウェアがただ捨てられるわけではなく、用途が見出されることを知っています。テクノロジーの実際の寿命はどれくらいなのでしょうか。
GPUの減価償却に関する議論について私の見解を言わせてもらうと、それはナンセンスだということです。その議論は、株の空売りポジションを持っているトレーダーたちが株価を下げようとして表沙汰にしているだけです。
私たちが知っている事実はこうです。私たちはインフラを購入する際、成功に基づいたビジネスモデルをとっています。巨大な競合他社に比べれば、私たちは比較的小さな会社です。それでも顧客はやってきて、5年や6年の契約でコンピュートを購入していきます。私たちの平均契約期間は5年です。
ですから、業界の内外を問わず、「このハードウェアは16ヶ月で時代遅れになる」といったような発言は、現場の事実と全く一致していません。現場の事実は、彼らが5年契約で購入しているということです。
私が常に考えているのは、人々がそれにお金を払う意志があるなら、それにはまだ価値があるということです。
その通りです。
非常にシンプルな考え方ですね。
私たちは6年間の減価償却を用いています。GPUは6年以上持つと信じていますが、このスピードで動いているテクノロジーサイクルにおいて、それは公正で妥当なアプローチだと感じました。
今年のA100やAmpere世代のGPUは、年間を通じて価格が上昇しました。
それはなぜですか?
利用可能な容量が増えるにつれて、新しいユースケースを持つ新しい企業が誕生し、H100を入手できなかったり、それを使用する機会がなかったりする企業が、異なるサイズのモデルを構築して新しい商業ベンチャーを立ち上げようとするからだと思います。
視聴者に分かりやすい例を挙げると、3、4年使ったiPhoneを下取りに出すとき、「誰がiPhone 12なんて使うんだ?」と思うかもしれませんが、南米やアフリカの店に行けば、iPhone 12やPixel 7が50ドルで売られていて、まだ十分に長く使えるのと同じですね。
全くその通りです。私たちは、新しいモデルをワークフローに統合し、Ampereアーキテクチャを利用できる既存の企業や新興企業の素晴らしいユースケースを目の当たりにしています。彼らは私たちが提供できるGPUを買い続けています。ですから、16ヶ月や18ヶ月、あるいは2年でGPUが商業的に無価値になるという考えは、全く理にかなっていません。
人々はムーアの法則や業界の成長スピードに囚われがちで、大企業が最新の製品を求めるあまり、寿命が短くなったと錯覚しているのだと思います。実際には、寿命が短くなったのではなく、機会の表面積がはるかに大きくなったということです。
その通りですね。この業界は、前例のない規模の資本が投入されていることで大きな注目を集めています。そのため、最先端のチップセット上に構築している企業にばかり焦点が当てられがちです。
しかし実際のところ、そうした企業でさえ、他の実験を行ったり、最先端ではないが依然として必要なタスクを処理したりするために、推論用のコンピューティングパワーを提供する上で、ハードウェアの有用な寿命の長いテールを持っています。
ええ、レンダリングなども思い浮かびますね。ナノバナナの画像を作るようなことにも使い道はあるでしょう。
計算力と消費電力の比率が理にかなわなくなる瞬間は来るかもしれません。陳腐化が定義されるのは、データセンターの電力を、既存のインフラが提供するよりも高い利益率で別の目的に転用できるようになった瞬間だと考えています。
先ほども言いましたが、私はこのインフラが6年以上持つと確信しています。Amazonを除いて、この分野の基準は実際には6年なんです。それが適切なスケジュールのように思えます。私がでっち上げているわけではなく、みんながそう使っているんです。
エネルギーコストが機会になるわけですね。「スペースが必要だ、ここにはもっと良い報酬がある」となれば、そのハードウェアは趣味で使う人など、他の誰かに転売されるか、あるいはもっとキャパシティのある別の場所へ送られて再利用されるかもしれません。
ええ。しかし、ビジネスのその部分については、その時が来たら対処すればいいと考えています。私が今分かっているのは、このビジネスが非常に有益だということです。長期間契約で稼働し続けてきたインフラを維持し続けることは、私の会社にとって非常に創造的です。5年間使用されて契約が終了し、再び利用可能になったときでも、1年前よりも高い価格で販売することができるんですから。
資金調達のカラクリ:CoreWeaveの革新的なファイナンス
今は競争がありますよね。かつてJensen Huangから直接購入していた頃は、注文すれば30日以内には発送されていたと思います。しかし今では、古くからの顧客であるあなたにとっても待ち時間はどのような状況ですか?サーバーを誰が手に入れるかという政治的な駆け引きはあるのでしょうか?大企業が割り当てを求めているという話も聞きますが、皆が欲しがるものを買わなければならない立場として、まだクレイジーな状況ですか?
私はそれを、私たちが身を置いているビジネスの肯定だと捉えています。私たちが競合他社を引きつけているという事実は、ビジネスが健全であり、多くの人がこのサービスを提供しようとしていることを意味します。人工知能の需要を満たすためにインフラをソフトウェアレイヤーと統合する必要性があるからです。モデルレベルであれ、推論レベルであれ、アプリケーションレベルであれ、Jensen Huangが注目する5層のケーキのどのレベルであれ、より多くの人が参入してくることは、私を落胆させるものではありません。
GPUへのアクセスに関して言えば、私たちは他の皆と同じように注文書を持って現れ、「購入したい、支払う準備はできている」と伝えるだけです。
待ち時間はどれくらいですか?競争は激しいですか?Jensen Huangに「どうやってこれほど多くの大企業のトップの自尊心や要求をさばいているのか」と尋ねたところ、彼は「彼らが注文し、私たちは注文された順番に提供しているだけだ」と答えました。本当にそうなんですか?
本当にそうです。彼は顧客をえこひいきするような立場にはなりたくないんです。それは顧客との関係において良くないことですから。
オークションにかけるなんて想像できますか?
それはクレイジーですね。長期的にはビジネスに良くないと思います。
ですから私たちのアプローチは、フェラーリに倍の値段を払う主権国家のような顧客が現れるかもしれませんが…これらはコンピューティングの世界のフェラーリみたいなものですからね。
ある意味ではそうですね。ブガッティかもしれません。
私たちのアプローチは、業界全体のクライアントと協力し、非常に興味深い企業で、私たちの契約要件に合う機会を見つけることです。その要件に基づいて、私たちはこの規模のインフラを構築するために必要な負債を組成しに行きます。
その負債の仕組みはどうなっているのですか?それはあなた方が得意としている分野ですよね。ベンチャーキャピタルにいると、「企業向け負債があれほど高い利回りを出しているのに、なぜベンチャーに投資するのか」と言われることがあります。10億ドルのインフラに対して、人々はどれくらいの金利を支払っているのか興味があります。
CoreWeaveは、この分野における資金調達メカニズムの革新者です。私たちはGPUを担保にした最初の融資を行いました。
皆さんに分かりやすく説明したいと思います。私たちはまずクライアントを見つけます。先ほど挙がったMicrosoftを例にしましょう。Microsoftがやってきて「コンピュートを購入したい」と言い、私たちは「素晴らしい、契約を結びましょう」と答えます。
契約が手に入ったら、次に私はあるものを作ります。特にクリエイティブな名前ではありませんが、「ザ・ボックス(箱)」と呼んでいます。そして、Microsoftとの契約書をその箱に入れます。Jensen Huangのところへ行きGPUを購入し、それも箱に入れます。データセンターの契約書も箱に入れます。
これで、この箱がキャッシュフローを管理することになります。箱に入ってくるお金と出ていくお金のウォーターフォール(滝)ができるわけです。
私たちがコンピュートを構築し、それをMicrosoftに提供すると、彼らは箱に支払いをします。私に支払うのではなく、箱にお金が入るんです。そして最初に行われるのは、データセンターへの支払いです。電力料金、利息、そして元本が支払われ、残ったものが私たちに還元されます。
これは非常にうまく構築され、時間をかけてテストされ、プレッシャーにも耐えうる仕組みです。クライアントの契約書やその他の担保を基にお金を借りるための手段として機能しています。だからこそ、多くの人が聞いたこともないようなCoreWeaveという会社が、大規模なインフラを構築するために18ヶ月で350億ドルもの資金を調達できたのです。
ここで理解しておくべき重要なことは、この箱の中の経済性は、5年契約の最初の2年半で私たちがすべての支払いを終えられるようになっているということです。
元本も支払い終えるんですか?
元本も利息も支払いが終わります。箱からのリターンによって、私たちは会社として利益を生み出すことができます。これにより、銀行であれ未公開株式投資ファンドであれ、世界で最も洗練された貸手たちに、「資金を確実に回収できる」という自信を与えることができます。融資の唯一のルールは、「お金を返してもらうこと」ですからね。
それが実現するとうまく機能しますね。彼らは10個の箱を求めるかもしれません。もし1つの箱がうまくいかなくても、対処可能で深刻な問題にはなりませんね。
その通りです。箱同士が交差することはありませんし、他の箱に波及することもありません。すべてが独立しており、個別のものです。
さらに、この融資ツールとメカニズムがどのように機能するかを貸手に示すにつれて、彼らはより低い金利で資金を貸してくれるようになります。過去2年間で、私たちは資本コストを600ベーシスポイント(6%)引き下げました。
それはすごいですね。
巨大な変化です。ハイパースケーラーが借り入れるレベルに向けて資本コストを下げている企業を目の当たりにしているわけですから、長期的には彼らと競争できるようになるでしょう。
私たちは、ビジネスを構築し推進するための資本市場へのアクセスを維持し続けるために、これらの箱を育て、管理することに極めて厳格かつ勤勉に取り組んできました。
それはつまり、箱に入りたがる一部の人たちに対して「ノー」と言わなければならないということですよね。
ええ。いくつかの案件を見て、「彼らは1年間GPUを買いたいと言っているが、経費を償却するには期間が短すぎるからこの取引はできない」と判断することがあります。
そうした顧客は、余剰キャパシティを持っていてリスクを取りたい他のプロバイダーのところへ行くわけですね。
その通りです。しかし私たちのビジネスは、規模を拡大するためのリスク管理を中心に構築されています。なぜなら、私の考えでは、この不均衡の時期、つまり人工知能のさまざまなユースケースすべてにコンピュートを提供するのに十分なGPUが世界に存在しないこの時期において、私や私の会社にとって重要なのは、巨大な規模に成長することだからです。
規模を拡大することで資本コストを下げ、市場のあらゆる部分から情報が入ってくるようにします。大規模言語モデル、高頻度取引、検索など、すべてがそうです。彼らは私たちに情報をフィードバックしてくれ、次にどのような製品を作るべきか、どこでスケーリングの支援が必要か、どのようなタイプのコンピュートが必要かを知ることができます。その情報の流れは私たちにとって信じられないほど価値があります。
電力とインフラの制約:AI発展のボトルネック
需要について教えてください。OpenAIとのOracleの案件が縮小されたかもしれないという噂があったり、Microsoft、Google、Metaが大規模に展開している一方で、Appleは参戦する様子がないなど、さまざまな情報があります。
あなたは今、非常に強力なバランスシートを持ち、大量の需要を牽引する能力のある大企業を多数挙げられました。私はここ数年間、この点において確固たる信念を持っています。私たちが提供するサービスに対する需要の深さは容赦なく、人工知能に対するすべての需要を満たすだけのコンピュートを提供する世界のキャパシティを圧倒しています。
まるでパトリック・ユーイング時代のニューヨーク・ニックスのチケットみたいですね。キャンセル待ちが5万人に達したという。もし魔法のように制約がなくなり、利用可能なGPU、エネルギー、データセンターが大量にあったとしたら、どれくらいのキャパシティがシステムから生み出される、あるいはデプロイされると思いますか?
私たちのビジネスはこの「箱」を通じて構築されており、それは5年間の箱であることを思い出してください。もし技術的ブレイクスルーや戦争などで突然需要が消滅するエアポケットが生じたとしても、リスク管理の観点からは理由は重要ではありません。「もしそうなったらどうなるか」に備えて会社を準備しなければならないのです。
長期契約を結び、強力なバランスシートを持つ相手と契約を結ぶことで、私たち自身と貸手を保護しています。彼らが私たちに課す金利が下がり続けていることからも、彼らが最終的にお金を回収できると確信していることがわかります。
もし制約がなくなり、Jensen Huangが「好きなだけ注文していい」と言ったらどうなるでしょうか。
制約となっているのはGPUだけではないことを理解することが重要です。電力、データセンターの設備、メモリ、ストレージ、ネットワーキング、光学機器など、さまざまな要素があります。
今はメモリがボトルネックの1つですよね?
はい、間違いなくそうです。メモリは歴史的にサイクルビジネスでした。需要の波がメモリ価格を押し上げ、その後崩壊し、また押し上げるという、非常に好不況の激しいビジネスです。工場(ファブ)は非常に資本集約的であるため、人々は工場に投資して大量のキャパシティを構築し、少しでも下降局面があれば過剰設備になってしまうからです。
私たちはそのサイクルを何度も見てきました。今起きているのは2つのことの融合です。1つは、人工知能に対するすべての需要と、それに伴うコンピュートおよびGPU周辺の付随サービスに対する需要が天井知らずであること。もう1つは、2023年に必要だったはずの工場キャパシティの投資サイクルが行われなかったことです。
エネルギーに関しても何が起こるか予測不可能でしたね。データセンターは不動産ではなく、エネルギーがある場所へと向かっています。
風力がある場所などですね。工場を建設するような資本集約的なビジネスでは、エネルギー分野のように過剰建設による好不況のサイクルが起こりがちです。
光ファイバーもそうでしたね。
ええ、過去にも多くの例があります。ある意味で、それは資本主義の美しい側面でもあります。好不況のサイクルがあり、それを乗り越えることができる。第一原理から考えれば、光ファイバーが多すぎる状況になれば、Googleのような企業がすべてを買い上げる機会が生まれるわけです。
好不況のサイクルは多くのことをもたらします。下草を一掃し、生き残り、それを利用できる企業を生み出し、将来のビジネスの種を蒔きます。地中に埋められた光ファイバーが、私たちが毎日映画を見たり、Zoomでコミュニケーションをとったりするためのバックボーンになったように。
人々はこの事実を認識していません。YouTubeの創業者であるチャッド・ハーリーたちは、「ストレージと帯域幅のコストが急速に下がっているから、無料で無制限の動画アップロードを提供できる」と気づいたんです。それ以前は、動画がバズるとサーバーがダウンし、「この人は請求書を支払う必要がある」と表示されていました。出力されるメガビットごとに転送料金が請求されていたからです。
ビジネスモデルは変化し進化します。ムーアの法則や、Jensen Huangがよく語るように、アクセラレーテッド・コンピューティングの分野で起きていることはムーアの法則を凌駕しています。これらすべてが、あなた方2人がYouTubeで世界を変えたような、新しい企業を構築する機会につながるでしょう。
毎分どれだけの動画がアップロードされているかを聞いたとき、論理的には意味がわからないほどの量でした。しかし、サービスに数十億人がいて、そのうち1%や0.1%がアップロードするだけでも、分母が巨大だからすごい量になるんです。
先日、OpenAIのCFOであるSarah Friarと一緒にパネルディスカッションに参加したのですが、彼女は時々とても興味深い情報を発信してくれます。ChatGPT-3が登場した当初、100万トークンのコストは32ドルちょっとだったのが、今では100万トークンで9セントになったそうです。
信じられないようなコスト削減ですね。資本市場と資本主義がどのようにエンジニアリングと競争を煽っているかを示す強力な例です。
今は再帰的(リカーシブ)にもなっています。モデルに対して「もっと効率的になって、コストを下げろ」と指示すれば、「わかりました」と応じますからね。先週末のAndrej Karpathyのプロジェクトを見ましたか?これまで言語モデルやコンピューターサイエンスに関わったことのない一般の人たちが、「この週末に何か再帰的なことをやってみよう」と言い出しているんです。
私が他の創業者たちと話すことの1つは、AIがもたらすのは「オペレーションの障壁を下げる」ということだということです。良いアイデアがあれば、モデルを開いて指示を出し、バイブコーディング(vibe coding)などで、これまで存在しなかったものを創り出すことができます。
これは本当に素晴らしいことです。人間の創造性を制限していた巨大な壁が取り払われ、医療研究から野球カードまで、全く新しい方向性での開発が可能になったのですから。素晴らしいアイデアさえあれば、それが新しいものを創造するための価値ある核になります。80億人の人々に、これまで乗り越えられなかった壁を越えるツールを提供していると考えると、信じられないほどワクワクします。
人類にとって明るい新しい未来ですね。マイケルさん、素晴らしい情報とビジョンを共有していただきありがとうございました。
Perplexityが描く未来:検索から「コンピューター」へ
続いては、PerplexityのCEO、Aravind Srinivasさんをお迎えできることを大変嬉しく思います。
ジェイソン、お招きいただきありがとうございます。
素晴らしいですね。私があなたの製品に恋に落ちた3つの段階についてお話しさせてください。
最初のフェーズは、OpenAIやClaudeなど、使いたい言語モデルを自分で選べるようになったことでした。これは私にとって大きなアンロック(解放)でした。さらにサイドバーでは、初期のYahoo!のように、金融やスポーツの情報がまとめられていました。私のニックネームを入れるとそのライブ版が表示され、株価を調べるとリアルタイムでニュースを要約してくれました。「うわ、この実行力はすごい」と思いましたね。
そこで私は、あなたたちのサービスを2つの異なるモデルへのフロントドア(入り口)にしました。
次に、「Comet」ブラウザが登場しました。「これはすごい、一連の指示を与えられるぞ」と思いました。「私のLinkedInに行って、この会社の人を全員見つけてGoogleスプレッドシートにまとめて」と指示すると、あっという間にやってくれました。あなたたちはこれを一番に実現しましたね。
そしてついここ数週間、私はすっかり「Claude漬け」になってOpenClaw(※おそらくOpenDevinなどのエージェントツールやClaudeの機能群を指す文脈)を使っていたのですが、あなたが「Computer(コンピューター)」という機能をリリースし、それを使い始めました。これがまた本当に素晴らしい。反復的なタスクを処理するのに、AnthropicのClaudeが提供するような作業や、エンジニアが使うような機能と非常に似ています。
これらは会社の進化の過程であり、そういう風に捉えるべきなのでしょうか?Perplexityを今どう見ていますか?あなた方には非常に忠実なファンベースがあり、何億、もしかしたら何十億という収益を上げていると思いますが。ClaudeやOpenAI、Grok、Geminiなど強力なライバルがひしめく中で、Perplexityとはどのような存在なのでしょうか。私にとってはトップ2のツールの1つです。
ありがとうございます。Perplexityは常に、さらなる優位性を求める好奇心旺盛な人々のために構築されてきました。ですから、あなたが私たちのパワーユーザーであることはとても自然なことです。
過去3年半における私たちの共通テーマは「正確さ(Accuracy)」です。Perplexityは最も正確なAIを構築する企業でありたいと考えています。答えを提供するとき、信頼を築くためには正確さが不可欠です。信頼があって初めて、ユーザーは次の質問をしてくれるからです。
正確さを保つために、AIにインターネットへのアクセスを与えるのは素晴らしいアイデアでした。それが「Perplexity Ask」という製品です。
次に、ユーザーがブラウザで行うような作業をAIに任せるとき、正確さを期すためにAIにブラウザへの完全なアクセスを与えることも素晴らしいアイデアでした。それが「エージェンティック・ブラウジング(Agentic Browsing)」、つまり「Comet」です。
そして最後のフェーズとして、コンピューター上でユーザーが行うあらゆる作業をAI自身で行えるように、AIにコンピューターへの完全なアクセスを与えることも素晴らしいアイデアでした。AIが本質的にコンピューターそのものになるということです。
今日のAIができることの「オーケストラ」のようなものです。GPTやClaude、Geminiなどの各AIモデルが持つすべての能力を編成したオーケストラ、それが「Perplexity Computer」です。Computer内で実行されているすべてのサブエージェントは音楽家であり、モデルは本質的に楽器です。世の中には何百ものモデルがあり、コーディングが得意なもの、執筆が得意なもの、画像や動画、音声などのマルチモーダルな視覚合成が得意なものなど、それぞれに専門性があります。
しかし重要なのは最終的な出力、つまり「演奏される音楽」です。それがAIがあなたの代わりにこなす仕事です。それがPerplexity Computerであり、AIそのものがコンピューターなのです。
なるほど。ただ、まだブラウザの中に存在していますよね。デスクトップのルートアクセス権限を与えることは検討していますか?それが次の段階だと感じますが、同時にセキュリティや信頼性の問題も伴います。正確な答えを得ることは信頼を築きますが、ハッキングされたりファイルを削除されたりしないことも重要です。私のWindowsマシンへのルートアクセスについてどう考えていますか?iOSは許可しないでしょうが、Androidなら可能かもしれません。
はい。私たちは「Perplexity Personal Computer」というものを発表しました。これは、Perplexity Computerの信頼性やサーバーサイドの実行能力をすべて取り入れつつ、ローカルのコンピューターと同期させるものです。スマートフォンからでも使用できます。私たちはこれをMac Miniで実現しようとしています。コンピューターをMac Miniと同期させることで、それがローカルサーバーになります。ローカルのプライベートデータに関わるすべてのエージェントのオーケストレーション(調整)ループは、そのMac Mini上のランタイムで実行されます。あなた方のサーバーでも、Anthropicのサーバーでもなく。
その通りです。
必要であれば、ユーザーの許可を得てフロンティアモデルにアクセスすることもできますが、すべてのオーケストレーションはローカルのハードウェアで行われるのですね。
はい。もし非常に複雑で長時間かかるタスクをローカルハードウェアで実行したくない場合は、サーバーサイドのコンピューターに委任することができます。それもユーザー本人だけがアクセスできるものです。このようにして、ローカルとサーバーサイドの完璧なハイブリッド、つまり信頼性の高いハイブリッド環境を提供しようとしています。
それを簡単にできるようにするんですね。1つの実行ファイルをインストールするだけで完了するような。
ええ、「おバカさん向けのOpenClaw」みたいなものです。使い方の勉強も、APIキーの管理も不要です。100の異なるサービス間で別々の請求を管理する必要もありません。何にアクセス権を与えるかを考えるだけで、あとは私たちがすべて処理します。
Steve Jobsのようなエンドツーエンドの統合アプローチですね。
デスクトップ回帰とローカルモデルの可能性
ローカルモデルについてはどうお考えですか?私はMac StudioでKimi 2.5を動かし始めました。ClaudeやGemini、Grokほど良くはありませんが、おそらく80%程度のことは無料でできます。Claudeなどの料金が高くなってきたことを考えると、これはかなり魅力的です。
あなたもMac Studioを持っていて、自分で試しているのですね。
はい。それと、DellとNVIDIAが巨大なワークステーションを発表したのを見ましたか?750GBのRAMを搭載しているそうです。デスクトップが再びワークステーションやサーバーの地位に戻ることについてどう思いますか?
非常に有望だと思います。私の予測では、最初はサブエージェントとして始まるでしょう。納税申告書、個人の写真、メール、カレンダー、個人的なメモなど、ローカルアプリにあるデータについては、それにアクセスするモデルはプライバシーを重視するならローカルハードウェア上で実行されるようになります。
一方で、すでにサーバー側にあるデータ(例えばGoogleカレンダーやGmailなど)にアクセスするより複雑な処理は、AIランタイムがコネクターを通じてアクセスし、サーバーサイドで実行できます。データはデバイス上にはないわけですから。このようなハイブリッドなオーケストレーションが私たちの目指す方向です。完全なローカルか完全なサーバーかという二項対立ではなく、選択の問題です。
スマートフォンを使っているとき、計算負荷がどのサーバーで処理されているかは気にしませんよね。どうせスマートフォン上では実行できないのですから。チップはMac StudioやMac Mini、あるいはサーバー上に存在する必要があります。
あるいは今後発売される新しいDellのワークステーションですね。月額500ドルのClaudeの料金を節約できるなら、強力なデスクトップに1万ドルを使うというアイデアは人々に魅力的だと思います。プライバシーが守られ、個人のデータで言語モデルを学習させずに済むという利点もありますし。
はい。いずれは冷蔵庫やインターネットモデムを買うような感覚になるでしょう。コストは下がっていきます。お金の無駄には感じないはずです。すべての家庭には、家を管理する多くのセンサーがあり、それらもこのオーケストレーションループの一部になります。
スマートフォンに何か話しかけるだけで、家全体をコントロールできるようになる。それが皆が抱く夢であり、そのすべてのオーケストレーションはローカルのハードウェア上で問題なく実行できます。
このワークステーションのオペレーティングシステム(OS)はどうなると思いますか?
AIがOSになります。従来のOSではプログラム的に実行していましたが、今後は具体的な指示ではなく「目標」から始めます。例えば、「私のすべてのポッドキャストの書き起こしを取り込み、ポッドキャストの前後での株価を追跡し、それをマグニフィセント・セブン(大手IT7社)ごとに時間軸でグラフ化するウェブサイトを作って」といった高レベルな目標です。
しかし、その内部ではファイルシステム、コードのサンドボックス、インターネットへのアクセスなどが個別に実行されています。モデル、システム、ファイル、コネクターがすべて統合されたもの、それがOSとして機能すると考えています。
目標という抽象度の高いレベルで操作するわけですね。いずれは独自のOSになる必要があると思いますか?
そうなるかもしれません。「自分のPerplexity Computerが常に動いている」と考えるようになるでしょう。現在、すべてのサーバーサイドコンピューターはLinuxマシンです。Marc Andreessenが私たちのリリースの直後にツイートしていましたが、「結局、Linuxコンピューターが正しいアイデアだった。デスクトップLinuxがようやく機能するようになる」と。
確かにLinuxは安定していてカスタマイズ可能ですし、Appleのような制限や、Microsoftのようなハッカーの標的になるリスクも少ないですね。堅牢なものを構築すれば、Linuxが最終的な勝者になるかもしれません。フロントエンドは必要ないかもしれませんね。
それがポイントです。スマートフォンからLinuxマシンにアクセスすればいいんです。iOSでもAndroidでも構いません。実際に価値のあるランタイムはサーバー上のLinuxで動いているわけですから。
複数モデルの統合とAIのオーケストレーション
消費者向け企業として大成功を収めていますが、現在、企業もComputerを利用し始めていますね。実は先週、私はバックオフィスの社員2人に「OpenClawでの作業をやめて、ベンチャーファームのバックオフィス業務の自動化をPerplexityだけを使ってやってくれ」と指示しました。
彼らは「Perplexity Computerですか?Slackとうまく連携できないんですよね」と言ったので、「そのうちできるようになるよ。Aravindに会ったら話しておくから」と答えました。強力なSlackコネクターが必要ですね。
すでにリリースされていますよ。
そうですか、素晴らしい。
Computerは現在、エンタープライズプランのSlackワークスペースに追加できるSlackボットとして存在しています。私たちの会社全体もそのように機能していて、人々は他の人よりもSlack上のComputerに多く話しかけています。
私たちの最初の試みではレポートを送るだけでしたが、インタラクティブではありませんでした。完璧ですね。これであなたの会社は、消費者向けの大成功と、企業向けの2つの方向で進んでいるわけですね。消費者向け製品は毎月何人が使っていますか?
数千万人です。
数千万人ですか。GoogleやYahooの消費者向けビジネスの軌跡とよく似ていますね。企業側はどうですか?
数千社が利用しており、私たちにとって最も成長が早いビジネスです。収益面では消費者向けよりも早く成長しています。Computerのような機能は全く新しい可能性を解き放ちます。例えば、エンタープライズの最上位ティアである「エンタープライズMax」の顧客に対して、1億ドル以上のコスト削減を実現しました。
その料金プランについて教えてください。
2つのティアがあります。月額40ドルの「エンタープライズPro」と、月額400ドルの「エンタープライズMax」です。Computerでクレジットを使い切った後は、使用したトークン分を支払う仕組みです。
月額400ドル、年間5,000ドルのプランで利益は出ていますか?それとも今はユーザーが使いすぎている状態ですか?
Perplexityの特徴の1つは、他のラッパー(APIをラップしただけの)企業とは異なり、私たちの得る収益はすべてプラスの粗利益を生み出しているということです。単にトークンを転売しているわけではありません。私たちの収益の大部分はサブスクリプションによる継続的なものですし、複数の異なるモデルを経由してルーティングしているため、トークンへの支出効率が非常に高いのです。
RAG(検索拡張生成)やオーケストレーション、検索機能といった私たちのアドバンテージがあるため、モデルのコンテキストウィンドウを無駄に大きくする必要がありません。その結果、すべての収益でプラスの粗利益を出しています。会社全体としてはまだ黒字化していませんが、そこに向けて取り組んでいます。
あなたには会社を売却する機会もありました。Appleなどの企業が「素晴らしいチームだ」と興味を持っていたという噂もあります。現在チームは何人ですか?
約400人です。
非常に羨望の的となるチームですね。消費者向けも企業向けも理解していて、プロダクト主導の組織です。買収の申し出を断ったとのことですが、この分野の競争は激化しています。Sam Altmanが1000億ドルを調達し、Elon Muskが宇宙にデータセンターを置きSpaceXやTwitter(X)と統合させ、Googleが無限の資金をつぎ込み、Amazonも参入しています。Metaも消費者向けユースケースはまだ手探りかもしれませんが、いずれコピーしてくるでしょう。
この状況をどう見ていますか?チェスで世界トップ10のプレイヤーと毎日戦うような難易度ですが、長期的かつ独立した企業としてどう考えているのでしょうか。なぜ買収の申し出を受けなかったのですか?
先ほど挙げられた企業が持っていない私たちの強みは、「マルチモデル・オーケストレーション」です。私たちはスイスのような永世中立国です。特定の馬(モデル)に賭ける必要がありません。GPTが勝とうが、Geminiが勝とうが、ClaudeやLLaMAが勝とうが、あるいはオープンソースモデルが勝とうが、私たちには関係ありません。
KimiやDeepSeekなどもサービスに組み込んでいますね。
Kimi、Nemotron、そして水面下ではAlibabaのQwenもかなり使われています。各モデルの最高の部分を取り入れ、ユーザーに可能な限りのオーケストレーションを提供するという利点は、あなたが挙げたどの企業にも真似できないことだと思います。
彼らはやろうともしないでしょうね。自社のデータセンターやインフラ投資が最高のモデルを生み出せなかったと認めることになりますから。
AnthropicのCEOであるDario Amodeiも最近のインタビューで語っていましたが、モデルは「専門化」しつつあります。昨年初めにはモデルがコモディティ化すると考えられていましたが、昨年末にかけて専門化が進み始めました。
コーディング分野でも、Claude 3.5 Sonnet(※文脈からClaude CodeやCodexなどを指す)などはそれぞれ異なる能力を持っています。私たちのiOSエンジニアはCodex(あるいは特定のコーディングモデル)を好んで使いますが、バックエンドエンジニアはClaudeのコーディング機能を好みます。
コーディングという専門分野の中でさえ、各モデルには独自の強みがあり、それ以外のユースケースでも得意不得意が分かれます。つまり、特定のモデルに依存しない「オーケストラの指揮者」が、素晴らしい名前の企業たちには提供できない非常にユニークな価値を顧客に提供することで勝つことができるのです。
彼らからトークンを卸売で買い、それを顧客に請求する形になるのですか?
オーケストレーションに関する処理は私たちがすべて引き受けます。異なるモデル間でトークンを管理する必要はありません。ユーザーが複数のAIのアカウントをPerplexityに認証させて使っている場合でも、私たちはユーザーの代わりにモデルに直接アクセスします。ユーザーが得るのはPerplexityのオーケストレーション、つまり「ハーネス(制御システム)」です。
モデルが専門化していく中で、各モデルの最高の部分を引き出せる優れたハーネスを構築する方法を知っている存在の価値が高まります。
プロンプトごとに最適なモデルへの自動ルーティングが行われるのですか、それともユーザーがドロップダウンから選ぶ必要がありますか?
各プロンプトに最適なモデルを自動でルーティングしますが、ユーザーが好きなモデルを自由に選べる柔軟性も提供しています。
Jensen Huangが「同じプロンプトを5つの異なるAIに入力して、それぞれの回答を見比べる」と言っていましたが、皆やっていますよね。でも結局、人間の頭を使ってどれを信じるか考えなければなりません。5人の医者が診断しているようなものです。
まさにその通りです。だから「モデル会議(Model Council)」という機能を構築しました。これはPerplexityのモードの1つで、各モデルの回答を単に提示するだけでなく、彼らがどこで同意し、どこで意見が分かれ、どのようなニュアンスの違いがあるのかを正確に教えてくれます。
そんな機能があったとは知りませんでした。
ありますよ。
製品リリースのペースがすごいですね。どこでそのスピードを学び、製品出荷に対する哲学はどのようなものですか?
私たちの哲学は「スピードが最大の武器」ということです。大企業にはできないスピードで動き、顧客にサービスを提供することです。品質とスピード、そして信頼性を同時に維持するのは非常に難しいことです。
Appleなどは信頼を失うことを恐れてリリースに時間がかかりますし、官僚的な企業はリリースする機能のメンテナンスもおろそかになります。ですから、小規模であることの強みを活かしています。
昨年末頃から、AIコーディングツールのおかげでコードの出荷がはるかに速くなりました。それがComputerを構築した理由の1つでもあります。今ではエンジニア以外のメンバーも、Slackボットに指示を出してバグを修正し、コードを出荷しています。イテレーション(反復改善)のスピードが指数関数的に上がっています。
私が完全にClaudeに魅了された瞬間がありました。自分のネットワークを構築しようとして、「日本でディナーを共にした20人の知り合いがいる。彼らが誰と繋がっているか知りたいから、LinkedInなどを調べてマインドマップを作って。次回の出張でそのつながりの人たちに会いたい」と指示しました。
結果が出て「どこに保存しますか?」と聞かれたので「どこにできるの?」と返すと、「Googleスプレッドシート、Notion、PDF、CSV、あるいは専用のCRM(顧客管理システム)を作りましょうか?」と提案されました。「じゃあCRMを作って」と頼んだら、本当に作ってくれたんです。AIと一緒に仕事をしていて、エージェントが「オーダーメイドのソフトウェアを作りますよ」と言ってくれる経験をした人はまだ非常に少ないと思います。
Computerの一部として、スプレッドシートが必要なときにExcelを開くのではなく、その場でスプレッドシートを作り出してしまうような世界が見えていますか?
はい。明日取締役会があるのですが、Computerがそのメモを作成しました。また、パートナーシップの提案を行うための会議がありましたが、以前ならデザインチームがプレゼン資料を丸ごと作っていたところを、Computerが一発で作成しました。
ジャーナリストとの記者会見の際も、以前は広報担当者が何を話すべきかのメモをくれていましたが、Computerがそれも一発で作ってくれました。文脈の理解が非常に優れているんです。前回のやり取りや、以前の会議の資料などもすべて記憶しています。
それはいつ頃から可能になったのですか?
Claude 3.5 Sonnet(※書き起こしではOpus 45となっているが文脈的にモデルのバージョン)あたりが転換点だったと思います。モデルがオーケストレーションや推論、ツールの呼び出しに驚くほど長け始めました。
Claudeのコード機能は、「すべてがサンドボックスやコンソール、ターミナルの内部で、コマンドラインツールとして実行できる」という新しいアイデアをAIにもたらしました。グラフィカルなUIすら必要ありません。ファイルやサブエージェント、スキルを中心に整理されると、モデルはコンテキスト(文脈)の処理に非常に優れた能力を発揮し始めました。必要なものを必要なときにコンテキストに入れ、不要になれば捨てる。そのおかげで、非常に長いオーケストレーションタスクをこなせるようになりました。
すごいですね。私はこのポッドキャスト(This Week in Startups)やAll-Inのすべての過去エピソードの書き起こしを処理させました。「全エピソードをダウンロードして、番組内で言及された上場企業のヒストグラムを作り、時系列でチャート化して、株価への影響と私たちが語ったセンチメント(感情)を分析して」と指示しました。
すると、「あなたたちの発言で株価が動いているのでは?Googleについてよく話した直後にGoogleの株価が上がっています」と明確に指摘してきました。さらに、すべての発言のタイムスタンプまで提示してくれたので、クリックして実際にその瞬間の音声を聞くこともできました。
昔ならリサーチャーに週10時間、1週間かけてやらせていたようなプロジェクトです。リサーチ作業においても同じことを経験しています。「この人が以前どこで働いていて、競合は誰で…」といったメガプロンプトを作り、5年前、10年前のポッドキャストの発言を探させます。人間がやったら何倍も時間がかかる作業をあっという間にこなしてくれます。ここ半年で本当に異次元の進化を遂げましたね。
次の半年はどうなると思いますか?
私たちの夢は、ビジネスを可能な限り自律的に運営できるよう支援することです。「AIが1人で10億ドル規模の企業を作れるようになる」とよく言われますが、実際に新たなGDPを生み出しているわけではありません。
私たちが目指すのは、副収入のためにUberの運転手をしているような小規模ビジネスの人たちが、Mac Miniを買ってPerplexity Personal Computerをセットアップし、その上でビジネスを運営して、実際に年間数十万ドル、あるいは数百万ドルを稼げるようにすることです。
InstagramやGoogleでの広告キャンペーンをComputerに運用させ、SEOツールと連携して新規ユーザーを見つけ、Stripeで決済し、カスタマーサポートを自動化する。すべてがうまく回るようになれば、ナパバレーでワインを飲みながら過ごすこともできます。それが私たちの夢であり、まだそこには到達していませんが、その大変な作業を私たちがやり遂げたいと考えています。
素晴らしいビジョンです。かつてのスタートアップは、オフィスを探し、サーバーを立て、人事やPRの担当者を雇うなど、チェックリストが山ほどありました。今、数百万ドルを調達した若い創業者の3人チームに「誰を雇うの?」と聞くと、「誰も雇う必要がないかもしれません」と答えます。
採用活動自体も、広告を出し、候補者をランク付けし、上位10人にメールで質問を送り、最後に残った2人と面接するまでをすべてAIがやってくれます。リクルーターの仕事が完全に抽象化されているんです。Computerのようなツールがこれをさらに加速させるでしょう。
まだまだやるべきことはたくさんあります。コネクターや特定のワークフローの構築などです。ユーザーは長いプロンプトの書き方を学びたいわけではありません。素早く、自律的に、設定したらあとはお任せという状態にする必要があります。
雇用が奪われることについてはどう考えていますか?あなたは個人が100万ドルの収益を上げるツールを作っている一方で、それは雇用を不要にするツールでもあります。私はこの状況を非常にポジティブに捉えつつも、時々「多くの人が急速に仕事を失うのでは」と恐ろしくなることがあります。
アメリカは常にアントレプレナーシップ(起業家精神)の国でした。ヘンリー・フォードが工場を作り、人々を箱に押し込めるような仕事をもたらしましたが、現実として多くの人は今の自分の仕事を楽しんでおらず、嫌々やっています。
これらのツールを使い、学んで、自分のミニビジネスを始めるという新しい可能性が開かれています。それが生活のニーズを満たし、高いQOLとワークライフバランス、そして真のオーナーシップや情熱をもたらしてくれるのであれば、一時的な雇用の喪失があったとしても、私たちはその輝かしい未来を楽しみになすべきだと思います。
全く同感です。受動的ではなく、回復力があり、リソースフルな個人であることが求められますね。
今日、iOS向けのCometがリリースされました。私はCometのスーパーファンです。以前メールでライセンスをお願いしたとき、快く送ってくれました。あれは本当にビジネスを変えてくれました。
iOSでは何ができるようになり、それがComputerとどうつながるのでしょうか?
ComputerはすでにPerplexityアプリに搭載されており、トグルを切り替えるだけで使い始められます。Cometの独自性は「ブラウザを制御できる」という点にあります。ブラウザ自体がComputerにとってのツールになるのです。
すべての世界がコマンドライン(CLI)やツールを中心に整理されるまでは、タブを開く、フォームに入力する、クリックする、アップロードするなど、Webブラウザ上で手動で行わなければならないタスクがまだたくさんあります。それを自動化するには、ブラウザをネイティブに制御できるAIが必要です。それがCometであり、サーバーサイドでブラウザ上でタスクを実行できるのは、Perplexity独自の強みです。
私の夢は、Androidアプリが私のスマホをルート化して、すべてを制御してくれることです。今直面している壁の1つに、RedditやLinkedInのようなウェブサイトがボットからのアクセスに神経質になっているという問題があります。彼らとPerplexityのようなツールとの間で、何か解決策はあるのでしょうか?私はユーザーとして喜んで追加料金を払います。
特定の企業についてお話しすることはできませんが、私たちは誰とでも協力したいと思っています。Cometのアイデアは、ユーザーに自分で物事を設定する柔軟性を与えることです。誰かが公式APIを提供してくれるなら、それをComputerの一部として組み込む用意は常にあります。
RedditやLinkedInが、月額料金を払っているユーザーに対して、制限付きで安全なAIのアクセスを許可してくれれば、お互いにとってWin-Winな収益源になると思うのですが。
私もそう思います。根本的にユーザーに選択肢を与え、ビジネスとユーザーの双方に利益をもたらす形にするのが、世界の向かうべき方向だと思います。
Aravindさん、本当に素晴らしい製品です。皆さんもぜひComputerを学び、Cometブラウザを使ってみてください。本日はありがとうございました。
Mistral AIの戦略:オープンソースとエンタープライズの融合
続いて、Mistral AIのCEO、Arthur Menschさんをお迎えします。調子はどうですか?
最高です。お招きいただきありがとうございます。
さて、NVIDIAのカンファレンスで大きな発表がありました。NVIDIAと協力してモデルを構築し、オープンソース化するとのことですが、どのような内容でしょうか?
次世代のフロンティアモデルをNVIDIAと共にトレーニングするという発表です。これは18ヶ月前にMLMOで行ったことの延長にあります。私たちの目的は、最高品質のオープンソースモデルを生み出すことです。そうすることで、私たちがエンタープライズ顧客向けに提供している「Forge」などの製品を通じて、エンジニアリング、物理学、科学、あるいは政府向けの特定言語の強化など、顧客のニーズに合わせたモデルの専門化・カスタマイズが可能になるからです。
Mistralはフランスを拠点とするヨーロッパを代表するAI企業ですが、ヨーロッパで大規模言語モデルを構築し、会社を運営するのはどのような感じですか?プライバシー保護の規制など、アメリカとは異なる課題があると思いますが。
ビジネスの25%、そして研究者の25%はアメリカにいます。ですから私もフランスだけでなく、アメリカやイギリス、シンガポールなどで多くの時間を過ごしています。もちろん市場は異なります。言語の課題もありますし、ヨーロッパでは製造業が占める割合がアメリカよりも大きいです。
私たちの強みは、テクノロジーの導入に遅れをとっているヨーロッパ企業と協力し、彼らが飛躍的に進歩するのを支援してきたことです。「Forge」やエージェントを展開できる「Studio」といった製品を通じて、エンドツーエンドの自動化を提供しています。
そして今日発表したように、Forgeは現在アメリカの顧客にも利用されています。彼らは金融サービスなどに特化したポストトレーニングのニーズを持って私たちのところにやってきます。私たちは製品を提供し、モデルを持ち込んで専門化させることができるのです。
オープンモデルとデータプライバシーの課題
ヘルスケアや金融、エンジニアリングといった専門化・垂直化されたモデルが勝つと考えていますか?それとも、すべてをこなす汎用モデルが勝つと思いますか?
オーケストレーション部分を担うには汎用モデルが必要です。しかし、企業は大量の知的財産(IP)や、工場などの物理システムから得られる膨大なデータを持っています。そうしたデータをクローズドなモデルに接続するのは簡単ではありません。
オープンモデルであれば、新しいパラメータを追加したり、より深いカスタマイズを行ったりすることが可能です。また、私たちはモデル側だけでなく、オーケストレーション側でも作業を行います。各分野の専門家と連携してニーズを理解し、モデルだけでなく上位のハーネスも変更して、完全に顧客のニーズに合わせたビジネスアプリケーションを構築します。
最終的に、オープンソーステクノロジーの上に構築することは、コスト削減につながり、コントロールを強化する方法だと信じています。任意のクラウドや自社ハードウェア、エッジデバイスにもデプロイできます。ASMLのような重工業メーカーも、自社のデータを活用して自社専用のモデルを構築できるため、私たちと協力することで利益を得ています。
なるほど。専門家を起用してデータをトレーニングし、モデルを洗練させるビジネスは非常に大きくなっていますね。特定の業界の顧客と協力する場合、そのトレーニングデータやノウハウが競合他社に渡らないように、どのようにデータを隔離(サイロ化)しているのでしょうか?
データの隔離は非常に重要です。私たちはそれを「ポータブル・プラットフォーム」によって解決しています。私たちのテクノロジー(トレーニングツールやデータ処理ツールのセット)は、顧客のインフラ上にそのままデプロイできます。そのため、セキュリティの観点から見ると、データがMistral側に流れてくることは一切なく、すべて顧客の環境内に留まります。
テクノロジーをデプロイした後、私たちのフォワード・デプロイメント・エンジニアや科学者(皆PhDを持っています)を派遣します。彼らが現場の専門家と時間を過ごし、例えば「どのように画像の欠陥を検出するのか」を理解した上で、そのタスクを解決するモデルをトレーニングするためにどんなデータが必要かを導き出します。
テクノロジーと少数の科学者を派遣し、専門知識の移転を行い、最終的には私たちのチームがいなくても顧客自身でモデルの再トレーニングができるようにします。このデータ隔離と知識移転の組み合わせが私たちを非常にユニークな存在にしており、ミッションクリティカルなユースケースに対応することを可能にしています。
インターネット上の公開データはほぼ枯渇しつつあり、これからは合成データ(シンセティック・データ)や専門家の知識を活用する時代に入っているようです。合成データの有効性についてどう考えていますか?
合成データは、モデルの「ウォームアップ」として非常に効率的な方法です。大規模モデルを使って大量の合成データを生成し、それを小規模モデルのトレーニングに使う(モデルの圧縮)ことができます。
しかし最終的には、人間のシグナルが必要です。人間のシグナルは専門家からのフィードバックが必要なためコストがかかります。合成データは効率的なトレーニング手段ですが、それだけでは十分ではなく、人間が作成したデータと組み合わせる必要があります。
OpenClawがリリースされてからの開発者や創業者の熱狂的な反応を見て、長年この分野に取り組んできたエグゼクティブとしてどう感じましたか?
企業がAIで利益を得るためには、プロセス全体を自動化する必要があるという私たちが顧客と取り組んできたことと深く共鳴しました。
しかし、企業がプロセス全体を自動化しようとしたとき、OpenClawだけでは不十分です。データのガバナンス問題があり、実行中のプロセスを監視(オブザーバビリティ)し、制御することができないからです。例えばHSBCのような顧客がKYC(本人確認)プロセスを実行する場合、常に同じ動作を保証できる決定論的なゲートが必要です。
一方で、OpenClawが個人に与えた自律性は、企業に対して「適切なコントロールプレーン、サンドボックス、データソースへの接続、アクセス制御を設定すれば、従業員に代わってエージェントがタスクをこなす力を解放できる」ということを示しました。ただし、プラットフォーム上でそれを機能させなければ、安心して眠ることはできません。
私も自分のエージェントにGoogle WorkspaceやNotionなどへのルートアクセスを与えたとき、会社のすべての情報を要約できてしまうことに気づき、「これは権限管理をしっかりしないと、給与情報や人事評価などの機密データが全員に見えてしまう」と恐ろしくなりました。
その通りです。企業データは、全員がアクセスできる単一のシステムにすべて放り込んでいいものではありません。データの中に何が含まれているかを理解し、誰にアクセスを許可すべきかを判断するセマンティックなレイヤーが必要です。
私たちはそれを「コンテキスト・エンジン」と呼んでいます。データの所在とメタデータをマッピングし、アクセス権限を制御します。これを行うには、ITシステム全体の接続方法を根本的に再考する必要があります。さらに、エージェントが情報ソースに直接アクセスするようになれば、下から上へ情報を伝達するだけの管理職は不要になるかもしれません。ITの課題解決と同時に、組織やマネジメントのあり方、顧客サービス部門の構造など、大きな変革が求められています。
Arthurさん、飛行機の時間ですね。お会いできて光栄でした。Mistralの今後の成功を祈っています。
ありがとうございます。
IRENが挑むインフラ構築:データセンターと再生可能エネルギー
最後は、IRENの共同創業者兼共同CEOのDaniel Robertsさんです。同社は上場企業であり、元々はビットコインマイニングからスタートしましたね。番組へようこそ。
Jason、お招きいただきありがとうございます。
7、8年前にシドニーでご兄弟と一緒に事業を始められ、ビットコインに早くから参入しました。マイナーたちがデータセンターを必要としていたわけですね。
概ねその通りです。デジタル世界が爆発的に成長する一方で、現実世界のインフラがいつか追いつかなくなるという仮説がありました。そこで、大規模なデータセンターの構築に乗り出したのです。
最初のユースケースはビットコインマイニングでしたが、シード投資家には「これをプラットフォームの立ち上げとキャッシュフロー創出に使い、いずれより高度で価値のあるユースケースが現れたらそちらに移行する」と伝えていました。そして今、AIの時代が到来し、私たちはビットコイン用の機器をAIチップに置き換えているところです。
ビットコインのマイナーから、AI向けコンピュートへの需要のシフトをいつ頃から感じ始めましたか?
2020年にDellとMOUを結んだのが最初の兆しでしたが、振り返ると少し早すぎました。そのため一度ビットコインに戻って基盤を作り続けました。明確に需要がエスカレートし始めたのは、約2年前からです。それ以来、月を追うごとに需要は増え続けています。
テキサスの広大な土地とデータセンター開発
あなたは非常に早い段階でアメリカのデータセンタースペースを検討していましたね。
はい。私たちはデータセンターを自社で開発しています。土地を見つけ、許可を取り、電力網の接続を申請します。私たちがやっていた規模は、当時としては驚異的でした。4年前にテキサスの旗艦サイトで750メガワットという規模は前代未聞でした。砂漠の真ん中に巨大なデータセンターを建てている私たちを見て、伝統的なデータセンター業界の人々は「一体何をやっているんだ?」と言っていました。
しかし私たちは「未来のデジタル化とハイパフォーマンスコンピューティングを信じている」と言い続け、それが今日、見事に実を結んでいます。
Microsoftが主要なパートナーですね。
はい、初期からのパートナーです。昨年末に彼らと97億ドルの契約を結びましたが、番組前にもお話ししたように、それは私たちのキャパシティのわずか5%に過ぎません。現在は非常に忙しくしています。
データセンターを構築する際、今や最大の課題はGPUの数ではなく「電力」ですよね。
業界の多くにとってはそうでしょう。しかし私たちは8年前から土地と電力を確保し続けてきたため、その制約はありません。現在4.5ギガワットの電力を確保しています。これはベイエリア全体が年間に消費する電力量とほぼ同じです。
私たちにとってのハードルは、「コンピュートを利用可能にするまでの時間(Time to Compute)」です。これは業界全体の問題になりつつあります。西テキサスの砂漠に職人を集め、基礎を作り、水冷システムを構築するといった、過酷な物理的労働が必要です。デジタルの指数関数的な需要に対して、現実世界でインフラを建設して応えるのは本当に大変な作業です。
そこには何千人もの人々がやってくるわけですよね。小さな町がどう変わるのですか?
私たちは初日から「地元で採用し、地元コミュニティを支援する」という方針を持っています。遊び場の整備や消防署の支援など、地域社会への助成金は今年で累計100万ドルに達します。地元で職人が見つからなければ、半径20マイルずつ範囲を広げて採用していきます。
私たちがデータセンターを配置するのは、重厚な電力インフラがある場所です。そうした場所は、かつて古い製造業や産業が撤退した跡地であることが多いのです。私たちはそこに入り込み、既存のインフラを活用し、地元の労働力を再雇用・再教育して、データセンターという新しい産業を町にもたらしています。
AIとエネルギーの未来:原発と新たなパラダイム
エネルギー源についてお聞きします。100%再生可能エネルギーを使用しているとのことですが、どうやって実現しているのですか?
カナダのブリティッシュコロンビア州では水力、西テキサスでは風力と太陽光を利用しています。西テキサスには約45〜50ギガワットの風力と太陽光の発電能力がありますが、ダラスやヒューストンなどの消費地へ送電する網の容量は12ギガワットしかありません。
つまり、大量の電力が余っているのです。私たちはその低コストで余剰な再生可能エネルギーの源流にデータセンターを置き、それをデジタルのコモディティ(計算力)に変換し、トークンとして光の速さで輸出しているのです。
素晴らしいアービトラージ(裁定取引)ですね。では、風が吹かない日や太陽が出ない日はどう対応しているのですか?バッテリーですか?
私たちの代わりに電力会社が対応してくれます。だからこそ、電力網への接続権は非常に希少で価値が高いのです。一度接続権を得れば、電力会社がすべての変動を吸収し、24時間365日の安定した電力を保証してくれます。
なるほど。需要がスローダウンする気配はありますか?
全くありません。需要は右肩上がりで、業界全体がキャパシティを満たせない状態です。稼働していないGPUなど、世界のどこにも存在しません。ソフトウェアの効率化が進み、コンピュートが10倍になれば、画像の生成時間は数秒になります。そうなれば、人々はさらに多くの画像を生成するでしょう。ジェボンズのパラドックス(効率化が需要の増大を招く)ですね。需要は自己増殖していくと確信しています。
原子力エネルギーについてはどうお考えですか?小型モジュール炉(SMR)など、新しいパラダイムが来ています。
絶対に必要な議論だと思います。稼働までに10年以上かかるかもしれませんが、今こそ政策を整え、資本を動員し始めるべき時です。現在、原発の近くにデータセンターを建設しているわけではありませんが、動向は注視しています。
もしクリーンな次世代の原子力発電がデータセンターの近くに配置できるようになれば、分散型コンピュートが可能になり、アメリカの競争優位性はさらに高まります。人類の進歩とエネルギー消費の相関関係は非常に高いですから。
最後に、データセンターから消費者へのデータ転送に関するレイテンシ(遅延)の問題はどうですか?
それは私たちが最初に打ち破らなければならなかった神話の1つです。「データセンターは大都市の近くになければならない」と言われていました。しかしテキサスの場合、地下には膨大な光ファイバーが張り巡らされています。西テキサスの砂漠からダラスの巨大な通信ハブまでのラウンドトリップ(往復)レイテンシはわずか6ミリ秒です。1秒の1000分の6ですから、実質的に隣にいるのと同じで、全く問題になりません。
素晴らしいお話をありがとうございました。IRENの今後のさらなる成功をお祈りしています。採用も積極的に行っているとのことですので、皆さんもぜひウェブサイトをチェックしてみてください。本日はお時間をいただきありがとうございました。


コメント