DecartのリアルタイムAIは兆円ビジネスになるのか?

AI動画
この記事は約18分で読めます。

この動画では、デジタル世界を生成するAIモデルを開発するスタートアップDecartの共同創設者兼CEOであるディーン・レールスドルフがForbesの記者とのインタビューで、リアルタイム動画生成技術について語っている。同社が開発したMirageは世界初のリアルタイム動画モデルで、ライブ映像を瞬時に任意の世界観に変換できる技術である。従来のAI動画生成が数十秒から数分かかるのに対し、40-50ミリ秒という超低遅延でリアルタイム変換を実現している。宿題以外でAIを使う用途を明確にする企業が次の兆円企業になるという独自の視点を示し、エンターテインメント分野でのAI活用の可能性について論じている。

Will Decart's Real-Time AI Become A Trillion-Dollar Business?
Forbes Assistant Managing Editor Katharine Schwab speaks with Decart CEO, Dean Leitersdorf, about how the startup's real...

Decartのリアルタイム動画技術への挑戦

僕が思うには、もしアメリカのどこかの子どもとか、ヨーロッパのどこかの子どもとか、世界のどこかの子どもに「ChatGPTって何?」って聞いたら、「宿題するのに使うやつや」って答えるやろうな。でも「宿題してへん時にどんなAI使う?」って聞いたら、「うーん、宿題してへん時のAIって何やろ?わからへん」って答えが返ってくるんちゃうかな。

これが兆円レベルの質問やねん。この答えが来年中には出るで。誰かがこの答えを出すんや。もしその答えがDecartやったら、Decartは兆円企業になるってことや。

こんにちは、Forbesでテクノロジーをカバーしてるアシスタント・マネージング・エディターのキャサリン・シュワブです。今日はDecartの共同創設者兼CEOのディーン・レールスドルフさんと一緒にお話しできて、とても楽しみにしています。Decartはデジタル世界を生成するAIモデルを構築している会社です。ディーンさん、ようこそ。参加していただきありがとうございます。

キャサリンさん、呼んでくれてありがとう。きっと楽しい旅になるで。

もうそれがよくわかります。まず高レベルな話から始めましょう。デジタル世界を生成できるAIモデルを構築するというのはどういう意味ですか?Decartでは何を構築しているのですか?

AIはこの3年間で僕らの生活を完全に変えてしもた。最初はチャットボットが「何かを知る」とか「質問する」っていうことの意味を完全に変えたんや。

そしてこの1年間、僕らはみんなAI動画が僕らのフィードを完全に支配するのを見てきたやろ。TikTokやInstagramのフィードがAI生成の猫動画まみれになってるんや。

今僕らが作ろうとしてるのは、AI動画とAI音声を使って人々がクリエイティブになれる、全く新しい体験なんや。僕らが知ってるプラットフォームでひたすらスクロールするんとは違う、何か別のものを感じさせてくれるやつな。

チャットボットがオンラインで情報を見つけたり作ったりすることの意味を完全に変えたように、それは単により良い検索を作っただけやない、全く新しい体験を作ったんや。宿題してへん時、仕事や他の責任を負ってへん時に、僕らを違うように感じさせる新しいものって何やろう?ただクリエイティブで楽しくて、終わりのない絶望的なスクロールやないもの。

リアルタイム動画変換技術「Mirage」の実用例

なるほど、それはとても高レベルで概念的ですね。実際の具体的な観点で、今何を構築しているのですか?

例を挙げるな。僕らは数週間前にMirageをローンチしたんや。Mirageでできることは、mirage.thecart.aiで君も確認できるけど、任意の動画ストリーム、カメラでも画面共有でも、それを任意の別世界に変換できるんや。

このZoom通話を、Zoom通話やなくて、僕が『アナと雪の女王』の世界にいて君が『スター・ウォーズ』の世界にいるようにできるんや。僕の想像の中にあるものを、君に直接見せることができるんやで。

このシリーズで最初にリリースしたモデルの一つが、11月頃のデモやったんやけど、AIによって完全に生成された仮想世界全体をシミュレートして、完全にAIで生成されたゲームをプレイできるっていうものやった。

数週間前にリリースしたものは、現実の環境を取って、想像できる任意の次元にキャストできるんや。まだ超初期段階やけど、このモデルの上に構築して、目の前で見てるものを想像力で変える、そんなローンチが今後数週間で控えてるで。

ユーザーがどのように使っているか、どう遊んでいるかの例を教えてもらえますか?

超心を打つことが起きてるんや。みんなMirageを現実世界に適用するのが好きなんやて。

ほうきを持って殴り合いしてる人らがいて、MirageでStar Warsフィルターを適用したら、全部が超クールなライトセーバー戦闘に変わるんや。

家の中を走り回ってる人ら、大体子どもらやけど、Minecraftのブロック調フィルターを使って家全体をMinecraftに変えて、家具を殴って壊れるかどうか確認してるんや。今まで表現できへんかった、全く新しい没入型体験にみんなが飛び込めるんやで。

つまり、Zoomで誰かと話してる時に、ライブ動画にこのフィルターを適用できるってことですね?FaceTimeとかでも。そういうことですか?

まさにその通りや。Mirageの以前のバージョンでは、例えばZoomでもFaceTime通話でも、ライブ動画ストリームを取って想像できる任意のフィルターを適用できるんや。

これは数週間前にリリースした新しい技術によって可能になったんや。基本的にリアルタイム動画モデルができるんやで。

インターネット上で見るAI動画は全部、生成に時間がかかるやろ。僕らの技術やと、実際にリアルタイムで生成できるんや。

「これをアナと雪の女王に変えて」とか「スパイダーマンに変えて」って言うだけで、瞬時に起きるんやで。

もうすぐローンチする予定のものは、完全にゼロから動画を生成することや。想像できるものは何でも描けるんやで。例えばこのインタビューで「僕の手を見て、空やで。剣をくれ」って言うたら、剣がここにポップアップする。「猿を加えて、ここに座らせて。いや、もうちょっと下で。完璧や。猿、ハイタッチして」って言うたら、小猿がハイタッチしてくれるんや。

これは重要な技術的ブレークスルーで、AI生成動画と生成されながら相互作用できるんや。「テキストプロンプトをどうぞ、AIが動画を出力するまで数分待って」やないんやで。

なるほど。Snapchatがフィルターをリリースした時のことを思い出します。もう随分前のことですが、大きな話題になって、みんな猫になったり耳を追加したり、何でもできて楽しんでいました。リアルタイム版のようなものに聞こえます。私の理解は正しいですか?

確実にフィルター的な側面があるで。僕らが人間として知ってることやからな。これまで静的フィルターしか使えへんかったのが、想像力だけで思い付く任意のフィルターを作れるんや。話しかけるだけで実現する。

でも完全に興味深いのは、人々がこの技術に対して以前は存在せへんかった全く新しい使用例を見つけてることや。

すごく面白いのがVRやな。VRヘッドセットに入れて街を歩き回ってる人らがいて、ニューヨークシティを歩きながらゴジラ戦闘に変更して、歩いてる間に街全体が変わっていくんや。

フィルターで見たような馴染みのある概念もあるし、消費者が直感的に何をすべきかわかるけど、AI動画との相互作用と何ができるかについて全く新しい次元も得られるんやで。

チャットボット以外のAI活用の可能性

なるほど。これは全く新しいAI利用方法だとして、私たちのほとんどは何らかのチャットボットを使っていますが、日常生活でどのように使われると思いますか?エンターテインメントやゲームがメインの使用例のように思えますが、そうですか?

僕らがこれでできることは、ChatGPTが人とコンピューターが持った初のリアルタイムテキストインターフェースやったことや。考えてることを言うと、コンピューターがテキストで話し返してくれる。初めて実際にコンピューターとリアルタイムで動画で相互作用できるんや。

実際に見えるチャットボットでもええし、ChatGPTにテキストメッセージ送ったり、電話で話したりはできるけど、実際に見ることはできへん。チャットボットを見て、視覚的に相互作用して、例えばChatGPTとFaceTime通話することから、想像するクリエイティブな世界に飛び込むことまでできるんや。

リビングルームを南極に変えることから、全く新しいゲームを想像してその場でプレイすることまで。

僕らが見てるのは、ChatGPT以前のインターネット、昔のインターネットを見ると、基本的に4つのことがあったんや。知識と検索、地図、ドキュメントに関連する全て。クリエイティビティ。Instagram、TikTok、YouTube、ゲーム、Netflixとかそういうもの。そしてコミュニケーションとショッピング。基本的にそれがインターネットやった。

最初のカテゴリーはチャットボットに完全に乗っ取られた。チャットボットが情報の取得、使用、作成、共有の方法を完全に破壊したんや。

2番目のカテゴリーには何も起きてへん。クリエイティビティはこの3年間、全く同じままや。TikTokフィードに猫動画が追加されただけや。

その場で任意の動画を生成する能力があることで、こういった体験を全部シミュレートして、新しいものをユーザーに提供することもできるやろうな。

確実に、TikTokストリームを無限に生成するという明らかな使用例がある。君が笑ってるか泣いてるかで動画が気に入ってるかわかって、次のフレームを継続的に生成し続ける、そんなストリームを継続的に見せることができる。

でもこの新しい技術で人々が何を作るかを見るのは興味深いで。

技術的ブレークスルーとモデル訓練の違い

ここで技術的ブレークスルーについて言及されましたが、この種のモデルの訓練はGPT-5やテキストベースのモデルとどう違うのですか?技術的観点から、訓練プロセスと、ここに到達するために必要だったブレークスルーについて説明してください。

AIモデルには大きく2つのカテゴリーがあるんや。一つは全てのテキストベースモデルで、基本的にインターネット上の全テキストを取って大量のGPUに投入し、非常に良いテキストを作れるLLMを得るんや。GPT-5、Claude、XIのモデル、Grokとかがそうや。

もう一つのモデルは拡散ベースモデルって呼ばれてて、通常動画や音声生成に使われる。大量の動画や音声ファイルを取って、それを使ってプロンプトに基づいて新しいコンテンツを合成できるモデルを作るんや。

「南極のマンモスの動画を作って」って言うと、ちょっと待ってからそんな動画が得られる。

Mirage以前は、Mirageが世界初のリアルタイム動画モデルやった。基本的に意味するのは、AIに「プロンプトをどうぞ、それに基づいて動画を生成して」って言って、通常10秒、20秒、場合によっては1分待つ代わりに、Mirageでは何か言うと大体40、50ミリ秒後に作成を開始するんや。

これによって実際にAIと継続的に相互作用して、生成を形作って自分が欲しいものにできるんやで。

そこに到達するために、主に2つのブレークスルーを達成する必要があった。一つは遅延を完全に減らして、動画生成に数十秒かからず、大体0.04秒で生成できるようにすること。もう一つは短いクリップだけやなく、これまでのAIモデルは10秒、20秒、多分30秒しか生成できへんかったのに対して、Mirageは無限のクリップを生成できることや。1時間長のクリップも10時間長のクリップも生成できる。これがこれを実現するために必要やった2つの重要なブレークスルーやった。

スタートアップとしての競争戦略

大手テクノロジー企業と競争しながらモデル構築を選んだ理由が気になります。もちろん、彼らは皆異なる種類のモデル、動画、音声、あらゆるものに進出しています。ChatGPT-5は今やアプリも生成できます。小さなスタートアップとして潰される可能性のある重要な競争についてどう考えていますか?

ええ質問やな。Decartを始めたのは約2年前で、長いこと何をするか考えてたんや。何をしたいかを見つけるのに3、4ヶ月かかった。

サイバーセキュリティからソーラーパネル会社の設立、ヘルスケア向けAIまで、全てを見たで。色んなアイデアを検討したけど、何も刺さらへんかった。十分面白くなかったんや。

共同創設者のMoshaが僕にうんざりしてる時があったな。「おい、僕らが考えてること全部、君は2日間興奮して、週末には『これもう面白くないな。何しよう?』って言うやん。君は実際何がしたいんや?」って。

それを認めるのに数ヶ月かかったけど、人生で一度は5年、多分10年かけてキロコーンを作ろうとせなあかんってことに最終的に気づいた。キロコーンって知ってる?ユニコーンは10億ドル企業、デカコーン、センチコーン、キロコーンがあるんや。1兆ドル企業や。

人生で一度、Google、Apple、Facebookを作ろうとしてみるんや。5年やってみて、うまくいけば素晴らしい。うまくいかなくても最高の体験ができる。

そのためには、非常に深い技術的ブレークスルーに基づいて完全に新しい消費者体験を構築する分野で競争しなあかん。君の言う通り、すごく大変や。素晴らしい競合がたくさんいて、この分野は今めちゃくちゃホットで挑戦的やからな。

でも確実に挑戦する価値がある。うまくいけば信じられない。うまくいかなくても、想像できる最高の旅路が得られるんや。

このアイデアが兆円のアイデアだと思う理由は?収益はどこから来るのですか?10億ドル企業になるビジネスプランは?兆円企業になるにはどうすればいい?

AIでは、ルールが少し曲がってると思うんや。企業は消費者企業か企業向け販売をするかやったけど、AIでは両方できる。ChatGPTと同じで、ChatGPT自体でも販売してるし、API経由でも販売してる。僕らが構築してるものでも似たようなことが起きてる。

リアルタイム動画モデルを構築して、企業顧客と消費者の両方に提供してるんや。僕らが持ってる技術へのアクセスに大金を払ってくれる企業がある。

正直、調達した資金をほとんど燃やしてへん。この時点で1億5000万ドル以上調達してるけど、投資家資金は1000万ドル未満しか使ってへん。技術のライセンス供与で多くの収益を生み出してるからや。

それが一つの収入源で、Mirageをローンチした時には世界中のホテルからも問い合わせがあった。「ロビーにMirageを設置して、人が通りかかった時に完全に想像上の世界にいる自分を見られるようにできる?」って。病院からも「子どもの手術で気を逸らす必要がある時、このライブストリームを見せられる?すごく魅力的で注意を引くから」って。

同時に、僕らが狙ってるのは、地球上の全ての人がクリエイティブになりたい時、余暇時間を過ごしたい時により良く感じて、楽しいことを感じられる完全に新しい体験を作ることや。

この時点で世界のどこかのランダムな子どもに「何のAIを使う?」「ChatGPTって何?」って聞いたら、「宿題に使うやつ」って答える。でも「宿題してへん時にどのAIを使う?」って聞いたら、「宿題してへん時のAIって何やろ?わからへん」って答えが返ってくる。

これが兆円の質問で、来年中には答えが出るで。誰かがこの答えを出す。その答えがDecartやったら、Decartは兆円企業や。

資金調達と今後の展開

次の10億ドルスタートアップリストに載せていたのですが、雑誌を締切、印刷に回した後、オンライン公開前に既に10億ドル超の評価額で資金調達されていました。賢く見える一方で、タイミングを逃したようでもあります。資金調達ラウンドおめでとうございます。投資家資金を燃やしていないなら、この新しい資金をビジネスの次段階にどう使う予定ですか?

1、2ヶ月前にした前回のインタビューが楽しかったな。これが全部起きる前やったから、君らは予言者みたいやな。次の100億ドル企業リストでもインタビューしてもらおか。

正直言うと、近々多くの新しいモデルが出る予定や。Mirageを実現させるために過去7ヶ月間、非常に深い研究に費やしたんや。今のところ、実際に人々が利用できるリアルタイム動画生成モデルは世界でこれだけや。他の大手テクノロジー企業もまだ持ってへん。

僕らは少なくとも数ヶ月先行してるけど、Googleは例外で、彼らも持ってるようや。でも今後数週間で、内部で見て心を打たれた劇的な新機能を可能にする多くの新しいモデルリリースがあるで。世界と共有するのが待ち遠しい。

同時に、これの上に多くの新しい商品をリリースする予定や。VR商品、FaceTimeのような商品、Snapのような商品、僕らが持ってるもので完全に新しいAIのひねりを加えた商品をリリースする。人々が実際に何をするのが好きかわかるまで多く反復するつもりや。

資金でできることは、これらのローンチが軌道に乗れば、瞬時に軌道に乗る可能性があるから、同時に数百万人にサービス提供できる必要がある。明らかに、GPUは非常に高価で、そこに全て適合するんや。

FaceTimeのような消費者アプリをローンチする予定ですね。友人や家族に電話をかけて、このようなARライブ動画体験ができるアプリのことですか?

100%そうや。それが来る。VRヘッドセットに入れて街を歩き回り、歩いてる間に変更できるものも含めて、今後数週間で共有する他のクールなものもある。

同時に、企業にも技術を提供してる。ゲーム、不動産、エンターテイメント部門で多くの拡張がある。

Decartは3つの会社のように運営してるんや。数ヶ月ごと、今は数週間ごとに新しい基盤的な世代モデルを生産する深層技術研究所が一つ。

同時に、会社の2番目の部分はそれを使って新しい消費者体験をリリースしてる。3番目の部分は実際にその技術を企業に提供して、消費者向けの新しい体験を作れるようにしてる。

収益モデルと顧客基盤

2024年に2000万ドルの収益があったとリストの一部として報告しましたが、顧客についてより具体的に教えてもらえますか?ゲーム、不動産について言及されましたが、顧客は現在モデルをどのように使っていますか?

前年では、モデルを効率的に実行できる技術を多くライセンス供与してたんや。僕らの技術で、僕らのモデルでも他の人のモデルでも、より速く、より安くモデルを実行できる基本的なインフラを持ってるんや。

2024年から現在まで、他の顧客が自分のモデルをより効率的に実行できる技術への多くのアクセスを提供してきた。

来週から、僕らが作成してる僕ら自身のモデルをAPIを通じて使用する公開アクセスも提供開始する予定や。

来年、僕らにとって全く新しい収益源を作る予定で、とても楽しみにしてる。これまでは自分のモデルを持つ他の会社に、GPUでより効率的に実行できるツールを提供してきた。

これからは、僕らが社内で構築するDecartモデルへのアクセスを提供する追加の収益源で補完される予定や。

創設者の背景とDecart設立の経緯

少し巻き戻して、あなたの背景と数年前にこの会社を始めることになった経緯を教えてもらえますか?

イスラエル、スイス、それからパロアルトや。パロアルトに着いたのは15歳の時やった。その時、人生で初めてみんなが僕に嘘ついてたことに気づいたんや。僕は賢いって言われてたからな。

でもパロアルトに着くと、14歳でスタンフォードで学部をやってる子と、17歳で3回目のブートストラップをやってる子を見るんや。実際の現実の人らや。「僕は人生で何してたんや?」って思った。RunescapeとMinecraftしながら、どうでもええテストで満点取って座ってただけや。

突然パロアルトの全く新しい世界に着いて、賢い人のオリンピックにいることに気づくんや。今まで育った街のマイナーリーグで遊んでて、自分は賢いと思ってたのに、そこに着いたら突然、自分だけやないことがわかるんや。

僕にとってパロアルトに着いた高校2年生の最初の学期は完全な災害やった。最初の試験で14点取ったんや。コンピュータサイエンスの試験で14点、100点満点中や。

先生がすごく親切で、僕が病気やったって書いてくれて、成績表に載らへんようにしてくれた。2年生の2学期に気を取り直したんや。「追いつかなあかん」って。

進路指導の先生に行って「高校の3年生と4年生を同時にやる」って言った。そうなった。それから大学に行って、イスラエルの母国に戻って「4年間の学部を1年でやる」って言った。それが目標やった。

結局、学部、修士、博士を合わせて5年半でやった。その研究所の歴史で最速やった。23歳で博士号を取った。専門は分散コンピューティングで、巨大な技術的問題を多くの異なるGPUに分散する方法の基礎や。

昔は非常にニッチやったけど、今は中心舞台や。実際にAIを機能させる基礎なんや。2022年に分散コンピューティングで最優秀博士論文のACM賞を受賞した。

Decartを始めた時、誰かに賢いって言われたランダムな子どもが数人いたんや。共同創設者のリビングルームに座って、「何を作る?僕らは明らかに賢い人で、他の賢い人を雇って素晴らしいことができる。実際に何を作る?」って考えてた。

ChatGPTがローンチしてから数ヶ月後やった。僕らは皆、いつかChatGPTのような製品が来ることを知ってた。AIが僕らの相互作用、インターネットとの相互作用を完全に変えることをな。ただ、こんなに早く来るとは知らへんかった。

ChatGPTが実際に現実的なもので、以前に持ってたアイデアから完全に変更して、次のAI巨大企業をどう構築するかに確実に焦点を当てる必要があることに気づくのに数ヶ月かかった。残りは歴史や。

AI技術の安全性と倫理的課題

リアルタイムライブ動画と、それを現実的な方法でリアルタイムに操作できるモデルのアイデアは、あなたが説明した方法では非常に楽しそうに聞こえます。でも同時に、人々が言ってることややってることを現実的にリアルタイムで操作できるなら、少し怖いようにも聞こえます。このモデルを開発する際に、この問題についてどう考えましたか?

すごく重要な問題やと思うし、期待値の設定から始まるんや。全てのコンテンツが本物であること、現実世界から来たものであることを人々が期待するプラットフォームを作るなら、生成されたコンテンツがあって区別できへん場合、確実に大きな問題や。ほとんどのプラットフォームがコンテンツを生成済みとしてラベル付けすることで対処しようとしてる。

見てるコンテンツの多くが誰かの想像で、必ずしも事実やないという期待から始めるなら、ユーザーとして見てるものをどう認識するかが完全に変わる。

同時に、これは業界として対処しなあかんすごく困難な問題やと思う。見てるコンテンツの多くが想像上で現実やない世界にどう適応するかを理解しなあかん。

業界としてどう取り組むかと、消費者が見てるコンテンツにどう反応するかの組み合わせになるやろうな。

あなたのモデルは現在、誰かが言ってることをリアルタイムで操作できますか?

音声には全く触れてへん。音声操作はすごく危険で、注意深く対処する必要があることやと思う。

10年後のビジョンと社会への影響

10年後のムーンショット、Decartに対するあなたの大きな希望は何ですか?

スマホを使うことは以前すごく楽しくて、バーチャル世界の個人的なエンターテイメントで多くの楽しみがあった。ここ数年、消費者として、絶望的なスクロールがスマホでやることの多くを乗っ取ってしまって、単純に楽しくないと感じる。

本能的に行って1時間過ごしたくなるアプリがたくさんあるけど、実際には時間を楽しんでへん。

僕らがリラックスして良い時間を過ごし、使ってる間に内なる創造性を発揮できる、AIを使った完全に異なる体験を作る本当の機会があると思う。僕らにとってあまり意味のない継続的なストリームを見る代わりにな。

僕らが作る技術で、直接的でも、パートナーに販売することで間接的でも、数億人、10億人に触れることができたら、それが僕らが目指してたことや。

僕らが生きてるこの非常にストレスフルな時代に、世界がもう少し楽しくなるのを見ることができたら、すごく幸せやで。

ディーンさん、お時間をいただき本当にありがとうございました。AIによるエンターテイメントの未来についてのお考えを聞かせていただき、とても良かったです。

ありがとう。

コメント

タイトルとURLをコピーしました