Sunoのマイキー・シュルマン:今や誰もが音楽を作れる

AI音楽
この記事は約29分で読めます。

Sunoの創業者兼CEOであるマイキー・シュルマンが、AIを活用した新しい音楽制作のあり方とプラットフォームの展望について語るインタビュー動画である。誰もが音楽クリエイターになれるクリエイティブエンターテインメントの未来や、独自のモデル開発の裏側、そして既存の音楽業界との共存について詳しく解説している。

Suno's Mikey Shulman: Everyone Can Make Music Now
Most music platforms assume you're a listener. On Suno, 90% of daily users make something. Founder and CEO Mikey Shulman...

音楽の概念をゼロから再構築する

西洋音楽には12の音階があります。もしモデルに音階が12個しかないと教えてしまえば、モデルは永遠にその12個の音しか生成しなくなります。それでは永遠に制限を受けることになります。ですから私たちにとっては、音楽について知っていることをすべて捨て去り、これをゼロからやってみようということがすべてでした。それは単なる音波であり、1秒間に4万8000回サンプリングされた連続したFloat32の数値にすぎません。それをどうモデル化するかを考えようとしたのです。それが、私たちが成し遂げなければならなかった初期のブレイクスルーの多くを占めていました。しかし、一度それを達成すると、これが完全に汎用的な音楽制作マシンであることに気づきました。そして今、皆さんを制限するものは、皆さんが説明できることと皆さんの想像力だけなのです。

本日はSunoの創業者兼CEOであるマイキー・シュルマンをお迎えできて嬉しく思います。Sunoは音楽企業、あるいはクリエイティブなエンターテインメントプラットフォームを構築しており、私がこれまで見てきたAIの消費者向けアプリケーションの中で最も斬新なものの1つです。あなたのこれまでの歩みやSunoの今後の展望についてお話を伺えることをとても楽しみにしています。本日はご参加いただきありがとうございます。

お招きいただきありがとうございます。とてもワクワクしています。

物理学からAI音楽の世界へ

素晴らしいですね。まずはあなたの経歴から始めたいと思います。というのも、非常に意外な経歴だからです。ハーバード大学で固体スピンを用いた量子コンピューティングの物理学の博士号を取得したあと、世界最大のAI音楽企業を設立することになったわけですが、その2つを結びつけた洞察は何だったのでしょうか。

そうですね、自分でもよくわかりません。書類上は、私が消費者向けエンターテインメント企業を立ち上げる理由なんてどこにもないように見えると思います。でも、ちょうど30年前に多くの人が物理学からクオンツ取引の世界へ移ったように、多くの人が物理学からAIの世界へと進んでいます。正直に言うと、私はまあまあ程度の物理学者でしかなく、私の共同創業者の1人を含め、私よりも優秀な物理学者はたくさんいます。私が主に学んだのは、普段は交わることのない2つの領域の結節点で活動することは、あらゆる分野において巨大な機会になるということです。それは音楽とテクノロジーかもしれませんし、量子力学と低温マイクロ波工学かもしれませんし、あるいはこれからあなたがやろうとしている他の何かかもしれません。

Sunoの初期と予想外のブレイクスルー

私たちはSunoの本当に初期の頃につながりましたね。私たちの共通の友人であるハリソン・チェイスは、SunoのDiscordの最初期のユーザーの1人で、あなたのDiscordで曲作りを心から楽しんでいました。Sunoの初期の頃について教えていただけますか。どのようにして始まったのでしょうか。最初から音楽企業を作ろうとしていたのですか。

最初は、これは実際には難しすぎるだろうと思っていました。というのも、少し時間を巻き戻す必要がありますが、これはChatGPTが登場する前のことだからです。私たちは少し大まかな計算をしました。自分たちがオーディオを愛していることはわかっていましたが、その計算によると、実際に良い音楽を制作する、生成することは、コンピュートやモデルのサイズ、機能の面で数桁離れたところにあると出たのです。それは、音楽や音というものは一般的に非常に扱いにくいからです。テキストのように離散的なビットではありません。ですから、実は私たちは最初、音を作り出すためではなく、音を理解するために同じ技術を使う会社を作り始めました。そして幸運なことに、かなり早い段階で適切なブレイクスルーがあり、自分たちは実際に音楽を作れるぞと気づいたのです。

あなたは数学がかなり得意ですよね。大まかな計算のどこが間違っていたのでしょうか。

計算自体は合っていました。ただ、それほどのコンピュートは必要ないというブレイクスルーがあったのです。適切な技術的ブレイクスルーを起こせば、基本的にはオーディオを非常に効率的に圧縮することができます。そしてそれが予想よりはるかにうまくいきました。ですから、間違っていてとても良かったという瞬間です。間違っている瞬間がすべてこんなに楽しいわけではありませんけどね。念のため言っておきますが、最初は音楽はひどいものでした。それでも私たちは夜遅くまで起きていました。

彼は良いと思っていたようですよ。彼は最初の10人のユーザーの1人でしたからね。彼はかなり良いと思っていたはずです。

確かに、Discordに公開する前は音楽は本当にひどいものでした。Discordに出す前は、12.5秒のクリップしか作れず、歌ってほしいと頼んだ言葉をいつも聞いてくれるわけではありませんでしたが、私たちはそれをやるのがとても楽しかったのです。そして、他の人も楽しめるかもしれないと思いました。そこでMidjourneyの例を参考にして、Discordのボットを公開して、みんなが楽しんでくれるかどうかを見るのはとても簡単だという話になりました。そして公開してみると、本当にたくさんの人が楽しんでくれました。それが私たちにとって非常に確信を持てる瞬間でした。当時、多くの人が音楽会社は作らない方がいいと言っていました。ビジネスとして取り組むのに最も簡単な業界ではありませんからね。音声分野は非常に大きく、音声技術の構築には優れたビジネスユースケースがたくさんありますが、夜遅くまで起きてそのもので遊んでいて、眠りたくないと思うようなときは、それが自分にとってやるべきことだという本当に良いサインです。だから私たちはそれをやりました。

素晴らしいですね。あなたはミュージシャンなのですか。

はい、ほぼ毎日弾いています。子供の頃はピアノをたくさん弾いて育ち、12歳頃からベースを始めて、そちらをさらにたくさん弾くようになりました。

なるほど、個人的な情熱があったのですね。素晴らしいです。

後から作られた歴史では、前の会社の共同創業者の地下室でジャムセッションをしていたから、ということになっていて、それは事実です。そこでたくさん楽しみました。でも、それが会社を始めた理由ではありません。繰り返しますが、これを行うのは難しすぎると思っていました。ただ楽しかっただけです。

Kenshoでのことですね。

はい、Kenshoです。そこで素晴らしいハリソン・チェイスと出会いました。

Kenshoマフィアは他に類を見ないほどすごいですね。ハリソンもそうですが、ダニエル・ナドラーやサム・ウィットモアなど、たくさんいますよね。

ええ、本当にたくさんいます。正直なところ、それはダニエルのおかげだと思っています。ダニエルは、才能の密度が会社に何をもたらすかを示す最高の実例だと思います。伝統的ではない経歴を持つ人が多く、年齢層も非常に若かったのですが、彼は人を見つけるのが得意で、彼らを説得して入社させるのがとても上手でした。

音楽生成の仕組みとジャンルの融合

素晴らしいですね。では、誰かがロードトリップに関するアップビートな90年代ヒップホップトラックと入力したときに何が起こるのか、順を追って説明していただけますか。プロンプトを受け取ってから、モデルは何をして、かなり特別だと感じられるものをユーザーに返しているのでしょうか。

ある意味では実はかなりシンプルです。そのようなプロンプトの場合、この曲の歌詞が何であるかを把握する必要があり、私たちはさまざまなLLMを使用して歌詞を作成します。基本的にはロードトリップという手がかりを受け取ります。そして、このロードトリップは何についてのものであるべきかを考えます。おそらく情報が少なすぎるため間違えるでしょうが、実はそれで問題ありません。反復して修正できますから。次に、90年代のヒップホップという指定がありました。私たちはそれを、モデルがこの音楽のジャンルやスタイルを本当に理解できるような一連のキューへと拡張しようとします。そしてそれらを組み合わせます。たくさんの歌詞があり、たくさんのスタイルがあり、そして私たちのモデルは、そのすべての情報を取り込んでただ音を生成するように訓練されています。ここで驚くべきことは、モデルはボーカルや楽器が存在することを知らないということです。どんな種類の楽器があるのかも知りません。非常に早い段階で、モデルに音楽の知識を与えれば与えるほど、悪い意味で制約を受けることになるというのは私たちにとってかなり明らかでした。ですから、私たちはすべてをただの音としてモデル化しています。それがこの取り組みを非常に困難なものにしましたが、最終的にはそれがこれらのものを非常に強力にする理由なのです。具体的に言うと、西洋音楽には12の音階があります。もしモデルに音階が12個しかないと教えてしまえば、モデルは永遠にその12個の音しか生成しなくなります。永遠に制限されます。そして、もしモデルに200の楽器があると言えば、それらがあなたが作ることができる唯一の音となり、Sunoを使って次のSkrillexが生まれることはありません。ですから私たちにとっては、音楽について知っていることをすべて捨て去り、ゼロからやってみようということがすべてでした。それは単なる音波であり、1秒間に4万8000回サンプリングされた連続したFloat32の数値にすぎません。それをどうモデル化するかを考えようとしたのです。それが初期のブレイクスルーの多くを占めていました。しかし一度それを達成すると、あとは皆さんが説明できることと皆さんの想像力だけで制限されるようになります。

とてもかっこいいですね。基本的には既存の音楽ジャンルや12音階を再発見したということですか。第一原理から音楽を学ばせようとしたときに、独立して同じような行動が現れるのを見ましたか。それとも、異なる一連の能力が現れるのを見ましたか。

いいえ、驚くべきことに、今は誰も思いつかなかったような新しいものが現れるのを見ています。ですから、ほとんどの場合、それは本来なら組み合わされるべきではないジャンルをブレンドしたような形になります。例えば、シタールが入ったトラップや、808が入ったカントリーなどです。そして繰り返しますが、これは人々が頭の中にあるものを形にする力を本当に与えるものであり、このような技術がなければ不可能だったか、非常に困難だったであろう方法です。私たちは微分音の音楽も目にします。みんなが作っているクレイジーなものをすべて見て回るのは本当に刺激的です。その多くは知っているジャンルのように聞こえますし、その多くは完全に奇妙で風変わりで、そして美しいものです。

素晴らしいですね。本当にかっこいいです。モデルが得意とするジャンルと、苦手とするジャンルはありますか。

確かにあります。私は音楽について良いとか悪いとか言わないように努めています。フルビット深度やフルサンプリングレートでうまくサンプリングされているかどうか以外の点ではですね。しかし、あえて一般化するならば、私たちはカントリーがとても得意です。ポップミュージックもとても得意です。頭の中に入れておくと良いかもしれないイメージとしては、他のジャンルよりもやや定型的なジャンルというのがあるということです。ですから、おそらく私たちはそういったものが得意なのだと思います。しかし、私には密かな疑念があって、それらのジャンルについては、天井を引き上げているのと同じくらい底辺を引き上げているのではないかということです。そして、私たちが苦手としているものについては底辺を引き上げられていません。だから私たちはたくさんのひどい音楽を作ってしまいます。しかし、私たちは天井も引き上げました。もし十分な時間をかけて探求する気があれば、驚くようなものを見つけることができるでしょう。

モデルの進化と独自のフィードバックループ

とてもクールですね。Suno V5は品質面で本当のステップチェンジだったように思えます。そういったステップチェンジの背後には何があるのでしょうか。

ステップチェンジがいつ起こるかを予測するのは本当に難しいです。なぜなら、研究のインプットにおいて非常に非線形だからです。それどころか、私たちのテストでモデルがどれくらい良くなったかという結果と比べても線形ではありません。たとえば、あるモデルが別のモデルよりもどれくらい好まれるかを測定し、10%好まれるとか15%好まれるという結果が出たとします。そして、10%好まれるモデルと15%好まれるモデルを用意したとします。しかし、リリースしたときにユーザーがどれくらいそれを気に入って使うか、あるいは製品がどれくらい成長するかというような普及の度合いは、好みを示すシグナルと必ずしもそこまで相関しないのです。それは音楽が複雑で、他にも多くの要素が絡んでくるからです。しかし、大きく一歩引いて見てみると、私たちはかなりアグレッシブな研究のロードマップを持っていて、ある奇妙な意味で常にこのことに取り組んでいます。V6やV7がどうなるかはわかっています。モデルにさせたいことはたくさんありますし、行いたい改善点もたくさんあります。ですから、ここが区切りだ、これをV5.5と呼ぼう、そしてそれ以降に来るものは次のモデルに入れよう、と言うのはほとんど恣意的な区切りなのです。何かをリリースするタイミングを安定したペースに保つためという側面もあります。私たちが一番避けたいのは、2年間何もリリースせず、人類を救うための音楽モデルを作ろうとして、それが2年後に出るからそれまでは何もしない、という事態です。

ええ、全くその通りですね。これらの改善のどれくらいが、単にコンピュートをスケールさせ、データをスケールさせ、大量の人間の好みのデータをフィードバックさせることによるものだとお考えですか。それとも、より斬新な研究をどれくらい行っているのでしょうか。

音楽は本当にスケールの問題ではありません。モデルはさまざまな理由からかなり小規模です。多くの人は、LLMの世界でモデルが巨大でスケールが大きく役立つという知識を誤って音楽に当てはめてしまうのだと思います。私の頭の中にあるイメージとしては、LLMの世界にはあらゆるベンチマークが存在し、どれが欠陥でどれが優れているかについて議論の余地はありますが、これらのベンチマークは存在しており、スケールはベンチマークでどんどん良い成績を出していくための非常に効率的な方法だということです。音楽には正解がありません。ベンチマークもありません。ですから、それを解決する上でスケールの役立つ度合いはやや低くなります。創造的な人間の好みにモデルを合わせるというのは、多くの意味でより複雑な問題なのです。あなたと私がすべての曲について意見が一致することはありません。あなたが何と言おうと、あなたと私の意見は一致しないでしょう。そんなことしたいとは思っていないでしょうしね。しかし、モデルがそれほど大きくないことで、実はより早く音楽を届けることができ、それが優れたUXにとって非常に重要であることがわかっています。ですから、これの多くは研究と好みのデータに帰着すると思います。私たちはユーザーが好きなものにモデルを合わせるための好みのデータを収集しています。本当に過小評価されているのは、この好みのデータが私たちが研究を行う上でどれほど役立っているかということです。私たちが持っている好みのデータの規模がなければ、今使っている技術を開発することさえできなかったでしょう。ですから、製品自体が人々によって使われることで継続的に改善されていくという、本当に好循環が存在しています。

興味深いですね。テキストモデルはすべて迎合性を心配していますが、あなた方にとってはそれははるかに小さな課題なので、人間の好みのデータをはるかに強力な方法で利用できるということですね。

100%その通りです。ですから、それを理解し、それについて研究し、それをモデルに強化学習で戻す私たちの能力から、本当に膨大な優位性が生まれていると思います。

誰もがクリエイターになる社会現象としての音楽

素晴らしいですね。少し話題を変えて、消費者向けの現象としての音楽についてお話ししたいと思います。冒頭で消費者向けのクリエイティブなエンターテインメントプラットフォームという言葉を出されましたが、それが何を意味するのか掘り下げてみたいと思います。音楽は純粋に文化的・社会的な現象であるように思えます。この曲が好きだから友達に送る、それは希少な資源であり、その曲を好きになることで絆が深まり、一緒にミックステープを聴く、といった具合です。私にとって音楽は常にこのような共有された文化的体験でした。これに同意されますか。もしそうなら、AI音楽はそれに対して何を意味するのでしょうか。

非常に強く同意します。音楽は他のメディアとは異なる位置を文化の中で占めています。その理由はいくつかあります。1つは、人々の音楽に対する好みは、他のメディアに対する好みよりもはるかに発達しているということです。映画や文学に対する好みを持っていない人は多くても、誰もが音楽に対する好みを持っています。もう1つの理由は、音楽は本質的にはるかに社会的なメディアであるということです。考えてみれば、コンサートに行くというのは、パフォーマーだけを見ているにもかかわらず、本質的に社会的な行為です。それは周りに人がいるからです。映画館に映画を見に行くことは、誰もいない映画館に比べて気持ちが高揚するものではありません。これは主に、人間が口と耳を通して音響的にコミュニケーションをとるということであり、そのため音楽は書くことよりもはるかに古いコミュニケーション手段なのだと思います。他のことに比べて、音楽は私たちのDNAにはるかに深く刻まれています。私は明らかに偏見を持っていますし、音楽を愛しています。ただ、AIを搭載したSpotifyのようなものができて、それが人間性を奪い、音楽がひどいものになると想定している人もいると思いますが、それは明らかに間違っていると思います。AIを搭載しただけでより良いSpotifyが作れるとは思いません。本当に興味深いのは、単に文化の中での音楽の位置づけを変えるだけでなく、いかにそれを向上させるかということです。音楽には、あまりにも至る所に存在するため、背景に退いてしまうことが多いという別の奇妙な特徴もあります。素晴らしいことに、AIを使って実際にそれを変え、音楽が社会や文化の中でどのように認識されるかを拡張することができます。過去30年間で音楽はより非社交的なものになってしまったので、音楽が社会的にどのように使われるかを拡張できるのです。これが私たちが活動している領域であり、本当にワクワクしていることです。

ユーザーを見たときに、人々はより音楽のクリエイターであると思いますか、それともより音楽の消費者であると思いますか、あるいはその両方でしょうか。

これがSunoのクレイジーなところです。Suno以前は、基本的には誰もが音楽の消費者でした。地球上の80億人の人々に比べると、音楽を作る人は非常に少なく、残りの私たちはそれを消費しています。それはそれで構いません。それは受動性を満たす傾向があり、音楽をより非社交的で非個人的なものにする傾向があります。Sunoのクレイジーなところは、どの日に見てもユーザーの90%が何かを作っているということです。頭で理解するのが難しいのは、何か別の場所に持っていって何かをするために作っているわけではないという点です。人々はクリエイティブであることから来る楽しさ、喜び、充実感のために音楽を作っています。ですから、創造すること自体がエンターテインメントの部分なのです。そしてそれが大きなステップチェンジです。世界中の誰もがクリエイティブなのです。クリエイティブであることは、ある種の感情をもたらしてくれます。これは私たちのDNAに組み込まれており、私たちは基本的にはテクノロジーを使って、誰もがその温かくて心地よい感情を抱けるようにしているのです。私がこれをやっている個人的なインスピレーションの多くは、私がこれまでに持っている最高の思い出のいくつかが、友達と音楽を作ることだったという記憶から来ています。バンドでパフォーマンスをすることすらありませんでした。練習がとても楽しくて、音楽を作ると人との距離がとても縮まります。生産的であることでとても気分が良くなるからです。お気に入りのアプリを1時間延々とスクロールしても、終わった後にそれほど良い気分にはなりませんよね。

私はオーケストラをやっていた子供だったので、あなたほどクールな音楽はやっていませんでしたが、完全に同意します。

何を演奏していたのですか。

バイオリンです。

今でも弾いているのですか。

ええ。素晴らしいとは言えませんが。私には絶対音感があって、今は絶対に12音階では弾いていないとだけ言っておきましょう。弾くたびに耳から血が出そうになります。でも、あなたのおっしゃることには完全に同意します。素晴らしいですね。つまり、自己表現を伴うアクティブなエンターテインメントプラットフォームのようなものですね。ゲームや、Claude Codeのようなものともいくつかの類似点がありますね。

全くその通りです。音楽を作ることの素晴らしい点は、気分が良くなり、充実感を得て、作ることを楽しみ、そしてそれを聴くことにあると思います。そこには類似点があり、だからこそ私たちはこれをクリエイティブエンターテインメントと呼んでいます。エンターテインメントの部分はクリエイティブであることです。コンテンツをどこか別の場所に持っていく目的でクリエイティブになっているわけではありません。これは料理にも見られることだと思います。レストランでより美味しい食事ができるにもかかわらず、人々は料理をするのが好きです。それは料理をすることが楽しく、自分が作ったものを消費するのが楽しいからです。Claude Codeや他のプラットフォームをこれほど特別なものにしている理由の多くは、ものを作るのが楽しく、自分が作ったものを使うのが楽しいということだと思います。私が作るもののほとんどは、AWSでホストされて何百万人もの人に使われるようなものでは絶対にありませんが、私は構築するという行為そのものを楽しんでおり、自分が構築したものを使うという行為を楽しんでいます。ですから、10年か20年後には、こうしたクリエイティブエンターテインメントのようなものが至る所にはるかに多く存在するようになると予測しています。それは、それがついに可能になったからです。それこそがAIがもたらす解放です。AIは知性に関する多くのことも解放しますが、実際に誰もがほぼあらゆる分野でクリエイティブになることを可能にするのです。

これについてあなたも意見をお持ちだと思いますが、価値のない粗製濫造コンテンツを意味するスロップという言葉についてどう思いますか。

ええ、意見はありますよ。実際のところ、私の答えはたいてい、その言葉は意味もなく投げやりな言葉として使われており、人々がそれで何を意味しているのか私にはわからないというものです。昨日、5歳の子供と一緒に2曲作りました。地球上の99.999%の人がそれを聞くことに興味がないという意味で、それはスロップでしょうか。そうかもしれません。でも私にとっては本当に意味のあるものです。もしそれをスロップと呼ぶなら、私は気にしないと思います。しかし、これは興味深い問題ですよね。歴史上、少なくとも音楽の世界では、はるかに多くの人が何かをプロデュースできるようになったときに、コンテンツが私たちの耳やプラットフォームを埋め尽くしてしまうのではないかと人々が恐れるということが以前にも起きています。これは人々が自分のラップトップで音楽を作れるようになったときに起きました。たくさんの13歳の子供たちが自分の寝室でビートを作っていました。今日まで時間を進めてみると、それは明らかに良いことだったと思えます。はい、音楽ははるかに増えました。それはつまり、いわゆる悪い音楽がはるかに増えたことを意味します。しかし同時に、素晴らしい音楽もはるかに増え、新しい種類の音楽が作られ、新しい種類のスターが生まれていることも意味しています。はるかに多くの人が再び音楽を作るようになることが、それと何か違うものになるとは思えません。

音楽の天井を引き上げる新たなスターと業界との協力

素晴らしい考えですね。スロップの底辺や非スロップの底辺についてお話ししました。では、天井についてはどうでしょうか。人々がAIを使って成し遂げた最も素晴らしいことについて少し教えてください。すでにチャートのトップにランクインするようなヒット曲もあると思います。そのあたりについて少しお話しいただけますか。

チャートのトップを飾るヒット曲はいくつかあります。レコード契約を結んだ人もいますし、チャートインするシングル曲を作った人もいます。それは素晴らしいことです。私はそれを、新しい視点を持った新しいクリエイターが現れ、人々の心に強く響いているのだと考えており、それは明らかに天井が上がっていることを示しています。私のお気に入りの例はZaniah Monaeです。これは、10年ほど書き溜めていた美しい詩のすべてを使って音楽を作り始め、完全に新しい声と、彼女のアートに共鳴する完全に新しいオーディエンスを見つけた詩人のステージネームです。これは本当に素晴らしいことだと思います。人々がつながり合っているのです。これは世界で最も個人的なものであり、実際にその音楽を聴けば、それが極めて個人的なものであることに気づくでしょう。最高の音楽は常に人間のガイダンスを必要とします。なぜなら、音楽には正解がないからです。あなたが音楽を好きになるのは、その響きや、それを届けてくれるメッセンジャーの存在があるからです。私たちは新しいサウンドを持つ新しいメッセンジャーを見つけるでしょうし、すでに見つけつつあります。私にとってそれは、明らかに天井が上がっていることを意味しています。もう一つ本当にクールなのは、チャート入りしているトラックの多くにSunoの要素が少しだけ含まれており、すべてがSunoで作られているわけではないということです。プロフェッショナルにとっても、これはワークフローの一部として使用するのに素晴らしいツールだからです。ワークフローのすべてではありません。ですから、人々がすべてAIかAIでないかの二極化で語るという奇妙な現象が起きています。今日の音楽の大部分がオートチューンを使っていたりデジタルで制作されていたりするのと同じように、音楽の大部分には何らかの形でAIが含まれるようになるでしょう。繰り返しますが、ツールが増えれば音楽をより早く前進させることができ、新しいサウンドをより早く見つけることができます。私にとってこれは、明らかに天井がより高くなっているということです。

素晴らしいですね。さて、あなたは音楽業界をターゲットに選んだわけですが、おそらく弁護士なら避けるようにアドバイスする唯一の業界ですよね。足を踏み入れた途端に、槍玉に挙げられるような世界ですから。最近、Warnerと画期的な和解、あるいはパートナーシップを結ばれたと思いますが、それについて詳しく教えていただけますか。また、既存のプロフェッショナルな音楽業界とのコラボレーションの未来にとって、それが何を意味するとお考えですか。

もちろんです。まず少し話を戻すと、人々は私たちが既存の音楽業界、特にレコードレーベルを嫌っていると誤解していると思います。また、私がレコードレーベルはもう終わりだ、と言うことを期待している人もいます。それは明らかに間違っていると思います。彼らは世界で最も文化的に重要な機関のいくつかです。彼らは音楽を理解し、音楽文化を理解しています。何十億人もの人々の心に響くスターを育て、成長させています。私の見解では、もし音楽の世界が2つ、つまりAIの音楽の世界と非AIの音楽の世界に分かれてしまったら、それは本当に残念なことです。1つには、ほとんどの音楽には何らかのAIが含まれることになるため、それは理にかなっていないからです。もう1つは、エンドユーザーにとって、頭の中でこれらのものを分けなければならず、事実上似たような使用パターンややり取りをするために異なるプラットフォームに行かなければならないと考えることは単に悪いことだからです。ですから、私がWarnerとの取り組みで最も楽しみにしているのは、これまで存在し得なかったものを一緒に構築し、ファンがお気に入りのアーティストと交流できるような製品を作り、誰にとってもポジティブサムになるような方法でアーティストとファンのつながりを本当に深めることです。それはアーティストにとって素晴らしいことです。ファンと交流できるからです。ファンにとっても素晴らしいことです。音楽を通じてお気に入りのアーティストと交流していると感じられるからです。権利者にとっても素晴らしいことです。明らかにこれは非常に収益化しやすいものですから。そして、それは現在に至るまで文字通り存在し得なかったものなのです。私の心からの希望は、今後、今日まで存在し得なかったような、一緒に構築できる機会をはるかに多く見つけることです。そしてはっきりと言っておきたいのですが、デジタル音楽の体験は基本的に25年間変わっていません。私たちはただ25年間音楽をストリーミングしてきただけです。そして私は、音楽は新たなイノベーションと新たなフォーマットを迎える時期に来ていると思います。それこそが私たちがここにいる理由です。

コーチェラでAIを見られるのはいつになるでしょうか。

おそらくすでに見ているはずですよ。音楽の多くに、バッキングトラックの多くにおそらく使われていますから。

いや、メインステージで、消費者が参加するような形でのことです。

来年のある時点で、観客が実際に参加し、そのアーティストと一緒に音楽を作ることができるような、真にインタラクティブなコンサートが実現することを願っています。私の仕事の最もクールな部分の1つは、何百人、あるいは千人の観客の前でSunoのデモを行い、それだけ多くの人と一緒に一度に曲を作ることです。それは非常に特別な瞬間です。大勢のグループでチャンティングや歌を歌う宗教があるように、ほぼ宗教的な体験です。なぜそれが宗教的な文脈に限定されなければならないのでしょうか。人々がすでにお祭りで一緒にいることに熱狂しているコーチェラで、なぜそれができないのでしょうか。ですから、今後12ヶ月以内にそれが実現することが私の心からの希望です。

プロダクト主導の意思決定と未来のビジョン

最高ですね。モデルレイヤーのことや、音楽を作るという文化的な体験についてたくさん話してきました。次に、プロダクト構築のアプリケーションレイヤーについてお話ししたいと思います。これもまた、あなた方が非常に革新的であった分野だと思います。アプリケーションレイヤーでの構築をどう考えるかについて、あなたのアプローチを教えてください。

言うべきことはたくさんありますね。まず第一に、現在は消費者向けのイノベーションが十分ではありませんが、平均的な消費者は使い勝手の悪さを我慢しようとはしません。なぜなら、これを仕事で使っているわけではないからです。楽しみのために使っているのです。上司や会社が払うのではなく、おそらく自分でお金を払っているでしょう。ですから、私たちが人々に提供する実際の体験にもっと重点を置く必要があります。また、正直に言うと、モデル単体にどれだけの堀が存在するのかは不明確です。はっきり言ってしまいますが、Googleは音楽モデルの構築を始めており、今日時点では私たちのものの方がはるかに優れていますが、彼らはGoogleであり、週に7日私たちを上回る支出をすることができ、モデルの面では追いつくことができるでしょう。ですから、常に人々を喜ばせ続けるために、プロダクト、UI、UXに投資することは本当に過小評価されていると思います。私たちの会社の価値観の1つは、自分たちはただの音楽会社であるということです。多くの意味で、私は自分たちをテクノロジー企業だとは考えていません。これは、テクノロジーを構築するためのテクノロジーを構築しないようにするためです。私たちは人々を喜ばせるためにテクノロジーを構築しています。そしてそれを文化に浸透させることは、会社の本来の目的が何であるかを人々に理解してもらう上で本当に役立ちます。それは様々な小さな方法で現れますが、プロダクト構築の戦略という観点からはそういうことになります。

素晴らしいです。あなたが下した消費者向けプロダクトの決定の中で、最も誇りに思っているもの、あるいは最も逆張りだったものは何ですか。

たくさんあります。私が間違えたものの1つは、Discordから非常に早く離れたことです。しばらくはDiscordにいるだろうと思っていました。2023年の終わりにDiscordから離れ、フル機能ではないかなり薄いウェブアプリをリリースしたのですが、トラフィックの90%がウェブに移行するのに5日しかかかりませんでした。ですから、それは私が間違っていたという圧倒的なシグナルでした。おそらく最も大きな決定で、最も逆張りだったのは、当時多くの人が音楽の実験をしていましたが、実は2つ挙げさせてください。1つは、単なるBGMではなく、ボーカル入りの音楽、つまり歌に焦点を当てたことです。歌は物語であり、ボーカルのないBGMにはできない方法で人々を魅了するからです。また、それははるかに難しいことだったので、当時は誰にも本当の意味でそれができませんでした。ですから、それを解決したことは間違いなく堀の源となりました。しかし振り返ってみると、難しいことができたというだけではありません。人間の声は特定の方法で人々の心に触れ、ただ楽しみのためにBGMを作るよりも、プロダクトをはるかに楽しいものにしてくれるのです。そしてもう1つも同じ方向性ですが、私たちはフルコーラスの曲を作ることに決めました。これもまた、曲は物語だからです。平均して3分か3分半くらいでしょうか。そして私たちはそれに最適化しました。当初、ほとんどのテクノロジーは音質を犠牲にして10秒から12秒程度の音楽を作れるだけでした。そして非常に長い間、私たちのオーディオは本当にクリアではありませんでした。競合他社のオーディオの方がはるかにクリアだったのです。Sunoの曲を1秒聴いただけで誰もが、ああ、これはひどい音だ、Sunoの曲だ、とわかるほどでした。それでも私たちはその方向に全力を注ぎ、よし、フルコーラスの曲を作ろう、音質は素晴らしくなくても物語を伝えるものになるはずだ、と決断しました。ただのBGMのような完璧な音質のオーディオを作るのではなく、です。そしてその技術の選択は、拡散モデルではなく自己回帰モデルを使用することでした。しかしそれは本当にプロダクト主導のものであり、私たちがその技術に感情的な愛着を持っているから自己回帰モデルが好きだというだけではありません。曲を作り物語を伝えることの方が、クリアなオーディオを作ることよりも重要だと考えているからなのです。

とてもかっこいいですね。収益ランレート3億ドルの先には何があるのでしょうか。あなたは並外れたところまで到達しました。この先には何が待っているのですか。

たくさんのことがあります。本当にまだ初期段階だと思います。ほとんどの人はまだ私たちのことを知りません。プロダクトはまだ非常に未熟です。走るべき余地はたくさんあります。私たちはいくつかのことを行う予定です。1つは、これをますます社会的なやり取りにしようとしていることです。音楽は社会的なものであるべきです。ですから、音楽を他の人ともっと共有するようになるだけでなく、他の人ともっと一緒に作るようになるはずです。それは同期的にも非同期的にも行えます。たとえばいつの日か、私はあなたに曲そのものではなく、あなたが明示的にリフを加えて私に送り返すための曲のテンプレートを共有するかもしれません。それがあなたと私の共同制作になります。おそらく、お気に入りのアーティストの未発表の古い音楽を使って、そうしたことをするかもしれません。私たちは、人々が音楽で自分自身を表現できるようにする方向に、はるかに大きく進んでいくことになると思います。私たちがリリースした最後の大きな機能は、自分自身の声を使える機能です。曲の中に自分自身の声が聞こえると、その曲にずっと愛着が湧きます。しかしそれ以上に、私があなたに曲を送って、その中に私の声が聞こえたら、その曲は特徴のない声よりもはるかに心に響くでしょう。たとえその特徴のない声が非常に優れていたとしてもです。それは、人間の耳が声に高度に同調しているからです。私たちはそのようにできています。ですから、よりソーシャルになることと、人々が音楽に自分自身を注ぎ込めるようにすることの2つが、今後12ヶ月間の私たちの大きな焦点になります。

それは素晴らしいですね。ミュージックビデオも好きです。

ミュージックビデオは大好きです。作られているミュージックビデオが少なすぎますよ。私はMTVなどでミュージックビデオを見て育ちました。

私もです。

曲を高め、物語を伝えるミュージックビデオと、私が作るかもしれないYouTubeコンテンツの背後に流すBGMとの間には大きな違いがあります。私は前者が大好きで、後者にはあまり興味がありません。私たちがやりたいのは、今よりも人々を音楽の中に引き込むことであり、音楽が永遠に背景のままであることではないからです。実は今、Sunoにはベータ版のビデオ機能があり、みんなとても気に入ってくれています。

いいですね。本当にかっこいいです。待ちきれません。今、AIの領域で消費者向けの創業者が非常に少ないのはなぜだと思いますか。みんなどうしたのでしょうか。誰もがエンタープライズ向けをやりたがっています。OpenAIはSoraをシャットダウンしたばかりですよね。私にとっては、理由はわかりますが、なぜ今消費者向けに構築している人が少ないのだと思いますか。

それは私からあなたに聞くべきですね。あなたはプロの投資家なのですから。

私の持論としては、単により難しいということと、解決すべき明白なビジネス上の問題がたくさんあるということだと思います。

ええ、競争相手が少なくて嬉しいですよ。正直なところ、あなたはどうしてだと思いますか。

AIが既存のビジネスプロセスの多くをどのように自動化するかは非常に明確にわかると思います。しかし、私たちが実際に遊び、創造する方法にAIがどのように浸透していくかを夢見るには、本当の創造性が必要だと思います。それを見抜くには本当の創造性が必要です。多くの人はAI音楽と聞いたとき、おそらくAIのSpotifyを思い浮かべるでしょうが、それはひどいものに聞こえます。あなたがやっているようなことをするには、多くの創造性が必要だと思います。

ありがとうございます。私たちは、すでに存在するものを自動化したりスピードアップさせたりすることよりも、今日まで不可能だったことを行うことにはるかにインスピレーションを受け、モチベーションを高められています。既存のものを自動化しスピードアップさせることにビジネス上の価値がたくさんあることを否定するわけではありません。ある意味で、これまで決してできなかったことをする方が単純に楽しいのです。

ええ。ロボットがすべての仕事をやってくれるようになった後、私たちは残りの時間を何に使えばいいのでしょうか。4時間も延々とスクロールしたいとは思わないでしょう。生産的で充実感を得たいと思うはずです。

ええ、その通りです。

素晴らしいです、マイキー。Sunoに至るまでのあなたの軌跡をすべてシェアしていただきありがとうございました。あなたが音楽企業でありアクティブなエンターテインメントプラットフォームの舵取りをしている姿を見ること、そして、AIの世界におけるクリエイターレイヤーとは何かを定義しているのを見るのは、Discordにハリソンがいた初期の頃からあなたの軌跡を見てきた身として、本当に並外れた体験でした。あなたが成し遂げたことに賛辞を送ります。あなたとSunoの大ファンです。

どうもありがとうございました。とても楽しかったです。

コメント

タイトルとURLをコピーしました