本動画は、AI音声技術のリーディングカンパニーであるElevenLabsの共同創業者Mati Staniszewski氏を迎え、音声モデルの仕組みや同社の事業展開について深く掘り下げた対談である。初期の音声合成の歴史から、テキストや感情を文脈として捉える最新のニューラルネットワーク技術までを解説するほか、自動車や読書アプリにおける音声AIの活用事例、そしてカスケード型モデルと音声から直接生成するモデルの違いについても論じている。さらに、急成長を遂げるAIネイティブ企業の組織マネジメントや、AIツールを用いた業務効率化のあり方、医療・公共部門における社会的意義など、多岐にわたるテーマを網羅している。

ElevenLabsの急成長と音声AIの仕組み
Mati Staniszewskiさんは2022年にElevenLabsを共同創業し、その後、同社を110億ドルの価値を持つAI音声のトップ企業へと成長させました。リアルな感情の抑揚によって人間の話し方を再現したことで評価され、現在はエージェントのワークフローから音楽に至るまで、あらゆる分野に展開を広げています。乾杯。本日はお越しいただきありがとうございます。
お招きいただきありがとうございます。
まずはここから始めるのが良いかもしれません。大規模言語モデルの仕組みは概要レベルで理解していますが、音声モデルがどのように機能するのか説明してもらえますか。もし私たちがAndrej Karpathyのようにおもちゃのモデルをゼロから作ろうとした場合、どのような仕組みになるのでしょうか。
初期の頃は、人間の体を再現するのと全く同じように再現しようとしていました。声道を効果的に作り出すアナログの機械を完全に再現しようとしたのです。その後、音声のデジタル信号を効果的に作成しようとする方向へと進歩しました。ベル研究所は、音声を表現する構造化された信号セットを作成しようとした最初の機関の一つです。それが、私たちが今日行っていることの最初の前兆と言えます。そして、人間が話すときの様々な音である音素を効果的に繋ぎ合わせようとしました。これは方程式におけるもう一つの重要な部分で、次の単語の最も確率的なアプローチに基づいて、音素のライブラリから音素を取り出し、それらをまとめようと効果的に試みるものです。
そして現代に至り、現在では他のドメインと同様のニューラルネットワークを効果的に実行しています。もちろん、ストリーミング音声の場合は過去の音声の文脈に基づいて次の音を予測します。例えばオーディオの文脈であれば、音素の予測を組み合わせて使用しますが、その作業の文脈的なテキスト要素も使用します。ここで、共同創業者のPiotrの功績をお伝えしたいと思います。彼は、TransformerモデルやDiffusionモデルからの多くのアイデアを音声分野に取り入れ、信頼性が高く、高品質で、かつ高速な音声モデルをどのように作成できるかという新しいアイデアを思いつきました。音素空間における次のトークンの予測は、以前は不可能なことだったのです。
先ほどこれについて少し話しましたが、テキストや波形空間でどのように操作できるのかということですね。メルスペクトログラム空間というのもあります。通常はテキスト、メルスペクトログラム、波形という順序になります。
すみません、スペクトログラム空間とは何ですか?
ピッチやエネルギーにわたって、音声がどのように聞こえるかを視覚的に表現したようなもので、それを波形に変換するのです。WaveNetやTacotronモデルが登場したとき、これらは効果的にテキストからメルスペクトログラム、つまりその視覚的表現へと変換し、それをデコード・エンコードして波形に落とし込んでいました。Piotrは、これらのステップのいくつかを抽象化し、より適切にデコード・エンコードする方法を見つけ出しました。この次の音素を予測するというのが大きな要素の一つでした。
2つ目の大きな要素は、その文脈をどのように方程式に持ち込むかということです。文脈が意味するのは、声優が原稿を読んでいる場合、ああ、これは方言のシーケンスだ、方言を作らなければならないと理解するということです。もしそれが幸せな文章なら、幸せな文章として発音する必要があるかもしれません。しかし、その前後に何が起こるかも方程式に入ってくるため、それを伝える必要があるのです。
そして最後に大きな要素があります。音声モデルは、与えられた断片をどのようにイントネーションするかという音を持っています。しかし2つ目の大きな部分は、声そのもの、つまりその声全体のアクセント、スタイル、韻律の特性です。実際に何かを発声させようとするとき、音声モデルを作成しテキストを音声に変換する際にはテキストが必要です。また、それをどのように話してほしいかという声の参照情報も必要になります。これが2つ目の大きなイノベーションでした。文脈とは別に、これらの特徴をどのようにデコード・エンコードするかということです。ベル研究所が最初の音声表現を発表したとき、そこでの大きな要素は、その音声に対して事実上ハードコードされたパラメータを持つということでした。
ElevenLabsのモデルではどうですか。熱狂的な話し手、イギリス英語のアクセントといった、ハードコードされたパラメータがあるのですか?
まさにそういうものです。選択できるピッチ要素のセット、エネルギーのセット、選択できるスペクトログラムのセットなどがありました。私たちのアプローチでは、事実上、モデルにそれらのパラメータが何であるべきかを選択するオープンエンドな能力を与えます。それはイギリス人、ポーランド人、スペイン人、イギリス人の話し手になるというだけでなく、モデルが自らそれを推論します。熱意であれ悲しみであれ、ハードコードされていない他のパラメータのセットについても同様です。
イギリス英語らしさは、あなたの音声モデルにおける創発的な特性だと言っているのですね?
その通りです。音声をどのように作成するかというエンコードとデコードが2つの大きな部分です。以前は非常に難しい問題でしたが、これも解決されました。それをどのように文章として構築するか、文脈をどのように伝えて次の音素を予測できるようにするか、そしてそれをどのように確実かつ安定した方法でまとめ、かつ迅速に行うか。これらが、今日まで続く音声モデルにおける最初の2つの大きなイノベーションでした。
音声モデルにおけるトークンと品質向上
なるほど。大規模言語モデルが世界の捉え方としてテキストや単語のサブパートであるトークンについて推論するとすれば、音声モデルにおけるトークンに相当するものは何ですか。音素という言葉がたくさん出てきましたが、その表現とは何なのでしょうか。
私たちは事実上、話者の音声エンベディングから始めます。音声を生成し作成する際にはその参照が必要です。もちろん、音声モデルへの入力には引き続きテキストを受け取り、話者のエンコーディングを取り込みます。そして音声を生成するときは、その音声の波形レベル、あるいは事実上は音素レベルで操作を行います。それから逆の方向に進むとき、つまりもちろん私たちが…
すみません、音素とは何ですか。私の理解を補足してください。
音節をさらに小さな要素に分解したようなものです。これらは事実上、人間が出すことができる音です。これらがその表現に最も近いものになります。しかしもちろん、現在の私たちのモデルでは、音素レベルで操作するだけでなく、テキストレベルでも操作する組み合わせになります。両方を同期させて操作します。なぜなら、文脈を予測する際、その文章がどのように構成されるかを理解する必要があるからです。特にそれが音声エージェントの設定におけるストリーミングのリアルタイムユースケースである場合は、両方の部分が連動して機能する必要があります。テキスト側でトークンレベルで操作するのと同じように、私たちはオーディオ側でトークンレベルで操作しているのです。
ElevenLabsの魔法の大きな部分は、生成される音声がはるかに人間らしく聞こえることにあるように感じます。これをどのように達成したのですか?
現在、私たちがテキスト読み上げ側のモデルについてどのように考えているか、簡単な概要をお話しします。どのモデルでも、アーキテクチャが必要であり、計算リソースが必要であり、データが必要です。アーキテクチャの革新は一つの要素でした。データ部分が2つ目の大きな要素でした。オーディオの場合、利用可能なオーディオデータはたくさんありますが、適切な方法でアノテーションされていないことがよくあります。誰がいつ話しているのかが分からないのです。何を話しているかについてはアノテーションされていることもありますが、どのように話しているかはありません。私たちが今話しているとき、どんな感情を使っているか、どんなアクセントを使っているかといったことです。より良いデータセットを作成できるようにするために、私たち独自のデータラベラー、独自のチームを効果的に構築することに内部で多くの投資を行いました。
それは当然、半自動的な技術と手動の技術の組み合わせでした。実際に、私たちが後で作成したモデルの多くは、その研究の多くから派生したものなのです。市場にあったモデルではデータの注釈付けに不十分だったため、初期の音声認識モデルは私たちが自分たちのために作ったモデルでした。そして、私たちのチームにおけるもう一つの素晴らしい研究分野は、それを構築して顧客に提供するモデルとして展開できるようにしたことです。
あなたたちはただ音声分野で役立つものを作り続けていて、それが結果として予想していなかった多くの製品を生み出したのですね。役立つものを作っていると気づいたからです。
その通りです。それはデータの組み合わせであり、自動的に処理できる能力であり、音声やその説明方法についてコーチングを受けたチームを作ることでした。なぜなら、世の中にいるほとんどのラベラーは、オーディオや音声を理解することにそれほど精通していないからです。それが、モデルを改善する上で大いに役立ちました。そしてもちろん、それらのモデルを本番環境に展開し、顧客がどのようにやり取りするかを確認し、すべてのデータに注釈を付けてもらうことで、時間をかけてモデルを洗練させることができました。
ついでに非常に興味深い話をします。音声の表現について話しましたが、音声の表現を最初に作り出したのは、ウォルフガング・フォン・ケンペレンという人物です。彼は人間の声道を効果的に表現し、その音を出そうとするアナログ機械を作りました。彼はそれに何十年も費やし、それが母音を生成し始めました。しかし、チェスをプレイするふりをする最初のバイラルなチェスマシンを作ったのも同じ人物だったのです。
それはメカニカル・タークのことですか?
タークと呼ばれていました。しかしその裏にあるクレイジーな事実は、人間によって操作されており、すべては偽物だったということです。それがメカニカル・タークの由来であり、実際に私たちはデータラベリングの生産において、それを機能させるためにその手法を使用しています。
ElevenLabsのビジネスモデルとプロダクト展開
すみません、いきなり本題に入ってしまいましたね。現在のElevenLabsのビジネスを説明するとしたら、人々はあなたたちを音声合成の会社だと考えています。あなたが説明できる大きな領域の範囲において、実際のところビジネスをどのように捉えるべきでしょうか。テキストから音声へ、音声からテキストへ、音声エージェント。ビジネスの内訳を教えてください。
一言で言えば、ElevenLabsは研究およびプロダクト展開の企業であると説明します。私たちは基盤となるオーディオおよび音声モデルを構築し、その後、企業が顧客や従業員とコミュニケーションをとる方法を変革するためのプラットフォームを構築しています。これは、カスタマーサポート、営業、採用、トレーニングから、クリエイティブツール向けのマーケティングやストーリーテリングに至るまで、AIエージェントを通じて適用されます。
その中で、私たちはあらゆる種類の基盤オーディオモデルを作成してきました。音声を生成するためのテキスト読み上げモデル、100以上の言語で機能しベンチマークで他社を圧倒する音声認識モデル、そしてそれらを音楽やその他のオーディオドメインに連携させる対話型モデルに至るまでです。そしてもちろん、モデルだけでなく、それらを実際に本番環境に導入する際、特定のユースケースで企業と対面するプラットフォームの第2レベルが登場します。エージェント特有の例で言えば、これらのモデルをナレッジベース、テレフォニー、アクションを実行するために必要なインテグレーションにどのように接続するか、エージェントが正しい方法で振る舞うかをどのように評価・監視するか、そして適切なセーフガードをどのように構築するかということです。
クリエイティブな側面、マーケティングの側面では、キャンペーンの一つのために良いビデオのナレーションを作成できるように、どのように良い広告を作るか。ブランドを良い形で表現する特定の声でナレーションされた記事をどのように作成するか。そこで私たちは、モデルと協業する顧客の理解を、一つのポリシー・プラットフォームに組み合わせているのです。
すべてのプラットフォーム企業は、アプリケーションの領域にどこまで踏み込むかという問いを抱えています。エコシステム全体を支えるためにどこで水平展開していくのか、それともどこでアプリケーションを開発するのかについて、どのように考えていますか。ElevenLabsの技術の上に構築された字幕ツールのエコシステム全体が成長していくことも想像できるからです。それは必ずしも、あなたたち自身が参入しなければならない領域ではありませんよね。
質問にお答えすると、今日、私たちは自らをプラットフォームと見なしており、もしあなたのビジネスで水平的なユースケースを構築しているなら、私たちが最適な場所になると考えています。多くのドメイン特異性がある場合、時間の経過とともに多くのアプリケーション企業が形成されていくと思いますし、そこは具体的には私たちが参入しない領域です。
この分野のように技術の進歩が非常に速い場合、これもまた興味深いことだと思います。特定分野に特化したプロバイダーが存在するのは一つのことですが、皆さんが仲介されることで生じる最大のリスクは、例えばこの字幕サービスの例のように、ElevenLabsの2つ古いバージョンのモデルに乗っていてアップグレードされていない場合だと想像します。開発した最新かつ最高のモデルを人々に使ってもらいたいし、毎週新しい機能を展開していくわけですから、それは問題ですよね。これだけ変化が速いと、多くの場合に直接提供する必要があるというのが、皆さんの考えの一部なのだと推測します。
その通りです。字幕に関しては、私たちのサービスが顧客が抱えるケースの99.9パーセントを処理できるようになることがすでに分かっています。それに加えて、医療機関の顧客と協力し、その顧客専用のカスタムモデルを作成して転写を完璧に取得するといった利点もあります。文脈というものは字幕において厄介なもので、今回のような技術的な話題を多く話す場では特にそうです。
ええ、間違いありません。
そこで事実上、事前に技術的な辞書が必要になります。私たちは企業と協力する中で、その作成プロセスにそれを組み込む必要があると理解しています。
音声UIの課題と今後の展望
ここまで製品について少し話してきましたが、私が気づいたことの一つは、大規模言語モデルは素晴らしいということです。ChatGPTやGeminiなど人気のモデルの利用統計を見ると、それらは機能しており、人々はそれらを大量に使用しています。しかし音声に関しては、最先端の音声モデルは信じられないほど有能であるにもかかわらず、製品化において大きな遅れがあるように感じます。先日、車を運転して家に帰る途中でPDFを読む必要があったのですが、運転中でした。そこで、よし、携帯電話にPDFを読み上げてもらおうと思いました。iOSのスクリーンリーダーで何とかしようと試みることはできますが、スクロールがうまく機能しません。
理論上はGeminiにアップロードすることもできますが、要約させないようにしようとしたところ、これを読み上げてボタンを押してもフリーズしてしまいました。携帯電話に何かを読み上げさせる方法がなく、これはかなり基本的な機能に思えました。すべての車が音声コントロールを宣伝しているのに、それはひどいものです。別に、ナビゲーションに何かを入力しようとしても、まだまともなバージョンを搭載している車はありません。テスラはあるかもしれませんが。なぜClaude Codeなどで知能の能力をフル活用しているのに、音声に関してはなぜか10年遅れた生活をしているように感じるのでしょうか?
10年遅れているという前提に同意するかどうか考えています。
人々の日常の実際の体験として、Siriの文字起こしを使っていますが、良くなったとはいえ最先端には遠く及ばないということです。
確かにおっしゃる通り、多くのケースにおいて技術そのものと、導入の間にギャップが存在する部分があります。例えば自動車業界では、一部の大手企業が技術を迅速に採用したり、本番環境に導入したりしていないという現状があります。しかし、その過程で解決しなければならない問題はたくさんあります。実際に良い音を出すための音声モデルの品質は、ここ3年ほどの話にすぎません。
ええ、しかし3年です。
3年です。今や自動車にはOTAのソフトウェアアップデートがあります。非同期でテキストをナレーションできる最初の音声モデルが登場して3年です。2年前から、そのリアルタイムバージョンが見られるようになりました。本当のブレイクスルーは1年前で、本番環境でそれが見られるようになった時だと思います。そして2025年にかけて、これまで不可能だった大きな要素は、リアルタイムの音声インタラクションを、あなたが言及したようなこととどのように結びつけるかということです。
何をしたいのか、読みたい資料は何なのかという文脈を持ち、過去のユーザーの好みと結びつけてそれを実現すること。それがようやく可能になり、技術をリードする企業の間で大きな採用が見られるようになったのだと思います。今年は、自動車業界や一部のアプリケーションでも導入が進むはずです。
今年、自動車に優れた音声モデルが搭載され始めると思いますか?
クラウドを利用したユースケースであれば、今年ですね。車載、つまりネットワーク接続なしのオフライン環境では、まだです。もちろん、そのギャップをどのように埋めるかという導入の壁はあります。しかし、次の2年、3年で変わると思います。
PDFを読み上げるユースケースはどうですか? それは機能するはずですよね。
はい。
では、私はどうすればよかったのでしょうか。
当時は…これはElevenReaderの話題につなげるための前置きとして話しますが、私たちもこの問題を抱えていました。2023年に最初のソフトウェアをリリースした際、信じられないほど多くのオーディオブック作家がElevenLabsを訪れました。プロのナレーションを雇う余裕がなく、オーディオブックを作りたいと考えている多くのクリエイターや書籍の著者たちです。しかし、AIが生成したオーディオブックを受け入れる会社は一つもありませんでした。
AudibleなどのプラットフォームではAIオーディオブックを販売できないのですか?
その通りです。AudibleはAIコンテンツをブロックしていました。私たちには選択肢がありませんでした。彼らのために道を作る必要があったのです。
ああ、AIオーディオブックの流通経路がなかったからですね。
その通りです。そこで私たちはElevenReaderを作成し、PDFやテキストをアップロードして、数多くの素晴らしい声で読み上げることができる機能を実装しました。マイケル・ケイン卿の声から、リチャード・ファインマン卿の財団と協力して…
マイケル・ケインのような世界的な方々と協力しているのですか?
その通りです。実際に彼らの声で読み上げさせることができます。それは非常によく機能します。
機能するんですね。どうすれば使えるんですか? 何でもマイケル・ケインの声で読み上げてもらいたいですよ。素晴らしい声ですから。皆さんは、一般的な音声機能を使えるコンシューマー向けアプリを作るべきではないですか? 携帯電話にElevenのアプリがあって、そこにPDFをアップロードしたら、読み上げてもらうなど、私が望む一般的な機能ができるようにしたいです。
ええ、それがまさにElevenReaderです。機能しますよ。
スマートフォンのメーカーはサードパーティのキーボードを許可しています。サードパーティの文字起こしエンジンも許可しているのでしょうか。あるいは今後許可すると思いますか?
スマホメーカーというと。
AppleやGoogleのような、OSのメーカーです。
はい、すべてではありませんが、Androidであれば対応可能です。Nothingテクノロジーやその他のバリエーションもあります。
文字起こしを可能にする人気のElevenアプリがあれば、人々はたくさん使い、最終的にはAppleも、人々が望むならサードパーティの文字起こしエンジンを許可すべきだと言うようになる気がします。彼らもその方向に向かっているように思えます。最近、LLMエコシステムをオープンにすると発表しましたからね。音声エコシステムでも同じことをしてくれると期待しています。これも似たようなものですし。
変化が非常に速い現状では、そうするのは合理的だと思います。
音声のチューリングテストとパーソナライズ
音声アシスタントのパラダイムは、コンピューティングにおいて最も古いUIパラダイムの一つです。1969年のポッドのベイ・ドアを開けろ、HALのようなものです。私はまだ機能していないと主張したいです。Siriには知能がありません。そして、GeminiやChatGPTなどのアプリで音声モードを使おうとすると、あなたはどう思うか分かりませんが、全くうまくいきません。時々、スマートフォンを使っていて、iOSキーボードの音声入力を使ってフィールドに入力し、色々と話してから送信することがあります。このことは、消費者が本当に機能する音声モードを求めているのに、主要なアプリを含めて誰にとってもまだ機能していないことを示唆しています。なぜまだ機能しないのでしょうか?
それを実現するのはかなり難しいのです。なぜなら、ユーザーは2つのことを求めているからです。言いたいことを言えるようにしたいと同時に、システムにそれを実行してほしい時もあれば、自分が話し終わって文章を付け加えるのを待ってほしい時もあります。インタラクティブに反応して質問を返し、詳細を明確にしてほしい時もあります。これらすべてを実現するのは実はかなり難しいのです。
ここで私たちが考える音声エージェントの理想的な魔法のバージョンが登場します。音声認識の要素、文字起こし側の要素、そしてターンテイキングのメカニズムが必要です。いつ文章が終わるのか。沈黙に基づいているのか、それとも文脈に基づいているのか。そして時にはエージェントが話し返して確認したり、少なくともテキストを返して確認し、その後一連の指示を実行したりすることが求められます。その問題は依然として非常に困難です。このオーケストレーションの側面が、人間同士の対話で期待するような振る舞いをする真の対話型エージェントのチューリングテストに合格していないという主張には同意します。
私が言っていることをもっと簡単に言えば、テキストのモデルでは随分前にチューリングテストをパスしたのに、音声のモデルではまだ全くそのレベルに達していないということです。これが最後のフロンティアになっているというのは興味深いですね。特定のドメインでは機能する気がします。カスタマーサポートの電話なら、音声のチューリングテストに合格しますし、うまく機能します。
別のスペクトルを見てみましょう。インタラクティブなゲーム体験、そのゲーム内の他の人間と行うような真のインタラクティブな体験は非常に難しく、さらに先の話になります。そこではまだ合格していません。
ええ、それは理にかなっています。
しかし、それはその中のより単純なバージョンの組み合わせだと思います。すぐに応答を返す場合もあれば、データベースから追加情報を取得するためにツールを呼び出す必要があり、それをどのようにオーケストレーションするかという場合もあります。世の中の企業と協力する中で最もよく見られるのは、これらのシステムを極めてうまく調整したいという要望です。対話型のユースケースであればかなりシンプルで、エージェントをルーティングして会話させることができます。しかし、認証が必要な場合や、データベースから追加情報を引き出す必要がある場合、どうすればいいでしょうか。それをいかに優雅に処理するか。そこが難しくなります。その意味では、ようやくそこまでたどり着きつつあると言えます。それが実現するのを楽しみにしています。私たちの目標は、これらすべてのケースで音声チューリングテストに合格すること、あるいは音声以外のすべての対話型エージェントのチューリングテストに合格することです。
今後1年ほどで私たちが皆そこに到達できることを願っています。
話者固有の最適化と音声生成のコントロール
サブスクリプションビジネスにとって、決済完了前の最後の数秒で多くの収益が失われています。財布を探すために席を立ったり、カード番号を打ち間違えたり、エラーに遭遇したりして諦めてしまい、売上を逃してしまうのです。ElevenLabsのように何十万人ものサブスクライバーを抱える企業にとって、そうした小さな摩擦であっても、積み重なれば大きな損失になります。だからこそ、ElevenLabsはStripeのLinkを使用しているのです。顧客は一度詳細を保存すれば、保存した認証情報を使って100万社以上の企業で数秒でチェックアウトできます。顧客のチェックアウトをより迅速にしたい場合は、StripeのLinkをオンにするべきです。
ところで、あなたたちはパーソナライズされた音声認識に取り組んでいますか。自分たちで事態を難しくしている原因の一つはここにあると感じています。私がSiriに話しかけるとき、私には少しアクセントがあるため、Siriが私を理解するのに苦労することがあります。しかし、私のアクセントは変わりません。単に私の声を聞き取ることに特化すればいいはずです。しかし私の理解では、Siriはグローバルな音声認識モデルを実行しているだけです。ElevenLabsでも同じようにグローバルモデルを実行しているのだと推測します。しかし繰り返しになりますが、あなたにはアクセントがあります。もしコーヒーショップで誰かに近づいて二言発したなら、彼らはあなたの声のポーランドアクセントフィルターを持っていないので、理解するのに苦労するかもしれません。相手が実在の知っている人物であると解釈する方向へ、この技術はどのように進んでいくのでしょうか。
私のケースは検出が非常に難しいですね。私の声は頻繁にテストで使用されています。
あなたはテストスイートの一部なんですね。
テキスト音声合成、音声認識、その他すべてにおいてです。
しかし繰り返しになりますが、グローバルモデルであなたの声を解析しようとすることは、自ら困難を招いているだけです。Mati専用モデルを持つべきです。
文字起こしの部分でですね。まさに私たちが現在導入しようとしている大きな要素には2つの部分があります。1つは事実上、特定の人物や音声を検出することです。これはアクセントの側面でも当てはまりますが、混雑した部屋でも当てはまります。私たちには、高精度を維持しながら話者検出やノイズキャンセリングを継続して行える素晴らしい研究チームがあります。そして2つ目の部分はキーワード検出です。これらの設定において言いたくなる特定の単語があり、それを効果的に監視したいはずです。例えば、コーヒーショップに行って注文する状況について話しました。コーヒーショップが私に期待するアクションのセットです。
それは情報理論ですね。コーヒーに関する単語だけを聞き取ればいいわけですから。
その通りです。そして最も近いものと一致させようとします。この両方が役立ちます。私の声が設定されている環境なら完璧です。それに基づいてデコード・エンコードできます。もし私の声がない場合、あるいはそれを二重に増幅させたい場合でも、私たちはすでにキーワード検出を効果的にサポートしており、これはリアルタイムの設定でも非同期の設定でも有用です。パブの文字起こしに戻ると、以前のポッドキャストから効果的にそれを事前生成し、そこで伝統的に使われる単語のセットを探すことができます。
キーワード検出はすでに行っているのですね。しかし、Matiの声を1時間読み込ませてからMatiの言葉を聞くようにすれば、文字起こしの精度が大幅に向上し、人間を超えるパフォーマンスを得られると思います。これは研究的に非常に難しい問題なのでしょうか?
いいえ、解決可能です。次回のバージョンのいずれかで展開できると考えており、うまくいけば来月には可能になります。
今年中には個人固有の文字起こしを実現できると考えているのですね。
個人固有の文字起こしです。私たちはすでに話者を非常に正確に特定することができます。私たちが話しているとき、誰がいつ話しているかを識別できます。これは文字起こしの側面において、正確さとは別に、話者分離という難しい問題の一つです。私たちはそれを非常にうまくやっています。次は事実上おっしゃる通り、私が聞きたい話者に基づいてファインチューニングすることになります。これは重要になることがわかっています。医療の現場では、これは非常に重要な要素です。手術室にいる医師がコマンドを言うとき、その1人の特定の声をしっかりと聞き取りたいはずです。家にハードウェアデバイスがある場合、例えばテレビをコントロールするリモコンだとします。ここでも、走り回っている家族の声ではなく、あなたの声を聞き取ってほしいでしょう。あるいは全員の声を聞き取るように設定したいかもしれません。それは決定できますが、多くの場合、それを指定できるようにしたいはずです。
それは本当にエキサイティングですね。まだ未解決の研究課題がたくさんあるというのは素晴らしいことです。
ええ、音声モデルの分野では次々とブレイクスルーが起きていますからね。
Speech-to-Speechモデルとカスケード型アプローチ
逆に、音声生成の側面についてはどうでしょうか。Zoomの外見を補正する機能について、私はいつもそれを音声の文脈で考えていました。声のアクセントを取り除くフィルターを提供するべきではないか。あるいは、私がよく聞くポッドキャストがあるのですが、声が少しモゴモゴしていて、発音を少し良くするためにモゴモゴ音除去フィルターを通すべきだといつも思っていました。あるいは速度を落とすとか。
ええ、発音を少し良くするとかですね。
画像をPhotoshopで加工するように、音声からテキスト、テキストから音声ではなく、基本的に音声から音声への変換について考えたことはありますか?
はい。大きく分けて2つの部分があります。1つは音声生成側で、同じようにまだ多くの革新があります。より広い部分として、私たちは初めてそれを解決するV3モデルをリリースしました。音声をコントロールできるかということです。テキストから音声へ変換する際、感情的に素晴らしい聞こえ方のものを生成できます。以前は、昨年の終わりまで事実上、最高のパフォーマンスが何かを決定するのはモデルに依存していました。再生成することはできましたが、最終的にはモデルが最高のパフォーマンスを決定していました。そこで制御性が登場し、よりゆっくり話すとか、劇的な間の取り方を変えるといった指示や、どんな合図でも与えることができるようになりました。
これを行うには、アーキテクチャの変更と、長年にわたって作成してきたデータが必要でした。何をどのように話したかをアノテーションすることで、モデルがそれを実行できるようにトレーニングできるのです。今日、ついに音声生成や音声エージェント体験全体において、私たちが表現豊かモードと呼ぶものを利用できるようになりました。エージェントが相手の感情を認識できるのです。もし相手がストレスを感じていれば、反応して安心させるような応答を生成し、一連の感情を込めて応答することができます。このブレイクスルーは非常に困難でした。もちろん、これはあなたが言ったことの多くに広がります。それがリアルタイムであれ、パルス設定での配信方法の変更であれ、音声強調の何らかのバージョンになり得ます。これは比較的最近の革新であり、私たちはこれがさらに良くなることを知っています。それをどのように表現したいかというエッジケースの範囲はかなり広いです。これが1つ目です。
そして質問の2つ目の部分は非常に大きなテーマですが、それが音声から音声へと直接変換するモデルです。おっしゃる通り、私たちが音声エージェントや対話型エージェントについて考える際のアプローチは、事実上カスケード型のアプローチです。文字起こし、言語モデル、テキスト音声合成を使用し、これらすべてを連携させます。そして、音声から直接音声へと移行し、反対側に音声の応答を返すアプローチがあります。
音声から音声へと直接変換するモデルと言う場合、中間でテキストをエンコードとして経由しないという考え方ですか?
その通りです。
おお、興味深いですね。それはパフォーマンスの理由からですか? 精度の理由からですか?
通常は遅延をなくすためです。
文字起こしをしてから生成する必要がないモデルを実行する方が速いですよね。
まさにその通りです。速いですが、その反面、信頼性を失います。パイプラインの各部分に対する可視性を完全に失うのです。感情表現においては、どちらのアプローチでも両方の側面で極めて優れた結果を提供できると考えており、もしかするとより制御しやすくすることもできるかもしれません。現在、私たちはカスケード型のアプローチに大きく最適化しています。
すみません、カスケード型のアプローチとは?
テキストレイヤーを経由するということですね。私たちが多くの企業と協力する中で、彼らはシステム内で何が起きているかの可視性を必要とします。その上で特定のタスクを実行したいと考えています。各ステップへの優れた可視性と、すべてのモデルの優れた精度を求めているのです。しかしそれを超えれば、言語モデルのレイヤーが何であるか、インテリジェンスレイヤーが何であるかを抽象化することができ、そのシステム内でのインテグレーションが容易になります。だからこそ私たちは、それをいかに素晴らしいものにするかという研究開発に大きな賭けをしており、それは可能だと確信しています。
音声から音声へと直接変換するモデルにおいては、アプリケーションのコンパニオンバージョンに近いものを考えた場合、そこで花開くでしょう。なぜなら、そこではAIの誤情報であるハルシネーションはそれほど重要ではなく、遅延のなさの方が重視され、もしかするとハルシネーションさえも特徴になり得るからです。もしかすると未来の未来には、その部分を締めくくるとして、モデルを組み合わせたバージョンが登場するかもしれません。複雑性の低い簡単なタスクには音声から音声への直接変換を利用し、より複雑なものにはカスケード型を使用するといった具合です。
これについて聞きたいと思っていました。文字の発明が人間の脳をどのように変え、実際の書き言葉を超えて神経回路をどのように変化させたかについての研究があるのをご存知だと思います。音声から直接音声を生成するモデルはカスケード型モデルとは異なる思考をすると観察していますか? なんとなく、彼らの方が愚かであるように聞こえます。
間違いなくより愚かです。より小さなモデルが必要です。
しかし、モデルにテキストについて推論させることで、彼らはより多くの知識を持っており、より賢くなるというのは面白いですね。
ええ、しかし直接変換を行う場合、通常はより小さなモデルを使用するため、速度は速いままです。
なるほど。単純にモデルサイズの問題でもあるわけですね。しかし、サイズのような相関関係を超えた興味深い違いはあるのでしょうか?
あなたの質問とは少し異なりますが、私が言えることは、音声を通じたやり取りを行う人々と、彼らがビジネスとどのように関わるかというパフォーマンスは、私たちとのやり取りの性質自体によって変化するということです。良い例として、ElevenLabsに連絡して興味を登録する際、フォームに入力していくことができますが、そのプロセスの最後に、フォームに入力する代わりにエージェントと話して詳細を残すことができるように補足しました。そこで2つのことが起きました。1つは、人々がエージェントと話すことを通じてフォームを残すことにずっと積極的になり、フォームのプロセスをより簡単に進められたことです。
しかし2つ目に、彼らは自分のユースケースが何であるかについて、ずっとオープンエンドに話すようになりました。彼らは、より幅広いユースケースやその複雑性についての情報を私たちに提供し始めました。文字を書き出すのは面倒で厄介なことです。
まるでオープンワールドのアドベンチャーゲームのようですね。
オープンエンドです。フォローアップの質問をしたり、明確にしたりできます。しかし、人々はよりリラックスして、それが機能しているとシステムを信頼しながら行うことができました。それが私たちに大いに役立ちました。そして3つ目は、これはもしかすると技術的な障壁かもしれませんが、すべての言語で機能するということです。今では世界中から見込み客が寄せられ、詳細を残してくれます。私たちはそのユースケースを実施し、現在では数社が独自の営業開発バージョンのエージェントを構築しており、銀行から自動車会社に至るまで、音声による対話を好む人々が残した見込み客を獲得するのに役立っています。
音声AIがもたらす二次的効果
その二次的な効果について聞きたいです。以前、あなたがポーランドで育った頃の話をされていましたね。テレビ番組の吹き替えが安上がりだったので、一つの番組に声優が一人しかおらず、男女のすべての役柄に関係なく、愛しているわ、俺も愛しているよ、といった具合で、一人の声優がすべてをこなしていたと。今では、優れた音声モデルのおかげで、すべての吹き替えにおいてAIが生成した本当に素晴らしい声を使うことができるようになります。以前行われていた素晴らしい吹き替えの仕事を奪うわけではなく、ポーランドで以前行われていたひどい吹き替えを改善するわけですから。
それが二次的効果の一例ですが、高品質な音声合成や文字起こしがどこにでも存在するようになることで、他にどのような二次的効果が見られますか。英語に関係なく、ポーランド語やアイルランド語、その他の言語でこれまで存在しなかったような幅広い言語にわたって影響があるように思えます。
1つは、言語の壁を打ち破ることです。そのインスピレーションは映画から来ましたが、あらゆるコミュニケーション環境にも当てはまります。将来、私が他の国へ旅行し、ポーランド語や英語を話したとして、その言語が現地の母国語で理解されないことがあるでしょうか。銀河ヒッチハイク・ガイドに登場するバベルの魚のような世界です。世界を実際に理解できるようになるのです。もちろん、音声はインタラクションのレイヤーになります。しかし同様に、私たち全員が、自分の代わりに手助けしてくれる独自の拡張機能や音声エージェントを持つようになるでしょう。
声を失った人々が初めて声を取り戻すことができるという、非常に明確で素晴らしい例があります。ALSや喉頭がんで声を失った人々が声を取り戻すといった例は至る所で見られます。つい最近も、Neuralinkを埋め込んだ患者の例がありました。私たちは彼らと協力し、その人が家族に囲まれて自分自身の声で話せるように、声を取り戻すお手伝いをしました。また、結婚前に声を失った女性とも協力しました。技術がついに可能になり、私たちは彼女の声を再現することができました。彼女は初めて結婚式の誓いを再現し、一緒に誓いの言葉を述べることができたのです。それは非常に心温まる瞬間でした。
それは本当に素敵な話ですね。
私たちが行っているすべての仕事の中で、おそらく最も重要なことでしょう。
音声エージェントについて話すとき、音声エージェントとは、何らかの長く実行される、あるいは永続的なエージェントが、音声を通じて外の世界とやり取りするという考え方のことですか? カスタマーサービスはその一例ですよね。別の方向性として、自分のClaudeにレストランの予約を頼み、実際にレストランに電話をかけてもらうようなものです。音声エージェントはそのように考えるべきでしょうか。
その通りです。顧客と対話する受動的な側面であれ、電話をかけ直す能動的な側面であれ、です。最近、非常に興味深いトピックがありました。ギネスビールに関連したもので、ある開発者が事実上Guinndexというものを開発していました。
ああ、それ見ましたよ。パブでの一杯の値段を確認するために、アイルランド中のパブに電話をかけていたんですよね。
それを尋ねたり、情報を報告したりできました。
GuinndexはElevenLabsの技術で作られたのですか?
ElevenLabsでも構築されました。人々は実際に両方の側を行うことができました。能動的にアプローチすることも、受動的にアプローチすることもでき、常にフルボイスをキャプチャできました。そして3000の異なる事業体が価格を報告し、それを広めることができたのです。
ところで、あなた自身のOpenClawをElevenLabsに接続しましたか? OpenClawとElevenLabsの組み合わせは、ElevenLabsの多くの人が行っていることですか?
ご存知の通り、OpenClawは接続しようとする際に最も人気のあるツールを探します。ElevenLabsは推奨されるツールの一つであり、音声に関してはトップの選択肢です。
音声AIモデルのビジネスとスケーラビリティ
音声モデルのビジネスについて少し教えていただけますか。大規模言語モデルについては、非常に高価な学習プロセスがあり、すぐに陳腐化するものの、非常に多くの利用があるため、これまでトレーニングされたすべてのモデルが学習コストを回収して余りある利益を生んでいるという直感を人々は持っていると思います。そして、推論だけでなくトレーニングにもさらに巨額の設備投資がつぎ込まれています。人々は言語モデルの世界からある種の直感を得ています。音声モデルについてはどのように考えるべきか興味があります。まず、音声モデルのトレーニングはどれくらい高価なのでしょうか? 費用は研究者にかかるのですか、それともトレーニングの実行にかかるのですか? 経済的側面は、おそらく単なる使用量ベースでシンプルだと思いますが。ビジネス全体について説明してください。
言語モデルや画像・動画モデルと比較すると、間違いなく安価です。はるかに小規模なモデルです。
モデルは小さいのですか?
小さいです。数十億から数百億パラメータのモデルです。
比較としてですが、CPUはより多くのコアに移行するにつれて、最終的に指標としてのギガヘルツから離れましたよね。私たちは単なるパラメータ数からはほぼ離れつつあると思いますが、最先端の言語モデルは数千億のパラメータを持っていると思います。
最先端のものはそうですね。しかしもちろん、より低いスケールで使用するバリエーションもあります。設備投資は依然としてかなり高いです。私たちは最近、110億ドルの評価額で5億ドルを調達しました。世界最高のモデルを構築し続けるためです。研究者について言えば、もちろん世界最高の人材を求めます。私たちはオーディオ分野で働く素晴らしい人材と、その研究を率いる共同創業者に恵まれていると思います。それは資金面だけでなく、最先端のモデルを構築し続けるという野心的な展開を維持することが、この分野でより多くの才能を引き付ける上で間違いなく大きな要素となっています。
そしてサービス提供の方法についてですが、推論コストはもちろんモデルがどのように使用されるかと相関しています。私たちは全体的に信じられないほどの成長を遂げてきました。課金は主に入力テキスト、またはテキスト読み上げであれば通常テキストトークンごとになります。音声エージェントや文字起こしであれば、分単位になります。これらが大きな部分を占めています。しかし全体的に見れば、通常はトークンベースです。もちろん企業との取引では年間契約のようになります。支出やコミットメントが大きいほど、割引率も大きくなります。私たちが通常行う方法は、新しいモデルができたとき、最高の体験をしてもらうために、多くの顧客に原価で提供しようとするものです。
それは面白いですね。新しいものは最も高価になることが多いのに、あなたたちは最新のものを最も経済的に魅力的なものにしているのですか?
顧客に魅力的だと感じてもらえるようにしています。私たちにとっては、以前のどの世代よりもコストがかかります。品質は高くなっていますが、価格は引き続き競争力のあるものに保とうとしています。
なるほど。補助金を出しているようなものですが、本質的にはより大きなモデルとしてコストがかかっているわけですね。
その通りです。将来的には最適化のための工夫をするかもしれませんが、まずは顧客に体験してもらいたいのです。研究開発の結果、初期のモデルでは信頼性がまだ十分に備わっていないかもしれないという大きな課題がありました。そして2つ目に、人々はそのモデルで何が可能かさえ知らなかったのです。可能な限り広く配布し、何が可能かを世界中に示してもらいたいと考えました。もちろん、その配布メカニズムを通じて、何を改善し何を変更すべきかを自ら学び、そして世に出していくのです。
音声モデルはただ大きくなり続けているのでしょうか? 数千億パラメータの音声モデルが登場するのでしょうか、それとも上限を見つけたのでしょうか? 特定のモデルアーキテクチャについては、自然なサイズの上限があるように思えます。音声モデルの上限は見つかったのでしょうか? 例えばオーディオブックのナレーションのような特定のユースケースでは、おそらくそのサイズを見つけたのでしょう。品質を大幅に高めるために無理に大きくする必要はおそらくありませんが、特定のユースケースでは成長していくでしょう。
質問に少し躊躇した理由は、カスケード型のアプローチにおいては、おそらく劇的なサイズの変更は見られないだろうからです。モデルは高速で信頼性が高いことが本質的に求められます。それらをスマートな方法でオーケストレーションしたいのです。融合型アプローチでは、テキスト側と音声側を組み合わせるため、数十億から数百億パラメータのモデルになるでしょう。したがってそれは大きくなりますが、純粋な音声については引き続き小さいままだと思います。特定のドメインではより大きなモデルが見られるということですね。
それは非常に興味深いですね。さまざまな未解決の側面があり、あなたたちが技術的ブレイクスルーを起こして製品パイプラインにリリースしていくというのは、研究の観点から見ても楽しいことのように思えます。それは企業のライフサイクルにおいて非常に楽しい段階ですよね。
間違いありません。研究側にも製品側にも多くの革新を起こせるので楽しいです。最終的な最大の部分は、それをどのように顧客に展開するかということです。中堅・中小企業と大企業とでは全く異なるダイナミクスがあります。大企業に製品を提供する単なるベンダーとSaaSの関係ではなく、彼らのAIトランスフォーメーションにおけるパートナーとなるのです。彼らの傍らで協力し、頻繁に発生するこれまで不可能だった新しいユースケースに取り組み、音声エージェントを本番環境に導入する手助けをするリソースが求められます。これは大きな変化です。最大の焦点は、対話型エージェントを世界中の企業にどのように届けるかということです。
対話型エージェントの提供が最大の優先事項だと言う場合、それはカスタマーサービスのようなユースケース向けですか? 対話型エージェントの最も人気のあるユースケースは何ですか?
私たちは、企業とその顧客、あるいはオーディエンスとの間のあらゆる対話のパートナーになりたいと考えています。オーディエンスと言ったのは、それがサポート分野にも適用されるからです。サポート分野は最も準備が整っているため、最も簡単です。これが、私たちが自らをこの分野の他社とどう見ているかの大きな違いかもしれません。これは営業にも適用できます。折り返し電話をかけるといった能動的な側面もありますし、AIによる営業開発バージョンもあります。そしてマーケティングのユースケースに至るまで、対話型エージェントの領域外でも優れたマーケティングキャンペーンを作成するためのパートナーとなります。
それはどのように分類されるのでしょうか。以前、IntercomのDes Traynorさんがここに来て、彼らにはFinというエージェントがあり、ウェブサイトで話しかけることができると説明していました。彼もあなたが説明したのと非常に似た現象について語っていました。ああ、これはカスタマーサポートの問い合わせに答えるのに役立つだろうと考え始めるのですが、やがてそれがウェブサイトの汎用的なUIになり、そこに入力してタスクを実行したり物事を理解したりするボックスになるというのです。なぜドキュメントを読んでインテグレーションを設計しないのかと。まあそれはいいとして。テキスト用と音声用をそれぞれ持つことになるのでしょうか? あなたたちもテキストを扱うのですか? FinやSierraなどによってテキストレベルでもこれが成功しているように思えるからです。
私たちが最大の価値を提供できると分かっている場所は、最終的に今日、対話の大部分または大半が音声で行われている場所です。もしその接点が存在するなら、そこでより高い価値を提供できます。もちろん、そこにテキストのチャットボットが必要であれば、音声エージェントを修正すれば、テキスト部分も本質的に修正されます。今日私たちが最適化している領域は、顧客との対話に適した声をどのように選択し、それをどのように引き出すかということです。あなたが先ほど言及した、ドキュメントの奥深くを検索するために一時停止したり、サポートだけでなくユーザー体験全体にわたってビジネス全体の拡張としてどのようにオーケストレーションするかという非常に複雑なケースにおいてです。
結論として、私たちはインタラクション全体にわたって提供できるようにしたいと考えています。音声は通常、それらのインタラクションの大きな部分を占めます。インテグレーションを解決し、ナレッジを解決し、その一部としてテキストも解決する必要があります。例えば、マルチタッチや複雑なアクション、あるいは大量の財務分析が必要とされる推論バージョンのユースケースには深く入り込むことはないと思います。
ええ、多くの複雑なアクションですね。多くの財務分析のような。
それは私たちが最適化する対象ではありません。
急成長の背景とGo-to-Market戦略
収益の立ち上がりについて話してもいいですか。あなたたちは過去数年間で、単純に最も急速に成長しているスタートアップの一つです。最近発表された収益額はいくらですか?教えていただける数字なら何でも構いません。
最近発表した2025年末時点での数字は3億5000万ドルでした。技術が機能していることの最高の証として、最近私たちは、Deutsche TelekomやT-Mobile、Revolut、Klarna、Meta、IBMなどと幅広いユースケースで協力しています。この四半期はエンタープライズの成長にとって最高の一つであり、第1四半期に1億ドルの追加純新規ARRの成長を記録しました。これはクレイジーなことです。
もしこの四半期が1億ドルの純新規ARRで、年末には3億5000万ドルだったと考えると、私は数学者ではありませんが、4億5000万ドルの範囲に乗っていることになります。昨年の今頃と比較すると、数倍の増加です。一体何がうまくいっているのですか? 外から見ると、既存顧客内での非常に強いコホート成長があり、セルフサーブとエンタープライズの両方のビジネスが大きく貢献しているように見えます。セルフサーブの規模がどれくらいかは分かりませんが、一人のユーザーとして、営業と話すことなくElevenLabsをいじることができるのはありがたいです。あっという間にARR 4億5000万ドル以上に達した背景で、何が機能したのかについてお話しいただけますか。
今では50パーセント以上がセールス主導のエンタープライズになっています。その技術が自律的なやり取りの多くを支えており、この1年、1年半の間に高品質であると同時に信頼性の高いものになったことが大きな理由だと思います。ご存知の通り、アカウントを開始して、その後もちろん拡張が続きます。ElevenLabsには間違いなく導入して拡大するという動きが見られます。
その拡大とはどのようなものですか。新しい部門への展開ですか? それとも単に使用量が急増するのでしょうか? 顧客が拡大するとき…
両方です。通常、最初の部分でも、私たちは顧客にとって非常に簡単に導入できるようにしています。技術が価値を提供すると非常に信じているため、ある意味私たち自身に不利になるかもしれませんが、非常に魅力的な経済性で技術を提供しています。実際に試してテストすることができるのです。そして、その1つの部門の中で、基本的には利用量で回収できると考えているのですね。
その通りです。価値を提供していることがわかるため、利用量やコミットメントが増え続けます。そうなれば、その選択肢をとることはずっと容易になります。そしてもちろん、部門間の相互影響もあります。Deutsche Telekomとの仕事はマーケティング側から始まりました。Magentaの仕事とポッドキャスト生成を行いました。その後、カスタマーサポートに拡大しました。そして、ネットワーク全体のエージェントに取り組むまでに拡大し、人々が電話をかけてエージェントと話せるようになりました。そうした段階的な変化が見られました。
現在、私たちは470人の規模の会社になり、成長を続けています。一貫して維持していることの一つは、小さなチームです。プロダクトや研究の各イニシアチブにおいて、あるいはGo-to-market戦略の分割を考える際にも、業界を深く理解し、市場を深く理解し、独立して迅速に行動する10人未満の小さなチームがあります。これが間違いなく成長に大きく貢献しました。
2つ目に、特に最大手企業に対して機能していると分かったのは、私たちにはフルスペクトルのアプローチがあるということです。ElevenLabsの流通と認知度を高めるためのセルフサーブの動きがあります。そして全く反対側のスペクトルには、顧客と並走し、彼らのプロジェクト全体をカスタマイズする、導入エンジニアリングによる手厚いサポートがあります。
なぜセルフサーブを導入したのですか? あなたたちの競合他社は技術を持っていても、それは営業への問い合わせフォームの裏にあり、営業担当者と話し、その後アカウントエグゼクティブと話さなければならないと推測します。しかしあなたたちは、技術をただサイト上で利用できるようにしています。私はこのアプローチの強力な信奉者です。Stripeの成長の大きな部分は、Stripeを誰でも利用できるようにし、その採用パターンを中心に多くの製品を構築したという事実に牽引されています。しかし、非常に多くの企業がそれをスキップしているようです。あなたたちがどのようにしてその結論に至ったのか興味があります。
理由はたくさんあります。すぐに思いつくものの一つは、フィードバックループです。自分たちの技術がどれほど優れているかを即座に理解できます。2つ目は、その延長線上にあります。私たちは自分たちの技術を支持しています。モデル、音声エージェント、展開において世界最高だと信じています。だから人々にそれを体験してもらいたいのです。Stripeでも同じようにしていると思いますが、世界最高のバージョンの技術が誰にでも利用できるようになっていれば、実際に試してみる動機として非常に魅力的です。私たちは常に、最もハイエンドなユースケース向けに構築したものすべてを、無料でエコシステムに還元しようと努めています。頻繁に起こることですが、最も新しいユースケースは…
エンタープライズの場合、私たちが提供している信頼性、コンプライアンス、スケールが必要です。新しい技術を開発した際、これらのパラメータの多くを満たしていないかもしれませんが、開発者や中堅・中小企業向けには間違いなく準備が整っています。私たちは彼らがやっていることが大好きです。なぜなら、彼らは未来を示し、ElevenLabsが向かうべき軌道を見つけるのを事実上助けてくれるからです。
完全に納得しました。ただ、なぜもっと多くの企業がこれを追求しないのかいつも不思議に思います。やらないことで自分の足を撃っているように感じますからね。あなたたちはStripe上でセルフサーブを行っていたのですか? 例えばElevenLabsは巨大企業ですが、セルフサーブベースでStripeを使い始めたのですね。
当初は私たち2人から始まりました。業界で何がうまくいっているかを見極めようとしますが、第一原理から考えようとします。試してみたい、どのように機能するのか理解したい。試す前の摩擦要素が多ければ多いほど、利用できるのかどうか、追加の隠れた支払いがあるのではないかといった不信感が募り、そのステップを進みたくなくなります。非常に影響が大きいです。
Stripeと言えば、私たちに対するStripeへのフィードバックは何かありますか? 修正してほしい点などは?
最近までの最も一般的なフィードバックは、なぜ従量課金制、使用量ベースの請求タイプのバージョンを提供してくれないのかというものでした。当社の財務責任者の一人であるMaciejが、あなたのチームと前日に話していたのを知っています。
彼は素晴らしいです。長い間それについて考えていました。彼は本当に素晴らしいですね。Metronomeを買収するべきだと言ったのは彼でしたか?
Metronomeを買収するべきだと。そしてその翌日にMetronomeの買収が発表されましたね。今ではそれが利用可能です。それが私の最も一般的なフィードバックでした。
このポッドキャストでの良い発表になりますね。すべての人に向けた使用量ベースの請求を開始します。すみません、驚きました。以前はエンタープライズベースで提供していましたが、セルフサーブベースではすべて…
サブスクリプションがありましたね。サブスクリプションプランでは上限を超えることができましたが、今では完全な従量課金体験を展開しています。音声エンジン、事実上このオーケストレーションループ全体を、あるいはどのモデルでも直接試すことができます。
セルフサーブの話に戻ると、AIにおける新しい常識として、すべてのセルフサーブ製品は従量課金をオプションとして持つべきだと思います。無制限ティアを含むサブスクリプションを持ちたいかもしれませんが、Claudeを使っていてクエリを入力し続け、最終的にレート制限に達して申し訳ありません、利用限度に達しましたと言われた経験があるか分かりませんが、APIごとに支払うということをできるようにしたいはずです。お金は払うからもっと使わせてくれということです。消費者として、製品をもっと使うために追加でお金を支払うオプションがないというのは非常に滑稽です。すべてのAI製品にはそれが必要になると思います。おそらく制限付きの食べ放題サブスクリプションと、超過分を支払う機能の両方を持たせたいのでしょう。あなたたちがやっているのはそういうことのように聞こえます。
ええ、まさにその通りです。それが私たちがやっていることです。
AI時代の組織デザインとマネジメント
最後に一つお聞きしたいのは、今日の大企業のCEOたちは皆、これらすべてのAIの進歩が組織の性質をどのように変え、この新しい知能の周りで組織をどのように再設計するかに頭を悩ませていると感じます。仕事をするために必要な人数のスケーリング要素についてかもしれません。また、シニア人材がAIをよりうまく指示できるためよりシニアな人材が必要になるのか、あるいは以前はジュニア人材がやっていた仕事をAIができるようになるのかという点も重要です。働き方がよりAIネイティブになるため、より多くのジュニア人材が必要なのでしょうか。チームは小さくするべきか、大きくするべきか。実際のプロセス・エンジニアリングをどのように行うのでしょうか。
財務チームはClaudeを広範に使用すべきです。歴史的に財務チームには自社開発のソフトウェアがあまりありません。このようにさまざまな疑問が飛び交っている中で、あなたたちは非常に急速にはるかにAIネイティブな企業を構築しました。これまでどうやってきたかという何十年ものしがらみを持たずに最近構築された大企業として、ElevenLabsから私たちが何を学ぶべきか興味があります。
私たちは2022年にスタートしました。その年の二大トピックはクリプトとメタバースでした。まさにAIの波が始まる直前ですね。AIの波の中でスケールしたわけですから。その通りです。すべてが起きている最中の世界を通じてスケールするという特権を得ることができました。私たちにとってうまく機能していることで、これが未来の大きな部分になると固く信じていることがあります。
1つ目は、小さなチームを維持し、組織を極めてフラットに保つことです。私と共同創業者にはそれぞれ15人以上の直属の部下がいます。そして、それらの人々の多くも同規模の直属の部下を持っています。あなたの管理スパンは従来の企業よりもはるかに大きいのですね。通常は8人程度ですが、あなたはその倍を抱えており、明らかにそれは指数関数的です。
その通りです。もちろん、短期的にはそうならないチームもありますが、最終的にはそこに向かうと考えています。それぞれの業務アイテムにおけるチーム規模はだいたい10人程度です。気を悪くしないでほしいのですが、スタートアップはしばしばかなり風変わりな経営理念を持っています。経営理論についてブログを書いている初期のスタートアップ創業者のような自信を私に与えたまえという面白いツイートがありました。これがスタートアップ効果ではなく、基本的にAI効果だと考えているのですか?
いや、間違いなく少しはスタートアップ効果がありますね。これが後知恵の恩恵だということに気づきました。私のStripeでの変更はキャンセルしますよ。いや、私が先手を打つ必要がありますね。これがうまくいくかどうかは、今後の5年から10年で分かるでしょう。
はるかにフラットな組織ですね。
はるかにフラットな組織です。スマートなチーム。私たちには機能していますが、すべての企業には機能しないかもしれません。Go-to-marketなど、最善の方法を見つけようとしている部分もあります。しかし、より小さなチーム、よりフラットな組織です。
2つのパラダイムがあると思いますが、一般的に人々がより技術的であること、あるいは技術的でなくても、非技術的なチームに技術的なリソースを配置することです。私たちの運用や採用チームには、そのチームのために多くの作業を自動化し、チーム全体のレベルアップを助ける事実上のテックリードがいます。これは役立っている2つの要素です。
採用などの部門でどのように機能しているか教えてください。他の企業がソフトウェアを購入するようなところで、独自のソフトウェアを構築しているということですか? それとも既存のソフトウェアをよりうまく使いこなしているのでしょうか? 従来の企業ではスプレッドシートで行われるプロセスがソフトウェアで構築されているのですか? これらの組織でソフトウェアをどのように使用していますか?
時と場合によりますが、私たちは依然として従来のベンダーを多く使用しています。1つのパターンは、もちろんすべてを言語モデル化することです。パイプラインに誰がいるか、何がうまくいったか、誰が最高のリファレンスを提供しているかといったデータを探索可能にし、対話できるようにして、そこに注力できるようにすることです。
2つ目は、現在エージェントができることと、もし技術的なスキルセットがあればできることの間にギャップがあり、それを手動で行っているケースがよくあります。良い例として、適切な候補者にアプローチするために、どのようにしてすべての適切なプロフィールを抽出するかということがあります。どれくらい言っていいのか分かりませんが、うまくいったと分かっている特定のことを見つけ出そうと分析します。それを人々に提供するのです。
ビジネスの側面では、追加の増幅器があればできることが本当にたくさんあります。どの事例が関連しているかを理解し、会議に行く前に良い事前資料を作成することから、先ほど話したAIエージェントの体験を作成すること、そしてプレゼン資料の体験全体を作成することまであります。顧客に合わせてカスタマイズされた適切な数字が事前に入力されたプレゼン資料があり、最終的には担当者に目を通して完成させてもらいますが、基本的にはそこにあるのです。周囲の人々の作業を増幅させたり、行われている簡単なタスクの一部を置き換えたりできる追加機能はたくさんあります。
そして、私たちは人々にElevenLabsのカルチャーを探求してもらいたいと考えました。そこで、人々が話しかけてカルチャーを確認するだけでなく、面接の準備もできる音声エージェントを作成しました。これらの多くのチームにわたって、彼らができることの追加のメリットがあると思います。
興味深い話があります。もちろんウクライナで私たちは継続的な仕事をしています。彼らは、国中の市民に対する開発、システム、サポートの仕組みの多くを再考する必要があります。戦争地域にいる人々は、情報に同じようにアクセスできません。同じ電話回線に頼ることも、国内の同じ物理的サービスに頼ることもできません。彼らは長年かけて開発してきた中央マップを開発していたため連絡をくれました。しかし今、彼らはこれが市民をサポートする方法になり得ると考え、注力していました。
もちろん、最前線で何が起きているか、教育に関する支援を行う自律的な政府の最初のバージョンをどのように構築するかという簡単な部分があり、それは全員に提供されます。あるいは、健康診断や予約を取ることができる医療分野。それらすべてをどのように作成するか。もちろん、私たちはキーウへ行き、彼らと協力してそれらを導入し、誰もがアクセスできるように音声で利用可能にしました。しかし、そこにいる間に学んだことは、私たちが話している各チームに技術的リソースを配置するというモデルを、彼らは実際のすべての省庁に配置していたということです。
各省庁には、業務のエージェンティック・バージョンを作成する技術的リソースがありました。そして、それらをすべて集めて中央の市民サポートを通じて提供する中央デジタルトランスフォーメーションチームが存在しました。これは素晴らしいと思いました。
ウクライナは非常にテクノロジー先進的ですね。
非常に先進的です。私たちが見た中で最も高度な仕事のセットです。少し確信を持てました。おそらく各チームに技術的リソースを配置するのは良いアイデアだと。それは私たちにとって大いに役立っています。
あなたが言及した、シニアを採用するか若手を採用するかという別の部分についてですが、私たちがフィルタリングしようとしている主なことは、もちろんカルチャーの要素が非常に重要だということです。人をスケールさせることはできますが、カルチャーをスケールさせるのははるかに難しい。カルチャーが適切であることを最適化したいのです。私たちの場合、それは第一原理主義、オーナーシップを持つこと、卓越性を追求しながらも謙虚さを保つことです。
AIの世界においてうまく機能すると私が考える、そのオーナーシップの部分にある主なものはエージェンシー、主体性です。経験サイクルのどこにいようとも、探求するその主体性を持っていれば、それはあなたの仕事にとってとてつもない増幅器になります。
これまでのすべての話から得た私の最大の教訓は、その主体性に関するものです。AIの進歩の勝者は主体性の高い人々であり、組織内では主体性の低い人々が敗北するだろうと感じています。
完全に同意します。Piotrと私がElevenLabsをスケールさせてきた中で、ElevenLabsにいる人々、カルチャー、そしてそのカルチャーの拡大を見ることがおそらく最も誇りに思っていることです。特定の個人や特定のプロダクトではなく、カルチャーが会社を構築しているのです。それがおそらく最大の確証であり、幸福です。もう一つの側面として、人々は自分の技術や仕事において並外れた存在になろうと努力しながら、同時に多くの仕事を楽しんでいるのだと思います。その主体性と自分のやっていることを楽しむことの組み合わせが、今日私たちがElevenLabsでできているおそらく最高のことです。
私たちが話していたように、本当に楽しいステージにあるように聞こえます。興味深い研究のブレイクスルーがあり、非常に急成長しているビジネスがある。間違いなく楽しんでいらっしゃるでしょう。Matiさん、ありがとうございました。
Johnさん、本当にありがとうございました。


コメント