本動画は、AI音声技術のリーディングカンパニーであるElevenLabsの共同創設者Mati Staniszewski氏へのインタビューである。大手基盤モデル企業がマルチモーダル化を進める中で、ElevenLabsがいかにして音声AI分野で競争優位性を築いてきたかを詳しく解説している。音声AIとテキストAIの技術的差異、企業が求める品質・レイテンシ・信頼性の要件、音声エージェントの現状と課題、そして音声が言語バリアを破壊する可能性について語られている。また、ヨーロッパでのAI企業経営の実情や、音声インターフェースが将来のテクノロジー体験の中核となるという展望も示されている。
ElevenLabs創業の背景
2021年後期、インスピレーションはPeterから生まれました。彼がガールフレンドと映画を見ようとしていたとき、彼女は英語を話さなかったので、ポーランド語に切り替えました。それが私たちを、私たちが育った環境のことを思い出させました。ポーランドで見るすべての映画、外国映画はすべて同じ声で吹き替えられているのです。男性の声でも女性の声でも、すべて1人のキャラクターが単調なナレーションで語るという、ひどい体験です。今でもそれが続いています。私は「すごいな」と思いました。これは変わるだろうと思いました。
本日は、11 LabsのMattie Stenosvski氏をお迎えしています。大手基盤モデル研究所がマルチモーダリティの一環として音声分野に拡大する中、11 LabsがAI音声分野でいかにして守備可能なポジションを築いてきたかについてお話しします。
音声AIとテキストAIの構築における技術的違いについて深く掘り下げていきます。データとアーキテクチャの観点から、驚くほど異なることが判明しています。Mattie氏は、11 Labsが音声に絞って集中することでいかに競争力を維持してきたか、彼らが克服してきた具体的なエンジニアリングの課題、そしてベンチマークを超えて企業顧客が実際に重視していることについて詳しく説明してくれます。
また、インターフェースとしての音声の未来、リアルな会話を処理できるAIエージェント構築の課題、そしてAIが言語の壁を破る可能性についても探究します。Mattie氏は、ヨーロッパでの会社設立についての考えや、なぜ予想より早く人間レベルの音声インタラクションに到達するかもしれないと考えているかについても語ってくれます。ショーをお楽しみください。
Mati、ショーへようこそ。
ありがとうございます。お招きいただき光栄です。
基盤モデルとの競争について
まず最初の質問ですが、数年前に11 Labsが本格的に台頭し始めたとき、あなたたちは基盤モデルの前で無力になるだろうという考え方がありました。しかし、ここにいるあなたたちはまだかなり好調です。何が起こったのでしょうか?マルチモーダリティや大手基盤モデル研究所をいかにして食い止め、自分たちにとって非常に興味深いポジションを築くことができたのでしょうか?
この数年は非常にエキサイティングでした。基盤モデルとの戦いに勝ち続けるためには、常に警戒を怠らない必要があることは確かです。しかし、よく言われる確実に正しいアドバイスは、集中し続けることです。私たちの場合は音声に集中し続けることでした。会社として、研究と製品の両方で音声に集中し続けたことが本当に役立ちました。
しかし、その質問の中で最も大きな疑問は、これまでの年月を通じて、私たちが最高の研究モデルを構築し、大手研究所を上回ることができたということです。ここでは、私が天才だと思っている共同創設者のPeterに功績があります。彼はこの分野で最初のイノベーションのいくつかを行い、その後、今日私たちの会社にいるロックスターチームを組み立てることができました。このチームは継続的に音声分野での可能性を押し広げています。
私たちが始めたとき、音声分野での研究はほとんど行われていませんでした。ほとんどの人はLLMに集中し、一部は画像に集中していました。結果を見るのがより簡単で、研究者にとってそれらの分野で働く方が頻繁により刺激的だったのです。そのため、音声に向けられる注力は遥かに少なかったのです。
以前の年に起こった一連のイノベーション、拡散モデルやTransformerモデルは、その分野に効率的な方法で実際に適用されていませんでした。私たちは最初の数年でそれを持ち込むことができました。初めてテキスト音声合成モデルがテキストの文脈を理解し、より良い音調と感情でその音声体験を提供することができるようになりました。それが、私たちの研究を他の研究と真に差別化した出発点でした。真の研究イノベーションでした。
しかし、その最初の部分に続く重要な要素は、その研究を実際に使用できるようにするためのすべての製品を構築することでした。何度も見てきたように、重要なのはモデルだけではなく、そのエクスペリエンスをユーザーにどのように提供するかも重要です。私たちの場合、オーディオブックのナレーション作成であれ、ボイスオーバーであれ、映画の他言語への変換であれ、エージェントでのテキスト音声合成の追加であれ、会話体験全体の構築であれ、そのレイヤーが基盤モデルやハイパースケーラーに対して勝ち続ける助けとなっています。
創業者の関係性
ここにはたくさんの要素があり、それらの多くの側面について戻って深く掘り下げる予定ですが、あなたは共同創設者のPeterについて言及しました。あなたたちは15年前にポーランドの高校で出会ったと思いますが、それは正しいですか?お二人がどのように知り合ったか、そしてこのビジネスがどのように生まれたかのオリジンストーリーを教えていただけますか?
私はおそらく最も幸運なポジションにいます。私たちは15年前、高校で出会いました。ワルシャワのポーランドでIBクラスを始め、同じクラスをすべて受講しました。数学のクラスでかなり早く意気投合しました。私たちは両方とも数学が大好きだったので、一緒に座り、多くの時間を一緒に過ごすようになりました。それが学校外での時間も一緒に過ごすことへと発展し、その後の年月を通じて、一緒に住み、一緒に勉強し、一緒に働き、一緒に旅行するなど、すべてを一緒にやってきました。15年経った今でも、私たちは親友です。時間が私たちの味方であることが助けになっています。
一緒に会社を築くことは関係性を強化しましたか、それとも?
確実に浮き沈みはありましたが、強化したと思います。実戦でテストされたと思います。会社が軌道に乗り始めたとき、この激しい仕事がどれくらい続くかはわからませんでした。最初は「次の4週間だけ、お互いを信頼して異なる側面でうまくやり、押し続けよう」という感じでした。そして別の4週間、また別の4週間と続き、実際には次の10年間になることがわかりました。11 Labsと他には何もないという感じで、他のことをする時間は本当にありませんでした。
時間が経つにつれて、これは有機的に起こったと思いますが、振り返ってみると確実に役立ちました。私たちは今でも個人的な生活で何が起こっているか、世界のどこにいるかについて密接な連絡を取り合うよう努めています。仕事の文脈外でも一緒に時間を過ごし、まだ仕事について話しますが、それが私たちにとって非常に健康的だったと思います。
共同創設者、役員、チームが仕事に最高の自分を持ってこられるようにし、個人的な面で起こったことを完全に無視しないようにすることが重要です。
11 Labsのインスピレーション
そして2番目の質問について、11 Labsのインスピレーションの一部は、より長いストーリーがあるので2つの部分があります。まず、何年にもわたって、彼がGoogleにいて私がPalantirにいたとき、私たちは一緒にハッカソンプロジェクトをやっていました。
つまり、楽しみのために新しいテクノロジーを探求しようとしていたのですね。それは推薦アルゴリズムの構築からすべてでした。いくつかの異なるものを提示され、そのうちの1つを選択すると、次に提示されるものがあなたの前の選択により近く最適化されるモデルを構築しようとしました。デプロイして、とても楽しみました。
その後、暗号通貨でも同じことをしました。暗号のリスクを理解し、暗号のリスクアナライザーを構築しようとしました。非常に困難で、完全には機能しませんでしたが、最初の暗号ブームの中でそれに関する分析を提供しようとする良い試みでした。
そして、音声でプロジェクトを作成しました。私たちの話し方を分析し、どのように話すかについてのヒントを与えるプロジェクトを作成しました。
それはいつでしたか?
2021年の初めです。
それが音声分野で何が可能かという最初の開口部でした。これが最先端技術で、これが音声の理論化理解を行うモデルで、これが音声生成の様子です。そして2021年後期に、ポーランドからのインスピレーション、より「あはー」という瞬間が生まれました。この場合、Peterがガールフレンドと映画を見ようとしていたとき、彼女は英語を話さなかったので、ポーランド語に切り替えました。
それが私たちを、私たちが育った環境のことを思い出させました。ポーランドで見るすべての映画、外国映画はすべて同じ声を持っています。男性の声でも女性の声でも、すべて1つのキャラクターによる単調なナレーションで語られます。それはひどい体験で、今日でも続いています。「すごいな」と思いました。これは変わるだろうと思いました。テクノロジーとイノベーションによって、オリジナルの配信、オリジナルの素晴らしい声でそのコンテンツを楽しむことができるようになると思いました。
もちろん、それ以来拡大しています。ほとんどのコンテンツが英語で音声でアクセスできないという同じ問題が存在することに気づきました。動的なインタラクションがどのように進化するか、そしてもちろん音声がどのように言語の壁を越えるかについても。
技術的転換点
この変化が可能になったと思わせた特定の論文や能力はありましたか?
「Attention is All You Need」は間違いなくその1つで、何が可能かという点で非常に明確でした。しかし、その答えに別の角度を与えるとすれば、興味深い部分は論文よりも少なかったと思います。素晴らしいオープンソースのリポジトリがありました。
私たちが「これは可能なのか?」と発見し始めたときの少し後のことでした。Tortoise TTSというものがありました。当時作成されたオープンソースのモデルで、声を複製し音声を生成する素晴らしい結果を提供していました。それほど安定していませんでしたが、「うわー、これは素晴らしい」という洞察を与えてくれました。
それは会社のより深いところにいたときのことでした。2022年の最初の年くらいのことです。それは「これは可能だ、素晴らしいアイデアがある」という別の要素でした。そしてもちろん、私たちはほとんどの時間を、他にどんなことをイノベートできるか、ゼロから始めて、TransformerやDiffusionを音声分野に持ち込むことに費やしました。それが人間の声として実際に感じられる、別のレベルの人間品質をもたらしました。
音声AIとテキストAIの違い
テキストから音声へ直接移植できる側面と、完全に異なるスキルセット、異なる技術について話しましょう。この2つがどれほど似ているか、本当の違いがどこにあるか興味があります。
最初に、モデルに入ってくる3つのコンポーネントがあります。コンピュート、データ、モデルアーキテクチャです。モデルアーキテクチャは似たようなアイデアを持っていますが、非常に異なります。しかし、データもかなり異なっています。アクセス可能なものと、モデルを訓練できるようにそのデータが必要な方法の両方において。
コンピュートに関しては、モデルはより小さいので、それほど多くのコンピュートを必要としません。これにより、多くのイノベーションがモデル側やデータ側で起こる必要があることを考えると、基盤モデルを上回ることができます。大きなコンピュート劣勢に陥ることはありません。
しかし、データは最初の違いだったと思います。テキストでは、存在するテキストを確実に取得でき、それは機能します。音声では、実際に必要な結果を得られる高品質な音声がはるかに少ないのです。第二に、それは頻繁に転写や、話されたことの高精度なテキストを伴いません。それがその分野で欠けていたもので、多くの時間を費やす必要がありました。
第三の要素があります。現在の世代のモデルで登場するものですが、何が言われたかだけでなく、どのように言われたかです。どんな感情を使ったか、誰が言ったか、言われた非言語的要素は何かなど。そのような種類は特に高品質ではほとんど存在せず、私たちも多くの時間を費やしました。効果的により多くの音声テキスト変換モデルと、追加の手動ラベラーのセットを持つパイプラインを作成することにです。
それはテキストとは非常に異なります。テキストでは、はるかに多くのサイクルを費やすだけです。そして、モデルレベルでは、効果的に、第一世代のテキスト音声合成モデルで文脈を理解し、それを感情に持ち込むステップがありますが、もちろん次のテキストトークンを予測するのではなく、次の音を予測する必要があります。
それは前のものに依存することもできますが、後に起こることにも依存することができます。簡単な例は「なんて素晴らしい日だ」です。それが本の一節だとすると、「これは前向きな感情だ、前向きな方法で読むべきだ」と思うでしょう。しかし、「なんて素晴らしい日だ」を皮肉っぽく言った場合、突然全体の意味が変わり、音声配信でもそれを調整する必要があります。パンチラインを別の場所に置く必要があります。
その文脈理解は確実に異なり、扱いにくいものでした。そして、非常に異なる他のモデルのことは、テキスト音声合成要素があるだけでなく、音声要素もあることです。私たちが多くの時間を費やしているもう1つのイノベーションは、オリジナルにより正確な方法で音声を作成し表現する方法です。
私たちは、少し異なるデコーディングとコーディングの方法を見つけました。その分野とは少し異なり、特定の特徴をハードコーディングしたり予測したりしませんでした。音声が男性か女性か、音声の年齢は何かなどを最適化しようとするのではなく、効果的にモデルに特徴がどうあるべきかを決定させました。
そして、それを音声に持ち込む方法を見つけました。もちろん、テキスト音声合成モデルを持つとき、それはテキストの文脈を1つの入力として取り、音声を2番目の入力として取ります。音声配信がより落ち着いているか動的かに基づいて、これら両方が融合し、最終的な出力を与えます。これはもちろん、テキストモデルとは非常に異なるタイプの作業でした。
チーム構築と人材
これを構築するために、どのような人材を雇う必要がありましたか?ほとんどのAI企業とは異なるスキルセットだと想像します。
スキルセットの違いというよりも、アプローチの違いだと思いますが、時間とともに変化しました。最初の違いは、私たちは完全にリモートで始めたことです。最高の研究者をどこにいても雇いたかったのです。オープンソースの仕事や発表した論文、働いていた会社に基づいて、音声分野には私たちが賞賛するであろう素晴らしい人が50人から100人程度しかいないことがわかっていました。
ファネルの上部は非常に限られています。音声研究に取り組んだ人がはるかに少ないからです。どこにいても彼らを引きつけ、会社に入れようと決めました。それが本当に役立ちました。
第二に、多くの人にとって刺激的なものにしたいということと、これが多くの研究を実行する最良の方法だと思うということを考えると、研究者をデプロイメントに非常に近づけ、実際に彼らの仕事の結果を見るようにしようとしています。何かを研究してからすべての人の前に持ってくるまでのサイクルは非常に短いです。それがどのように機能しているかの即座のフィードバックを得ることができます。
研究とは別に、研究エンジニアがいます。彼らはモデル全体の新しいアーキテクチャのイノベーションよりも、既存のモデルを取り、改善し、変更し、大規模にデプロイすることに集中しています。他の会社では、その会社での作業が同じくらい複雑になるため、研究エンジニアを研究者と呼ぶことが頻繁にありますが、新しいイノベーションを作成し、そのイノベーションを拡張し、デプロイするのに本当に役立ちました。
そして、私たちが作成した研究の周りのレイヤーはおそらく非常に異なっています。効果的に今、音声コーチのグループ、音声コーチによって訓練されたデータラベラーがいます。音声データを理解し、それをラベル付けし、感情をラベル付けする方法について、そして音声コーチによって良いか悪いかを再レビューされます。ほとんどの従来の会社は、実際には同じ方法で音声ラベリングをサポートしていませんでした。
最大の違いは、本当に音声作業のある部分に興奮し、私たちが望むレベルに専念できることが必要だということです。私たちは小さい、特に当時は小さい会社でしたから、効果的に特定の研究テーマに自分で取り組んでいるその独立性、高い所有権を受け入れる意志が必要でした。他の人からのある程度の相互作用やガイダンスはもちろんありますが、重い作業の多くは個人的なものです。それには異なるマインドセットが必要で、私たちは今、15人の研究者と研究エンジニアのチームを持つことができました。彼らは素晴らしいです。
製品の主要な転換点
過去数年間で、製品の品質や適用可能性における主要な段階的変化は何でしたか?2023年初頭か後期頃に爆発的に成長し始めたのを覚えています。その一部は、11 Labsの音声を使用したハリー・ポッターBalenciagaビデオがバイラルになったことに続いているようでした。消費者の世界で何かがバイラルになり、それがあなたたちに辿り着くという瞬間があったようですが、それを超えて、製品の観点から、新しい市場を開拓したり、開発者の熱意を刺激したりした主要な変曲点は何でしたか?
あなたが言及したことは、私たちが継続的に、今でもしようとしている重要なことの1つです。これは実際に採用を得るための重要なことの1つだと思います。それはプロシューマーのデプロイメントを持ち、実際にそれを皆に届けることです。新しいテクノロジーを作成するとき、それが可能であることを世界に示し、その後、私たちが協力する特定の会社にトップダウンで持ち込むことを補完します。
この理由は2つあります。1つは、これらの人々のグループがそのテクノロジーを採用し作成することに、はるかに熱心で迅速だからです。第二に、私たちが多くの製品と研究作業の両方を作成するとき、作成される可能性のある使用例のセットについて、もちろんいくつかの予測がありますが、私たちが期待しないであろうはるかに多くのものがあります。あなたが挙げた例は、人々が作成し試行することかもしれないということは私たちの心に浮かばなかったでしょう。
それは確実に、新しいモデルを作成するときでも継続的に、それをユーザーベース全体に持ち込み、彼らから学び、それを増やしていこうとする場所でした。新しいモデルリリースがあり、それを広く持ち込み、プロシューマーの採用があり、その後、追加の製品、追加の信頼性が必要な企業の採用が続くという波で進みます。そして、再び新しいステップリリースと新しい機能があり、サイクルが繰り返されます。私たちは歴史を通じて、それを本当に受け入れようとしました。
最初の、非常に最初のものは、ベータモデルを持ったときでした。あなたが正しく言ったように、2023年初頭に公開リリースしたときでした。2022年後期に、ユーザーのサブセットとベータで反復していました。そのサブセットには多くの本の著者がいました。
私たちの製品には、文字通り小さなテキストボックスがあり、そこにテキストを入力して音声を出力できました。効果的にツイートの長さでした。その本の著者の1人が、このボックス内に彼の本全体をコピーペーストし、ダウンロードしました。当時は、ほとんどのプラットフォームがAIコンテンツを禁止していました。彼はそれをアップロードすることができ、それが人間だと思われ、そのプラットフォームで素晴らしいレビューを得始めました。
そして、友人や他の本の著者のセットと一緒に私たちのところに戻ってきて、「これは本当に必要だ、これは素晴らしい」と言いました。それが本の著者との最初の小さなバイラルな瞬間を引き起こしました。彼らは非常に熱心でした。
同じ時期に別の類似の瞬間もありました。笑うことができる最初のモデルの1つがありました。私たちは「笑うことができる最初のAI」というブログ投稿をリリースし、人々がそれを取り上げて「うわー、これは素晴らしい、これは本当に機能している」と言い、多くの初期ユーザーを獲得しました。
もちろん、あなたが言及したテーマもありました。多くのクリエイターで、この時期に始まった完全に新しいトレンドがあったと思います。ノーフェイスチャンネルに移行しました。効果的にフレーム内にクリエイターがおらず、何かが起こっていることについてのそのクリエイターのナレーションがあります。それは作業の最初の6か月で山火事のように広がり始めました。もちろん、私たちは多くのそれらの使用例でナレーションと音声と声を提供していました。それを見るのは素晴らしかったです。
2023年後期から2024年初頭には、他の言語での作業をリリースしました。最も有名なヨーロッパ言語でナレーションを本当に作成できる最初の瞬間の1つと、私たちのダビング製品です。それは元の視点に戻ります。同じように聞こえながら、音声を別の言語に持ち込む方法を最終的に作成しました。
それが人々がビデオを作成するという別の小さなバイラルな瞬間を引き起こしました。伝統的なコンテンツである期待されるもの、そして歌のビデオをダビングしようとする人もいるなど、予期しないものもありました。私たちのモデルがそれで機能するかわからず、実際には機能しませんでしたが、酔った歌の結果のようなものを与えました。それもその結果で数回バイラルになりました。それを見るのは楽しかったです。
そして、2025年の早い時期、今では誰もがエージェントを作成しているのを見ています。私たちは多くのそれらのエージェントに音声を追加し始めました。多くの人が、音声テキスト変換、LLMレスポンス、テキスト音声合成の全体的なオーケストレーションを持つことが非常に簡単になり、それをシームレスにしました。
最近、Epic Gamesと協力してダース・ベイダーの声を再現しました。プレイヤーがFortniteでダース・ベイダーとの会話を得ようとする多くの人々がいます。これは非常に大規模です。もちろん、ほとんどのユーザーは素晴らしい会話をし、ゲーム内で彼をコンパニオンとして使おうとしています。一部の人々は、彼が言うべきでないことを言うかどうかを試そうとしているのも見ます。しかし、幸い製品は持ちこたえており、実際に比較的パフォーマンスがよく、彼を軌道に乗せ続けるために安全に保っています。
ダビングの使用例の一部について考えると、バイラルなものの1つは、Lex FreedmanとNarendra Modi首相と一緒に働いたときでした。彼がModi首相にインタビューし、私たちはLexを通じて英語で起こった会話を変換しました。Modiはヒンディー語を話し、私たちは会話を英語に変換したので、実際に彼ら両方が一緒に話しているのを聞くことができました。そして同様に、私たちは両方をヒンディー語に変換したので、Lexがヒンディー語を話しているのを聞きました。それはインドでも非常にバイラルになり、人々は両方のバージョンを見ていました。米国では人々が英語版を見ていました。それは最初に戻る良い方法でした。
特に将来について考えると、エージェントが新しい方法でポップアップしているのを見ているだけです。Stripeの統合を構築し、払い戻しを処理することからコンパニオンの使用例まで、真の企業まで、すべてを構築している初期の開発者は、おそらく今後いくつかのバイラルな瞬間を持つでしょう。
音声エージェントの現状
今、音声エージェントで見ていることについてもう少し教えてください。それが急速にかなり人気のあるインタラクションパターンになったようです。何が機能していて、何が機能していないのか、あなたの顧客が本当に成功を収めている場所、一部の顧客が行き詰まっている場所はどこですか?
答える前に、あなたに質問を戻しますが、Sequoiaを通じて来る会社の間で、多くの会社がエージェントを構築しているのを見ますか?
はい、絶対に見ています。ほとんどの人は、これが11 Labsの音声によって駆動されるHer-スタイルのアバターのような長期的なビジョンを持っており、これがあなたが相互作用する人間のようなエージェントだと思います。ほとんどの人はより簡単なモダリティから始めて、段階的に取り組んでいくと思います。企業スタック全体に多くのテキストベースのエージェントが増殖しているのを見ており、消費者アプリケーションでもたくさんあると想像しますが、私たちは多くの企業のものを見る傾向があります。
それは確実に私たちが見ているものと似ています。エージェントを構築している新しいスタートアップと、内部でプロセスに非常に役立つ企業側の両方です。
一歩下がって、私たちが最初から考え、信じていることは、音声は根本的にテクノロジーと相互作用するためのインターフェースになるということです。それは最も、人間の属が生まれたときから知っている最初の方法として、人間が相互作用した方法でしょう。それはテキストよりもはるかに多くを運びます。感情、イントネーション、不完全さを運び、お互いを理解することができ、感情的な手がかりに基づいて非常に異なる方法で応答することができます。
私たちのスタートが起こった場所は、音声がそのインターフェースになると思い、テキスト音声合成要素だけでなく、クライアントがテキスト音声合成を使用し、会話アプリケーション全体を行おうとするのを見て、それを抽象化するのに役立つソリューションを提供できるかということでした。
従来の分野から見てきました。いくつかについて話すと、ヘルスケア分野では、例として看護師ができない仕事の一部を自動化しようとする人々を見てきました。Hippocrateのような会社は、看護師が患者に薬の服用を思い出させる電話をかけ、気分を尋ね、その情報を戻すためにキャプチャする電話を自動化します。そうすれば、医師が実際にそれをより効率的な方法で処理できます。多くのそれらの人々は他の方法では到達できず、音声通話が最も簡単にできることだったため、音声が重要になりました。
非常に伝統的で、おそらく最も早く動いているのはカスタマーサポートです。コールセンターと従来のカスタマーサポートから、Deutsche Telekomから新しい会社まで、多くの会社が社内で音声を構築しようとしています。誰もがより良いエクスペリエンスを提供する方法を見つけようとしており、今音声が可能になっています。
私にとって最も刺激的なもののおそらく1つは教育です。その音声配信を新しい方法で持つことで学習できるかもしれません。私はかつて少なくともアマチュアチェスプレイヤーでした。私たちはchess.comと一緒に働いており、ゲームを通じてあなたを導く効果的なナレーションを構築しようとしています。よりよくプレイする方法を学ぶことができます。
あなたはchess.comのユーザーですか?
はい、しかし非常に下手なチェスプレイヤーです。
それは素晴らしい手がかりです。私たちが構築しようとしていることの1つは、象徴的なチェスプレイヤーとの配信のバージョンです。Magnus Carlson、Gary Kasparov、Hikaru Nakamuraからの配信を持ってゲームを通じてあなたを導き、プレイしながらさらに良くなることができます。それは驚異的でしょう。
これは、私たちが見るであろう一般的なことの1つだと思います。誰もが彼らが関係し、近づくことができる音声で、欲しい主題の個人的な家庭教師を持つようになるということです。それは企業側ですが、消費者側でも、コンテンツを配信する方法を拡張する完全に新しい方法を見てきました。
Time誌との仕事のように、記事を読むことができ、記事を聞くことができ、しかし記事と話すこともできます。効果的に、年間最優秀人物のリリース中に働いたのですが、どのように年間最優秀人物になったかについて質問をすることができました。他の年間最優秀人物についてもっと教えてほしいと言って、それについてもう少し深く掘り下げることができました。
そして私たちは会社として、人々が相互作用し、可能性の技術を見ることができるエージェントを構築しようとしています。最近、私たちは私のお気に入りの物理学者の1人、またはRichard Faymanとの家族と協力してエージェントを作成しました。実際に彼と相互作用することができます。
彼は私のお気に入りでもあります。
素晴らしい、素晴らしい。彼は知識を教育的で簡単な方法とユーモラスな方法で配信する素晴らしい方法を持っており、彼の話し方も素晴らしく、書き方も素晴らしいです。それは素晴らしかったです。これがおそらく将来変化する場所だと思います。彼の文化的な講義や彼の本の1つがあり、彼の声でそれを聞くことができ、その後彼の背景の一部に飛び込んで、それをもう少しよく理解することができるかもしれません。「Surely You’re Joking, Mr. Feynman」のようなものに飛び込むことができます。
彼の声でその本の朗読を聞きたいです。
それは素晴らしいでしょう、100%です。
ボトルネックと課題
企業アプリケーションや消費者アプリケーションの一部でも、インターフェースが促進者である多くの状況があるようですが、ボトルネックではありません。ボトルネックは、顧客や誰でもユーザーと実際に適切な種類の会話をするために必要な基礎となるビジネスロジックや基礎となるコンテキストのようなものです。それにどれくらいの頻度で遭遇しますか?それらのボトルネックがどこで除去されているか、現時点でまだ少し粘着性があるかもしれない場所についてのあなたの感覚は何ですか?
私たちが多くの会社と非常に密接に働いているという利点により、私たちのエンジニアを彼らと直接働くために連れて行くことが頻繁にあり、一般的なボトルネックのいくつかを見て飛び込む結果になります。
会話AI スタックについて考えるとき、あなたが言うことを理解する音声テキスト変換要素、レスポンスを生成するLLM部分、そしてそれを語り戻すテキスト音声合成、そしてその体験を良い方法で配信するための全体的なターンテイキングモデルがあります。しかし、それは本当に促進者に過ぎません。
あなたが言ったように、適切なレスポンスを配信できるようになるためには、ナレッジベース、ビジネスベース、または特定のコンテキストで実際にそのレスポンスを生成したい方法と関連するもののビジネス情報の両方が必要です。そして、適切な一連のアクションをトリガーするための機能と統合が必要です。
私たちの場合、私たちは製品の周りにそのスタックを構築しているので、私たちが協力する会社は比較的簡単にそのナレッジベースを持ち込むことができ、必要に応じてRAGにアクセスでき、必要に応じてその場で行うことができ、もちろんその周りに機能を構築することができます。
非常に一般的なテーマのセットが確実に浮上しており、企業が深くなるほど、統合がより重要になり始めることです。電話をかけるためのTwilioやSIPトランキングのような簡単なことであれ、彼らが持っている選択のCRMシステムに接続することであれ、過去のプロバイダーや、Genesisのようなそれらの会社がデプロイされている現在のプロバイダーと働くことであれ。
それは確実に一般的なテーマで、全体的な統合スイートを確実に働き、ビジネスが自分たちのロジックに簡単に接続できるようにする方法の最も多くの時間を取るものです。私たちの場合、もちろんこれは増加しており、私たちが協力する次の会社はすべて、構築された多くの統合からすでに利益を得ています。
ナレッジベース自体はそれほど大きな問題ではありませんが、それは会社によります。会社内でナレッジがどれほどよく整理されているかによります。すでにデジタル化に多くの努力を費やし、その情報がある種の真実のソースを作成している会社であれば、彼らをオンボードするのは比較的簡単です。より複雑なものに行くと、言及できるかわかりませんが、それはかなり困難になることがあり、私たちは彼らと協力して「これが最初のステップとして行う必要があることです」と言います。
MCPのような、それを標準化するために開発されているプロトコルのいくつかは確実に役立っています。私たちも取り入れているものです。サービスが簡単なスタンドアウェイとしてそれを提供できるなら、すべての統合に時間を費やしたくありません。
基盤モデルとの協調競争
あなたはanthropicについて言及しました。あなたたちが接続するもののひとつは基盤モデル自体です。時には彼らの音声機能と競争し、時には顧客にソリューションを提供するために彼らと協力するという、少しcoopetitionのダイナミクスがあると想像します。それをどのように管理しますか?基盤モデルと協力するが、基盤モデルと競争するような立場にいる創設者がたくさん聞いていると想像します。それをどのように管理するか、興味深いです。
私たちが気づいた主なことは、それらのほとんどが会話AIのような仕事に補完的だということです。私たちは1つのプロバイダーを使用することに依存しないよう、不可知論的であり続けようとしています。主なことは真実であり、特に昨年にかけて起こったことだと思いますが、1つだけに依存しようとするのではなく、多くのものを一緒に取り入れようとしていることです。
それは、より密接な競争に発展した場合に備えて、彼らが私たちにサービスを提供できなくなったり、サービスが曖昧になりすぎたりするかもしれないという懸念と、私たちがデータを彼らに一切使用していないことが将来懸念になるかもしれないという部分と、第二の部分も含みます。
また、会話AIのような製品を開発するとき、音声AIエージェントをデプロイできるようにするとき、すべての顧客はLLMを使用するための異なる好みを持ちます。頻繁に、あるいはもっと頻繁に、1つのLLMが特定の時間に機能していない場合はどうするかという、この段階的なメカニズムが欲しいのです。2番目、3番目のサポート層を通り、かなりうまく実行することができます。
私たちはこれが非常に成功裏に機能するのを見てきましたので、大部分において彼らをパートナーとして扱い、多くの人とパートナーになれることを嬉しく思っており、それが続くことを願っています。もし競争することになれば、それも良い競争になるでしょう。
顧客が重視する要素
製品で、顧客が最も重視することは何ですか?昨年ほどのミームの1つは、ベンチマークを声高に叫び続ける人々が要点を見逃しているということでした。ベンチマークを超えて、顧客が本当に重視する多くのことがあります。あなたの顧客が本当に重視することは何ですか?
音声では特にベンチマーク面で非常に真実ですが、私たちの顧客が重視する3つのことがあります。品質、英語と他の言語の両方でどれほど表現力があるか。それはおそらく最上位のものです。品質がなければ、他のすべては重要ではありません。もちろん、品質の閾値は使用例によって異なります。ナレーション、エージェント空間での配信、ダビングでは異なる閾値です。
2番目はレイテンシーです。レイテンシーが十分でなければ、会話エージェントを配信することはできません。しかし、そこで品質対レイテンシーのベンチマークの間の興味深い組み合わせが起こります。
3番目は、特に規模で有用なのは信頼性です。Epic Gamesの例のように、何百万ものプレイヤーが相互作用しているときに、システムが持ちこたえるように大規模にデプロイできるかということです。それでもパフォーマンスがよく、非常にうまく機能します。規模で信頼性よくそのインフラストラクチャを配信できることが重要であることを何度も見てきました。
人間レベルの音声インタラクションへの道
高度にまたは完全に信頼性のある人間または超人間品質の効果的にゼロレイテンシー音声インタラクションから、どれくらい離れていると思いますか?そして関連する質問として、私たちがその閾値に近づき、最終的にそれを超えるにつれて、あなたが直面するエンジニアリング課題の性質はどのように変わりますか?
理想的には、今年中にそれが可能であることを証明したいと思っています。エージェントと話しているときに、「これは別の人間と話しているようだ」と言えるようなチューリングテストを超えることです。それは非常に野心的な目標だと思いますが、可能だと思います。
今年でなければ、うまくいけば2026年の初めには可能だと思います。しかし、できると思います。もちろん、異なるユーザーグループもあるでしょう。一部の人々は非常に敏感で、彼らにとってチューリングテストに合格するのははるかに困難ですが、大多数の人々に対してはそのレベルに到達できることを願っています。
最大の質問、そしてタイムラインがもう少し依存しているところは、それが今日私たちが持っている段階的なモデルになるかということです。音声テキスト変換、LLM、テキスト音声合成のような3つの別々の部分があり、それらがパフォーマンスよくできるか、またはomniモデルがあるか、それらを真にデュプレックススタイルで一緒に訓練し、配信がはるかに良くなるかということです。
それが効果的に私たちが評価しようとしていることです。私たちは両方をやっています。現在本番にあるのは段階的なモデルで、まもなくデプロイするのは真のデュプレックスモデルです。主に見るであろうことは、信頼性対表現力のトレードオフだと思います。レイテンシーは両側でかなり良くできると思います。
しかし、同様に、真のデュプレックスモデルが常により速く、少しより表現力があるが信頼性が低く、段階的なモデルは確実により信頼性があり、非常に表現力があるが、文脈的に応答性がそれほど高くないという、レイテンシーのトレードオフがあるかもしれません。レイテンシーは少し困難になるでしょう。
それは巨大なエンジニアリング課題になるでしょう。LLMのモダリティを音声とよく融合できた会社はないと思います。私たちが最初になることを願っています。それは内部の大きな目標ですが、おそらくOpenAIの仕事、Metaの仕事がそこで手を出しているのを見てきました。まだチューリングテストに合格したとは思いません。うまくいけば、私たちが最初になるでしょう。
音声インターフェースの未来
先ほど、音声を多くのテクノロジーの新しいデフォルトインタラクションモードとして考えていると言及されました。その絵をもう少し描いていただけますか?5年または10年先を見据えて、あなたのモデルが非常に良くなった結果として、人々がテクノロジーと生活する方法、人々がテクノロジーと相互作用する方法がどのように変わると想像しますか?
最初の美しい部分は、テクノロジーが背景に入るということだと思います。そうすれば、学習、人間の相互作用に本当に集中でき、スクリーンではなく音声を通じてアクセスできるようになります。
最初の部分は教育になると思います。数学を学んでいてノートを通っているときであれ、新しい言語を学ぼうとしていて、物事をどう発音するかを導くネイティブスピーカーと相互作用しているときであれ、私たち全員がガイドする音声を持つ完全な変化があるでしょう。次の5年から10年で、学習を通じて助けるための音声エージェントを持つことがデフォルトになると思います。
2番目の興味深いことは、これが世界中の文化的交流全体にどのように影響するかです。別の国に行って別の人と相互作用しながらも、自分自身の声、自分自身の感情、イントネーションを運びながら、その人があなたを理解できるようになると思います。
それがどのように配信されるかは興味深い質問です。ヘッドフォンか、ニューラルリンクか、別のテクノロジーかですが、それは起こるでしょう。私たちがそれを可能にできることを願っています。『銀河ヒッチハイク・ガイド』を読んだことがあるなら、バベルフィッシュの概念があります。バベルフィッシュがそこにあり、テクノロジーがそれを可能にするでしょう。それが2番目の巨大なテーマになるでしょう。
この個人家庭教師の例について話しましたが、私たち全員が持つであろう他のアシスタントとエージェントのセットがあると思います。それらが私たちの代わりにタスクを実行するために送ることができ、それらのタスクの多くを実行するために音声が必要になるでしょう。レストランの予約であれ、特定の会議に飛び込んで、あなたが必要とするスタイルでノートを取り、要約することであれ、カスタマーサポートに電話してカスタマーサポートエージェントが応答することであれ、それがエージェント対エージェントの相互作用という興味深いテーマになるでしょう。
認証はどうするか、それが本物かどうかをどうやって知るかですが、もちろん音声は3つすべてで大きな役割を果たすでしょう。教育、そして一般的に私たちが物事を学ぶ方法は、それに非常に依存するでしょう。ユニバーサル翻訳者の部分は音声を最前線に持つでしょう。そして、生活周りの一般的なサービスは、非常に決定的に音声駆動になるでしょう。
なりすまし対策と認証
非常にクールです。あなたは認証について言及しました。私がそれについて聞こうと思っていたので、1つの恐れとして常に浮上するのはなりすましです。これまでそれをどのように処理してきたか、これまでどのように進化してきたか、そしてここからどこに向かうと見ているかについて話していただけますか?
私たちが始めた方法で、最初から私たちにとって大きな部分だったのは、11 Labsで生成されたすべてのコンテンツについて、それを生成した特定のアカウントに遡ることができるということです。音声出力をアカウントに結び付ける非常に堅牢なメカニズムがあり、アクションを取ることができます。その来歴が非常に重要であり、将来ますます重要になると思います。AIコンテンツか非AIコンテンツかを理解したいと思うでしょう。あるいは、AIを認証するのではなく人間を認証するという、さらに一歩深いところに移行するかもしれません。「これはMattieが電話している」という、デバイス上の認証を持つでしょう。
2番目のことは、詐欺やスキャムをしようとしている呼び出しかどうか、または認証されていない可能性のある音声かどうかの、より広いモデレーションのセットです。これは会社として行っており、時間とともにそれをどの程度行うか、どのように行うかが進化しました。音声レベル、テキストレベルでのモデレーション。
3番目のことは、来歴コンポーネントで私たち自身が始めたことを拡張したようなもので、11 Labsだけでなく、他の会社とも協力してモデルを訓練する方法です。その分野で普及しているオープンソーステクノロジー、他の商用モデルです。
もちろん、オープンソースが発展するにつれて、実際にそれを捉えることができるかどうかは常にいたちごっこになりますが、私たちはBerkeley大学のような他の会社や学術機関と多く協力して、実際にそれらのモデルを配信し、検出できるようにしました。
特に今、会話AIのような新しいテクノロジーをデプロイし、まもなく新しいモデルをデプロイするという主導的地位をとるほど、善良なアクターにとって有用にし、悪いアクターを最小化するために持ち込める安全メカニズムが何かを理解することに、さらに多くの時間を費やそうとしています。
それが通常のトレードオフです。
ヨーロッパでの起業について
ヨーロッパについて少し話すことはできますか?あなたたちはリモート会社ですが、ロンドンに拠点を置いています。ヨーロッパに拠点を置くことの利点は何でしたか?ヨーロッパに拠点を置くことの不利な点は何でしたか?
素晴らしい質問です。私たちにとっての利点は才能でした。最高の才能を引きつけることができました。頻繁に人々はヨーロッパの人々には推進力が欠けていると言いますが、私たちは全くそれを感じませんでした。これらの人々は非常に情熱的で、私たちは素晴らしいチームを持っていると感じています。小さなチームで運営しようとしていますが、みんな常にプッシュしており、私たちができることに興奮しており、私が一緒に働く喜びを持った最も勤勉な人々の一部です。非常に高いレベルの人々でもあります。
才能は私たちにとって非常にポジティブな驚きでした。チームがどのように構成されたか、そして特に今、ヨーロッパ全体、中央・東ヨーロッパの人々を雇い続けているときに、レベルは非常に高いです。
2番目のことは、ヨーロッパが遅れているという広い感覚があり、多くの点でおそらくそれは真実です。AIイノベーションは米国で主導されており、アジアの国々が密接に続いており、ヨーロッパは遅れています。しかし、人々のエネルギーは本当にそれを変えたいということで、過去数年で変化したと思います。私たちが会社を始めたときはもう少し慎重でしたが、今私たちは熱心さを感じており、それの最前線にいたいと思っています。
人々からそのエネルギーと推進力を得ることははるかに簡単でした。それは私たちがより早く動けるという利点で、企業は実際に採用に熱心で、ますます助けになっており、ヨーロッパの会社として、実際にはグローバル会社ですが、ヨーロッパに多くの人がいることで、それらの会社ともデプロイするのに役立ちます。
もう1つの風味があり、ヨーロッパ特有ですが、グローバル特有でもあります。会社を始めたとき、私たちは実際に特定の地域について考えませんでした。ポーランドの会社、イギリスの会社、米国の会社のように。私たちはそれをグローバルソリューションにしたいと思いました。デプロイメントの観点からだけでなく、私たちが達成しようとしていることの核心からも、音声を持ち込み、すべての異なる言語でアクセス可能にする方法でした。
それは最初から会社の核心、会社の背骨を通してありました。今、多くの異なる地域に多くの人がいるとき、彼らは言語を話し、クライアントと協力することができ、それが確実に助けになったと思います。私たちがヨーロッパにいたときに、多くの人を連れてきて、その地元の体験を最適化できたことがおそらく助けになりました。
反対に、確実により困難だったのは、米国には、推進力を持つ人々だけでなく、この旅を数回経験した人々がいる素晴らしいコミュニティがあることです。それらの人々から学ぶことははるかに簡単で、異なる規模でヨーロッパのほとんどの会社よりも会社を創設し、退出し、機能を主導した人々が非常に多くいます。それらの人々の周りにいるだけで、それらの人々から学ぶことははるかに困難でした。
特に初期の頃、どのような質問をするかを知ることさえ、それらの質問を尋ねることさえできませんでした。もちろん、私たちは何年にもわたって素晴らしい投資家と提携して、それらの質問を通して助けてもらうことができて幸運でしたが、それはヨーロッパでより困難でした。
おそらく、今ヨーロッパに熱意があることについて私がポジティブである一方の裏返しは、過去数年にわたってそれが欠けていたということです。米国は昨年にわたって特に、主導するアプローチを刺激的に取り、それを繁栄させるエコシステムを作っていたと思います。ヨーロッパはまだそれを理解している最中だと思います。
AI法のような規制的なことがあり、私たちが加速することに貢献しないと思いますが、人々が理解しようとしているものです。熱意はありますが、それを遅くしていると思います。しかし、最初のものは確実により大きな不利益です。
クイックファイア
クイック・ファイヤ・ラウンドをしましょうか?
しましょう。
あなたが個人的に使用する好きなAIアプリケーションは何ですか?11 Labsや11 Readerは除きます。
それは本当に時間とともに変わりますが、Perplexityは私のお気に入りの1つでした。
Perplexityがあなたに、ChatGPTやGoogleが与えないものは何ですか?
ChatGPTも素晴らしいです。長い間、より深く行き、ソースを理解することができることでした。今はChatGPTもその要素をたくさん持っているので、多くの場合で両方を使う傾向があります。
長い間、非AIアプリケーションですが、彼らはAIアプリケーションを構築しようとしていると思いますが、私の好きなアプリはGoogle Mapsでしょう。素晴らしいと思います。非常に強力なアプリケーションです。
画面を見てみましょう、他にどんなアプリケーションを持っているか。
その間に、私はGoogle Mapsに行って、行ったことがない場所を探索しています。
100%です。それは素晴らしいです。エリアの検索機能としても素晴らしいです。
ニッチなアプリケーションとして、FYIが好きです。これはwill.i.amのスタートアップです。
コミュニケーションアプリとして始まりましたが、今はラジオアプリのようなものです。
Claudeも素晴らしいです。GPTとは非常に異なることにClaudeを使います。より深いコーディング要素、プロトタイピングにはClaudeを使います。それを愛しています。
実際、より最近の答えがあります。Lovableです。
11 Labsに使いますか、それとも個人的にだけ使いますか?
それは真実です、私の人生は11 Labsです。これらのアプリケーションはすべて、11 Labsにも部分的に使っています。しかし、Lovableはプロトタイピングやクライアントのためのクイックデモの作成に素晴らしいです。
昨日、私たちはチーム会議があり、みんながChatGPTで過去30日間に送信したクエリ数をチェックしました。私は300回くらいやっていて、「かなり良いパワーユーザーだ」と思いました。同様にAndrewも過去30日間で約300回でした。私たちのチームの若い人たちの一部は1000回以上でした。ChatGPTの大きなDAUだと思っていましたし、パワーユーザーだと思っていましたが、他の人々がやっていることと比べると明らかにそうではありませんでした。
非常に一般的な答えだとわかっていますが、1つのアプリで今どれだけのことができるかは信じられません。
Claudeも使いますか?
Claudeも少し使いますが、それほど多くはありません。
AI界で最も尊敬している人は誰ですか?
Demisが本当に好きです。
もう少し教えてください。彼は常に要点を突き、研究について非常に深く話すことができますが、何年にもわたって非常に多くの素晴らしい仕事を自分で作成してきました。研究を行い、今それを主導しているという組み合わせが好きです。
もちろんAlphaFoldのようなものがあり、これは真に新しい、世界のための真のフロンティアだと思います。みんながここに同意すると思いますが、ほとんどの人がAI仕事の一部に集中している間、彼はそれを生物学に持ち込もうとしています。Darioももちろんそれをしようとしているので、これがどのように進化するかは素晴らしくなるでしょう。
初期の頃にゲームを作り、素晴らしいチェスプレイヤーで、AIがすべてのゲームで勝つ方法を見つけようとしてきました。彼がどのように研究のデプロイメントを主導でき、おそらく最高の研究者の1人である一方で、非常に謙虚で、知的に正直であることの多様性です。DemisやDario Amodeisと話していれば、正直な答えを得るでしょう。
最後に、AIの未来についてのホットテイク、あなたがアンダーハイプまたは論争的だと感じる何らかの信念は?
期待する答えかもしれませんが、多言語の側面全体はまだ完全にアンダーハイプだと思います。どこにでも行って、その言語を話すことができ、人々が本当にあなた自身と話すことができるなら、最初はコンテンツの配信、そして将来のコミュニケーションの配信であれ、これは私たちがそれを見る世界を変えると思います。
最大の障壁の1つは、他の人を本当に理解できないという会話にあると思います。もちろん、それをうまく翻訳できるというテキスト的要素もありますが、音声配信もあります。これは完全にアンダーハイプだと感じます。誰も、誰も。
それを可能にするデバイスはもう存在していると思いますか?
いいえ、そうは思いません。電話ではなく、眼鏡でもなく、他の何らかの形態要因かもしれません。
多くの形態があると思います。人々は眼鏡を持つでしょう。ヘッドフォンが最初の1つで、最も簡単でしょう。眼鏡も確実にそこにあるでしょう。しかし、誰もが眼鏡をかけるとは思いません。人々が旅行中に持つことができる、実際に機能する非侵襲的なニューラルリンクのようなもののバージョンがあるでしょう。体への興味深い装着具です。
それはアンダーハイプだと思いますか、それとも十分にハイプされていると思いますか、この使用例は?
私はそれを、あなたが人間に集中でき、テクノロジーが背景に消え、何が起こっているかを受動的に吸収し、そのコンテキストを使ってあなたをより賢くし、あなたがすることを助け、必要に応じて翻訳するなど、アンビエントコンピューティングの全体的なアイデアにまとめるでしょう。
それは私が世界が向かっているという心的モデルに絶対に適合しますが、それを可能にするビジネスロジックや類似のもののための技術が焦点に入り始めていると思いますが、形態要因はまだ決まっていないと思います。しかし、その見解に絶対に同意します。
それがおそらく十分にハイプされていない理由かもしれません。人々がそれを想像できないということです。
素晴らしい。Mati、どうもありがとうございました。
お招きいただき、本当にありがとうございました。素晴らしい会話でした。
お疲れ様でした。


コメント