フランスのKyutai社がリリースした超低遅延ストリーミングテキスト音声合成モデルについて解説する動画である。約20億パラメータのモデルで、220ミリ秒という超低遅延を実現し、商用利用可能なCC BY 4.0ライセンスで提供されている。Google Colaboratoryで無料実行可能であり、会話型チャットボットなどのリアルタイムアプリケーションに最適化されている。

Kyutai TTS:革新的な超低遅延音声合成モデル
こんにちは、お元気ですか。Kyutaiがストリーミングテキスト音声合成モデルをリリースしました。20億パラメータモデルです。超低遅延220ミリ秒、CC BY 4.0ライセンスで、250万時間の音声で訓練されています。単一のL40で350ミリ秒未満の遅延で最大32ユーザーにサービス提供できます。Kyutaiは、Google Colaboratoryで無料実行できる最高の低遅延テキスト音声合成モデルの一つをオープンソース化しました。このビデオでその方法をお見せします。
このモデルは会話用途に使用できます。例えば、顧客と話すチャットボットを構築したい場合、クラウドに送信して、呼び出しを受け取り、戻ってきて、顧客に読み上げるのを待つ必要がありません。むしろ、このモデルをローカルで実行できます。なぜなら、これはオープンウェイトモデルであり、オープンソースモデルで、商用利用可能だからです。このモデルは今日利用可能で、私は既に別のKyutaiビデオを作成しており、YouTube説明欄にリンクを貼っておきますので、ぜひご覧ください。
Google Colaboratoryでの実行方法
このビデオでは、Google Colaboratoryでこれを実行する方法をお見せします。Google Colabノートブックのリンクを、「いいね」ボタンの下のYouTube説明欄に貼っておきます。とてもシンプルで分かりやすいです。このコードをコピーする必要があります。このノートブックを取得して、「ランタイム」に行き、「ランタイムを変更」してから、T4 GPUで実行します。これは無料です。
これは、Google Colaboratoryが提供するNvidiaのGPUです。行う必要がある唯一の変更はこれです。これを行うと、この特定のモデルを実行するために必要ないくつかのライブラリがインストールされます。Moshiがインストールされ、その後はとても簡単です。ここでいくつかのライブラリを読み込み、モデルに話してもらいたいテキストを入力するだけです。
この場合、私は「こんにちは、お元気ですか。Kyutaiがストリーミングテキスト音声合成モデル、約20億パラメータモデルをリリースしました。超低遅延220ミリ秒、CC BY 4.0ライセンス、2.5時間で訓練」と言いました。これは、このビデオの冒頭で聞いたのと全く同じ内容です。
音声選択とモデルの特徴
次に、音声を選択する必要があります。なぜなら、ここでの音声合成はすべて音声に条件付けられているからです。
Hugging Faceの利用可能な音声リストから直接音声を取得して、使用を開始できます。技術的には、このモデルには音声クローニング機能がありますが、チームはこのオープンソースリリースでそれを有効にしないことを選択しました。なぜでしょうか。なぜなら、もし透かしを有効にしても、人々は簡単にそれを無効にできるからです。
彼らは、何百万人もの人々の手に、実行が簡単で低遅延で、Google Colaboratoryでも動作する音声クローニングモデルを渡したくなかったのだと思います。だから、それをしたくなかったのです。しかし、このモデルには技術的に音声クローニング機能もあります。この時点で、モデルをダウンロードし、モデルの使用を開始し、音声を生成します。
実際の使用例とデモ
コードに直接入る つもりはありませんが、実行できるYouTube説明欄にリンクを貼っておきます。最後に、音声を再生し、保存したい場合は音声を保存することもできます。今、テキストを変更して、どのような種類のことを実行できるかを見せます。
「これは変更されたテキストで、ある小さなコーダーは変わった男です。YouTubeアルゴリズム、この男が10万人に到達するのを手伝ってください」と言いたいと思います。ここで利用可能な全く同じ音声でこれを実行します。しかし、ここに行って他の音声を見ることができます。ここに行って「espresso espresso espresso」を見ると、利用可能な他の音声を見ることができます。
全く同じ音声で進めます。それが完了すると、音声を生成します。ここで音声が生成される方法は、12.5ヘルツのフレームレートを持つことです。各音声フレームは32の音声トークンで表現され、より高速な生成のために推論時により少ないトークンを使用することもできます。
モデルの技術仕様
柔軟性があります。この全体の主要なバックボーンは、6億パラメータの深度トランスフォーマーを持つ10億パラメータモデルです。これは約1.6で、そのため約20億パラメータモデルと呼ばれています。このモデルは現在、これがフランスの会社であるため、英語とフランス語の両方をサポートしています。CC BY 4.0ライセンスが付属しています。
このモデルは特にストリーミング用途向けに設計されています。これはローカルモデルなので、より少ない計算で実行できるため、これらのモデルがアプリケーションにもっと実装されるのを見たいと思います。人々が何を構築しているのか楽しみです。Google Colaboratoryノートブックに戻ります。
これが完了しました。これを実行します。
「これは変更されたテキストで、ある小さなTHは変更されたテキストで、ある小さなコーダーは変わった男です。YouTubeアルゴリズム、この男が10万人に到達するのを手伝ってください」
THを大文字で言ったので、THSとして読んでいると思います。とても面白いです。ここではそうしませんでした。
まとめとダウンロード方法
ただ「YouTube」として読みましたが、ここでは何かの頭字語だと思ったのでしょう。だから「TH」と言って、それからいずれにしても、とても興味深いです。この特定のコードを実行すると、mp3またはwaveファイルをGoogle Colaboratoryに保存します。やることは、これをクリックしてダウンロードするだけです。そうすれば、欲しかったものすべてが手に入ります。
どう思うか教えてください。会話の例をまとめて欲しい場合は、喜んでやります。しかし今のところ、おそらく最低遅延のストリーミングテキスト音声合成モデルをオープンソース化してくれたKyutaiチームに感謝します。これは非常に表現豊かでもあります。本当に、本当に良いです。
テストしてみて、どう思うか教えてください。また別のビデオでお会いしましょう。


コメント