高感情表現・超長時間対応 – 画期的テキスト音声変換技術登場！

Microsoftが新たにリリースしたVibe Voiceは、従来のTTSモデルを大幅に上回る革新的な音声合成システムである。最大90分という長時間の音声生成が可能で、4つの異なる話者を同時に扱うことができる。英語と中国語の多言語対応に加え、背景音楽付きのポッドキャスト形式のコンテンツも生成可能だ。LLMとして Qwen 2.5を活用してテキストの文脈理解を行い、拡散モデルによって高品質な音響詳細を生成する次世代アーキテクチャを採用している。MITライセンスで提供されるため商用利用も可能で、オーディオブック制作や教育コンテンツ作成など幅広い用途での活用が期待される。

highly emotive, super long - breakthrough text to speech!!!

VibeVoice is a novel framework designed for generating expressive, long-form, multi-speaker conversational audio, such a...

MicrosoftのVibe Voice大型モデル登場
多言語対応と精度の検証
モデルの革新的機能
商用利用可能なオープンソースモデル
アーキテクチャと技術的詳細
実際の動画デモと感情表現
音声の一貫性と課題
今後の展望と総評

MicrosoftのVibe Voice大型モデル登場

MicrosoftがビッグフィッシュTTSをリリースしました。皆さんこんにちは、Vibe Voiceポッドキャストチャンネルへようこそ。このモデルはVibe Voiceと呼ばれています。私たちは既にこのモデルの小さなバージョンについて議論しましたが、これはこのモデルの大きなバージョンです。このモデルの最も素晴らしい点は、最大90分、つまり1時間半のオーディオコンテンツを生成できることです。

でもまず、英語と中国語の2言語のミックスのサンプルをお見せしたいと思います。現在、これらが対応している2つの言語です。最後のサンプルを聞いてみましょう。何かが非常に簡単だと言いたい時、とても鮮明なフレーズを使うことができます。文字通り「目をつぶってもできる」という意味です。

例えば、彼が目をつぶってもこのソフトウェアを使えると言いたい場合、そう言うことができます。さて、今日はこれで時間となりました。聞いていただきありがとうございます。この世界の興味深いことを皆さんと共有するVibe Voiceをぜひ購読してください。ご覧のように、これは純粋なテキスト音声変換ですが、同じ会話の中で複数の言語を扱うこともできます。

多言語対応と精度の検証

これが私が貼り付けたテキストで、私たちは1人の話者のみを選択しましたが、英語と中国語の両方を非常に上手にやっているのがわかります。私は中国語話者ではありませんが、このような中国語を聞いていると、とても正確に聞こえます。もし北京官話を知っているなら、コメント欄で意味が通じていたかどうか教えてください。

でもマルチスピーカーもできますし、背景音楽付きのポッドキャスト形式のコンテンツも作れます。イントロを再生するので、私が何を意味しているか理解できるでしょう。皆さんこんにちは、Vibe Voiceポッドキャストチャンネルへようこそ。私はホストのリンダです。今日は…

背景音楽が聞こえましたか？その背景音楽が私が話していたことです。

モデルの革新的機能

NotebookLMスタイルのコンテンツを背景音楽付きで、複数の話者で生成できます。これらすべてが単一のモデルで実現されています。後でこの動画でマルチスピーカーの会話を見せるデモをもう一つお見せします。でも今のところ、このモデルとは何でしょうか？

このモデルはVibe Voiceと呼ばれ、このモデルの小さなバージョンである15億パラメータのモデルは既にMicrosoftによってリリースされています。このモデルは4つの異なる話者で最大90分のコンテンツを生成できます。話者1、話者2、話者3、話者4でコンテンツを生成できます。これは、最大でも1人または2人の話者しか生成できない多くの既存ソリューションとは大きく異なります。

どのTTSモデルでも90分の長いコンテンツを一度に生成するのを見たことがありません。これが出力音声の長さで、Vibe Voiceは他の誰よりもはるかに先を行っています。最も称賛されているソリューションの一つであるSesame AI Labsよりもはるかに優れています。私たちは以前このチャンネルでDIAについて取り上げたと思いますが、DIAよりもはるかに優れており、Gemini 2.5 Pro Preview TTSよりも優れています。

商用利用可能なオープンソースモデル

Google Gemini TTSは現在使える最高のプロダクションレベルTTSの一つですが、これはそれよりもはるかに高い性能を発揮でき、このモデルがオープンソースでMITライセンスで提供されているという事実は、商用目的でこのモデルを使用できることを意味します。会社内でのコーポレートコンテンツ生成であろうと、YouTubeや他のプラットフォーム向けのコンテンツであろうと関係ありません。

このモデルは、やりたいことに対してかなり良いコンテンツ生成をしてくれると思いますし、そこからお金を稼ぐこともできます。それがMicrosoftが言っていることです。前の動画で見たように、このモデルは拡散と現在のLLMスタックの組み合わせです。Vibe Voiceは基本的に次世代トークン拡散フレームワークです。テキストコンテンツを理解するためにLLMを活用しています。

アーキテクチャと技術的詳細

ここで起こっていることは、何かを言う時、それは何が起こっているかを理解しなければならないということです。文脈を理解しなければなりません。典型的なTTSモデルでは理解できません。そのためにLLMが必要です。対話フローのためのLLMバックエンドと、背景音楽や表現などの高品質音響詳細を生成する拡散ヘッドです。

このモデルのLLM部分はQwen 2.5によってサポートされており、これは再びQuenが多くのオープンソースモデルをサポートしているという素晴らしいことの一つです。音響詳細や他のすべてを生成するのに役立つ6億パラメータの拡散ヘッドを持っています。彼らはまた、ストリーミング用のVibe Voice 5億パラメータモデルもリリース予定です。

これは理想的にはストリーミングに役立つはずです。例えば、テキストが入ってくる間にライブでオーディオを生成したい場合などです。これは非常に役に立ちます。例えば、ChatGPTのストリーミング入力があり、それに対してオーディオストリーミングの出力を持つことができます。これは近日公開予定です。見逃さないよう、チャンネルを購読してください。でも、この動画を終える前にもう一つデモをお見せします。

実際の動画デモと感情表現

現在使用しているデモはHugging Faceでホストされています。これはHugging Faceのスペースです。そこに行ってモデルで遊ぶことができます。Vibe Voiceと呼ばれ、モデルで遊ぶことができます。テキストを構造化する方法は、話者1のタグと話者2のタグが必要です。話者数を選択する必要があります。

2つの異なるモデルを選択できます。Vibe Voice Large 15億パラメータモデルです。話者1と話者2内で、欲しい声を選択できます。詳細設定を変更したい場合、CFGスケールを変更できます。これは基本的にプロンプトと創造性の間のガイダンスです。

低く設定して1に近づけると、プロンプトによく従います。とにかく、現在使用しているテキストは最新のスーパーマン映画からのものです。映画を見たことがあれば、映画でロイスとスーパーマンまたはクラーク・ケントの間の会話がどのように起こるかを比較でき、ここで実際にTTSがどのように行われるかを理解できるので、モデルが感情にどの程度優れているか、あるいはどの程度劣っているかがわかります。再生してみます。

スーパーマン、バビア空域に入る前に大統領と相談しましたか？スーパーマン、バビア空域に入る前に大統領と相談しましたか？スーパーマン、バビア空域に入る前に大統領と相談しましたか？

深く重いため息。いいえ。

国防長官は？いいえ。

あるいは何らかの米国当局者と、あなたが事態を自分の手に委ね、この極めて微妙な状況をどう処理するかを一方的に決定する前に。

キロスと彼の手下たちは人々を殺そうとしていました。それは単に一つの圧政体制を別のものに置き換えるだけでした。それが本当にあなたの感じ方ですか？

インタビューを受けているのは私ではありません、スーパーマン、でも私なら疑問に思います。そう、同じ状況で私は自分自身を疑い、少し待って結果を考えるでしょう。人々が死のうとしていました。

結果を考えてください。人々が死のうとしていました。

感情の面では、かなりまともな仕事をしたと思います。会話の時に多くの背景ノイズを追加した部分は気に入りませんでした。もう一度試してみるかもしれません。でも全体的に、感情の面では、特に最後のセリフ「人々が死のうとしていました」のような、これは彼らがトレイラーで使った象徴的なセリフでした。

音声の一貫性と課題

これはかなり良い仕事をしたと思いますが、私の観察だけかもしれませんが、声を混同しているような気がします。1つの声だけを選択したにも関わらず、声を混同しているようです。わからないのですが、同じような観察をしたか、コメントで教えてください。でも異なる声があります。

BGM付きやBGMなしを選択でき、中国語の声もあります。インド系だと思う声もあります。でも全体的に、これは素晴らしいモデルだと思います。モデルが異なる感情をどう処理するかの一貫性と、感情をどうコントロールできるかについて、より良いコントロールができるかについて心配かもしれません。

高感情モデルが欲しいのか、欲しくないのか。でもそれ以外は、これは素晴らしいモデルだと思いますし、このモデルが90分までのコンテンツを生成できるという事実は、90分は別としても、30分のコンテンツさえ生成できれば、オーディオブックやコースカリキュラム、その他音声が必要な多くの場所で極めて役に立ちます。

今後の展望と総評

でも、Microsoftがこのモデルを他の言語にファインチューニングするためのスクリプトを共有してくれるかも楽しみにしています。そうすれば、現在あまりコンテンツが存在しないインドの言語にこれを適用できます。全体的に、本当に素晴らしいリリースです。モデルにアクセスでき、このモデルはMITライセンスで利用可能です。これをリリースしてくれたMicrosoftに感謝します。ストリーミングモデルを楽しみにしています。また別の動画でお会いしましょう。ハッピープロンプティング。