NotebookLMやけどオープンソース！Microsoftからの画期的なテキスト音声合成技術

MicrosoftからリリされたVibeVoiceという15億パラメータのオープンソースTTS（テキスト音声合成）モデルについて解説している。このモデルはNotebookLMのようなポッドキャスト形式の音声を生成でき、複数話者による表現豊かな長時間音声の生成が可能である。拡散フレームワークを採用し、Qwen 2.5をベースモデルとして使用している点が特徴的で、従来の単調な音声合成とは異なり、感情表現や歌唱まで対応できる革新的なモデルとして紹介されている。

NotebookLM but OPEN SOURCE Text to Speech from Microsoft!

Microsoft's VibeVoice is a novel framework designed for generating expressive, long-form, multi-speaker conversational a...

NotebookLMのオープンソース版が登場
驚異的な表現力を持つTTSモデル
複数話者対応と長時間生成
技術的詳細とQwenベースモデルの活用
豊富な音声選択肢と調整可能パラメータ

NotebookLMのオープンソース版が登場

NotebookLMやけどオープンソースで、しかもローカルで動かせるんやで。これめっちゃ要望が多かったやつなんや。Microsoftから出た新しいモデルがどんなもんか見てみようやないか。

Future Unpackedへようこそ、テクノロジー界の大きなドラマを解剖する番組や。司会のMayaやで。今日はシリコンバレーを嵐のように駆け抜けた話を取り上げるで。

イーロン・マスクとSam Altmanの激化する確執についてや。かつてはOpenAIの創設で協力してた二人が、今は公然と対立しとるんや。彼のリーダーシップの下で大規模プロジェクトを進めてたんやけど、Altmanを含むチームはその方向性に居心地の悪さを感じてたんや。それでマスクは去ったんやけど、完全に背景に消えたわけやなかったんやな。全然そうやない。後にOpenAIを批判するようになったんや。

驚異的な表現力を持つTTSモデル

見てもらったら分かる通り、かなりええ仕事してくれてるやろ。これは長時間の表現豊かなTTSができる数少ないモデルの一つなんや。しかも一つのモデルでこれやからな。今まではNotebookLMみたいなソリューションが欲しかったら複数のモデルを繋げる必要があったんや。TTSソリューションとLLMが必要やったけど、これは両方できる一つのモデルなんやで。

MicrosoftからのVibeVoiceっていう新しいモデルで、15億パラメータのモデルや。もうデモは見てもらったけど、簡単な技術的詳細を言うと、これは拡散フレームワークを使ってるんや。Stable Diffusionモデルみたいなもんで、普通の自己回帰トランスフォーマーモデルとは違うんや。拡散フレームワークを使ってるわけや。

簡単に言うと拡散ヘッドがあって、90分の音声まで生成できるんや。

複数話者対応と長時間生成

これは表現豊かな長時間マルチスピーカーなんや。話者1、話者2ってタグ付けできるんやで。このデモみたいに、話者1と話者2にタグ付けして、それぞれの声を選んで、何人の話者がいるか指定できるんや。そしたら全員分のTTS、つまり音声を生成してくれるんや。しかも単調やなくてな。Amazon Pollyみたいやなくて、今のPollyがどれくらいええか分からんけど、5、6年前にPollyを使ってオーディオブック作ろうとした時は全然あかんかったからな。でも今はこれを使ってオーディオブック作れるんや。これがVibeVoice、15億パラメータのモデルや。

いくつか例を再生して、どんなことができるか見てもらうで。

コンテキスト認識表現、つまり反応せなあかん感情があるんや。

「また同じことしてくれたなんて信じられへん。2時間待ったで。2時間やで。電話も一本もくれへん、メールも一つもくれへん。一人でそこに座ってるのがどんだけ恥ずかしかったか分かる？」

すごいやろ。

「おう、また覚えてくれてるやん？『ワイルド・スピード SKY MISSION』のあれやろ？あの歌はいつも心に響くんや。ちょっと歌ってみるわ。『友よ、君なしの長い一日だった』」

これはOpenAIがChatGPTの音声機能を発表した時に約束してたことやんか。スカーレット・ヨハンソンの件とか、法的な確執とか、マーケティングでやってたけど、結局実現せえへんかったやん。今でもOpenAIは意のままに歌えるとは思えへんな。アプリ使って確認してみるけど、実際にできるかどうか分からん。ちょっと時間かかるで。

「こんにちは。歌歌ってくれる？」

「もちろんです。喜んで歌わせていただきます。ちょっとしたメロディーを選んで、数行歌いますね。はい、どうぞ。」

「ちょっとした歌が必要な時は、いつでも歌ってと頼んでください。あなたの一日を明るくするためにここにいます。」

「すみません、すみません。歌みたいに聞こえへんなあ。歌が欲しいんや。歌を。」

「ああ、分かりました。もっと歌らしくて洗練されたものが欲しいんですね。よし、もう一度やってみます。時には小さなメロディーが必要です、あなたを元気づけるために。」

見ての通り、完全にクソやろ。できもしないのに、できるって騙そうとしてるんや。でもこのモデルは、見てもらった通り、かなりええ仕事してくれてる。もう一回再生してみるわ。

「そしてこの部分はいつも失った人々のことを思い出させてくれる。俺たちは最初の場所からずいぶん遠くまで来たもんや。」

すごいやろ。ポッドキャストでバックグラウンドミュージックが流れてるのも聞こえたやろ。

もう一つ例を見てみよう。

「Tech Forwardへようこそ、最大の…を紐解く番組です。」

典型的なポッドキャストスタイルやな。これはかなり優秀やで。

技術的詳細とQwenベースモデルの活用

このモデルは現在、英語と中国語（標準中国語）の2言語をサポートしてて、15億パラメータサイズやねん。いろんな訓練の詳細があるけど、このモデルで一番興味深い訓練詳細は、Qwen 2.5の10億から15億パラメータのモデルをベースモデルとして使ってることや。

NotebookLMの構造には、いろんなことを知ってる大規模言語モデルが必要で、これはQwen 2.5を使ってるんや。オープンソースライセンスのおかげで、中国のQwenモデルが大規模言語モデルのオープンソース宇宙にどれだけ影響を与えてるか、そして今度はTTS分野にも影響を与えてることを強調する興味深い瞬間やと思うで。Qwen、つまりAlibaba会社には感謝せなあかんな。かなりええ仕事してくれてるからな。

このモデルについては興味深い詳細がいっぱいあるんや。技術的詳細に興味があったら読んでみてな。簡単に言うと、何が起こってるかを理解していろんなことをするLLMがあって、拡散コンポーネントもあるんや。このケースでは65,000トークンでコンテキスト長を訓練してるんや。

ここで出したデモは4,449文字やねん。これは大体6,000トークンに相当する。735語あるんや。でもこれでも多くのTTSソリューションができないことで、このモデルは全部できるんや。

このモデルのもう一つのええところは、ストリーミングができることや。生成してる間に、特定のポイントを生成した後、生成を続けられるんや。

豊富な音声選択肢と調整可能パラメータ

いろんな声が利用できるんや。女性の声もいっぱい、男性の声もいっぱいあって、CFGみたいな高度なパラメータもある。これは拡散モデルで普通にやってることやねん。CFGが高いと、プロンプトへの準拠度が高くなる。CFGが低いと、プロンプトへの準拠度は低くなるけど、より創造的な側面が強くなるんや。

これらのパラメータで遊べるけど、結局はMITライセンスのモデルがあるのがめっちゃ嬉しいことや。つまり、どんな商用目的でも使えるモデルで、どんなコンピュートでも使えるんや。NotebookLMだけに頼る必要がないんやで。

もしNotebookLMみたいなソリューションを構築したくて、こんなモデルを待ってたんやったら、これが使いたいモデルや。

YouTubeの概要欄にデモのリンク貼っとくから、モデルをテストしてみてな。このモデルで何かテストしてほしいことがあったら、コメント欄で教えてな。無料のコンピュートリソースや、レンタルコンピュートでどうやって動かすかのチュートリアルもまとめてみるつもりや。また次の動画で会おうな。ハッピープロンプティング！