TTS

Google・DeepMind・Alphabet

新しいGeminiテキスト読み上げ

GoogleのGemini 2.5に搭載されたテキスト読み上げ(TTS)機能は、大規模言語モデル上に構築された音声生成システムである。従来の専用音声モデルに匹敵する品質を持ちながら、自然言語で音声効果を記述するだけで複雑な表現が可能となる。...
Microsoft・Azure・ビルゲイツ

高感情表現・超長時間対応 – 画期的テキスト音声変換技術登場!

Microsoftが新たにリリースしたVibe Voiceは、従来のTTSモデルを大幅に上回る革新的な音声合成システムである。最大90分という長時間の音声生成が可能で、4つの異なる話者を同時に扱うことができる。英語と中国語の多言語対応に加え...
Microsoft・Azure・ビルゲイツ

NotebookLMやけどオープンソース!Microsoftからの画期的なテキスト音声合成技術

MicrosoftからリリされたVibeVoiceという15億パラメータのオープンソースTTS(テキスト音声合成)モデルについて解説している。このモデルはNotebookLMのようなポッドキャスト形式の音声を生成でき、複数話者による表現豊か...
AI音声

新しい感情表現テキスト音声合成AI – 新たな最高の音声クローニング?

Boson AI社が開発した新しい音声合成・音声クローニングモデル「Higs Audio V2」の詳細レビューである。1000万時間の音声データで事前学習されたこのモデルは、GPT-4o miniやElevenLabsとの比較で優秀な成績を...
AI音声

これは超高速で無料のTTS!⚡️ Kyutai TTSの実行方法⚡️

フランスのKyutai社がリリースした超低遅延ストリーミングテキスト音声合成モデルについて解説する動画である。約20億パラメータのモデルで、220ミリ秒という超低遅延を実現し、商用利用可能なCC BY 4.0ライセンスで提供されている。Go...