TTS | ASIに仕事を奪われたい

2026年、CPU環境で最速のText-to-Speech登場(ボイスクローニング対応)

QTAIが開発したPocket TTSは、わずか1億パラメータの超軽量Text-to-Speechモデルでありながら、GPUを必要とせず一般的なCPUでリアルタイム音声合成が可能という画期的な特徴を持つ。Kokoroなどの既存モデルと比較し...

2026.01.14

AI音声

GoogleのGemini 2.5に搭載されたテキスト読み上げ(TTS)機能は、大規模言語モデル上に構築された音声生成システムである。従来の専用音声モデルに匹敵する品質を持ちながら、自然言語で音声効果を記述するだけで複雑な表現が可能となる。...

2025.12.20

Google・DeepMind・Alphabet

Microsoftが新たにリリースしたVibe Voiceは、従来のTTSモデルを大幅に上回る革新的な音声合成システムである。最大90分という長時間の音声生成が可能で、4つの異なる話者を同時に扱うことができる。英語と中国語の多言語対応に加え...

2025.09.03

Microsoft・Azure・ビルゲイツ

MicrosoftからリリされたVibeVoiceという15億パラメータのオープンソースTTS（テキスト音声合成）モデルについて解説している。このモデルはNotebookLMのようなポッドキャスト形式の音声を生成でき、複数話者による表現豊か...

2025.08.26

Microsoft・Azure・ビルゲイツ

Boson AI社が開発した新しい音声合成・音声クローニングモデル「Higs Audio V2」の詳細レビューである。1000万時間の音声データで事前学習されたこのモデルは、GPT-4o miniやElevenLabsとの比較で優秀な成績を...

2025.07.24

AI音声

フランスのKyutai社がリリースした超低遅延ストリーミングテキスト音声合成モデルについて解説する動画である。約20億パラメータのモデルで、220ミリ秒という超低遅延を実現し、商用利用可能なCC BY 4.0ライセンスで提供されている。Go...

2025.07.04

AI音声