2026年、CPU環境で最速のText-to-Speech登場(ボイスクローニング対応)

QTAIが開発したPocket TTSは、わずか1億パラメータの超軽量Text-to-Speechモデルでありながら、GPUを必要とせず一般的なCPUでリアルタイム音声合成が可能という画期的な特徴を持つ。Kokoroなどの既存モデルと比較しても低いWord Error Rateを実現し、Intel Core Ultra 7やApple M3といった標準的なCPU環境で実用的な速度を達成している。ボイスクローニング機能も備えており、デフォルトボイスを使用する場合はHugging Faceトークン不要で即座に利用可能である。Google ColabやローカルPython環境での実装方法が詳細に解説されており、CLI、サーブモード、Pythonライブラリと複数の利用形態に対応している点も実用性を高めている。

The fastest Text-to-Speech for CPU in 2026 (supports Voice Cloning)

Kyutai text-to-speech started as an internal tool we used during the development of Moshi. Kyutai Pocket TTS, a tiny mod...

革新的なローカルTTSモデルの登場
Hugging Faceでのアクセス方法
複数の利用方法
Google Colabでの実装手順
技術詳細とベンチマーク
総評と今後の展望

革新的なローカルTTSモデルの登場

新しいTTSモデル、つまりText-to-Speechモデルが登場しました。これは皆さんのローカルコンピュータ上で動作します。GPUは必要ありません。一般的な消費者向けCPUで実行できるのです。わずか1億パラメータのモデルです。ボイスクローニングも可能です。この動画では、ローカル環境でのセットアップ方法をお見せします。ボイスクローニング部分はお見せしませんが、少なくともTTS部分についてはご紹介します。

このモデルがどれほど優れているか、どれほど高速に動作するか、そしてローカル環境やGoogle Colabノートブックでどのように実行できるかをご覧いただきます。セットアップは非常にシンプルです。これはQTAIという会社から提供されています。この会社は、多くのオープンライセンスのText-to-Speech関連のものをリリースしています。それでは始めましょう。

QTAI TTSです。これはそのサイズゆえに特にQTAI Pocket TTSと呼ばれています。CPUでリアルタイム実行が可能です。まだリアルタイムチェックは確立していませんが、このモデルが非常に高速で、本当に優れた処理能力を発揮できることがお分かりいただけます。簡単にデモをお見せしましょう。

では、Welcome to one little coderと言ってみます。私はすべてのコーダーが好きです、小さなコーダーだけでなく。では再生してみます。

Welcome to one little coder. I love all coders, not just little coders.

ご覧のとおり、現在デフォルトボイスのAlbaを使用しています。使用できるデフォルトボイスがたくさんあります。しかし独自の音声を使いたい場合は、別のボイスクローニングモデルが必要になります。

Hugging Faceでのアクセス方法

どのように使用するのでしょうか。モデルはすでにHugging Faceで利用可能です。Hugging Faceにアクセスすると、最初にやるべきことは、大学や会社名などの所属情報を提出し、使用目的を述べる必要があります。私は楽しみのためと記入しました。それだけです。

このリポジトリへのアクセスはすぐに許可されました。しかし問題は、特にGoogle Colabノートブック内でこのリポジトリを使用しようとする場合、HFトークン、つまりHugging Faceトークンが必要になるということです。そこでこの動画では、デフォルトボイスを使用するGoogle Colabノートブックをまとめました。

これによりHugging Faceトークンを扱う必要がありません。しかし、たとえばボイスクローニングのようなものをご覧になりたい場合は、コメント欄でお知らせください。それについて別の動画を作成し、別のGoogle Colabノートブックもご提供します。

複数の利用方法

このPocket TTSにアクセスする方法はいくつかあります。1つ目は、Pocket TTSと呼ばれる独自のライブラリがあり、CLIコマンドレベルインターフェースとして使用できます。ターミナルに行って生成を開始できます。これがオプション1です。

オプション2として、サーブ機能が提供されています。つまりローカルで提供できます。たとえばホームサーバーがあって、お子さんのためにニュースを読みたい、ポッドキャストを聴きたい、オーディオブックが欲しい、ローカルモデルで何でもしたいことがあれば、それをサーブできます。エンドポイントとして提供できるのです。

これがPocket TTS serveです。つまり、CLIでアクセスできるライブラリとしてのPocket TTSがあり、生成モードとサーブモードがあります。この動画でお見せするのは、Pythonライブラリとしての使用方法です。なぜなら、私たちは皆プログラマーですし、何か工夫したシステムに使用できるかもしれないからです。

Google ColabでPythonライブラリを使ったデモをお見せします。ローカルコンピュータでもまったく同じことができます。Windows、Linux、macOS、何でも使えます。ただここにアクセスして、私がローカルのターミナルで行うのとまったく同じように実行できます。しかし、Google Colabノートブックでお見せします。

Google Colabでの実装手順

Google Colabノートブックにアクセスすると、YouTubeの説明欄にリンクを貼っておきますが、クリックして始めるだけです。ご覧のとおり、ランタイムをクリックしてランタイムを変更すると、これをCPUで実行しています。確実にCPUで実行していることがお分かりいただけます。

最初のステップはPocket TTSをインストールすることです。UVを使って行えば、はるかに高速です。PIPは少し遅いことは誰もが知っています。しかしすでに実行済みです。コードを説明してから、全体を実行してお見せします。そうすれば、編集なしでリアルタイムでどれだけ時間がかかるかが分かります。

最初のステップはPocket TTSをインストールすることです。インストールしたら、Pocket TTSからTTSモデルをロードする必要があります。その後、モデルをインスタンス化する必要があります。ここにオブジェクトがあります。TTS modelと呼んでいますが、好きな名前で呼べます。単にmodelと呼んでも構いません。

これを行った後、少し複雑になります。stateを初期化する必要があります。stateを初期化するにはいくつかの方法があります。モデルが条件付けする音声が必要です。モデルは構築の基盤となる音声が必要なのです。

モデルが音声を条件付けするために、1つのオプションとしてこれを使用できます。音声がすでにHugging Faceで利用可能で、認証などすべて済んでいる場合は、それができます。しかしこれら3つのコマンドすべての場合、ボイスクローニングモデルが必要です。なぜならモデルがボイスクローニングを実行するからです。

単純にText-to-Speechを使用するのではありません。そのためにはHugging Faceトークンを追加して実行する必要があります。その特定の部分には立ち入りません。しかし実行すると、モデルはすぐにエラーを出し、Hugging Faceトークンを追加する必要があると言います。そして、ボイスクローニング用の適切なモデルをダウンロードします。

これは覚えておくべきことです。しかし、できることは、デフォルトのこれらの音声の1つを選択することです。stateを定義できます。stateを定義しました。tts_model.get state for audio promptで、デフォルトボイスの1つであるAelmaを使用しています。Albaは後でお見せします。Albaは好きでしたが、Aelmaは女性の声です。

あとは、作成したオブジェクトであるTTS modelドットgenerate audioで、作成したstateを使用して何かを指定し、hey friends welcome to one little coderと指定するだけです。最終出力を書き込むためにscipyを使い、ここに表示します。あなたの場合はこれをする必要がないかもしれません。なぜなら、ローカルではダウンロードして、Windows Media Playerがまだあるか分かりませんが、使いたい任意のプレーヤーで再生できるからです。

しかしここではGoogle Colabノートブック内で再生しています。これが全体のコードです。まずこれを再生します。

Hey friends, welcome to one little coder.

とても素敵な声ですね。では、全体のコードを実行してみます。1つだけ変更を加えます。Aelmaの代わりにJeanと言って、Run allをクリックします。Run allをクリックすると、インストールが始まるのが分かります。しかし現在のセッションでは、すでにインストール済みと表示されています。

これが実行されています。ゼロからモデルを完全にダウンロードする必要はありません。これは完了しました。これも完了しました。音声stateをロードしています。ここでJeanがロードされているのが分かります。以前は利用できませんでした。Jeanがロードされると、hey friends, welcome to one little coderとなります。完了しました。最終的な音声ができました。再生します。

Hey friends, welcome to one little coder.

わあ、これは非常に真面目なJeanの声ですね。JeanというよりGianのようです。では、Albaに戻します。Albaで完了しました。再生しましょう。

Hey friends, welcome to one little coder.

いいですね。では、長いものを実行してみたいと思います。ここ全体をコピーして貼り付けます。今まさにText-to-Speechが行われています。そして最終的に出力音声が書き込まれます。

技術詳細とベンチマーク

QTAIチームは、彼らが達成したすべての革新について説明する詳細なブログ記事もリリースしています。非常に興味深いベンチマークがあります。私が絶対に気に入っているモデルがたくさんあります。

たとえばKokoroは、このチャンネルの多くの人が大ファンだと思うモデルで、小さなサイズと高品質のため、今でも多くの人にKokoroを強くお勧めします。しかし彼らはここで比較を行っています。このモデルがKokoroと同等であることが分かります。そしてモデルのWord Error Rateは最も低い部類です。

7億5000万パラメータモデルと比較しても、モデルのWord Error Rateは低いほど良いのですが、はるかに小さいです。最近注目を集めているChatterboxは3億5000万パラメータモデルですが、Word Error Rateはこれよりもまだ高いのです。

全体的にこの特定のベンチマーク自体を見ると、モデルは非常に優れています。実用的なパフォーマンスを評価するため、Intel Core Ultra 7 165Hz CPUを搭載した一般的なノートパソコンと、MacBook ProではなくMacBook Air、Apple M3 CPUで様々なTTSを実行してレイテンシを比較したことが分かります。

Pocket TTSとKokoroだけが、大きなマージンでCPU上でリアルタイム実行できることが分かります。他のものはリアルタイムからはほど遠いのです。モデルがどのように機能しているかを見るのは非常に興味深いです。

では、ここに行きます。43秒のクリップで、43秒、44秒かかりました。

QTAI text to speech started as an internal tool we used during the development of Moshi. As part of our commitment to open science, we’ve since open sourced to text-to-speech models.

正直なところ、この特定の声でポッドキャストやオーディオブックを聴きたいと思います。私の声はとても耳障りです。多くの人が、私の声が耳障りだからこのチャンネルを登録しませんでした。しかしこの声があれば、おそらくこの時点で50万人の登録者で浮かれているでしょう。

総評と今後の展望

これは素晴らしいモデルだと思いますし、会社自体も大ファンです。なぜなら技術的な詳細を詳しく説明しているからです。特定のことをどのように行うかについて多くの情報を提供しています。

実際、インストールや何も必要なく、すぐにこのモデルを使用できます。デモページにアクセスして、このモデルを使い始めることができるからです。ローカルコンピュータで使用したい場合は素晴らしいモデルです。どんどん使い始めてください。

私のスマートフォンでこのモデルを試してみたいです。Pixelフォンを持っていますが、最新版ではありません。このモデルがより良い仕事をできるか見てみたいです。しかしそれ以外では、これは素晴らしいモデルです。このモデルについてどう感じるか教えてください。

Kokoroのファンの方、Chatterboxのファンの方、遊べる新しいおもちゃがあります。同じものをコピーするか、ここでファイルとしてダウンロードして、ライブラリをインストールし、ローカルコンピュータで実行するだけです。頭を悩ませることなく、ローカルコンピュータでこのモデルを使用できるはずです。

Pythonで使いたくない場合は、最も簡単な方法は、uvx pocket tts serveを実行するだけです。そうすればモデルをサーブしたり、モデルを使って生成したりできます。このモデルについてどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング。