GPU不要！CPUで動く最高の無料テキスト読み上げソフト！😻 KittenTTS 😻

この動画は、GPUが不要でCPUのみで動作する高品質なテキスト読み上げソフト「KittenTTS」について解説したものである。わずか25MB以下の軽量モデルながら自然な音声を生成でき、複数の男女の声から選択可能で、リアルタイム音声合成に最適化されている。Apache 2.0ライセンスで商用利用も可能とされ、Google Colabでのデモや実際の音声サンプルを通じてその性能を紹介している。

No GPU Needed! BEST FREE Text to Speech for CPU! 😻 KittenTTS 😻

Kitten TTS is an open-source realistic text-to-speech model with just 15 million parameters, designed for lightweight de...

KittenTTSの紹介とデモンストレーション
KittenTTSの特徴と性能
使用方法とインストール
デモンストレーション開始
音声品質の評価と各種声の比較
総合評価とライセンス情報
今後のロードマップと結論

KittenTTSの紹介とデモンストレーション

やあ、One Little Coderへようこそや。実践的なAIチュートリアルの場所やで。この動画はな、CPUで動く高速なTTSソリューションについてやねん。これは本当に高品質な音声でCPUだけで動かせる最高のもんの一つやと思うわ。めっちゃ小さいモデルやねん。つまり、ショボすぎるほど小さいわけやないけど、GPUが要らんちょうどええサイズのモデルなんや。

Google Collab Notebookでデモをするけどな、このGoogle Collab Notebookのデモは見ての通り、単純にCPUで動かしとるんや、GPUやないで。だから君らも自分のローカルコンピュータで同じことができるはずや。理想的には何の問題もなく動くはずやで。

この新しいモデルはな、KittenML、文字通りKitten TTSっちゅう会社からのもんなんや。この会社の名前はKitten MLで、Kitten TTS Nanoをリリースしたんや。これはプレビュー版で、彼らの話やと完全版もリリースする予定らしいわ。

KittenTTSの特徴と性能

この新しいモデルはオープンソースでリアルスティックやねん。どこまでリアルスティックかはわからんけど、音声品質は本当にええで。テキスト読み上げモデルで1500万パラメータや。

このモデルは感情面ではそんなによくないと思うわ。今まで感情がええTTSをようけ見てきたけど、感情タグを追加できたり、テキストの中でも感情を理解して、それに合わせて読み上げてくれるもんがあるんやけど、このモデルはそうとは言えんな。まあでもこのモデルは文字通り25MBやから文句は言えんわ。25MB未満なんや。

CPUに最適化されとって、男女両方の事前に決められた、または事前にロードされた声がいっぱい用意されとる。そして主にリアルタイムの音声合成に最適化されとるんや。

使用方法とインストール

このモデルはどうやって動かすんか？Google Collabでやるなら、いいねボタンの下にあるリンクをクリックするだけや。いいねボタンも押してくれてもええで。でもいいねボタンの下のリンクをクリックして、Google Collabを開いて「run all」をクリックしたら、理想的には何の問題もなく動くはずや。

でもローカルコンピュータでやりたいなら、最初にせなあかんのは最新版のKitten TTSをインストールすることや。最新版のKitten TTSをインストールしたら、数分かかるかもしれん。ワイのGoogle Collabの場合は2分かかったで。なんでかっちゅうと、ライブラリをようけ更新して、ライブラリをようけ削除して、また新しくインストールするからや。それが一つ。

それが済んだら、次はKitten TTSから、これは彼らの独自SDKやけど、kitten TTSをimportして、オブジェクトでM = kitten TTSって定義して、model.deを指定するんや。理想的には新しいバージョンのモデルがあったら、モデルを変更するんやで。

利用可能な声のリストがあるねん。この動画で後で調べるで。いろんな声と、それがどんな音なんかを調べるで。そしたらm.generateって言って、好きなテキストを渡すだけや。テキストを別のオブジェクトにしてもええで、もしそれが助けになるならな。

デモンストレーション開始

シンプルにするために、この全部をコピーして、別のテキストとして置くで。Input text = これ、っていう風にな。そしてここでinput textって呼ぶんや。それができたら、m.generateって使うんや。これはモデルを保存したオブジェクトやで。そして欲しい声を指定するんや。ワイの場合は5Mを選んだ。

これはOpenAIのWikipediaページからコピーしたテキストで、君らに再生するで。まず今からワイが読むけど、ワイのアクセントがどんだけ酷いか知っとるやろ。

「2023年と2024年に、OpenAIは著者やメディア会社から複数の著作権侵害の訴訟に直面した。これらの会社の作品がOpenAIの製品の一部を訓練するのに使われたとされる。2023年11月、OpenAIの取締役会は彼への信頼の欠如を理由にサム・アルトマンをCEOから解任したが、取締役会の再構成の後、5日後に彼を復職させた。」

これはただの適当なニュースで、時事問題とは関係ないで。これが作成したもんを再生して、それから違う音声クリップで試してみるで。

「In 2023 and 2024, Open AI faced multiple lawsuits for alleged copyright infringement against authors and media companies whose work was used to train some of Open AI’s products. In November 2023, Open AI’s board removes Sam Alman as CEO, citing a lack of confidence in him, but reinstated him five days later following a reconstruction of the board.」

音声品質の評価と各種声の比較

それや。めっちゃええやんか。音声がすごい自然やで。これが彼らがリアルスティックって言うた意味やと思うわ。ロボットみたいな声やないし、普通にPollyを開いてオーディオブックを読むようなもんでもない。すごいええで。これでオーディオブック作れるで。音はええねん。唯一足りんと思うのは感情やけど、25MBのモデルに文句は言えんわ。

動画の最初で見た紹介部分をやってみるで。「Hey, welcome to one little coder. You’re practically a tutorials destination.」これは動画の最初で見た時に2Mの声を使ったんや。今度は2Fに変えて、同じクリップを違う声で試してみるで。

再生したで。この動画は編集せんで。この小さいテキストで3秒かかった。CPUで3秒や。

「Hey, welcome to one little coder. Your practical AI tutorials destination.」

悪くないな。3Fをやってみたいわ。3F、4F、5Fがあるねん。

「Hey, welcome to one little coder, your practical AI tutorials destination.」

ナイスや。これの方が好きやわ。これも5秒やった。さっきのは4秒やったな。4Fをやってみるで。

「Hey, welcome to One Little Coder, your practical…」

あ、すまん、コードを実行してなかった。わしが悪い。実行するで。

「Hey, welcome to One Little Coder, your practical AI tutorials destination.」

これやったらASMR動画作れそうやな。5F。

「Hey, welcome to one little coder, your practical AI tutorials destination.」

これやったら子供向け動画作れるわ。5Mをやってみるで。6秒。

「Hey, welcome to one little coder, your practical AI tutorials destination forum. Hey, welcome to one little coder, your practical AI tutorials destination.」

かなり早いと思うで。4M。

「Hey, welcome to one little coder, your practical AI tutorials destination.」

この声もめっちゃ好きやわ。2Mはもう聞いたやつやな。

総合評価とライセンス情報

いろんな声と比べた時、子供のYouTubeチャンネルみたいな女の子の声以外は、ほとんどの声が気に入ったで。でもそれ以外は全部すごいええし、見ての通りCPUにしてはかなり早いで。この品質のモデル、このサイズにしては、かなり早いわ。

商用目的で使えるかどうかについてはあんまり情報がないねんけど、このモデルはApache 2.0ライセンスになっとるから、技術的には商用目的で使えるはずや。だから開発してYouTube動画作って試してみたいなら、今がチャンスやで。オーディオブックを取って、どんな感じになるか見てみいや。技術的にはこれより長いテキストでも動くはずや。実際にこれより長いテキストで試したけど、動いたで。

壊れることもないし、変なこともせえへん。これは自己回帰モデルやないと思うからや。間違うとるかもしれんけど。いずれにせよ、これはすごいええモデルやと思うわ。特にTTSテキスト読み上げの世界で、小さいモデルを見るのが好きやねん。小さいモデルは大きなインパクトを与えることができる。

今後のロードマップと結論

リアルタイムストリーミングでも、いろんな用途でのニアリアルタイム速度合成でも、役に立つで。彼らはロードマップも共有しとるし、今は使ってるプレビューモデルを共有して、次は完全に訓練されたモデル重みを共有するんやって。それはもっと高品質になるらしい。それからモバイルSDKをリリースして、ウェブ版もリリースするんやって。

そこでサブスクリプション的なプランでお金を稼ぐんやと思うわ。でもいずれにしても、これはめっちゃええで。このモデルをリリースしてくれたKitten MLチームに感謝するわ。見た音声についてどう思うか、どの声が好きか教えてや。また別の動画で会おうな。ハッピープロンプティング。