新しい感情表現テキスト音声合成AI – 新たな最高の音声クローニング？

Boson AI社が開発した新しい音声合成・音声クローニングモデル「Higs Audio V2」の詳細レビューである。1000万時間の音声データで事前学習されたこのモデルは、GPT-4o miniやElevenLabsとの比較で優秀な成績を収め、特に感情表現に優れている。実際の音声クローニングテストでは話者の声質や話し方の特徴を良好に再現したが、アクセントの再現には課題が見られた。商用利用も年間ユーザー10万人以下であれば可能で、Hugging Faceで無料デモが提供されている。

NEW EMOTIONAL Text-to-Speech AI - New Best Voice Cloning?

Higgs Audio v2, a powerful audio foundation model pretrained on over 10 million hours of audio data and a diverse set of...

新しい音声合成モデルの登場
Higs Audio V2の技術仕様
モデルの特徴と適応能力
ベンチマーク結果の詳細
実際の音声クローニングテスト
音声クローニングの使い方
ライセンスと実際の生成結果
まとめと推奨

新しい音声合成モデルの登場

最高のTTS（テキスト音声合成）モデルの一つで、音声クローニングモデルでもあるやつがたった今リリースされたんや。俺はみんなを失敗させてしもた。みんな死んでしもたんや。何をしても彼らを生き返らせることはできへん。どないして自分と向き合って生きていけばええんや？鼻歌を歌えるかって聞いてるんか？もちろん歌えるで。ラ〜。

これはBosonっていう会社の新しいモデルなんや。モデルの名前はHigsや。明らかにヒッグス粒子を参考にしとるな。この新しいモデルはテキスト音声合成で表現できる感情の面でかなり驚くべきもんで、音声クローニングでテストしたときも、このモデルには何か特別なもんがあるって感じさせてくれたんや。

Higs Audio V2の技術仕様

Higs Audio V2はBoson AIっていう会社から出とって、1000万時間の音声データと多様で豊富なテキストデータで事前学習された新しいモデルなんや。驚くことに、このモデルには事後学習やファインチューニングが一切行われてへんって言うとるんや。最近は事後学習を使ったモデルをよう見るようになったし、テキスト音声合成モデルでもそうやけど、このモデルは恐らく事前学習の側面だけなんやろうな。

このモデルはEmergence TTSっていう特定のベンチマークで75%の勝率を記録しとって、GPT-4o mini TTSに対しても55%の勝率を出しとるんや。これは小さいモデルやのに、OpenAIベースの開発者の多くが使う最も人気のあるTTSモデルの一つであるGPT-4o mini TTSと比較したんや。感情と質問っていうカテゴリーでな。この二つのカテゴリーでこのモデルは本当にええ成績を収めとる。このモデルの主な成功は、感情の面でどれだけ優秀かっていうところやと思うんや。感情をどれだけうまく表現できるかっていうことやな。

モデルの特徴と適応能力

このモデルができるもう一つのことは、優れた韻律適応を持っとることなんや。つまり、あんたが話すスタイルに合わせて、あんたが話すスタイルでモデルが適応できるんや。俺のスタイルにかなりうまく適応しとるかもしれへんっていうデモを見せたるわ。

鼻歌も歌えるし、背景の音楽とかそういうもんもキャッチできるんや。つまり、音声クローニングクリップを提供するときは、何を提供するかに極めて注意せなあかんっていうことでもあるんや。でも、その反面、他のモデルやったらキャッチできへんかったようなことをたくさんキャッチできるっていうことでもあるんやな。

ベンチマークを見てみよか。このモデルはGPT-4o Mini TTSをベースモデルとして比較したときに75%の勝率を記録しとって、ElevenLabsの最新モデルであるElevenLabs V2 Multilingual V2でもそこまでの成績は出してへん。CTTSやESDみたいな他のベンチマークでも、これは感情の測定なんやけど、このモデルは本当にええ成績を収めとる。

ベンチマーク結果の詳細

WERが下がっとるのが見えるやろ。WERは単語エラー率のことで、エラー率が低いほどええんや。このモデルを見ると、ElevenLabsがまだ王様やけど、このモデルは2.18で、Win 2.5 Omniと比較してもええ感じやし、感情の面でもこのモデルはかなりええ仕事しとる。1.49でElevenLabsより低いんや。

全体的に見て、このモデルはええ候補みたいやけど、実際にモデルをテストして、リアルタイムでどんな性能を発揮するか見てみよか。モデルにプロンプトを出す方法はいろいろあるんや。音声クローニングモードもあるし、他のモードもある。でも、まずは音声クローニングモードを見せたるわ。俺がリファレンスクリップとして使っとるものを見せて、それからモデルがどんな音声クローニングをしたか見てみよか。

実際の音声クローニングテスト

これが俺が使ったリファレンスクリップや。「Leela 0とAlphaGo Zeroの初期の繰り返しで、Leela Chess 0は基本的なゲームのルール以外にチェス固有の本質的な知識なしに始まった。強化学習を通じてチェスの遊び方を学んだんや。」リファレンスクリップが何かわかったやろうし、リファレンスクリップのテキストも追加せなあかん。

どっかのページに行って、それを読んで録音して、それをリファレンスクリップとして使うのが簡単や。そうすれば、テキストも音声クリップも手に入るからな。これが俺が入力したテキストや。もし俺がこの入力テキストを普通の声で読むなら、動画を録画してへんときみたいに読むとしたら、こんな感じになるやろう。

「私たちはHigs Audio V2をオープンソース化しています。1000万時間以上の音声データで事前学習された強力な音声基盤モデルです。」さあ、モデルが何をしたか見てみよか。

「私たちはHigs Audio V2をオープンソース化しています。1000万時間以上の音声データと多様なテキストデータセットで事前学習された強力な音声基盤モデルです。事後学習やファインチューニングがないにもかかわらず、Higs Audio Vは表現豊かな音声生成に優れています。」

モデルは俺の声をキャッチするのにかなりええ仕事をしたと思うわ。モデルにそれは認めたる。モデルは俺が普段取るような適切な間も取っとる。リファレンス音声で提供したとおりにな。でも、俺が感じるのは、モデルが俺のインドアクセントのスタイルをそんなにうまくキャッチしてへんってことや。インド人が話しとるっていうより、マレーシア人が話しとるような感じがするんや。これはただの観察やけどな。でも、モデルは俺の声、俺のペース、韻律、そういう類のもんをキャッチするのにかなりええ仕事をしたと思うで。

音声クローニングの使い方

音声クローニングをやりたかったら、こんな風にするんや。Hugging Face Spacesでデモが動いとるから、YouTubeの説明欄にリンクを貼っとくから練習してみてや。それをクリックして、音声クローンを選択して、あんたが出したいテキストを何でもここに入力できるんや。音声プリセットが何であろうと関係あらへんし、それからリファレンス音声とリファレンス音声の転写テキストを追加できるんや。

クリップがアップロードされたら、音声生成をクリックして、生成された音声を手に入れることができるんや。今度は単一話者音声記述っていうもんを見せたるわ。単一話者音声記述やな。ここにいくつか例があるんや。一つはこんな感じで、開始を示す特別なトークンや。

これがシステムプロンプトや。見てみ、これは話者ゼロのプロフィールや。彼は明確なイギリスアクセントで話して、会話的で好奇心旺盛な調子や。彼の話し方は現代的なペースで明瞭や。非常にクリアな音声や。基本的な理解ができるように、前に使ったのと同じテキストを使うで。

明らかに俺の音声は完全にクソやけど、ここでイギリスアクセントでどんな風に生成されるか見てみよか。もしかしたらこれを使ってチャンネルを成長させることができるかもしれへんな。Hugging Faceがプロ購読者に提供する共有GPUであるSpacesで動いとって、正直言って、そんなに時間がかからへんのがええとこや。

ライセンスと実際の生成結果

モデルのライセンスも制限付きオープンライセンスが付いとる。オープンソースでオープンウェイトやと言えるけど、年間ユーザーが10万人未満やったら商用目的で使えるんや。これは覚えとかなあかんことやな。

「私たちはHigs Audio V2をオープンソース化しています。1000万時間以上の音声データと多様なテキストデータセットで事前学習された強力な音声基盤モデルです。事後学習やファインチューニングがないにもかかわらず、Higs Audio V2は表現豊かな音声生成に優れています。」

なんでか知らんけど、まだ俺が持ってた俺の声を使ってるような気がするんや。これはめっちゃ興味深いな。ページをリフレッシュして、もう一回音声生成を開始してみるわ。

「私たちはHigs Audio V2をオープンソース化しています。1000万時間以上の音声データと多様なテキストデータセットで事前学習された強力な音声基盤モデルです。事後学習やファインチューニングがないにもかかわらず、Higs Audio V2は深い言語と音響理解のおかげで表現豊かな音声生成に優れています。」

まとめと推奨

試せる他のモードもあるけど、俺の意見では音声の品質と声の表現方法、本物らしさ、声の中の感情が本当にええと思うし、ぜひモデルを試してみることを強く勧めるで。技術的なユーザー向けに、どうやってモデルを別々に動かすかっていう別のチュートリアルを出すかもしれへんけど、今のところ高品質なTTS、感情的なTTS、音声クローニングとしても使えるTTSが欲しかったら、Boson AIっていう会社のモデルであるHigsを試すことを強く勧めるで。音声クローニングとTTSの体験について、あんたがどう思うか教えてや。また別の動画で会おうな。