GoogleのGemini 2.5に搭載されたテキスト読み上げ(TTS)機能は、大規模言語モデル上に構築された音声生成システムである。従来の専用音声モデルに匹敵する品質を持ちながら、自然言語で音声効果を記述するだけで複雑な表現が可能となる。複数話者の会話生成、30種類以上の音声オプション、24言語対応など、柔軟性の高い機能を備えている。専用トークンが不要で、感情表現やアクセント、ペース調整まで自然言語プロンプトで制御できる点が特徴的だ。Flash版とPro版が提供されており、実験ではFlash版の方が指示への忠実度と速度で優れているとされる。価格設定も比較的手頃で、音声AI活用アプリケーション開発者にとって有力な選択肢となる。

Gemini Text to Speechの登場
今日はGeminiのテキスト読み上げ機能について見ていきます。これはGeminiシリーズの上に構築された音声生成モデルです。11 Labsのような専用音声モデルの品質に本当に匹敵するものとなっています。でも、これらは大規模言語モデルの上に構築されているため、音声に求める効果を説明するだけでそれを生成することができるんです。
例えばここでは、劇的な映画予告編風に壮大な間を入れたいとします。
人工知能がすべてを変えた世界で、一つのAPIがあなたのオーディオコンテンツの作り方を変革します。Gemini Text to Speech、この夏、あなたの近くの開発者のもとへ。
素晴らしいのは、特殊効果のための専門的なトークンがもう必要ないということです。
そしてこれにより、複数の話者を生成する能力も得られます。話者に何について話してほしいかを説明するだけでいいんです。こちらが例です。
なんてこと、新しいAIのテキスト読み上げ試した?すごいわよ。
私?TTSなら前に聞いたことあるけど、みんなロボットっぽい音だよ。
違う違う違う、これは違うの。感情表現もできるし、アクセントも、複数の話者も対応してるのよ。
そうだね、いつもそう言うよね。
これ聞いて。囁くこともできるし、叫ぶこともできるのよ。
OK、これは認めるよ、実際かなり印象的だ。
でしょ、未来はここにあるのよ。
モデルの詳細と使い方
さて、このビデオではこのGemini 2.5の音声テキストモデルの上に構築する方法をお見せします。おそらくお気づきかと思いますが、これらは前世代のGemini上に構築されており、最新のバージョン3ではありません。
そしてこれらのモデルはプレビュー版ですが、Googleがこれらのモデルで進んでいる方向性について本当に良い指標を与えてくれます。個人的には、2026年には音声とボイスがこれらのフロンティアラボの多くにとって主要な焦点領域になると思っています。
さまざまな機能を体験したい場合は、このアプリをテストすることを強くお勧めします。これはAI Studio内で作成されたものです。つまりコードが利用可能です。
四半期目標が不可能だと思われていた世界で、一つのチームがあえて困難に立ち向かいました。彼らはバグに直面しました。スコープクリープに直面しました。そして締め切りに直面しました。
はい、実際にさまざまな出力とさまざまな個性、さまざまな音響効果でテストできます。
APIの実装方法
でも、もしあなたが開発者でAPIの上に構築したいだけなら、ビデオの説明欄に用意される簡単なノートブックがあります。まず、Gemini APIキーが必要です。これはプレビューモデルなので、レート制限の問題に遭遇しないように有料APIを取得することを強くお勧めします。
Google Generative AI SDKのバージョン1.16以上が必要になります。そして、APIキーを提供してGenerative AIクライアントを作成するだけです。
現在、2.5 Proと2.5 Flashの両方がテキスト読み上げシステムで利用可能です。私の実験では、FlashがProモデルよりも実際に優れていることがわかりました。まず、はるかに高速です。次に、Proバージョンと比較して指示により忠実に従うようです。
両方を試して、どちらが自分に合うか確認してください。私自身の実験では、Flashがこの特定のタスクでかなり優れているように思います。
それでは、モデルによって生成されたオーディオを再生するヘルパー関数があります。Generative AI SDKの基本的な使い方は、大規模言語モデルを使用する場合と非常に似ています。モデルIDを提供します。
この場合、Gemini 2.5 Flash Preview TTSまたはGemini 2.5 Pro Preview TTSのいずれかである必要があります。そして設定では、オーディオモダリティを使用したいことを伝える必要があります。
応答が生成されます。それを取得して、作成したヘルパー関数を通してそのblobを渡します。この場合、こんにちは、私の名前はGeminiですと言いたいとします。
プロンプトの構造と音声効果
このテキスト文字列には2つの異なる部分があります。最初は、大規模言語モデルまたはテキスト読み上げシステムに提供している指示で、次に音声の実際の内容です。どのような効果になるかを自然に説明でき、モデルはほとんどの場合それに従います。
例えば、ここではこんにちは、私の名前はGeminiですと言いたいだけで、こちらが出力です。
こんにちは、私の名前はGeminiです。
ええ、かなり素敵ですよね。現在、ほとんどのTTSシステムは問題なくこれを実行できますが、このシステムでは特定の音声を選択するコントロールも得られます。Googleは設定で多くの異なるオプションを提供しています。このリストから事前構築された音声を提供するだけです。
例えば、これを再生できます。
私は非常に知識豊富なモデルです、特にグラウンディングを使用する場合は、そう思いませんか?
さて、ここで文の途中に5秒待機する指示があったのがわかりますでしょうか、そしてそれに従っています。これはかなり素晴らしいですよね。これにより、モデルがテキストや音声を生成している間に特定の指示を提供する機能が得られます。これはGemini上に構築されているためです。
多言語対応と音声制御
非常に多くの言語がサポートされています。例えば、特定の言語を伝えるだけで、その言語で音声を生成できます。
そしてシンプルなプロンプトを通じて、自然言語プロンプトだけでスタイル、トーン、アクセント、ペースを制御できます。
私の親指が疼くことで、何か邪悪なものがこちらに来る。
著者は、このサイトのコンテンツにおけるいかなる誤りや省略についても責任または義務を負いません。このサイトに含まれる情報は、完全性、正確性、有用性、または適時性の保証なしに、現状のまま提供されます。
誰かが請求書の支払いをしなければなりません。それでは、スポンサーの話を聞きましょう。
スポンサー紹介
こちらはBlinkです。シンプルなテキストプロンプトを機能的なバックエンド認証と決済を備えたフルスタックアプリケーションに変換できる新しいエージェント型コーディングプラットフォームです。複雑な統合について心配する必要はありません。
プラットフォームで利用可能な最新モデルがすべて揃っているか、特定のタスクに最適なモデルを使用するように決定させることができ、かなり良い仕事をします。
ここでAI画像ジェネレーターを作成するように頼みました。こちらが作成されたUIです。これはNano Bananoを使用してテキストプロンプトに基づいて画像を作成しています。でも最高なのは、ネイティブ統合があることです。独自のAPIを持参する必要がないため、反復が非常に高速になります。
また、ユーザーがログインする機能も追加されました、これはかなり素晴らしいです。そのために、組み込みデータベースがあります。つまり、完全に機能するアプリを出荷するためのすべてのコンポーネントが揃っています。
それらは独自のインフラストラクチャでホストされているため、数分でユーザー向けアプリを構築して出荷できます。作成できる他の楽しいものがいくつかあります。これはグローバルラジオエクスプローラーで、さまざまなラジオ局を選択できます。
これは私が本当に気に入っているものです。
アイデアを本番環境に持っていくのに本当に素晴らしいプラットフォームです。ぜひチェックしてみてください。リンクはビデオの説明欄にあります。それではビデオに戻りましょう。
複数話者の会話生成
また、2人の異なる話者間の音声や会話を生成することもできます。実際、それ以上できると思います。Notebook LMと非常に似た体験になるでしょう。
例えば、ここには2人の話者がいます。1人は疲れて退屈しているようです。もう1人は興奮して幸せそうです。
今日の議題は何?
絶対に当てられないよ。
でも、特定の話者の音声を定義することもできます。ここでそれを行っています。生成設定では、異なる話者を定義し、それぞれに異なる音声を割り当てることができます。
これは先ほど見た音声のリストからのものです。例えば、これは私が生成したかったポッドキャストです。こちらが出力です。
なんてこと、新しいAIのテキスト読み上げ試した?すごいわよ。
私?TTSなら前に聞いたことあるけど、みんなロボットっぽい音だよ。
違う違う違う、これは違うの。感情表現もできるし、アクセントも、複数の話者も対応してるのよ。
そうだね、いつもそう言うよね。
これ聞いて。囁くこともできるし、叫ぶこともできるのよ。
OK、これは認めるよ、実際かなり印象的だ。
でしょ、未来はここにあるのよ。
モデルの課題と実験例
さて、特定のケースでは、適切な効果に苦労することがあります。それでも、これらの大規模言語モデルは、テキストでも音声でも、良いジョークを生成することはできません。こちらが簡単な例です。
コメディショーを作成するように頼みました。コメディアンを面白くドラマチックに、観客を興奮させて、こちらが出力の音です。
Pythonプログラミングを学ぼうとしたんだ。どうなったと思う?404エラーが出て、500の問題があったとだけ言っておこう。
[笑い声]
私のコードはあまりにも壊れていて、ライフコーチが必要だった。
OK、悪くないですね、でもまだ、ここではやるべきことがたくさんあると思います。
さて、他にもいくつか興味深い点があります。
挨拶します、地球の生物よ。我々は平和のために来ました。
確かに。あなた方のピザは魅力的です。
そうです、我々はあなた方のピザ技術を我々の惑星に持ち帰ります。
音声オプションと言語サポート
さて、約30の異なる音声オプションがあります。おそらく特定のニーズに基づいてそのいくつかを実験したいと思うでしょう。また、音声出力では最大24の異なる言語をサポートしています。
そして良いニュースは、ヨーロッパ言語だけでなく、アラビア語、ヒンディー語を含む東洋とアジアの言語の一部もサポートしていることです。これはかなり素晴らしいです。通常、これらは除外される言語だからです。これを見るのはかなり素晴らしいことで、はるかに広範な採用の可能性があると思います。
コンテキストウィンドウは32,000トークンであることに注意してください。ベースのGeminiモデルがサポートする100万トークンではありません。
また、このモデルをプロンプトする方法についての興味深いガイドもあります。プロンプトの作成について考えるとき、次のコンポーネントを推奨しています。
キャラクターの核となるアイデンティティとアーキタイプを定義するオーディオプロファイル。次に、物理的環境と感情的な雰囲気を確立するシーンの説明。そして、スタイル、アクセント、ペースコントロールに関するより正確なパフォーマンスガイダンスを提供するディレクターノートです。
これらは非常に柔軟なモデルで、正しくプロンプトすれば、非常によく作り込まれた音声出力を生成できます。こちらが一例です。
シーンがあります。このシーンはモデル自体によって考慮されます。次に、スタイルダイナミクスを説明するディレクターノートがあり、その後、モデルに繰り返しまたは音声を生成してほしい実際のトランスクリプトがあります。
このシーンとディレクターノートに基づいて、その1つのプロンプトに対して期待される出力がこちらです。
イエス、スタジオでは大規模なバイブスです。あなたはロックインしていて、ロンドンでは今まさに盛り上がっています。地下鉄に閉じ込められているか、仕事をしているふりをしているだけなら、やめてください。
真面目に、見えてますよ。これをもっと大きくして。プロジェクトロードマップが3、2で着陸します、さあ行きましょう。
価格設定と実用性
それでは、価格設定です。入力トークン、つまりテキストが50セントで、オーディオの出力トークン100万あたり10ドルです。Proバージョンの価格はその2倍です。
ただし、個人的には迅速な実験で、Flashが本当によく仕事をすることがわかりました。バッチ処理を行う場合、価格は元の価格の半分に下がります。
とにかく、特にAI音声とスピーチを搭載したアプリケーションの構築を考えている人にとっては、本当に素晴らしいオプションです。ぜひチェックしてみて、この新しいGemini Text to Speechシステムでの体験がどうだったか教えてください。
とにかく、このビデオが役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回お会いしましょう。


コメント