GoogleがLyria 3を突如投入——誰も予想しなかった新AI機能の全貌

GoogleがLyria 3を正式リリースし、Geminiアプリ内でボーカル付きの楽曲をテキストや画像・動画プロンプトから生成できるようになった。同時に、中小企業向けAIマーケティングツール「Pomello」にAI商品撮影機能「Photoshoot」が追加され、AIデザインツール「Stitch」にはアプリストア素材の自動生成やCursorおよびClaude Codeと連携するネイティブMCPインテグレーションが実装された。Googleが個別モデルの発表から、音楽・画像・デザイン・エージェントを統合したクリエイティブスタックの構築へと本格的に移行しつつある状況を解説する。

Google Just Dropped LYRIA 3: New AI Feature No One Expected

Google just introduced a new wave of AI systems inside Gemini that go far beyond simple generation. Alongside the releas...

Googleの怒涛のアップデート、何が起きているのか
Google Lyria 3——音楽生成の新時代
技術的な詳細——音質とアーキテクチャ
SynthID——見えない透かしと著作権への対応
Higgsfield——マルチモーダル制作の新たな可能性（スポンサー）
利用状況とLyria Realtime——リアルタイム音楽生成の新体験
競合との比較——SunoとUdio
Pomeloo——AIが変えるビジネスの商品撮影
Stitch——AIデザインツールとエージェント機能の拡張
Stitchの新機能——アプリストア素材生成とMCPネイティブ統合
Googleが描くクリエイティブスタックの全体像

Googleの怒涛のアップデート、何が起きているのか

ここ数日で、Googleが立て続けに重大なアップデートを展開しました。Lyria 3がGemini内でボーカル付きのフル楽曲を生成できるようになり、PomelliはビジネスのAI商品撮影機能を追加。さらにStitchは、アプリをデザインしてアプリストア用素材を生成し、コードエディタに直接つなぐ新しいエージェントを導入しました。

同時進行でさまざまな動きがあるので、一つひとつ整理していきましょう。

Google Lyria 3——音楽生成の新時代

GoogleがLyria 3を正式にリリースしました。同社の最新音楽生成モデルで、昨年公開されたものと比べると明らかに大きな前進です。Lyria 3はGeminiアプリ内で展開されており、YouTubeのクリエイター向けツールキットの一部であるDream Trackにも搭載されています。

これは研究者向けのデモにとどまりません。Googleが音楽生成を、すでに何百万人もの人が使っているコンシューマー向け製品に直接組み込んだということです。

基本的な使い方としては、自然言語のプロンプトを使って30秒の楽曲トラックを生成できます。ジャンル、ムード、テンポ、歌詞の言語まで指定が可能。そして重要なのは、自分で歌詞を用意する必要がなくなった点です。Lyria 3はボーカルと演奏に合わせて歌詞を自動で生成します。

これは、昨年5月にリリースされたLyria 2と比べても大きなユーザビリティの向上です。Lyria 2はより多くの手動入力を必要としていました。さらに面白いのは、テキストだけが入力手段ではないという点。画像や動画をアップロードすれば、Lyria 3がその視覚的なコンテンツに合ったトラックを生成してくれます。これはGoogleが音楽をテキストやビジョンと並ぶ、れっきとした一流のモダリティとして扱っていることを示しています。Geminiのエコシステムにおいて、もはや音楽は後回しにされる存在ではないのです。

技術的な詳細——音質とアーキテクチャ

技術的な側面では、Lyria 3は16ビットPCMステレオ出力で48kHzのサンプリングレートで音声を生成します。これは圧縮されたデモ用フォーマットではなく、本格的なプロダクション品質のオーディオです。Geminiアプリでの出力時間は現在30秒が上限ですが、音楽のクオリティと複雑さは以前と比べて明らかに向上しています。ループを継ぎ接ぎしたものではなく、複数の楽器とボーカルを備えたフルアレンジメントです。

Googleはここで非常に難しい問題に取り組んでいます。音楽は連続的で多層的なもの。メロディ、ハーモニー、リズム、音色、そして長距離的なコヒーレンス（一貫性）を同時に扱わなければなりません。1秒目から30秒目まで、同じ楽曲として聴こえ続けなければならない。Lyria 3はまさにそれを実現するために設計されています。既存のコンポーネントを組み立てるのではなく、ゼロから音楽を生成します。

Googleはアーキテクチャの全容を公開していませんが、異なる音楽モデルが異なるアプローチを取ることについては説明しています。スペクトログラム（音の視覚的表現）を先に生成するものもあれば、GoogleのオープンソースのMusicMLのように圧縮された音声トークンを使うものもあります。Lyria 3は、時間の経過とともに構造を維持しながら高忠実度のオーディオを直接扱える、新世代のモデルに位置します。

SynthID——見えない透かしと著作権への対応

クリエイターやプラットフォームにとって非常に重要なもう一つの要素があります。Lyria 3が生成するすべてのトラックには、GoogleのSynthID技術によって作られた知覚不可能な透かしが埋め込まれています。この透かしは音声の波形に直接組み込まれており、耳では聞こえませんが、ソフトウェアは検出できます。

MP3に圧縮されても、速度を変えられても、マイクを通して録音されても、この透かしは残り続けます。ユーザーはGeminiアプリにトラックをアップロードし直すことで、SynthIDが含まれているかどうかを確認できます。

これはGoogleが帰属表示と安全性を非常に真剣に考えていることの表れです。音楽生成は著作権に関する明白な懸念を生みますが、SynthIDはそれに対するGoogleの技術的な答えです。削除できるメタデータに頼るのではなく、音そのものにデジタル署名を埋め込む。そしてLyria 3が画像や動画から直接音楽を生成できる以上、音声とビジュアルは単一のクリエイティブワークフローへと融合しつつあります。

Higgsfield——マルチモーダル制作の新たな可能性（スポンサー）

本日のビデオはHiggsfieldの提供でお送りします。Higgsfieldは最近、まさにそのようなマルチモーダル制作のために特別に構築されたCinema Studio 2をリリースしました。

AIビデオをシンプルなプロンプト＆ウェイトのツールとして扱うのではなく、Higgsfieldは本物のスタジオパイプラインのような構造になっています。ショットを計画し、カメラをコントロールし、意図を持ってシーンを生成できます。Cinema Studio 2では、まずヒーローフレームを確定させ、次に生成が始まる前にカメラの動き、レンズの挙動、焦点距離、タイミングを定義します。

そのセットアップによって、動きが始まっても照明・構図・被写体の一貫性が保たれます。これはAIビデオにおいていまだ最大の課題の一つです。一つのプロジェクト内で複数のショットをシーケンスすることもできるので、出力がバラバラのクリップではなく、演出されたシーンのように感じられます。これらすべてが、最新かつ最強のAIビデオモデルの多くを一か所に集めた単一のプラットフォーム内に収まっています。

ツール間を行き来する必要なく、Higgsfieldはさらに長尺でまとまりのあるビデオに特化した高性能な生成エンジンを追加するCadence 2も間もなく登場すると発表しています。また現在、Kling 3の限定キャンペーンとして、今日最も印象的なビデオモデルの一つであるKling 3へのアクセスを50%オフで提供しています。

音楽・ビジュアル・演出が一つのワークフローに統合されていく中で、Higgsfieldはそれを実際に使いやすくするレイヤーを構築しています。詳細は説明欄のリンクからチェックしてみてください。

利用状況とLyria Realtime——リアルタイム音楽生成の新体験

Lyria 3は現在、Geminiモバイルアプリでadult（成人）ユーザーが利用可能で、Googleはデスクトップ版が数日以内に公開されると発表しています。利用上限はサブスクリプションの階層によって異なり、Google AI Plus・Pro・Ultraの加入者はより高い上限が設定されています。公開APIはまだありませんが、GoogleはLyria 3が他のGemini搭載モデルと同様に、将来的にAPIを通じてアクセス可能になる可能性をはっきりと示唆しています。それが実現すれば、単なるコンシューマー向けのおもちゃではなくなります。インフラへと変わります。

そして、特に注目すべきリアルタイムの側面があります。Google DeepMindはLyria Realtimeと呼ばれるものを発表しました。従来のプロンプト＆ウェイトのワークフローではなく、このシステムはチャンクベースの自己回帰ストリームで動作します。双方向のWebSocket接続を通じて、2秒ごとのチャンクで音声が生成されます。モデルは過去のコンテキストを振り返ってグルーブを維持しつつ、ユーザーのコントロールを先読みしてスタイルと方向性を調整します。

これにより、重み付けされたプロンプトを使ったライブのステアリング（操作）が可能になります。音楽が再生されている最中にムードや楽器編成を変えると、モデルがリアルタイムで適応します。コントロール変更のレイテンシーは2秒未満。これは静的な生成とは全く異なるクリエイティブ体験です。

さらにGoogleは、Music AI Sandboxと呼ばれるものを構築しました。これはより実践的なコントロールを求めるミュージシャンやクリエイター向けです。シンプルなハミングや基本的なピアノのラインをフルオーケストラのアレンジメントに変換したり、MIDIコードを使ってボーカルコーラスを生成したり、同じメロディーを保ちながらテキストプロンプトで楽器を変えたりできます。これはhuman-in-the-loop型のAIで、モデルはただ問い合わせるものではなく、一緒にセッションするものになります。

競合との比較——SunoとUdio

当然ながら、これによってGoogleはSunoやUdioといった企業と直接競合することになります。Sunoは昨年11月に2億5,000万ドルを調達し、マルチステムのトラック分割などの機能を備えたキャッチーでバイラルフレンドリーな音楽に注力しています。Udioはスタジオグレードの忠実度と高度な編集（インペインティングや最大15分の長尺トラック拡張を含む）に重きを置いています。

Googleの現在の制限は30秒という上限ですが、強みはスピード、マルチモーダル入力、そしてGeminiとの緊密な統合です。ここに重要なパターンがあります。それは統合です。

Pomeloo——AIが変えるビジネスの商品撮影

Lyria 3が音楽を担う一方で、Googleはビジュアル生成とデザインツールの拡張も並行して進めています。そこで登場するのがPomelliです。

PomelliはGoogle Labsが手がけるAIマーケティング実験プロジェクトです。DeepMindの協力のもと構築され、中小企業を対象とした公開ベータ版として2025年10月にローンチしました。現在は4つの英語圏市場で無料で利用可能です。ローンチ以来、Googleは静かに機能を追加し続けており、今度はPhotoshootと呼ばれる機能の展開を準備しています。

Photoshootは非常に実用的な問題を解決するために設計されています。プロの商品撮影はコストがかかります。スタジオ、照明、カメラマン、後処理、ストック素材のライセンス。それらすべてがすぐに積み重なります。Photoshootを使えば、企業は物理的な商品の画像をアップロードし、視覚的なテーマのセットから選び、そのテーマに合ったテンプレートを選択して、まるでプロの撮影セッションを経たかのような洗練されたマーケティング画像を生成できます。

これらの画像はPomelliの既存のキャンペーンフローに直接組み込まれます。Pomelliはすでにビジネス DNAプロファイルと呼ばれるものを使用しており、ブランドのアイデンティティ、トーン、ビジュアルスタイルを把握します。Photoshootはその土台の上に構築されており、プラットフォームを離れることなく、SNS、広告、キャンペーン向けのすぐに使える素材を生み出します。

これは明らかに、規模に応じたプロの撮影にアクセスできないECセラー、プロダクトブランド、小売業者を対象としています。そして、より大きなパターンに沿っています。2026年1月にPomelliはVO3.1との統合を通じてアニメーション機能を追加し、アニメーション素材の作成を可能にしました。Photoshootも同じ積み重ねのアプローチに従い、ブランドアイデンティティとキャンペーンワークフローの上にもう一つの生成能力を加えています。

Pomelliはまだ正式に公開ベータ中ですが、Googleが反復してきたスピードを考えると、近い将来にPhotoshootがリリースされる可能性は高いです。Googleはpomelliを単なる実験ではなく、中小企業向けマーケティングオートメーションの本格的な競争者として位置づけています。

Stitch——AIデザインツールとエージェント機能の拡張

では、デザインとエージェントの話に移りましょう。StitchはGoogleのAIデザインツールです。Google IO 2025でGalileo AIのリブランド版としてローンチし、以来Googleはその機能を着実に拡大してきました。StitchはすでにすべてのエージェントにわたるFigmaエクスポートをサポートしており、今月初めにはIDEエージェントを早期探索向けに展開しました。

そして最新の開発ビルドに、Hatterという新しいエージェントが登場しました。Hatterは高品質なデザインを作成できるエージェントとして説明されています。現時点では起動すると標準的なデザインフローと似た動作をしますが、ラベルが重要です。GoogleはこれをモデルではなくエージェントTと呼んでいます。これは、単一の出力を生成するだけでなく、時間をかけてより複雑なマルチステップのデザインタスクを処理することを意図していることを示唆しています。

これはおそらく、以前から存在が確認されていたDeep Designと呼ばれるものと結びついています。Deep Thinkのデザイン版と考えてください。UIとレイアウト生成にさらに深い推論を適用するものです。単に画面を生成するのではなく、HatterのようなエージェントはフローやUI上の制約、デザインシステムをステップバイステップで推論できるかもしれません。

Hatterと並んで、Stitchのビルドに2つの新機能が浮上しています。

Stitchの新機能——アプリストア素材生成とMCPネイティブ統合

一つ目はアプリストア素材の生成です。これにより、モバイルアプリをデザインしているユーザーが、説明文とアプリアイコンを含んだストアready（提出可能）なスクリーンショットを自動生成できるようになります。インディー開発者や小規模チームにとって、これは大幅な時間の節約になります。ツールを切り替えたりデザイナーを雇ったりすることなく、プロトタイプからアプリストアのビジュアルまでをこなせます。

二つ目はネイティブMCPインテグレーションです。MCPはModel Context Protocolの略で、この場合GoogleはそれをStitchのエクスポートメニューに直接組み込んでいます。以前は開発者がLovableのようなサードパーティのコネクタに頼っていました。ネイティブMCPにより、StitchはAPIキーを生成し、Cursor、Claude、Claude Code、Gemini CLIなどのツールに直接接続できるようになります。

コミュニティが構築したMCPブリッジはすでにGitHubに存在しますが、ファーストパーティの実装は参入障壁を大幅に下げます。デザイナーと開発者はStitchのデザインを最小限の摩擦でコーディング環境に取り込めます。

Googleが描くクリエイティブスタックの全体像

見落とされがちなもう一つの詳細があります。Googleはこれらすべてをレイテンシーを低く保ちながら実現しているということです。Lyria Realtimeはコントロールのレイテンシーが2秒未満で動作します。StitchはコーディングツールへとダイレクトにPull統合されます。PomelliはキャンペーンワークフローのUnder内で素材を生成します。

つまり私たちが目撃しているのは、Googleがモデルの発表からシステムの構築へと移行しているということです。音楽、画像、デザイン、エージェント、デプロイメントが、一つの連続したクリエイティブスタックへと溶け合い始めています。

まだすべてが完全に公開されているわけではありません。APIはまだ限定的です。トラックの長さはまだ制限されています。一部のエージェントは明らかに初期段階です。しかし、その方向性は非常に意図的なものです。

現時点での状況は以上です。このような解説が気に入ったら、チャンネル登録とイイねをお願いします。ご視聴ありがとうございました。また次の動画でお会いしましょう。