Paige Baileyと巡るAI創作ツールの駆け足ツアー

AI活用・導入
この記事は約44分で読めます。

この動画は、Google DeepMindのAI開発者関係エンジニアリングリードであるPaige Baileyが、最新のAI創作ツールについて詳しく解説する内容である。特にVeo 3の動画生成機能、音声合成、Geminiアプリの多様な活用方法について実演を交えながら紹介している。従来のAIツールと比較して飛躍的に向上した品質や、専門的なクリエイター向けのFlowプラットフォーム、そして誰でも簡単にアプリ開発ができる新機能まで幅広くカバーしている。AIが人間の創造性をどのように拡張していくかについての洞察も含まれており、AI技術の現在地と可能性を包括的に理解できる貴重な内容となっている。

A whistle stop tour of AI creation with Paige Bailey
This week's episode is a slight departure from our usual deep dives. Join Paige Bailey, DevRel lead, as she guides Hanna...

AIの現在と可能性を探る

Hannah Fryです。今、Geminiには何が見えていますか?

Geminiが応答します。金髪の女性がマイクの前の机に座って腕を組んで笑っているのが見えます。机にはコンピューターのキーボードとマウスがあり、背景にはランプがあります。他に何かお聞かせできることはありますか?

Hannah Fryが続けます。病気の観葉植物の診断にとても役立っているんです。本当に言葉では表現できないくらいです。

Paige Baileyが説明します。例えば、夜の日本の雨降りカフェにいることを思い出させるような曲を聞きたいと説明した場合、雨降りカフェがどんな音なのかを単に推測するのではなく、これらの異なるモダリティが一体となって理解することが本当に必要になります。

Hannah Fryが応じます。完全没入体験の二次元版のようなものですね。

Paige Baileyが同意します。まさにその通りです。

Hannah Fryが続けます。そして、これは人々がVeoの性能を確認するために使用してきた悪名高い難しい課題ですね。

Paige Baileyが説明します。一人でスパゲッティを食べる代わりに、同じテーブルで10人がスパゲッティを食べているようなものです。

Hannah Fryが思い出します。確か数年間、ウィル・スミスがスパゲッティを食べる動画がたくさんありましたね。

Paige Baileyが笑います。そうです。ウィル・スミスがスパゲッティを食べるのは去年の話です。今度は複数の人がスパゲッティを食べるのを試してみましょう。

音楽が流れます。

Google DeepMind ポッドキャストへようこそ

Hannah Fryが番組を紹介します。「Google DeepMind, The Podcast」へようこそ。私は教授のHannah Fryです。

このポッドキャストで私たちが常に行ってきたことの一つは、AIの最大の突破口の一部に取り組んでいる人々へのアクセスを提供することです。多くの場合、研究者たちは大きなアイデアを支える技術や技法について話しています。しかし今、私たちは初期のイテレーションをここで見てきたツールの多くが実際に稼働している段階にあります。

これらのツールは実際に世界に出て、皆さんが対話できるようになっています。そこで今回のエピソードでやりたかったのは、一度立ち止まって、リリースされたツールの配列を見て、最初に出会った時からそれらがどのように変化したかについて話し、それらが使用できる無数の方法を探ることです。

そして、それが今日の私たちの目標であるなら、Google DeepMindのAI開発者関係エンジニアリングリードであるPaige Bailey以上に、この進歩を示してくれる人はいません。Paige、ポッドキャストへようこそ。

Paige Baileyが応答します。お招きいただき、ありがとうございます。

Hannah Fryが続けます。私たちはこれらの多くの初期イテレーションを見ることができるんですよね。

Paige Baileyが同意します。はい。

Hannah Fryが説明します。昨年、Doug Eckさんに番組に出演していただきました。彼はVeoの最初のイテレーションを見せてくれたと思いますが、Veo 3のローンチにより、今では全く異なる代物になっています。

Paige Baileyが解説します。まさにその通りです。Veoモデルの最初の実装は、まだ視覚的なもののみで、Veo 3モデルで見られるような本当に豊かな音響品質を含んでいませんでした。

また、フォトリアリスティックに見えるもの、あるいは映画で見るようなものをモデルに生成させるためには、かなり重要な指導を与える必要がありました。しかし、私たちは長い道のりを歩んできました。その最初の動画がどのようなものだったか、本当に見てみたいですね。

Hannah Fryが応じます。実際に持っているんです。

Paige Baileyが興味を示します。では見てみましょう。

Hannah Fryが描写します。街を駆け抜ける車があります。下の濡れた歩道に映るネオンライトが見えます。周りには位置を争う他の車があり、あまりにも速く走っているため、すべてがぼやけているようです。しかし、本当に一貫しています。今、トンネルを通過しました。頭上には大きなライトがあり、トンネルから出て極めてリアリスティックな現代的なシーンに入りました。

Douglas Eckの声が聞こえます。これはワオという瞬間ですね。

Hannah Fryが感嘆します。信じられないです。

Douglas Eckが繰り返します。これはワオという瞬間です。

Paige Baileyが同意します。信じられないです。

Veo 3の驚異的な進化

Hannah Fryが評価します。本当に良いですよね。

Paige Baileyが同意します。とても良いです。

Hannah Fryが観察します。今気づくことですが、かなりぼやけています。そして、それが目指している雰囲気の一部なのでしょう。しかし、車に関してこの鮮明な詳細は見えていません。

Paige Baileyが分析します。全くその通りです。また、よく見れば、ショットを表現している物理法則が完全に正しくないことも分かるかもしれません。そして、物体に光が反射する方法も必ずしも一貫していません。では、新しいVeo 3モデルがこれに対してどの程度うまく機能するか見てみましょう。

Hannah Fryが説明します。Dougが実演していたのは、Veoができることの本当の限界でした。それが街を駆け抜ける車だったのは偶然ではないと思います。

もしVeoを、分からないですが、動いている人間の顔で特定の感情を伝えるようなものでテストしようとしたら、もう少し苦労したかもしれません。

Paige Baileyが説明します。確実にそうです。人がスパゲッティを食べる動画や、明らかに人間のキャラクターでも現実のキャラクターでもないもので有名です。

では、もう少し人間中心の別のプロンプトでも試してみると面白いかもしれませんが、これでやってみましょう。

Hannah Fryが提案します。これを試してみましょう。ここで全く同じプロンプトを使用しているんですね。

Paige Baileyが確認します。全く同じプロンプトです。そして、ここではGeminiアプリを使用しています。全く同じプロンプトでこの動画を生成しているのが分かります。適切な出力を得るのに最大2〜3分かかることがあります。

Hannah Fryが思い出します。本当に目立っていたことの一つは、Dougのプロンプトがとても詩的だったことです。

Paige Baileyが同意します。素晴らしかったです。

Hannah Fryが感嘆します。美しかったです。それ自体が小さな映画でした。

Paige Baileyが応じます。はい。

Hannah Fryが質問します。これらのプロンプトを生成するためのコツは何ですか?

Paige Baileyが説明します。興味深いことに、Veo 3モデルにはプロンプトリライティングという新機能があります。これにより、APIに入力文を渡すことができ、モデルとやり取りする方法として、プロンプトをより詳細で、おそらく想像していることとより一致したものにする応答を得ることができます。そのため、想像したもの説明するのに適切な専門用語やすべての精神的作業を必ずしも行う必要がありません。

また、私はGeminiを非常に似たようなことによく使用します。考えている目的でプロンプトをGeminiに与え、期待していた最適な出力を生成する可能性をはるかに高める方法で、大規模言語モデルや動画生成モデル用のプロンプトを作成するよう依頼することができます。

Hannah Fryが納得します。それは実際に良いコツですね。プロンプトを書くのが得意でない場合は、Geminiにより良いプロンプトを書いてもらうということですね。

Paige Baileyが確認します。はい。そして、Geminiアプリを通じて自然に呼び出すことができ、これは人々が試すのにおそらく最も簡単な方法です。

しかし、プログラミング言語にもう少し慣れている人には、API経由でVeo 3専用のプロンプトリライターも利用できます。

Hannah Fryが質問します。Veoクリップの長さはどのくらいですか?

Paige Baileyが答えます。公開的にリリースしたVeoクリップ、つまり人々が試すことができるものは、すべて約8秒のサイズです。非常に短いです。

Hannah Fryが疑問に思います。なぜ8秒である必要があるのですか?

Paige Baileyが説明します。8秒は公開的に利用可能にされているものです。内部的には、はるかに長い形式のコンテンツを制作できるモデルがありますが、8秒はその最初のクリップに対して完全な創造的コントロールを与えるのに本当に良いことが分かっています。

8秒に関しては、スタイルのアイデアを得ることができ、言語の実験を始めることができるという点でも有用です。また、以前に想像していたかもしれないものを実現し始めることができるという点でも素晴らしいです。インターネット全体がミームに魅了されていることは知っていますが、今では単一のスナップショットではなく、実際の動画である、はるかに長い形式のミームを作ることができます。

Hannah Fryが同意します。絶対にそうです。準備ができましたね。

Paige Baileyが興奮します。素晴らしい。やってみましょう。なんということでしょう。これはもう…

Hannah Fryが驚きます。突然。

Paige Baileyが感嘆します。これはとてもクールです。

Hannah Fryが続けます。今、おお、すごい。なんてことでしょう。突然誰かがHDをオンにしたようです。

Paige Baileyが同意します。絶対にそうです。

Hannah Fryが特に注目します。特にその最初のショット。では、ここで見ているものを、もう一度見てみましょう。

『ブレードランナー』にいるように見えます。

Paige Baileyが同意します。確かにそのように見えます。

Hannah Fryが詳しく分析します。本当にそれを思い起こさせます。ネオンライトがピンクのような恐ろしいネオンから、通り過ぎる時に詳細を完全に見ることはできませんが、構造を持った本格的なビルボードに変わっています。

車は今、光で描かれているかのように、シーンを駆け抜けています。しかし、そのボンネットの照明も見てください。なんということでしょう、それは並外れています。

Paige Baileyが感嘆します。美しいです。そして、すべての建物の詳細レベル。実際に、これは未来の香港の都市のように見えます。

Hannah Fryが細かく観察します。ここで気づいているのは、スポットライトがあることです。

車がトンネルから出てくると、その上にランプポストがあり、スポットライトは車のボンネット沿いで期待される場所を完璧に追跡しています。

Paige Baileyが驚きます。それは素晴らしいです。音が聞こえますか?

Hannah Fryが聞き取ります。タイヤのきしり音。

Paige Baileyが指摘します。はい。

Hannah Fryが続けます。背景にサイレン。

Paige Baileyが興奮します。これはとてもクールです。

Hannah Fryが感嘆します。とても感動的ですね。

Paige Baileyが同意します。そうです。

Hannah Fryが確認します。しかし、音はフレームと完璧にマッチしているんですね。

Paige Baileyが詳しく説明します。確実にそうです。そして、Veo 3で生成されるこれらの動画のバックグラウンドトラックは、シーンに入ってくる車のようなものだけでなく、オーディオも提供できます。

オーディオ出力、バックグラウンドミュージック、オーディオまたはバックグラウンドノイズと組み合わせた映画的音楽が欲しい場合、これらすべてが単一の動画に縫い合わされます。それはかなり魔法的です。

スパゲッティチャレンジ

Hannah Fryが提案します。難しいもの、スパゲッティのことを試してみましょう。

Paige Baileyが応じます。では、新しい動画出力を試してみましょう。

Hannah Fryが詳しく指定します。どのようなスパゲッティ食べを見たいですか?

スパゲッティ食べ競争で誰かを見たいです。顔がソースで汚れていて欲しいです。

Paige Baileyが興味を示します。素晴らしい。

Hannah Fryが続けます。そして、スパゲッティの大きな塊が基本的に口からぶら下がっていて欲しいです。あちこちにソース。

Paige Baileyが繰り返します。あちこちにソース。

Hannah Fryが追加します。そして、カメラが引いて、すべての競技者が同時にスパゲッティを食べているのを見せる。

Paige Baileyが同意します。いいですね。そして、モデルがこれにどれだけうまく対応できるか見てみましょう。ここで見ることができるように、画像で初期モデルフレームを基準にすることもできます。そのため、Imagen 4のようなものを使用して、動画自体のシードフレームとして画像を生成したい場合、それも可能です。

Hannah Fryが確認します。例えば、スパゲッティ食べ競争の写真があり、テーブルがどこにあるか、風景がどこにあるかを複製したい場合、これでそれができるということですか?

Paige Baileyが詳しく説明します。絶対にできます。そして、最新のGeminiモデルの他の機能と特性もあり、画像の本当に素晴らしい編集も可能です。おそらくスパゲッティ食べ競争があるが、フレーム内に特定の人数だけを含めたい、または特定のスタイルのベンチや特定の種類の照明が欲しい場合があります。

その画像入力をGeminiに与え、それを変換するよう依頼し、その後Veo 3のシードフレームとして使用することもできます。

Hannah Fryが整理します。では理解させてください。以前にはなかったVeo 3の新機能は何ですか?何がそれをより良くしているのですか?

Paige Baileyが説明します。Veo 3がより良い理由がいくつかあります。

一つは、音を生成する能力があることで、これは多くの人を本当に魅了していると思います。バックグラウンドノイズだけでなく、リアリスティックな音楽、対話、現実生活で撮影されたように感じられる動画を本当に構築できるあらゆる種類のものです。

Veo 3を改善したもう一つの方法は、動画出力がより多くの物理学の理解に基づいていることです。動画を見ると、光や重力が物理世界と本当に一致しているように見える方法を見つけることができます。そして、キャラクターの一貫性についても多くの改善がありました。

Hannah Fryが質問します。これらの追加機能はどのように可能になったのですか?

Paige Baileyが詳しく説明します。DeepMindは、モデルの訓練に使用するデータがどのようにキュレーションされるかに本当に、本当に注意を払っていると思います。考えてみると、「木」という単語を見ることができます。木の写真を見ることができます。木の3D表現や期待するであろう他のものを持つことができます。

Hannah Fryが追加します。葉を通って吹く風の音。

Paige Baileyが続けます。まさにその通りです。そして、誰かがパンしている動画のようなものです。

これらすべてのものは、まだその一つの実体と関連していますが、同じものを説明するすべて非常に異なるモダリティです。そして、歴史的に人々は一つのモダリティ、つまりテキスト、コード、または類似したもの、に集中してきたと思いますが、人間として、私たちは非常に異なる方法で全世界を体験します。見ることから聞くこと、触ることまで、これらすべてのことです。

チームが動画映像だけでなく、動画映像を構成する音、フレームごとのレベルでの詳細な説明、そしてそれらすべてを訓練の完全な表現に縫い合わせることを結び付けることができるように、多くの時間、エネルギー、努力を投入してきたと思います。

Hannah Fryが理解を深めます。言語のみのモデルが「木」という単語を持ち、それが「枝」や「小枝」という単語と密接に関連している一方で、マルチモーダルバージョンは、それらすべてがその中に埋め込まれているだけでなく、さらにオーディオ、画像、動画、これらすべての異なる層を持っているということですね。

Paige Baileyが強調します。絶対にその通りです。これがGeminiモデルについて私を最も興奮させることの一つだと思います。私たちは本当に、テキストとコードも出力できるだけでなく、画像、画像の編集、出力オーディオ、そして後で見るような操縦可能なオーディオも可能な唯一のモデルファミリーです。より柔らかく話す、より大きく話す、または異なる言語で話すなどです。

他のすべてのモデルファミリーは、すべてを一つの生来のモデルに組み込むのではなく、異なる訓練された経験を縫い合わせることに依存しています。そして、それがGeminiについて本当に強力だと思います。

Hannah Fryが確認します。準備ができました。

Paige Baileyが興奮します。なんということでしょう。見てみましょう。

動画からのおしゃべりが聞こえます。後悔しています。後悔しています。

動画からのすする音が聞こえます。

Paige Baileyが驚きます。なんということでしょう。しかし、これらは実際の人に見えます。

Hannah Fryが同意します。実際の人に見えます。

スパゲッティは、私が言うとすれば…

動画からの叫び声が聞こえます。

笑い声。

Paige Baileyが一時停止します。少し一時停止しますが、顔を見てください。これは以前に見た経験よりも少しフォトリアリスティックに見えます。

Hannah Fryが詳しく観察します。特に髪。

2秒あたりのところに行くと、ズームアウトしている時、この女の子の髪。見てください、彼女は少し分け目があり、房状の赤ちゃんの髪まであります。

Paige Baileyが感嘆します。はい。

Hannah Fryが続けます。しかし、彼女が動く時、それは本当にリアリスティックです。

Paige Baileyが詳しく分析します。これはとてもクールです。そして、音も私が想像するものです。

はい、明らかに気持ち悪いですが、スパゲッティ食べ競争で見ることを期待するようなものです。また、ソースがどのように見えるか、麺がどのように見えるか、飲み込む時に麺の一部が皿に戻ることも。これは信じられないです。

Hannah Fryが評価します。そして、これは人々がVeoの性能を確認するために使用してきた悪名高い難しい課題です。

Paige Baileyが説明します。一人でスパゲッティを食べる代わりに、同じテーブルで10人がスパゲッティを食べているようなものです。

Hannah Fryが思い出します。確か数年間、ウィル・スミスがスパゲッティを食べる動画がたくさんありましたね。

Paige Baileyが笑います。はい。ウィル・スミスがスパゲッティを食べるのは去年の話です。今度は複数の人がスパゲッティを食べるのを試してみましょう。

技術的な仕組みについて

Hannah Fryが技術的な質問をします。本当に印象的だと思うのは、個別のオブジェクトがフレーム間でどのように追跡され、その一貫性を保つかです。それは後から付け加える必要があるものですか?

Paige Baileyが説明します。モデルが構築される方法、つまり拡散モデルは、フレーム全体でその一貫性を保とうとしていると思います。しかし、この論理の多くは、モデル自体に組み込まれています。

以前の時代には、各行動を明示的にプログラムする必要がありました。今では、舞台裏での魔法の多くは、VeoとGeminiが経験を作り、出力をフォトリアリスティックに見せるために何をする必要があるかを理解しているだけだと思います。

Hannah Fryが理解を深めます。インターネットを読んだだけでなく、YouTube全体も見たからですね。

Paige Baileyが訂正します。まあ、YouTube全体ではありませんが、多くの合成データに加えてです。例として、DeepMindで働くゲームデザイナーやゲーム業界の人々がたくさんいることから、私たちは信じられないほど恩恵を受けています。そして、もちろんDemisにはゲームのバックグラウンドがあります。しかし、これらの環境は、あらゆる種類のものにとって本当に素晴らしい合成データジェネレーターです。

ゲームを通じて走る人物、タスクを達成する、あらゆる種類の行動を取り、途中でそれらを監視することができ、これは優れた訓練データのソースとして使用できます。ゲームプレイを行う際に、キャラクターの周りのさまざまな方法でカメラを向けることができるという点でも素晴らしいです。

Hannah Fryが新しい話題に移ります。では、Veo 3についての話題の多く、新しいことの多くは音声ということは知っています。

それは対応するために、どのように生成されているのでしょうか?ビジュアルにマッチするものを生成しているのか、それともビジュアルと音声の両方を生成するコンテキストのようなものがあるのでしょうか?

Paige Baileyが詳しく説明します。訓練データが見るものと関連するすべての異なるモダリティを持っているからだと思います。動画を見ているだけではありません。トランスクリプトも持っています。

動画の何が起こっているかのフレームごとのレベルの説明も持っています。バックグラウンドトラックがある場合は、音声の説明も持っています。そして、それらすべてが同時に組み合わされることで、これらのはるかに没入的で自然な音と自然な応答を生成することができます。

確実に、歌を聞く場合、楽譜を読むことができ、表示される異なる音調を聞くことができますが、それはまた、特定の方法で感じさせることもできるからです。そして、夜の日本の雨降りカフェにいることを思い出させるような曲を聞きたいと説明した場合、雨降りカフェがどんな音なのかを単に推測するのではなく、これらの異なるモダリティが一体となって理解することが本当に必要になります。

Hannah Fryが表現します。完全没入体験の二次元版のようなものですね。

Paige Baileyが同意します。まさにその通りです。

Hannah Fryが続けます。それは素晴らしい説明ですね。

Paige Baileyが追加します。その説明も大好きです。現実にとても近く感じるものにどんどん近づいています。

Hannah Fryが発展させます。シミュレートされた現実のような。

Paige Baileyが同意します。はい。そして、それは以前は不可能だったと思います。

より専門的なツールへ

Hannah Fryが確認します。これまでのところ、私たちが知っていて愛しているGeminiアプリですね。

Paige Baileyが答えます。はい。

Hannah Fryが続けます。しかし、あなたが専門的な映画制作者であったり、これをもう少し真剣に取り組みたい場合、行くことができる別の場所がありますよね?

Paige Baileyが説明します。はい、Flowと呼ばれるものです。Google Labsチームの同僚によって構築され、彼らは映画制作者と直接パートナーシップを組んで、彼らの期待に合致する体験を本当に構築してきました。

Hannah Fryが要求します。では、Flowを見せてください。

Paige Baileyが紹介します。そして、これが映画制作者なら最初に行くであろうFlowです。最近起こっているプロジェクトのいくつかと、最近Flowによって生成された動画のいくつかを体験する本当に、本当にクールな方法であるFlow TVと呼ばれるものも見ることができます。

Hannah Fryが質問します。ここでのアイデアは、まだ8秒の動画があるが、それらを繋ぎ合わせることができるということですか?

Paige Baileyが詳しく説明します。繋ぎ合わせることができ、スタイルを設定することができます。関連するカメラコントロールさえあります。

Hannah Fryが驚きます。おお、すごい。

Paige Baileyが続けます。そのため、映画制作者として必ずしも必要のない多くの創造的コントロールを本当に与えてくれます。おお、それもとてもクールです。

Hannah Fryが感嘆します。これらは…

Paige Baileyが注目します。しかし、それを見てください。その動画の物理学の理解。

Hannah Fryが詳しく分析します。流体力学ですよね。本当に、すごい、並外れています。それを見てください。なんてことでしょう。

Paige Baileyが詳細を指摘します。そして、プロンプトを見ると、関連する文章のいくつかも見ることができます。

「清潔な金属プラスチック注入が開き、ピンクがかった黄色のクラゲを放出する。」そして、途中の多くの他のもの。とても詳細です。

Hannah Fryが感嘆します。とても詳細です。

Paige Baileyが同意します。はい。

Hannah Fryが質問します。では、これがGeminiアプリとどのように異なるかを見せてください。

Paige Baileyが説明します。絶対に。これは超専門的な体験です。

Flow with Createをクリックすると、使用できるこの開発環境に入れられます。Text to Video、Frames to Video、またはIngredients to Videoを使用できる新しいプロジェクトを開始できます。

Hannah Fryが確認します。では、Text to Videoは、私たちがすでにやっていたことですか?

Paige Baileyが答えます。私たちがちょうどやっていたことです。

Frames to Videoもあります。では、Frames to Videoを試してみましょう。複数のフレームを縫い合わせて最終シーンを作成できます。このCamera Controlボタンをクリックして、ドリーイン、ドリーアウト、静止、またはティルトダウンの異なる例を見ることもできます。

そして、それらすべては、動画映像で見たい要点を構築できるものです。

Hannah Fryが理解します。基本的にこれは、つまり、同じことですが、より専門的な環境ということですか?

Paige Baileyが詳しく説明します。確実にそうです。そして、音楽家が電子トラックを作成したり、CADデザイナーのための専門的な環境があるように、映画制作者として気にかけることについて本当に超最適化できる、各使用ケースにとって本当に、本当に専用で集中したUIが欲しいと思うでしょう。

Hannah Fryが本質を捉えます。これについてのポイントは、創造性への絶対的なオープンドアがあることだと思います。

Paige Baileyが同意します。はい。

Hannah Fryが例を挙げます。私は、スパルタ人がInstagramインフルエンサーであるかのような動画を見たことがあります。

Paige Baileyが興味を示します。はい。絶対に。

Hannah Fryが続けます。彼らの包囲について報告するような。

Paige Baileyが詳しく説明します。絶対にそうです。

そして、照明がどのようなものであっても、異なる体験全体でのキャラクターの一貫性もあります。海を通って泳いでいる小さなモンスターキャラクターがいて、それから山を登らせたい、ステージで歌わせたいとします。そのキャラクターの周りのすべてのダイナミクスを変更しながら、同じキャラクターの一貫性を保つことができ、それはかなり魔法的です。

安全性と責任について

Hannah Fryが懸念を表明します。しかし、これらのツールを人々の手に委ねることについて疑問に思います。それについての懸念もありますよね。ディープフェイクだけでなく、詐欺、おそらく起こっていないニュースイベントが起こっていると人々を騙すこと。あなたはそれについてどのような立場ですか?

Paige Baileyが安全対策について説明します。はい。Veoモデル自体に導入された安全フィルターがあります。

そして関連して、Geminiアプリを通じて生成されるすべてのVeoモデルについて、これが世界で撮影された生の映像ではなく、AI作成されたものであることを知ることができる専門的な透かしがあります。

しかし、子供や特別な実体のようなものの画像を生成できないという特別な制約も設けています。政府関係者、または政策、科学、または世界の注目すべき人物として公共領域で著しく存在している人々について、動画コンテンツを生成することはできないという制約も設けています。そして、内部で実験するモデルでさえ、これらの制約を持っています。

音声技術の進歩

Hannah Fryが新しい話題に移ります。Veo 3の重要なことの一つが音声なら、音声についてもう少し詳しく説明できますか?

Paige Baileyが説明します。はい。複数言語での操縦可能な音声を含む音声を生成できるGemini Text to Speech APIもちょうどリリースしました。

Hannah Fryが確認します。それに合わせる画像なしで、音声のみですか?

Paige Baileyが詳しく説明します。音声のみですが、本当に、本当に表現力豊かな音声です。また、異なる言語で複数のスピーカーを持つこともできます。

異なる言語で複数のスピーカーまたは単一のスピーカーを使用してカスタマイズ可能で類似した体験を作成できるNotebookLMのポッドキャストを見たことがあるかもしれません。

Hannah Fryが過去の技術と比較します。少し戻らせてください。実際にWaveNetで作業していた研究者と話をしたことがあります。

Paige Baileyが興味を示します。ああ、はい。

Hannah Fryが続けます。これは今のような、たった4年前のことです。

そして、彼らがその時点でいた場所がここです。なぜなら、彼らがしたことは、これはニューラルネットワークでしたが、私の声を使ってモデルを訓練したからです。そして、彼らが到達したのがここです。

AI プログラム(Hannahを模倣して)が話します。こんにちは。私は人工知能に魅了されている数学者、作家、ポッドキャスターです。

Hannah Fryが評価します。とても息づかいが荒いですね。

Paige Baileyが同意します。とても息づかいが荒いです。

Hannah Fryが質問します。それ以来、どのように変化しましたか?

Paige Baileyが詳しく説明します。はい。大幅に変化しました。当時先駆的だったWaveNetが最初に作成された時、試行しようとしていた各事柄について専用の単一タスクモデルが必要でした。

私は2009年、2010年頃に機械学習を始めたと思いますが、これらすべての特別目的データセットを取得する必要があったため、非常に苦痛でした。それらをクリーンアップする必要がありました。データドリフトのようなものを監視する必要がありました。時間の経過とともに何かが変化した場合、ゼロからモデルを再訓練する必要がありました。

そのため、WaveNetは、当時の本当にリアリスティックに聞こえる声を生成するための専用単一タスクモデルでした。しかし、他のことはできませんでした。操縦可能な音声を持つことができませんでした。

「このオーディオクリップをこの種のスタイルで、ドイツ語で行ってください」と言うことはできませんでした。一方、私たちの最近のモデルでは、設計によってはるかに操縦可能です。スタイル、話している言語、一時停止指示、または早く話す、遅く話すなど、あらゆる種類のことについて指示を与えることができます。

新旧技術の関係

Hannah Fryが技術的継続性について質問します。WaveNetのコードがどの程度実際にこのモデルに供給されているのでしょうか?それとも、大規模言語モデルとトランスフォーマーが登場した時に、再びゼロから始めたのでしょうか?

Paige Baileyが説明します。WaveNetモデルの作成に使用されたコードの多くは、Geminiファミリーのアーキテクチャが少し異なりますが、使用されたデータは確実に再利用されています。そのため、これがテキスト入力、これが音声出力として作成されたすべての例です。

音声のスタイルや音調や声の気質の説明でそれらの種類のデータセットを豊かにすることもできます。それらすべてはGeminiにとって信じられないほど有用です。そして、それも長年にわたって見るのが本当に興味深いことの一つでした。以前は、第一世代のGeminiモデルでは、それらを微調整するために重要な作業をしなければなりませんでした。MetaLimbのようなものがありました。

Geminiのバリエーションのようなコード生成専用モデルのようなものがありました。そして、これらの訓練データはすべて、今ではベースモデル自体に組み込まれています。そのため、Geminiは、人々が以前に微調整する必要があったすべてのタスクで、本来的にどんどん良くなっているだけです。

AI Studioでの音声生成デモ

Hannah Fryが実演を求めます。では、どのように機能するかを見せてください。いくつかの例を与えてください。

Paige Baileyが実演します。まさにその通りです。AI Studioに行くと、新しいタブを開いてUIに入れます。リリースされるとすぐに最新のGeminiモデルで実験し、試すためのこの素晴らしいプレイグラウンドを見ることができます。

Hannah Fryが確認します。そして、音声を作成するには、側面にある音声波のように見えるものですね。

Paige Baileyが説明します。興味深いことに、Text to Speechモデルの場合、Generate Mediaに行き、次にGemini Speech Generationに行き、異なるスピーカー、異なる声、そして各スピーカーのスタイル指示を指定できるこのText to Speech UIに起動されます。

Hannah Fryが提案します。では、プロンプトを考えてみましょう。特にこの異なる感情に興味があります。

「あなたを待っていました」のようなことを言わせて、異なる感情を試してみるのはどうでしょうか。

Paige Baileyが設定します。では、システム指示で、家に帰ってきた親戚に挨拶するような親しみやすい口調で話すように指定します。

Hannah Fryが同意します。いいですね。

Paige Baileyが続けます。そして、プロンプトを入力し始めます。

「あなたを待っていました。」そして、私たちがすることは、親しみやすい口調で話し、人がプロンプトすることだけを言います。そして、Runを押します。

Gemini(親しみやすく)が話します。あなたを待っていました。

Paige Baileyが感嘆します。素晴らしい。

Hannah Fryが評価します。親しみやすいですね。

Paige Baileyが同意します。はい。

Hannah Fryが提案します。しかし、何か違うことを試せますか?もっとロマンチックにできますか?

Paige Baileyが調整します。はい。

ロマンチックで、ひそやかな口調で、とても息づかいが深く話すように。そして、人がプロンプトに入れる言葉だけを言います。そして、それがどうなるか見てみます。そして、それは「あなたを待っていました」でした。

Hannah Fryが確認します。はい。

Paige Baileyが実行します。そしてRunを押します。良い、Zephyrが選択されています。

Gemini(ロマンチックに)が話します。あなたを待っていました。

Paige Baileyが反応します。おお。

Hannah Fryが評価します。色っぽいですね。

Paige Baileyが詳細を指摘します。とても色っぽいです。また、このUIで関連する思考を見ることができるのも大好きです。

Geminiがこの音声応答を作成する過程を通っていく思考プロセスです。

Hannah Fryが質問します。何と言っていますか?

Paige Baileyが読み上げます。「入力を処理しました。使用する必要がある正確なフレーズを特定しました。タスクコアは今、特定のフレーズを提供することに集中しています。必要なロマンチックで、ひそやかで、とても息づかいが深い口調を細心に特定し、次のステップは音声を生成することです。」そのため、これらすべての応答をどのように組み込むかの段階的な指示を本当に与えてくれます。

Hannah Fryが続けて要求します。もっとできますか?怒った感じはできますか?

Paige Baileyが応じます。はい。確実に怒った感じはできます。では、システム指示を再び変更しましょう。では、言いましょう…

Hannah Fryが設定します。誰かがデートに遅れた。

Paige Baileyが設定します。はい。誰かがデートに遅れた。システム指示を再びコピーし、ストリームをオフにして新しいものを開始します。そして、これを行います。

人がデートに遅れて到着したような、苛立った、怒った口調で話し、ここで見る言葉だけを言います。では、試してみましょう。

Hannah Fryが楽しみます。これはとても楽しいです。

Paige Baileyが同意します。はい、そうです。

Gemini(怒って)が話します。あなたを待っていました。

Paige Baileyが反応します。ああ、それは…

Hannah Fryが評価します。彼女は怒っています。

Paige Baileyが同意します。彼女はとても怒っています。

Hannah Fryが次を提案します。悲しみはできますか?

Paige Baileyが応じます。悲しみ。はい。

Hannah Fryが詳しく指定します。愛する人を失ったような?

Paige Baileyが設定します。はい。では、別のストリームを試して、悲しみの口調で話します。愛する親戚を失ったばかりのような悲しみの口調。人がプロンプトに入れる言葉だけを言います。そして「あなたを待っていました。」Runを押します。

Gemini(悲しく)が話します。あなたを待っていました。

Paige Baileyが評価します。ああ。それは少し悲しみが少なかったように感じます。おそらくプロンプトで少し実験できるでしょう。

Hannah Fryが提案します。今度は、フランス語にできますか?

Paige Baileyが調整します。システム指示を修正できます。

このストリーミングリアルタイム機能内で、ユーザーにフランス語でのみ応答するようなことを言うことができます。明るく興奮しているようにしてください。

Hannah Fryが同意します。いいですね。

Paige Baileyが続けます。明るく興奮して。そして、ユーザーがプロンプトに追加するテキストだけを言います。では、出力がどのようなものになるか見ることができます。

そして、まだ「あなたを待っていました?」で行きますか?

Hannah Fryが確認します。絶対に。

Paige Baileyが実行します。では。「あなたを待っていました。」Zephyrが選択されています。ここにRunボタンがあります。試してみましょう。

Geminiがフランス語で話します。

Paige Baileyが反応します。私はフランス語を話しません。

Hannah Fryがフランス語で応じます。はい、確かに。

Paige Baileyが同意します。はい、素晴らしい。

Hannah Fryが確認します。これはすべてAI Studioでですか?

Paige Baileyが答えます。これはすべてAI Studioです。

Hannah Fryが質問します。私が実験できるように利用可能ですか?

Paige Baileyが説明します。はい、人々が実験し、試すために今日無料で利用可能です。さらにクールなことに、開発者なら、Get SDK Codeという小さなボタンがここにあり、クリックするたびに、UIで行ったことすべてを、コード形式で提供してくれます。

Python、TypeScript、個人プロジェクトで使用している任意の言語で欲しい場合、AI Studioで行ったことを複製するためにすることは、Get SDK Codeをクリックするだけで、競争に参加できます。

Gemini LiveとProject Astra

Hannah Fryが更なる機能について質問します。AI Studioでは、Geminiアプリではできない他のことがありますか?

Paige Baileyが説明します。Gemini LiveはAI StudioのUI内に直接組み込まれたProject Astraのようなものです。

Hannah Fryが思い出します。そして、Project Astraは、もちろん、これについてGreg Wayneと全体エピソードを行いました。これはリアルタイム視覚理解、ユニバーサルAIアシスタントの最初の試みです。

Paige Baileyが詳しく説明します。絶対にそうです。あなたが見るものすべてを見ることができます。リアルタイムで話すことができます。複数の言語で話すことができます。また、このプロセスに追加のツールコールを追加することもできます。

Geminiが最新情報を抽出し引き出すことができるようにしたい場合、カレンダー、ドキュメント、シート、Gmailのような毎日使用するアプリや製品のいずれかと対話できるようにしたい場合、Gemini Live API内でこれらすべての機能を使用することができるアクセスを与えることができます。

Hannah Fryが実演を求めます。では、これが機能する例を見せてください。

Paige Baileyが実演します。はい。Google検索でのGroundingをオンにして、それからGeminiと画面を共有しましょう。画面を共有し、ウェブカメラを共有し、もちろんモデルと話すことができます。しかし、画面を共有してみましょう。

現在開いているChromeタブの一つを選択します。そして、Doug Eckと見たあの動画を見て、それについて何を言うかを見てみましょう。

こんにちは、Gemini。画面で何を見ているか教えてもらえますか?

Geminiが応答します。YouTubeの動画が再生されているのが見えます。赤い髪の女性が話していて、画面に「Hannah Fry、『Google DeepMind, The Podcast』へようこそ、私と」と表示されている字幕があります。この動画はAIと創造性についてのようです。

Paige Baileyが続けます。素晴らしい。では、動画が何をカバーすると思うかについて少し教えてください。また、クリエイティブチーム向けのGoogle DeepMindの最新モデルは何ですか?ここで思考を拡張し、検索を行う必要があることを理解していることが分かります。

Geminiが詳しく応答します。AIや新しいクリエイティブミューズ、そして「Google DeepMind, The Podcast」のスピーカー紹介から、動画はクリエイティブ分野でのAIの可能性を探る可能性が高いです。AIがクリエイティブプロフェッショナルを刺激したり支援したりする方法についての議論が特集されているかもしれません。

クリエイティブチーム向けのGoogle DeepMindの最新モデルに関して、彼らは動画生成用のVeo 3、画像作成用のImagen 4、音楽作曲用のLyria 2など、さまざまなツールを導入しています。

また、AIフィルムメイキングツールであるFlowも開発し、ゲームとエンターテイメントでの応用を持つワールドモデリングAIモデルに取り組んでいます。これらの進歩は、アーティストとクリエイターを力づけることを目的としています。

Paige Baileyが感嘆します。素晴らしい。

Hannah Fryが同意します。素晴らしい。

Paige Baileyが詳しく説明します。ここで見ることができることの一つは、思考トレースが公開されていることです。

質問にどのように答えるかについてのGeminiの思考プロセス全体を歩んでいます。アクセスできるツールの一つであるGoogle検索を呼び出す必要があることを理解しています。そのため、何らかの情報を調べる必要があります。検索から応答を得ると、それを要約に組み込み戻し、Google が最近リリースしたすべての製品について捕捉した洞察とともに、この素晴らしい音声クリップを生成します。

実生活での応用

Hannah Fryが実際の使用例を示します。このもの、このGemini Liveのもの、Androidフォンでも持っていますよね。実際に、少し前に私のフォンでこれを見つけて、広範囲に使用しています。試してみましょう。待って。

今、Geminiには何が見えていますか?

Geminiが応答します。金髪の女性がマイクの前の机に座って腕を組んで笑っているのが見えます。机にはコンピューターのキーボードとマウスがあり、背景にはランプがあります。

他に何か教えてもらえますか…

Hannah Fryが中断します。病気の観葉植物の診断にとても役立っているんです。本当に言葉では表現できないくらいです。

Paige Baileyが感嘆します。ああ、すごい。

そして、日常生活を送る際の実際のコメンテーターのようなものを持つことも、本当にクールでした。ペアプログラマーとして使用することについても、本当に、本当に魅力的なものがありました。私がこれによく使用することの一つは、GoogleにGoogle Colabと呼ばれるツールがあり、これはPythonコードを持つノートブック空間環境です。コードを実行し、実行することができます。

しかし、GeminiはColab機能も理解しています。そのため、代わりにこのタブを共有したい場合、「こんにちは、Gemini、今画面で何を見ていますか?そして、コードが見える場合は、それが何をするか説明してください」と言うこともできます。

Hannah Fryが感嘆します。ああ、いいですね。

Paige Baileyが同意します。はい。

Geminiが応答します。画面で「Making the Most of Your Colab Subscription」というタイトルのGoogle Colabノートブックが見えます。より速いGPUとより多くのメモリに焦点を当てて、Colabの使用を最適化するためのヒントを提供しているようです。いくつかのコードスニペットが見えます。

最初のものは、GPUが接続されているかチェックし、GPU情報を表示するもののようです。二番目のコードは、psutilライブラリを使用してランタイムで利用可能なRAMの総量を決定し、それをギガバイトで提示します。

Paige Baileyが感嘆します。それは、何らかの形ですべてのものを理解する役立つアシスタントを持っているようなものです…

Hannah Fryが続けます。あなたが見ている可能性のあるもの。

Paige Baileyが同意します。絶対にそうです。

そして、毎日見るものについて、好奇心旺盛な人間が持つかもしれないすべての質問に、共感的な方法で答えることもできます。

Hannah Fryが評価します。これは良いです。私はすでに学生とGoogle Colabを使用しています。

Paige Baileyが喜びます。ああ、素晴らしい。

Hannah Fryが続けます。ですから、それをありがとうございます。とても役立つでしょう。

コード生成機能

しかし、必ずしも自分でコードを書くことができない人にとって、AI Studio内に別の提供があります。

Paige Baileyが説明します。絶対にそうです。Gemini APIを取り、Cursor、Windsurf、Copilot、または利用できる他の多くのコーディングIDEのいずれかのツール内に埋め込むことができることに加えて、Geminiで直接アプリを構築できるBuildという新機能もあります。

Gemini でBuild Appsセクションは、このUI内で生成されるすべてのコードが、Geminiモデルとのインターフェースのための最新のSDK、最新のコードに対して超最適化されているという点でユニークです。

Hannah Fryが別の言葉で表現します。別の言い方をすると、人生で一行のコードも書いたことがない人でも、ここでGeminiにアプリを構築するようプロンプトするだけで、洗練されたコードを持つことになるということですね。

Paige Baileyが確認します。絶対にそうです。そして、最新のモデル、モデルからの最新機能を使用するでしょう。本当に、本当に堅牢なTypeScriptコードを生成し、途中でエラーも解決します。

モデルが問題に遭遇した場合、サイクルバックして、モデルの実装、アプリ、そして明確で一貫した状態を得るためにエラーを修正することができます。

Hannah Fryが表現します。自己治癒コードですね。

Paige Baileyが同意し詳しく説明します。自己治癒コードで、見たいと思うものを説明するだけですべてです。これは、外部で見たかもしれないバイブコーディングデモの多くが、単純なアプリの作成に本当に、本当に集中しているという点でも興味深いです。AI機能豊富でないもの。

これは、Gemini API、Imagen、または類似したものも使用するアプリの作成に対して超最適化されています。そのため、Gemini でBuild Apps を使用して何を作り上げることができるかを見るのは、本当に、本当にクールです。

アプリのアイデアがある場合…

Hannah Fryが提案します。スパゲッティ競争。

Paige Baileyが同意します。スパゲッティ競争。これも正しいです。

では、スパゲッティ競争またはスパゲッティ食べ競争を紹介するアプリケーションを生成すると言いましょう。ウェブサイトのランディング写真、および競争についての他の写真の例画像を生成するためにImagenを使用してください。また、関心を示すために人々がサインアップするフォームを含めてください。

Hannah Fryが確認します。これは基本的に、すべての画像がAI生成されるウェブサイトを作ることになりますね。

Paige Baileyが詳しく説明します。すべての画像がAI生成されます。人々が見たい場合に情報を提出できるフォームがあるはずです。また、コードアシスタント、中央のディレクトリ構造、そして右側でアプリが作成される様子を視覚化する場所を持つこの新しいIDEにすぐに起動してくれました。

この思考トレースボックスを展開すると、Geminiがアプリのコア機能を構築し、構造をマップアウトし、コンポーネントを構築するために舞台裏で多くの作業をしていることが分かります。そして、設計パターンから最新のReactライブラリ、さらにエラーハンドリングまで、これらのコードファイルのすべてを、私たちが座って見ている間に書いています。そのため、ネイティブアプリケーションを構築する場合に考慮しなければならないすべてのことを考える必要がありません。

アプリ構築の実演

Hannah Fryが感嘆し自分の経験と比較します。私は過去にウェブサイトを構築したことがある人間です。そして正直に言って、それをより迅速にするはずのツールでさえ、これには何週間も何週間も何週間もかかっていました。そして、私のウェブサイトはひどいものでした。

笑い声。

さあ始まりました。

Paige Baileyが反応します。なんということでしょう。

Hannah Fryが笑います。Comic Sansを選択しました。大好きです。

Paige Baileyが同意します。絶対にComic Sansを選択しました。

コンテストがあります。ロード中のように見える画像があります。

Hannah Fryが指摘します。ああ、これを見てください。

Paige Baileyが感嘆します。なんということでしょう。そして、このコードアシスタントを隠して、もう少しスペースを与えると。

Hannah Fryが指摘します。偽のトロフィー。

Paige Baileyが詳しく説明します。はい、偽のトロフィーがあります。

コンテストがあり、コンテストの背景画像を生成し、それからそれが作成したこの非常に興味深いスタイリスティックチョイスにマッチするように画像の透明度も変更しました。また、以前にコンテストに勝ったように見える人々のコンテストハイライトもあります。ちなみに、これらすべての画像は、Imagen 3を使用しています。Imagen 4ではありません。

Hannah Fryが更なる可能性について質問します。しかし、この時点で、分からないですが、以前のスパゲッティ食べ競争の何らかの動画があり、その瞬間についてのストーリーであるページが欲しい場合。YouTube動画をアップロードし、Gemini Liveに基本的にそれを見てもらい、要約してもらい、ウェブサイトに埋め込むということもできますか?

Paige Baileyが確認します。絶対にそのすべての作業ができます。Gemini検索機能も使用できます。

スパゲッティ食べ競争に関連する情報の例を見つけて、動画自体のためにそれらのソースすべてを引用します。

Hannah Fryが実際のウェブサイトについて質問します。これを実際のウェブサイトにしたい場合は、どうしますか?

Paige Baileyが説明します。実際のウェブサイトにするため、ファイル自体を共有するだけでなく、友人と共有できるものにするために、側面にあるCloud Runにデプロイするという小さなロケットがあります。

これがGoogle Cloud開発環境と非常に密接に統合されているため、Cloud Runにデプロイすると言うことができます。アプリが作成された後、プロジェクトを選択できます。Cloud Run経由でアクセスできるプロジェクトの一つです。実際に使用できるプロジェクトを確認し、デプロイできると言い、スケーラブルな友人と共有できるユニークなURLを提供します。

そして、さらに重要なことに、あなたとあなたのアプリが使用できるように、しかし他の誰もそれらを取得することができないように、これらすべてのAPIキーを隠しています。

開発者への影響

Hannah Fryが開発者への意味について質問します。しかし、これは開発者にとって何を意味するのでしょうか?あなたは本当に並外れたことを非常に、非常に迅速に行いました。

Paige Baileyが詳しく説明します。はい。開発者にとって、これは構築、アイデア創出、製品体験により集中できることを意味すると感じます。現在の開発者の日常生活は、必ずしも世界で最もエキサイティングでないことの多くです。コードベースを一つのバージョンから別のバージョンにアップグレードしたり、リポジトリにタイピングを追加したり、定期的にセキュリティの脆弱性をチェックしてコードベースがそれらに対して感受性がないことを確認したりする必要があるかもしれません。

そして、これらのことすべては、楽しくありません。アプリが持続可能で維持されることを確認するためにアパートを整理するようなものです。誰もが構築したいが、誰もメンテナンスをしたくないという言葉があります。

これらのモデルとこれらの種類の機能の約束の一つは、ソフトウェア開発者がより多くの構築機会があり、本当により野心的なシステムを構築することです。さらに重要なことに、より多くの人が学び、創造し、何かを世界に送り出すこの全プロセスにインスパイアされる扉を開きます。

人間の創造性への影響

Hannah Fryが大きな問いを投げかけます。では、これらすべてのツールが一緒になって、人間の創造性について考える方法を根本的に変えると思いますか?

Paige Baileyが熱く語ります。絶対にそうです。人間の創造性は、この進歩の爆発を迎えようとしています。そして、誰もがクリエイターになることができる約束があります。一つの特定の分野でのクリエイターだけでなく、それを他の多くの分野にも拡張できるようになることです。

物理科学、化学、生物学の科学者、または歴史家や音楽家である人々が、突然すべてのアイデアやプロジェクトを他の人と共有できるデジタル形式に変換できるようになることには、本当の魔法があると思います。

Hannah Fryが感謝を示します。Paige、絶対に魅力的でした。参加していただき、ありがとうございました。

Paige Baileyが応じます。ここにいることができて素晴らしかったです。ありがとうございました。

番組のクロージング

Hannah Fryが締めくくります。これらの新しいツールを使うと、突然すべてがまとまったように感じます。今まで、これらの新しいリリースの個々の要素、音声、動画、言語について研究者と話してきました。しかし、これらすべての要素が統合され、シームレスに連携することには、とても異なる何かがあります。

私は何年もここに来ており、途中でずっと人々と話してきました。しかし、それでも、これらのツールが生きてくるのを見て、可能性を想像すると、私はまだ完全に驚嘆しています。そして、正直に言うと、家に帰る電車に乗って、いつも構築したかったが時間がなかったすべてのものを試してみることが今はうずうずしています。

あなたは教授Hannah Fryと一緒に「Google DeepMind, The Podcast」を聞いていました。

このエピソードを楽しんでいただいた場合は、YouTubeチャンネルを購読するか、お気に入りのポッドキャストプラットフォームでレビューを残してください。そして、もちろん、幅広いトピックについてのエピソードがもっとたくさん来る予定ですので、ぜひ…

コメント

タイトルとURLをコピーしました