Gemini Omniが登場

Google・DeepMind・Alphabet
この記事は約13分で読めます。

Googleが新たに発表したマルチモーダルAIモデル「Gemini Omni」の動画編集・生成能力を、アーリーアクセスで検証・解説した動画である。従来の動画生成モデルとは異なり、テキストや画像を起点とした高度な部分編集やキャラクターの一貫性維持、数式やコードの描写力を備えている点、そして現状の課題やセーフティガードレールの挙動について詳しく紹介している。

Gemini Omni is here...
Gemini Omni is Nano-banana for Video EditingMy voice to text App: whryte.comWebsite: Beyond Basics Course:

新世代の動画編集モデル Gemini Omni

GoogleがGemini Omniをリリースしました。動画版の軽快な編集スタイルをイメージしてもらうと分かりやすいかもしれません。そして、このモデルはその能力が非常に長けています。これは、優れた動画生成モデルであるVeoなどとは異なるものです。Googleはこのモデルを、動画を皮切りとした、あらゆるインプットからあらゆるアウトプットを生み出すオムニAnything-in, Anything-outモデルと呼んでいます。

このモデルのおかげで、動画内でどのような編集を行いたいかを細かくコントロールできるようになります。ゼロから動画を生成することも、シンプルなテキストプロンプトで編集することも、画像を入力することも可能で、とても楽しい使い方ができます。私はここ数日間、アーリーアクセスでこのモデルを色々と試してきましたので、かなり興味深い例をお見せできると思います。今回の動画の目的は、この新しいモデルで何ができるのか、その様々な機能をお見せし、Googleがこのオムニな未来をどこへ向かわせようとしているのかを明らかにすることです。それでは始めましょう。

実際の使い勝手がどのようなものかを見ていきましょう。新しいGemini Omniモデルを試すには、Geminiアプリにアクセスする必要があります。ここで動画を選択すると、いくつかの異なるテンプレートが表示されますが、最も重要なのは、これが一般的な動画モデルではなく、オムニモデルで作成されているという点です。テンプレートを選択してテキストプロンプトを入力するか、編集したい動画を提供するか、あるいは動画生成のベースとなる画像とテキストを組み合わせて提供することができます。

例えば、ちょうど今Figureロボットのライブ配信が行われています。そこで、その動画のスクリーンショットを用意し、ベルトコンベアの上で荷物を仕分けるロボットの動画、というプロンプトを与えたらどうなるか試してみました。生成されたのがこちらです。

なかなか凄いですよね。画像の中で具体的に何が起きているのかを正確に推論し、それを再現してくれました。非常に素晴らしい出来栄えです。

キャラクターの一貫性とリファレンスシートの活用

Gemini Omniモデルの最も強力な要素の一つが、キャラクターの一貫性です。この動画をご覧いただくと、シーンが変わっても、ローズという名前のロボットにしっかりと焦点を合わせ続けているのが分かりますよね。しかし、これはオブジェクトだけに留まりません。人物にも適用することができます。

ここで、私が作成した動画の例を一つお見せします。より一貫性のあるキャラクターを使って、長い動画を作成する方法を説明しましょう。現時点での動画生成は10秒間に制限されており、通常の動画生成よりも2秒長くなっています。それでは見てみましょう。

動画全体を通して、キャラクターがかなり一貫して保たれているのが分かります。これを行うために、私は参照用の画像を用意しました。単一の参照画像から始めることもできますが、今回のケースでは、4つの異なる画像からなるキャラクターシートを提供しました。すべてのキャラクターシートに同じ人物を使用し、それぞれのシートで、同じキャラクターの異なるシーン構成や異なる個性を描写しています。

そして私がしたことと言えば、提供されたキャラクターシートに基づいて、シアナ・ロウが様々な役割をこなしている躍動感のある動画を作成してください。テーマは彼女は何でもできるです、と指示しただけです。このアイデアは、参照用のキャラクターシートとテキストプロンプトを組み合わせて提供し、SeaDance 2などで非常に優れた成果を上げている最近のトレンドからヒントを得たものです。私が使用したキャラクターシートは、ジャレッド・レフが作成したものです。彼はフォローしておくべき素晴らしいクリエイターですので、彼の作品をチェックすることを強くお勧めします。

Gemini Omniが誇るピンポイント編集機能

これを使えば、SeaDanceとGemini Omniを直接比較することができますが、Gemini Omniの最大のセールスポイントは、動画内でターゲットを絞ったピンポイントな編集ができる点にあります。例えば、先ほどと同じ動画を使って、メインキャラクターをアニメキャラクターに変更してください。背景は自然でリアルなままに保ち、背景には一切手を加えないでください、と指示してみます。

これを送信してみます。その出力がどうなるかをお見せしますが、実は以前に、元の動画に基づいてこのアニメキャラクターの別バージョンを生成してあります。それがどのように見えるかご覧ください。

実はこれには一つ小さな問題があることにお気づきでしょうか。このシーンで、Gemini Omniは彼女に間違った服を着せる判断をしてしまいました。元の動画では、彼女がTシャツを着ているゲーマーのシーンです。こちらが実際のシーンなのですが、その点を除けば、ほぼすべてを忠実に再現しているため、かなり信じられないほどのクオリティです。キャラクターの細かな部分や、画面上のゲームまで完全に一致しています。では、生成された2つ目のバージョンを見てみましょう。

エンディング画面を見ても、元の動画と全く同じように他のすべての構成が保たれているのが分かります。こちらがそのシーンです。現在はプレビュー版ですので、こうした小さな不具合は時間の経過とともに修正されていくと思いますが、ここまでの結果はすでにかなり驚異的です。

世界の知識を用いた歴史の再現とテキスト描写力

このモデルはGeminiモデルをベースに構築されているため、世界の知識、つまり一般教養を備えています。そのため、例えばこのような質問をすることができます。1903年12月17日の午前10時35分、この座標で具体的に何が起きていたのかを再現してください。

これは、ライト兄弟によって近代的な飛行機が初めて飛行した場所の座標です。今回のケースでは、テンプレートも追加してみましょう。アウトドアと指定して、何が作られるか見てみましょう。

生成された動画がこちらです。

その調子だオーヴィル。

任せろウィルバー。

実にスマートだと思いませんか。その日その時に何が起きていたのか、歴史的な出来事を正確に把握し、それを映像として捉えることができています。シーン自体の構成方法について、より詳細なプロンプトでもっと多くの指示を与えれば、さらに良い結果が得られると思いますが、世界の知識を利用するだけで、こうした歴史的な出来事を再現できるというのは、依然として非常に素晴らしいことです。

さらに、このモデルには他にも本当に優れた機能があります。非常に強力なオムニモデルであり、テキストを極めて自然にレンダリングすることができます。ここでは、教授が従来の黒板に三角関数の公式の数学的証明を書きながら、方程式の中で現在どのステップを進めているかを説明している様子を描写しています。

ここで、両辺からサインの2乗シータを引くと、基本関係式が得られます。

いくつか気づいた点があります。途中で、どこからともなく2乗の文字が突如として現れた部分があったと思います。しかしそれ以外に関しては、実際には本当に、本当にコヒーレントであり、この教授が具体的にどこに文字を書いているのかをしっかりと追跡できています。これはかなり信じられないことです。

別のバージョンもあります。これは彼らが用意したプロンプトの一つです。Geminiという単語を20のバージョンで見せるよう指示しました。それぞれ異なるスタイル、異なるシーンで、台詞なしのラピッドファイア、つまり早撃ちのようなテンポで出力させました。その結果がこちらです。

GoogleはGemini 3.5 Flashをリリースしている最中ですので、3.5 Flashでも同じことを再現するよう頼んでみました。その様子がこちらです。

3.5という数字を見落としてしまっている箇所がいくつかありましたが、それでも非常に堅実な結果を残しています。

コードの実行とVS Codeの再現

こちらもまた面白い検証でした。ユーチューバーがPythonのリスト内包表記について説明しています。画面にはIDEが見えており、Pythonのコードが実行されています。ズームイン効果を伴って出力を表示してください、と指示しました。

今日はPythonのリスト内包表記について見ていきます。これはリストを簡潔に作成する方法です。このコードを実行して出力を確認してみましょう。はい、ご覧の通りです。

注目すべき点がかなりたくさんあります。まず、作成されたリスト内包表記の式が正確です。それを実行した際の結果もまた正確ですね。私たちが何をさせたいのかを正確に理解し、指示通りに適切にズームインしていることも、改めて驚くべき部分です。

ただし、いくつかの顕著なアーティファクト、つまり描画の乱れも見られます。例えば、ファイル実行のパスを見ると、非常に奇妙な文字列になっています。同様に、ここを見ると、変数を定義してコメントを追加しようとした形跡がありますが、それもかなり不自然に見えますよね。しかし全体として見れば、IDEのレンダリングは、まさにVS Codeがこうあるべきという姿を捉えています。いくつか余分なタブが追加されているような奇妙な乱れはありますが、それでもこのモデルができることのレベルの高さには目を見張るものがあります。

セーフティガードレールと他社モデルとの比較

しかし、予想通りガードレールが存在するため、暴力的なシーンなどは生成してくれません。例として、あるプロンプトを使用してみましたが、同じプロンプトでSeaDance 2が生成した動画がこちらです。

非常に素晴らしい出来栄えですね。しかし、私がGemini Omniで同じことをやろうとすると、その動画は生成できません、別のアイデアを試してください、プロンプトの書き方のヒントを確認したり、動画ポリシーのガイドラインを確認したりできます、と表示されてしまいます。そのため、Gemini Omniを扱う際には、この点を意識しておく必要があります。

もう一つのユースケースの例をご紹介します。このケースでは、画像を提供し、その後に異なるシーンの説明を加えました。これはX上にあるプロンプトに基づいたものです。これらのプロンプトへのリンクはすべて共有しておきますが、これとSeaDanceで生成されたものとを直接比較してお見せしたいと考えました。それではご覧ください。

これがSeaDanceのバージョンでしたが、終盤に向かうにつれて、テキストが適切にレンダリングされていないのが分かります。特に小さな文字については、あまり意味をなしていません。

では、同じプロンプトに対するGemini Omniからの出力がこちらです。

キヌアは単なるシンプルな穀物だと思っていましたが、キッチンの主役になり得る存在です。プレミアムキヌアの魔法を発見してください。

この特定のケースでは、Gemini Omniもテキストのレンダリングに苦戦しているようですが、音声をバリューとして追加する判断をしており、これはナイスな演出です。

そして、ここでもガードレールが関係してくる部分があります。先ほどの人物をスカーレット・ヨハンソンに置き換えたいと考えたのですが、その動画は生成できません、別のアイデアを試してください、プロンプトの書き方のヒントを確認したり、動画ポリシーのガイドラインを確認したりできます、と拒否されてしまいます。具体的に何を生成できるかについてしっかりとガードレールが敷かれているのは、安全性の面で良いことです。

音声の維持と連続編集におけるドリフト現象

他にもいくつか面白い例をお見せしましょう。動画の編集を行う際に、音声がそのまま保持されるかどうかを確認したいと考え、私自身の動画の一つをアップロードしてみました。

Googleはこのモデルを、動画を皮切りとした、あらゆるインプットからあらゆるアウトプットを生み出すオムニAnything-in, Anything-outモデルと呼んでいます。

これは6秒間のセグメントで、私が行った指示は、この人物を5つの異なるスタイルのアニメにラピッドファイアで変更してください、というものだけです。生成されたものがこちらです。

Googleはこのモデルを、動画を皮切りとした、あらゆるインプットからあらゆるアウトプットを生み出すオムニAnything-in, Anything-outモデルと呼んでいます。

いくつか観察できた点があります。まず、動画の冒頭では、私の声が確実にそのまま維持されています。しかし、中盤から終盤にかけて、時折苦戦している様子が見受けられました。特にこのあたりの部分で、同じ文や同じ単語を数回繰り返してしまっているのが分かります。特定の状況において、このようなわずかなドリフト、つまりズレが観察されました。それを除けば、非常に素晴らしい出力です。

次のテストでは、同じ動画をどれだけ長く編集し続けることができるか、そして動画編集のプロセスの過程でアーティファクトが入り込んでしまうかどうかを確認したいと考えました。このシンプルなシーンを使用します。シーン自体はあまり変化しませんが、これが何らかの乱れを引き起こすかどうかを見たかったのです。こちらが実際に生成された動画です。

ここではいくつかのイテレーションを繰り返し、基本的にはリタッチを行ったり、異なるオブジェクトを登場させたりするよう指示しました。そして、5つの異なるバリエーション、つまり5回の変更を加えた後の状態がこちらです。

これはかなり信じられない結果です。なぜなら、シーン全体の雰囲気がまだ十分に保たれているからです。ただし、動画の中に動きのあるダイナミックな要素があまりにも多すぎる場合は、その作業を新しいチャットに持ち込んで、そこで最初からやり直すことをお勧めします。

例えば、先ほどの例に戻ってみましょう。こちらでは、非常に多くのシーンチェンジが行われていました。最後のものは、基本的に3回目のイテレーションにあたります。ここでは単に、人物を手描きのシルエットに置き換えてください、と指示しました。その出力がどのように見えるかをご覧ください。

いくつかの部分で、ズレが生じ始めているのが確認できると思います。彼女が農家であるべき場面でシェフの制服になってしまっていたり、野菜を収穫している場面でゲーマーのスタイルが混ざり合って変形してしまったりしています。ダイナミックな要素が多すぎる動画に対して変更を重ね続けると、動画内にこうしたドリフトが出現し始めるのが実感できます。

シネマティックな描写力と今後に向けた期待

次の検証として、より映画のようなシネマティックな映画のシーンを生成できるかどうかを確認したいと考えました。それについては、かなり良い仕事をしてくれていると思います。一つの出力結果がこちらです。

リック。

決して悪くないクオリティですよね。しかもこれは、一発のシングルショットプロンプトから出力されたものです。プロンプトを色々と工夫して実験していけば、おそらくさらにシネマティックな結果が得られるはずです。

ここで、興味深い失敗例についても指摘しておきたいと思います。これは、シネマティックなサバイバルスリラーのショットになるはずのものです。ジャングルの中に人々のグループがいて、巨大なアナコンダに遭遇するというシチュエーションです。生成されるべき様々なシーンの説明が並んでいます。では、こちらをご覧ください。

水辺から離れろ。

走れ。後ろを見るな。

いくつか気になる点があります。まず、リアルさは本当に素晴らしいです。
次に、生成される動画の中に、非常に興味深いアーティファクトが見られます。視覚的な要素が多すぎて、動きが非常に速い場合に時折発生するのですが、ここではどういうわけか、ニシキヘビの頭が2つになってしまっています。そして最後のシーンでは、ニシキヘビが最初は人々に向かって飛んできているのに、なぜか次の瞬間には飛び去ってしまっています。現状では、より適切なプロンプトを与えることで、これを確実に改善できる可能性があります。

そこで、ニシキヘビをドラゴンに置き換えるよう指示してみました。その結果がこちらです。

水辺から離れろ。

走れ。後ろを見るな。

こちらも、かなりまともな仕事をしていると思います。ただ、ここではどういうわけか、木をなぎ倒すことなく、そのまま木をすり抜けて進んでしまっていますよね。しかし、こうした類の問題は、次のイテレーションで対処されていくものだと思いますし、ユーザー側もプロンプトの改善に取り組む必要がある部分です。

いずれにせよ全体として、非常に印象的なリリースであると感じています。単なる動画生成能力の高さだけでなく、動画に対してターゲットを絞ったピンポイントな編集を行える点が画期的です。そしてこれはオムニモデルですので、今後、音声を処理したり、音声に基づいて動画を作成したりできるアップデート版がリリースされるのではないかと推測しています。現時点では、オーディオファイルをアップロードしようとしても処理されませんし、アウトプットとして動画だけでなく、異なるモダリティを生成できるようになる可能性もあります。非常に興味深い分野です。

この動画が皆さんのお役に立てば幸いです。ご視聴ありがとうございました。それでは、いつものように次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました