Google Whiskチュートリアル(Google Whiskの使い方)

Google・DeepMind・Alphabet
この記事は約12分で読めます。

GoogleのWhiskは複数の画像を組み合わせて新しいスタイルの画像を作成できる強力なAIツールである。被写体、シーン、スタイルという3つの要素を組み合わせることで、ユーザーは画像編集により多くのコントロールを持つことができる。このツールは様々なアスペクト比での出力、アニメーション機能、プロジェクトの共有機能なども備えている。

Google Whiskの基本概念

今日のオンラインチュートリアルでは、GoogleのWhiskという新しいAIツールの使い方をご紹介いたします。このツールは、独自の画像入力で新しいスタイルを作成し、画像編集をより細かくコントロールしたい場合に非常に強力なツールです。それでは始めていきましょう。

Whiskの基本的なアイデアは、異なる要素を組み合わせて一つの最終的な出力を得ることです。単に1つや2つの画像を作ることではなく、複数の画像を組み合わせ、それらのスタイルを融合させて一つのまとまりのある出力を得ることです。

最初のステップ:ランダム生成から始める

画像をお持ちでない場合は、このダイス(サイコロ)ボタンを押すことをお勧めします。これによりGoogleのモデルによってアイデアが即座に提供され、その後生成ボタンをクリックすることができます。

生成ボタンをクリックしたら、その画像で何ができるか、そして最終的な画像出力を作成する際にこのツールがいかに強力かを正確にお見せします。

画像がすでに生成されていることがわかります。画像が生成されたら、このサイドバーを開いてください。ここが最終的な画像出力を操作する際の主要な場所になります。

被写体、シーン、スタイルの組み合わせ

基本的に2つの画像が得られており、いくつかは本当に良く見えます。今実際に行うのは、この女性を被写体画像として使用することです。ここで行われているのは、被写体の分析です。もちろんこれは人物なので、その画像の主要な焦点となります。

次に行いたいのは、基本的にシーンを生成することです。シーンは基本的に何らかの環境、場所、この女性がいる場所になります。画像をアップロードする(後でお見せします)か、シンプルな画像プロンプトを入力することができますが、今回はランダムに生成して皆さんに理解していただきます。

ここで、この画像がすでに生成されていることがわかります。今のところ非常に良く見えます。何らかのファンタジー環境のテニスコートのようです。正直よくわかりませんが、左下のボタンをクリックしてこれを開くと、魔法的な都市の緑豊かで生い茂った幻想的なテニスコートのようであることがわかります。

キャラクターをシーン内に配置するので、ここで追加の詳細を加えることができます。プロンプトがどのように制御されるかをお見せした後に追加します。

スタイルの適用と最終生成

今必要なのは、その画像がどのように見えるかの最終的なスタイルです。被写体、シーン、スタイルがあることがわかります。スタイルはもちろん、これらの最終入力がどのように融合するかを決定する要素です。シーンを変更することはなく、被写体を変更することもなく、視覚的にどのように認識されるかを変更するだけです。

再びダイスアイコンを押すと、基本的にこのアニメシーンを提供してくれます。ヴィンテージアニメスタイルガイドと表示されており、本当に素晴らしいです。私はあまり多くのスタイルを知らないので、これは本当にクールに見えます。いくつかのスタイルは知っていますが、すべてのスタイルを知るほど芸術的ではないので、ダイスを振ることで少しインスピレーションを得ることができます

これで基本的にこれらを融合させます。このボタンをクリックすると、3つの入力があるので、この被写体である女性をこの場所でこのスタイルで生成します。

ここでこの画像が表示されています。この女性が見え、背景は幻想的なテニスコートの場所で、もちろんアニメスタイルになっています。これが基本的な仕組みですが、本当にクールだと思う他の多くの小さな機能や要素があり、ぜひチェックしていただきたいと思います。

アスペクト比の変更とソーシャルメディア対応

その中で本当にクールなものの一つは、アスペクト比を素早く変更できることです。異なるソーシャルメディアプラットフォームに投稿したい場合、オンラインストーリーで使用したい場合などに、ここでポートレートスターにすることができます。このアスペクト比では、異なるソーシャルメディアプラットフォームでより効果的になることがわかります。

同様に、再びこのアイコンをクリックして正方形にすることで、他のプラットフォームでも使用できます。これは本当に素晴らしいです。なぜなら、異なるプラットフォームと異なるスタイルを測定できるからです。

スタイルボードの作成

このビデオの大部分では横向きを維持しますが、異なるスタイルがどのように影響するかを見たい場合は、ダイスを押し続けてここでスタイルボードを構築することができます。再び、今度はステッカーが選ばれていることがわかります。一度に1つのアクティブなスタイルのみが許可されています

このステッカースタイルでこの画像を生成すると、実際にステッカースタイルの画像が得られますが、これを生成できなかった理由は、ステッカーの背景が少し複雑すぎるからかもしれません。このスタイルを選択すれば、要求したものを正確に提供できるはずです。

そうです、本当に良く見えます。以前に見たことがない場合は、いつものようにここのボタンをクリックして、これがどのようなスタイルかを確認することをお勧めします。これはペーパーカットスタイルのようで、本当に効果的に見えます。

画像アップロード機能の実演

幸い、これは画像アップロードをサポートしており、最後にもう一つスタイルをお見せします。この1960年代のグレイニーフィルム美学を生成してみます。ここで実際に本当に本当にクールなものが生成されることがわかります。スタイルをいじって複数の異なるものを得ることができるという事実が本当に気に入っています。

また、クールなのは、実際にこれらの画像を移動できることです。たとえば、この恐竜を上に移動させて、この女性を削除したいとします。そうすると、実際にこの場所で恐竜を得ることになります。基本的に、この場所でこのスタイルで恐竜を得ることができます。

キャラクターの一貫性に関する課題

今これを押すと、新しい画像を得ることができ、これらの新しいエリアで同じ恐竜を持っていることが明確にわかります。ただし、GoogleのWhiskに関して軽度に苛立たしいことが一つあります。現在、本当に一貫したキャラクターをサポートしていないということです。これは将来変わると思いますが、あまり良く見えない小さなニュアンスを見てきました。それが何を意味するかをお見せします。

これらすべての画像を削除して、独自の画像をアップロードして、私が何を意味するかを正確にお見せします。車の画像をアップロードします。この赤い車の画像があります。今度は背景の画像をアップロードします。このジャングルレーストラックもアップロードしており、すぐに見ることができます。画像を分析していることがわかります。

プロンプトベースの画像処理

基本的にプロンプトを提供するだけで、ほとんどの場合、Google Whiskが実際に行っているのは、プロンプトを1つの最終画像に転送しているだけのようです。実際に画像が何であるかを捉えて、それをAIに転送しているようには見えません。

スタイルについては、ペーパーカットスタイルを使用し、生成をクリックすると、このスタイルでこのレーストラックでこの車を見ることができます。

この特定の例では、正確な車を捉えていないことがわかります。お持ちのオブジェクトが何であれ、それが何であるかを正確に指定することをお勧めします。ここに入って詳細を編集できます。

Googleがこれを理解するかわかりませんが、この車のメーカーとモデルを知っているので、赤いスポーツカーと言う代わりに、赤い911 GT2 RSとブラックコードなどと入力します。これが基本的なメインポイントです。これを保存します。

より具体的なプロンプトによる改善

これを開くと、実際に更新されることがわかります。赤い911 GT2 RSと入力したので、これが初期画像であることがわかります。実際にこの他の画像に切り替える必要がありますが、この画像に切り替えると、はるかにクリーンな応答を得ることができます。

このプロンプトを生成すると、私が何を意味するかがわかります。被写体が実際にここにあることがわかります。キャラクターの一貫性で苦労している場合、オブジェクトや被写体の特定のメーカーとモデルを知っているなら、それをプロンプトに入れるよう本当に努力することをお勧めします

プロンプトベースの仕組みの理解

初期画像がずっと下にあり、それを編集したい場合は、赤い911 GT2 RSが見えます。基本的にこの画像をコピーするのは、車のメーカーとモデルが非常に具体的なので、このプロンプトを使用する際、直接画像をコピーしているのではないことを覚えておいてください。これは基本的にこれら3つのすべてを1つの完全なプロンプトにまとめます

全体のプロンプトは基本的にこれら3つです。本当にクールですが、将来的には実際に画像を一緒に融合できるように変更されると思います。ここでレイヤードペーパー赤い911 GT2 RSと実際に表示されているのがわかり、それが画像がここに来る理由です。

基本的にこれらの画像を説明しているだけなので、特定の製品や名前がある場合、これらの画像をより多く説明できれば、製品の一貫性の面ではるかに良くなります。

アニメーション機能

また、これらのビデオをアニメーション化することもできます。完全にあなた次第で、ここでアニメートをクリックできます。このアニメーションは現在Veo 2でサポートされていますので、ビデオ品質の面ではそれほどサポートされておらず、現在AIクレジットの10を消費します。これがVeo 2の高速版であることがわかります。

Veo 2は最小限のモーションはできますが、オブジェクトの移動や運転は得意ではないので、この場合はモーションコントロールにあまり多くを入れません。動作することはできますが、最良には見えません。この場合は、車が駐車されていて、カメラが車の周りを映画的に移動するだけと入力しました。

ビデオ生成の結果

実際にその車がここでどのように見えるかを見ることができます。シネマティックを見てみましょう。皆さんはどうかわかりませんが、私は本当にこれが気に入っています。モーションの一貫性がとても良く、これはモデルができることの本当に良いショーケースだと思います。

実際に生成について間違っていたようです。AIクレジットを持っているのに10生成しかないのは少し奇妙で、ここで実際に驚いています。しかし、これは実際に私の全体のプロンプトを成功させました。基本的に車が道路を走って、シーンから出ていくと言いました。

これは実際に私にとって驚きでした。なぜなら、Veo 2は通常ビデオ生成に関してはそれほど良くないからです。しかし、ここでのポイントは、このツールのアイデアは、これらの信じられないビデオを生成することではなく、主にいくつかのことをアニメーション化することです。

ツールの目的と活用法

Googleが示したデモを見てきましたが、ビデオクリップの多くは基本的にテキスト、マスコット、その他の小さな画像などです。クレイジーではありませんが、いくつかの環境、いくつかのスタイルを得て、異なる方法でプロンプトできる場合に何ができるかを示しています。

ファイルについては、プロジェクトで使用したい場合はすべてのビデオをダウンロードできます。新しいプロジェクトに移動すると、実際にプリセットを読み込むことができます。プラッシュプリセットやカプセルトイを読み込むことができます。

Googleからこれらの特定のものが欲しい場合は、これらを読み込むかどうかはあなた次第です。なぜこれらの1つか2つのものがここにあるのかわかりませんが、興味深いです。同時に、効果的にプロンプトできればWhiskは提供されると思います。特定のものがこれらのスタイルにどのように影響するかを見ることができます。

スタイル選択のコツ

スタイルについては、使用するスタイルに特定の背景があることを確認してください。キャラクターなどを生成しようとしている場合は、背景とアートスタイルがあることを確認してください。たとえば、この女性をこの背景でこのアートスタイルで生成することはできません。これは単なる白いフィギュアだからです。

プロジェクト共有機能

このWhisk全体で私が気に入っている本当にクールな機能の一つは、たとえば何かに取り組んでいて、本当にクールなものを発見したとします。ライブラリに戻って、その本当にクールな車を生成した方法を覚えているので、この車を生成したものに移動できます。

他のプロジェクトに移動して、本当にクールなことをお見せします。たとえば、その車を生成して「これは本当に気に入った、プロンプトなどをすべて理解した」と思った場合、実際にこのWhiskを他のユーザーと共有できます。基本的にその全体のレシピを共有して、他の人が独自の作品を作ることができます。

ソーシャルメディアでの活用例

これは、たとえばソーシャルメディアで、みんながアバターを何かに変更するトレンドや、みんながバナーを何かに変更するトレンドを作成したい場合に特に有用で強力です。

もちろん、このリンクを作成できます。開いたときに何が起こるかをお見せします。Googleは実際にこれをツイートして、基本的に「このWhiskレシピを使用して独自のGoogle Android IOボットを作成してください」と言いました。

このリンクをクリックすると、このようなことが起こります。この領域にプロンプトが表示され、「独自のものを作成」をクリックできます。独自のものを作成をクリックすると、何が変更されたかを見ることができます。たとえば、ここでは女性がいて、このスタイルになっていることがわかります。

このサイドエリアを開いて、やりたいことがあれば、自分のプロフィール写真を入力するだけで、このボットスタイルが得られます。最近のビデオからスクリーンショットを撮って、少し待ってから、画像を分析して、私の被写体を楽しいGoogle Android IOコレクタブルに変えると言います。

背景の重要性

これをクリックすると、基本的にこのスタイルを維持し、この被写体を使用して、基本的にそのスタイルでボックスに入れます。また、ここから見ることができるのは、たとえば背景がなく、実際にこれを中に入れる本当に特定の画像を維持したい場合、このプロンプトを取って、白い背景PNGと言うことができます。

今度はもちろん、まったく異なる画像を得ますが、これが最初のプロンプトの最初の目標を保持することをお見せします。Image-4にその処理をさせるために待たなければなりません。

この画像が表示され、もちろんこれを保持して、プレイをクリックすると、実際に元々望んでいたようにこのスタイルをボックスに入れることがわかります。被写体を使用する際の最善の策は、そこに背景を持たないことです。最善の策は、お持ちの画像に白い背景があることを実際に確認することです。

正確な選択の重要性

実際に私の間違いで、ここのこのボタンをクリックしなかったと思います。これらのボタンをダブルクリックして、黄色のチェックマークがあることを常に確認してください。そうすれば、実際にすべてを使用します。ここのこれらの画像は、実際に私が欲しかった正しい画像ではないので、削除できます。

被写体を使用する際は、その被写体が白い背景を持っているだけの方が多くの場合簡単です。Googleがその特定の被写体に焦点を当てて識別しやすいからです。

創作の楽しさと今後の展望

スタイルについては、もちろんスタイルがすぐにこの小さなフィギュアを作成することがわかり、もちろんGoogleと共有して「これを共有してくれてありがとう、試すことができました」と言うことができます。

全体的に、これは多くの異なることを行う楽しい方法だと思います。本当にクールに見えると思います。もちろん、異なるシーンを持つこともできます。たとえば、再び実際にはアイデアがありませんが、これを生成すると、何が思いつくかを正確に見ることができます。海の上の何らかのカーニバル/遊園地のように見えますが、間違いなくこれで実験できます。

画像生成プロンプトで苦労している場合は、このようなものがある場合、画像を作成するのがはるかに簡単だと思います。

このチュートリアルがお役に立てた場合は、下のコメント欄にコメントを残してください。できる限り返信するよう努めます。次回お会いしましょう。

コメント

タイトルとURLをコピーしました