
2,286 文字

世界にこんな写真を加工できる?「この写真に黒い巻き髪を追加して」。おお、巻き髪のTシャツをブルーのジャケットに変えました。すごい!「Apple Vision Proを追加できる?」「彼の隣に猫を追加できる?」
これはPhotoshopの殺し屋とも言えるものです。これはGoogleの新しいモデルで、Google Gemini 2.0 Flash Experimentalと呼ばれています。このビデオでは、数百のプロンプトを試した後、過去2〜3日間でこのモデルについて学んだすべてをお伝えします。
このモデルはネイティブの画像編集機能を備えています。これは大規模言語モデルであり、自然にマルチモーダルモデルです。つまり、テキストだけでなく画像も生成できます。だからこそ、このモデルは先ほどお見せしたようなことがすべてできるのです。
どうやってこのモデルにアクセスするのでしょうか?最も簡単な方法は、AI studio.google.comにアクセスして、新しいプロンプトを作成することです。その後、モデルセクションに移動し、プレビューセクションに移動して、Gemini 2.0 Flash Experimentalを選択します。
このモデルを選択すると、このモデルがマルチモーダル理解とマルチモーダル生成が可能だと表示されます。モデルを選択した後、出力フォーマットというものがあります。そこには2つのオプションがあり、1つはテキストオプション、もう1つは画像オプションです。画像とテキストを選択してください。これを選択すれば、素晴らしい体験が待っています。
非常にシンプルなものから始めましょう。基本的な「犬のピクセルアートの基本的な画像を作成してください」というプロンプトから始めます。これは他のツールでもできることですね。次に私がやるのは「同じ犬のスプライトシートを作成して、歩行と走行のプロセスを表現して」と言うことです。
同じ画像を使用しています。微調整やLoraを使用せず、同じ画像でキャラクターの一貫性を保ちながらスプライトシートを作成しました。このスプライトシートをダウンロードして、スプライトシートアニメーターに持っていけば、フレームを変更してアニメーションを作成するなど、好きなことができます。
次は新しいプロンプトを作成して「クロワッサンにチョコレートドリズルを追加して」と言います。すると、チョコレートドリズルが追加されます。さらに「レインボースプリンクルも追加できますか?」と言うこともできます。画像編集の品質が並外れていることがわかります。
人間の写真での操作方法も見てみましょう。人間の写真では難しいと思うかもしれませんが、その方法をお見せします。この画像をコピーして、新しいチャットに貼り付けて「この画像の背景を削除できますか?」と言います。違いは背景削除だけではありません。「火星の背景を追加できますか?」と言うことができます。
画像の対象や主題を維持しながら、背景を変更して何でも追加することができます。Demis Hassabisを火星に置きました。人間の画像ではあまり上手くいかないことがありますので、安全設定をオフにする必要があります。すべての安全設定をオフにすれば、多くの場合かなり良い結果が得られます。
トーチを持たせましたが、少し変です。「トーチをオリンピックトーチに変更できますか?」これがオリンピックトーチかどうかはわかりませんが。
次に、製品プレイスメントに使用できるさらに良い例をお見せします。今回はDemis Hassabisではなく別の人を試してみたいと思います。「ソーシャル・ネットワーク」でマーク・ザッカーバーグを演じた人気俳優のジェシー・アイゼンバーグを使います。彼の画像をコピーします。
そして、くまのプーさんを加えます。「男性にテディのおもちゃを持たせてください」と言います。面白いことに、ジェシー・アイゼンバーグではなくマーク・ザッカーバーグが追加されました。予想外のことでしたが、AI生成画像があれば、このような製品プレイスメントができます。
この女の子の画像を取りましょう。おそらくAI生成の女の子だと思います。この画像を貼り付けて「笑顔で親指を立てた彼女の画像を作成してください」と言います。Stable Diffusionの微調整やLoraなどを使用しているわけではありません。そして笑顔で親指を立てた女の子の画像ができました。
OpenAIが以前に広めた有名なプロンプトの一つは、何かを扱おうとしている男性の画像で、この画像のすべてがAI生成されています。私がやったのは、この画像をChatGPTに与えてプロンプトを作成させることです。ここで詳細な画像のプロンプトを試してみると、画像とグラフが表示され、モダリティ間の転送などのすべてが表示されています。
コンピュータビジョンや3Dモデリングに興味があれば、もっと多くのクレイジーなことができます。例えば、この写真をアップロードして「これの3Dモデルを作成して」「メッシュ画像を作成して」と言えば、メッシュと3D画像が得られます。
最後にもう一つ、このような塗り絵を選んで、画像をコピーしてここに貼り付け、「虹色にして」と言えば、基本的にどんな画像でも好きなように加工できます。これらすべてが、AI Studioを搭載したGoogle Gemini 2.0 Flash Experimental内のネイティブLLMサポートで可能です。これは驚異的です。ぜひ試してみてください。


コメント