OpenAIがまたもインターネットを席巻!(驚異的アップグレード!)

AGIに仕事を奪われたい
この記事は約11分で読めます。

6,304 文字

https://www.youtube.com/watch?v=6kkeuYHjClQ

OpenAIの最新の画像生成モデルを試してみましたが、これは自己回帰型の画像生成で、ディフュージョンモデルとは異なります。その結果は驚くべきもので、これまで見たことのないようなものです。いくつかのプロンプトを紹介しますが、他の画像生成ツールとは比較にならない結果が得られます。
まず最初に、この新しいツールとその使い方について説明します。これは「GPT-4o image generation」または単に「image gen」と呼ばれるもので、GPT-4oモデルの拡張版です。これは本当の意味で画像を生成できるようになっています。Stable Diffusionのようなディフュージョンモデルはノイズを作成してからそこから画像を生成しますが、これは真の自己回帰型なのでそうした処理は必要ありません。テキストを生成するようなものですが、テキストの代わりにピクセル、つまり画像を生成します。
公式サイトには素晴らしい例がいくつか掲載されていて、これが唯一無二の画像生成だと思わせるものばかりですが、彼らの言葉を鵜呑みにする必要はありません。いくつかの例を紹介するので、これがマーケティングや広告など様々な分野で大きな可能性を秘めていることがわかるでしょう。
最初のプロンプトから始めましょう。これは現在インターネットを席巻しているものです。非常にシンプルなプロンプトで、「これをジブリスタジオ風のアニメに変換して」というものです。入力画像は南インドの俳優の写真です。そうすると、画像の特徴をすべて保持しつつ、日本のスタジオジブリのようなフィルターやレイヤーを適用します。
これは著作権侵害になるのかという興味深い問題を提起します。OpenAIは意図的にこれを行ったと思います。日本では著作権のある作品でもAIトレーニングに使用できるからだと思いますが、これは非常に興味深い議論です。今の時点では答えはありませんが、社会として考えるべき問題だと思います。
このツールへのアクセス方法ですが、現在はChatGPT Plusユーザーが利用できます。Sam Altmanは数時間前に、無料ユーザーも1日8回まで利用できるようになると約束しました。使い方を紹介しましょう。新しいチャットを開始し、GPT-4oを選択します。そして「/」と入力して「image」をクリックすると、好きなことを言えるようになります。
例えば「AbdulMajidという名前の人のために、YouTube「One Little Coder」チャンネルを運営している人のLinkedInプロフィールカバーを作成して」と依頼できます。処理には数分かかることがあります。サーバーの負荷やGPUによって時間が変わると思いますが、一般的にこの種の画像生成技術は時間がかかります。
表紙デザインの例として、「WIP coding」というタイトルで「the best bucket of bugs」(最高のバグの山)という文言を入れて、One Little Coderの製品らしく作成して欲しいと依頼しました。すると非常に良い結果が得られました。次に画像を与えると、色の組み合わせや前の画像のバグを取り入れて「best bucket of bugs」と表示しました。本の表紙画像を作成したいなら、これは素晴らしい仕事をしてくれると思います。
最も興味深い点は、製品配置のための使い方です。ComfyUIやControlNetアダプターを使ったことがあれば、それらをすべて置き換えることができます。例えば、携帯電話の画像(ここでの唯一の間違いは、前面と背面の半分ずつを与えたこと)を入力し、「この電話を持って、オリーブを噛んでいる美しい女性モデルを作成してください」と依頼しました。これがChatGPTが考える「美しいモデル」です。美しいかどうかは見る人の目次第ですね。
画像を見ると、棒が曲がっていたり、電話が少し乱れていたりする変形がありますが、別の画像を与えてもっと良いものを求めることができます。これは素晴らしい機能で、どんな広告代理店にも行って「数分で製品配置を作成できます」と言えるようなものです。これは多くの企業が望んでいることであり、数秒で実現できます。
製品配置は人物のモデルだけではありません。例えば、マサラのパケット(インド料理に使用するスパイスパウダー)の画像を入力し、「ラジャスタニの老人がこれを持っているようにして、90年代風のインド広告に変換して」と依頼しました。コピーや人物、モデルなど何も与えず、このプロンプトだけで依頼したところ、「Masalo King」(マサラの王様)という文言を追加し、製品を老人の手に持たせ、まさに私が思い描いていた通りの男性を作り出しました。
注意深く見ると、小さいテキストに問題があることがわかりますが、大部分は非常に良くできています。与えた画像のサイズに対して適切に処理し、小さな部分を除いてほとんどの要素がうまく表現されています。新聞広告やウェブサイトの有料広告として使うなら、このサイズでも十分です。製品を入力し、プロンプトを与えるだけで完全な広告を作成できるというのは本当に素晴らしいことです。
次に、UIデザイナーやDribbleなどのプラットフォームを利用している人なら、「iPhoneで「Little Coder Labs」というSaaSのUIモックアップを作成して」というプロンプトを入力できます。すると、iPhoneの画像と、その中に欲しいものを作成してくれます。この場合、私は画像や何も与えず、Little Coder Labsについて自然に理解して考えて欲しいと依頼しました。すると、iPhoneの画像とUIを完璧な製品フレームで作成してくれました。
また、これを使って人々を騙すこともできるかもしれません。オンラインデートでの「catfishing」(詐欺)など、すべてが台無しになる可能性があります。Instagramのプロフィールページ全体を作成できるのです。「2024年のJemma Scoutという女性のInstagramプロフィールページを見せて」とだけ言えば、Jemma Scoutという女性のInstagramプロフィールを作成してくれます。自然にこの女性はブロガーで写真家、自然と旅行が好きと想定し、jemascout.comというウェブサイト(実際には存在しない)を表示し、投稿560件、フォロワー14,000人、フォロー中732人と表示しています。
私にとって最も驚くべき点は、この架空のJemma Scoutの写真を異なる場所で、Instagramにアップロードされたであろう写真を作成し、キャラクターの一貫性をできる限り維持したことです。プロフィール写真に登場する女性とアップロードされた写真の女性が似ているように努めています。Instagramプロフィールの作成を依頼すると、そのプロフィール内にアップロードされた画像も関連性があるべきだという理解があり、これは非常に魅力的だと思いました。
Instagramができるなら、LinkedInでも人を騙せます。これはLinkedInのGemma Scoutで、「6年以上の経験を持つ情熱的なプロダクトマネージャー」と表示されています。ここで見るすべてのテキスト、一字一句すべてがOpenAI GPT-4o imageで生成されたものです。私が編集したものではなく、画像生成から直接出力されたものです。これは今まで見た中で最高のキャラクター生成の一つだと思います。
OpenAIの例を見ても、このプロンプトは非常に長いものです。「ベイブリッジを見下ろす部屋のガラスホワイトボードの電話で撮影された幅広い画像。視野には大きなOpenAIロゴのTシャツを着た女性が書いている」というようなプロンプトで、すべてがゼロショットで作成されています。
これを見ると、このツールがどの程度検閲されているのか考えるかもしれません。通常、OpenAIや大企業が何かをリリースする際には検閲が行われますが、この場合はそうではないようです。
LinkedInプロフィールカバーを作成した例に戻りましょう。AbdulMajidという名前を指定したので、自然に茶色の肌の人を想定したようです。驚きましたが、実際に私は茶色の肌なので問題ありません。YouTubeの動画では眼鏡をかけているので、YouTubeロゴ(非常に良くできています)、Abdul Majidというフォント、One Little Coderの表示があり、欲しいものをすべて与えてくれました。これはLinkedInのカバー写真やプロフィール写真として使えるもので、グラフィックデザイナーを雇ったり、PhotoshopやPhotopeaを開いたりする必要なく、単一のプロンプトで作成できます。これはすべてゼロショットで行われ、他にもできることがたくさんあります。
検閲について話していましたが、例としてApple TVの「Severance」というショーを取り上げ、「Severanceの本の表紙を作成し、1900年代の本のようにして」と依頼しました。高度に検閲されていれば、ディズニーの画像や他のものを通常これらのツールは生成しないため、これは実行されないはずですが、非常に良い仕事をしました。
検閲についてさらに一歩進めると、次のような画像を作成しました。「イーロンマスクがアイスクリームを求めて泣いている写真を、マクドナルドの格好をしたドナルド・トランプの前で作成して」と依頼し、これが生成された画像です。イーロンマスク、ドナルド・トランプ、アイスクリーム、マクドナルド、すべてが含まれています。これ以上求めることはできないでしょう。ほぼ95%無検閲だと言えます。明らかにNSFW画像は作成できませんが、創造的に良い画像を作成したい場合、検閲を気にしたくない場合、これが最高だと思います。検閲や、このような画像に関して、Midjourneyは比較になりません。OpenAIがこれで成し遂げたことは非常に興味深いです。
次に、人間の写真とドレスを与えて、それを着せるように依頼することもできます。このプロンプトは、特にモデルがインド人でない場合に効果的で、白人に対しては非常にうまく機能します。ここではインドの有名企業のCEOであるKunal Shahの写真を使いましたが、最終的な出力はほとんど似ていません。インド人でない方には似ているように見えるかもしれませんが、インド人からすればメガネとヒゲ以外に類似点はほとんどありません。体の姿勢は維持されていますが、痩せた男性から少しがっちりした男性に変更されています。他の肌の色に対してはうまく機能するかどうか確信が持てません。
次の興味深いことは、新聞記事も作成できることです。「ジブリスタジオがOpenAIを著作権侵害で訴えている新聞記事を作成し、いくつかの馴染みのある顔を追加して」と依頼しました。ここでも資産、コピー、追加する画像を何も与えませんでした。すると、ジブリスタジオの創設者の画像が追加され、「ジブリスタジオがChatGPT作成者を著作権侵害で告発」という見出しの記事が作成されました。これをLinkedInに投稿したら、半分の人は本物の新聞記事だと信じるでしょう。まるで本物のように見えます。前述の通り、ここのすべてのテキストはレンダリングされたもので、Photoshopなどで追加したものではなく、すべてChatGPT 4o imageによって生成・レンダリングされています。
他にもできることはたくさんあります。例えば、理解力をテストして何かを作成できるかどうか試すこともできます。「すでに満杯のグラスに水を注ごうとするとどうなるかを表示して」というプロンプトを与えました。ここで期待されるのは、満杯のグラスに水を注ぐと何が起こるかという状態を理解して作成することです。結果として、満杯のグラスから水があふれる様子が非常にうまく表現されています。
できないこともいくつかあります。例えば、「時間が5:30を示すアナログ時計を作成して」というプロンプトを与えてみましょう。これはOpenAIがまだ解決していない問題の一つで、おそらくモデル作成時にこのトレーニングデータセットにあまり焦点を当てていなかったのでしょう。ほとんどの場合、成功するかどうかは半々で、失敗することが多いです。
他にも様々なことができます。現在、インターネットではこのツールでできることに熱狂しています。家族の写真など自分の写真を使ってみることができます。イーロン・マスクの写真を取得して「これをスタジオジブリ風にして」と依頼すると、美しく可愛らしく素晴らしい画像が作成されます。家族がいる方は、ぜひ試してみてください。
先ほど「時間が5:30を示すアナログ時計を作成して」というプロンプトを与えましたが、結果は5:30とは全く似ていません。時計自体は美しく、デザイン、フォント、タイポグラフィは良いのですが、針をうまく処理できていません。これは私が見つけた問題点の一つです。
二つ目の問題点は、製品配置の際にテキストの変形が発生することがあるということです。うまく処理できないことがあります。
三つ目の問題点は、インドの肌の色や他の肌の色を持つ人の場合です。インド人で試してみましたが、インドの肌の色をうまく処理できませんでした。
ただし、他にもComfyUIで行っていたような、画像を取得して変換するなどのすべての処理が、今は一つのUI内で行えるようになりました。ChatGPTのUIだけで処理でき、Plusサブスクライバーなら非常に寛大なレート制限があると思います。これまでレート制限に達したことがなく、熱心に試し続けています。
最後に、著作権やその他の情報について議論すべきです。最近、AIで生成された画像に著作権を主張できないという米国のコード規則を見ました。いずれにせよ、商用製品として使用する場合、まだAPIとして利用できませんが、これは多くの異なる製品やサービス、特にエージェンシーを運営している場合、マーケティングエージェンシーである場合、コピーと広告を作成したい場合、製品配置を行いたい場合などにとって、最も手に入れやすい成果の一つになるでしょう。
この入力画像を見てください。「Made on Earth by humans」と書かれていて、眼鏡をかけた子供とイーロン・マスクなどが映っています。非常に良い仕事をしています。背景にはあまり色がありませんが、入力として与えたものに対するこの出力は正直なところ素晴らしいです。AIによって作られたとは信じられません。
著作権情報についてはさらに調査する必要がありますが、現時点では高度に検閲されておらず、インターネット上で最高の製品の一つです。問題なく動作し、驚くべき結果を出しています。
すでに試した方は感想を教えてください。まだ試していない方は、ぜひ試してみることをお勧めします。無料プランでなく、画像をテストしたい場合は、お知らせください。喜んであなたの画像を受け取り、家族の写真などがあれば、それをいくつかのスタイルの画像に変換してお返しします。
また別の動画でお会いしましょう。Happy prompting!

コメント

タイトルとURLをコピーしました