ChatGPT 4oの画像生成機能がインターネットを席巻する

AGIに仕事を奪われたい
この記事は約11分で読めます。

6,530 文字

ChatGPT 4o image generation is going to BREAK the internet
Today we try gpt-4o image generation and it blows our minds. Let's see how far we can push it.Important: This channel is...

みなさんこんにちは、Future Crewへようこそ。AIの世界では非常にエキサイティングな一日となりました。長らく待ち望まれていたGPT-4oの画像生成機能がついに登場しました。これは約1年前のGPT-4oモデル発表時に最初に告知されたものです。私たちはDALL-Eに代わるこのネイティブ画像生成機能を待ち望んでいました。より優れたシーン理解、世界理解、コンテキスト理解、そして画像のコンテキストを将来生成されるコンテンツにパイプで接続する機能などの改善が約束されています。とても楽しみにしていますし、何ができるのか見ていきましょう。
まず最初に行うのは、私たちが提供した画像からのスタイル変換についてです。非常に印象的な機能です。ここで写真を使い、それを出発点として、ファミリーガイのスタイルで生成するよう依頼します。そこから、同じ会話の中で一貫性を保てるかどうかを確認し、一種のストーリーボードを作成していきます。追加の例を与えながら、その初期結果がどのようになるか見ていきます。非常に有望そうですね。
では、実際にやってみましょう。写真を撮影して転送し、そこから始めます。画像が読み込まれました。私のアパートのセットがもう少し見えていますね。最初のステップは、AIにこれをファミリーガイスタイルに変換するよう依頼することです。ファミリーガイスタイルを選んだのは、私たちがそれを好きだからであり、また非常に認識しやすいため、どれだけうまくできたかが分かりやすいからです。
依頼を送信しました。また、ストーリーボードのフェーズで名前で自分たちを参照できるように、左がディランで私が右にいるという追加コンテキストも提供しました。そうすれば、実際に画像を生成する際にこれらの指示に従うことができるでしょう。起動中というUIが表示されています。画像の生成にはかなり時間がかかります。通常20〜30秒ほどかかります。現在多くの人が使用しているためかもしれませんが、開始するまで少し時間がかかります。
それから画像が表示されるときに、ほぼ不透明な感じがして、徐々に上から下に埋まっていくのが分かります。ここから編集しますが、これがユーザーインターフェースの様子です。今、高詳細モードでストリーミングされているのが見えますね。すでにクラシックなファミリーガイのアニメーションスタイル、クリーンなライン、大きな目などが見えています。
前回テストした写真では髭が少なかったのですが、今回の私の無精ひげの描写が興味深いですね。ストリーミングが終わったら元の画像を引き出して並べて比較してみましょう。ここでの一貫性は信じられないほどです。服の色はすべて正確で、顔の形もほぼ正確です。
元の画像がこちらで、並べて表示するのは少し難しいですが、画面で見ることができます。サイズや寸法に関して少し創造的な自由度を持たせていますが、実際のアニメーションで見られるような適切なサイジングになっています。素晴らしい最初の画像ですね。
次に、さらに挑戦してみましょう。この一貫性を保てるかどうか確認します。新しい要素を導入して、ほぼストーリーボードのように展開していきます。次のプロンプトを設定しましょう。
今度は、キャラクターをストーリーボードに変換するよう依頼しています。最初に起こることは、ファミリーガイの古典的な場面で、悪の鶏が部屋に飛び込んでくるというものです。基本的にはそのガイダンスを与え、ストーリーボードモードに移行するためにアスペクト比の変更も依頼しました。新しいキャラクターを導入し、指示に従い、そして最も重要なのは、前の生成から引き継いだキャラクターと設定の一貫性を保てるかどうかを確認します。
結果が返ってきました。良くできています。最初に生成された画像までスクロールすると、座っている姿勢、服の色、緑のカーテンなど、一貫性が保たれているのが分かります。今回はジェイコブに口ひげが付いているので、ある種の顔の毛が移行したようですね。鶏がドアから入ってくる様子も良く描かれています。
次のフレームに移りましょう。最初のフレームではかなり詳細な指示を与えましたが、モデルが物語を通して作業していることを認識したところで、次に何が起こるかだけを尋ねてみます。これは、テキスト生成、画像生成、そして将来的には同じライン上での音声生成といった好循環を示すためです。これにより、完全なマルチモーダルなストーリー生成に近づいています。
「次は何が起こる?」という簡単なプロンプトで、ここでもモダリティを強調しています。このフレームが「フレーム2」であることを覚えており、まるで実際のショーのようにセットアップしようとしています。ここから「それをストーリーボードに追加してください」というように進めることができます。このような形でもフォローアップできることは素晴らしいですね。最後に「そのフレームを生成しますか?」と聞いてきました。
「はい」と答えましょう。また、最近のパーソナルなバージョンのモデルがより面白くなっていることに気づきました。特に楽しませることを許可すると、より面白くなります。
「はい」と言っただけで、コンテキストから画像を生成する意味だと理解し、そのプロセスを開始しました。チャット履歴とチャット理解の量がこの機能では非常に良いようです。
応答が返ってきました。非常に印象的です。このような種類のものでは常に一貫性の欠如が見られますが、この例では、私はトーフのセリフがディランからのものであるはずが、私からのものになっているようです。しかし、その一貫性は依然として私たちが慣れているものよりも桁違いに優れています。キャラクターは同じで、テキストは完璧にレンダリングされており、キャラクターの上に正しく表示されていますが、すべてのインスタンスで正しいキャラクターではないかもしれません。
場面は一貫性を保っており、これは本当に信じられないほどです。これは私が初めて見たテキストで、テキストは完璧に揃っており、吹き出しも本当に印象的です。一貫性の欠如はなく、いくつかの視覚的なアーティファクトの問題がありますが、ファミリーガイのスタイルについては完璧です。
もう1つか2つやってみて、会話を継続でき、一貫性を保てることを証明してみましょう。一発屋ではなく、会話を通じて一貫性を保てることを確認します。私のテストでは、会話が長くなればなるほど、テキストの吹き出しが間違った人の上にあったり、ひげが口ひげに変わったりといった小さな奇妙なことが増えてきますが、大まかな部分、つまりキャラクターとその服装は同じままである傾向があります。これからも注目していきましょう。
かなりオープンエンドなリクエストをしています。「殴り合いが始まる」と言って、それをどう解釈するか見てみます。
素晴らしいですね。画像が生成されました。ここでも小さな視覚的な問題があります。目が消えていて、ジェイコブの顔の毛も再び消えています。次のプロンプトでは、「戦いがエスカレートし、通りに移動する」と言っています。ここでテストしたいのは、キャラクターの一貫性を保ちながら、環境を変更できるかどうかです。
緑のカーテン、ソファ、元の写真にあった他の種類のAR効果を維持しています。今、上部には茶色のレンガの建物などが見えてきています。NYCの通りであることを理解し、私の髪型や顔の毛のレベルを決めかねているようで興味深いです。私のひげ以外のすべてが一貫しているのは本当に不思議です。理由があるはずです。
街の通りに移動し、まだ殴り合っており、比較的一貫性があります。色も正確です。もう一つのチャレンジモードをやってみましょう。この戦いをまとめられるかどうか見てみたいと思います。複数のコマが1つの完全な画像に入った、マルチペインのコミックセットアップを依頼します。
エスカレートして終わらせるよう依頼していますが、初めての印象として興味深いのは、アイデア出しや行ったり来たりするのにこれを使えることです。創造性の部分を使って「どうなると思う?」と尋ねることができます。これはストーリーボードや実際のコンテンツ作成などに非常に価値のあるツールになるでしょう。ストーリーボードだけでも、最初の印象として本当に素晴らしいです。
画像の生成が終わりに近づいていて、私が半分鶏になっています。これは確かにチャレンジモードでした。マルチステージコミックを作るというリクエストに応じ、下部に2つを含む5つのパネルを作成しています。しかし、画像を開くと、以前に比べて一貫性が失われているのが分かります。下部左の人物はすべて崩れており、私のキャラクターは鶏と融合し、重複もあります。
視覚的な不一致が多くありますが、1回で複数の画像を入れようとするのは確かにより挑戦的なモードでした。メモリーが過負荷になるようです。それでも、他のモデルでは見られなかった、あるいはこの新しいネイティブ画像生成モデルでしか見られなかった高レベルの一貫性が見られます。
Googleの画像生成に関するビデオもチェックしてください。機会があれば比較もします。また、非常に興味深い世界理解も見られます。戦いが起きたので、最後のフレームではディランのパンツが乱れているべきだという理解です。このマルチモーダルな世界理解は今後さらに良くなるでしょう。
すぐに、すべてが一貫性のある5コマや6コマのコミックが得られるようになり、目が消えたり、キャラクターが重複したりすることはなくなるでしょう。これを失敗とは呼べません。世界理解についての挑戦でしたが、そこでは成功し、さらに良くなっています。2年前のDALL-Eなどを思い出すと、すべてのオムニ機能が動作しているこの状態は大きな違いです。本当に印象的です。
将来的にはゲームや他の種類の一貫したコンテンツを作成するための使用法についても検討するビデオを作成する予定です。これだけでも「これを試すべき」「あれを試すべき」というアイデアがたくさん生まれています。ぜひチャンネル登録して、ベルをクリックし、フォローしてください。
次に、全く新しいものを生成してみます。チャンネルの説明と以前のサムネイルをいくつか提供し、「ネイティブ画像生成機能を示す、このビデオの新しいサムネイルを生成してください」と依頼します。これも少し難しいリクエストです。以前行っていたことを理解し、一貫性のあるものを作成できるでしょうか?おそらくテキストなども追加する必要があるでしょう。これは初めて試すので、どうなるか見てみましょう。
「ChatGPT 4o」という文字が見えます。私たちの写真リアルなバージョンが含まれるかどうか気になりますが、ここではそうではないようです。待ってください、右側にあるのは何でしょう?ランダムな人物を生成しているのでしょうか?いいえ、それは私かもしれないし、私たちの組み合わせかもしれません。それは実際に恐ろしいです。私とクリスの部分の組み合わせのようです。何てこと!
これが完成すると、正直言って悪くないサムネイルです。ChatGPT 4oの部分はネオンっぽくなっていて、私たちをブレンドしています。クリス、ジェイコブ、そしておそらくディランも混ざっているようです。それは本当に恐ろしいですが、私たちが依頼したことをやってくれました。提供したサムネイルはすべて同じではなく難しいのですが、レンガやネオンを理解し、テキストを追加しています。すでにChatGPT 4oを表示したいということを理解しているようです。非常に印象的です。
次に、特定のサムネイルを1つ与えて、「より魅力的にできますか?」と尋ね、フォトリアリズムやその他の面でどうなるか見てみましょう。最近のサムネイルを取り出し、エンゲージメント率を最適化するよう依頼しました。画像生成が多いチャットに慣れすぎていて、理解できるように画像の分析を行っています。これは素晴らしいことです。なぜなら、この分析の後に自分の提案を実装するよう依頼できるからです。
最後に「これらの改善を適用して新しいバージョンを提供しましょうか?」と聞いてきたので、オープンエンドな形で依頼できたのは素晴らしいことです。これで長いプロンプトと一部のアイデアが得られ、それをクロスリファレンスすることもできるでしょう。
これは本当に…このサムネイルがクリックを集めるだろうと思うのが嫌ですね。このサムネイルをどこにも置きたくないですが、クリックを集めるというのは恐らく正確です。かなりケバケバしい感じで、一種のフィルターが適用されています。上にスクロールすると、ジェイコブが同じシャツを着て上を見ている様子や、クリスがこちら側を見下ろしている様子など、一貫性が保たれています。
「AI Wars」「ChatGPT 4o vs Gemini 2.5」というテキストもあり、Googleのロゴさえも作成しています。テキストも一貫しており、このような種類のサムネイルによく見られる黄色っぽいフィルターを適用しています。
特に印象的なのは、実際の写真編集者がするようなことをしたことです。私とクリスをペーストしたレイヤーを取り、エッジの周りに赤い光の漏れを置き、クリスの髪の上にも置いています。実際にリアルに見えるのが本当に印象的です。一方、私の方は編集が行われたことが少し明らかですが、これはかなり驚異的です。
これがとても順調なので、さらにいくつか試して、チャンネルに役立つものが得られるかどうか見てみましょう。高レベルのチャンネル情報でプライムされている他のチャットに戻り、ステッカーパックやTシャツなどのアセットを依頼してみます。
同じ種類のもの、いくつかのサムネイル、トップバナーを提供し、チャンネルの雰囲気に合ったアセットを作成するよう依頼しています。まずはFuture Crewのマーチャンダイズ、特にTシャツのデザインから始めます。どのように作成されるか見てみましょう。
バナーからテキストのスタイリング、色、青、黄色、赤を見つけましたが、Tシャツに合うように修正しました。フォントを維持しつつ、「TFC」というロゴも作成しています。これだけでも大きな変化です。素晴らしく、モックアップを作成し、すでにこれをShopifyなどに掲載することができます。
これは私がDALL-Eのデモを初めて見たときを思い出させます。DALL-Eが最初に登場したとき、ページ上の例の1つは「アボカドチェア」でした。それは信じられないと思いました。AIがこの新製品を基本的に画像生成によって設計していると思ったからです。もちろんアボカドチェアは存在するかもしれませんが、それはあなたの心を開かせるものです。
もしそれが青写真を生成できるなら、もはや単なる画像ではなく、そこにはより多くの価値があります。これもそのような瞬間の1つです。もしこれらのシャツが欲しいと思ったら教えてください。私も欲しいと思っています。
そして、これが全く時間をかけずに実現したという事実、私たちはただいくつかのプロンプトを与えただけで、ここでの理解の量が大きな変化です。以前のアボカドチェアは「それは面白い」と思っても実生活への翻訳が難しかったのに対し、私たちにとっては「これは私たちのチャンネルだけど、これらのことについて考えるのを手伝ってくれる?」と言うことができ、そこから設計をさらに進めることができます。本当に印象的で、少しショックを受けています。
これは非常に印象的なリリースであり、遊ぶのが本当に楽しいです。実際にこれをもっと試してみたいと思います。このリリースをどう感じたか、クールな機能を見つけたかどうか教えてください。ぜひフォロー、チャンネル登録をお願いします。すぐに多くのビデオを公開する予定なので、ぜひフォローしてください。視聴ありがとうございました。

コメント

タイトルとURLをコピーしました