OpenAIの新しいImageGenは予想外に素晴らしい…（Reve、Imagen 3、Midjourneyなどとの比較）

4,953 文字

OpenAI’s New ImageGen is Unexpectedly Epic … (ft. Reve, Imagen 3, Midjourney etc)

I’ve spent quite a while testing the new 4o ImageGen from OpenAI, and comparing it to models released just yesterday, li...

私はOpenAIの新しい4Oイメージ生成を相当時間かけてテストし、昨日リリースされたモデルや、まだ一般公開されていないモデルとも比較しました。AIの分野で一つのモデルが他のモデルをここまで上回ることは珍しいです。もちろん完璧ではなく、モデルに鏡を見せるようなことはしないでください。完全に混乱してしまいますから。この新しいイメージ生成について思い浮かぶ言葉は（「新しい」と呼ぶのは少し無理があるかもしれません。2年以上開発されてきたものですから）「従順さ」です。
「6つの全く異なる民族の6人が、ジャズハンドのポーズをしている様子を描いて」というのが私のプロンプトでした。後ろの人の手がよく見えないと言えばその通りですが、悪くありません。AIにとって手が大きな問題だったのはつい最近のことを考えてみてください。Sam Altmanが「ChatGPTの画像機能」と呼んでいるこの新ツールは、無料ユーザーを含む全ユーザーが利用できるようになり、APIにも提供される予定なので、専用の動画を作るに値すると思いました。Reve、Midjourney、そして別のモデルも紹介しながら比較してみます。また、このモデル特有ではありませんが、画像編集についても触れます。GoogleのAI StudioのGeminiでも同様のことができますが、それでもレベルが一段上です。
最初の比較はかなり啓発的だと思います。使用したプロンプトは「青い3本足の象の鼻の上に3つのリンゴが乗り、チュニジアのエルジェムで5本の柳の木の横に立っている」という非常に難しいものでした。モデルは信じられないほど上手く対応しました。私が訪れたエルジェムのコロッセオを捉え、青い象、鼻の上に3つのリンゴ、そして画像によっては5本の木が描かれています。数え方によっては違うかもしれませんが、背景にもっと多くの木があります。寛大に見れば、これらの1、2、3、4、5は正確です。また、影の一貫性もかなり印象的ですが、象の3本足については描けていません。これは私の常識的推論ベンチマーク「Simple Bench」のような状況で、象が3本足というのは一般的なシナリオの変化であり、モデルはそれを予期せず、対応できません。単に象が通常の4本足である画像で訓練されすぎているのです。
Googleの最高の文章から画像へのモデル、Imagen 3もやや苦戦しました。象は3本足ではなく、リンゴの数も間違っていて、全てが鼻の上にあるわけではなく、場所の雰囲気もあまり伝わってきません。次に、以前「Half Moon」というコード名で呼ばれていたReveをテストしたかったのですが、この会社は世界最高の画像モデルだと主張しています。私の言い方をすれば、非常に優れています。4Oイメージ生成がなければ、おそらく世界最高の画像モデルだと言えるでしょうが、今のところこの特定のプロンプトでは2番目と言っておきます。見える限りでは4本の木しかありませんが、非常に良い画像で場所の雰囲気も素晴らしいので、Reveを好む人もいるかもしれません。リンゴの数が間違っていることが若干多いですが、時折の影の問題はあるものの、全体的に画像は非常に鮮明で魅力的です。ここではReveに大きな称賛を送ります。
次に、明日リリースされるモデルの先行公開をお見せします。これは素晴らしい画像だと思いますが、私が目指していたものとは少し違います。それでも非常に興味深いものです。このモデルから生成された画像はどれも似たようなもので、魅力的ではありましたが、私が探していたものとは少し違いました。
次のテストは良いかもしれません。オンラインでは多くの比較を見ることができると思いますが、私はメタレイヤーをもう一段階上げたいと思いました。全てのモデルに「hold your horses（馬を抑える＝落ち着け）」というイディオムを描写するよう依頼しました。これは視覚的に文字通り馬を抑えるだけでなく、「落ち着け」という比喩も表現しなければならない非常に難しいテストです。OpenAIの4Oイメージ生成だけがこの比喩を理解し、全ての画像で適切に表現しました。さらに、素晴らしいテキストも提供してくれました。Reveは画像の細部に多少問題があるだけでなく、どの画像でもこの比喩を理解していませんでした。GoogleのImagen 3はこれを全くできませんでしたし、ご覧のように、Midjourneyもできませんでした。
次は比較ではありませんが、4Oイメージ生成の能力を非常によく示していると思います。私の典型的なサムネイルを4Oイメージ生成に与え、「3Dにして」と指示しました。Anthropicのロゴが少し例外的ですが、全体的な結果は非常に印象的だと認めざるを得ません。一瞬、おそらく「stumbles」の隣の小さな線を除いて、テキストが驚くほど正確であることに注目してください。そして右上のこの画像を見てください。ズームインしますが、私のサムネイルからインスピレーションを得た、水から出てくるクジラの効果は非常に印象的です。
今すぐに伝統的なサムネイル作成方法を捨てるとは言いませんが、先日リリースした新しいPatreon動画（Claude 3.7が心の理論を持ち、テストされていることを知っているという内容）では試してみたいと思いました。既存のサムネイルを取り、4Oイメージ生成に通して何が出てくるか見てみました。ご覧のように、壁に投影されているラボのような画像が出てきました。通常、AIサムネイルは好きではありませんが、これは初めて私を魅了したツールかもしれません。
次のテストはChatGPTでのイメージ生成の最も一般的なユースケースになると思います。キャプション付き画像や基本的なインフォグラフィックと呼べるもので、これは非常にうまくいきました。「人間の一生の段階を示す4パネルの旅」を描写するよう依頼しました。その旅を各パネルで表現してくれただけでなく、依頼していないラベルも付けてくれました。今気づきましたが、完全に完璧ではなく、右上の「elderly」のスペルが間違っています。しかし、これらの一部について明らかな間違いがあると言うのは難しいでしょう。
UIが気に入っているため、これらのテストは全てSora上で行いましたが、もちろん画像編集も忘れてはいけません。これは他の画像生成ツールでは利用できないか、余分な手順が必要ですが、画像機能付きChatGPTではそうではありません。これらの画像の一つを選んで「各キャラクターにメガネを追加して」と言ったところ、元の画像は保持されたままメガネが追加された画像が得られました。
他の全ての画像生成ツールは「人生の4段階」に問題がありましたが、Reveが最も近いものを作りました。21歳から81歳までの全てをスキップしていますが、悪くありません。Midjourneyは超メタファー的で芸術的でしたが、私は「人間の人生」と言ったのに、ここに人間が見えません。未公開のモデルは全く別の方向に行き、私はそれが好きですが、少し混乱しています。
GoogleのAI StudioでのGemini 2 Flashによるネイティブな画像生成と編集について話す機会を逃しましたが、今チャンスがあります。比較はあまり好意的ではありません。同じく「人間の一生の段階を示す4パネルの旅」を依頼し、これを得ました。これを見ると、私が生まれる前は背中に棒が刺さったロボット犬だったのかと疑問に思います。画像を編集して「右の赤ちゃんを老人に変更して」と言ったところ、これが得られました。
いくつかの免責事項として、何回か画像生成が拒否されたことがあるので、新しいイメージ生成にはフィルターがあります。GoogleのCEOとOpenAIのCEO、Sam Altmanの写真を提出し、「この2人を腕相撲させて」と言ったところ、彼らの外見の忠実度は完璧ではありませんが、左上の画像は悪くありません。この生成は拒否されると思いましたが、そうではありませんでした。フィルタリングが若干少ないことが良いことかどうかはコメントで教えてください。私にとって真の安全性は、生物兵器やサイバー兵器などに関するものです。それが、説明欄のリンクからGrace One Arenaに参加できる（そしておそらく参加すべき）理由です。モデルのジェイルブレイク、これらの種類のことができるかどうかのテスト、そして今では視覚的な脆弱性（提出する画像によるモデルの破壊）に興味や適性がある場合、あるいは大きな賞金プールに興味がある場合は、説明欄のリンクをチェックしてください。お気づきかもしれませんが、賞金プールはちょっと制御不能になっています。
気になる方のために、これをSoraで行っているので、どんな画像でも動画に変換できますが、正直あまりお勧めしません。ストーリーボードを使用していても、結果は生き生きとしたものではありません。
異なる民族の6人がジャズハンドをしているのは、イメージ生成から見た最も印象的な出力の一つでした。主な理由は、これが昨年や一昨年のイメージ生成モデルの顕著な弱点だったことと、この特定のプロンプトで他のモデルよりもはるかに優れていたことです。Midjourneyは苦戦し、GoogleのImagen 3は完全に拒否し、Reveは悪くなかったです。6人の異なる人々がいますが、これをジャズハンドとは正確には呼べないでしょう。
もちろん言及しなければならないのは、ChatGPTを使って画像を生成する場合、通常他のモデルよりも遅くなるということです。もう一つのテストを紹介します。「難しいウォーリーを探せ（イギリスではウォーリーをウォリーと呼びます）スタイルの画像を作成し、視聴者が何を探すべきかを伝えるイタリック体のキャプションを付けてください。解決するのに少なくとも10秒かかるはずです」と依頼しました。画像をスクロールしますので、動画を一時停止することもできますが、生成された画像は芸術的には非常に興味深いものの、全て同じ問題を抱えていました。それは、探すように言われたものが実際に表示されていないということです。これをトラと見なすのは大きな無理があります。
Imagen 3には評価を与えます。「中世の市場で時間旅行者を見つけよ」と書かれており、テキストは少し乱れていて非常に簡単に見つけられますが、少なくともそこにはあり、それはかなりクールです。Reveは非常に美しい画像を作成しましたが、再度同じ問題に悩まされていると思います。探すように言われているものが実際にはないのです。あまり時間を無駄にしないでください。見つけられたら教えてください。
このReveの画像には合格点を与えます。「ビーチの人々の中に隠れている海賊を見つけよ」と言っていますが、これが海賊だと言うことにします。本当に隠れているわけではありませんが、まあいいでしょう。
これは要点を説明するのに役立ちます。4Oイメージ生成の論理、いわば頭脳は他のものよりも明らかに優れています。芸術性はおそらく同様ですが、ほとんどの人はこれを使って自撮り写真を木炭スケッチやドラゴンボールZのキャラクターに変換するだけでしょう。それは明らかですが、このような画像を生成できるAIモデルを持つようになったという事実、信じられないほど正確なテキストと、描写の背後にある本描写の背後にある本物の論理を持つAIモデルが登場したという事実は、AIにおける真の瞬間です。専用の動画を作る価値があります。なぜなら、時に漸進的な変化が大きな変化につながることがあるからです。
これは嵐の前の静けさなのか、それともAIにおける真の瞬間なのか。このツールを全く使わないのか、それとも私が予想しているように何百回も使うのか。コメントで教えてください。視聴ありがとうございます。間もなく次の動画をお届けしますので、そちらも是非ご覧ください。素晴らしい一日をお過ごしください。