OpenAIが新たに発表したGPT-Image-1.5は、Googleの画像生成モデルImagen 3に対抗する画像生成・編集モデルである。このモデルは従来モデルよりも性能が向上しながら低価格化を実現し、顔の一貫性、テキストレンダリング、スタイル転送、インフォグラフィック作成において優れた能力を発揮する。実際のテスト結果から、プロンプトへの忠実性、タイポグラフィの正確性、マクロ撮影の表現力などが確認されたが、グリッド生成の正確性には改善の余地がある。ベンチマークではImagen 3を上回るスコアを記録しているものの、総合的な実用性ではまだImagen 3に及ばない部分もあるという評価である。

OpenAIの新型画像生成モデルGPT-Image-1.5の登場
OpenAIが新しい画像生成モデルGPT-Image-1.5を発表しました。このモデルは現時点で最高水準とされるGoogleのImagen 3と競合することを目指しています。このモデルはベンチマークで高いスコアを記録していますが、今回はベンチマークの話ではなく、モデルそのものを理解し、いくつかのサンプルを見ながらこのモデルがどれだけ優れているかを確認していきます。
これはGPT-Image-2ではありません。つまり、次世代バージョンとは呼んでいないんです。OpenAIはこれをGPT-Image-1.5と呼んでおり、段階的な改良版だと位置づけています。実際、彼らは改善点と制限事項を特別に明示しています。これはImagen 3の性能の高さによって、ある意味強いられた対応だと思います。
GPT-Image-1.5の単体性能評価
Imagen 3のことはしばらく置いておいて、GPT-Image-1.5を単独の画像生成モデル、そして画像編集モデルとして見てみましょう。どれだけ優れているのか見ていきます。
OpenAIが提供している例を見てみましょう。ここでは3枚の画像をアップロードできます。1枚目はマーク・チェンです。彼は最高研究責任者だと思います。それからジェイコブと犬がいます。この2人の男性と犬を、2000年代のカメラスタイルの写真で、子供の誕生日パーティーで退屈そうにしている様子で組み合わせてくださいという指示ができます。
すると、顔の一貫性が非常に高いことがわかります。そこには何の変更も加えていません。また、このモデルはテキストレンダリングにも優れていることがわかります。ここに「ハッピーバースデー」とありますが、フォントが乱れていませんし、醜くもありません。フォントの扱いが非常に上手です。
実際、他にも注目すべき点があります。たとえば、ここの指の表現がとても良いですし、顔や目の表現もあります。もちろん、よく見ればわかる兆候もあります。掘り下げてみると、たとえばここの左目やここの右目が若干完璧ではないことに気づくかもしれません。
もう一つ非常に興味深い点は、このモデルの貢献者を見ると、OpenAIの画像生成プログラムDALL-Eの責任者だったアディティヤ・ラメシュが、今はワールドシミュレーションのリーダーになっているということです。これが何らかの形でワールドモデルにつながっていくのかはわかりませんが、今のところこのモデルは画像プロンプトを受け取って画像を生成するという点で非常に優れた仕事をしています。
さまざまなスタイル変換と用途
このモデルが得意とするスタイルがいくつかあります。ここを見てください。画像をアップロードして、特定のスタイルでデザインするよう依頼できます。画像をアップロードしてバーチャル試着ができますし、着せ替え遊びもできます。絵画制作もできますし、広告制作もできます。たとえば、画像をアップロードして特定のスタイルを指定すれば、モデルがそれを実行してくれます。
ここでもう一度気づくかもしれませんが、このモデルはタイポグラフィに非常に優れています。さまざまなフォントやスタイルを追加しながら、非常に一貫性を保つことができます。
このモデルが極めて優れている点は、スタイルのコピーです。どんなスタイルでも、そのスタイルをコピーして使用することができ、モデルがそれを可能にしています。モデルはそれを非常によく吸収します。
このモデルはImagen 3と同様に、グリッドの描画も非常に得意です。ただし、私のテストでは、指定したグリッドの数を必ずしも正確に守らないことがわかりました。6×6のグリッドが欲しかったのに、モデルが7×4のグリッドを出力してしまうような例がありました。つまり、モデルはグリッドの指示に完全に一貫性を持って従うわけではありません。
では、ここからは私自身のテストに移って、このモデルについて実際にどう感じたかをいくつかの例でお見せします。このモデルは前バージョンよりも安価です。つまり、OpenAIは画像生成においてより優れ、プロンプトへの対応がより良く、スタイル転送がより優れているにもかかわらず、前モデルよりも安価な新モデルを発表したことになります。
実際のテスト結果と評価
これらの画像生成モデルが通常失敗する興味深いテストの一つが、アナログ時計の作成です。Imagen 3でさえ、これはあまり得意ではありません。
ここで、次のようなプロンプトを見てください。正方形の画像を作成してください。7本の指を持つ手。ほとんどのモデルは実世界のデータで訓練されているため、余分な指を要求しても、常に5本の指を描いてしまいます。8時22分を示す壁時計。ほとんどのモデルはインターネットの画像を使用しています。そしてインターネット上のほとんどの時計は10時10分を示しています。最後に、縁まで満たされた赤ワインのグラス。これらは一般的に画像モデルがあまり上手に処理できない要素です。
しかし、このモデルは完璧ではないものの、ここを見てください。たとえば、ここの時刻を見ると、時計の針が少し乱れていますが、それでもImagen 3よりもずっと良い仕事をしています。
もう一つ気づくかもしれないのは、訓練で何をしたのかわかりませんが、特にこのようなプロンプトでは、まるでPhotoshopを学習中の誰かが3つの異なるオブジェクトを選んで組み合わせたような画像に見えることがあります。一方、Imagen 3はもっと自然です。個人的にはまだImagen 3の方が好きです。
次は、この座標でiPhoneで撮影されたリアルな画像を作成してくださいというプロンプトです。これはImagen 3でも同じです。緯度と経度を与えることができ、おそらくタイムラインも与えることができます。するとモデルは基本的にその画像を幻覚して出力してくれます。そして私たち人間は、この場合のこのような幻覚が好きなんです。これがその画像で、再び、過去にタイムトラベルすると、モデルが自動的にアナログのグレインを追加して、本当に良い雰囲気にしてくれることがわかります。
次は、ノスタルジックな写真を作りたいというシンプルなプロンプトです。写真は実際にプリントされた写真のようで、それが置かれていて、2人の女の子がいてコカ・コーラを持っているというものです。この画像は正直、私を大いに感心させました。この画像はまるでスマートフォンで撮影されたかのように見えます。写真がテーブルに置かれていて、良い光の反射があります。良いグレインがあります。画像自体がノスタルジックに見えます。多くの興味深いディテールがあります。
そして私は、このモデルのプロンプトに従う能力を本当に高く評価しています。どんな指示を与えても、プロンプトを与えても、モデルは指示に従うことに本当に優れていて、プロンプトへの忠実性が高いです。このプロンプトを読んでからこの画像を見れば、私が何を言いたいのか理解できるでしょう。
インフォグラフィックとマクロ撮影の実力
次の画像では、モデルがインフォグラフィックの作成に極めて優れていることがわかります。今日、もしあなたがSaaSビジネス、つまりソフトウェア・アズ・ア・サービスを始めたいなら、テキストを取ってそこから何らかのインフォグラフィックを作成したい場合、このモデルはあなたにとってワンストップソリューションです。
ここで、見てください、私が失敗しましたが、縦型のフラットデザインのインフォグラフィックを作成して、朝のスムージーボウルの層を説明してくださいと書きました。そして与えたテキスト、トップテキスト、その下に小さな黒いテキストで副題、そして他のすべての情報があります。これらすべての情報を見てください。アイコンを追加することに成功し、トピックを追加することに成功しています。ここを見てください。私が与えた情報のように、01チアシードと言ったら、見てください、まさにそのように追加されています。これはかなり良いインフォグラフィックです。
私が新しいモデルをテストする際に好きなもう一つの興味深いものはマクロ撮影です。そしてこのモデルはマクロ撮影を完全に釘付けにしています。色が過飽和に見えるかもしれませんが、これはマクロ撮影の後処理でも一般的だと思います。色の組み合わせ、得られているディテールの種類、そしてどのように指示に従ったかが素晴らしいです。ミニチュアの水滴がクリスタルのように輝いていると指定しましたが、まさにミニチュアの水滴を作り出しています。
画像編集とストーリーボード作成
次は非常にシンプルなプロンプトです。これは画像編集プロンプトです。私はMrBeastのロゴをアップロードして、子供向けの本のストーリーボードを作成してくださいと言いました。提供されたスタイルと同じ配色で、フレームを10個、一つずつ、テキストなし。各フレームは横長で16:9です。
1、2、3、4、5、6、7、8、9。なぜ10と言ったのかわかりませんが、3×3なので理想的には9であるべきです。モデルはここで3×3にこだわっています。ここを見てください。このロゴを取って、配色とそれに追加したすべてを維持し、そしてストーリーラインのようなものを作り出しています。
次は、先ほど画像生成で見たのと同じプロンプトですが、ここでは編集を使用しています。女性の画像の代わりに、参照画像として2人の男性を使用してくださいと言っています。これはサム・アルトマンで、これはイーロン・マスクです。
この画像も非常にリアルに見えます。まるで誰かがスマートフォンを使って写真の写真を撮ったかのように見えます。これが私たちが見ているものです。良い光の反射があり、光沢があります。テクスチャがあり、わずかに傾いていて、テーブルの上にゆるく置かれています。そうです、プロンプトで言及したすべての要素があり、ここで作り出されたものを私は絶対に気に入っています。
最終評価とImagen 3との比較
もし今日、モデルが発表された初日に、これがImagen 3を打ち負かすかどうか尋ねられたら。なぜなら、このモデルがImagen 3よりもはるかに高くランク付けされているベンチマークを見ているからです。
私には答えがありません。そして現時点では、このモデルをImagen 3の上に置くことはないと思います。しかし、繰り返しますが、Imagen 3はすべてのワンストップソリューションではありません。そして私が言ったように、このモデルはタイポグラフィに優れ、このモデルはインフォグラフィックに優れ、他の多くの要素も探索して、モデルがどのように機能しているかを見る必要があります。
しかし、今のところ、2番目に優れたモデルが欲しいなら、OpenAIは競争から遠く離れていません。GPT-Image-1.5にはAPIを通じてアクセスできますし、アクセスが非常に簡単なので、そこを通じてもアクセスできます。あるいはChatGPTを通じてアクセスすることもできます。そこでは画像をアップロードして処理を行うための全く新しい環境が作られています。
このモデルについてどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング。


コメント