本動画は、OpenAIが新たに公開した画像生成AIであるGPT Image 2の驚異的な性能を検証し解説するレビュー動画である。他モデルを圧倒するベンチマークスコアの紹介から始まり、高い画像の一貫性、正確なテキスト描画、そして論理的思考に基づく数学的テストや物理法則の理解など、様々なプロンプトを用いた実践的なテストを通じて、その革新的な進化と実力を詳しくまとめている。

GPT Image 2の衝撃的なデビュー
OpenAIがGPT Image 2をリリースしたばかりですが、これは間違いなく地球上で最高の画像生成AIです。実際、以前のものと現在のものの差が信じられないほどなので、すぐにお見せしましょう。こちらはLMアリーナのテキストから画像への生成アリーナですが、GPT Image 2が突如として1位になっています。
単に1位というだけでなく、以前のトップであったGemini 3.1 Flash Image Preview、別名Nano Banana 2の1270からGPT Image 2の1512へと、ELOスコアが250ポイント以上も跳ね上がっているのです。信じられません。複雑な視覚タスクをこなし、よりシャープな編集、豊かなレイアウト、そして思考レベルの知能を備え、すぐに使える正確なビジュアルを作成できる最先端の画像モデル、ChatGPT Image 2をご紹介します。
これが特別な理由です。単に画像が生成できるというだけでなく、GPT-5.4と同じように、本質的に世界知識モデルなのです。思考レベルの知能を持っています。ですので、この動画の最後でこれらすべてをテストしてみるつもりです。さて、こちらはGPT Image 2の優秀さを示す動画です。最初のいくつかは普通に見えますね。Nano Banana 2でも生成できそうなものに見えます。テキストの一貫性や画像の一貫性、超現実主義などは、これまでにも見たことがあるものです。しかし、ここからが本当に素晴らしいところです。
標識の上にいるカメレオンの画像ですが、非常に印象的なのは、連続した複数の画像がつなぎ合わされていることです。背景が少しずつ変化しているのがわかると思います。最初の画像があり、次の画像があり、この辺りまではかなり良く見えます。
しかし、もう少し先に進めてみると、私が今まで見た中で最も印象的な変化のひとつが現れます。これまで見た中で最高の画像間の一貫性です。このカメレオンは水兵の格好をしています。ここで見られるのは一貫性です。画像1、画像2、3、4、5、6、7と、一番前の目玉に至るまで続いています。非常に、非常に印象的ですね。
よりスマートなプロンプト理解とリアルな質感
どうやらこの新しいモデルでは、画像の一貫性が大きく向上しているようです。そして、テキストと読みやすさ、テキスト生成全般についても非常に優れているようです。ここではインフォグラフィック全体を見ることができますが、すべてのテキストが正確に見えますね。でも、ご存知の通り、私たちは自分たちでテストしてみるつもりです。
それでは、このブログ記事を読み進めていきましょう。ChatGPT Image 2.0は、詳細な指示に従うこと、関連するオブジェクトを正確に配置すること、そして多様なアスペクト比で生成する能力を備え、密集したテキストを描画することにおいて飛躍的な進歩を遂げています。また、様々な言語にわたって正確であり、拡張された視覚と世界の知識を使用して、私たちのために空白を埋めてくれます。
つまり、より少ないプロンプトでよりスマートな画像が得られるということです。これが鍵ですね。このモデルは世界を理解しているのです。単なる画像生成ではなく、画像を生成しようとしたときに、方程式やテキストのような画像内の事柄を正確に把握できないといったことがありません。これがこのモデルを非常に特別なものにしている理由です。Image 2は、より洗練された画像を概念化し、そのビジョンを効果的に実現することができるのです。
いやはや、これは本当に信じられません。お米の一粒一粒が非常に詳細に描かれています。ここで不正確に見えるものは何もありませんね。一粒ごとの違いも確認できます。お米を拡大してみてください、すべて最大2Kの解像度です。文字通り、お米を拡大してと書いてありますが、信じられません。これがGPT Image 2です。お米の一粒一粒がリアルに見えます。
そして縮小してみると、もちろんとても、とてもよく見えますね。これは信じられません。もし私がこの画像をあなたの目の前に置いたら、これがAIによって生成されたものだとは見分けられないと断言します。すべてのテキスト、すべての手書きの文字がとてもきれいです。紙自体もとてもよく見えます。右上の小さなコーヒーのシミも素晴らしいですね。信じられないほどのディテール、文体の洗練さ、そして写真のようなリアルさです。
写真の決定的な特徴や、映画のスチール写真、ピクセルアート、漫画、その他の特徴的な視覚言語を、テクスチャ、照明、構図、細かいディテールの点でより高い一貫性を持って捉えることができるようになっています。見てみましょう。とても素晴らしいですね。非常に詳細で美しいです。私には見分けがつかないでしょう。世の中の多くのアーティストがこのことにとても不安を感じることはわかっています。
アートとAIの共存、そしてクリエイティブのテスト
私はこれを、彼らの矢筒にあるもう一つの道具だと考えています。結局のところ、最後にはやはりセンスが必要になります。何が良いかを知っていなければなりません。単に何かをプロンプトで指示して、インターネット上にAIが生成したコンテンツの洪水、AIのゴミの洪水が溢れかえったとしても、そのゴミが少し良くなったり、242ポイント良くなったりしたとしても、それは依然としてAIが生成したものです。
そして、その体験をキュレーションする人間がいなければなりません。そのキュレーションは他の人間のために行われるのです。センスは重要です。柔軟なアスペクト比についても素晴らしいですね。アスペクト比は3対1から1対3まで対応できます。さて、それではテストに入りましょう。画像モデルとしては、やはり実際に見てみないとわかりませんからね。
さあ、行きましょう。あるキャラクターのあらゆるジャンルのあらゆる動きを網羅した、スプライトシート全体を作成して、と入力します。さあ、どうなるでしょうか。これがそのキャラクターのスプライトシートです。見てください。拡大してみましょう。ダメージ、ヒットリアクション。いやはや、これをベースにゲームを丸ごと作れそうですね。乗り物や乗馬の動きもあります。
本当に素晴らしいです。スポーツ、アスレチック、キック、パンチ、ドッジ、スライド。これらはすべて正確に見えますし、本当に良くできています。ステルスアクション、死亡アニメーション。おお、これはなんてかっこいいんでしょう。ダッシュ、残像、シールドバリア、パワーアップ、オーラ。こちらはポートレートですね。本当に素晴らしいです。最初のテストにはとても感銘を受けました。
画像内での数学とテキスト編集への挑戦
2足す2イコールはてなマークという方程式が書かれた黒板とチョークの画像を生成し、はてなマークの代わりに実際の答えを入れてください、と入力します。これは、画像生成モデルで実際に計算を行う能力をテストするものです。ええ、これよりももっと複雑なこともやっていきますよ。よし、出ました。2足す2は4。これは少しもリアルに見えませんね。
以前の画像生成モデル、特にNano Bananaで私が抱えていた問題のひとつは、一度画像を生成してしまうと、その画像を大幅に変更させることが本当に難しいということでした。小さな変更はできても、画像の根本を変えるような編集は非常に難しいのです。なので、それを試してみましょう。
では次に、黒板を超リアルにしてください、そしてズームアウトして教室の中にあるように見せてください、と入力します。さて、これを見てみましょう。これはずっと良く見えますね。文字自体は綺麗すぎますが、画像をこれほど大幅に変更できたことにはとても感銘を受けました。実際の部屋も本当に良く見えます。
黒板の文字をもう少し散らかしてください、と入力してみましょう。はい、出ました。これはあまりうまくいきませんでしたね。見てください。これが最初の2足す2は4です。完璧な文字で、まるで機械が書いたように見えます。そして、黒板の文字をもう少し散らかしてと言ったのですが、わずかに散らかっているものの、それほどでもありません。まあ、続けましょう。
これを編集し続けます。次はこうしてみましょう。黒板の数式を18掛ける24足す11マイナスCイコールはてなマークに変更し、Cは5とします。画像内で方程式に答えてください。これができるかどうか見てみましょう。答えは438になるはずです。どうでしょうか。あれ、私が間違えたのか、それともAIが間違えたのでしょうか。私は438になりましたが、AIは413になっています。
思考モードと複雑なプロンプトの検証
絶対に私が正しいと思うのですが、思考モードがオンになったので、もう一度やってみましょう。さて、どうなるでしょうか。438。出ましたね。よし、最初は間違えましたが、思考モードをオンにしたら正解しました。次はこちらです。超リアルな商品写真ですが、リクエストが少し間違っていますね。どこが間違っているか見てみましょう。
鮮やかにデザインされ、明るく彩られたビーズ状の汗をかいたソーダの缶を2つ持っている手の商品の画像を生成してください、明るくて美味しそうに、と入力します。さて、この画像のどこが間違っているでしょうか。指はかなり良く見えます。4本しか見えませんが、大きな問題ではありません。5本目はたぶんこの緑の缶の後ろにあるのでしょう。でも、この人は手が巨大すぎますね。
そして、なんだか奇妙な巨大さです。それ以外は、実はよくできています。小さな水滴が乗っている時のテキストの変形を見ても、本当に良い感じです。照明もすべて良く、テキストも良い。素晴らしいですね。次は、3対1の比率で写真のようにリアルな画像を生成してください、雨の降るガラスのスタジオ、というプロンプトです。
タイトルは画像モデル拷問テスト、日付も入れてください。1から7まで番号が振られた7つのコップ、5本の鉛筆、3つの鍵、2人の一貫した人物、2対3のコミック、UIは67パーセント、82パーセント、9時41分、意味不明な文字はなしで。さあ、見てみましょう。1から7までのグラスがありますが、この最初のものには間違いがあります。実際にはグラスが8つありますね。画像モデル拷問テストという文字は入っています。でもこれを見てください。
モバイルデバイスでスクリーンショットを撮ったように見えます。ですから、これは正しくありません。上部に時間が表示されています。私たちがそうするように頼んだでしょうか。いいえ、なぜかはわかりません。おそらくUIの部分の要求のせいでしょう。フレームが6つあるのは良いですね。ええと、ここにもまた8つあります。これには7つあります。これにも7つあります。
これには8つあり、これにもまた8つあります。ですので、これは正しくありません。キャラクターの一貫性は素晴らしいと思います。とてもリアルです。私たちは何を頼んだでしょうか。5本の鉛筆と3つの鍵と言いましたね。最初の画像には5本の鉛筆と3つの鍵があります。ここでは2本の鉛筆と3つの鍵です。
ここも2本の鉛筆と3つの鍵。ここは5本の鉛筆で、鍵はありません。ですから、間違いなくいくつかのミスを犯しています。これは試してみるのに素晴らしいプロンプトでしたね。さて、次はYouTubeのサムネイル作成です。YouTuberのMatthew BermanのYouTubeサムネイルを作成して、と入力します。AIは私が誰であるかを知りませんが、サムネイル自体はきちんとしています。実際、キャラクターの品質は素晴らしいです。
著名人とのコラボレーションと物理法則のテスト
ここには不気味の谷は存在しません。驚異的に見えます。明らかにエアブラシがかけられていますが、サムネイルとはそういうものですからね。テキストもすべて正しく見えます。今度は私の画像をそこに入れてみましょう。よし。これは信じられないほどです。とても、とてもうまくいきました。基本的に私の顔をコピーアンドペーストしたような感じです。その点では非常にNano Bananaに似ていますね。Nano Bananaは顔を取り込んで既存の画像に挿入するのが得意ですから。
ですが、これは素晴らしいと言えます。では次に、私の顔を使って、Mr. Beastスタイルのサムネイルにしてください、と言ってみましょう。はい、出ました。うわあ、これは本当に素晴らしいですね。1千万ドルのチャレンジ。間違いなく高度にPhotoshopで加工されたような見た目です。私の顔が入っていますし、背景にはBeastのロゴがあります。あれは実際のBeastのロゴですよ。
ですから、これは驚きです。非常に、非常に印象的ですね。Elon MuskがSam Altmanと一緒にロブスターの夕食を食べている画像を生成して、と入力します。そして、これは検閲されません。見てください。Sam AltmanとElon Muskが夕食を食べています。二人とも非常に正確に見えますね。では、ロブスターの1匹を生き返らせて、Samをつねらせてください。おお、見てください。はい。
次にDario Amodeiを追加してください。はい、Darioが出ました。Darioの頭が少し大きく見えますね。完全に本物とは見えません。Elonはくつろぎながらロブスターを食べています。Sam Altmanは噛まれ、さらにDarioを噛んでいます。食べ物もすべて本物に見えます。グラス、影、反射、すべてが信じられないほど素晴らしいです。あまり本物に見えない唯一の点はDarioの顔ですね。
少し大きすぎますし、本人にそっくりとは言えません。彼はおそらく、Sam Altmanや特にElon Muskに比べると、インターネット上の参考画像が少ないのでしょう。それが理由だと思われます。この人物が赤ん坊から高齢者になるまでの6コマの画像を見せて、と入力します。さて、これがどれほどうまくいくか見てみましょう。
これが、AIが考える様々な年齢での私の姿です。現在の私ですね。これは、なんてことでしょう。正直に言って、私の父に似ています。クレイジーですね。これは私には似ていません。子供の頃の他の画像も私には似ていません。そして、GPT Image 2と同じように、あなたもかなり驚くかもしれません。私は子供の頃、真っ直ぐな金髪だったんですよ。
ですから、AIはそれを知らなかったのです。どうして知ることができるでしょうか。今の私はこんな髪ですからね。AIは誰かを歳をとらせることはずっと得意ですが、若返らせることはそれほどでもないようです。テーブルの上にカップが逆さまに置かれていて、その下にビー玉があります。カップを持ち上げるとどうなるかの画像を見せてください。
ビー玉がどこにあるか見せてください。そこにあります。ということで、かつて私たちがモデルの知能をテストするために実行していた有名なビー玉テストですが、基本的にはテキストのLLM、つまり大規模言語モデルで飽和状態になっていたものが、今度は画像モデルでも飽和状態になっているようです。手は過剰にPhotoshopで加工されたように見えますが、ビー玉はまさに期待通りの場所にあります。そういうことですね。
これは驚くべきモデルです。この画像モデルは、テキストや画像のレンダリング、グラフのレンダリングに優れており、明らかに世界の知識と実際の思考、実際の論理を備えています。非常に印象的ですね。この動画を楽しんでいただけたら、ぜひ高評価とチャンネル登録をご検討ください。


コメント