Nano Bananaがついに王座から陥落。GPT-Image 2.0を徹底検証

AI画像
この記事は約18分で読めます。

本動画は、新たにリリースされたChatGPTの画像生成機能「Images 2.0」と、これまでトップの座に君臨していた「Nano Banana」を徹底的に比較検証するレビューである。特にテキスト生成や推論能力におけるChatGPTの圧倒的な進化を強調し、リアルな画像を作るためのプロンプトのコツや、複雑なUIの再現、詳細なインフォグラフィックの作成など、多岐にわたるテスト結果を紹介している。両者の強みと弱みを実際の生成画像を用いながら客観的に解説し、用途に応じた最適なAIモデルの使い分けを提案している。

Nano Banana Finally Dethroned. GPT-Image 2.0 FULLY tested
*Get the ChatGPT guide:* Images 2.0 just launched, making it a powerful new contender in the world of ai image g...

ChatGPT Images 2.0の登場と全体的な印象

ChatGPT Images 2.0がリリースされましたが、これはとてつもない飛躍ですね。しばらくの間王座を維持してきたNano Bananaに匹敵するモデルをついに手に入れることができました。Images 2.0は多くの重要な分野でNano Bananaを打ち負かしています。そこで、膨大な数のテストを実行したところ、その過程でいくつか本当に役立つコツを見つけました。テキストと推論は私が多くの時間を費やした分野であり、おそらく最も印象的な分野です。

写実的な画像を作成するための簡単なコツ

まずは、リアルな見た目の画像を取得しようとしたときに気づいた簡単なヒントから始めたいと思います。最初はかなりがっかりしていました。リアルな写真、iPhoneの写真、映画のような写真など、さまざまな言葉を試していましたが、望んでいたものは得られませんでした。しかし、プロンプトにフォトリアリズムという言葉を追加することが非常に効果的であることに気づいたのです。

これらのいくつかをざっと見ていきましょう。他の部分はすべて同じままにして、その1つの言葉を追加するだけで結果が完全に変わります。最初の画像が良さそうに見えても、それにフォトリアリズムを追加すると、どれだけ良くなるかがわかることが時々あります。どのモデルにもそのような異なる傾向があり、望むものを手に入れるには実験が必要になることもあります。

これは私がここでかなり早く気づいた大きな発見だったので、皆さんと共有したいと思いました。そして、基本的なプロンプトの遵守に優れていることがわかりますね。人がたくさんいる場合でも、顔が一貫しています。まあ、ここでは画期的なことは何もありません。ただ全体的に優れた画像ジェネレーターであり、以前のモデルからの大きなアップグレードだということです。

画像編集とキャラクターの一貫性

画像編集は、これらのモデルが非常に優れていることに私たちがかなり慣れてきたもう一つの分野です。そして、ここでも素晴らしい結果を出しています。

それでは、これらもざっと見ていきましょう。より重要な機能へと話を展開していきますが、役立つものはすべてカバーしておきたいのです。まず、このオークにバトルアックスを持たせたいと思いました。完璧です。次にオークを女性にしたかったのですが、これまた完璧です。そして、回転させ、ズームインし、角に赤い輝きを追加するのはどうでしょうか。

素晴らしい出来です。色にはわずかな変化がありますが、多くのモデルはこれに完全に失敗しますからね。それから角度を正面からの全身ショットに変更します。簡単ですね。そして、そこでのキャラクターの一貫性は完璧です。次はもっと難しいものです。8つのものが並んだグリッドがあり、この部屋にそれらをどのように配置するかについての具体的な指示があります。

そして、それは見事な結果を出しました。カピバラは少し大きいかもしれませんが、これは私がテストした他のどのモデルよりも優れています。特に顔の細部はすべて素晴らしいですね。次に、これは2枚の実際の写真を組み合わせるテストでした。これまでこのテストで素晴らしい結果を得たことはなかったのですが、ChatGPT内では素晴らしい結果になりました。

しかし、顔の忠実度は少し低いです。とはいえ、APIを通じて4Kオプションもリリースされました。そこで、このプロンプトを4Kオプションを使用して実行してみました。Higsfieldで実行しただけです。すると、顔の明瞭さが格段に上がりました。比較のために、Nano Bananaで4Kオプションを使用してこれを実行すると、いつもかなりずれた感じになります。

この話題のついでに、一貫したキャラクターの例をもう少し紹介します。この火山でボードに乗っている男性はバッチリですね。かなりしっかりとしたアクションショットです。次に、バレルウェーブに乗ってサーフィンをしている私です。顔は完璧ですが、この美学はあまり好きではありません。あまりリアルに見えませんからね。そこで、ここでもフォトリアリズムという言葉を追加したところ、はるかに良くなりました。

テキストと推論における圧倒的な能力

それから、この女性を追加するように頼んだところ、一緒にスカイダイビングをしています。今度は、お化け屋敷の中を緊張しながら歩いています。これは以前からできたことなので駆け足で進めていますが、他のツールで得た結果よりもわずかに優れていると言えるでしょう。さて、テキストを含めてこれを試してみます。ここでは信じられないほどうまくいきました。

ホワイトボードのテキストにはまったくエラーがありません。これらの方程式のすべてが正しいかどうかはわかりませんが、個々の文字は完璧です。ホワイトボードに書くには少し字がきれいすぎるかもしれませんが、ここの本、それらのテキストにはいくつかの問題があります。それでも、これは本当に良い仕事です。

次の例は、ChatGPTとNano Bananaの間に大きな差があった部分です。そして、これがテキストのセクションへとつながっていきます。これは単なるパロディ映画のポスターです。私が求めたものをすべて満たしてくれましたが、私が焦点を当てたかったのは下部にあるこのすべてのテキストです。これはほんの小さなディテールですが、ここではすべて完璧でした。

バイナリー・バードによる音楽、カット・アンド・コードによる編集、ピクセル・アンド・パインによるプロダクションデザイン。過去には、Nano Bananaの結果のように、これらの小さなディテールには問題がありました。私はこちらの美学のほうが好きですが、下部のテキストにズームインすると、すべてが歪んでいて完全にちんぷんかんぷんです。ですので、このケースではChatGPTの方がはるかに優れていました。

サムネイル作成とUIの完璧な再現

それから、これがここでサムネイルを作成しようとした私の最初の試みだったことをお見せします。彼らはプロンプトで、新しいGPT Images 2のリリースについて以外の本当の指示はないと言っています。そして正直なところ、その最初の試みは素晴らしいものです。Nano Bananaや他の画像ジェネレーターから得られる標準的なサムネイルよりもはるかに優れています。ですから、もっと生成するつもりですが、このモデルからの何かをこの動画のサムネイルとして間違いなく使用します。

そして、ABテストを行うために複数のオプションを作成します。さて、私はさまざまなテキストの課題でさらに多くのテストを実行しました。まず、これらのめちゃくちゃ正確なUIの再現をいくつかお見せします。これは信じられないほどです。つまり、これをすることは絶対にお勧めしません。何が可能かを知ってもらうために見せているだけです。私たちは間違いなく、オンラインの画像を一切信用できない時点に来ています。

これらのコメントはすべて完璧に見え、それぞれに固有の名前とプロフィール写真があります。あるいは、これはMidjourneyのウェブサイトのエクスプローラーページのスクリーンショットでした。本当に正確です。これらの画像のそれぞれがMidjourneyで生成されたようにさえ見えます。そして、これはXのFeurからのプロンプトです。私は彼らのプロンプトの1つを見た人のハンドルネームを用意して、それを再作成しています。

複雑なワークフローとインフォグラフィックの生成

そして、これがおそらくその中で最もクレイジーなものです。画像を生成し、それを画像から動画へのパイプラインに供給するためのワークフローを備えたComfyUIです。これはとてもよく見えます。ここにプロンプトがあります。それからネガティブプロンプトの条件付けさえあります。AnimateDiffを使用して、このテキストのすべてが正しいです。おそらくここに小さな問題があるかもしれません。

Motion LoRAをロードする必要さえあります。典型的な1秒あたりのフレーム数。異なるノードを接続するこれらの線のいくつかが完璧ではないことがわかりますが、これはかなり近いです。特にNano Bananaがそれで得たものと比較するとそうです。いたるところにテキストの問題がありますからね。この新しいアップデートにより、ChatGPTはさらに便利になります。

しかし、あなたのキャリアやビジネスで優位に立つためにそれを使用できる方法はすでにたくさんあります。ですので、説明欄の下に、職場でChatGPTを使用するための5つの必須リソースという無料のリソースバンドルを用意しています。2026年の新機能を含め、ChatGPTを実装するためのすべての機能、ユースケース、およびベストプラクティスをカバーしています。私のお気に入りの部分は、今日ChatGPTを試す100の方法と呼ばれるドキュメントです。

そこには、幅広いユースケースにわたる100のプロンプトがあり、コピー&ペーストしてすぐに使い始めることができます。そこにある他のすべてのものに加えて、最も役立つプロンプトデータベースの1つです。それはすべて無料です。説明欄のリンクをクリックするだけです。ここにレシピのインフォグラフィックがあります。これらがNano Bananaから出てくるのを初めて見たときはただただ驚きで、本当に素晴らしく見えます。

この画像にはどこにもテキストの問題はありません。しかし、ChatGPTのバージョンと比較すると、こちらの方がただ優れているのです。つまり、より役立つ情報が含まれています。各材料の量があり、より詳細な指示があります。全体的により完全で役立つインフォグラフィックです。そして、Angelから見たこの結果には、大きな差があります。

Nano Bananaからのこの結果はかなり味気ないものです。テキストにエラーはありませんが、手書きにはまったく見えません。そして、ただはるかに退屈です。プロンプトを本当に捉えていませんでした。それに比べて、ChatGPTからのこの結果はただただ素晴らしいです。ズームインできます。これは手書きのように見えます。ページ全体に奇妙な小さな走り書きがあります。たくさんの小さな切り抜きがあります。

これは一種のランダムなカオスのようです。完璧です。私たちはスターダストとコードです。この2つを比較すると、まったく勝負になりません。そして、これらのテキストと推論の機能すべてについてもっと時間をかけて説明していきます。これは非常に強力なユースケースであり、ChatGPTはここで本当に輝いていると思います。最後には、さらにユニークで楽しいテストや課題もいくつか用意しています。

グリッド配置と細部へのこだわり

そして、これは私がさまざまな画像ジェネレーターでかなり何度も実行したプロンプトです。Nano Banana ProとNano Banana 2で実行しました。いつも惜しいところまではいくのですが、完璧ではありません。主な問題は常に下部にあります。理由の1つは、アルファベットが26文字あるため、それが完全なグリッドに自然に収まらないからだと思いますが、モデルはどうしてもそうしたいのです。

そのため、文字を飛ばしたり、追加したり、混乱させたりします。ちょうどここから始まり、文字が動物と同期していません。サイがQで、ナマケモノがRです。動物の名前と写真がQを飛ばしているのに、文字はSを飛ばしているようなものです。Nano Banana 2ではまた別の問題でした。かなり近かったのですが、この一番下の行でWとXを1つにまとめてしまいました。

ですから、クジラがあってからX線フィッシュがあるはずなのに、それらを1つのタイルにしてしまったのです。そして、ChatGPTを見ると、これは完璧でした。このプロンプトをしばらく実行してきましたが、何かが完璧にできたのはこれが初めてです。そしてこれは、1つの画像にどれだけ多くの異なる画像を収めることができるかを少し確認するためのものです。これは10×10のグリッドです。

文字Aで始まる合計100個のオブジェクトです。これらすべてを一つ一つ確認したわけではありませんが、ざっと見たところ、何も問題は見当たりません。いや、撤回します。ここに留守番電話がありますね。ジャケットと留守番電話を1つにまとめようとしたのだと思います。それからアンティークの鍵。なるほど、いくつか問題はありますね。

そして、私は実際にこれを調べなければなりませんでした。aubergineとeggplantが同じものだとは知りませんでした。ですから、それは正解でした。ということで、超、超惜しかったです。完璧ではありませんでしたが、それでも非常に印象的でした。GPT Images 2の展開の発表が載っている新聞があります。レイアウトは素晴らしく見えます。

全体に他の記事があります。テキストに問題はありません。非常にしっかりしています。これをNano Bananaでやろうとしたとき、すべてのテキストを与えれば、かなり良い仕事をします。記事を入力してこれを行うように頼むような場合ですが、そうしない場合、通常は周囲の他のテキストに問題が発生します。

エンジニアの画面、デュアルモニターですが、ここにズームインすると、これは非常に印象的です。このすべてのコードがあり、側面にすべてのフォルダ構造があり、それはVS Codeのロゴになろうとしています。そして、この他の画面ではまたしてもすべてのテキストが非常に優れています。よく見るといくつかの小さな問題があるかもしれませんが、全体的にそれは驚くべきものです。ノートパソコンにズームインすることさえできます。テキストはすべて良好です。ぼかしは正確に見えます。本当に、本当にしっかりしています。参考までに、Nano Bananaではこれがどのようになったかをお見せします。まず第一に、美学があまり良くありません。

しかし、このいずれかにズームインすると、すべてナンセンスです。雰囲気は捉えていますが、テキストはどれも合っていません。

高度な推論とリサーチに基づく画像生成

これについてもう一つ非常に印象的なのは、プロンプトを通じて考える能力です。したがって、思考モードがオンになっていると、リサーチを行って画像を計画するために、数分間考えることさえあります。

これを例に挙げましょう。主要なAI動画モデルの背後にあるアーキテクチャの違いに関する詳細なインフォグラフィックです。思考パネルを開くことができます。ここで計画を立て、さまざまなモデルに関する詳細なソースを検索していることがわかります。すべてを調査し、計画を立てます。

そのため、サードパーティの主張を使いすぎることを避け、企業から公に開示された詳細のみに焦点を当てようとしています。それぞれの異なるモデルに対してこれを行います。どの部分が開示されていないかを発見します。結局のところ、これはインフォグラフィックの生成を開始する前に7分間考えました。そして、彼らがここにいるときはズームインできません。

そこで、ここに戻ります。これには本当にたくさんの詳細があります。そして全体を通してテキストは素晴らしく見えます。いくつか、ただこれをスタイライズしようとしているだけなのかわからない部分があります。ですから間違っているとは言いませんが、私は必ずしもそれのファンではありません。当然のことながら、この全体にあるすべての単語を読んでいるわけではありませんが、私が見ている限り、エラーは見当たりません。

そして、なるほど、ようやくここに1つ見つけました。これは強調であるべきですね。全体的に、これは本当に素晴らしいです。そして皆さんは、Nano Bananaもこの種のことができるだろうと考えているかもしれませんが、彼らのインフォグラフィックがこれほど詳細な場合、テキストにさらに多くのエラーが発生します。たとえば、これはNano Bananaからのものです。美しいデザインですね。

そして正直なところ、おそらくChatGPTのものよりも情報量が少ないでしょう。しかし、ここにズームインすると、すぐにこれらが目に入ります。これは推論チェーンであるべきだと思います。これは音声の共同合成であるべきです。うーん、これは実行であるべきです。ええ、この文にはたくさんのエラーがありますね。

ここのこの単語にエラーがあります。Dolly Zoomのスペルが間違っています。インフラストラクチャーも。ご覧のように、この画像全体に散らばっています。Nano Bananaはインフォグラフィックの美しさにおいては本当に、本当に優れていますが、テキストが多くなればなるほど、より多くの問題が発生します。いくつか問題に遭遇したことがありますが、特にこれについてです。

そこで、さまざまな2026年モデルのトヨタ・シエナのモデルを調べ、それぞれの違いを強調する機能リスト付きのインフォグラフィックを作成するように頼みました。私たちは今ミニバンを調べているので、これは私に関連がありました。しかし、ざっと見たところ、Nano Bananaからのものは本当に美しく見えます。しかし、これらを検証するために実際に細部を見始めると、いくつかの問題に直面し始めました。

まず第一に、これらの最後の2つの間にあるはずのトリムの1つが完全に欠落しています。それはウッドランド・エディションと呼ばれています。ChatGPTがそれを捉えているのに、Nano Bananaは捉えていないことがわかります。それは最初から大きなものでした。しかし、これの他の側面を事実確認するために実際にサイトでこれを開いたとき、さらにいくつかのことを発見し始めました。

LEは7人乗りだと言っています。サイトで開いてみます。8つの座席があると言っています。リミテッドについては、ムーンルーフがあると書いてあります。それを確認しようとしましたが、ムーンルーフに関するものはまったく見当たりませんでした。すべての問題をご案内するわけではありませんが、かなりの数に遭遇しました。ChatGPTから得たものは、何も間違っていることに気づきませんでした。

そして一般的に言って、それはより役立つインフォグラフィックでした。開始価格が記載されていました。それは、買い物をしているときに通常知りたいことです。ですから、これらの詳細を調べ始めると、ChatGPTがますます際立ち始めました。これについて深く掘り下げることはしませんが、これはかなりクレイジーです。今日からの最新かつ最も正確なすべての情報をウェブで検索するように頼みました。

それからそれを生成し、彼はそれをムードボードとしてやりましたが、私は最終的にそれをダッシュボードに変換しました。そして、このすべての調査を行い、これらのニュース記事のそれぞれを見つけ、それぞれの記事に合わせた画像を生成し、すべてをダッシュボードにまとめました。そして、ティンバーウルブズとナゲッツのように、いくつかのことを確認しました。

119対114でした。それから、実はこれはまだ確認していませんでした。ええと、原油価格の調べ方がよくわかりません。これのことだと思います。ですから、それは完全に正確というわけではありません。確かに、一通り見ていけば、全体にわたってそのような細かな間違いはいくつかあるでしょうが、それでも非常に印象的です。

スタイル再現とその他の難解なテスト

それから、テキストを一定のキャラクターと組み合わせた、テキストの領域でのもう一つの例です。紙の町での火事の後、これらの紙のキャラクターが展開するシーン全体を示す10パネルのストーリーボードを求めました。シーン番号と制作ノートを含めてください、と。そして、私は完全な物語を構築しました。これらのキャラクターは、すべてのショットを通して完全に一貫しています。

これらの画像のそれぞれに、本当にたくさんのディテールが含まれています。がれきの中からこの花が出てくるのを発見し、再会し、コミュニティが一つにまとまります。彼らは最終的に町を再建します。とてもよくできています。私はさらにいくつか異なるテストや課題を実行しました。どれだけうまくスタイルを再現できるかを比較したこれから始めます。

そして、この画像については、Nano Bananaの方がはるかにうまくやりました。これは、超カラフルでユニークなスタイルを持つこのクマのMidjourneyで生成した画像です。同じスタイルを使用して、ドラマチックな崖に立っているビッグホーンシープをお願いしました。Nano Bananaがそれを見事に一致させたことがわかりますね。一方、ChatGPTはどうでしょう。これはクールな画像ですが、間違いなく元のスタイルではありません。

そこで、このペーパークラフトの画像で別のものを実行し、同じスタイルを使用して男性のキャラクターを作成してと言いました。彼らはどちらも実際にかなり良い仕事をしました。これに明確な勝者がいるとは言えません。それからこれ、別のMidjourneyの画像です。カメラの向きを変えて、この男がポーカーで対戦している相手を見せてください、と。同じスタイルを維持しようとしていると思うでしょうし、ChatGPTはそれでかなり良い仕事をしました。

ご存知のように、それは間違いなくまだここのこの男であり、そのスタイルにかなり近いですが、Nano Bananaはまったくそうではありません。完全に異なる照明と完全に異なるスタイルです。そして余談ですが、彼は4枚のカードしか持っていません。ですから、これは五分五分だと思います。Nano Bananaが勝ち、それから引き分け、そしてChatGPTが勝ちました。そして、これについては、さまざまなアスペクト比でどのように生成できるかをテストしただけです。

3対1の8ビット横スクロールアドベンチャーゲームです。そしてええ、これは本当に良いスタイルです。クリボーのように見えるので、マリオから盗んでいるだけですが。しかし、ええ、あらゆる種類のアスペクト比で生成できます。それから、いくつかの異なる課題を組み合わせた古典的な課題の1つです。実は、7本の指を持つ手、8時22分を示す掛け時計、そして一番上までいっぱいの赤ワインのグラスです。これは完璧にとても近いです。

手は正しいです。グラスは縁までいっぱいです。しかし、時計は、分針は正しいのですが、この時針はほんの少し先にあるべきです。それでも、私がこれまで得た中で最も近い結果です。それから、これを写真のようにリアルな画像に変換してというものをいくつかやりました。それは本当に、本当にうまく釘付けにしたと言えるでしょう。

ええ、私はその結果がとても気に入っています。そのクマの画像で試してみました。それを再現するのは少し簡単だと思います。しかし、これはどうなるかわかりませんでした。とても興味がありました。そしてそれはとてもうまくいきました。これらはちょっと難しいですね。これを頭の中でどう思い描けばいいのかよくわかりませんが、これを見ると、「うん、最高だ」と思います。

結論:用途に応じた使い分け

そして、これは彼らがライブ配信で使用したプロンプトです。何千粒ものお米のプロンプトがありますが、そのうちの1粒にfuturepediaという言葉が刻まれています。そして、これにズームインすると、まさにそこにfuturepediaがあります。これは超クールなプロンプトだと思いました。間違いなく難しい課題です。

Nano Bananaでも機能するかどうか試してみたところ、機能させる方法を見つけました。そして面白いことに、私はこれを何度も実行しましたが、毎回同じようにごまかしました。これでも、この部分にズームインすると、実際にはfuturepediaと書かれていません。ですから、ChatGPTは間違いなくそのラウンドで勝ちました。

全体として、ほとんどの場面でChatGPTが勝ちました。すべてではありません。ですから、私はまだ両方のツールを使用しますが、複雑なテキストや、リサーチを組み合わせて出力が正確であることを確認したい場合は、ChatGPTが間違いなくそこで勝ちました。Nano Bananaはテキストに関しては本当に素晴らしい美学を持っていますが。ですから、状況に応じてまだ使用するつもりです。

全体的に、私はこの新しいモデルにとても満足しています。ですから、私は間違いなくこれを定期的に活用します。サムネイルでもっとたくさんテストするつもりです。この動画のサムネイルについてどう思うか教えてください。

コメント

タイトルとURLをコピーしました