ChatGPTの「4倍高速」画像アップデート vs Google Nano Banana Pro:9つの厳しいテストを実施した結果

AI画像
この記事は約13分で読めます。

OpenAIがGoogleのGemini 3に対抗して発表したChatGPTの新しい画像生成機能について、最大4倍高速化と優れた編集機能を謳っているが、実際にビジネス関連の9つの厳しいテストで検証した結果、Gemini Nano Banana Proが圧倒的に優れていることが判明した。ChatGPT 5.2は図表生成にコードを使用するアプローチを採用しているが、これが論理的思考を必要とする画像生成において致命的な弱点となっている。一方、Nano Banana Proは画像生成プロセス自体に推論機能が組み込まれており、有名人の画像編集、複雑なビジネス図表、ベン図、収益ブリッジなど、実務で使用できる品質の画像を安定的に生成できる。ベンチマークや評価指標ではなく、実際の使用場面での検証が重要であり、現時点でビジネス用途に信頼できる唯一の画像モデルはNano Banana Proであるという結論が示されている。

ChatGPT's "4x Faster" Image Update vs. Google Nano Banana Pro: I Ran 9 Brutal Tests
My site: Story w/ Prompts:

ChatGPTのコードレッド対応が継続中

ChatGPTはGoogleに対するコードレッド対応を継続しています。背景を説明すると、GoogleがGemini 3を発表して以来、ChatGPTはしばらくこのコードレッドモードにありました。ChatGPT 5.2がそれに対する最初の対応でした。そして今回、新しい画像生成機能のリリースで対応を続けています。これはもちろんNano Banana Proを狙ったものです。

ChatGPTは最大4倍高速な画像生成を主張しており、明らかに自分たちのものがいわゆる「より優れている」と言っています。そして、より魅力的な編集機能を提供できるとしています。私はそのすべてをテストしました。ビジネスに関連する影響を持つ9つの異なる課題について、並べて比較を行いました。正直に言うと、Nano Banana ProがChatGPT 5.2を、新しいアップデート版でさえも、完全に打ち負かしました。

これから並べた画像比較のスライドをお見せしますが、9つのテストそれぞれについて、なぜNano Banana Proがより良い仕事をしたのかがわかるでしょう。その前に、いくつか高レベルの観察をお話しします。

ChatGPTの画像生成アプローチの問題点

第一に、ChatGPTが画像を生成するために使用している方法が異なり、私はそれが彼らにとってうまく機能していないと思います。これは特に、モデルによる多くの論理的思考を必要とする画像に当てはまります。

たとえば、PowerPointスライドに適した図表を作成するよう依頼した場合、Nano Banana Proは画像生成プロセス自体に推論が組み込まれているように見えます。失敗した場合、不適切に実行された推論が不正確なラベルなどとして表示されますが、実際には失敗することはあまりありません。

一方、ChatGPTでは、コードが表示されます。失敗した場合、文字通りコードが表示されます。図表のコードを書いてから、その結果を撮影して届けようとしているのです。これには具体的な影響があり、モデルが撮影できる方法で図表を整列させる際に問題が生じます。

モデルは明らかに自分が何をしているのか完全には理解していません。内部的な推論チェックがありません。ChatGPTはこの問題を補うために、今回のリリースに自己編集ループを含めようとしたようです。

子供向けアルファベットのテストを行いました。Aはアリクイ(aardvark)で、各文字に動物があり、AからZまで続くものです。ChatGPTは自分自身をキャッチして編集しようとしました。20分間の編集ループに入り込みました。十数枚の画像を生成しました。そして最終的に、結果の品質は最初の画像よりも良くなっていませんでした。

作業をチェックして再チェックするというアイデアは好きです。しかし、そのような時間を正当化するような実際の品質向上は見られませんでした。これが非常に高速な画像生成器だという主張にもかかわらず、実際には、これからお見せする画像をNano Banana Proがはるかに、はるかに速く生成し、ドラマも思考も推論もはるかに少なかったことがわかりました。単純にそれを完了させて画像を生成しました。

Nano Banana Proが完璧だとは言いません。このスライドデッキを見ていく中で、いくつかの問題が見られるでしょう。しかし全体的に、画像モデルが、たとえば有用なPowerPointスライドを作成するのに役立つようになる転換点があります。このデッキにはいくつか例があります。

Nano Banana Proはそこに到達しましたが、ChatGPT 5.2はまだそこにありません。そして今日、他の画像モデルもそこにはありません。今日、Nano Banana Proほど優れた画像モデルは他にありません。では、飛び込んでみましょう。9つの異なるスライドの並べた比較を見ていきましょう。

テスト1:有名人画像の編集と再配置

さて、ここでは二重のテストがあります。モデルが有名人を取り上げて、その有名人を異なる場所に再利用できるかを確認したかったのです。これは画像編集テストです。

キーラ・ナイトレイを使用しました。彼女の画像はトレーニングデータで広く利用可能だからです。そして、モデルが明らかに異常な状況で彼女を適切に表現できるかを見たかったのです。この場合、彼女がLLMの仕組みを教えているという設定です。

これにより、モデルが画像内に図表を表示できるか、視点の変化を処理できるか、そしてもちろん、有名人の場合に画像を正しく表現できるかをテストできます。

なぜ有名人を気にするのかと思うかもしれません。これは関連性があります。なぜなら、自分自身の画像を含める場合、それが自分に似ているかどうかを知りたいからです。それが本当のテストでした。

私はモデルに、著作権の問題に直面したくなかったので、キーラと呼ばずに、パイレーツ・オブ・カリビアンのキーラ・ナイトレイのぼやけた写真を渡しました。そして、両方のモデルに「彼女にLLMの仕組みを教えてもらってください」と言いました。

右側に得られるのは、キーラ・ナイトレイの正確な画像ではありません。全体的に素敵でカラフルな、LLMの仕組みに関する非常に高レベルの見方が得られます。これがChatGPT 5.2のアプローチです。

明らかにNano Banana Proはキーラ・ナイトレイを知っています。これは彼女の写真的に正確な画像です。彼女は衣装さえ着ています。これはソース画像では見えなかった衣装です。それで、彼女をその衣装に入れることに決め、私が参照していた映画を明らかに知っていました。そして、LLMの仕組みについてはるかに詳細な図表がありますが、視覚的な魅力は劣ります。

テスト2:子供向けアルファベット

子供向けアルファベットに移りましょう。左側にNano Banana Pro、右側にChatGPTが見えます。両方のモデルが失敗しましたが、興味深い方法で失敗しました。

この場合、Nano Banana Proがこれを完全なボックスにする必要があったことがわかります。FoxとGorillaがあり、ここにFoxとGoatがありました。FとG、FとG。個別には、これらはセルで正しいのですが、これらの文字を繰り返す必要はありません。

いくつかのコーチングが必要でした。両方のケースで編集を依頼しなければなりませんでした。最初のバージョンがXを台無しにしたからです。Nano Banana ProからX線が提示されました。いくつか問題がありました。最終結果に到達する能力は、Nano Banana Proから少し良かったですが、完璧ではありませんでした。

ChatGPTはここでかなり崩壊しました。zebraがあって、zebraが無関心で、そして最後に何らかのWの形があって、そしてずっと下にXがあります。複数の編集の後でも、必要なところには到達できませんでした。Nano Banana Proが再びより良い仕事をしたと言えますが、どちらのモデルも完璧ではありませんでした。

テスト3:ファネル図のスライド

プロフェッショナルな側面に移りましょう。これはかなり詳細なスライドです。見れば、テキストはすべてここで読めます。「完了率が前週比1.2ポイント減少、パスワードとSSOステップでのドロップオフ」と読めます。これはファネルの漏れについて完全に正確な評価です。

こちら側では、やや少ないテキストと、やや奇妙なファネルのイラストが見られます。数学的には820から57が最大のドロップオフだとしても、これはファネルの最大の漏れのようには見えません。

品質の観点から本当に指摘したいのは、Googleがこの一連のグラフチャート全体を正しく描くために時間をかけたことです。これは、これらの数十のポイント全体にわたってポイントからポイントへと信じられるように上下にグラフ化されています。

そして、これは明らかに完全に機能的なグラフとして設計されていない、非常に軽い全体的なバージョンです。詳細レベルの観点から、Nano Banana Proがここで勝っています。他に何を言うべきかわかりません。これは最初は良く見えるケースですが、深く掘り下げると「まあ、完全に正しくない」と言うことになると思います。

完全に正しくないというのは画像では機能しません。なぜなら、ゼロから再生成しなければならないからです。

テスト4:架空の地図

架空の地図を見てみましょう。これはLLMが空間的関係を生成し、物語構造がどのように機能するかなどを理解する能力を測定します。P.G.ウッドハウスのイングランドを選びました。モデルが読んだことのある非常に有名な本のコーパスですが、あまり地図化されていません。

ロード・オブ・ザ・リングのように、トレーニングデータに参照すべき明白な地図があるわけではありません。この場合、Nano Banana Proは完璧に成功したと思います。これらのおかしな響きの名前はすべて、実際にP.G.ウッドハウスの小説に登場します。

ここの登場人物、エムズワース卿は小説でブランディングズ城と関連付けられています。そして、バーティ・ウースターはブリンクリー・コートと関連付けられており、ダリア叔母もそうです。正しく理解しました。登場人物を正しく取得し、小説の正しい場所と関連付けました。

一方、ChatGPTは本当に苦労しました。最初に地図上にいくつかのポイントを命名して生成しました。紙の地図の写真を生成しようとしましたが、ズームインしてみると、これは非常にぼやけていて小さく、ズームインしても読めません。これについて本当に使えるものは何もありません。地図の素敵な視覚的概念にすぎません。

それがまさに全体のゲームです。地図を生成して実際に読めるようにする必要があります。

依頼内容に関する理解の問題があるかもしれません。これは、ChatGPTが依頼を非常に文字通りに受け取り、ここに多くの地名をリストアップしたかった状況かもしれません。一方、Nano Banana Proは依頼全体でより効果的に統合できました。

テスト5:広告

広告です。これはおそらくよりビジネスに関連しています。Nano Banana ProとChatGPTはどちらもここでかなりうまくやりました。

アスペクト比とレイアウトの処理方法についてはモデルに選択肢が残されていました。全体的なレイアウトはNano Banana Proでより良く機能したと思います。車全体にわたる4つのバッジが並んでいる素敵なものは本当に良く見えます。車はうまく中央に配置されています。

これはまだ良い広告です。ここに大きな問題があるとは思いません。小さな問題があるだけです。この「安全なピックアップとドロップオフ」が正しく処理されませんでした。3つのバッジの下に配置する必要があるからです。しかし、全体的に、どちらも悪くありません。

テスト6:ARR収益ブリッジ

ARR収益は本当に問題です。Nano Banana Proは収益ブリッジを正しく構築しました。収益ブリッジは非常に単純で、開始ARRがあり、取得したすべての追加ARR、新規と拡大のために緑の上向きマークがあり、それから縮小と解約のために赤があり、そして終了ARRがあります。それが単なる方法です。非常に定義されたチャートスタイルです。

この場合、ChatGPTがこれをコーディングしようとした例が見られます。ここでは、私は確信していますが、ARRブリッジとコーディングしたものを撮影できなかったからです。RRで切り取られ、ここのノートセクションも切り取られました。これは機能しません。回復できません。これを確認しました。

画像は画像です。これは単に失われています。そして最悪なことに、4.2が4.5まで下がってはいけません。収益の上昇利益を収益の減少として配置してはいけませんでした。単に課題を誤解しており、これは絶対に使用できません。

テスト7:ベン図

ベン図は、Nano Banana Proが直接勝ったもう1つのケースです。

意図的に、トレーニングデータにはなかったであろう挑戦的なプロンプトを与えました。「テイラー・スウィフト、プロダクトマネージャー、陸軍工兵隊のベン図を作成して、面白くしてください」と言いました。そして、Nano Banana Proからかなり使えるベン図を得ました。少し言葉が多いですが、何をしようとしているのかがわかります。

3つすべてについて、大規模でハイステークスな作戦の調整について話しています。テイラー・スウィフトと陸軍工兵隊については、大規模で構造的に健全なステージとインフラを設計し、漏れを管理しています。これは素敵な面白いタッチでした。

これは崩壊しています。ビジュアルがありません。モデルは何をすべきかを理解しようとしていると思いますが、面白くすることができませんでした。描くことができませんでした。そして最終的に、これは使えるものではありません。

繰り返しになりますが、カットオフの問題に気づきます。これは私が悪いスクリーンショットを撮ったわけではありません。そのように生成されたのです。

テスト8:オポチュニティ・ソリューション・ツリー

オポチュニティ・ソリューション・ツリーを試してみましょう。この場合、Nano Banana Proから完全なオポチュニティ・ソリューション・ツリーの図が得られます。Nano Banana Proから最後まで完全なテキストが得られます。

テキストは非常に一貫してスタイル化されています。そして、これはオンボーディングとアクティベーションのための使用可能なソリューション・ツリーを表しています。

ChatGPTの右側では、詳細が少なく、オプションが少なく、また、これを使用不可能にするカットオフもあります。再びコーディングしたかのようで、コーディングされた一連のボックスから見ることができたものを切り取っただけです。

Nano Bananaがそれを理解しているので、スライドでは使用できません。誰もドットドットドットドットドットドットを受け入れないからです。そしてNano Bananaはそれを理解し、ただ書き出します。

テスト9:画像編集

編集を試してみましょう。それは彼らが求めたものの1つで、ChatGPTについて素晴らしいと言ったのは、よく編集できることでした。

ジュースブレンドの組成を示す図を取り、単に「ブルーベリーを20%追加して、正しくしてください」と言いました。Nano Banana Proはそれを行うことができました。オレンジとレモンとグレープフルーツを合わせると80%になり、ブルーベリーは20%です。これは信じられる見た目のパイチャートです。

Nano Bananaは、20%のパイスライスを15%のグレープフルーツよりも少し広く、25%のレモンよりも狭くすることさえできたと思います。だから、良い仕事をしたと思います。

一方、ChatGPTはできませんでした。正しく足し算しました。つまり、24 + 16 + 40は80で、それからブルーベリーは20です。数学は問題ありませんでしたが、パイチャートを描くことができませんでした。ブルーベリーがどこにでもこぼれているだけでした。グレープフルーツは正しくフレーム化されていません。これは単に機能しません。

そして、私が見る小さな調整の1つは、Nano Bananaが飲み物に少しブルーベリーの紫色の色合いを正しく入れ、ChatGPTはそれを理解しなかったことです。

結論:実用テストの重要性

全体として、ここでの私の結論、ここでの私の結論はかなり単純です。ベンチマークを聞かないでください。自分自身のテストを行ってください。

そして今のところ、Nano Banana Proは、私が深刻なビジネスワークのために信頼する唯一の画像モデルのままです。ビジネス図のいくつかを楽しんで、それらが有用だと思うなら、実際に私はそれらの種類の図を作成するために使用しているプロンプトのバスケットをまとめています。なぜなら、それが今のNano Banana Proの素晴らしいアプリケーションの1つだと思うからです。

60〜70ページの完全なプレゼンテーションを取り、本当に有用な図にまとめることができます。だから、それらのいくつかをSubstackで共有するつもりです。プロンプトの完全なリストを作成します。素敵になるでしょう。

しかし、今のところNano Banana Proをお勧めします。評価が何を言おうと気にしません。ベンチマークが何を言おうと気にしません。新しいChatGPTモデルをそのペースで試してみましたが、できません。

コメント

タイトルとURLをコピーしました