Googleが発表したNano Banana Proは、Gemini 3 Proをベースとした次世代画像生成AIであり、オリジナルのNano Bananaの課題であった低解像度問題を解決し、最大4Kまでの高解像度画像生成を実現した。本モデルの最大の特徴は、画像生成プロセスにチェーンオブソートを採用している点であり、生成過程で複数回の検証と改善を行うことで高品質な出力を保証する。また、Google検索との連携機能により最新情報に基づいた画像生成が可能となり、最大14個のオブジェクトを1枚の画像に統合できる高度な制御機能、多言語でのテキストレンダリング、インフォグラフィック生成能力など、プロフェッショナルな用途に耐える多彩な機能を備えている。従来の画像編集ツールの操作からプロンプトベースの画像生成へとパラダイムシフトが進む中、Nano Banana Proは画像編集業界の勢力図を塗り替える可能性を秘めた革新的なツールである。

Nano Banana Proの登場と革新的な機能
大きな噂となっていたNano Banana Proがついに登場しました。そしてオリジナルのNano Bananaと同様に、インターネットを席巻しようとしています。このモデルには本当に素晴らしい新機能がいくつか搭載されており、最大4Kまでの高解像度画像を生成できる能力も含まれています。そして今では、グラウンディングのためにGoogle検索を使用できるようになりました。これは誰も予想していなかったことです。しかし最も興味深いのは、生成中にチェーンオブソートを使用して画像を反復処理する点です。
このモデルはGemini 3 Proの上に構築されており、いくつかの非常にユニークな新機能を備えています。それらの機能について話すと、最大14個の異なるオブジェクトを1枚の画像にブレンドできるようになりました。これによりはるかに多くのコントロールが可能になります。テキストプロンプトでプロフェッショナルグレードの画像を作成できます。複数の言語でテキストをレンダリングする際の能力が大幅に向上しています。
そして驚くべきことに、インフォグラフィックの作成に非常に優れています。さらに、複数の異なるアスペクト比で画像を作成する機能があります。オリジナルのNano Bananaに対する一般的な不満の1つは、画像はかなり良いものの、解像度が本当に悪く、実際には使用できないというものでした。しかし今では最大4Kの画像を作成できます。
実例による機能の検証
それでは例を見ていきましょう。入力例とプロンプトは「平面図、立面図、断面図でこの建物を説明する正投影図を作成してください」というものです。ここではフォーマット、つまりアスペクト比を定義していますが、ここで直接選択することもできますし、自動に設定すると、モデルが最適だと考えるアスペクト比を使用しようとします。
最初に気づくのは、Gemini 3 Proの上に構築されているため、チェーンオブソートが表示されることです。チェーンオブソートは本当に優れています。通常、最初は基本的に問題へのアプローチ方法、この場合は画像生成について考えています。次に初期デザインを考案します。
ここに初期レンダリングがあります。その後、ユーザーのリクエストが完全に含まれていることを確認するためにレンダリングを確認し、最後に実際の作成そのものが表示されます。これは他の画像生成モデルとは大きく異なります。なぜなら、通常は1回のショットで実行しようとし、チェーンオブソートを使用しないからです。
Google検索との統合機能
彼らが追加した新機能の1つは、Google検索で回答をグラウンディングできることです。これは非常にユニークな新機能です。しかし、モデルが実際にそれを使用できるか見てみましょう。Google検索を実行して、新しくリリースされたGemini 3モデルの新機能を見つけ、それについて非常に詳細なインフォグラフィックを作成できますか。
実際にはAPIキーを接続する必要があります。これは有料アカウントでのみ機能します。チェーンオブソートの間、Googleから最近発表されたGemini 3モデルの検索を初期化したと述べています。最初にGoogle検索を実行し、その検索結果に基づいて応答を作成しています。
中間インフォグラフィックを作成しました。実際に何が含まれているか見てみましょう。高度な推論とディープシンク、博士レベルの論理。テキストレンダリングは正確なようです。ベンチマーク支配では、実際にELOスコアを正しく取得しており、これは本当に素晴らしいことです。また、anti-gravityについても言及しており、そのロゴを作成しようとしたようです。
それは間違っていましたが、それでも画像生成モデルがこれを行えることは驚くべきことです。すべての機能を正しく取得したようです。なぜなら、Gemini agentについても言及しているからです。これにより4Kで画像を作成することもできます。それでは4K解像度を選択してみましょう。風景を作成してみます。そしてオリジナルのNano Bananaと直接比較します。
高解像度画像生成の実現
冒頭で述べたように、オリジナルのNano Bananaに対する最大の不満は、生成する画像の解像度が非常に低く、高解像度の入力画像を提供してもプロフェッショナルな用途には実際には使用できないというものでした。しかしこれを使えば、非常に詳細で、プロフェッショナルな作業に使用できる可能性のある非常に高解像度の画像が得られます。
これが最終画像です。Nano Bananaと同様に、ターゲットを絞った編集が可能です。天気を冬に変えてもらえますか。湖は完全に凍っています。チェーンオブソートの間、シーンを冬に変えることを考えていますよね。そして中間画像が表示されます。場合によっては、この画像とモデルが生成する最終画像の間にいくつかの違いが見られます。
その理由は、モデルが最初のバージョンを作成し、それを確認してすべてのリクエストと詳細に従っているかを確認するからです。そして従っていない場合は、別のバージョンを再作成します。ここで実際に検証しようとしているのが確認できます。ビデオの残りの部分では、他の機能をいくつかお見せします。モデルが何ができるかについて、いくつかの興味深い例を見てみましょう。この画像を提供しました。
ここでは、テキストの形式といくつかの視覚的な手がかりで指示を提供し、モデルに画像内のテキスト要件に従って画像を生成し、指示を削除するように依頼しました。これが出力です。本棚を配置しました。その人はギターを弾いていて、私たちが望んだとおりに植物があります。実際に人物に焦点を当てると、あまり変わっていません。
オリジナルのNano Bananaで抱えていた1つの問題は、出力解像度が通常使用できなかったことです。しかしここでは、かなり高解像度の画像が得られ、必要に応じて4Kまでアップスケールすることもできます。これはプロフェッショナルな作業に本当に役立ちます。しかしここで興味深いことがあります。次に、この参照画像を提供し、これらの照明条件で同じ画像を再作成したいと思いました。
本当に素晴らしいです。最初の画像のスタイルで2番目の画像を再作成してくださいと言いました。チェーンオブソート中の画像がここで確認できます。通常はいくつかの画像を作成しますが、これがまったく同じ照明条件に基づいた最終画像です。照明以外は何も変更しませんでした。これは本当に素晴らしいことです。
これにより、Nano Bananaで可能だったことと比較して、まったく新しいレベルの制御が可能になります。他の例として、画像の色を変更できます。これはインターネットで見つけました。そして今、出力はNano Bananaができたものと比較してはるかに優れた解像度になります。これも面白いものです。
この画像を提供して、このおもちゃをアンテナ、頭、体、手、首、車輪のコンポーネントに分解してくださいと言いました。そして実際にそれを異なる部品に分解できました。これは非常に賢いです。なぜなら、このモデルはGemini 3 Proの上に構築されているからです。したがって、何を見ているのかについての空間的理解があり、その結果、画像に存在するコンポーネントの空間的理解を持った画像を生成できます。これは本当に素晴らしいことです。
Google検索を活用した高度な画像生成
次に、非常に興味深い例を見ていきます。これはグラウンディングのためのGoogle検索の使用も示しています。Geminiテーマの高級レストランでnano banana料理の写真を作成してくださいと依頼しました。チェーンオブソートの間、まずユーザーが何を求めているかを考えます。
次に、1つ以上の画像を作成します。通常、チェーンオブソートでは1つの画像が表示されます。ここでは実際に画像を確認し、ユーザーが求めていることに従っているかを確認します。プロンプトにあるすべての視覚的コンポーネントがそこにありますよね。つまり、画像を作成し、それを確認してユーザーの指示に従っているかを検証するようです。
モデルが満足すると、最終画像が表示されます。この場合、モデルはGeminiテーマで画像を作成するように指示されました。ここではGoogleのGeminiモデルではなく、占星術の側面でGeminiテーマを使用しています。なぜなら、Googleについて特に何も言及していなかったからです。しかし、フォローアッププロンプトでは、GoogleのGeminiモデルテーマで高級レストランのnano banana料理の写真を作成してくださいと言いました。
この場合、Geminiモデルに焦点を当て、それをどのように追加すべきかを考え始めます。背景のテレビで本当に興味深いことをしました。Geminiロゴを配置しました。これは、Googleが使用したGeminiアセットの初期バージョンだと思います。これは本当に素晴らしいことです。つまり、そのトレーニングデータの一部にアクセスできますし、実際にGoogleで情報を検索する能力もあると思います。
ここでさらにいくつかの例をお見せします。GoogleのGeminiモデルテーマがあることを確認しながら同じものを再作成しました。これは本当に素晴らしく、まったく新しい可能性の世界が開かれます。Nano Bananaと同様にバーチャル試着ができますが、今では品質がはるかに向上しています。これが新しいドレスです。
人物が作成を見ているとき、中間画像を生成するチェーンオブソートが確認でき、この画像がプロンプトに従っていることを確認するために検証します。そしてここにかなり高解像度の出力画像があります。しかし、Nano Bananaと非常に似ているため、ここでモデルとチャットできるので、これでもっと多くのことができます。
ドレスを赤に、シーンをプロの写真スタジオに変更してくださいとも言いました。同じ人物、同じスタイル、同じドレスですが、今ではスタジオにいます。会話を長く続けすぎると、いくらかの劣化が見られることに注意してください。これはコンテキストウィンドウの限界に本質的に達しているため予想されることで、これが最終出力でした。
次に、高級レストランで夕食をとっているようにシーンを変更してくださいと言いました。そして彼女は同じ赤いドレスを着て高級レストランにいます。本当に素晴らしいですね。主なことは、Nano Bananaと同様に創造的なことができますが、はるかに優れているということです。そして今では、はるかに優れた解像度で画像を生成できます。
Nano BananaとNano Banana Proの比較
Nano Bananaに対する改善を実際に示すために、同じプログラムをNano BananaとNano Banana Proで実行しました。右側にはNano Banana Proがあります。左側がオリジナルのNano Bananaです。これは早期プレビュー中なので、モデルの名前を隠しています。プロンプトは基本的に、大きな鏡の前に立っている女性の画像を作成してほしいというもので、これはモデルが本当に興味深いシーンを作成する能力と指示に従う能力を示します。
現実世界では彼女は中立的な表情をしており、鏡に映った反射では彼女は恐怖で叫んでいます。Nano Bananaは指示にかなり忠実に従った画像を生成します。ここでは本当に良い仕事をしています。一方、Nano Banana Proもかなり良い仕事をしています。画像の品質は間違いなくProバージョンの方がはるかに優れていると言えます。これらのテスト全体で見られる一貫したテーマです。
これは、画像生成モデルがどれだけ優れているかを確認するために使用してきたもので、通常はかなり苦労します。2×2のコミックストリップに配置して画像を作成するように依頼しました。これは物語を語ります。パネル1ではロボットが空白のキャンバスの前で混乱した様子です。パネル2ではロボットが人間のアーティストを見ています。それからロボットは人間のアーティストから学び、そして人間とロボットの両方がロボットが作成した美しい作品に笑顔を見せています。
Nano Banana 1を見ると、実際にテーマに従っています。しかし、2番目のシーンでは、人間がロボットの上に絵を描いているのが確認できます。そして3番目では、Nano Bananaは基本的にプロットを見失いました。つまり、ロボットと人間の2人の代わりに、2人の人間を配置しました。
一方、これは一貫してかなり良い仕事をしているのを見てきました。ロボットと空白のキャンバスがあります。人間がそれをしているのを見ています。そして人間とロボットが笑顔でキャンバスに満足している様子があります。本当に素晴らしいです。次のプロンプトは、物理的世界の理解をテストします。繰り返しになりますが、Nano Bananaもまともな仕事をしています。
しかし、プロンプトは水中に魚眼効果を作成するように求めています。それは本当に非現実的または不自然に見えますよね。一方、Nano Banana Proは同じ効果をはるかに自然に作成します。ここでの出力の品質が非常に異なることを実際に感じることができます。Gemini Pro、Gemini 3 Proの上に構築されているためです。
したがって、現実世界についてはるかに優れた理解を持っています。この他の例は、このモデルがどれだけ優れた空間理解を持っているかを確認するためのものでした。革製の本の上に置かれた透明なガラスの立方体を作成するように依頼しました。ガラスの立方体の中には小さな浮遊する雷雨があり、左側には皮をむいた赤いリンゴがあります。
右側には燃えているろうそくがあります。Nano Bananaの出力を見ると、実際にリンゴ、ろうそく、そして正しい配置の立方体が表示されます。しかし、誰かがリンゴから一口かじったのが確認できます。Nano Banana Proの場合、はるかに高い解像度とはるかに高い品質で完璧な結果を生成します。
これは本当に気に入っています。ここでは、ドリームオーマティックと呼ばれる架空の機械の手描き図を作成するようにモデルに依頼しました。そしてラベル付けされるはずの異なる部品があります。入力スロット、ドリーム処理ユニットがあり、出力は現実としてラベル付けされる必要があります。
Nano Banana 1はかなりまともな仕事をしていますよね。しかし、Nano Banana 2はそれをまったく異なるレベルに引き上げていると思います。実際にドリームへの転換のようなものも追加しました。しかし、ここでの出力の品質は非常に優れていると思います。次のプロンプトは、モデルが私が言及した複数の異なるアイテムをレンダリングできるかどうかを確認するものでした。
この場合、Nano Banana 1はまともな仕事をしていると思います。しかし、銃を見ると、かなり奇妙な形をしています。一方、Nano Banana Proは完璧です。これらの並べて比較を見ると、Nano Banana Proがもたらす品質の違いを実際に感じることができます。Nano Banana Proは、コントロール、生成できる出力の品質、推論能力に関して間違いなく次のレベルにあります。
ぜひチェックしてみて、どう思うか教えてください。画像編集は来年には非常に異なって見えると思います。私たちはおそらく、自分で画像を編集するツールを使用するのではなく、モデルにプロンプトを出すことになるでしょう。それはまた、この分野でまったく異なる状況と新しいプレーヤーを見ることになるかもしれないことを意味します。
とにかく、このビデオが役に立ったことを願っています。ご視聴ありがとうございました。そしていつものように、次回お会いしましょう。


コメント