Nano Banana – GoogleがPhotoshopを終わらせたのか?

Google・DeepMind・Alphabet
この記事は約10分で読めます。

Googleの新しいAI画像生成モデル「Nano Banana」は、従来の画像生成AIとは一線を画す革新的な機能を持っている。単発でキャラクターの一貫性を保持し、テキストプロンプトによる精密な画像編集が可能で、シーン全体の整合性も維持する。画像復元、インペインティング、アウトペインティングなど多様な機能を備え、API経由でのアクセスも可能だ。広告作成やバーチャル試着、3Dインテリアデザインなど実用的な応用例も豊富で、Photoshopのような従来の画像編集ツールに匹敵する可能性を秘めている。

Nano Banana - Did Google Just Killed Photoshop?
Hands-on with Google’s Nano Banana (Gemini 2.5 Flash Image): I show how to access it in AI Studio and via the Gemini SDK...

Nano Bananaの驚異的な性能

よっしゃ、ついにNano Bananaについて語れるでー!これはGoogleが出したモデルで、インターネット上で大炎上しとるんや。わしは早期アクセス権をもろてて、正直このモデルは最高に楽しかったで!

面白いことに、これは新しいGemini 2.5 flash imageなんやけど、単なる画像生成モデルやないんや。テキストも生成できるし、画像について推論もできるんやで。

そんでな、その結果として、今まで単発のモデルでは見たことがないレベルの次世代キャラクター一貫性を実現しとるんや。それに、テキストプロンプトに基づいて画像を非常に精密に編集することもできる。指示に従う能力も素晴らしいで!

でも一番ええところはな、このモデルがAPIを通して利用できることなんや。つまり、このモデルの上にさらに構築していけるってことや。

この動画では、ウェブプラットフォームとAPIの両方でモデルにアクセスする方法を紹介して、実際の出力例を見せていくで。失敗例とその対策についても見ていこうや。それじゃあ始めよか!

実例で見るキャラクター一貫性とシーン保持

まず最初に、これがLM arenaで利用可能やった時に、みんながめっちゃ楽しんでた例をいくつか見せたる。

このモデルの能力で指摘したいんは、一貫したキャラクターを作るだけやなくて、シーン全体も保持することなんや。ほら、この例を見てみ。これが入力画像や。シーンの他の部分にも注意してくれよ。窓が2つ、ランプ、背景の絵、それに何かの植物みたいなのもあるやろ?

画像に見える変化は全部、シンプルなテキストプロンプトに基づいとるんや。人物はめちゃくちゃ一貫しとるやろ?既存の画像モデルでも似たようなことはできるけど、たいていの場合はその特定の個人についてLoRAを訓練せなあかんねん。この場合は、テキストプロンプトと入力画像を提供するだけで全部やってくれるんや。

そしてな、この4つの画像全部を通して、シーンの残りの部分も一貫しとるんや。これがめちゃくちゃ重要なポイントやと思うで。画像生成モデルは元の画像に欠けてる詳細をたくさん追加したり、幻覚を起こしたりすることが多いんやけど、このモデルはそうやないんや。

さらなる実例と実用的応用

他にもいくつか例を見てみよか。多分これは他の動画でも見たことあるやろうから、サクッと行くで。わしが見せたいんは、このモデルの実用的な応用例や使用例なんや。

これはD studio projectのやつや。ここに入力画像がある。プロンプトは「ビリヤード台の上に座らせる」や。この画像とこの画像を比べてみ、キャラクターがめっちゃ一貫しとるやろ?

ここからが面白いとこや。生成されたこの画像を、テキストプロンプトと一緒にモデルに戻して、また別の画像を生成できるんや。この画像とこの画像を見てみ、めっちゃ一貫したキャラクターやろ?シーンの残りも非常に一貫しとる。ここに3つライトがあって、ここにも3つライト。それから看板もいくつかあって、全く同じ看板が見えるやろ?

ちょっとアーティファクトがあるけど、簡単に修正できるし、めっちゃ印象的なモデルやで。

ここに3人が写った別の画像がある。プロンプトは「カクテルグラスを持たせて、2人の女の子の間にアイアンマンを入れる」や。これもめっちゃええ仕事しとるやろ?

精密編集と画像復元の威力

こっちは別の例で、これがベース画像や。プロンプトは「テーブルのアイスティーを飲ませる」やった。実際にはアイスティーを削除せんかったんやけど、彼女が持ってる別のアイスティーを追加したんや。でも次のプロンプトで「テーブルからアイスティーを削除」って言うたら、めっちゃええ仕事してくれたで。

これらの画像を通して気づくと思うけど、背景にこの人が見えとるやろ?背景に別の影もあると思うんやけど、後続の画像には出てきてへんねん。こういう小さなことはちょこちょこあるけど、全体的にはシーンを保持してくれとる。

もうちょい狙い撃ちの編集は後で見せるけど、これの最大の使用例は広告作成やと思うで。例えばここに、バッグを持った女の子がおる。プロンプトは「バッグを2番目の画像と交換」や。これが参考画像で、問題なく置き換えてくれとる。今はバーチャル試着にも非常に似たセットアップが使えるで。テストしてみたけど、めっちゃええ仕事するわ。何か作ってリリースするかもしれんな。このモデルでバーチャル試着ができるかもしれへんで。

小さな編集だけやなくて、インペインティングとアウトペインティングの両方もできるんや。例えば、ここにベンチに座ってる人の元画像がある。遠くに家が見えるやろ?アウトペインティングでは、基本的に元画像にはなかった詳細を追加するんや。要するにズームアウトした感じやな。ベンチに座ってる人と後ろの家が見えて、この画像の全体的な構成は前の画像と全く同じやで。

顔のクローズアップもできるで。インペインティングもアウトペインティングも両方可能なんや。インペインティングはシーンに人を追加したり、オブジェクトを追加したりすることや。複数の異なるオブジェクトを持ち込んで構成を作ることもできる。

実際にモデルにアクセスしてみる

モデルに実際にどうやってアクセスするか見せたる。これはAI studioで利用できるで、少なくともわしがアクセス権を持ってるのはそこや。今のところnano bananaって呼ばれてるけど、多分名前は変わると思う。

出力フォーマットは画像とテキストの両方や。画像を入力として提供することもできるし、テキストを入力として提供することもできて、このモデルから画像とテキストの両方を出力として作れるんや。

どんなことができるか例を見せたる。この画像をアップロードした。AI生成画像やけど、めっちゃ忙しい画像で、この画像に非常に狙い撃ちの編集ができるか見てみたかったんや。

まず最初にやりたかったんは、このサンドイッチをハンバーガーに置き換えることや。「サンドイッチをハンバーガーに変更してくれる?」って言うただけや。めっちゃ賢いで。画像の中でサンドイッチがどこにあるかを理解して、ハンバーガーに置き換えただけで、他は何も触らへんかったんや。

両方の画像を見てもらったら分かるけど、画像の残りは何も変更されずにめっちゃ一貫しとる。他に気づいた変化はこのカードぐらいかな。ここにあるけど、ハンバーガーを追加したから多分隠れたんやろ。

そんで画像の編集を続けられるんや。同じ画像で、画像を再アップロードせずに「コーヒーカップをスターバックスカップに置き換えてくれる?」って言うたんや。これも全く問題なくやってくれた。画像を見る能力があって、画像理解ができて、空間推論もできるんや。最初の編集と一緒にスターバックスカップだけを追加してくれた。

次の編集では、ラップトップにYouTube動画を表示するように頼んだ。めっちゃ賢いで。猫の動画を表示してくれて、これがめっちゃ面白い。

画像復元機能のテスト

このモデルは画像復元もできるんや。この古くて損傷した画像をコピーして、ここに貼り付けるで。これで画像生成と編集のリアルタイムスピードも見せられるはずや。

「この画像を復元して、それに基づいて新しい画像を作成してくれる?」って言うてみる。ちなみに、ここで使ってる音声認識システムは自分で作ったやつや。個人的な使用のために構築したシステムなんやけど、興味があったらコミュニティと共有するで。

この画像にどれだけ負荷がかかってるかによって、時間がかかることもあるけど、めっちゃ素晴らしい仕事をしてくれたと思うで。

これが元画像やろ?鼻の部分が間違いなく損傷しとる。そしてこれが復元画像で、めっちゃええやん。指や手に何かしたか見てみよか。ここにも水損傷があるみたいや。これはもうちょい色付きの画像やけど、キャラクターの一貫性はめっちゃええな。

「画像を復元して。色は追加せんといて」って言うてみる。今度は多分この画像を処理するやろうけど、マルチターン会話ができるから…あ、実際は元画像やなくてその画像を処理したんやな。それでもめっちゃ印象的や。

「この画像を復元してくれる?色は追加せんで、損傷部分だけを修復して」って言うてみる。

同じ画像を取って、GPT-4の画像生成に渡してみよか。この場合、これが元画像で、これが修復画像や。めっちゃええやん。誰も歪めてへんと思う。元画像を正確にそのまま保持してくれとる。このモデルにはめっちゃ感心したで。

同じ画像と同じプロンプトをGPT-4の画像生成モデルに送ってみる。これはかなり時間がかかるから、後で戻ってくるで。Gemini 2.5 flash imageは数秒でできたのにな。

3Dインテリアデザインへの応用

「この画像に基づいて3Dインテリアデザインを作ってくれる?」

家のスケッチを提供して、この画像に基づいて3Dインテリアデザインを作れるか聞いたんや。何を作ってくれるか見てみよか。

うわー、これは実際にめっちゃ印象的やで!全ての要素がそろっとる。元画像を見せたる。メインベッドルームがあって、これは別のベッドルーム。3つのベッドルームがあるんや。リビングエリア、これはキッチンのはずや。

そんでこれがやってくれたことや。この3つのベッドルームが全部、元の通りにある。これは反転させたと思う、ベッドがこっち側にあるから。それが1つの変化や。ベッドの配置に関してはいくつか変更を加えたと思うけど、全体的にはめっちゃ印象的やで。実際に、元のスケッチにあった全てを保持してくれとる。これはめっちゃええやん。

GPT画像生成や復元プロセスは、実際にいろんなフィルターを適用しようとした。伝統的なコンピュータビジョンのアプローチを取って、OpenCVのCV2を使ってる。この画像とこの画像を生成した。期待してたのとは違うな。間違いなく、この新しい画像生成モデルは画像復元がめっちゃ得意やで。

アスペクト比の問題と解決策

でもこのモデルには1つ大きな問題があって、1対1の正方形アスペクト比の画像を作る傾向があるんや。少なくともこのテストの時点では、16対9みたいなアスペクト比で画像を作るのを強制するのがめっちゃ難しい。でも回避策があって、どうやって欲しいアスペクト比で画像を作るか見せたる。

「山からの夕日の風景画像を作って」

これはめっちゃシンプルなプロンプトや。元の画像生成では、めっちゃかっこいいものを得るためにはもっと詳細なプロンプトが必要やろうけど、これで風景画像を生成するはずやけど、モデルからの出力を見てみよか。

案の定、風景やなくてむしろ縦の画像やけど、画像出力はめっちゃ素晴らしいやん!ここに人がおって、いろんな山があって、夕日を見とる。でも16対9のアスペクト比で再生成するか置き換えるように頼んでみよか。

「全く同じ画像を16対9のアスペクト比で再作成してくれる?」

転写はちゃんと見えるで。送ってみよか。

また、非常に似たアスペクト比の画像が出てきた。なんでか、指定したアスペクト比に従ってくれへんのや。

誰かが、欲しいアスペクト比のマスクを使って、そのマスクに画像を作るように指示することを勧めてくれた。ここに空白の画像があって、これがうまくいくか見てみよか。

「提供された画像に山からの夕日の風景画像を作って」

送ってみる。うまくいかへんかった。面白いな。基本的に1024×1024の解像度を、この風景画像の中に入れてしまった。

「この画像に夕日のシーンを追加して」

今度は少し進歩してるんちゃうかな。この時は風景画像により近くなった。全体をカバーしてへんけど、それでもかなりええ進歩やで。

API使用方法

APIを手短に見せたる。Google Colabノートブックを簡単に説明するで。このモデルには同じGemini SDKが使える。モデル名を提供する必要があって、うちの場合はNano Bananaになる。

Gemini 2.5 Flashのネイティブ画像生成を使うのと同じようにテキストプロンプトを提供したら、非常に似てる。画像を作ってくれる。画像を入力として提供して、テキストプロンプトと一緒に提供したら、その画像に狙い撃ちの編集をしてくれる。

例えば、次の例では暗い路地に置いて、同じSDKを使って実際にチャットモデルとしても使える。例えば、最初にクライアントを作って画像を作成する。これはテキストプロンプトに基づいて生成された画像で、そんで作成したチャットインターフェースやチャットクライアントを通してその画像にさらなる変更を加えていく。

nano bananaでこのSDKの上に構築したかったら、できるで。めっちゃ素晴らしいモデルや。アクセスできるようになったら、ぜひ遊んでみることを強くお勧めするで。めっちゃ楽しいし、めちゃくちゃ便利や。

とにかく、この動画が役に立ったら嬉しいで。見てくれてありがとう、いつものように次の動画で会おうな。それじゃあまたな!

コメント

タイトルとURLをコピーしました