GoogleのGemini 3 Proを基盤とした画像生成モデル「Nano Banana Pro」の詳細な機能紹介である。このモデルは画像のゼロからの生成と既存画像の編集の両方に対応し、Google検索とのグラウンディング機能により、リアルタイムの天候情報や建築物の詳細など、外部知識を活用した画像生成が可能となっている。推論能力を活用した自己分析ループにより、生成画像がユーザーの要求を満たしているかを自動検証する機能を備えている。テキストレンダリングの精度が大幅に向上し、多言語対応や文化的な知識(タイの暦年変換など)も反映される。複数画像の合成、視点変更、スタイル変換、インフォグラフィック作成など、クリエイティブな用途に幅広く対応できる高度な画像生成ツールである。

Nano Banana Proの登場
さて、Gemini 3 Proのリリースに続いて、今週は新しいリリースがあります。それがNano Banana Proです。これが今まで待たなければならなかった理由は、基本的にGemini 3 Proが組み込まれているからなんです。そしてこのモデルは、Gemini 3 Proの最先端の推論能力、世界知識、そして複雑な構成をまとめる能力と、本当に優れた画像を作成する能力を本当に活用しているんです。
このモデルを際立たせているものの一つは、編集を行いたい場合に入力する画像にグラウンディングする能力です。つまり、このモデルはゼロから画像を生成することもできますし、画像を入力してそれを編集して新しい画像を作成することもできるんです。画像にグラウンディングすることもできますが、Google検索にもグラウンディングできるんです。
例を見ていく中でお見せしますが、これは本当にこのモデルのクールな機能の一つで、モデルに検索を通じて物事を調べさせて、その知識を実際に使って画像を作成できるということなんです。これらを実際にチェックする最も速い方法は、いくつかの例に飛び込んで、このモデルが実際に何ができるかをお見せすることだと思います。
AI Studioでの操作方法
AI Studioに入ってNano Banana Proを試してみたい場合、ここにいくつかの例などがあるのが見えると思いますが、いくつかの重要な設定もあることがわかります。まず、ここで希望するアスペクト比を設定できます。自動に設定すれば、プロンプトを通じて設定できますし、実際のモデル自体に基本的に決めさせることもできます。それから、ここに異なる解像度があります。これらの大きな解像度すべてが実際に画像のアップスケール版というわけではありませんが、フルサイズの4K画像などを得ることができるんです。
いくつかの画像関連のことをお見せするために飛び込んでみましょう。これは実際に画像エディターとしてだけでなく、画像ジェネレーターとしてもうまく機能します。何もないところから画像を生成することもできますし、基本的に画像から始めてその画像を編集することもできます。このケースでは、基本的に特筆すべきことのない、意図しないiPhoneでの撮影です。後ろにティラノサウルスがいる状態で走っている洞窟人の自撮りです。
これが最終的な画像ですが、ここに入って実際に何が起こっているのかを見ると、Nano Banana Proがどのように機能しているのか、あるいはこれがGemini 3バージョンでどのように機能しているのかについて少しわかります。まず、シーンを想像し、そこからコンセプトを開発し始めるんです。これは単なる思考のようなものです。明らかに生の思考にはアクセスできません。これはそれらの生の思考の要約です。そして、画像を作成します。画像を作成したら、実際にここで一種の自己分析が行われていて、この画像に基づいてユーザーの要求を分析し、この写真を調べたときに実際にすべてに適合しているかどうかを確認するんです。これがここで起こっている重要なことで、このループのようなものです。どの画像を作成するかを理解するために推論を使用しますが、その画像をチェックして実際に正しいものかどうかを確認するためにも推論を使用するんです。
視点変更と推論の活用
さて、その画像ができました。このモデルでできるクールなことの一つは、一つの画像を入力して、それが異なる視点、異なる側面、異なる角度などからどのように見えるかを想像させることができるということです。ここでは、男性とティラノサウルスを上から見下ろした写真を作成するようにお願いしていますが、確かに今では全く異なる何かを作成しています。これがこの種のシーンだったということは理にかなっていて、岩のような本当に小さなことにまで気を配っていることがわかります。一貫性を保とうとしているのが見えるでしょう。
ここを見ると、基本的にここで上からの角度で作業しているのがわかります。そして、これが本当に興味深いと思うものです。推論の力を示しています。ここでの結果の可能性が高い写真を作るようにお願いしました。これを見ると、ティラノサウルスは私たちの男性にかなり近づいています。
上からのショットを見ると、ティラノサウルスはさらに近づいているように見えます。では、結果の可能性が高いものは何でしょうか。おそらく、この場合は男性にとってあまり良くないものになるでしょう。そして、ここで何が起こっているのかを理解するために、基本的に推論を行うのが見えます。この画像は何度か生成する必要がありました。というのも、このようなケースでは、ブロックされた生成などが発生する可能性があるからです。ブロックされた生成が発生した場合、よくできることは、思考に入って、最終出力からブロックされる前の実際の生成を確認することです。
グラウンディング機能の活用
次に、このグラウンディングの概念を使用することをお見せしたいと思います。できることの一つとして、下に行ってGoogle検索でのグラウンディングをオンにすることができます。そして実際に生成を行うと、検索を行い、情報を見つけ、それを持ち帰って実際の生成で使用する能力があるんです。このケースでは、この画像を作成するようにお願いしていますが、100パーセント正確には取得できていません。実際にはこの側面の部分を左側に配置しています。これを見るとわかります。そして少し大きくしています。内部は実際にかなり正確に取得していて、夜の様子なども再現できています。ここから、実際にアスペクト比を渡すことで画像をフォーマットしたり、実際にそこに設定したりすることもできることがわかります。
もう一つの素晴らしいことは、ここで表現として持っているものから想像させることができるということです。この建物を説明する設計図が欲しいというケースで、確かに、設計図に必要なことを理解し、設計図を作成し、出力を提供してくれるのが見えます。
そして出力はここでかなり素晴らしいことがわかります。興味深いのは、設計図に16対9と書かれていることで、これは面白いですね。でも、確かに、いくつかのものがあることがわかります。グラウンディングのおかげで、実際にそこに地下室などもあることを知っているのかもしれません。
つまり、グラウンディングを有効にすると、実際に画像を生成している対象についての一般的な知識をより多く得ることができるということがよく見られるんです。それから、もしレオナルド・ダ・ヴィンチがこれをデザインしていたら何が違っていただろうかと尋ねることができます。わかりました。レオナルドのノートの一つのスタイルにずっと近い何かが出てきます。
これらの巨大な歯車などや、ここでの二重らせん階段のアイデアと一貫性があるかどうかはわかりませんが、レオナルドがノートに書いていたように、文字が反対になっているなどの特徴があります。グラウンディングのもう一つの例で本当に良かったと思ったのは、ブルックリンにいる誰かと話していたときのことです。
リアルタイム情報の活用
その人は当時外にいました。それで、大体どこにいるのか聞いたところ、大まかなエリアを教えてくれたので、グラウンディングをオンにして、そのエリアの今の天気の写真を作ってくれるように頼みました。ここの思考を見ると、Google検索を活用して現在の気象条件を特定することで調査を開始したと書いてあります。これがそのエリアです。
これが設定を正確に描写するための最初のステップです。そして、まだ場所を検索していて、これを通過してからまとめています。その人に写真を送ったところ、実際の状況の写真を送り返してくれて、それが興味深いことでした。明らかに完全に一致していたわけではありませんが、非常に似ていました。つまり、これは本当に驚くべきことで、私が理解している限りでは、実際にそこにある画像やライブ画像を探しに行っているわけではないんです。
基本的には特定の場所の気象条件を取得し、その場所がどのように見えるかを知っていて、その場所をその気象条件で再現しているだけなんです。そして、ここでもこの組み込まれた知識を活用できることがわかります。メルボルンの落書きの壁にユージーンのコーヒーハウスの広告を入れてくれるように基本的にお願いしたところ、背景にトラムを配置し、メルボルンで落書きが見られる路地に現実的な路地を作っています。
これはここに鏡があって、これを反射しているようです。ここに実際の広告があります。その広告はかなり簡単に操作できます。セレブリティを入れて、ジョージ・クルーニーを広告の一部にすることができます。突然、以前のキャラクターがいなくなり、今はジョージ・クルーニーがいます。クールなことの一つは、これがテキストの処理が非常に上手になったということです。完璧だとは言いませんが、テキストをレンダリングする能力が非常に優れています。
テキストレンダリングと多言語対応
クールなことの一つは、このようなテキストをレンダリングできるだけでなく、広告を正面から見せてくれるように頼むこともできるということです。これが正面からの広告です。そして、そのテキストをタイ語に翻訳してレンダリングしてくれるように頼むこともできます。今では基本的に同じ広告を複製していて、ユージーンのコーヒーハウスがタイ語で書かれていて、コーヒーハウスの部分を繰り返しています。
つまり、実際には、英語版は上部にユージーンだけがありました。なので、これは少し変更していますが、実際にはスペリングの種類があります。本当に興味深いことの一つは、タイについて何か知っているなら、そこでは年がずれているということです。ここには2023年設立とありますが、実際にはタイの年に変換していて、正確には2566年で、これはモデル自体の知識の深さを示していて、ここでの画像生成に活用するために使用しているんです。
画像合成とスタイリング
次に、できることの一つは構成のようなものです。ここで私の猫の何匹かの画像があります。それらすべてをそのベッドに一緒に配置しようとする場合、基本的にそう言うだけでいいんです。3匹の猫がベッドにいる写真を撮って、2枚目の画像から他の2匹の猫を追加してください。各猫は自分のスペースを持つべきです。そして確かに、5匹の猫をレンダリングできることがわかります。このような、物事を画像内でまとめることができる構成は本当にクールです。
これでできることの一つは、たくさんの異なるアクセサリーを含む画像シートのようなものを用意して、実際にそれらを一緒にレンダリングさせることです。それが人のファッションアクセサリーであろうと、部屋の外観であろうと、そのようなものです。
少し試してみた本当に素晴らしい例がここにあります。元々はこの女の子の写真だけです。基本的にできることは、これを一種のムードボードやファッションボードに分解するための簡単なプロンプトがあるということです。そして確かに、女の子の写真を保持していますが、今では赤いベレー帽、ツイードジャケット、さまざまなアクセサリーがあります。そして基本的に、それらのアクセサリーのいくつかを変更するように頼むことができます。
ジャケットを変更するように頼みました。そしてベレー帽をピンクにしました。今では画像が更新されているのがわかります。そして、フォトスタジオ内の完全なルックのバージョンを作って、iPhone 15で撮影したありふれたものにすることさえできます。確かに、レザージャケット、ピンクのベレー帽のルックがフォトスタジオで、シンプルなiPhoneで撮影されたものがあります。
インフォグラフィック作成
最後に、あと2つお見せしたいのは、このブログ投稿があって、そこに物事を説明する素晴らしい図がいくつかあります。この図までは実際には到達しませんでしたが、最初の3つの図を、何らかの素敵な方法でまとめてほしいので、それらの図をそこに配置して、飛行機の翼、エルロン、フラップの図解された視覚的な説明、一連の画像を作成し、これら3つの画像をガイドとして使用してくださいと言うことができます。そして確かに、それらの画像を取って、実際に何が起こっているのかを理解できるような何かをまとめることができています。この翼が揚力を与えるということです。
元の画像はこれとは完全に別のものでした。そして、欲しいものを手に入れたら、実際にかなり簡単にスタイル化できます。もっとハイテクに見えるようにしてくださいと言うだけでいいんです。
これを見ると、ハイテクとは何を意味するのかを理解していくのがわかります。このケースでは、シアンのラインで輝く青を意味していて、確かに、これに基づいた素晴らしいハイテク図が出てきます。これは私にとって本当にクールなことの一つです。もう一つの例をお見せします。Kimi K2 thinkingのビデオを作っていたときのことです。
その会社が行ったことのタイムラインを示すさまざまな方法を見ていました。これはかなりクールだと思ったのは、文字通りここに入ってGemini 3のようなものを使用できるということでした。グラウンディング検索をオンにして、Kimi K2 thinkingを含むすべてのMoonshot.AIリリースのタイムラインを作成してくださいと言うことができます。
そして、それが出かけていくのがわかります。そして基本的に、画像で何かをする前に、それらのリリースは何かをまとめます。3月23日の会社設立、途中でリリースされたさまざまなものがあります。そして、通常グラウンディング検索などを使用してGemini 3を使用している場合と同じように、引用などがあります。
得られたさまざまな検索を見ることができ、それからこれをインフォグラフィックにしてくださいと言うだけでいいんです。そして今、基本的にこのすべてを取って、ノードのようなものとして行うつもりだと言っています。そして、これをまとめ始めているのが見えます。当時は実際にこれを公に見せることができませんでした。
でも、これを取ってからさらに詳しく説明し、おそらくこれらすべてを表示したくない、特定のものだけを表示したい、どれが正しくてどれが正しくないかを確認するために少しチェックをしたいと言うことができたでしょう。でも、非常に速く、タイムラインが欲しいというアイデアから、このようなことを行うために使用できる本格的なインフォグラフィックに移行できることがわかります。
まとめと今後の可能性
ご覧のように、この新しいNano Banana Pro、つまり技術的にはGemini 3 Pro Imageモデルと呼ばれるものは、できることにおいて本当に驚くべきものです。元のNano Bananaのようなものですが、ステロイドを使っているようなものです。人々がこれをどのように使用するかについて、多くの創造的な用途が見られるようになるだろうと推測しています。
私は確かにこれで遊んでいて、これのための画像を作成することと組み合わせて、最初のフレームと最後のフレームの画像を作成させ、それからVeoのようなものに入れて完全なビデオをレンダリングできるようにしています。でも、テレビ番組、映画などのための完全なストーリーボードのセットを作成するためにこれを使用することさえできるだろうと推測しています。
そのようなことをするのは安くはないでしょう。そしてNano Banana Proを始めるには、実際にこのモデルを使用するために有料のキーが必要になります。私の知る限り、現在これを無料で使用することはできません。しかし、今からモデルが実際にローンチされるまでの間に変わる可能性があります。
いずれにせよ、何らかの画像生成に興味がある場合は、ぜひこのモデルをチェックして、特定のユースケースで試してみてください。私はこれに本当に驚いていて、私よりもずっと創造的な人々がいて、これを使用する全く異なる方法を実際に考え出すことができるだろうと推測しています。本当に良いプロンプトがあればコメントで教えてください。
私は確かにそれらを見て、自分で試して、人々が実際にこれで何を生成できるかを見たいと思っています。そして多くの人が、このモデルをプロンプトして、まだ考えてもいないことをさせる本当に良い方法の集まりを見ることに興味を持つだろうと思います。どう思うかコメントで教えてください。
いつものように、ビデオが面白いと思ったら、いいねとチャンネル登録をクリックしてください。次のビデオでお話ししましょう。それではまた。


コメント