GoogleのNOVO Nano-Banana(かもしれない)がみんなを驚かせててテスト結果も最高や

Google・DeepMind・Alphabet
この記事は約17分で読めます。

Google Nano Bananaと呼ばれる新しい画像生成AIモデルについて詳しく検証している。このモデルがGoogleの開発であるかは不明だが、LM Arenaで実際にテストができる状態となっている。従来のPhotoshopに代わる可能性を持つとされ、画像編集、テキスト生成、人物の合成など多岐にわたる機能を提供する。特にプロンプトへの忠実度と画像品質の高さが注目されており、OpenAIの画像生成モデルに匹敵する性能を示している可能性がある。

NOVO Nano-Banana da Google (ou não) Surpreende Geral e os Testes São Excelentes
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Google Nano Bananaの登場とその謎

みなさん、Nano Bananaがみんなの注目を集めとるんや。これがGoogleのもんなんかどうか疑問符が付いとるけど、いったい何が起こっとるんか理解していこうや。この人工知能の画像生成モデルが、俺らが想像しとる通りのもんなんか、Googleのもんなんかどうか、そして世間で言われとることを全部見ていこうや。ほな一緒についてこいや。そうや。

さあみなさん、いつものようにいいねを押してくれたみんな、チャンネル登録してくれたみんなにお礼を言わせてもらうで。特に、このAIチャンネルをスポンサーしてくれとるチャンネルメンバーのみんなには感謝しとるわ。メンバーの人らは、インテリジェントエージェントの限定動画にアクセスできて、WhatsApp連携の作り方やPDF読み込み、MCP連携、文書作成とか他にもぎょうさん教えとるんや。それに先行配信の動画も見られるんや。

まず最初に言わんとあかんのは、動画の投稿が減っとることにもう気づいとると思うわ。前にも話したけど、もう一回強調しとく。インテリジェンス1000度のスタジオで色々変更しとるんや。だから近々ニュースがあるで、今まで見慣れたもんとは全然違うもんが出てくる予定や。

色々新しいことが待っとるから、今月はまだややこしい月になるけど、来月に入ったら本格的に動き出すで。ほな今日のニュースはこれや。Nano Bananaが元Twitterで絶対的なトレンドになっとって、みんなが新しいPhotoshopやって言うて、これからずっと使われるって話しとるんや。

見てみ、ここにサタナデラとサンダー・ピチャイがおって、ビーチの写真があるやろ。「この3つを組み合わせてみ」って言うたら、2人がビーチでかっこよう写っとる写真ができるんや。これが今話題の新機能やって言われとる。一部の人はこれがGoogleのもんで、もうすぐリリースされるって言うとるけど、実際に分かっとることは、このモデルがテスト用にLM Arenaで公開されとって、秘密のモデルやということや。

俺が実際にやってみたテストと結果を見せるから、この理論が正しいかどうか確認してみよう。例えばここで、基本画像を送るやろ、この2人がゲームのシーンにおる画像を。そしたらこの基本画像を使って「この2人をビリヤード台に座らせて」というプロンプトを入れるんや。

そしたら、このゲーム画像からビリヤード台のコンテキストに変わるんや。元は後ろ向きやったのに、今度は前向きになっとる。明らかにここで一貫性があって、髪の毛も、画像の中の人も同じ人や。これは素晴らしいで。そしてここの2番目の画像では「今度は2人にビリヤードをさせて」って言うんや。1人が攻撃的にショットして、もう1人がそれを見とるようにするんや。まさにそれが起こったんや。

もちろんAIには変なところもぎょうさんある。テーブルの上にキューが放ってあったり、太陽系みたいに見える玉がぎょうさんあって、ビリヤードをしとるというよりは太陽系みたいになっとる。ゲームの最初にしかないはずの三角形もあるしな。

驚異的な編集機能の数々

同じスタイルで3人がおる画像もある。例えば乾杯させとるシーンにするんや。もう完全に意味が変わっとる。真ん中にトニー・スタークを入れることもできる。嫉妬したら自分自身を入れることもできるわな。

他にもぎょうさんコンテキストがある。例えば基本画像を置いて、色んな変更を頼んで全然違うものにシーンを変更し始めるんや。どうやらPhotoshopに大きな変化が来そうで、もしかしたら忘れ去られることになるかもしれへんな。

一部の人がここで言うとるのは「GoogleがNano Bananaのリリースを確認して、今まで見た中で最も狂った画像生成モデルや」ということや。正直、そんな確認をあちこち探したけど、誰も確認してへんようや。でもこのCrystalの投稿では「Nano Bananaを使った、Googleが確認した」って言うとる。またGoogleが確認したって言う人がおるけど、実際にはLM Arenaで使っとるんや。

彼女がやったのは画像を取って、テキストを変更して「Hi, I am crystal, I need more followers. Please follow my thing」というテキストを入れることや。つまり画像編集を使っとって、元のテキストは「Hi, I am Ry, I am one」とかそんなことを言うとったんを変更したんや。

これがなんで面白いかというと、画像内でのテキスト生成をちゃんとやれるモデルは少ないからや。例えばFluxやOpenAI、あと1、2個挙げられるくらいやけど、Google自身のImage 4でも、特に長いテキストに関してはまだそれほど一貫したテキスト生成ができてへんのや。

でも面白いことに、これがGoogleのもんかどうか疑っとる人に対して、コメントしたのを見てみ。バナナの絵文字、Logan K. Patrickや。この人はGoogleのプロダクトリーダーなんや。だから、もしこのNano BananaがGoogleの名前やということを知っとる人がおるとしたら、この人は絶対知っとるはずや。こんなブラフはせんと思うで。50万人がこのバナナの絵文字を見とるんや。

3Dマスキングと高度な画像処理

他に素晴らしいと思った使用例がこのグリッドがあるやつや。ここで人がコメントしとることを見てみ「おそらくこれがNon Bananaが最初に3Dオブジェクトをボリューム的にマスクして、その後その空間内で編集する証拠やろう。実際の人物に対して合理的に正確な3Dグリッドマスクを生成するプロンプトを慎重に作る前は、プログラムは苦戦しとった。スケルトンとグリッドマスクが元の図形と整合性を保てんかったからや。

代わりに元の画像からは程遠い新しいグリッドとスケルトンを作っただけやった。でも詳細なワイヤーフレームメッシュを手動で作成する効果的なプロンプトを提供した後は、つまりここで見とるこのグリッドみたいなもん、この人の体のメッシュがちゃんとできとるやつやけど、パフォーマンスがずっと良くなった。

まだまともな結果を得るには何回か試行錯誤が必要やったけど、スケルトンがグリッドメッシュにもっと正確に従うように2番目のプロンプトを洗練すれば、問題は解決できると思う。」何が起こったかというと、画像にスケルトンを適用するよう頼んだんや。

ここを見たら頭蓋骨が少しずれとるけど、基本的にはスケルトンがちゃんと合っとる。ここではもう少し繊細なスケルトンが写真の上に置かれとる。完全に理にかなっとって、全部完璧や。

まだ画像編集の流れで、有名人を取って別の有名人を置いて、この2人が一緒に自撮りしとるように堂々と合成できるんや。実際には人生で一度も会ったことないのにな。

商品マーケティングへの応用

他に面白いことは、例えば商品を生成できて、画像の参考を作って、この参考を使って実際には存在せんくて見たこともない商品の新しい画像を他のコンテキストで作ることができるんや。でもちゃんとした写真、きちんとした画像があれば、素晴らしい編集ができるんや。

これがマーケティングの未来やな。プロンプトエンジニアになることや。画像の色付けにも使える。おじいさんやおばあさん、ひいおじいさんの古い白黒写真があって、色付けするのに苦労しとったとしよう。今は画像を送って「色付けして」って言うだけで、すぐに色付きになるんや。

何か写真があって商品を身に着けたいときは、カバンを取って違うカバンに変える。メガネなしの写真にメガネをかける。気に入らん本の表紙を変える。寒い中でブラウスなしの写真にブラウスを着せる。もう何も問題やない。

この画像を見てみ。元の画像にはこの全部のぼかし効果があって、こんなベクターがあるやろ。この人がNano Bananaに入れて、同じスタイル、同じ興奮、同じ色レベル、同じパレット、同じアイデアで画像を生成し始めたんや。全部完璧に引き継がれとって、あの長い時間をかけて何が起こっとるか理解する必要がないんや。

Google製品であることの証拠

でも俺らがこれがGoogleのもんかどうか疑問に思っとったら、このFluxの投稿を見てみ。はっきりとこう言うとる「Google Nano Bananaの紹介、Yakの謎めいた画像ジェネレーターが創造性を再定義する」と。Patrickがバナナの絵文字について話しとることや、FluxがGoogleのもんやって言うとることや、そして「今日Flux AIで実験できる」って言うとることからしたら、俺も試したけどうまくいかんかった。先にネタバレしとくけど、動かんかった。

少なくとも俺にはモデルが選択肢に出てこんかった。何かお金を払わんと出てこんのか分からんけど、テキスト自体はGoogleやって言い続けとるものの、はっきりと確認はしてへん。こう書いとる「謎めいたリリースが憶測を呼んだ。Nano Banana GoogleはImagenやGeminiに関連する内部プロジェクトなのか、それとも他のAI大手による秘密のリリースなのか。公式声明がないため、起源は不明のまま。」

だからもう諦めたらあかん。全部Googleのもんやと思われるけど、誰も責任を取ろうとせえへん。でも、とにかく今日LM Arenaかこの俺が話したFlux AIでアクセスできるって言うとる。俺はここをクリックして、アクセスしようとしたけど、モデルが出てこんし、この生成を直接はできひんかった。

LM Arenaでのテスト方法

「じゃあどこでテストするん?どこで使うん?」って思うやろ。LM Arenaに入らんとあかん。AIバトルをやっとる場所や。LM Arenaの中で画像生成を選択するんや。

画像生成を頼んだら2つの選択肢をくれる。どっちが気に入ったか選んだら、後でどのモデルがその画像を生成したか教えてくれるんや。例えば「インテリジェンス1000度と書かれた表紙の本を読むワニ」というプロンプトを送ったとしよう。

2つの画像の生成に時間がかかって、アシスタントAの画像とアシスタントBの画像が出てくる。ここで見られるように、ワニが本を読んどる。「インテリジェンス1000度」と書いてある。ワニがメガネをかけて本を読んどる。もう一匹のワニもここにおって、「インテリジェンス1000度」も本を読んどる。俺の図書館に座っとる。

どっちが気に入ったか選ばんとあかん。左か、引き分けか、両方悪いか、右か。俺は右を選ぶわ。気に入ったからな。そしたらここの上を見てみ。どのモデルがこれらの画像を生成したかが出てくる。終わった。これはIdeogram V2で、これはFlux 1 Schnell Devや。だからいつかはNano Bananaで生成されることになるんや。

実際のテスト結果と比較

でも俺がもうやったことと俺の生成についてコメントして、他のモデルも含めて比較して、状況がどうなっとるか分かるようにしよう。俺が作ったプロンプトはこうや「ブラジル代表のユニフォームを着てスケートボードに乗ってる人がリオデジャネイロのコルコバードの上、キリスト像の隣におる」。

例えばこのPhotonモデルは、キリスト像を置いて、シュガーローフもあって、ブラジルのTシャツを着てスケートボードに乗る人がおる。この画像はプロンプトへの忠実度に関して素晴らしい。頼んだことが画像に現れるかどうかということや。

だから俺が頼んだ要素が全部ここにある。画像の質自体はとても良いんやけど、スケートボードの人がコピペされたような感じで、貼り付けられたように見える。

このGemini 2.0 Flashの方も良くできとる。キリスト像があって、ブラジルのTシャツを着てスケートボードに乗っとる人がおる。こっちの方が少し良い。これは本当に代表のユニフォームやからな。あっちはブラジルって書かれただけのTシャツや。そして携帯で撮った写真みたいな雰囲気があって、観光客がコルコバードで写真を撮っとるみたいに意図的に見える。

でもここでFluxの生成が出てきて、コルコバードの坂道をスケートボードで滑っとる人の写真や。でもここでNano Bananaが出てきた。スケートボードに乗っとる写真や。俺は素晴らしいと思った。見てみ、シュガーローフがあって、キリスト像がある。この人は腕を広げとる。まるで自分がキリスト像みたいに、スケートボードに乗って、ブラジルの国旗がスタイリッシュで美しく、とてもリアルなもんや。

これは本当に素晴らしかった。みんなはどう思う?下にコメントして何を考えとるか教えてくれや。次に続けたのは、カナリア・インデ・アラ(黄色、青、緑で白い顔のオウム)と赤いカナリアもおって、クリチバの目の博物館の上を飛んどるんや。

クリチバの目の博物館、オスカー・ニーマイヤー博物館は、一般的に画像生成器が知らん参照や。俺はこれを挑発として、あの博物館がどこにあるか学習済みかどうか見るためにやっとるんや。博物館の写真をここに置いとく。カピバラが日光浴しながらパラソルの下でカイピリーニャを飲んどる間に。

各モデルの性能比較

ここで見られるように、Dalleの生成では、プロンプトへの忠実度は常に素晴らしい。OpenAIは書いたことが画像に現れるという忠実度の点で常に優秀やった。だからカピバラがカイピリーニャを飲んどる。パラソルの下にカナリア・インデ・アラがおる。でもここで目の博物館、実際にはニーマイヤーのは、ニーマイヤーの作品の色んなものが混ざったもんになって、クリチバの目の博物館やない。

でも悪いプロンプト忠実度の例として、このIdeogram V3は最悪の忠実度や。この画像はとても可愛いな。犬とカピバラの混合みたいに見えて、カイピリーニャもあるけど、俺が頼んだ要素、アラもパラソルも色々なもんが欠けとる。これは美しい画像やけど、プロンプト忠実度が最悪の例や。

でも俺は色々生成し続けた。例えばここでは何もないところの農場でバクみたいに見える。このFluxの方がもう面白くなっとる。もうアラがおって、カピバラが日光浴しとる。俺が言ったように、ニーマイヤーの目の博物館はほとんど正しく出てこない。そしてFluxのモデルが色々生成して。

Image 4とQueen Imageになったときに状況が変わり始める。カピバラがちゃんとカイピリーニャを飲み始める。アラも現れる。これが目の博物館の最良バージョンやった。最も目の博物館に似とるからや。でも目の博物館とブラジリアの大統領府の混合や。

このQueenのバージョンもとても良い。カピバラがカイピリーニャを飲んどって、パラソルがあって、アラがおって、サンパウロの博物館に目が乗っかったみたいになっとる。それも違うけど、少なくとも要素は現れ始めた。そこで俺はプロンプトを変えて、オスカー・ニーマイヤー博物館と言った。そしたら初めてImage 4とNano Bananaが。

そうなんや、Nano Bananaが右側を生成して、左の写真と右の写真の類似性から何かが疑われる。同じアイデアやろ?目の博物館が国会と目の混合になって、カピバラがおって、パラソルがあって、両方の画像で正しく表現されとる。

この宇宙船みたいな博物館もニーマイヤーの作品やけど、目の博物館やない。そこで俺はプロンプトを変えた。「ジャガーがサンフォーナを演奏して、オウムと一緒に歩いて、バイアのペロウリーニョの通りでランピオンの帽子をかぶっとる」。このランピオンの帽子の部分で、俺はヴィルジュリーノのことを言いたかった。後でこのプロンプトを変更し始める。ほとんど誰も正解できんプロンプトやからな。

でも興味深いことに、このImage 4は、ジャガーがサンフォーナを演奏しとるのをちゃんと作った。オウムがおって、ランピオンの帽子やないけど帽子をかぶっとる。このLucid Originで俺が言った通りのことが起こっとる。プロンプト忠実度が最悪で、俺が頼んだことが全然現れてへん。

Lucid Originがまた現れて、全然関係ないもんを作っとる。GPT Imageがここで、少なくともオウムがおって、ジャガーがおって、サンフォーナを演奏しとって、バイアにおって、あの家々、家の通りがあって、初めて、先に言っとくけど、ランピオンの帽子を生成した唯一のモデルやった。

他は誰もこのランピオンの帽子を生成できんかった。これは重要なことや。OpenAIはプロンプト忠実度で目立ち続けとって、ほとんど誰も置けんものを置いとる。そしてこの絵のフォーマットの画像、これはもっと現れるけど、Dalleの生成があって、Flux Schnellの生成もあって、それも素晴らしくて、とても良い。Flux 1 Proのバージョンもあって、基本的にバイアのスーパーサイヤ人になって、Recraft V3のバージョンもとても良くて、詳細を見ると絵画、ある種のスタイルを持った絵みたいやけど、それでもFluxとIdeogramは一貫性がなくて、プロンプトでジャガーの代わりにサルを生成したりしとる。サンフォーナは正しいけどな。

でもここで、初めてこのQueen Imageのバージョン。どんなに美しくできたか見てみ。美しいジャガー、美しいカナリア・インデ・アラ、よくできたアコーディオン、素晴らしい風景、照明、コントラスト、写真、全部とても良い。今まで生成で見た中で最も美しい写真の一つやった。Queen Imageで作られたんや。とても興味深い。

Anonymous Botの驚異的な性能

OG Granは街の牛の写真みたいなとても美しい写真を生成した。Image 3もとても美しい画像を生成したけど、プロンプト忠実度がない。そしてImage 4もバイアの街でサンフォーナを演奏するジャガーのとても美しい画像を作った。

俺の注意を特に引いた別の画像生成器がこのAnonymous Bot 0514や。このジャガーの品質を見てみ。創造性において最も気に入った。初めてジャガーが人間の手の形の指で現れて、まるでジャガーの皮膚を持った人間みたいやった。

これが最も美しいジャガーの人間化やった。ランピオンの帽子の代わりにメキシコの帽子で現れたけどな。City Dream 3も素晴らしい生成をしたのも興味深い。サンフォーナというよりガイタのように見えるけど、絵画のテクスチャを置いて、素晴らしいカナリア・インデ・アラを置いた。

ランピオンが本当にランプになって、ランピオンの帽子やない。帽子はカウボーイハットとメキシコハットの混合みたいやけど、この画像は本当にリアルやった。最も気に入った画像の一つやった。そしてAnonymous Botもここで一貫性を保って、また指があって人間らしい外見のジャガーを生成した。

バリエーション生成とブランド認識

あのジャガーの画像が気に入ったから、モデルにバリエーションを作るよう頼み始めた。「ジャガー男をパウリスタ大通りの街を歩かせて」と。そしたらジャガーを置いて、パウリスタの人々が歩いとる。ここはパウリスタやないけど、もう都市の風景にあって、編集も良くできとることを示しとる。

でもふざけて「ジャガー男にDasluで新しいスーツを試着させて」って置いた。そしたらプロンプト忠実度の連中が出てきた。例えばFluxにはスーツがあるけどDasluがない。Gemini 2.0にもスーツがある。もう少しお洒落なもんになったけど、Dasluもない。

最初にDasluっぽいもんを置いたのは、Dasluやないけど、もうジャガーの顔がちゃんとし始めたのはSed Edit 3.0やった。この写真が最初の美しい画像で、もう手をポケットに入れたスタイリッシュなジャガーがおって、本当にスーツを着とることが現れ始めた。

最も驚いたのはそれまではGPT Imageやった。美しいだけやなく、ブランドも置いただけやなく、画像が完璧やった。ジャガーがスーツを着て、美しいスーツ、美しい品質。ここのジャガーの手、全部スタイリッシュで、とても素晴らしい。

この画像が最初に俺の注意を引いた。続けてまたGPT Imageの画像が生成された。同じことで、美しい画像、Dasluとちゃんと書いてある、メキシコの帽子をかぶっとる。ここのアラがとても良くて、ここの手がとてもジャガーのテクスチャで人間らしい。これはOpenAIが画像生成で本当に素晴らしいことを示しとる。

Nano Bananaの傑作

でもいつかはNano Bananaのバージョンが出てくるはずやろ?Nano Bananaのバージョンを見てみ。これは本当の芸術作品や。手がとても自然や。ジャガーが素晴らしいスーツを着とる。環境が美しい。Dasluと書かれた小さな袋がある。とても控えめや。見とる人には分からんかもしれん。

ズームしてみよう。ここや。とても控えめにDasluと書いてあって、ここに仕立て屋が

fd

服を選ぶのを手伝っとる。本当にこのバージョンも俺の注意を大いに引いた。でも面白い詳細は、見とる人には分からんかもしれんけど、画像はとても良いけど、品質はまだもう少し良くなれるはずや。

画像の解像度で俺が気づいたことや。この画像は最高の一つやけど、まだ超高解像度やない。これにはいくつかの説明があるかもしれん。もしかしたら今使っとるこのモデルはテストモデルで、このモデルはGPUが可能な全てを使う意図がないんかもしれん。

そしてこのモデルはもしかしたらより低い解像度のバージョンなんかもしれん。でもこの画像は例外的や。もしこれがGoogleのもんやったら、OpenAIと同じレベルの競合相手が初めて現れることになる。テキスト生成ができて、異常に高い忠実度でプロンプトができて、素晴らしい品質ができるんや。

状況は進歩しとって、とても狂ってきとる。そしてNano Bananaがジャガーがサンフォーナを演奏する生成ができんとは言わせん。最終的に補欠でNano Bananaの2つのバージョンができて、ジャガーがガイタを演奏する生成を作った。これはとても興味深い。

彼女が演奏しとるこの楽器はサンフォーナやなくてガイタや。ここで使っとる小さなキーボードから分かる。そして床の照明を見てみ。なんて美しい。ジャガーの影があって、歩道を歩く人がおる。これは素晴らしい。あそこにフェスタ・ジュニーナの小旗もある。

もう一つのバージョンは少し違う。街もあるし、とても素晴らしい照明もある。影もあるし、ここで起こっとること全部がある。歩道で楽器を演奏しとる人がおる。そして今度はサンフォーナや。そしてジャガーがサンフォーナを演奏しとる。そして面白い服装を見てみ。足がちゃんとした短パンと小さな足。これはとても狂った。

この画像の詳細を観察すればするほど、驚かされる。ここの小さな帽子はもう麦わら帽子で、あのメキシコの小さな帽子やなかった。これはとても興味深かった。麦わら帽子の方がメキシコの小さな帽子より価値がある。だからもうコメントして何を思ったか、このモデルを待っとるかどうか教えてくれ。

もし本当にGoogleのもんやったら素晴らしいことになると信じとる。GoogleがついにOpenAIを追い越すときになるからや。特に俺がまだOpenAIを好きな理由の一つがプロンプト忠実度とテキスト生成による画像生成やから。そして今、正面から競合するモデルがあったら、それはすごいことになる。

だからもう下にコメントして何を思ったか、テストでどんなことが起こったか、これについて何を考えとるか教えてくれ。このようなビデオを見続けるためにチャンネルをサポートしたかったら、メンバーになってくれ。メンバーはインテリジェントエージェントの限定ビデオと先行配信ビデオにアクセスできる。そういうことや、いいね押してくれ。ありがとう。

狡猾なジャガーはもうカヌーを諦めて起業するんや。

コメント

タイトルとURLをコピーしました