Googleの秘密AI『Nano Banana』を見逃すな!

Google・DeepMind・Alphabet
この記事は約9分で読めます。

Googleの秘密の新モデル「Nano Banana」がLM Arenaのバトルモードでのみ利用可能となっており、画像生成と画像編集において最高クラスの性能を発揮している。このモデルは肌の色に関係なく顔全体を保持し、指示に従順に従うことで、ほぼ毎回使用可能な出力を生成する。動画では、人気テックYouTuberのMKBHDやサム・アルトマンの画像を使用してNano Bananaと他の人気モデル(Quinn Edit、GPT-4o、Gemini 2.0 Flash)との比較実験を行い、Nano Bananaの圧倒的な性能を実証している。特に顔の保持、画像の拡張、指示の理解において他のモデルを大幅に上回る結果を示している。

Don't sleep on Google's Nano-Banana AI!
Try Nano-Banana on LMArena.ai while it's available. It's possibly a new model that coincides with Google Pixel 10 Pro la...

Googleの秘密兵器、Nano Bananaの実力

LM Arenaの秘密の新モデル、Nano BananaはおそらくこれからGoogleが出してくる新しいモデルやと思うんやけど、画像生成と画像編集においては最高クラスの性能を誇ってるんや。今回はNano Bananaのいくつかの例を見せて、この動画でちょっとした実験もやってみようと思うねんけど、Nano Bananaはおそらく肌の色に関係なく顔全体を保持できる最高のモデルで、指示にめちゃくちゃ従順に従うから、最終的な出力がほぼ毎回使用可能なレベルになるんや。

Nano BananaとQuinn Editの比較もやってみるから、Quinn EditとNano Banana、そして他の人気モデルがどんな感じかわかってもらえると思う。まず最初に言っておくけど、これは新しいモデルで、他の方法ではアクセスできへんねん。秘密のモデルなんや。LM Arenaのバトルモードでしか使えへん。

やから、このモデルを使いたかったら運に頼るしかないんや。でも幸い、この数日間でこのモデルに何回も当たってるから、今回紹介できるんや。

MKBHDを使った実力テスト

これが最初のプロンプトや。MKBHDの画像を使ったんやけど、知らん人のために説明すると、MKBHDはめちゃくちゃ人気のテック系YouTuberで、本名はマーカス・ブラウンリーっていうんや。

この画像を渡して、バトルモードに「映画的でハイパーディテールなYouTubeサムネイル」を作ってもらったんや。いろんな指示があるんやけど、メインは「MKBHDのロゴを端に入れて、彼が何かに歓迎してるような感じにしてくれ」っていうことやった。これが全体のプロンプトや。動画を止めて読んでもらってもええで。

これがGoogle Gemini 2.0 Flash Previewの画像生成が作ったものや。まあ悪くはないと思うけど、すぐにAIの安っぽい仕事やってことがわかるやろ。MKBHDの顔がちょっと歪んでるし、手をドアのどこに置いてるねん?こういうところが結構ひどいんや。

Quinn Editとの比較

次に、同じ画像と同じプロンプトでQuinn Editを試してみた。これがQuinn Editの結果や。Quinn Editはこの数週間でリリースされた最高のオープンソースモデルの一つで、いろんな用途でかなり優秀なモデルなんや。このモデルは良くて、YouTuberたちがこのモデルのせいでPhotoshopは死んだって騒いでるくらいなんや。これがこのモデルの出力や。

Nano Bananaの驚異的な結果

そして今度はLM Arenaに戻って、これがNano Bananaが俺に与えてくれたものや。素晴らしいやろ!顔も体も肌の色も、全部しっかり保持されてるのがわかるやろ。実際、俺らが渡した画像はフルサイズの画像じゃないのに、それでも画像を拡張してくれたんや。もう一回、俺が渡した画像を見せるで。

これが俺が渡した画像や。波の部分が完全には入ってなかったのに、それでも波を完成させてくれたんや。Tシャツの RGB の波が完成されてるのがわかるやろ。MKBHDのロゴもあるし、開いてるドアもあるし、光が差し込んでて、MKBHDが俺らを歓迎してくれてる。

参考までに、これがGPT-4oが作ったものや。GPT-4oが色やコントラスト、そういった面でやったことは気に入ってるけど、顔を見ると何週間も食事してないみたいに見える。それに彼は究極の魚プレイヤーやし、MKBHDがこんな風に見えることはないと思う。やからこれは採用せえへん。

見てもらったとおり、LM ArenaのNano Bananaは俺らのために素晴らしい仕事をしてくれた。どうしてこれがGoogleのモデルやってわかるかって?明らかに、Googleの全員が現在このモデルをバナナの絵文字でからかってるからや。なんで彼らがランダムにバナナの絵文字をシェアするねん?こういう従業員たちがみんなそうしてるんや。

だからこれは多分、引用を見てもらってもわかるように、Googleの多くの人がこれを引用リツイートして、それでもバナナで返事してる。

スーパーマーケットでの実験

次に見つけたもう一つの興味深いプロンプトに戻るけど、スーパーマーケットがあって、ここで効果が見えるやろ、ズームイン効果みたいなのがあって、男の人が立ってるのが見える。カートにいろんなアイテムが入ってて、俺はコーラを追加したかったんや。

これがSeed Editが俺に与えたものや。コーラを置いてくれた。コーラ自体は良いんやけど、コーラの缶がかなり歪んでるのがわかるやろ。俺は特に「コーラの缶が欲しい」って言ったんや、ボトルと混同されないようにな。それでも見てもらったとおり、かなり歪んでるし、画像があっても誰かがPhotoshopしたのが簡単にわかる。文字通りオブジェクトをそこに置いたようなPhotoshopの仕事みたいにきれいなんや。

これがGPTの画像や。毎日GPTが俺を恥ずかしい思いにさせるけど、これもまた恥ずかしい結果の一つや。これがあんたのコーラの缶かって?冗談やろ。テキストが歪んでて、全部めちゃくちゃや。

これがGemini 2.0 Flash画像生成が俺に与えたものや。悪くはないけど、また誰かがペタッと貼り付けたみたいに見える。

Nano Bananaの圧倒的な勝利

そして今度はNano Bananaに戻る。これがNano Bananaが俺に与えたものや。コーラの缶が全体の画像とすごく似たノイズを持ってる。コーラの缶が素晴らしいのがわかるやろ、いろんな反射があるし、ロゴも良い。テキストはここでちょっと歪んでるけど、全体的に見ると、これはおそらく全てのモデルの中で最高の一つやと思う。Seed Edit(バイトダンス、TikTokの会社)、OpenAI、それからGoogleの別のモデル、そしてここでNano Bananaが、Nano Bananaが最高やってことを確実にしてくれてる。

ライブでの実験

この動画を録画しながらリアルタイムで運試しをしてみようと思う。LM Arenaのチャットモードに行かなあかんねんけど、画像を選択すると、ここで画像のオプションが出てくる。やから好きな画像を選択できる。新しい画像を生成してもらうこともできるけど、任意の画像を選択できる。

サム・アルトマンさんの画像を選択してみよう。よし、この画像で行こう。画像をコピーして、LM Arenaに戻って、画像を貼り付ける。「この男性が光るドアにインドの国旗を掲げた16:9のワイドサムネイルを作成して」って言ってみる。うーん、寸法を適切に保持してくれるかはわからんけど、とりあえず言ってみる。

あんまり良いプロンプトじゃないと思うけど、とりあえず出してみて何ができるか見てみよう。時々最初の一回でNano Bananaが出てこないことがあるから、もう一回プロンプトを出さなあかん。画像を渡した。理想的には、人間と一緒に他のオブジェクトやテキストが入ってない画像を渡すのが良いんやけどな。

何をしてくれるか見てみよう。「この男性が光るドアにインドの国旗を掲げた16:9のワイドサムネイルを作成」。同じようなプロンプトスタイルが頭に残ってるから、比較して試してみることができる。複数のセッションも持てるし、複製してから試すこともできる。

うーん、これは悪くないと思う。でもまた、ドアを指してないけど、右の方が良いと思う。インドの国旗がある。両方とも悪いと思うけど、誰が勝つか見てみよう。セキュリティ検証…俺がたくさんやりすぎて人間じゃないと思われてるんや。ごめん、俺は人間やで。

Flux One Context Divが出た。同じ画像でもう一回同じことをやって、Nano Bananaに当たるようにしてみよう。画像をコピーして貼り付ける。この二つのモデルが何を作るか理解できるように。同じ画像をもう一回送る。16:9のワイドサムネイルを作成。

インターネットで見つけたNano Bananaを褒めちぎってるデモもいくつか追加する予定や。かなり素晴らしいと思う。LM Arenaでモデルが利用可能な間に試してみるべきや。それがこの動画の全体的なポイントや。GoogleがこれをPaywallの後ろに置く前にな。

このモデルを絶対試してみるべきや。俺は主に画像編集にこのモデルを使ってる。あ、これは素晴らしい!これはインドの首相で後ろに国旗がある。左の方が良いけど、画像がまたちょっと歪んでる。うーん、わからん。サム・アルトマンが横向きでドアがある。

多分俺のプロンプトスキルがこれに関してはあんまり良くないんやろうけど、Nano Bananaが男性を使って作ってくれたのがわかるやろ。この場合、サム・アルトマンやな。これは素晴らしいモデルやと思うし、無料の間にこのモデルを使って、このモデルについてどう思うか教えてくれ。

さらなる実験

俺はこのモデルを探求し始めた。このモデルに夢中になってる。時間がある時はいつでも、このモデルがどれだけ指示に従えるかを探求してる。例えば、ハリウッドの男性の上半身裸の画像をアップロードできる。YouTubeが俺をBANしないことを祈る。これらの人の中から一人を選んでみる。

この人は誰やろ?なんでハリウッドの男性の上半身裸を見つけるのがこんなに難しいねん?よし、この人で行こう。マシュー・マコノヒーやな。画像をコピーして貼り付ける。「この男性にLinkedInのヘッドショット品質の良いスーツを追加してくれる?」って言うべきやったけど、見てみよう。

もう一回言うけど、見えてるのはLoRAなしや。通常この種のことには、人々がLoRAアダプターを訓練して、その上でこの種のことをするんや。でもここでは零ショットでやってる。最初の一回でNano Bananaが出てくることを祈る。そうでなければ、別のモデルと比較して何をするか見ることになる。二つのモデルが出た。

悪くないやろ?品質は悪いけど、二つ目は彼の髪も整えられてるし、またNano Bananaや。俺はこんなことを作り話してるわけじゃない。かなり良い。髪が整えられてるのが気に入らなかったら、Flux One Context Defを選ぶこともできる。

俺にとっては、上半身裸の画像一枚からLinkedInのヘッドショットを作るのが目的や。シャツを追加してくれたし、男性も良い感じや。瞳とかそういう細かいところを見ると、いくつかの違いに気づき始めるかもしれんけど、全体的にはこれは素晴らしいモデルやと思う。このモデルが大好きや。このモデルを試してみて。

Googleがこのモデルをすぐにリリースするかどうか、どう思うか教えてくれ。また別の動画でお会いしよう。ハッピーブルーミング!

コメント

タイトルとURLをコピーしました