Googleの新しいAI画像モデルが業界No.1に(Nano-Banana)

Google・DeepMind・Alphabet
この記事は約9分で読めます。

Googleが新たにリリースした画像生成・編集モデル「Nano-Banana」(Gemini 2.5 Flash Image Preview)の性能と可能性について詳細に解説する動画である。このモデルはLMアリーナのリーダーボードで首位を獲得し、特に画像編集分野で圧倒的な優位性を示している。リアルタイムでの高精度な画像編集、キャラクターの一貫性維持、そして驚異的な処理速度が特徴的で、マーケティングや不動産、インテリアデザインなど様々な産業での実用化が期待される。現在のGoogleのAI技術全般の優位性についても言及し、動画生成のV3、画像生成のNano-Banana、そしてGenie 3といった先進的なモデル群を紹介している。

Google’s NEW AI Image Model Is #1 (Nano-Banana)
Google just launched "Nano-Banana," their new Gemini 2.5 Flash image model, and it’s already topping leaderboards with i...

Googleの革新的AI画像モデル「Nano-Banana」登場

よっしゃ、Nano-Bananaの登場や、これはGemini 2.5 Flash Image Previewっちゅう名前でも知られとんねん。Googleが出してきた真新しい画像生成・編集モデルで、これがまた雷のように速いんや。Googleのプロダクトリーダーのローガン・キルパトリックが今日のライブストリームで、このモデルの能力をバンバン見せてくれたんや。特にGoogle AI Studioでのバイブコーディングアプリの話なんかはめっちゃ興味深かったで。

でもな、その話に入る前に、まず最初に言うとかなあかんのは、この新しいモデルがマジでハンパないっちゅうことや。もうLMアリーナのリーダーボードを制覇しまくっとるんやで。テキストから画像、画像編集の両方でトップに立っとる。特に画像編集では大差をつけて1位や。見てみ、独立したテスト機関のArtificial Analysisでも、少なくとも画像編集部門では1位に輝いとるんや。

そして従来の画像モデルベンチマークでも、ほぼ全ての分野でリードしとる。まあベンチマークが全てを物語るわけやないのは分かっとるけど、画像モデルに関してはベンチマークが実際に意味を持つことが多いんや。せやけど、実際の動作を見てみようか。本当にどんだけ優秀なんや?どんだけ速いんや?そして、どんな素晴らしい使い方ができるんや?

ここで紹介する楽しい例は、モデルのキャラクター一貫性を本当によう見せてくれるもんや。見てみいや。

キャラクター一貫性のデモンストレーション

AI Studioに行って、ビルドタブをクリックしたら、Nano-BananaかGemini 2.5 imageを使ったクールなアプリをぎょうさん作ったのが見えるで。今日お見せするのは「Pass Forward」っちゅうやつや。これは本当にモデルの能力をよう見せてくれるんや。どんな画像でも、あんたの画像を、象徴的な年代の画像に変換できるんやで。

70年代、80年代とかで、あんたはどんな風に見えるか分かるんや。ローガン、準備はええか?準備万端や。あんたと俺は既にこのモデルが作り出すおかしな画像について、あれこれ話し合ってたからな。ライブでどんなことをしてくれるか楽しみや。

俺にどんなことをしてくるか怖いけどな。でも生成ボタンを押すで。今、モデルが動き出して、俺をいろんな年代で生成してくれるはずや。どうなるか見てみよか。お、出てきよる。すげーな。50年代では、ほんまにきちんとした感じやな。ええ感じや。これは何やろ?70年代か。よっしゃ。そのサングラスをあんたに買ってあげたいなー。実生活でそのサングラス付けたら、めっちゃええ感じになると思うで。そっちはどないなっとる?素晴らしいやん。

これがモデルのキャラクター一貫性の部分が本当に輝いとるとこやと思うんや。元の画像を見たら、他の画像全てに外挿されてるのが分かるやろ。恐らく生の画像を渡して、それぞれに年代のプロンプトか何かを付けてるだけやと思うんやけどな。

そうや、その通りや。基本的には画像を渡して、実際アプリでは異なる年代を通して実行してるだけなんや。その年代のスタイルでその人を再想像してくれって言うてるだけや。それだけなんやで。そして服装、髪型、写真の品質も含めてな。

その年代に見られるような異なる詳細を全て反映してくれてるのが見えるやろ。これは本当にクールやった。せやから、これは革命的やとかそんなんやないんや。AI以前でもPhotoshopでこんなことはできたからな。でも、これが今可能になった速度と精度が、ゲームチェンジングな部分なんや。

画像編集における一貫性の課題克服

それと、AI画像生成で最も困難な問題の一つが、編集を加えたら急に人や物が全然違う風に見えてしまうことやった。髪が変わる、顔がずれる、ペットが全然違う犬になってしまう。でもここでは、Googleのモデルがそれらの詳細を保持できることを示してるんや。これは、ロゴや製品が同じまま保たれなあかんブランデッドコンテンツ、キャラクターがアイデンティティを保つゲームやクリエイティブアプリ、さらには古い家族写真の修復みたいな簡単なことにまで使えるっちゅうことや。

Home Canvasデモ

別のデモでは、「Home Canvas」っちゅうバイブコーディングアプリを見せてくれた。Home Canvasを使えば、製品、家具、実際にはどんな物でも、あんたの写真に シームレスに統合できるんや。見ての通り、信じられんほど速いだけやなくて、非常に正確で自然に見えて、精密なんや。これも、企業がマーケティングに使ったり、不動産のステージング、インテリアデザインのモックアップ、実際の撮影なしでの素早い製品撮影なんかに使える方法がいっぱい想像できるやろ。

ここで印象的なのは、ただ動作するっちゅうだけやなくて、瞬時に動作するっちゅうことなんや。

リアルタイム編集デモ

速度と精度について言うたら、チームは編集自体がどこまで進歩したかも見せてくれた。変更を入力するだけで、ほぼリアルタイムでそれが起こるのを見ることができる、シンプルなバイブコーディング写真エディタを作ったんや。この場合、見ての通り、Googleの従業員に髭を生成するのに使ったんや。

これはばかばかしく聞こえるかもしれんけど、結果は実際俺をビックリさせたで。これを見てみいや。

アマリ、AI搭載の写真編集アプリがあるよな。それも共有したかったんや。そうや、そうや。それに行こうか。ここで写真を渡して、この写真の詳細を実際に編集できることがいっぱいあるんや。

例えば、髭を変更したいとしよう。髭が必要やな。よっしゃ、やってみよう。長い髭を付けてくれ。これは俺が記録のために言うとくけど、なんで髭のテストが好きかっちゅうと、今年の4、5カ月前にローンチした元の2.0 flash nativeの画像生成モデルで、自分に偽の髭を付ける例をようけやったからなんや。

ズームインできる?実際俺が気づいたことの一つは、髭が画像に付けられる方法がちょっとPhotoshopっぽく見えることやった。でもこれは本物に見えるな。俺はハリソンと次に話すときは、これが彼が取り組まなあかん課題やと思うで。これが彼の課題や。同感やな。これは一種の魅力を加えてるな。

せやから、俺らは明らかにAI画像編集の新しいレベルに到達しとるんや。

競合他社との比較

ちょうど先週、Alibabaから Quen image editが出たのを覚えてるかもしれんな。俺の週次レキャップで取り上げたんやけど、このモデルで際立ってたのは、GoogleのNano-Bananaと同じように、精度とキャラクター一貫性やった。また、画像を使うあらゆる業界での可能性を考えてみてや。インフォグラフィック、商品写真、何でもや。

マーケティング、教育、ヘルスケア、ジャーナリズムまで。一貫性を破ることなく瞬時に編集できる能力は、まさに大きなブレークスルーなんや。でも、QeunみたいなものとGoogleのNano-Bananaが違うのは、スケールでの速度と精度なんや。一回限りの編集を生成してるだけやない。その上にツールやアプリを実際に構築できるぐらい信頼性があるように感じるものを得てるんや。

そして、実際に合理的な価格でそれを手に入れてるんや。

Googleの総合的な優位性

俺はときどきOpenAIのファンボーイに見えるかもしれんけど、認めなあかんのは、Googleが勝ってるように見えることや。彼らは今、最高のビデオモデルV3を持ってる。最高の画像モデル、Nano-Bananaを持ってる。Gemini 2.5 ProとGemini Thinkも持ってて、Gemini ThinkはIMOで金メダルを獲ったばかりや。

そしてもちろん、これまで見た中で恐らく最も先進的な世界モデルであるGenie 3も持ってる。これら全てがまだ実際に使えるわけやないけど、Googleのパイプラインは今、無敵状態なんや。

そして彼らはそこで止まってへん。

Nano-Bananaの今後の展開

ライブストリームの終わりに向けて、Nano-Bananaや画像生成の次の展開について話し合った。これを見てみいや。

みんなビックリしてるやろな。次に何が来るかについて、どれだけ話せるか分からんけど、明らかに動作せん例を送ってくれたら、それらのことでモデルを改善していく。でも、俺らが編集と生成の岩を坂の上に押し続ける中で、特に気になる、既知の制限について具体的にドキュメント化したものも出したけど、それらは改善したいことやと思うけど、頭に浮かんでることはあるか?

そうやな、あまり多くは言えんけど、このモデルが俺らが望むほど得意やないことの一つは、テキストレンダリングなんや。簡単なことは比較的よう動作するし、テキストを指定したときはかなりよう動作する。でも、新しいイタリアンレストランのメニューを作ってくれみたいな、かなり一般的なことをして、モデルが画像に入るテキストを考えださなあかんときは、俺らが望むほどよう動作せんことが分かってる。せやから、それは絶対に取り組みたい分野の一つなんや。

さっき様式化について触れたよな。それも、いくつかのスタイルではかなりよう動作するけど、全てのスタイルやなくて、十分一貫してへん分野なんや。せやから、それも俺らが押し続けたい分野なんや。

ローガン、俺らが話したときに、この事実性のフロンティアを押すことについても話したよな。インフォグラフィックみたいなものを作るときに、見た目がええだけやなくて、実際に正確な情報を持ってて、これまでできんかった使用例で役立つことを確実にするっちゅうことや。

せやから、俺らが押し続けたい主なことはそれらやと言えるし、明らかにこのモデルで動作してるのを見たフィードバックを送ってくれ。それを俺らのバックログに追加して、修正に取り組むから。

まとめ

せやから、俺自身このモデルを触ってて絶対楽しんでるし、この分野全体がどう進化し続けるかを見るのが楽しみや。これらのモデルが改善してる速度は、正直言って狂気じみてるで。AI画像生成がぼやけた顔とおかしな手だけやった数年前を覚えとるわ。そして今、俺らは編集が瞬時で、一貫してて、企業がその上に実際の製品を構築し始められるぐらい現実的なポイントにおるんや。

せやから、このモデルについてあんたらがどう思ったか聞かせてや。それと、GoogleがAI分野で今リードしてると思うか?もしそうやないなら、誰がリードしてるんや?

とにかく、見てくれてありがとうな。この取材を楽しんでもらえたら嬉しいで。もし楽しんでもらえたら、ライクを押して、まだやったらチャンネル登録ボタンを押してくれ。いつものように、次の動画でまた会おうな。

コメント

タイトルとURLをコピーしました