Gemini 2.5 Flash画像生成が驚異的… (Nano Banana登場!)

Google・DeepMind・Alphabet
この記事は約16分で読めます。

GoogleのGemini 2.5 Flash画像生成モデル「Nano Banana」が登場し、その革新的な機能を実際に検証した動画である。物理法則の理解、スタイル転送、キャラクターの一貫性において従来モデルを大きく上回る性能を示しており、3D多視点合成、背景除去、画像修復、カラー化まで幅広い機能を持つ。LM Arenaランキングで1位を獲得し、従来モデルから200ポイント近いELOスコア向上を記録した画期的なAI画像生成・編集ツールの実力を詳細に解説している。

Gemini 2.5 Flash Image is Insane... (Nano Banana Released!)
30x faster inference. 4x faster training.Go to and secure your setup before launch.Check out the Dell Pro Max Workstatio...

Nano Bananaの登場とその驚異的な性能

Nano Bananaがついに登場したで!これがGemini 2.5 Flash画像生成や。これはほんまに信じられへんくらいすごいねん。今まで使ったことある画像生成・編集モデルの中で間違いなく最高やで。物理法則の理解、スタイル転送、キャラクターの一貫性においては、今まで見たことないレベルやねん。

まずはこの最初の例を見てもらおか。MKBHDのサムネイルがここにあるやろ。彼がiPhoneとAndroidの2台のスマホを持ってるねん。今からこの狂ったような性能を見せたるで。

「スマホをひっくり返して」って簡単に言うただけやのに、この結果を見てみ。iPhoneの裏側がどんな感じかちゃんと知ってるねん。iPhoneのアイコン全部、オペレーティングシステム全体も分かってるんや。

Androidの上部のノッチが小さいことも知ってたし、これもちゃんとAndroidのオペレーティングシステムになってるやん。アイコンとか文字に小さい問題はちょっとあるけど、全体的にはほんまに信じられへんくらいすごいと思ったで。

3D多視点と構図の徹底テスト

せやから、これをしっかりテストしてみよか。最初に見せるのは3D多視点と構図についてや。

これを見てみ。元の画像やで。コーズのキャラクターがぎょうさんいるやろ。そして「右の2体のコーズキャラクターを180度回転させて」って簡単に言うただけや。

見ての通り、2体やなくて3体回転させてもうたねん。それに、この2体は内臓が見えてるのに、回転したやつらは見えてへん。さらにそのうち1体の位置まで変わってもうた。まあ、まずまずやけどな。

でもこのモデルがほんまに得意なのは、裏側がどんな風に見えるかを予測することやねん。別の例を見せたろ。

「いや、右の2体だけや」って言うたら、今度はずっと上手くできた。

次のテストを見てみ。コカ・コーラの缶があって、「このコカ・コーラの缶を3つの違う角度から見せて」って言うたんや。これは完璧やで。3つの違う角度や。

ロゴは完璧。小さい水滴の結露も完璧。これはほんまに素晴らしいと思うわ。

キャラクターの一貫性と複雑な編集

それから自分の写真をアップロードして「この人にコカ・コーラの缶を持たせて」って言うた。コカ・コーラの缶はちょっと小さいけど、Nano Bananaが本当に優れてるのはキャラクターの一貫性やねん。

これがアップロードした全く同じ画像で、そこにコカ・コーラの缶を追加できたんや。

それからこの反射するサングラスをアップロードして「これを俺にかけさせて」って言うた。今度は俺がコカ・コーラの缶を持って、この反射するサングラスをかけてるやろ。サングラスの反射を見てみ。これはほんまに狂ってるで。黄色い花がちゃんと反射に映ってるねん。

つまり、黄色い花畑が俺の前にも続いてる可能性が高いって理解して、サングラスが反射するもんやから、その黄色い花を反射で映し返すってことも理解してるんや。これは完全に生成されたもんやで。

それから「この人の後ろ姿を見せて」って言うたら、ほら、これや。これはなかなか良いと思うで。俺の後頭部って実際こんな感じやからな。

さらなる3D回転とキャラクター一貫性

もっと3D回転とキャラクター一貫性を見せたろ。コーズキャラクターが2体いるやろ。これを覚えといてな、後でこのキャラクターがどうやって生成されたかを見せるで。それはもうワイルドやねん。でも今のところは、これらやで。2体のコーズキャラクター。

それから「3つのポーズをちょうだい。これは別のやつ。親指立てて」って言うた。まだ全部ええ感じやな。面白いことに、「3つちょうだい」って言うただけで、実際に2つの画像を続けて生成してくれた。もちろん3つくれるべきやったんやけど、まあええわ。

もう1つのポーズや。ええ感じやん。ちょっとクリッピングがそこにあるけどな。

それからもう一回「同じ写真に3つの違う角度をちょうだい」って言うた。ほら、これや。この2つの間は少し違う角度やな。そしてこれは後ろから見た完全に違うやつや。これはええと思うで。

構図テストと映画的な表現

次は構図をテストしてみよか。有名な月面着陸の写真があるやろ。

でもこれは偽物やったんかな?調べてみよか。実際偽物やった。撮影現場のこれがそうや。後ろにカメラマンがおるやん。

すごく印象的なのはスタイルの一貫性やねん。元の画像はすごく粒子が粗かったのに、後ろの人たちも同じ時代の同じ写真から来たように見えるねん。照明も全部昔風に見えるし、後ろの機材も昔風で、ほんまに素晴らしく見えるわ。

でもこれだけじゃ納得できへん。この画像が本当に偽物かどうか確認しよか。「ズームアウトして、これを全部サウンドステージで見せて」

ほら、これや。キャラクターはまだそこにおるやろ。人が歩き回ってるのも見えるし、これがハリウッドのサウンドステージやってことも分かるわ。

知ってたで!でもこれは今まで見た中で最も印象的な画像エディタの1つや。キャラクターの一貫性がほんまに狂ってるねん。真ん中の宇宙飛行士は本物で、周りの全てを変える複数の生成を通しても同じように見えるんや。ほんまにそうやねん。

Nebiusによるスポンサーメッセージ

AIモデルは規模が爆発的に拡大してるで。数百万から数兆のパラメータまで構築してるなら、真剣なインフラが必要やってことはもう知ってるやろう。

そこでNebiusの出番や。新しいNvidia Blackwell GPUクラスターはもうNebus AIクラウドで利用できて、次世代AIのために構築されてるねん。従来世代のH100と比べて30倍速い推論と4倍速いトレーニングの話をしてるんや。

完全管理されたクラスター、KubernetesまたはSlurmオーケストレーション、DevOpsサポートが組み込まれてるから、バックエンドやなくて構築に集中できるねん。

これらは完全なターンキーデータセンター、新しい冷却システム、限界まで調整されたGPU使用率や。ストレージが必要やったら、それもカバーされてる。コスト効率的なオブジェクトストレージか超高性能共有ストレージが手に入るで。

推論モデル、長いコンテキスト推論、大規模なトレーニング、NebiusのBlackwellはそのために特別に構築されてるねん。

カンザスシティに大規模データセンターをもう立ち上げてて、ニュージャージーに新しいのが来るから、必要なところでアメリカ全体にスケールできるんや。

Nebiusがこの動画をスポンサーしてくれてほんまにありがとう。それじゃ戻ろか。

Google CEOの発表とベンチマーク結果

GoogleのCEOサンダー・ピチャイの発表投稿がこれや。我々の画像編集モデルがロールアウトしてて、確かにバナナやで。

LM Arenaの画像編集リーダーボードのトップや。彼が提供したいくつかの例がこれや。サーフボードに乗った犬、ええ感じやん。カウボーハットをかぶった犬。スーパーヒーロー衣装でジャンプする犬。それに料理人の犬。確かにLM Arenaリーダーボードで1位やねん。

これを見てみ。Gemini 2.5 Flash画像プレビューがそこにあるやろ。Flux One Context Maxから大幅な飛躍や。

大幅にな。見てみ。ELOスコアで200ポイント近い飛躍や。これはほんまに素晴らしいモデルで、十分な票数もあるねん。

個人的な画像編集テスト

また自分の画像をアップロードして、「この男をSR-71ブラックバードの前で戦闘機パイロットの格好にして」って言うた。

ほら、これや。これは完全に完璧やで。戦闘機スーツの小さいディテール、全部のクリップとラッチとリング、全部や。さらにヘルメットに反射があるやろ。反射をよく見ると、実際に誰かが俺の写真を撮ってるのが見えるねん。

確かに後ろにあるのはSR-71ブラックバードやけど、十分見えへんかった。せやから「ズームアウトして」って頼んだ。

ほら、これや。今度はSR-71ブラックバードがもっと見えるやろ。全部のディテールが一貫してるのが分かるで。元の画像から残ってるのは顔の下半分だけで、それも元の画像と全く一致してるねん。

これは画像編集の別の例や。OpenAIの元創設者たちの写真があるやろ。「右の男を削除して」

ドン。消えた。完璧や。この画像から誰かが削除されたなんて分からへんやろ。

それから「左の女性を削除して」って言うた。ドン。また消えた。残りの2人の創設者だけや。

でもこれじゃ物足りへん。自分の写真をアップロードして「俺を追加して」って言うた。これは素晴らしく見えるで。

俺の顔の表情を変えた。手も変えた。そして写真に俺を入れてくれた。影も素晴らしいし、俺の表情も他の表情と合ってるねん。これがアップロードした写真や。実際に起こったことからはかなり違うけど、これはええ感じやと思うで。

様々な編集効果のテスト

また俺の画像を見せるで。「巨大なZZTopのひげを付けて」って言うた。

ほら、これや。すごくかっこええと思うわ。もちろん、これじゃ物足りへん。俺の巨大なアフロがこれや。髪が伸びたら多分こんな感じになるやろな。

それから、Alexが俺をサムネイルでひどい目に合わせたから、Alexの写真をちょっと編集してみよか。

「また雨のようにバナナを降らせて」

素晴らしいやん。物理法則を見てみ。この男がバナナが頭に雨のように降ってきて嬉しそうにしてるのを見てみ。でも肩から滴り落ちる液体を見てみ。バナナ全部もや。

でもなんで嬉しいねん?すごく悲しいはずやろ。ほら、泣いてるわ。今度は顔の表情がええ感じやな。

涙はすごく悪く見える。すごく偽物っぽいねん。せやから「涙を削除して」って言うたらほら、これや。もちろん、「耳からバナナを突き出して」も追加しよか。

キャラクターの一貫性を保った連続画像

キャラクターの一貫性を続けよか。「同じキャラクターが朝食を食べて、仕事に行って、会議に参加して、家に帰るという4コマ漫画を作って」って言うた。

女性が朝食を食べてて不機嫌やな。2コマ目には意外にもその女性は含まれてへんかった。でも次の2つには含まれてた。会議マラソン。同じ女性がいるやん。それに家での幸せ。最後に同じ女性がいる。

これを見てみ。後ろの窓台に座ってた猫が、今度はテレビを見てる彼女の膝の上に座ってるねん。すごくクールやで。

背景除去と体型変更

画像の背景を削除するのはこれ以上簡単にはならへんで。これを見てみ。サム・アルトマンの写真があって「背景を削除して」。

完璧にできたやん。背景を削除するのに文字通り1つの間違いもないで。それから「彼をマッチョにして」って言うた。

ほら、これや。この手にはちょっと一貫性の問題があるな。手に袖が見えるけど、銃を見せるためにノースリーブシャツを着てるねん。まあそうやな。

スタイル転送と3D変換

また、1つの画像に複数の違う技術を使える。スタイル転送もできるし、キャラクターの一貫性も見れるし、3D回転もできる。それを見せたろ。

サム・アルトマンの写真があるやろ。「これをアニメにして」って言うた。

ほら、これや。すごくええと思うで。それから「これを3Dにして」って言うた。見ての通り、これは3Dや。アニメに見えるけど、3Dでもあるねん。

それから「全身を見せて」って言うた。ほら、これや。また、すごく印象的やな。それから「違うポーズと角度のキャラクターシートをちょうだい」って言うた。

これを見てみ。3Dモデル作成に興味があるなら、商品配置に興味があるなら、この全部が今この新しい画像モデルで簡単にできるようになったんや。

ゼロからの画像生成

編集だけやなくて、何もないところからの純粋な生成も得意やねん。「起こってる最中にキャプチャされたランダムな現実世界の瞬間。シーン、被写体、行動、視点、照明、構図は予測不可能で恣意的で、現実そのものが瞬間的に一時停止されたみたいや。キュレーションなし、意図なし、ただそこにたまたまある人、物、環境と一緒に、日常生活の凍った断片」

ほら、これや。バスに何かよく分からんレンズフレアがあるけど、影は素晴らしいのが分かるで。高度にスタイライズされてるけど、まだなかなかええと思うで。

同じプロンプト、別の生成。何が起こるか見たかっただけや。

この男はコーヒーをこぼして嬉しそうに見えるな。リードに繋がれた小さい犬がどこにも浮いてるねん。そこにちょっと一貫性の問題があるな。電線に引っかかってる凧があるし、そのホットドッグを盗もうとしてる巨大なハトもいる。

背景に他の小さいディテールもぎょうさんある。この画像はほんまに気に入ってるで。これを見てみ。画像の一番前に、ボケ効果で完全にぼやけた水のボトルが地面に落ちてるねん。注目しようとしてる場所はくっきりしてて、それ以外はぼやけてるのがほんまにクールや。

「衣装を着たバナナの画像を生成して」。ほら、これや。すごくいいやん。

これは別のやつ。「毛がまさに苔のように見える猫」。また、ゼロからの生成も本当に良く働くねん。つまり、ゼロからの生成がな。

Dell Technologiesによるスポンサーメッセージ

動画のこの部分をスポンサーしてくれたDell Technologiesに感謝や。Dell TechnologiesはNvidia RTX Pro Blackwellチップを搭載したラップトップとデスクトップPCのファミリーを持ってて、これらはAIワークロードに対しては絶対的な獣やねん。

下にリンクされた製品ファミリーをチェックしてみてや。

物理法則の理解とリフレクション

それに、物理法則にほんまに優れてるねん。これを聞いてみ。「前から撮った車の写真、同じヘッドライト、反射で写真を撮ってる人が完璧に写ってる」

ほら、これや。車のグリルに完璧に反射してる人が見えるやろ。全部すごくええ感じや。地面の液体にタイヤが反射してるし、写真を撮ってる男の反射も、ほんまにええねん。

サムネイル作成テスト

サムネイル作成をテストしてみよか。俺がサムネイルによく使う写真があるやろ。それから「YouTubeサムネイルを作って」って言うただけや。それ以外に具体的なことは言わへんかった。でもほら、これや。上にテキストを付けてくれた。

まあまあやな。「ええけど、背景を削除して単色にして」って言うた。これの方がずっとええやん。それから「口を開けて」って言うた。これもすごくええと思うで。

それから「もっと驚いた表情に」って言うた。この写真をある時点で撮ったような気がするし、みんなも100万回は見たことあるやろ。

せやから、もう写真を撮る必要がないみたいやな。それから「Mr. Beastのサムネイルチャレンジスタイルにして」って言うた。「俺の脳をアンロック 24時間集中チャレンジ」。まあまあやな。気に入ってるのは、後ろの光が全部俺の顔にすごく上手く当たってることや。すごく正確に見えるねん。

でも、また、できひんことは顔の置き換えやねん。Mr. Beastのサムネイルがここにあって、「俺の顔をこのサムネイルに入れて、そこの男と置き換えて」って言うたんや。

でもこれは俺が言うてたこととは程遠いな。

テキスト編集と写真修復

実際のサムネイルがこれや。「ビッグニュース」って書いてあって、「テキストを『ヒュージニュース』に変えて」って言うた。

これを見てみ。テキストの正確なフォントとスタイルを保持してるけど、ビッグの代わりにヒュージって言うように置き換えたんや。

写真の修復とカラー化は基本的に解決された問題やねん。これを見てみ。古い写真があるやろ。ダメージがぎょうさんあって、白黒やねん。

まず「全部のダメージを修復して」って言うた。ほら、これや。あっちこっちにちょっとダメージはあるけど、全体的に元と比べたらずっとええ感じに見えるで。

それから「写真をカラー化して」って言うた。これはすごく正確やと思うわ。それから「残りのダメージを全部削除して」って言うた。続けてくれた。実際に見つけられるダメージは全部削除してくれたな。

アインシュタインの白黒写真があるやろ。カラー化してみよか。これを見てみ。目の色が間違ってるかもしれへんけど、他は全部すごくええ感じや。それから「ズームアウトして」って言うた。

ほら、彼や。まだ一貫してるけど、興味深いことにちょっと違うねん。実際に期待してたよりちょっとスタイライズされて見えるけど、まだすごくええやん。

ニクソンとエルビス・プレスリーの写真があるやろ。カラー化してみよか。ほら、これや。すごくいいやん。

アクセス方法と設定

使いたい場合は、最も簡単な2つの方法を見せたろ。studio.google.comにいるねん。ここに来て、フィーチャーの下でGemini 2.5 Flash画像プレビューを選択するんや。これは無料やで。レート制限があると思うけど、始められるし、いじくり回せるで。普通と同じようにな。

温度を調整できて、これは写真生成の創造性を調整するねん。安全設定があって、もちろん俺はいつもオフにしてる。それからTop Pがある。これらがいじくることになる主な設定やねん。

この新しい画像生成モデルをテストするもう1つの方法はGeminiやで。モデルを選択して、高速オールラウンドヘルプ2.5 Flashを選んで、それから下のこの3つの小さい点をクリックして、その下に画像生成があるねん。ほら、これやで。これがNano Bananaや。

今すぐ試すための2つの方法がこれやで。

連続性と時系列理解

連続性を見せたろ。実際に一連の画像の進行や、同じ画像の異なるフレームがどんな風に見えるかを理解できるねん。これを聞いてみ。「画像シーケンス。左に火が点いてないローソク、真ん中で燃えてる、右で溶けた」

ほら、これや。完璧やで。真ん中のローソクは左のより少し高いねん。明らかにそうするべきやないと思うけど、それ以外はほんまにええやん。後ろのローソク立ての光の反射を見てみ。それから左の溶けたローソクや。素晴らしいやん。

画像に思考モードを実際に発動させることができた。これを見てみ。「コーヒーテーブルに置かれたハンバーガーの写真のようなシーケンス。シーケンスはハンバーガーが熱々で置かれた瞬間から何年も後にハンバーガーが腐った時まで。この時系列でキャプチャするベストなモーメントを考えて、時系列順にシリーズを作成して」

元のハンバーガーがこれやで。なかなかええ感じや。100%リアルには見えへんけど、まあええわ。

腐り始める2番目のやつや。ここにカビが見えるやろ。本当にカビっぽくて気持ち悪くなってきた別の画像や。最後に、完全にカビて、完全に腐ったハンバーガーや。

画像生成で思考モードを発動させることは可能みたいやな。

マテリアル変更とミーム生成

マテリアル変更をやりたかったら、こんな感じや。「透明な氷でできたティーポット、中に熱いお茶が入ってて湯気が立ってる」

ほら、これや。すごくええ感じやな。それから「ティーポットを金属製に変えて、でも他は全部同じで」って言うた。

これを見てみ。煙は全く同じやねん。何回も言うてることやけど、いつもすごく印象的なのは、変えろって言うてることだけを本当に変えることやねん。確かにティーポットは金属に変わったし。

もちろん、ミーム生成も得意やで。ミームがここにあるやろ。ホワイトボードに何も書いてない。「ホワイトボードにバナナと『Photoshop、でもほんまに簡単』っていうテキストを載せて」って言うただけや。

ほら、これや。

数を数える能力と人体構造

数を数える能力はどうやろか?「白いテーブルの上に一直線に並んだ同じりんご7個」って言うた。

ほら、これや。見ての通り、意外にも、これらは同じやない。真ん中のこの2つは茎から葉っぱが出てへんねん。

なんでそれがなかったんか分からん。こんな小さい間違いを犯すのがすごく変やけど、それでもな。それ以外は、このりんごたちは絶対に一貫してるで。

人体構造はどうやろ?AIの画像で6本指っていうのは有名やな。これがここで働くかどうか見てみよか。「握手で指を絡ませる2つの手。超リアリスティック、高詳細」

クリックしてみると、完璧やで。5本指。全部完璧に見えるねん。今、ここで見る唯一の小さいことは、指の1つから水滴が垂れてるようなもんやけど、それ以外は完璧やからええことにするわ。

肌の質感を見てみ。腕の小さい毛も。全部ええやん。爪がちょっと汚れてるのも見えるやろ。完璧やで。

この動画を楽しんでもらえたなら、いいねとチャンネル登録をお願いします。

コメント

タイトルとURLをコピーしました