Nanobanana 2が登場 より速く、より安く

AI画像
この記事は約9分で読めます。

GoogleがNanobanana 2を発表した。これはバイラルヒットしたNanobanana Proの後継モデルであり、Gemini 3.1 Flash Imageをベースにした初の画像生成モデルである。Proモデルと同等の画像生成能力を持ちながら、Flashモデルレベルの低コストで動作する点が最大の特徴だ。新しいアスペクト比対応や優れたテキストレンダリング能力を備え、歴史的知識の活用、空間認識、カウント能力、複雑な技術図の作成など多様なタスクで高い性能を発揮する。特にテキストを含む画像生成において、従来モデルが苦手としていた文字の正確な描画で顕著な改善が見られる。

Nano Banana 2 is Here - Faster and Cheaper
Thanks to Google DeepMind for the #EarlyAccess”We're going hands-on with Google's new Nano Banana 2 (Gemini 3.1 Flash Im...

Gemini 3.1 Flashベースの新世代画像生成モデル

今日、GoogleがNanobanana 2をリリースしました。これはバイラルヒットしたNanobanana Proモデルの次世代版なんです。このモデルが特別なのは、Gemini 3.1の上に構築された初の画像生成モデルだからです。これはProモデルではなく、Gemini 3.1 Flash Imageと呼ばれています。

つまり、これは3.1シリーズにおけるFlashモデルの初めてのお披露目ということになります。このモデルは画像生成能力の面ではNanobanana Proバージョンに非常に近いんですが、実行コストがはるかに安くなります。新しいアスペクト比を含む新機能も搭載されていて、より多くのフォーマットで画像をレンダリングできるようになりました。つまり、FlashモデルのコストでProモデルのすべての機能が使えるということです。

Google DeepMindのおかげで、私は早期にこのモデルにアクセスできたんですが、コストを考えると実際かなり印象的だと言えます。では、Nanobanana ProとNanobanana 2の直接比較をお見せしましょう。このモデルがどれだけ優れているか実際に確認できます。

世界知識を活用した歴史的画像生成

最初のプロンプトでは、モデルの世界知識を見ていきます。このケースでは、これらの座標でフォトリアリスティックな画像を作成するよう指示しました。これはエッフェル塔の位置で、元の開業日の正午を指定しました。そして、シーンがその特定の日付におけるこの場所の歴史的正確性を反映すべきだとモデルに求めています。

Gemini 3.1 Flash上で訓練されているため、座標がエッフェル塔に属していることを理解できるだけの十分な世界知識を実際に持っているんです。残りの思考連鎖はNanobanana 2やNanobanana Proと非常に似ています。基本的に、Nanobanana Proで見てきたものと非常に似た思考連鎖を経ています。

思考連鎖の中で、時々画像を生成するのが見えます。これは元のNanobanana Proが持っていた能力です。それに基づいて、約19秒かかって最終結果が得られました。画像の構成は正確に見えます。また、人々の服装や衣服を見ても、その歴史的時代に対して正確に見えます。

他の建物の実際の配置については確信が持てませんが、画像内にいくつかの歴史的建物が見られます。全く同じプロンプトをNanobanana Proで使用したところ、この表現が得られました。これらの画像モデルと大規模言語モデルの性質上、同じプロンプトを実行するたびに異なる結果が得られますよね。でも品質の面では、特にこの特定のプロンプトに対して両者は非常に似ています。大規模言語モデル上で訓練されているので、フォローアップの質問ができます。

画像内のすべての歴史的建物にラベルを付けるよう依頼したところ、本当に良い仕事をしました。元の画像に基づいてラベルを配置しています。エッフェル塔があり、オリジナルのバレエ館があり、一時的な博覧会のアーチウェイもあります。すべて正確に見えますね。かなり良いです。

このモデルのセールスポイントの一つは、元のNanobanana Proと比較して同等レベルの品質でありながら、支払いがはるかに少なくて済むということです。

空間理解力とカウント能力のテスト

次は空間理解能力とカウント能力をテストする別のプロンプトです。7つのマカロンを完璧な円形に配置するよう依頼しました。それぞれ異なる色で、赤、オレンジ、黄色、緑、青、藍、紫から始まります。

配置は上から時計回りに開始します。そして真ん中にゴールドフォイルレタリングで「seven wonders」と書かれたカードが欲しいと指定しました。これがNanobanana 2、つまりGemini 3.1 Flash Imageモデルからの生成です。言うのが面倒なので、Nanobanana 2と呼ぶことにします。指示に従う能力の面では、本当に本当に良い仕事をしています。

7つのマカロンがあります。比較として、Nanobanana Pro、つまりGemini 3 Pro Imageモデルからの出力がこちらです。両モデルから非常に似た出力が得られています。Nanobanana Proと非常に似ていて、製品のモックアップに使用できます。これが本当に得意だと感じたのはテキストレンダリングです。

優れたテキストレンダリング能力

このケースでは、ワールドシネマフェスティバル2026の映画祭ポスターを作成するよう依頼しています。上部に英語、中間に日本語、下部にアラビア語の3つの異なる言語が欲しいと指定しました。各言語はそれぞれにエレガントなタイプスクリプトを使用すべきです。これが生成した出力です。英語のラベルがあり、次に日本語があります。

実際に配置が完璧に整列しているのが気に入りました。そしてアラビア語があります。次に試したプロンプトは、インターネットからデータを収集して画像生成に使用できるかどうかを確認するものでした。世界で最も価値のある企業トップ5の時価総額を調べるよう依頼しました。棒グラフを作成してください。タイトルは「trillion dollar club」にするよう指示しました。

Google検索を行い、これが出てきました。上位にNvidiaがあります。ロゴも含めることができて、とても素晴らしいです。次にApple、Microsoft、Alphabet、Amazonがあります。Geminiによると、これが順序のはずです。少し疑問を感じました。

AlphabetまたはGoogleは3位で、Microsoftは4位のはずです。ここでは間違えていますが、おそらくモデルの画像レンダリング能力というよりも検索結果から来ているものだと思います。同じプロンプトを再実行したところ、今度は順序が変わりました。今度はGoogleが3位になっています。繰り返しますが、これはモデルの画像生成能力というよりも検索結果によって駆動されていると思います。

テキストレンダリングは本当に優れている分野です。ツール使用がどれだけ得意かも見たかったんです。結果をGoogle検索に基づいて根拠付けできるからです。AnthropicのClaude APIがどのように機能するかを示す技術的なアーキテクチャ図を作成するよう依頼しました。メッセージフロー、システムプロンプトインジェクション、ツール使用ループ、安全性フィルタリング使用が含まれる必要があります。

claude.aiのドキュメントと他のいくつかの場所も調べたと思いますが、これが出てきました。特に注目してほしいのは、一般的にこれらの画像生成モデルで生成された画像に大量のテキストがある場合、通常はテキストをレンダリングしたり台無しにしたりすることです。

このモデルはそれをしないようです。作成したこの図は技術的に正確に見えます。Claude APIの実際の内部動作についての詳細はわかりませんが、技術的観点からは、これはAnthropicまたは他のAPIの技術図の正しいレンダリングのようです。

より詳しく見ると、ここで何かを間違えた可能性があるようです。テキストレンダリングの面では、実際にかなり複雑な画像を大量のテキストで処理できます。このケースでは、クラシックなフレンチクロワッサンのプロフェッショナルなレシピカードを作成するよう依頼しました。複数の異なる項目を含める必要があります。

正確な測定値を持つ7つの異なる項目と、カロリー、脂肪、炭水化物、タンパク質の栄養情報を含む小さな読みやすいテキストで6つのステップがあります。同じプロンプトに対して、左側にはNanobanana Proからの出力があり、右側にはNanobanana 2またはGemini 3.1 Flash Imageからの出力があります。

詳細な指示への対応力

内容の正確性の面では、実際に指示に従っています。準備時間、調理時間、収量があります。ここでも同じです。両方の画像に7つの異なる材料があります。クロワッサンを作っているので、似たような項目です。

そして詳細な指示があり、両方とも本当に良い仕事をしていると思います。どちらにも本当に問題は見当たりません。全体的に、どちらを選んでも良いでしょう。これがポイントで、比較的シンプルなプロンプトに対しては、これら2つのモデルから生成される画像間で最小限の違いしか見られないということです。しかし、この新しいモデルが本当に得意なのはテキストレンダリングです。

画像生成テストはコミックストリップなしには完了しないことはわかっています。このケースでは、ここに表示されているテキストで4パネルのコミックを作成するよう依頼しました。いくつかのポイントがあります。キャラクターの一貫性において本当に良い仕事をしていて、テキストを正確に私が望む場所に配置しています。元のプロンプトで、下部に小さなテキストで「this is why we can’t have nice things」と言いました。

このバリエーション用に生成された画像では、同じテキストが2回あることがわかります。キャラクターが「this is why you can’t have nice things」と言っていて、ここに小さなラベルがあります。これ以外は、実際に指示に従うことが本当に得意です。全く同じプロンプトに対するNanobanana Proからの出力がこちらです。

繰り返しますが、指示に従っています。Nanobanana 2は店舗やコーヒーショップのレンダリングで良い仕事をしたと思いますが、このモデルは指示に従うことでより良い仕事をしています。テキストを正確に私たちが望む場所に配置できるからです。別のプロンプトがあります。特定のスタイルで建物をレンダリングできるかどうかを確認したかったんです。

構造をどのように見せたいかについて多くの詳細があります。また、その中でテキストをレンダリングしてほしいと思いました。家番号は42になるはずです。そしてTesla Model 3が私道に駐車されています。これがNanobanana 2が生成したものです。そしてNanobanana Proは非常に似た仕事をします。

基本的に同じものをレンダリングしました。興味深いことに、両方のケースで構造はプロンプトと非常に一貫性を保っています。これは非現実的な状況にどう対処するかをテストするためのものでした。浅いサンゴ礁の真ん中に座っている透明なガラスのグランドピアノのハイパーリアリスティックな写真を作成してほしいと思いました。タコがピアノを弾いているはずです。

非現実的シーンの描画能力

触手が鍵盤上に正しく配置される必要があります。そしてピアノの周りを小さな熱帯魚が泳いでいるはずです。また、ピアノにはブランド名が付けられているべきです。かなり良い仕事をしていると言えます。ここにピアノのブランドがあります。水中です。日光が入ってきて、水面に当たっています。

タコがピアノを弾こうとしています。今のところ6本の触手しか見えませんが、反射を見ると、もう数本あるようです。これは解剖学的に正しいようです。つまり、指示に従っていて、かなり良い出力を生成していると思います。シンプルな指示に対する品質の面でいくつかの例をお見せしました。

主な差別化要因は価格設定です。私が見た価格設定はまだ確認されていませんが、Nanobanana Proと比較して比較的安価です。Googleディープマインドが変更する可能性があると言っていたので、ここに価格を掲載するつもりはありません。動画の説明欄に、現在の価格を実際に確認できるページへのリンクを貼っておきます。

とにかく、これをチェックしてみてください。このモデルのパフォーマンス対コスト比が本当に良いことに気付くと思います。この新しいNanobanana 2での体験がどうだったか教えてください。とにかく、この動画が役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。

コメント

タイトルとURLをコピーしました