Googleの画像生成AI Nanabano 2を12分で徹底解説

GoogleがフラッグシップモデルであるNanabana Proの後継として、より高速かつコストパフォーマンスに優れたNanabano 2を発表した。このモデルは思考型AIとして機能し、Google検索とGoogle画像検索を統合することで最新のデータにアクセスしながら画像を生成できる点が特徴である。テキストから画像への変換と画像編集の両機能を備え、高度な世界知識、優れたテキストレンダリングと翻訳、被写体の一貫性、最大14個のオブジェクト配置、指示追従能力、4K解像度までの本格的な仕様、そして高い視覚的忠実度という6つの主要機能を持つ。特にグラデーション表現、多言語テキストのレンダリング、詳細な指示追従において顕著な性能を示し、アラビア語、ヒンディー語、タミル語などの非ラテン文字系言語でも高精度な文字生成が可能である。Google AI Studio、Vertex AI、Gemini.google.comなど複数のプラットフォームから利用でき、無料版も提供されている。

Google Nano Banana 2 in 12 mins!

Introducing Nano Banana 2 (Gemini 3.1 Flash Image), our latest state-of-the-art image model. Now you can get the advance...

Nanabano 2の登場とその特徴
6つの優れた機能
実際の使用例とアクセス方法
グラデーション表現の卓越性
指示追従能力の検証
多言語テキストレンダリングの実力
画像編集機能の検証
多様な言語での翻訳能力
総括

Nanabano 2の登場とその特徴

GoogleがついにNanabano 2を発表しました。これは彼らのフラッグシップ画像生成モデルの次世代版です。Nanabana Proはこれまで世界で最高の画像生成モデルとして君臨してきました。どの企業もこれを超えることができませんでした。そしてGoogleは、Nanabano 2がNanabana Proと非常に似た品質を持ちながら、より安価で、そして遥かに高速だと主張しています。

このビデオでは、Googleの主張が本物なのか、それとも誇張なのかを検証していきます。そして最も重要なのは、これが思考型モデルだということです。大規模言語モデルのようなものですが、内部で熟考しながら画像を生成できるんです。さらにGoogleはGoogle検索とGoogle画像検索を有効にしました。つまり、インターネット上の画像から学習でき、検索データから学習できるということです。

つまり、絶対的に素晴らしい画像を生成する際に、完全に最新のデータを持つことができるということです。まず、このモデルには2つの異なる形式があります。1つはテキストから画像へのモデルで、テキストプロンプトを与えて画像を出力します。そして2つ目は画像編集モデルで、画像を与えて、さらにテキストプロンプトを与えることで、最終的な画像出力を得ることができます。

6つの優れた機能

Googleはこのモデルが絶対的に素晴らしいと言っている6つの異なる機能があります。1つ目は、モデルが高度な世界知識を持っているということです。これらのモデルはある時点で世界モデルに収束していきますし、モデルは物理学と世界知識の良い理解を持つ必要があります。2つ目は、モデルが非常に優れたテキストレンダリングと翻訳を持っているということです。

正直言って、これは私がたくさん試した1つの機能で、この機能には本当に驚かされました。このモデルには本当に優れた被写体の一貫性があります。つまり、5人の人間や5人のキャラクターを画像に与えて、その画像を編集することができるんです。そして最大14個のオブジェクトを追加することもできます。これは特にグラフィックデザインや高品質なワークフローを行っている場合に非常に重要です。

クリエイティブなワークフローで使用している場合、この5人の人物が反復ごとに異なって見えることは望ましくありませんし、実際のところ、彼らの顔が変形したりすることも望ましくありません。だからこれは非常に重要なんです。そして次に、Googleはこのモデルが指示追従において本当に本当に優れていると言っています。

これも私がテストしたことで、モデルが指示追従において本当に優れていることがわかりました。その例もお見せします。最後に、2つのことは、このモデルがアップスケーラーを使わずにこのモデルを使用できて、最大4K解像度まで生成できるような、本格的な仕様で提供されているということです。また、このモデルはより高い視覚的忠実度を持っています。

これはどういう意味でしょうか?豊かなディテール、シャープなテクスチャーを備えていて、すべてがきちんとシャープで、よりプロフェッショナルに見えるということです。これらがGoogleがこのモデルが本当に本当に優れていると主張している6つのことです。では、このモデルにどうやってアクセスできるのでしょうか?モデルにアクセスする方法は複数あります。まず、Google AI Studioに行くことができますが、そこではモデルは有料です。

Google Vertexに行くこともできます。そこでもモデルは有料です。開発者フレンドリーなfileを使って示すつもりです。プログラミングコード内で使用できます。でも、もしモデルに無料でアクセスしたいなら、gemini.google.comに行って、これを実行するだけです。例えば、ここでプロンプトを実行しました。

実際の使用例とアクセス方法

物質の3つの状態を比較する三連祭壇画インフォグラフィック、固体、液体、気体、3つの縦パネルを並べて。そして画像をどのように見せたいかについての詳細が続きます。そしてこれがこのモデルが生成したものです。素晴らしいです。もし私にグラフィックデザイナーとしてこれを作るように頼んだら、この特定のモデルがこの画像を生成するのにかかった15~20秒よりもずっと長い時間がかかったでしょう。

では、どうやってアクセスするのでしょうか?とても簡単です。新しいチャットに行きます。私はプラス契約はしていません。これは私の個人アカウントです。画像を作成をクリックした瞬間に、このグリッドが表示されます。このグリッドが表示された瞬間、おそらく最新バージョンのNanabano 2を持っているということです。そして、これらのエフェクトのいずれかを選択できます。例えば、モノクロームを選択できますし、ゴシッククレイを選択できますし、スケッチを選択できます。スケッチとして、28歳の素敵なインド人女性を作成してください。

さて、私はスケッチをエフェクトとして選択し、プロンプトも与えました。ここにローディングnanobaと表示されているのが見えます。つまり、この特定のエフェクトを使用して、この場合に特に与えたプロンプトを使用して、Nanobano 2を使用しているということです。これがあなたです。ここにTマグのようなプリントを配置することができたのも見えます。そして、透かし付きで取得できますが、透かしなしで取得したい場合は、プログラミングルートを通る必要があり、それがfileを使ってお見せすることです。

fileでNanabano 2を使用する場合、このモデルの正式名称はGemini 3.1 flash previewですが、誰もそう言いたくありません。かなり長いですから。だから誰もがNanabano 2と言いたがるんです。fileに行ってNanabano 2を検索すると、2つのエンドポイントが得られます。1つはテキストから画像へ。2つ目は画像編集エンドポイントです。

まずテキストから画像から始めます。いくつかの例を見てから、画像編集エンドポイントに戻ります。まず第一に、このモデルは絶対的にグラデーションが大好きだと言えます。この特定のモデルほどグラデーションをうまく扱うモデルを見たことがありません。ビデオを一時停止してプロンプトを読んでください。

グラデーション表現の卓越性

これはかなり詳細なプロンプトです。このプロンプトで2つのことが理解できます。1つは、モデルが非常にシャープだということ。視覚的忠実度が良いということです。2つ目は、モデルが指示追従においてどれほど優れているかがわかります。指示追従とは、この色が最初、2番目の色、3番目の色でなければならないと言ったとき、モデルがそれに従わなければならないということです。

そしてここで見られるように、私は深いほぼ黒の背景を持つOpenAIの縦型ソーシャルメディア広告1080×1920pを作成するように言いました。そして16進数カラーを与えています。計算的でプレミアムに感じられる滑らかな多色グラデーショングローを追加します。柔らかい放射状のブルーム。ここに放射状のブルームが見えます。シアンから始まり、バイオレットに変わり、マゼンタになり、そして微妙な不透明度が12~18%に減少し、暗い背景にきれいにフェードしていきます。プロンプトで説明した通りに、モデルが生成することができたのが見えます。これは驚くべきことです。

それからフォントを選択できますし、どんなタイポグラフィーが欲しいか言えますし、残りの詳細も与えることができます。そして最後に、フッターに何が欲しいかも言えますし、これらはネガティブプロンプトのようなものです。全体的な美学はプレミアム編集雑誌ページ、ミニマル洗練されたテキスト駆動、写真なし、アイコンなし、装飾要素なし、きれいなネガティブスペース。モデルは本当に指示追従が優れていました。視覚的忠実度、生成方法において本当に優れていました。私のテストから感じたのは、このモデルが美しい美しいグラデーションを生成するということです。おそらくこのモデルを使って自分の壁紙を生成するかもしれません。それほど良いんです。

指示追従能力の検証

次の画像は、再び、モデルが指示追従プロンプトにおいてどれほど優れているかを理解しようとしています。ビデオを一時停止して読んでください。多くの詳細が含まれています。ここで見られるように、ここに見られるすべての詳細がプロンプトに組み込まれています。浮かぶキャンドル、ここのタイトル、雑誌のような表紙、ここのモデル、そこの椅子が見えます。すべての要素、ここに見られるすべての要素がこのプロンプトに組み込まれており、モデルはこのような最終出力を与えるために非常に勤勉にそれに従いました。

そして次はモデルのGoogle検索機能を探索することです。ここでGoogle検索を有効にして、スペイン語を与えてくださいと言いました。ほんの数時間前に起こった南アフリカと西インド諸島の間の最近のT20ワールドカップをカバーするスペイン語の新聞の表紙を作成してくださいと言いました。ここで見られるように、モデルは南アフリカのクリケット選手のように見える画像を作成することができ、背景には西インド諸島のクリケット選手がいます。

明らかに彼らは本物ではなく、タイトルを付けています。もしあなたがスペイン語を話すユーザーであれば、タイトルが意味をなすかどうかコメント欄で教えてください。私はカリグラフィーのようなタイポグラフィー、タイポグラフィーを作成したかったですし、同時に多言語で試してみたかったですし、Google検索と組み合わせたかったんです。

多言語テキストレンダリングの実力

この特定のケースでは、コーラン102章2節、素敵なデスクトップ壁紙のためのアラビア語とタミル語の詩を作成してくださいと言いました。それだけです。先ほど言ったように、モデルはグラデーションが大好きです。ここに美しいグラデーションが見えます。何年も前、私が子供だった頃、私はPhotoshopが大好きで、私がデザインしたどんなデザインにも常に背景にグラデーションがありました。

私のデザインを見て、ああこの人がデザインしたんだとわかりました。なぜなら背景にグラデーションがあったからです。この特定のモデルを見たとき、そんな時代のように感じました。モデルは非常に良い仕事をしています。グラデーションはとても滑らかです。カードもありませんし、色も非常に異なるわけではありません。

グラデーションを選択するときは、色が近い系統であることを望みます。モデルは非常に良い仕事をしました。これをしている間、モデルはここでアラビア語テキストで非常に良い仕事をしました。モデルはここでタミル語テキストで非常に良い仕事をしました。スタイルは非常に似ています。そしてここにもグラデーションがあることに気づくかもしれません。

そして、私はこれを読むことができます。これはハタ・ズムル・マカビルで、何の間違いもありません。そしてタミル語でもニンガル・カブラール・チャンドゥムで、間違いがありません。タミル語をレンダリングすることができました。アラビア語をレンダリングすることができました。下部の英語をレンダリングすることができました。私がこれらの詳細を何も与えていないのに、本当に高い視覚的忠実度を達成することができました。

私が言ったのはコーラン102章2節を取ってくださいということだけで、Googleに行ってすべてを検索し、戻ってきて、この素敵で美しい背景を作成し、そこにテキストを配置し、そこにアラビア語テキストを配置し、そこにタミル語翻訳を配置し、非常に非常に良い仕事をしました。そして再び、素晴らしいです。次に、モデルの画像編集機能を見たかったんです。

画像編集機能の検証

写真を与えてプロフェッショナルな見た目のヘッドショットを作成するように頼む一般的な画像編集機能とは異なり、何か違うことを試してみたかったんです。これも再び、モデルが現在の機能でどれほど優れているかを理解しようとしています。Tesla Cybertruckの写真を与えて、この画像を与えました。

再び、知識を得るためにGoogle検索を有効にしました。参照画像のアイソメトリック分解図を作成してくださいと言いました。そしてこれを見てください。1つのプロンプトでモデルがこのTesla Cybertruckのアイソメトリック分解図を作成することができました。パノラマガラスルーフがあり、フランスホイールがあり、フランス電気モーターがあり、ヨークステアリングホイールがあります。

この詳細も正しく取得することができました。つまり、Googleを使用したか、トレーニングデータの一部だったということです。より高い精度が必要な場合、これは再び、より高い精度、現在の情報、画像、何でもやりたいことのための非常に良い非常に良い候補です。モデルは私が与えたその画像、Tesla Cybertruckの画像を取って、それを爆発させてアイソメトリックビューを作成することができました。

素晴らしい画像です。そして次は、ジョン・ウィックのポスターのポスターを与えて、メインテキストのみをヒンディー語に翻訳するように頼みました。ここで見られるように、他のすべてを残すことができました。キアヌ・リーブスはいません。他のすべての詳細は英語です。でもジョン・ヴィックを作成することができました。私はこれを読むことができます。

これはスペルミスのないジョン・ヴィックです。そして私にとって非常に興味深いのは、テキストを見ると。ここを見てください、ここに美しいテクスチャーが見えます。そしてモデルは、このテキストを同じスタイルで合わせたかったので、テクスチャーを追加しなければならないと決定しました。そして正直言って、これは簡単な仕事ではありません。Photoshopを使っている場合、これはスペックルフィルターのようなもので、モデルはそこに追加することができました。

多様な言語での翻訳能力

第一に、モデルがそもそもそれを追加したいと思うような思考プロセスを持っているということは、かなり驚くべきことです。タミル語の詩を与えて、ヒンディー語に翻訳するように頼みました。手書きスタイルにしてほしかったですし、モデルはかなり良い仕事をしたと思います。見ることができます、読むことができます、スペルミスはありません、不正なテキストはありません、テキストが混ざり合っているようなことはありません。

モデルはインド語、特に異なる、ローマ字フォントのような、例えば英語、フランス語、ドイツ語などに対してかなり良い仕事をしていると言えます。ローマ字フォントについては、モデルがかなり良い仕事をするだろうと理解できます。でもこのようなテキスト、ヒンディー語は完全に異なるスクリプトです。3番目は完全に異なるスクリプトです。

アラビア語は完全に異なるスクリプトで、モデルは過去に見た他のどのモデルよりもずっとずっと良い仕事をしています。そして次は、この英語のポスターを与えました。これはずっとずっと前に出た映画のポスターで、それをヒンディー語に翻訳するように頼みました。そしてモデルが再び非常に良い仕事をしたのが見えます。

だからすべてをヒンディー語で保ちました。文字通りすべての詳細、hopeがここにアーシャに翻訳されています。そしてここにAeros Aeros internationalが見えます。ここにAeros internationalが見えます。だから、文字通り映画のタイトルだけでなくすべての詳細を翻訳することができました。そしてここで素晴らしいのは、モデルがスタイルに対してかなり良い仕事をしているということです。例えば、ここの英語、ishがそのスタイルで、そのスタイルで、banamがその特定のスタイルです。ここにversusが見えます。これは現時点で最高のモデルの1つ、あるいはおそらく最高のモデルだと言えます。テキストから画像生成や画像編集機能を使いたい場合には。

総括

Nanabano 2でもっと実験したいことがありますし、今後おそらくそれらの実験を実行して、興味があれば別のビデオを作ります。コメント欄で教えてください。でも今のところ、本当に高品質なテキストレンダリング、翻訳、Google検索内蔵、高い視覚的忠実度、そして全体的な思考型モデルが欲しい場合、これはおそらく行くべき最高のモデルです。別のビデオでお会いしましょう。ハッピープロンプティング。