Gemini 2.5 Flash Imageがめちゃくちゃヤバい件について!!!

Google・DeepMind・Alphabet
この記事は約8分で読めます。

この動画はGoogleの新しい画像生成AI「Gemini 2.5 Flash Image」の驚異的な性能を詳しく解説したものである。このモデルはOpenAIの画像生成モデルと比較して10倍も安価でありながら、画像生成と編集において圧倒的な品質を誇る。動画では実際にGoogle AI Studioを使用して、著名人の写真を使った商品広告の作成、YouTubeサムネイルの生成、リアルタイムでの画像編集など、様々な実演を通してその優秀性を証明している。特に自然言語での指示に対する高い理解力と、迅速な処理速度が際立った特徴として紹介されている。

Gemini 2.5 Flash Image is Nano-Banana!!!
Today in the Gemini app, we're unveiling a new image editing model from Google DeepMind. People have been going bananas ...

Gemini 2.5 Flash Imageの革命的性能

Gemini 2.5 Flash画像モデルがめちゃくちゃヤバいねん。みんなこのモデルで大騒ぎしとるで。これは今手に入る最高の画像編集モデルの一つや。これから一連のプロンプトを通して見せたるから、このモデルがどれだけすごいか、きっと驚くことになるで。

残念なのは、パラメータのサイズがどれくらいなんか、Googleがどうやって訓練したんかの技術的な詳細がわからんことや。まあ、これは彼らが共有したくないIPやから当然やけどな。でもこれはLM Marinaの ELOレーティングと違って、最高の画像生成モデルや。このモデルは2番目に良いモデルをはるかに上回っとるし、OpenAIの画像生成モデルより10倍も安いねん。

やから開発者にとっても、消費者にとっても、Photoshopみたいなもんを試してみたい人にとっても、でもそれが魔法みたいなやつを求めとる人には、このモデルがまさにそのスタートポイントになるモデルや。

Google AI Studioでの実演

このモデルをAI studioで手に入れたで。Google AI studioに行って、右上の角でモデルを選べるねん。Gemini 2.5 flash image previewが、ここで見えるように注目モデルの下で利用可能や。これは新しいモデルで、このヤバいモデルは二つのことができるねん。画像生成と画像編集や。

モデルを選んだら、スカーレット・ヨハンソンの画像を与えて、それからOpenAIのマグカップを与えたんや。OpenAIとスカーレット・ヨハンソンの間に平和をもたらすためにな。

「女性がくつろぎながらマグカップを持っている美しい背景でマグカップのコマーシャルを作ってください」って言うたんや。これが出力された画像やねん。この画像がどれだけ美しいか見てみ。背景に美しい景色があって、与えた同じ女性がおって、マグカップを文字通り持っとる。6本指があったり、Stable Diffusionみたいに変なことにはなってへん。これはめちゃくちゃ魅力的やで。

このモデルでできることはいっぱいあるで。明らかに画像を生成することもできる。例えば、新しいチャットを作って、「モデルを選択してください」って言うて、モデルを選んだら確実にして、「超知能について議論している2つの棒人間を作ってください。色をポップに追加してください」って言うんや。

処理速度の比較

モデルはめちゃくちゃ速いで。画像を生成しとるのが見えるやろ。2つの棒人間が超AI進化について議論しとる画像を生成したで。

でももっとコミックストリップみたいな2つの棒人間を作ってくれ。超知能について議論しとるやつをな。白い背景で、棒人間は黒色にしてくれ。それだけや。これを送信すると、モデルはめちゃくちゃ速いねん。時間がかかることはないで。

ChatGPTのOpenAIのモデルを使ったことがあるなら、それがめちゃくちゃ時間がかかることがわかるやろ。同じリクエストをChatGPTに与えてみるで。新しいチャートを手に入れて、「2つの棒を作って」って言うて、「画像を作って」って言うで。これを送信すると、これがどれだけ時間がかかるか見えるで。かなり長い時間がかかるねん。画像の生成を始めて、Google AI studioは完了や。

実際の応用例

「超知能は危険すぎる。偶然に我々を破壊するかもしれん」って感じやな。これだけでも、人間の要求を受け取ってコミックストリップを作るスタートアップを立ち上げることができるで。このモデルはプロンプトの遵守がめちゃくちゃ良いねん。

今度はJack Dorseyを使ってみるで。Jack Dorseyの写真を手に入れて、画像をコピーして、ここに戻ってペーストする。YouTubeサムネイルにJack Dorseyを変えるために使う長いプロンプトを与えるつもりや。これは基本的にJack Dorseyが売ってるようにしようとしとるねん。知らん人のために言っとくと、もうJack DorseyのGooseを試したことがあるねん。めちゃくちゃ好きなやつや。

残念ながら、今はひどいMacを持っとるから、Gooseモードを試すことができへん。この画像をアップロードしたのが見えるやろ。欲しいのはバイブコーディングって書いてあるサムネイルだけや。

これは期待しとったもんと違うな。前回は違ったで。モデルが失敗したみたいや。ここに行って、また貼り付けて、今度はモデルが失敗せんようにしてみるで。また失敗するか見てみよう。

その間、OpenAIに戻ったけど、まだ終わってへん。「開始中」って言っとる。何か問題があるのかわからん。画像生成はクールやけど、しばらく使っとるけど、めちゃくちゃ混乱するねん。

商品配置とカスタマイズ

これは素晴らしいで。YouTubeサムネイルができて、「100万ドルのバイブコーディング」って見えるやろ。アイコンの束を追加したいとしたらどうや。ストックライブラリからアイコンを取りに行きたくないねん。

「TwitterとFacebook、VS codeのアイコンを追加してもらえる?人気のYouTubeサムネイルに似た赤色のグリッド背景も追加して」って言うで。このモデルの良いところは、自然言語で会話ができて、好きなようにできることや。

ここで見えるように、Jack Dorseyの画像をアップロードして、たった一つのプロンプト、ゼロショットプロンプトでこんなもんができたねん。プロンプトに興味があるなら、説明に追加できるで。でもフォローアップを求めることもできるねん。これは典型的なYouTubeスタイルや。やってくれって頼んで、追加したんや。

Visual Studio Codeはないけど、Twitterを追加したと思う。Facebookアイコンも追加して、こんな感じですべて格好良くなったで。

今度は商品配置にどう使えるか見せたるで。またJack Dorseyを使うで。もうScarlett Johanssonで見たからな。Jack Dorseyをここに貼り付けて、香水ボトルを手に入れよう。

スクリーンショットをコピーして、ここに戻って「この男性がハワイで魅力的なポーズでこの香水を持っている広告を作ってください」って言うで。適当なことを言っとるけど、要点はわかってもらえると思う。香水ブランドがあって、男性がおって、これは全部ゼロショットや。LoRAを使ってへん。プラグインも使ってへん。これは文字通りGemini 2.5や。

驚異的な結果

うわー、これは期待してなかった。これを見てみ。これを見てくれ。文字でさえそれほど歪んでへん。実際に見ることができる。フォントも、よく観察すれば何かを見るかもしれんけど、これはヤバいで。

こんなことが起こるなんて信じられへん。例えば、今度は「この男性の隣に美しい白人の彼女を追加してもらえる?彼を抱きしめてる感じで」って言えるねん。コンテンツポリシーに違反してへんことを願うで。YouTubeやGoogle AI Studioに通報せんといてくれ。ただ教育的にやろうとしとるだけやから。

成功したで。見てみ。正直言って、これはヤバいで。理解できへん。どれだけの人の人生がこれで台無しになるか想像もつかんけど、見てみ。たった数回のコマンドでこれをやってのけたねん。

「男性の頭に美しい髪を追加してもらえる?」って言うで。明確にしとくと、女性はもうあるからな。髪型がどうなるか見てみよう。人が髪型を気に入らんかったらどうや。Gemini 2.5 flashについて唯一不満があるとすれば、主に正方形の画像を生成しとることやと思う。でもこの場合は9×6みたいなのを生成しとる。

すごいな、男性に髪ができたで。何かテキストがあるな。いつもそこにウォーターマークがあるねん。でも髪を見てみ。かわいく見えるやろ?

「背景を完全に削除して、緑色にしてもらえる?」って言うとどうや。クロマキーで使いたかったら、簡単にそれをすることができるねん。

ChatGPTとの比較

このデモだけでも、ChatGPTに戻って、どうなったか見てみよう。うわー、ChatGPTを閉じてしまったんか?いや、大丈夫やった。ChatGPTは悪いことはしてへん。作ったもんは評価するで。「超知能がもうすぐ来る。いや、来ないで。」でも、それでええねん。良いで。

でも、Gemini 2.5 flash previewが提供する速度は、完全にヤバいと思うで。人々ができることは、このモデルの良いところは、複数のフレームを生成して、最初のフレームと最後のフレームでKlingみたいなもんと一緒に使って、全体のビデオを生成できることや。このモデルについて興味深いことはたくさんあるけど、このビデオはここで止めて、このモデルを試す機会を与えたいと思う。

結論

このモデルはstudio.google.comのAI studioで試すことができるで。Gemini 2.5 flashを選択してな。唯一のことは、対処せなあかんレート制限があることや。でもそれ以外は、Googleと全Googleチームからの素晴らしいリリースで、インターネット全体がバナナの絵文字で大騒ぎしとる。

でもこれは素晴らしいモデルや。でも中国のモデルが来て、このモデルにすぐに追いつくことを本当に願っとる。また別のビデオで会おう。ハッピープロンプティング。

コメント

タイトルとURLをコピーしました