Googleのヤバすぎる新AI…

Google・DeepMind・Alphabet
この記事は約17分で読めます。

GoogleがリリースしたGemini 2.5 Flash画像生成機能「ナノバナナ」の実践テストレポートである。AIエキスパートのYouTuberがラスベガスのAI4カンファレンス期間中に撮影した様々な写真を使って、背景変更、人物除去、テキスト編集、オブジェクト追加など多岐にわたる画像編集機能を検証している。キャラクター一貫性の維持、光源の正確な再現、細部への配慮など、従来のフォトショップに代わる可能性を持つ自然言語ベースの画像編集ツールとしての性能を詳細に分析した内容となっている。

Google's UNREAL New AI...
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Googleの革命的な新AI「ナノバナナ」を徹底検証

さあ、Googleがナノバナナっちゅうもんを世に放ったで。早速試してみよか。長い金髪にしてもらえるんかな?これAGIなんちゃうか?これ間違いなくサムネイルになるわ。そうでなかったら、俺が結成を考えてるメタルバンドのジャケットや。

せやけど、ナノバナナって何やねん?これ実はGemini 2.5 Flash画像生成のコードネームやったらしいで。ここにちっこいバナナのアイコンが見えるやろ?studio.google.comで確認できるわ。ライブ配信中にテストしてたから、それを見せたるで。

このサムネイルを使ったんや。これ俺が実際に作ったサムネイルなんやけど、金髪を足してみた。キャラクターの一貫性がすごいで。めっちゃ似てるやん。どっちも明らかに同じ人や。

今度はテキストを「ナノバナナ」に変えてみよか。バンッ!完璧にやったで。フォントもテキストのスタイリングもそのまま保ってる。すげぇわ。

背景をブラックホールにしてみるのはどうや?素晴らしい!美しいわ。俺がブラックホール近くの宇宙におる。テキストをグラフィティスタイルにしてみよか?完璧にやったと思うで?「Nano」は間違いなくグラフィティスタイルや。垂れてるし。まだちょっときれい過ぎるけどな、グラフィティにしては。

せやから「banana」も「nano」と同じようにやってくれって言うてみたんや。近いけど、まだ足りん。まだきれい過ぎて完璧や。「banana」を「Nano」と同じスタイルの文字にすることはできんかったわ。なんでか分からんけど。

今度は俺をゲーム・オブ・スローンズのキャラクターにしてみた。バンッ!そこにあるで。今度はキャラクターの一貫性が失われてしもた。もうちょっとテストせなあかんな。全身画像を全身に変換したいんかもしれん。どうなるか見てみよか。

最近、AI4カンファレンスでラスベガスに行った時、Dylan Curiousっちゅう別のAI系YouTuberに会ったんや。俺らポッドキャストも一緒にやってるねん。チェックしてみ。Nick Bostromにインタビューしたばっかりや。マジで衝撃的やった。リンクは概要欄にあるで。

そこにいるのがDylan、そして俺、そして彼の素敵なアシスタントのAlyssaや。Alyssaが画像使用許可出したか分からんから、切り取ってみよか。真ん中の女の子を消してくれって言うてみる。

うわあ、めっちゃ速かった。これは極めて印象的やで。この画像見ても、何か変とか悪いところが全然分からん。俺らなんか変に身を寄せ合ってるけど、中央に何かあるべきやのに、なんでこんな離れてるんやろって感じやな?せやけどこれはええ感じや。

ここに人がいたなんて全然分からん。これが元の画像や。Alyssaの頭の後ろにヤシの木があるの分かるやろ?それを消してもヤシの木はまだそこにあるし、緑もそこにある。Alyssa以外は全部そのままや。

もうちょっと近くに立たせてって言うてみる。どれくらい時間かかるか数えてみよか。13秒くらいやな。せやけど前回よりめっちゃ長かった。最初のは超速かったのに。

ちょっと拡大してみると、なんかAIっぽい感じもするけど、元の画像にめっちゃ近いわ。特徴を本当によく保ってる。これはかなりすごいで。

めっちゃ衝撃的なことの一つが、この柱に注目してみ。この柱の底の部分、台座っちゅうか何て呼んだらええか分からんけど、そのデザインに注目してみ。ここでそれを再現してるのが分かるやろ?元の画像では、これは見えてなかったんや。俺がここにおったから。

この全体を隠してたんや。他の柱を見て「あ、多分これと同じやろな」って思ったんやろ。元の画像では、これが底の部分が見えてる唯一の柱やった。俺の後ろに何があるかを特定する他の情報はなかった。ただこの柱がこの柱と繋がってるっちゅう事実だけや。

せやから同じデザインやと思うのが妥当やろ。バンッ!完璧やで。タイルとか全部含めて、めっちゃすごい。どれだけええかに正直驚いてるわ。

公平に言うと、写真から人を消すっちゅう技術は昔からある。40年代からやってたんちゃうか?

金歯テストと顔認識機能

次に、俺に金のピカピカの歯をつけてくれって頼んでみた。これは引っ掛け問題や。Googleが俺のことをどれくらい知ってるか見たかったんや。その写真の俺が誰か分かるんかな?見事に合格やったで。ここにDylanがピカピカの金歯つけてる。最高や!彼がこれをサムネイルに使いたがるかどうか見てみるわ。冗談抜きでな。

スターリン写真の修復実験

次に、このスターリンの写真を使って「これをカラー化して高精細にして」って言うてみた。全部スペルミス してることに今気づいたわ。まあ、求めてたもんとはちょっと違うな。まず、両方の画像で男性が消えてしもてる。この上のやつの方がちょっとカラー化できてるかな。それは消して、現代のプロ用カメラで撮ったみたいに見せてって言うてみる。

確実にシャープになってる。顔の特徴がちょっとよく見えるようになった。これが元のやつや。これが元で、これが新しいやつ。まだ求めてるもんとはちょっと違う。

これをカラー写真にして、現代的で高彩度にしてって言うてみる。これはかなりええな。なぜか常に男性を消してしまうんや。分からんわ。めっちゃスターリンっぽい。常に消えてしまう。その男性は画像の一つにはいるんやけどな。なんでこんなことが起こってるのかめっちゃ気になるわ。どの画像でも、両方から消えてしまうねん。ここでも消えてる。

ラスベガスでのフレンズセット体験

ラスベガスのMGMグランドを歩いてた時、90年代のあの番組「フレンズ」をテーマにしたレストランやと思ったもんがあった。寄ってみることにしたんや。観光地、観光客の罠やとは知らんかったけどな。Dylanを観光客の罠に巻き込んでしもて、心から謝るわ。

実際にフレンズの撮影に使われたセットで、俺らの初のロケ収録ポッドキャストをやろうとしたんや。もちろんできんかった。博物館みたいなもんやし、セットやからな。すぐに追い出されたけど、やろうとはしたんや。

俺らの後ろにフレンズのキャストを出現させてって頼んでみた。Geminiがあの番組を見たことがあるかは分からんけど、これは彼らやないわ。どんな感じに見えるべきかはなんとなく分かってるみたいやけど。画面の人たちを見分けられん人もおるやろうから、それは全然理解できるで。

同じ画像で「ワイドアングルショットが見えるように引いて」って言うてみた。これがフレンズのセットや。これが結果や。いろんなもんがあるのは認めるけど、カフェと、どこなんか分からんところを混同してる。これは家の中みたいに見えるけど、セントラルパーク・カフェでもある。6人いるし、なぜか増えてる。

今日の早い時間にMadvid Proがナノバナナをカバーしてるのを見たんや。彼がこの、めっちゃかっこいいバナナアーマーを作ってたんや。これは試さなあかん。すげぇわ。

カンファレンスでの出会いとバナナアーマー

カンファレンスで、実際に俺を認識してくれる人が数人いた。マジでワイルドやった。この二人ともめっちゃ楽しく話したで。彼らはAIの特定の側面について話すポッドキャストを立ち上げる予定らしい。立ち上げたらすぐにシャウトアウトするわ。

せやけど俺もMatt Proみたいに、あのかっこいいバナナアーマーが欲しいねん。そこにあるけど、全然かっこよくない。バカみたいに見える。こんなんじゃなくて、もっとこういうのが欲しいねん。これはあかん、あかんで。

せやけど俺が「バナナみたいに見えるプレートアーマーを着せて」って言うたのは確かや。そしてそうしてくれた。せやけど正直、右にいる人が俺やと認識してるんやと思う。画像の一番右にいる人を俺やと思ってる。それを確認せなあかん。

せやから「右の男性にバナナみたいに見える、すごくて威圧的なアーマーを着せて」って言うてみる。これやったらええ感じや。これやったら俺にふさわしいバナナアーマーや。

ジェフリー・ヒントンの講演前

これは俺がステージの前にいる写真で、ジェフリー・ヒントンが話そうとしてたところや。彼とFei-Fei Li、それからEmma Brunskillが主要な基調講演者やった。他にも何人かいたけどな。

「ステージで大規模なヘビーメタルコンサートを、火とか他の特殊効果で完全にカオスにして」って言うてみる。こういうモデルは言おうとしてることについてかなり賢いもんや。コンサートって言いたかったんやと理解してくれると思う。おお、理解してくれたで。

これはかなりクールや。本当にその場にいたような気分になる。面白いことに、ステージを逆にしたんや。ステージをそこに置いて、椅子はまだここにあるけど、俺のポジションはだいたい同じや。なかなかクールやで。

他のYouTuberとの交流

YouTubeをやってる別の人に出会った。名前はCrayっちゅうねん。彼のチャンネルや。一緒に遊んでめっちゃ楽しかった。せやけどこの写真、ひどい赤い色合いがあった。ナノバナナがその赤い色合いを取り除いて、普通に見えるようにできるか見てみよか。

最初は内部エラーが出た。もう一回試してる。ただ「重い赤い色合いを取り除いて」って言うだけや。今日出たばっかりやから、これを試してる人の数でサーバーが溶けてるんやと思う。

おお、なかなかええやん。46秒かかった。これは普通に見える写真や。重い赤い色合いがあったなんて分からんで。これはかなり印象的や。めっちゃ難しいと思うけど、素晴らしいわ。

Netflixカフェとグループ写真の実験

ここはNetflixの一口や。NetflixはテーマフードがいっぱいあるNetflix専用のカフェを持ってるらしい。まあまあやった。普通やったわ。

そこにいるのがCray、俺、Alyssa、それからDylanで、このバカみたいなMGMグランドの袋を持ってる。「袋の代わりに剣と斧を持たせて。俺らを健康的で運動してるように見せて」って頼んでみた。

いろいろ起こってるな。袋を取り除いて、いろんな剣を追加して、俺らを健康的に見せるって、一度にちょっと多すぎたんかもしれん。ここに余計な手がある。なんか盾みたいなもんがあって、腕を通すことができる。何が起こってるか分からんわ。

武器を持ってるのは悪くないけど、他にちょっと変なところがある。「俺らを健康的で運動してるように見せて」だけやったら、まだ5つ星をつけられると思うわ。俺らがすでに健康的で運動してないって言うてるわけやないで。ただもっとっちゅうことや。

判断せんといてや。俺らみんなテック系YouTuberやねん。俺らが一日中何してるか考えてみ?どこから健康が出てくるんや?

これが返答や。前と同じに見えるわ。これが出力で、これが元やけど、ほぼまったく同じに見える。俺らを健康的で運動してるように見せてって頼んだら、同じ画像を返してきた。

ああ、分かった。もうそうなってるって言うてるんやな。うまいことやったな、Google。うまいことやった。

Stranger Thingsのマインドフレアー

イニットカフェで、Stranger Thingsのマインドフレアーの像があった。マインドフレアーやったかな?AD&Dゲームにいるマインドフレアーとは違うもんやった。違う解釈をしてたんやと思うけど、マインドフレアーやったと思う。

とにかく、「マインドフレアーのモンスターを俺に身を寄せさせて」って言うてみる。あ、いや、マインドフレアーはでかいやつやった。おっと、あれはデモゴルゴンって呼ばれてたやつや。俺が悪かった。

せやけどこれは悪くない。映画『エイリアン』のエイリアンみたいやけど、ええ感じに見える。間違ったこと言うたけど、めっちゃリアルに見えるわ。照明がどれだけええかに注目してみ。俺らどっちもハゲで頭がピカピカやから、めっちゃ分かりやすい。

光がどこに落ちるか見えるやろ?上からの光源があって落ちてる。画像の左側から紫のネオンライトが俺らの顔に当たってる。これは完璧や。

画像クリーンアップ機能

これもカンファレンスで俺を認識してくれて話しかけてくれた人や。人生で初めてのことやから、絶対に驚きが止まらんわ。すげぇことやで。

これは俺のスマホやったと思う。レンズに何か触ったんかな?レンズフレアが見える。前のカメラに何かが付いてたからやと思う。なぜかスマートフォンでぐちゃぐちゃになってて、俺らの顔がほとんど見えんくらいや。

レンズフレアっちゅうんかな、そんなんがいっぱいある。ナノバナナ、いやGemini 2.5 Flash画像プレビューで画像をクリーンアップできるか見てみよか。レンズフレアから画像をクリーンアップして。

これがその結果や。よくなってるやろ?これが元や。古いフィルム写真で照明が悪いみたいに見える。これが新しいやつ。確実によくなってる。まだこの光の歪みはあるけどな。全部なくせるか見てみよか。

これが2回目の試行や。よくなってる。ゼロにはならんけど、かなりよくなってる。画像をクリーンアップするのに使えるで。面白いことに、大きいテキストは保持されるけど、小さいテキストは完全にぐちゃぐちゃになる。せやけどこれはよくなってる。

これが4回目の試行や。4回やった理由は、俺のプロンプトと関係があるんかもしれんと思ったからや。「全ての光のフレアを完全に除去して」って言うてみた。そこにあるで。まだちょっとは見えるけど、一番ひどいのは全部なくなった。クリーンアップされてる。美しいわ。

ベラージオでの休憩

カンファレンスの翌日、空港で飛行機に乗る予定やった。フライトがちょっと遅れて、ホテルのチェックアウトから6〜8時間後やった。せやからベラージオで時間を過ごすことにした。美しいベラージオや。

そこに行った理由は、ベラージオのカジノに入って、コンベンションセンターがある方、ミーティングルームがある方に歩いて行くと、イベントがない時は、そのウィング全体が完全に無人になるんや。廊下をうろうろしても誰もいない。

寝るのにちょうどええタフト付きのソファを見つけた。完璧やった。この秘密の隠れ家のことを今みんなが知ってしまうから、多分言わん方がよかったんやろうけど、まあええわ。誰にも言うなよ。

これは庭の外にあるレストランや。何て呼ぶんか知らんけど、なかなかええ朝食、ブランチの場所や。床を完璧な鏡にできるか頼んでみた。

これがその結果や。めっちゃ面白い。床っちゅうより、俺の後ろにあるテーブルみたいなもんやけど、鏡の部分はめっちゃうまくできてる。もう一回試してみた。「床をマットブラックにして」って言うた。

反射しない車みたいな感じにして。なかなかええと思う。まだ全ての床はできてない。「全ての床をマットブラックにして」ってもう一回言うてみた。

できてない。大部分はやってくれてるけど、明らかにここにはもっと埋めるべきところがある。

フレンズセットでの「ピボット」体験

なぜかソファを階段で運ばなあかんかった。冗談や。これもフレンズのセットからや。そこに立ってた人たちがずっと「ピボット!」って叫んでた。何を意味してるんか分からんかった。動かんもんはピボットできへんやろ。

「俺らがソファをニューヨークの地下鉄に下ろしてるように見せて」って言うてみた。これがその結果や。いろんなことをうまくやってくれた。確実にニューヨークの地下鉄みたいに見えて感じる。そこから来る電車はちょっと変やけど。そういう仕組みやないと思うけど、残りは完璧や。

床を黒くした後、その黒い床全部を鏡にしてって頼んでみた。まだそこまでは到達してない。床を鏡にするのは何かめっちゃ複雑なんか、まだ難しいみたいやけど、シーンの残りは本当に一貫性がある。床を変えることができたし、素晴らしいことがいっぱいあるわ。

ロボットとの出会い

これはカンファレンスで会った一番クールな人の一人や。あんまりしゃべらん。明らかなハイファイブの試みを見逃すねん。手を上げても、そのまま立ってて、手を下ろしたら1分遅れでハイファイブしようとしてくる。

俺が歩いて離れようとした時、回し蹴りを食らわしそうになったと思う。せやけどまだ、深い絆を結んだで。これはもちろんUnitree Robotや。誰かがボクシンググローブとヘッドギアをつけてくれた。めっちゃ可愛かった。

「ロボットが俺の耳を噛んでるように見せて」なぜかって?なかなか威嚇的やな。もしこんなことを俺にしたら、かなりビビると思うわ。

エベレストとSWATギア

これは俺とDylanが普通に見えようとしてる写真や。どんな感じ?ここのプロンプトは「俺らがエベレスト山の頂上にいるように見せて」やった。

切り取ってシーンに配置しただけみたいに見える。悪くない、悪くないけど、単純なフォトショップの切り取りと配置みたいに見える。

同じ画像で俺らがSWATの戦術ギアを着てる。キャラクターの一貫性は完全に失われてるやろ?これは別の人たちや。これが俺らやないってことは理解してくれてると思う。せやけどギアとか全部、なかなかしっかりしてる。

ここで「俺らに光る重いプレートメタルの胸当てみたいなのを着せて」って頼んでみた。なかなかクールや。アーマーに反射があるのに注目してみ。なかなかリアルやで。

反射を見ると、道の向こう側にもこっち側と同じようにネオンライトがあると推論したみたいや。俺らの後ろと同じように、前にも同じもんがあると想定した。

ネオンライトがあって、写真を撮ってる人もいると想定した。その人物が反射してるのが見える。これを指摘する理由は、元の画像には画像を撮ってる人の反射のヒントが全くないからや。

もちろん俺らは誰かがその画像を撮ってるって知ってる。誰かがここに立ってるけど、実際の画像自体にはそれを示すものは何もない。ものがどう機能するかを理解する必要がある。せやからそこに人がいると推測するんや。めっちゃ面白い。

車の改造と角度変更

これは車の写真や。光って真珠光沢にできるか?できるで。見てみ。光ってる。美しい。ここのラインの反射がある。木々、窓に木々が反射してるって分かってるから、ここにも反射するって理解してる。

これが元で、これが新しいやつ。素晴らしいわ。

この画像を使って、横から見たらどう見えるか頼んでみた。AIビデオモデルとか他のAIモデルには、写真とかを別の角度から見たらどう見えるかを想像できるもんがあるからな。

これがやってくれたことや。これは理解しといた方がええ。完全に新しいものを生成してるわけやない。これは画像編集のためのもんや。写真の中のオブジェクトを編集するけど、写真を完全に変えるわけやない。

寿司とお金、AIシャツ

Vegas Low Roller YouTubeチャンネルのDanに会った。3人でめっちゃええ寿司を食った。すげぇかった。せやけどテーブルにお金の束をいっぱい置けるかな?明らかにできるみたいや。

テーブルにお金がいっぱい現れて、寿司を全部覆ってる。テキストと画像はそんなにきれいやないけど、配置はなかなかええ。何とも交差してない。枝豆のトレイの後ろに置いたりしてる。なかなかええ感じや。

次にこの画像を使って、一人をOpenAIのシャツ、一人をXAIのシャツ、一人をDeep Mindのシャツ、一人をAnthropicのシャツを着せてって言うてみた。これがそれやと思う。なかなかクールや。

反復テストと限界の検証

次に、写真で何回反復できるか、変になり始めるまでに見てみたかった。これから始めた。左の人を削除してって頼んだ。バン。

次に、Geminiに俺がシャツを着てない時にどう見えるか想像してもらった。そこにあるで。驚くほどリアルや。完璧にやったと思う。冗談やで。また、テック系YouTuberやからな。

面白いことに、体格に追加の変更は加えんみたいや。腹筋をもっと割れさせるとか、肩を大きくするとか、いろんなアプローチを試してみたけど、やってくれん。ちょっとした調整はするけど、求めてる特定のことは本当に変えてくれん。全く違うアカウントで完全に違うプロンプトでやり直しても、まだめっちゃ似てる。

シャツを着てない写真については、遊べる範囲がめっちゃ小さいみたいや。まあそれは理にかなってると思うけどな。

フレンズセットでの連続変更実験

これも俺らがフレンズのセット、セントラルパーク・カフェでコーヒーを飲んでる写真や。本当のコーヒーやない。そこに座らせてもくれん。30秒以上いたら追い出される。

せやけど連続的な変更をいくつか素早くやって、どこまで行けるか見てみよか。まず、俺らをスタートレック・エンタープライズ号の甲板に置いてみよか。バン。なかなかええ。確実にそこにいるように見える。

次に、フルのスタートレックの制服を着せてって頼んだ。バン。そこにあるで。もう俺らには見えんくなってる。いろんなもんが保持されてる。ソファ、俺らがどう見えるかの一部、コーヒーカップとかやけど、顔は変わってる。

これもフレンズのセットの俺らや。フォールアウトの世界、ポストアポカリプスの50年代アメリカの雰囲気に見せてって頼んだ。やってくれた。まだなかなかええ。

古い学校風の外観に注目してみ。全部破壊されてる。全部もうちょっとザラザラしてる。何かの装甲を着てるけど、まだいっぱい一貫性がある。これはその別のバリエーションや。

今、反復をもっと深くするのに苦労してる。修正された写真を出力したら、そこからもっと修正された写真を得るのに苦労してるみたいや。リリース初日やからかもしれん。

総合評価とまとめ

せやけどとにかく、このモデルは気に入ってる。写真編集にはめっちゃええ。背景除去、人物除去、背景変更、持ってるもんの変更、位置とか、できるだけいろんなことを強調しようとした。

この全体を通して、ほとんどが未編集やった。生成に失敗したもんがたくさんスキップされたわけやない。大部分で、俺が見てたもんをそのまま見てもらった。これは厳選されたもんやない。ベストオブベストやない。

これはほぼそのまんまや。その大部分がめっちゃ印象的やと思う。多くの人がフォトショップの使い方を覚える代わりに、これを使って写真編集をするようになると思う。自然言語で話すだけで、まるで魔法みたいに写真が変わる。

もちろん、これらの画像は全部左下にウォーターマークがある。取り除く方法があると思うし、そうなるやろうけど、今のところはこれで作られた全ての画像に右下にそのウォーターマーク画像がある。

これには小さな斑点がついてるのに気づいた。放射線なんか、古い学校の写真の何かなんか分からんけど。なかなかええ追加やと思う。

とにかく、これについてどう思うか教えてくれ。もう試してもらったか?これが人々が写真編集に使うツールに大きな変化をもたらすと思うか?これが俺らが特定のことを認識する方法を変えると思うか?

ライブ配信してた時、誰かが基本的に全ての出会い系アプリが終わりやって言うてた。外見を変えたり、いる場所を変えたり、画像で運転してる車を変えたりできるからな。確実にそれは問題を起こすやろう。

せやけどどう思ったか教えてくれ。ラスベガスの俺の画像ばっかり使ったのがうっとうしくなかったらええんやけど。チャンネルのみんなに見せたかったし、これがこれらの画像をいっぱい修正する完璧な口実になったと思ったんや。

フォールアウトのやつは、なかなかええ感じに見えると思う。ここまで見てくれたなら、本当にありがとう。次回でまた会おう。

コメント

タイトルとURLをコピーしました