GoogleのNanoBanana 2が示すAGIの片鱗──人間のような推論能力を持つ画像生成モデルの衝撃

Google・DeepMind・Alphabet
この記事は約18分で読めます。

Googleの新しい画像生成モデルNanoBanana 2は、単なる画像編集ツールを超えた能力を示している。破れた紙片から元のメッセージを再構築し、複雑な数学の微積分問題をホワイトボード上で解き、多言語の手書き文字を正確に再現し、落下する物体の物理的軌道を予測するなど、従来のAIモデルでは不可能だったタスクを次々と成功させている。これらの能力は視覚認識、言語理解、空間推論、物理シミュレーションを統合した高次の推論を必要とし、人間のような知能を示す重要な指標となっている。GPT-4やClaude、他の主要モデルとの比較においても圧倒的な優位性を見せており、この技術はAGIへの一歩として、またロボティクス分野における基盤モデルとしての可能性を秘めている。

Googles New Image Model Feels Like a Glimpse of AGI. - NanoBanana 2
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

GoogleのNanoBanana 2が示す驚異的な能力

GoogleのNanoBanana 2という新しい画像生成モデルは、実際にAGIの片鱗を感じさせるものとなっています。これについて詳しくお話しする必要があります。Googleは基本的にNanoBanana 2の新バージョンをテストしており、これはAI画像モデルです。しかし、私はこれが実際にAGIへの一歩だと考えています。なぜなら、このAIは従来のモデルでは単純にできなかったことを実行しているからです。

そして、NanoBanana 2が成功裏に行っていることをAIモデルが実行できるためには、人間のように推論できなければなりません。動画が進むにつれて、なぜそれがますます真実になっていくのかがお分かりいただけると思います。いくつかの例を見てみましょう。私が驚いたのと同じくらい、皆さんも驚かれることでしょう。

NanoBanana 2がどれほど優れているかを理解していただくため、モデルの優秀さを真に例証する4つの異なる能力を示す4つの異なる例をご紹介します。これは「Windows 11のデスクトップのスクリーンショットを生成し、Google ChromeでYouTubeを開いて、youtube.com上でMr. BeastのYouTubeサムネイルを表示している」というプロンプトです。

従来モデルとの比較

こちらに見えるのがImage 4です。これはGoogleの古いモデルで、あまり良く見えないことがわかります。この画像について言えることは、Windowsのデスクトップはかなりまともに再現されているということだけです。

しかし、よく見てみると──これは重要なので覚えておいてください。なぜなら、すぐにNanoBanana 2が何をできるのかをお見せしますが、そうすると皆さんは本当に驚かれることでしょう。そして動画が進むにつれて、ますます驚かれることになります。そして、私は最も驚くべきものを最後まで取っておきました──これはMr. Beastではありません。

これらの領域のテキストは本当にごちゃごちゃで不明瞭で、いくつかの画像は意味をなしていません。さて、GPT Image 1を見てみると、これは大幅に改善されています。いくつかのアイコンは意味をなしませんが、間違いなくずっと良くなっています。唯一の問題は、実際の人のダッシュボードには見えないということです。どちらかというと、AI生成画像のように見えます。

この動画では、Cadreamも含めることにします。なぜなら、これは私がよく耳にするモデルで、人々はこのモデルがかなり優れていると信じているようですし、実際いくつかの領域では優れているのですが、こういったことに関しては、そうではないのです。

さて、これがNanoBanana 2です。これは誰かの実際のデスクトップからのスクリーンショットのように見えます。このデスクトップが実際のスクリーンショットなのか、それとも実際にAI生成されたものなのか、私には区別がつきません。唯一、これを見破る手がかりがあるとすれば、この下に再生回数が表示されていないことですが、これがAI生成画像であることを示す明白な手がかりはありません。さて、これはNanoBanana 2がどれほど優れているかを示す最も控えめな例です。

破れた紙片の再構築──驚異的な推論能力

これを見てください。これは現時点でオンライン上に存在する最も驚くべきものだと、私は心から信じています。つまり、誰かが破れた紙片を取りました。その上に何かを書きました。元の紙はこれではありませんが、このように書かれています。しかし、これがNanoBanana 2がこのぐちゃぐちゃで混乱した紙片で実現できたことなのです。

明らかに「the cat balanced directly on the edge of the wooden fence(猫が木製のフェンスの端に直接バランスを取っていた)」と書かれています。NanoBanana 2は基本的に、一体どうやってこれができたのか分かりませんが、これらの破れたメモの断片を元の画像に変換することができました。そして、これが驚くべき理由は、非常に多くの異なる要素を組み合わせているからです。視覚的パターンマッチングと意味理解を組み合わせているのです。

単に破れた端を揃えているだけではありません──それはできているかもしれませんが──文章が何を言おうとしているのかを理解しているのです。つまり、文字の断片と単語の順序を識別することによってです。「the cat balanced delicately on the edge of the wooden fence(猫が木製のフェンスの端に繊細にバランスを取っていた)」という論理的なテキストを再構築しています。そして、視覚的レベルと言語的レベルの両方での理解を示しています。

これは不完全なデータからの物理的再構築です。断片は不規則に破れており、部分的に重なり合い、回転していました。そしてAIは、正しい空間的順序と向きを推測してメモを復元し、実世界で物体がどのように組み合わさるかについての内部モデルを実証しました。そして、これがどれほど重要かを理解する必要があります。

破れた物体が実世界でどのように組み合わさるかについての内部モデルをAIが持つことは、人間のような知能を示すシステムを実現するために極めて重要です。また、テキストと幾何学におけるクロスモーダル推論もあります。成功するために、AIは2つの知能領域を統合しなければなりませんでした。視覚的推論──つまり、線の一致、手書きの配置、紙の端の一致──と言語推論──文の構造と一貫性の予測です。

この統合は、人間がパズル解決や法医学的再構築で使用するものであり、AIシステムがこれらを同時に成功裏に実行することは非常に稀です。そしてもちろん、文脈的補完もあります。文字の一部が欠けていても、AIは言語的確率と視覚的手がかりを使って残りを推測しました。これは高次推論の特徴であり、単にピクセルを一致させるのではなく、意味を理解しているのです。

つまり、驚くべきことです。AIは物理的再構築を実行し、断片を組み立て、意味論的推論を実証し、テキストが何を言っているかを理解し、視覚、言語、空間論理をシームレスに組み合わせています。これが、NanoBanana 2が単なる画像編集ツールよりも少し大きな存在だと私が考える理由です。

これは、Googleが明らかにより高次のものに取り組んでいることを意味します。彼らは本当に賢いのです。つまり、他のラボがどうだったのか気になるなら、私はClaudeに入力してみました。Claudeの視覚的推論は、残念ながら機能しませんでした。「the delicate balance of modern life depends only on the caffeinated(現代生活の繊細なバランスはカフェイン入りのものにのみ依存している)」と言っています。これは実際に読むとかなり面白い文です。

ある程度の真実はあると思いますが、正確ではありません。それは分かります。そして、もちろん、Gemini 2.5 Proを使うことにしました。そして、Gemini 2.5 Proは実際にこれを正しく理解しました。唯一できなかったことは、画像を再構築できなかったことです。NanoBanana 2ほどうまく機能していないと思います。

視覚的推論だけでそれを理解できたのはかなりクールです。そして、もちろん、Grokを試しました。元のメッセージを組み立てるために11分、11分40秒推論しました。そして、最終的に出したメッセージは「the delicate balance of nature on the fence(フェンス上の自然の繊細なバランス)」でした。これは間違っていました。

そして、GPT-5も試しました。これを組み立てるために、などなど。5分間思考しました。GPT-5の最高思考モデルを使うことにしました。なぜなら、通常──ここで少し、陰謀論とは言いたくありませんが、少し聞いてください。

GPT-5と推論モデルの課題

これは、最も知的なモデルとされる拡張思考モデルのGPT-5ですが、間違えました。5分間推論しました。しかし、私がGPT-5を個人的に使用した経験から知っているのは、モデルは過度に推論し、物事を考えすぎる傾向があり、主要なポイントを見逃す可能性があるということです。なぜなら、これらのモデルはある意味で、問題を複数ステップとして見るように訓練されており、一部の問題はほんの数ステップしかないからです。

そこで、実際に試したのは、より小さなモデル、つまりo3を使うことでした。驚くべきことに、o3は元の答えにかなり近づきました。元の答えは「the cat balanced delicately on the edge of the wooden fence(猫が木製のフェンスの端に繊細にバランスを取っていた)」であり、これは著しく近いものでした。

さて、o3──このモデルに馴染みがない方のために説明すると──これはOpenAIが作成した初期の推論モデルです。では、なぜOpenAIが作成した初期の推論モデルがGPT-5を上回るのでしょうか?私が言ったように、特定の問題に対して長時間推論しすぎると、モデルは考えすぎるだけで、特定のシナリオでは実際には役に立たないのだと思います。

ですから、これは皆さんへの注意事項だと思います。推論モデルを使用する際は、すべてに拡張思考を使おうとしないでください。問題を考えすぎることになります。

ホワイトボード上の数学問題を解く

さて、ここにはさらに多くの画像があります。私が見た重要なことの1つは、こういったものでした。そして、これは驚くべきものでした。なぜなら、別のホワイトボードに書かれた別のものがあったからです。それについてはすぐに説明します。しかし、これはNanoBanana 2がホワイトボードに明確に書いており、すべてのテキストが判読可能で、これを解いているのです。これは絶対に信じられないことです。

視覚的に提示された問題、ホワイトボード上の複雑な微積分問題を読み、理解し、解きました。数学的推論、空間認識、視覚的推論のすべてを1つのタスクで組み合わせています。そして、それは驚くべきことです。積分を解いているのです。そして、この積分には高度な微積分、特に三角関数置換が必要です。

モデルは最終的な答えを出力しただけではありません。人間の数学者がホワイトボード上で行うように、完全な導出を1行ずつ実行しました。正しい置換戦略を使用しました。これは記憶されたパターンではありません。記号数学における手続き的理解の実証なのです。そして、空間的に整理され、判読可能に書かれました。これは驚くべきことです。

これは本当に驚くべきことです。つまり、その意味するところは極めて深いのです。さらに多くの例を見ることができます。NanoBanana 1があります。これは出回っていたプロンプトです。おもちゃをアンテナ、ボディ、頭、手、首、車輪のコンポーネントに分解してください。これがNanoBanana 1です。そんなに悪い仕事ではありません。

それほど悪くないと思います。唯一の問題は、いくつかの注釈が正しくないことです。何が「ボケ」なのかわかります。おそらく手であるはずだと確信しています。しかし、GPT Image 1を見ると、手──最善を尽くしているのがわかります。正直なところ、そんなに悪くはありませんが、ここですべてを完全には実行していません。

しかし、もちろん、NanoBanana 2を見ると、これはほぼ完璧です。つまり、これについて唯一間違っているかもしれないことは、ここに小さな立方体が1つあり、これがロボットのどこにあるのかわからないということです。これが驚くべき理由を理解する必要があります。なぜなら、Gary Marcusのような人々がいて、「なぜAIに空間知能について推論するよう求めても、それができないのか」と言うことがよくあったからです。

彼らはこのようなものを引き合いに出すことがよくありました。GPT Image 1は明らかにいくつかの異なるタスクで失敗しています。しかし、これは印象的です。なぜなら、繰り返しになりますが、私がこれらの異なる例をお見せした理由は、それぞれが非常に印象的なモデルの動作の異なる方法を示しているからです。

3D空間推論と物理的分解

これは真の3D空間推論と物理的分解を示しています。AIはおもちゃが何であるかを認識しているだけでなく、それがどのように作られているか、どの部品で構成されているか、それらの部品が実際の空間でどのように組み合わさるかを理解しています。そして、それは非常に注目に値します。なぜなら、明確な機能的部品を識別しているからです──アンテナ、頭、首、ボディ、腕、車輪。

これは、複合物体がどのように形成されるかについての構造的理解を持っていることを意味します。単なる視覚的分割ではありません。機能的組み立てを実行しています──その違いは重要です。ランダムな分離ではありません。ほとんどの画像モデルは形状を分離できますが、NanoBanana 2は部品を機械的に意味のある方法で整理しています。信じられないことです。

少し考えてみてください。これを正しく実行するために、モデルは重力、バランス、実世界の組み立てロジックをシミュレートする必要がありました。どの部品がネジで外せるか、取り外せるか、または取り外されると空間的にどのように関連するかを理解する必要がありました。これは静的な画像認識をはるかに超えています。これは機械的直感への一歩です。

入力が2D画像であるにもかかわらず、AIは本質的にオブジェクトを3次元で精神的に回転させて分解し、部品が分離されて配置されたときにどのように見えるかを決定しました。これには暗黙の3Dモデリングと計画が必要であり、認識と操作を橋渡しします。これは実際にロボティクス、製造、そして先ほど言ったように、人間レベルのAIを示すために極めて重要です。つまり、これは一段上のレベルなのです。

再び、これはNanoBanana 2が何かを解いている例です。繰り返しになりますが、テキストレンダリングは信じられないほど優れています。また、NanoBanana 2にアクセスできる企業を見ました。彼らはNanoBanana 2をどのように使用できるかについて回答を行っていました。PEユーザーはプロンプトを提出できました。

複雑なタイポグラフィの完璧な再現

これを見ました。これは本当に長いプロンプト、長文のプロンプトでした。そして、右側の画像で、これがAI生成であることを示すものは一つも見当たりません。もしこの画像を見せられて、「この画像についてどう思いますか?」と言われたら、「グラフィックデザイナーはかなり優秀ですね。明らかに実在の人物です。写真撮影です。ブロックがあります。タイポグラフィがあります」と言ったでしょう。

そして、正直なところ、ここで実現できることはかなり驚くべきものです。なぜなら、複数の異なるレイヤーのテキストがあることを理解する必要があるからです。複数の異なるフォントがあります。複数の異なる色、シェーディングがあります。たくさんのことが起こっており、AIがこれを間違えるのは非常に簡単です。しかし、これはNanoBanana 2です。

さて、NanoBanana 1を見てください。携帯電話やお使いのデバイスで拡大する必要があるかもしれません。「M the nutritionist(栄養士M)」と見えます。このテキストは乱れています。ここのこのテキスト、テキストが乱れている小さな領域があります。また、ここにも領域があります。「Reshaped」のスペルが間違っています。これまでのところ、実際にはそれほど悪くありません。正直なところ。デザイナーであれば、ここにテキストを追加することは簡単にできるでしょう。

しかし、重要なのは、NanoBanana 1のその画像とこの画像を比較することです。信じられないほど素晴らしいです。本当に信じられません。これが頂点だと思います。これで完成です。モデルがこれ以上改善できることはありません。なぜなら、これをどうやって改善するのでしょうか?何も間違っていることが見当たりません。すべてが完璧です。

ガラスのような肌はありません。テキストの失敗はありません。オブジェクトに奇妙にレンダリングされたものはありません。もちろん、プロンプトは本当に良いですが、それは指示に従う能力がどれほど優れているかを示しているだけです。そして、もちろん、他のモデルも見ることができます。他のモデルが何をしたのかを見ようとしました。

IDEOGRAM 3が見えます。これは良いモデルですが、テキスト生成に関しては、かなり難しいです。ここのテキストはあまりうまく機能していないことがわかります。上部のテキストはまあまあですが、NanoBanana 2ほどではありません。Cadreamはかなり良いことがわかります。驚くほど良いです、正直なところ。Cadreamは本当に本当に驚くべきものの1つでした。

Cadreamについて唯一言えることは、このユーザーの顔を見ると、AI生成のように見えるということです。ですから、おそらくこれには小さな欠陥があるのでしょうが、これを再生成することもできます。そして、これは1回の生成だけでした。ですから、これは依然として良いと思いますが、グラフィックスはこの右側のものほど良くは見えません。

この右側の画像のように、タイポグラフィ、フォント、すべてが人間が作成したように見えます。一方、こちらは、もしかしたら、もしかしたらそうでないかもしれない、という感じです。それから、もちろん、右側にGPT Image 1があります。すべての細かいディテールを一時停止して自分で見ることができます。間違いなく依然としてかなり良いですが、少しAI生成っぽいです。

そして、正直なところ、GPT Image 1を見ると、これはかなりまともだと思います。しかし、私が言おうとしているポイントは、NanoBanana 2と比較すると、本当にすべての違いを生み出す10%だけ優れているということです。

多言語テキストの完璧なレンダリング

さて、このベンチマークに入ると、これはかなり驚くべきものです。なぜなら、このプロンプトは非常に驚くべきものだからです。「黒いマーカーできれいに書かれたアムハラ語のテキストが書かれた、清潔でリアルなホワイトボード。手書きは自然で明瞭に見えるべきで、ボードの中央に配置されています。正確なテキストレンダリングとシャープなディテールに焦点を当ててください」と書かれています。

ですから、本当に、一時停止してすべての文字を見ると、かなり一対一です。かなり一対一です。ほとんど間違いはありません。基本的に一対一です。NanoBanana 2はこの種のレンダリングに関して完璧です。これは驚くべきことです。なぜなら、これはほとんどのAI画像モデルにとって極めて難しいからです。

これは正確な多言語手書き合成です。これが重要である理由は、正確な非ラテン文字レンダリング──アムハラ語、これはかなり驚くべきもので、何百ものグリフを持つ複雑なシステムです──ほとんどの拡散モデル、例えばMidjourneyや他の画像モデルは、このようなスクリプトで惨めに失敗します。なぜなら、記号をぼかしたり、発明したり、意味不明なものを出力したりするからです。

このベンチマークは本質的に完璧な正書法と一貫したグリフ形状を示しており、モデルのトークナイザーと視覚レンダリングパイプラインが、実際にサブグリフレベルで非ラテン系ユニコードを理解していることを意味します。これは考えてみると非常に信じられないことです。

このプロンプトは空間的および美的制約を記述しています──つまり、ホワイトボードに中央揃えできれいに書かれています。モデルは判読可能なテキストを描いただけでなく、フォトリアリスティックなコンテキスト──マーカー、ボード、反射──と構成的に整列させました。これは、言語構造、オブジェクトのレイアウト、照明のリアリズムを結びつける世界モデルの一貫性の強力な証拠です。

ですから、これは、きめ細かい言語レンダリング、フォトリアリスティックな空間推論を同時に示すモデルであることを理解する必要があります。1年前でさえ画像生成にとってほぼ不可能だったことです。つまり、本当に本当に本当に、それがどれほど印象的であるかを理解し始めるのです。

さて、再び比較が登場します。GPT Image 1を見てください。試みはしていますが、失敗もしています。最初の3文字だけを見ると、2番目の文字と3番目の文字に到達すると、物事があるべき姿ではなくなり始めていることがわかります。

再び、NanoBanana 1は完全に失敗しています。Cadreamも完全に失敗しています。Midjourneyはテキストをほとんどレンダリングしないので、他の画像モデルを試すことはしませんでした。彼らはテキストを全く気にしていません。テキストを本当に気にしている唯一の画像モデルはGoogleとGPT Image 1です。

物理シミュレーションと軌道予測

さて、再び、別のベンチマークに進みます。これは本当に印象的です。なぜなら、これを理解する必要があると思うからです。これは「ボールの正しい経路のために線を引いてください」というものでした。これは非常に印象的です。非常に非常に非常に印象的です。Googleについて強気であるべきです。なぜなら、これはシミュレートされた環境で落下する物体の正しい物理的軌道を予測するモデルの能力を示しているからです。これは信じられないことです。

これは単に物理学を理解しているだけではありません。モデルは単に形を認識しているだけではありません。動きを予測しているのです。NanoBanana 2は、複数回のバウンドの後にボトルが描く曲線の経路を正しく推測しました。これには、重力、運動量、衝突角度についての内部理解が必要であり、推論精度においてより大きなモデルを上回っています。

これは本当に驚くべきことです。なぜなら、NanoBanana 1を見てください。これはかなり面白いです。正直に言います。文字通り、この中にまっすぐな線を下に引いただけです。GPT-5推論を使用しました。画像をダウンロードし、何度も回転させ、いくつかのJSONマーカーを追加し、そして右側の1つに何とか行き着きました。

しかし、NanoBanana 2はかなりシンプルです。ボールが落ち、それから落ちて、そして左側に落ちるだけです。そして、これは信じられないことです。これは非常に信じられないことです。正しい線を引くために、モデルはボールが各スロープとどのように相互作用するかをシミュレートし、リダイレクト角度を予測し、精神的に軌道を前方に実行しなければなりません。

これは実際に、人間が実世界の動きを視覚化する方法に非常に近いです。これはAIにおける身体化された推論への一歩です。多くのベンチマークはテキストベースのロジックをテストしますが、これは視覚的および物理的推論をテストします。これは人間が本能的に行うことですが、AIはしばしば苦戦します。

ですから、NanoBanana 2が物理世界の内部モデルを実証し、ボールが物理的にどこに行くかを予測しているのはかなりクールです。GPT-5とNanoBanana 1を見てください。ほとんどのモデルはこれを正しく理解できません。Claude のようなフロンティアモデルに尋ねても、かなり難しいです。

下部のプロンプトは無視してください。しかし、Claudeは、ボール──ボトルが──落ちて、最終的に中央の容器に入ると言っています。ボールは落ちて左側の容器に入るのは非常に簡単に分かります。

NanoBanana 2の意味とロボティクスへの応用

私にとって、NanoBanana 2は注目すべき一歩です。Googleが何らかの大規模なロボティクスのブレークスルーや、これらの世界モデルが組み込まれたロボティクスのための基盤モデルを発表しても驚きません。そして、驚くべきものですが、本当に。

コメント

タイトルとURLをコピーしました