Nano Banana後：Maestro（Googleによる新フレームワーク）

Googleが発表した新しいフレームワーク「Maestro」は、Nano Bananaに続く革新的なテスト時最適化システムである。複数の専門AIエージェントが連携し、ユーザーの初期プロンプトを自動的に改善しながら、テキストから画像への生成品質を向上させる。チェックリスト作成、スコア評価、ペアワイズ比較、詳細批評、全体的批評、最終検証という6つの段階を経て、人間の意図により適合した高品質な画像を生成する自己改善プロセスを実現している。

After Nano Banana: MEASTRO (Also by Google)

Nano Banana for VIDEO? Is this the next step for Ai generated content? Say Hello to MAESTRO.This video will provide a de...

Nano BananaからMaestroへ：Googleの次なる挑戦
Maestroの革新的なアプローチ
完全自律的な自己改善エンジン
実用例：スーパーマンとスパイダーマンマスク
プロフェッショナルなアート・ディレクターシステム
単一LLMを超えたオーケストレーション
実際の動作フロー
ブースターエージェントの役割
自己改善ループの4要素
革新的なペアワイズ比較システム
複雑なマルチエージェントシステム
Googleの新しいアイデア：Maestro
自己修正対話の必要性
理想と現実のギャップ
計算コストとNano Bananaの相性
オープンソースのアプローチ
今後の展望

Nano BananaからMaestroへ：Googleの次なる挑戦

こんにちは、コミュニティの皆さん。お帰りなさい。Nano Bananaは本当に楽しかったですね。でもGoogleはすでに次の製品を開発中で、それがMaestroと呼ばれるものです。

「おお、素晴らしい。Nano Bananaの次は何だ」という感じです。もちろん、それが何なのかご存じでしょう。Gemini 2.5 Flashの画像プレビュー機能で、それほど高価ではありません。

これはもちろんGemini 2.5 Proの弟分です。そして新しいGemini 3では、新しい何かを期待できます。でも、Nano Bananaの次のステップであるMaestroを見てみましょう。それは一体何なのでしょうか。

Maestroの革新的なアプローチ

多くの人がNano BananaとChatGPTの画像機能などを比較していますが、本当に興味深いのは次のステップです。そしてここにコードがあります。

「これは全然複雑に見えない。たった11、12ステップなら大丈夫だろう」と思うかもしれません。でも、そう簡単ではありません。説明しましょう。

Maestroと呼ばれるこの新しいフレームワークは、主にテスト時最適化フレームワークです。本当の美しさは、様々なブラックボックステキスト-画像生成器と連携できることです。

つまり、Googleに限定されません。お好みのものを使用でき、さまざまなマルチモーダル大規模言語モデルとも連携します。これは素晴らしいですね。

従来は、ユーザーが改良する必要がありました。プロンプトを変更して、より良くする必要があったのです。なぜ人間がそれを入力しなければならないのでしょうか。

完全自律的な自己改善エンジン

Maestroのアイデアは、完全自律的な自己改善エンジンを特徴とすることです。これは初期のユーザープロンプトのみを手動コンポーネントとして必要とし、Nano Bananaの最適化の残りの部分は自動化されたAIシステムによって行われます。

見てみましょう。ここに「Hubble Space Telescope（ハッブル宇宙望遠鏡）」というプロンプトがあり、テキストは「宇宙は謎だが、我々はそれを解くためにここにいる」です。これをテキスト-画像システムに入力しても、うまく機能しません。

でも、Maestroで3、4ステップ進むと、AIシステムの自己評価後に生成される画像が見えます。

そして約8回の反復後には、この画像が得られます。ハッブル宇宙望遠鏡の側面にテキストが印刷されているのが見えます。これが自己最適化のアイデアです。

実用例：スーパーマンとスパイダーマンマスク

スパイダーマンのマスクを着けたスーパーマンの例を見てみましょう。お持ちのテキスト-画像モデルで「これは違う」となった時、通常なら「顔全体を覆うようにしよう」と手動で修正するでしょう。しかし今では、AIがこれをしてくれます。

8回の反復後、Maestroはスーパーマンの顔に完全なスパイダーマンマスクを着けました。アイデアはシンプルですが、実装方法を見てみましょう。

プロフェッショナルなアート・ディレクターシステム

単なる別のテキスト-画像エディターシステムを構築するのではありません。アート・ディレクターが必要です。最高の画像のみを提示する、プロのアート・ディレクターを備えた自己改善システムが必要なのです。

シンプルなアイデアで、必要なのは専門AIエージェントのチームによるオーケストラです。これらのAIエージェントは、最終的な画像が人間の意図と美しく一致し、本当に完璧であることが検証されるまで、プロンプトを批評し、洗練し、進化させる異なる機能を持っています。

これはGoogleによる、現実世界の問題に対するマルチエージェントシステムの美しい例です。

単一LLMを超えたオーケストレーション

単一のLLM思考やチェーンオブソート最適化を超えて、協力する専門AIエージェントの完全に織り交ぜられたオーケストラへと進んでいます。各エージェントは特定の専門性を持っています。

また、強化学習でのスカラー報酬関数として知られているものを超えていることに注目してください。

人間フィードバックによる強化学習から最良の方法論を学び、「多くのエージェント、多くのAI知能（引用符付き）があるので、スカラー報酬機能は使わず、ペアワイズ比較を使う」と言います。判定者としてのLLM、または判定者としての視覚言語モデルを使用します。

美しいアイデアで、任意のテキスト-画像およびマルチモーダルLLMモデルをブラックボックスとして使用できます。これは将来性があり、もちろん彼らはImagenやGeminiプロジェクトに焦点を当てています。もちろん、これはGoogle製のGoogle用です。

実際の動作フロー

実際の動作フローを見てみましょう。最初に遭遇するエージェントはチェックリストエージェントです。

このエージェントは視覚的質問を分解する非常に重要なタスクを持っています。Gemini 2.5 Proなど、お好みの強力なLLMを使用して、人間ユーザーのプロンプトを細かい「はい」または「いいえ」の質問セットと、画像に求められる視覚的要素の絶対的に詳細なセットに分解します。

分解された視覚的質問はここで質問セットを形成し、この分解された視覚的質問は単純に、ユーザーが求めるもののチェックリストであり、システムはすべてに配慮することを確認したいのです。

「円形の緑の葉を持つ木の上の四角い赤いリンゴ」のようなプロンプトがあるとします。「緑の葉はいいが、円形で四角い赤いリンゴ？」と思うかもしれません。

システムは「わかった。注意しなければならない。何をすべきか？画像にリンゴはあるか？はい。いいえ。リンゴは四角いか？はい。いいえ。葉はあるか？はい。いいえ。すべての葉は本当に円形で完璧な円か？はい。いいえ」と言います。

簡単なチェックリスト、簡単なテンプレートです。ここにあります。これが通常の画像でしょう。そして、緑の葉が完璧な円形画像になっているのを見てください。そしてリンゴは…「このリンゴを楽しもう」とは言えないでしょうが、これがあなたの求めたものです。美しいですね。

ブースターエージェントの役割

次に遭遇するのはブースターエージェントです。これは「プロンプトを改善できる」と言うエージェントです。より説明的な初期プロンプトを生成できます。お持ちのブラックボックス視覚言語モデルまたは任意のシステムの特定のトレーニングデータセットを考慮して、単純にプロンプトを最適化します。

そして本当に興味深い部分がやってきます。これが自己改善ループです。

自己改善ループの4要素

MaestroはここでNew人織り交ぜられた4つの要素を持っています。それぞれを見てみましょう。

もちろん、ImagenやGeminiなどのテキスト-画像モデルが必要です。次に、視覚的質問応答用のスコアラー、マルチモーダルLLMがあります。そしてもちろん判定者が必要です。

これは、ペアワイズ客観的比較で「これは良く見える」または「あまり満足していない」と教えてくれる、完璧なアート・ディレクター、ミニアート・ディレクターです。

さらに、デュアルジェネレーター戦略による批評も行います。ループを見てみましょう。

アーティストから始めます。Imagenやお好みの任意のブラックボックスモデルです。

そしてスコアがあります。新しい画像は先ほど見せたチェックリストに対して評価されます。視覚的質問応答モデルが応答を提供し、チェックリストを「はい、いいえ、はい、いいえ、はい、いいえ」と進み、各要素は与えられた特定の質問に対する「はい」の確率です。

革新的なペアワイズ比較システム

判定したい場合、スカラー報酬関数はありません。ここに戻ってくるのは重要な革新です。スカラー値を持つ従来の方法ではなく、強化学習から画像の直接的な一対一比較を行います。

判定者としてのマルチモーダルLLMは、元のユーザープロンプトと、このマルチエージェントシステムのメモリ内のすべての情報を条件として、新しく生成されたペアをこれまでに見つかった最良のペアと比較します。素晴らしいですね。

そして批評があります。批評はGoogleによって2つの相補的エージェントで構成されるよう設計されています。見てみましょう。

まず詳細指向の批評があり、次に全体的な批評があります。ここで画像の細かい詳細に正確に入り込み、これは多かれ少なかれ全体的な印象、本当に求めているものです。

全体的な改善は本当にあるのでしょうか？人間の意図を可能な限り最良の方法で捉えているのでしょうか？彼らがこれをどのようにコーディングしているか興味深いです。

ここで、マルチモーダルLLMが画像が失敗した理由と特定のチェックリストなどすべてを合理化し、それを修正するための改善されたターゲット添加を特定のプロンプトに提案することがわかります。

複雑なマルチエージェントシステム

天哪。様々なAIシステム、テキスト-画像システム、LLM、スコアラーシステム、編集システム、改善システム、明示的暗示的改善システムがあります。エージェントの軍団です。何が悪くなる可能性があるでしょうか？

Googleは「これを批判的に見ているなら、ループの後、すべての後の最後に、再び検証、自己検証をしましょう」と言いました。

そして何だと思いますか？もちろん、それは別のエージェントです。他に何があるでしょうか？

絶対的な最終チェックポイントで、批評によって提案されたすべてのもの、新しいプロンプトを取得し、元のチェックリストに対して再び検証します。新しいプロンプトがコア制約に失敗した場合、ガーディアンがそれを定義します。そして再び、ユーザーの意図に根ざすまで修正しようとします。

このガーディアンエージェントが本当にユーザーの求めていたものを理解することを願います。そうでなければ興味深いことになるでしょう。

最後に、最適化が間違った方向に行かなかったことを確認したいのです。これは本当にユーザーが求めていたものです。ここにあります。美しいですね。

Googleの新しいアイデア：Maestro

Nano Bananaの後のGoogleの新しいアイデア。マルチエージェントオーケストレーションによる自己改善テキスト-画像生成。2025年9月12日、Google、ケンブリッジ大学。

テキスト-画像ジェネレーターがあるときに、反復的に改善し、すべてが良好であることを確認する、より知的な複雑さを追加したい場合の素晴らしいアイデアです。

このビデオでこれまでお話ししたすべてを、10個の要素を持つこの美しいフローチャートで見たい場合、これがまさに私たちが話したことです。

アイデアは「優れたモデルはあるが、これらすべてのエージェントとすべてのテキスト画像生成システムがより賢く連携するための、よりスマートな方法が欲しい」ということです。

自己修正対話の必要性

必要なのは5、6、7、8のエージェント間での自己修正対話です。なぜなら、すべてがお互いを理解し、すべてが同じメモリ構造にアクセスし、すべてが最適化されたプロンプトなどにアクセスすることを望んでいるからです。

私のチャンネルの購読者なら、これは起こらないことを知っているでしょう。ジョンズ・ホプキンス大学とSalesforce AI研究が、ちょうど1週間前に「AIエージェントに話させるな」と言ったからです。エージェントが話すほど、マルチエージェントシステムの集合知性が劣化します。

このビデオで、なぜ推奨事項が「エージェントを最大限に削減し、あまり話させない」なのかの美しい例をお見せしました。話すほど問題が増えるからです。

理想と現実のギャップ

しかし、アイデアは素晴らしいです。Maestroフレームワークがあり、6、7、8のエージェントが協力することから生まれる創発的知性があります。全員が貢献し、全員がシステム全体をより良くしようとします。うまくいけば、素晴らしく機能するはずです。

しかし、完全な実際の通信パイプラインで何か問題があれば、デバッグで問題に直面するでしょう。

もちろん「これはNano Bananaと相性が良い。GoogleのFlash画像生成のことだ」と言うでしょう。もちろんそうです。天国で作られたマッチです。GoogleがNano Bananaの成功後にMaestroを発表するのは何という偶然でしょう。

計算コストとNano Bananaの相性

なぜでしょうか？これは反復的な自己反省プロセス、自己改善プロセスだと言ったからです。Maestroはテキスト-画像モデルを複数回呼び出さなければならず、実験では8回だけ行いましたが、トークンの支払い、通信などすべての支払いが必要です。

大きくて遅いモデルがあれば、これはどんどん高価で時間がかかるようになります。テスト時計算最適化にいることを覚えておいてください。

しかし、超高速モデル、引用符付きの超高速があれば、Nano BananaのようにGemini 2.5 Flashが削減されて、素晴らしいです。高速で小さく、素晴らしい自己改善プロセスがあり、Googleインフラストラクチャで作業していれば、ほぼリアルタイム機能があります。

Nano Bananaのような小さなモデル、何という偶然でしょう。これはMaestroを構築するのに完璧なモデルです。なぜなら、Maestroのエージェント・スキャフォールディングが品質増幅器として機能し、はるかに優れた画像を生成し、ユーザーはもちろんより良いアウトプットに対してはるかに高い価格を喜んで支払うからです。

オープンソースのアプローチ

ここで異なるプロンプトテンプレートも見えます。GoogleはここでオープンにしてくれていYES「見てください、これが私たちの使用するコードです。これが私たちの使用するテンプレート構造です」と教えてくれています。

初期レビュー用のプロンプトテンプレートがあります。もちろん彼らはGoogleのGeminiシステムを使いましたが、一般的にこれは各視覚言語モデル、視覚言語アクションモデル、お持ちの任意のモデルの最適化で機能するはずです。

ターゲット編集用のプロンプトテンプレート、暗示的改善や質問応答、合理化などの詳細事項があれば、すべて提供されます。

すべては、引用符付きの知性と、この推論プロセスを解決し、画像内の視覚的アーティファクト、視覚的オブジェクトを理解し、ユーザーの意図に従って最適化するLLMまたは視覚言語モデルの能力に依存します。

今後の展望

これは既に完璧に機能しているでしょうか？さて、何だと思いますか？Googleは既に次のステップを開発中です。しかし、これについては後のビデオで詳しく説明します。チャンネル登録をして、次のビデオでお会いしましょう。