Google DeepMindの開発者たちが、Nano Bananaと呼ばれる画像生成・編集モデルの誕生秘話と技術的な背景について語る。このモデルは、Gemini 2.5 Flashの一部として開発され、従来のImagineモデルシリーズの視覚的品質とGeminiの会話型・マルチモーダル機能を融合させた画期的な成果である。特筆すべきはキャラクター一貫性の実現で、単一の画像から人物を認識し、様々なシーンに自然に配置できる点だ。開発チームは、プロのクリエイターから一般消費者まで幅広いユーザー層のニーズに応えるべく、視覚的品質と使いやすさのバランスを追求した。教育、広告、エンターテインメントなど多様な用途での可能性を秘めており、AIが創造的プロセスにおける強力なツールとして機能する未来を示唆している。

Google DeepMindが開発した画像生成モデルの革新
これらのモデルは、クリエイターが仕事の退屈な部分を減らすことを可能にしています。つまり、より創造的になれるわけです。時間の90%を編集作業やこうした面倒で手作業的な操作に費やすのではなく、90%の時間を創造的活動に充てることができるんです。
私は、これが最終的にアーティストたちを本当にエンパワーするものだと確信しています。新しいツールを提供するわけですからね。例えば、ミケランジェロに水彩絵の具を与えるようなものです。彼がそれで何を生み出すか見てみましょう、という感じですね。そうすれば素晴らしいものが生まれます。
まずは、Nano Bananaモデルの背景について教えてください。どのように誕生したのでしょうか。皆さんはどのようにこのプロジェクトに取り組み始めたのですか。
Nano Banana誕生の経緯
もちろんです。私たちのチームは、かなり長い間、画像モデルに取り組んできました。数年前にさかのぼるImagineファミリーのモデルを開発しました。そして実際、Gemini 2.0の画像生成モデルの前にも、Geminiには画像生成モデルが搭載されていました。
その後、チームはGeminiのユースケースにより集中し始めました。インタラクティブな会話や編集といった用途です。そして本質的に起きたことは、私たちがチームを組んで、このモデルを構築したということです。それがNano Bananaとして知られるようになったものです。これが起源の物語ですが、もう少し背景を説明させてください。
私たちのImagineモデルは常に視覚的品質のチャートでトップクラスでした。私たちは、こうした専門的な生成・編集のユースケースに本当に注力してきました。そして2.0 Flashが登場したとき、画像とテキストを同時に生成できる魔法のようなものが見え始めました。例えば物語を語ることができるわけです。
画像に話しかけて、会話形式で編集できる魔法のような体験です。ただ、視覚的品質は私たちが望むレベルではなかったかもしれません。それでNano Banana、つまりGemini 2.5 Flash画像モデルですが、Nano Bananaの方がずっとクールですよね。言いやすいですし。定着した名前です。そう、定着した名前なんです。
本当にその意味で両方の世界のベストを実現しました。Geminiの賢さとマルチモーダルで会話的な性質に加えて、Imagineの視覚的品質を持っているということです。そして、それが人々に強く響いているのだと感じています。
素晴らしいですね。では、モデルを開発しながらテストしているとき、どんな「すごい」瞬間がありましたか。「これは絶対バイラルになる。みんな気に入るはずだ」と思ったような瞬間です。
モデルが注目を集めた瞬間
実は、Arinalinaでリリースするまで、バイラルになるとは思っていませんでした。私たちは以前のモデルでArinalinaに載せたときと同じくらいのクエリ数を想定していました。しかし、人々がArinalinaを使ってこのモデルを利用し始めたため、その数をどんどん増やさなければなりませんでした。
そのときが初めて、「ああ、これは本当に多くの人にとって非常に有用なものなんだ」と実感した瞬間でした。正直、私自身も驚きました。チーム全体がそうだったかはわかりませんが、私たちは最高の会話型編集モデルを作ろうとしていました。
でも、人々がわざわざウェブサイトにアクセスして、そのモデルが使える確率は一定の割合でしかないのに、それでもそのウェブサイトを使う価値があると思ってくれたとき、本当に注目を集め始めたんです。そのときが、少なくとも私にとっては「ああ、これはもっと大きなものになる」と感じた瞬間でした。
実はそれが人々を条件付けする最良の方法なんです。報酬を部分的にしか与えない、常にではなく。意図的にね。
私にはもっと早い段階での瞬間がありました。私は以前から、複数世代のモデルで似たようなクエリを試してきました。その多くは、子供の頃になりたかったものに関するものです。宇宙飛行士の探検家とか、レッドカーペットに立つ自分とか。リリース前に社内で持っていたデモで試してみたんです。
そのとき初めて、出力が実際に自分に似ているように見えたんです。皆さんはこうしたモデルを常に使っていますが、以前にそれを見たことがあるのは、LoRAや他の方法でモデルをファインチューニングしたときだけでした。複数の画像が必要で、非常に時間がかかり、どこかでサーブする必要があります。
これは初めてゼロショットで実現しました。自分の画像を1枚入れるだけで、自分に似ている。「すごい」と思いました。そして、これが本当にクールだと他の人を説得しようとして、私の顔だらけのプレゼン資料ができました。
実際に多くの人がこれは本当に楽しく使える機能だと気づいたのは、自分自身で試したときでした。他人の姿を見るのも楽しいですが、感情的に響くわけではありません。
すごくパーソナルになるんです。あなた自身、あなたのお子さん、配偶者、そして犬ですね。そしてそれが社内で本当に響き始めたんです。人々は80年代風の自分のメイクオーバー版を作り始めました。そのときから社内で多くの活動が見られるようになり、「よし、何か掴んだな」と思いました。
これらのモデルを作っているときにテストするのは本当に楽しいです。人々が作る素晴らしくクリエイティブなものをたくさん見ることができますから。「ああ、これが可能だなんて思わなかった」という驚きがあります。本当に楽しいですね。
本当にそうですね。家族全員で試してみましたが、信じられないほど楽しいです。
画像生成モデルの未来
長期的に考えてみましょう。これはどこに向かっているのでしょうか。私たちは、視覚芸術を永遠に変える新しいツールを構築しました。突然、スタイル転送ができるようになりました。突然、被写体の一貫した画像を生成できるようになりました。以前は非常に複雑な手作業のPhotoshopプロセスが必要だったものが、突然、1つのコマンドを入力するだけで魔法のように実現します。
でも、この最終形態は何でしょうか。何かアイデアはありますか。5年後、大学でクリエイティブアートはどのように教えられるのでしょうか。
お答えしましょう。これはスペクトラムになると思います。プロフェッショナルの側では、多くのクリエイターから聞いているのは、これらのモデルが仕事の退屈な部分を減らしてくれるということです。より創造的になれるわけです。時間の90%を編集作業やこうした面倒で手作業的な操作に費やすのではなく、90%の時間を創造的活動に充てることができます。これには本当にワクワクします。スペクトラムのその側では、創造性の爆発が見られると思います。
それから消費者側には、おそらく2つの側面があります。1つは、子供のハロウィンコスチュームのような楽しいことをするかもしれません。その場合の目標は、おそらく家族や友人と共有することです。スペクトラムの反対側では、スライドデックをまとめるようなタスクがあるかもしれません。
私は以前コンサルタントとして働いていました。最初に話しましたね。見栄えを良くしたり、ストーリーを意味のあるものにしたりするような、非常に退屈なことに多くの時間を費やします。そうしたタイプのタスクには、おそらく、何をしようとしているかの仕様を伝えるエージェントがいて、それが実際にきれいにレイアウトしてくれるでしょう。伝えようとしている情報に適した視覚的要素を作成してくれます。
本当にスペクトラムになると思います。何をしようとしているかによって変わります。創造的プロセスに参加して、実際にモデルと協力しながら物事をいじりたいのか、それともモデルにタスクを実行させて、できるだけ最小限の関与で済ませたいのか。
芸術とは何か
では、この新しい世界において、芸術とは何でしょうか。最近、誰かが「芸術とは、分布外のサンプルを作成できることだ」と言っていました。これは良い定義でしょうか。それとも高望みしすぎでしょうか。
芸術がモデルにとって分布外か分布内かということですね。
分布外のサンプルというのは少し制限的すぎると思います。多くの偉大な芸術は、実際にはそれ以前に存在した芸術にとって分布内だと思います。
芸術とは何か。これは非常に哲学的な議論であり、これについて議論する人はたくさんいます。私にとって、芸術にとって最も重要なのは意図だと思います。これらのモデルから生成されるものは、人々が芸術を創造することを可能にするツールです。
私は実際、ハイエンドやクリエイティブやプロフェッショナルについては心配していません。なぜなら、私がこれらのモデルの1つの前に座っても、誰も見たがらないものしか作れないからです。でも、創造的な人々や意図やアイデアを持っている人々ができることを見てきました。彼らが創造するものは本当に素晴らしく、私にとってインスピレーションを与えてくれます。
ハイエンドやプロフェッショナルやクリエイティブな人々は、常に最先端のツールを使うでしょう。これは人々がクールなものを作るためのツールベルトの中の別のツールのようなものです。
このモデルに関してクリエイターやアーティストから繰り返し聞いていた本当に興味深いことの1つは、多くの人が以前は多くのAIツールを使えなかったと感じていたことです。なぜなら、自分の芸術に期待するレベルの制御が許されなかったからです。
一方では、キャラクターやオブジェクトの一貫性のようなものでした。彼らは物語に説得力のある叙述を持たせるために、それを本当に使っていました。以前はキャラクターを何度も同じように出せなかったので、非常に難しかったのです。
2つ目に、アーティストから常に聞くことは、複数の画像をアップロードして、「このスタイルをこのキャラクターに使って」とか「このものをこの画像に追加して」と言えることを本当に気に入っているということです。これは、以前の画像編集モデルでも非常に難しかったことだと思います。
このモデルをトレーニングしたとき、それを本当に最適化していたのですか。それについてどのように考えていましたか。
キャラクター一貫性とカスタマイズ性
そうですね、カスタマイズ性とキャラクター一貫性は、開発中に私たちが密接に監視していたものです。それらに関して最善を尽くそうと努力しました。
もう1つは、インタラクティブな会話の反復的な性質でもあります。芸術も反復的である傾向があります。多くの変更を加え、どこに向かっているかを見て、さらに変更を加えます。これもまた、モデルをより有用にするものだと思います。実際、これは私たちがモデルを大幅に改善できる領域だとも感じています。
本当に長い会話に入ると、指示に従うのが少し悪くなることがわかっています。しかし、これは私たちが改善を計画していることであり、モデルをより自然な会話パートナー、つまり何かを作る上でのクリエイティブなパートナーにすることです。
非常に興味深いのは、皆さんがNano Bananaをローンチした後、至る所で編集モデルについて聞くようになったことです。まるで皆さんがローンチした後、世界が目覚めて「編集モデルだ、素晴らしい、みんなが欲しがっている」となったようです。そして明らかに、カスタマイズ性やパーソナライゼーションにつながります。
Oliverさんは以前Adobeにいらっしゃいましたよね。そして、私たちが手動で物事を編集していたソフトウェアもあります。モデル層での調整が、私たちが以前行っていたことと比べて、これからどう進化すると見ていますか。
Adobeや一般的なプロフェッショナルツールが常に行ってきたこと、そして要求してきたことは、多くの制御、多くのノブ、多くの調整です。常にバランスがあります。スマートフォンで音声インターフェースだけで使えるようにしたい一方で、本当にプロフェッショナルなアートクリエイターが細かい調整をできるようにもしたいのです。
その両方を可能にする方法を正確には見つけられていないと思います。でも、本当に説得力のあるUIを構築している人がたくさんいます。さまざまな方法で実現できると思います。ご意見はありますか。
UIの進化と未来
私たちがこうした制御がすべて何を意味するのかを学ぶ必要がなくなる時点に到達することを願っています。モデルが、すでに行ったことのコンテキストに基づいて、次に何ができるかを賢く提案できるようになればいいですね。そして、それは誰かが取り組むのに最適な領域のように感じます。
未来のUIはどのようなものになるでしょうか。以前は100のことを学ばなければならなかったのが、おそらく必要なくなる形で。しかし、ツールはすでに行っていることに基づいて、何ができるかを提案できるほど賢くあるべきです。
それは非常に洞察に満ちた見解ですね。Nano Bananaを使ったとき、「これが欲しいとは知らなかったけど、このスタイルを頼んでもいないのに」という瞬間が確かにありました。そのスタイルが何と呼ばれているのかさえ言葉を知らないほどです。これは、画像の埋め込みと言語の埋め込みが1対1ではないことを示す非常に洞察的な視点です。すべての編集タスクを言語でマッピングすることはできません。
どうぞ。
少し反対の立場を取らせてください。どこに向かうか見てみましょう。インターフェースがどれだけ複雑になれるかという別の質問は、ソフトウェアで何を表現できるか、ソフトウェアでどれだけ簡単にできるかによって制限されることがあります。それはある程度、ユーザーがどれだけの複雑さを許容する意思があるかにも制限されます。
プロフェッショナルがいれば、彼らは結果だけを気にします。彼らは膨大な量の複雑さを許容する意思があります。それを使うためのトレーニング、教育、経験を持っています。そうすると、多くのノブとダイヤルになるかもしれません。ただ、非常に異なるダイヤルです。
今日、CursorやコーディングツールSoを使うと、超簡単な単一のテキストプロンプトインターフェースではありません。「ここにコンテキストを追加」「異なるモード」など、かなりの量の機能があります。パワーユーザー向けの超洗練されたインターフェースができるのでしょうか。そしてそれはどのようなものになるでしょうか。
私はComfy UIとノードベースのインターフェース全般の大ファンです。それは複雑です。複雑ですが、非常に堅牢で、多くのことができます。Nano Bananaをリリースした後、人々がこうした非常に複雑なComfy UIワークフローを構築し、さまざまなモデルやツールを組み合わせているのを見ました。それによって、例えば、Nano Bananaをビデオモデルのストーリーボードやキーフレームを取得する方法として使うなど、本当に素晴らしい出力が生成されました。
プロレベルや開発者レベルでは、こうしたインターフェースは素晴らしいと思います。プロシューマーレベルに関しては、数年後にどうなるかは非常に不明です。
それは本当にオーディエンス次第だと思います。一般の消費者にとっては、私はいつも両親を例に使いますが、チャットボットは実際に素晴らしいんです。
ああ、そうですね。
新しいUIを学ぶ必要がないからです。画像をアップロードして、それに話しかけるだけです。その点で素晴らしいですね。プロにとっては、もっと多くの制御が必要だということに同意します。そして、その間のどこかに、これをやりたいけど以前のプロフェッショナルツールには威圧されていた人々がいるはずです。彼らにとっては、チャットボットが提供する以上の制御が必要だけど、プロフェッショナルツールが提供するほどの制御は必要ないという空間があると思います。その中間の状態とは何でしょうか。
そこには大きな機会があります。
ワークフローの未来
Comfy UIに言及されたのは興味深いですね。ワークフローのスペクトラムの反対側にあるからです。ワークフローには数百のステップとノートがあり、すべてが機能することを確認する必要があります。一方、スペクトラムの反対側にはNano Bananaがあり、言葉で何かを説明すれば何かが出てきます。モデルアーキテクチャなどについては詳しくありませんが、あなたの見解は、世界が1つのプロバイダーがホストするモデルのアンサンブルですべてを行う方向に向かっているのか、それとも誰もがワークフローを構築する方向に向かっているのか。Nano BananaはComfy UIの1つのノードです。
幅広い量のユースケースが、いかなる時点でも1つのモデルで完全に満たされるとは絶対に思いません。だから、常にモデルの多様性があると思います。
例を挙げましょう。私たちはモデルの指示追従を最適化することができます。正確にやりたいことをするようにします。しかし、それは、着想やインスピレーションを求めている人にとっては悪いモデルかもしれません。彼らはモデルが引き継いで、他のことをやって、暴走してほしいわけです。
だから、非常に多くの異なるユースケースと非常に多くのタイプの人々がいるので、この空間には複数のモデルのための大きな余地があると思います。それが私たちが向かっている方向だと見ています。すべてを支配する単一のモデルにはならないと思います。
完全に理解できます。スペクトラムの反対側、プロフェッショナルから遠く離れたところに行きましょう。将来、幼稚園児は、小さなタブレットに何かをスケッチして、AIにそれを美しい画像に変えてもらうことで絵を学ぶと思いますか。それが彼らが芸術に触れる方法になるのでしょうか。
教育とAIの関係
常に美しい画像に変えたいかどうかはわかりませんが、AIが再びパートナーや教師になって、以前は持っていなかった方法であなたに教えるということについては、何かがあると思います。
私は絵の描き方を知りませんでしたし、今も知りません。それに対する才能は本当にありません。しかし、これらのツールを使って、実際にステップバイステップを教え、批評を手伝い、画像のオートコンプリートのようなものを見せてくれたら素晴らしいと思います。次に取るべきステップは何か、といったことです。あるいは、いくつかのオプションを見せて、実際にこれをどうやるのか、などです。その方向であることを願っています。
すべての5歳児の画像が突然完璧に見えるようになることを、私たちは誰も望んでいないと思います。そのプロセスで何かを失うことになるでしょう。
高校時代、すべてのクラスの中で最も苦労したのがアートとスケッチのクラスだった者として、私は実際にそれを好んだでしょう。でも、多くの人が子供たちに絵を学んでほしいと思っていることは理解しています。
面白いことに、私たちはモデルに子供のようなクレヨン画を作らせようとしてきましたが、実際にはかなり難しいんです。皮肉なことに、作るのが難しいものは、抽象化のレベルが非常に大きいからです。そうしたタイプの画像を作るのは実際にはかなり難しいのです。
就学前専用のファインチューニングですね。
私たちは今、改善しているかどうかを確認するために専用の評価指標を持っています。
私はAIの教育への応用については全般的に非常に楽観的です。その理由の一部は、私たちのほとんどが視覚的学習者だと思うからです。現在、AIは家庭教師として基本的にあなたに話しかけるか、読むためのテキストを与えることしかできません。それは確実に学生が学ぶ方法ではありません。
だから、これらのモデルは、人々に視覚的な手がかりを与えることで教育を支援する大きな可能性を持っていると思います。何かの説明を得られて、テキストの説明を受けるだけでなく、それらがどう機能するかを説明するのに役立つ画像や図も得られると想像してみてください。
すべてがもっと有用になり、学生にとってよりアクセスしやすくなると思います。これには本当にワクワクしています。
推論能力と視覚的説明
その点について、非常に興味深いのは、Nano Bananaが登場したとき、ユースケースの一部が推論モデルのように感じられたことです。図があるとします。そうですね。視覚的に知識を説明できるわけです。だから、モデルは視覚的側面の近似だけをしているわけではありません。推論の側面もあります。それが向かっている方向だと思いますか。すべての大規模モデルが、ああ、優れたLMやVLM、視覚言語モデルになるには、画像と言語と音声などの両方が必要だと気づくと思いますか。
100%そう思います。間違いなくそう思います。
私が最もワクワクするこれらのAIモデルの未来は、人々がより多くのことを達成するためのツールである場合です。これらのエージェント型モデルが互いに話し合い、すべての仕事をする未来を想像すると、視覚的なコミュニケーションモードはそれほど必要ではなくなります。
しかし、人々がループの中にいる限り、そして彼らが解決しているタスクの動機が人々から来る限り、視覚的モダリティが今後のすべてのAIエージェントにとって本当に重要になることは完全に理にかなっていると思います。
実際に画像を作成するように頼むと、2時間座って自分自身で推論し、下書きを持ち、異なる方向を探索し、それから最終的な答えを持って戻ってくるという時点に到達するでしょうか。
ええ、絶対に。必要であれば。そして、単一の画像だけでなく、おそらく家を再設計する場合などです。おそらく、実際にはプロセスに関与したくないかもしれません。「これは今の様子で、これは私が好きなインスピレーションです」と言います。
そして、それをモデルに送ります。デザイナーに送るのと同じ方法です。
視覚的なディープリサーチですね。
基本的に視覚的なディープリサーチのようなものです。その用語は本当に気に入りました。
そして、それが独自のことを行い、あなたの環境に合う家具を探すかもしれません。それからあなたのところに戻ってきて、オプションを提示するかもしれません。おそらく、1つのことに2時間座っていたくないでしょうから。アートブックや10枚のスライドデックなど。
3Dと世界モデル
取扱説明書やIKEAの説明書のようなものについて考えると、難しい問題を多くの中間ステップに分解することは、コミュニケーションの方法として本当に有用かもしれません。
いつレゴセットを生成できますか。
ええ、もうすぐかもしれません。
ある時点で、その一部として3Dが必要になるのでしょうか。世界モデルと画像モデル、そしてそれらがどのように組み合わさるかについて議論全体があります。
ご意見をお聞かせください。ここで私たちを啓発してください。最終的にどこに行き着くかの簡単なまとめは何でしょうか。
答えはわかりません。明らかに、現実の世界は3Dです。だから、3Dの世界モデルや明示的な3D表現を持つ世界モデルがあれば、多くの利点があります。例えば、すべてが常に一貫性を保ちます。
今の主な課題は、私たちがポケットに3Dキャプチャデバイスを持ち歩いていないことです。これらのモデルをトレーニングするための利用可能なデータに関しては、大部分が2Dへの投影です。だから、どちらの視点も、私たちが向かっている方向として完全に有効だと思います。
私はどちらかというと投影側から来ています。3D世界の投影を直接扱うことで、すべての問題ではないにしても、ほとんどすべての問題を解決できると思っています。モデルに潜在的な世界表現を学習させるのです。
ビデオモデルがすでに非常に優れた3D理解を持っていることがわかります。生成するビデオ上で再構成アルゴリズムを実行でき、それらは非常に正確です。
一般的に、人間の芸術の歴史を見ると、投影として始まります。人々が洞窟の壁に描くことです。私たちのインターフェースはすべて2Dです。だから、人間は3D世界のこの2D平面への投影を扱うのに非常に適していると思います。そして、それはインターフェースや視聴にとって本当に自然な環境です。
それは非常に真実です。私は余暇に漫画家をやっていますが、2Dで描くことは光と影だけで、3Dであるかのように自分自身を見せます。3Dだと信じさせるように自分自身を騙すことはできないでしょうか。紙の上ですが。
しかし、人間ができること、絵やモデルができることは、世界をナビゲートすることです。テーブルを見たら、その横を通り過ぎることはできません。質問は、すべてが2Dである場合、その問題をどう解決するかということです。
ロボット製品の問題を解決しようとしているなら、2D表現は高レベルでの計画や視覚化には有用かもしれません。人々は、世界の2D投影を覚えることでナビゲートすると思います。頭の中に3Dマップを構築するわけではありません。「ああ、この建物が見える、左に曲がる」という感じです。
だから、そうした種類の計画には合理的だと思いますが、空間内の実際の移動に関しては、3Dは間違いなく重要です。
ロボット工学。
ええ。彼らにはおそらく3Dが必要です。それが救いです。
キャラクター一貫性の課題
キャラクター一貫性について、先ほど言及されましたが、モデルが非常にパーソナルに感じられると、人々がそれを試したくなる例が本当に好きです。その瞬間をどのようにして実現したのですか。理由を聞きたいのは、キャラクター一貫性は非常に難しいからです。
それには大きな不気味の谷があります。知らない人であれば、AI生成を見ても「同じ人かもしれない」と思います。でも、知っている人の場合、ほんの少しでも違いがあると、実際に非常に拒絶反応を感じます。これは本物の人ではないと思うからです。
その場合、生成しているものが良いとどうやってわかるのでしょうか。それは主にユーザーフィードバックによるものですか。「これが好き」というような。それとも他の何かですか。
顔を見るんです。でも、顔検出カメラのユーザーではありません。
このモデルを開発しているとき、これまでにリリースする前ですが、実際には最初、知らない顔でキャラクター一貫性の評価を始めました。それでは何もわかりません。それから、自分自身でテストし始め、すぐに「よし、これをする必要がある」と気づきました。これは私が慣れ親しんでいる顔だからです。
だから、目視評価がたくさん行われ、チームが自分自身でテストします。一般的に、彼らが知っている人々です。Oliverはおそらくこの時点で私の顔を十分知っているので、生成されたときに実際に私かどうかを判断できます。だから、そういうことをたくさんやります。
そして、理想的には、さまざまな人々のセット、さまざまな年齢でテストします。さまざまなグループの人々でテストして、全体的に機能することを確認します。
評価の難しさ
そうですね、その通りです。つまり、それは少し大きな問題に触れています。この分野では評価が本当に難しいということです。人間の知覚は、気にかけるものに関して非常に不均一だからです。だから、モデルのキャラクター一貫性がどれだけ良いかを知ることは本当に難しいのです。十分に良いのか、十分ではないのか。
キャラクター一貫性にはまだ多くの改善ができると思いますが、一部のユースケースでは、ある水準に達したと思います。私たちは決して最初の編集モデルではありませんでしたが、キャラクター一貫性の品質がある一定のレベルを超えると、それだけで爆発的に広がることができると思います。はるかに多くのことに有用になるからです。そして、より良くなるにつれて、さらに多くのことに有用になるでしょう。
画像編集や生成が明らかにその1つである、いくつかのモダリティ全体で見ている本当に興味深いことの1つは、アリーナやベンチマークなどはすべて素晴らしいと思いますが、特に画像やビデオのように多次元のものがある場合、すべてのモデルがどんどん良くなるにつれて、モデルのすべての品質を1つの判断に凝縮することは非常に難しいということです。
例えば、画像にキャラクターをスワップし、画像のスタイルを変更するとします。1つはキャラクターのスワップと一貫性をはるかに良くできたかもしれませんし、もう1つはスタイルをはるかに良くできたかもしれません。どちらの出力が良いと言えるでしょうか。おそらく、人が最も気にかけることと、何に使いたいかによって決まるでしょう。
モデルの特性とトレードオフ
デプロイするモデルのバージョンを決定する際やトレーニング中に本当に焦点を当てるべきこと、つまりそうしたトレードオフを行う際に、皆さんが他のものよりも価値を置くモデルの特定の特性はありますか。
はい、あります。この分野について私が好きなことの1つは、正しい答えがないということです。
だから、実際にはモデルに入る好みやテイストのようなものがかなりあります。さまざまな研究所の異なる好みが、彼らがリリースするモデルに見られると思います。だから、2つのことのバランスを取るとき、多くは「まあ、私はこの見た目の方が好きだ」とか「この機能の方が私たちにとって重要だ」といったことになります。
皆さんにとっては難しいと想像します。非常に多くのユーザーがいるからです。GoogleのようにGeminiアプリにいて、世界中の誰もが使えるのに対し、他の多くのAI企業は「プロのクリエイティブだけを対象にする」とか「消費者向けのミーム作成者だけを対象にする」と考えています。皆さんには、文字通り世界中の誰もがこれを使えるという、ユニークでエキサイティングだが困難な課題があります。みんなが望むことをどうやって決めるのでしょうか。
時には、これらのトレードオフを行います。私たちには、後退したくない超高優先事項のセットがあります。例えば、キャラクター一貫性は非常に素晴らしく、非常に多くの人々が使っているので、次のモデルでその次元で悪化することは望みません。だから、それには多くの注意を払っています。
私たちは、写真が欲しいときに画像がフォトリアリスティックに見えることを非常に気にかけています。これは重要です。1つは、私たち全員がそのスタイルを好むと思います。2つ目は、例えば広告のユースケースでは、その多くが製品や人々のフォトリアリスティックな画像だからです。だから、それができることを確認したいのです。
そして時には、脇に置かれるものもあります。この最初のリリースでは、モデルはテキストレンダリングが私たちが望むほど得意ではありません。これは将来修正したいことです。しかし、「モデルはXYZが得意で、これはあまり得意ではないが、それでもリリースしても大丈夫だと思う」と見たときに、脇に置かれるものの1つでした。人々が遊ぶのにまだエキサイティングなものになるでしょう。
制御とサイドカーモデル
過去を見ると、以前のモデル世代では、ControlNetのようなサイドカーモデルで多くのことを行っていました。基本的に、特定の結果を達成するためにモデルに構造化データを提供する方法を見つけ出していました。
こうした新しいモデルは、単にプロンプトを入力したり、参照画像を与えたりするだけで信じられないほど優れているため、一歩後退したように見えます。これは長期的にどこに向かうと思いますか。ある程度戻ってくると思いますか。
クリエイターの観点から言えば、複数のキャラクターのポーズを正確に正しくするために、OpenPose情報を持つことは非常に魅力的ですよね。あるいは、少し言い換えると、モデルが箱から出してすぐには提供しない制御を望むユーザーは常にいるということです。
しかし、私たちは、アーティストが何かをしたいときに本当に望んでいるのは、意図を理解してもらうことだと思うように努めました。これらのAIモデルは、ユーザーの意図を理解することが上手になってきていると思います。だから、今ではテキストクエリを尋ねると、モデルはあなたが何を求めているかを理解することがよくあります。
その意味で、私たちはユーザーの意図を理解することでかなり遠くまで行けると思います。そして、その一部はパーソナライゼーションかもしれません。あなたが何をしようとしているか、または過去に何をしたかについての情報を知る必要があります。しかし、意図を理解できれば、一般的に編集のタイプを実行できると思います。これは非常に構造保持的な編集なのか、それとも自由形式のようなものなのか。こうした種類の効果を学習できると思います。
しかし、もちろん、すべてのピクセルについて本当に気にかける人がいます。「これは少し左に、もう少し青くする必要がある」といった人々です。そうした人々は、それを行うために既存のツールを使うでしょう。
26人がアルファベットのすべての文字を綴る画像が欲しいというようなことだと思います。それは、最初の試行で正しく取得することからまだかなり離れていると思うことの1つです。
表現形式の未来
一方、ポーズ情報があれば、潜在的に得られるかもしれません。しかし、その場合の質問は、本当にポーズを抽出してそれを情報として提供する人になりたいのか、それとも参照画像を提供して「これが実際に私が欲しいものです。モデル、これを解決してください」と言いたいだけなのか、ということです。26人がいて、それぞれが異なるスタイルです。
なるほど。
その場合、この46人の写真を作るためのカスタムインターフェースを構築するのに多くの時間を費やすことはないと思います。解決できる種類のことのように思えます。
転送だけですね。
AI画像の表現が変わると思いますか。この質問をする理由は、アーティストとして、私たちはさまざまな形式で遊ぶからです。SVGがあり、アンカーポイントとベジェ曲線があります。反対側には、ProcreateやFrescoのようなものがあります。レイヤーでも遊べます。
他のパラメータは、使用するブラシ、ブラシのテクスチャなどです。すべてのパラメータにスクリプトを書くことができ、実際に非常にパーソナルなことができます。
ピクセルが画像生成モデルのエンドゲームにとって正しい表現だと思いますか。それとも、まだ発明していない新しい表現があると思いますか。
簡単な質問ですね。すごい。
すべてはピクセルのサブセットだと言っておきます。テキストはピクセルのサブセットです。すべてのテキストを画像としてレンダリングできるからです。
だから、ピクセルだけでどこまで行けるかは興味深い質問です。モデルが本当に応答性があり、マルチターンのインタラクションをうまく処理するなら、かなり遠くまで行けると思います。ピクセルドメインを離れたい主な理由は、編集可能性のためだと思うからです。
フォントを変更したい場合や、テキストを変更したい場合や、制御点で物事を移動したい場合などには、ピクセルとSVGや他の形式で構成される混合生成があると便利かもしれません。しかし、すべてを実行できるなら、マルチインタラクションが十分であれば、ピクセルでかなり遠くまで行けると思います。
これらのネイティブ機能を持つモデルについてエキサイティングなことの1つは、コードを生成でき、画像を生成できるモデルが今あるということです。だから、その交差点には非常に興味深いものがたくさんあります。コードを書いて、一部をラスタライズし、一部をパラメトリックにするかもしれません。
製品とAPIのバランス
すべてを一緒に貼り付けて、一緒にトレーニングします。これは非常にクールでしょう。
本当に良い指摘ですね。実際、誰かがClaude Sonnetに、すべてのセルがピクセルであるExcelシートで画像を複製するように頼んでいるツイートを見ました。非常に楽しい演習のようなものです。画像については本当に何も知らないコーディングモデルのようでしたが、うまくいきました。
古典的なペリカンが自転車に乗るテストがあります。
完全にそうです。
製品のことをあまりにも多く持ち出していたら申し訳ありません。皆さん。インターフェースに関して非常に興味があるんです。Nano Bananaで画像を編集または生成している場所のインターフェースを所有することと、本当にAPIで多くの人々にモデルを使ってもらいたいということのバランスについて、どう考えていますか。
広告、教育、デザイン、建築など、非常に多くの異なるユースケースについて話してきました。それぞれに、Nano Bananaの上に構築されたスタンドアロン製品があり、適切な方法でモデルをプロンプトしたり、特定のタイプの入力を許可したりできるかもしれません。
Geminiアプリの製品は、人々が探索するためのプレイグラウンドのようなもので、開発者が特定のユースケースに使用される個々の製品を構築するというビジョンですか。それとも、それも所有することに興味があるのですか。
少しすべてだと思います。Geminiアプリは、人々が探索するためのエントリーポイントだと間違いなく思います。
Nano Bananaについて良いことの1つは、楽しさが実用性への入り口になることを示していると思います。人々は自分のフィギュア画像を作りに来ますが、数学の宿題を手伝ったり、何かを書くのを手伝ったりしてくれるので留まります。それは本当に強力な種類の移行ポイントです。
会社として構築し、探索することに興味を持っているインターフェースは間違いなくあります。Joshのチームのラボからご覧になったかもしれませんが、Floは、AI映画制作者のためのツールとは何かを本当に再考しようとしています。
AI映画制作者にとって、画像は実際に反復の旅の大きな部分です。ビデオ作成は高価なので、多くの人は最初に作成するときにフレームで考えます。多くの人は、最初にブレインストーミングや何を作りたいかについて考えるために、LLM空間から始めます。だから、私たちがその空間に持っている場所は間違いなくあります。私たちがただ何に見えるかについて考えようとしているということです。
モデルとインターフェースの近くに位置しているという利点があるので、密接に結合してそれを構築できます。そして、建築事務所向けのソフトウェアを構築することはおそらくないでしょう。
私の父は建築家で、おそらくそれが大好きでしょう。しかし、それは私たちがすることではないと思いますが、誰かがすべきです。だから、それはエキサイティングなんです。開発者ビジネスとエンタープライズビジネスがあるので、人々はこれらのモデルを使用して、この特定のオーディエンスのための次世代のワークフローとは何かを見つけ出し、問題を解決する手助けをすることができます。
だから、答えは3つすべてイエスのようなものだと思います。
日本での反響とユースケース
そうですね。それを持ち出したのですが、Nano Bananaの日本での反応をフォローしていますか。確実にフォローしていると思いますが、すごいことになっています。今では、私のXフィードの半分は、Easy Bananaと呼ばれるChromeエクステンションを作成した日本の非常にヘビーなNano Bananaユーザーです。これは特にマンガ生成や特定のタイプのアニメなどにNano Bananaを使用するためのものです。
彼らは基本的にモデルをプロンプトして、さまざまな場所に出力を保存することに非常に深く入り込んでいます。明らかに、あなたの基盤となるモデルを使用して、AI生成されたとは決して推測できないような素晴らしいアニメを生成しています。精度と一貫性などのレベルが、今日見た単一のモデルができることをはるかに超えているからです。
Justinの指摘に対して、モデルで見たフォースマルチプライヤーのようなものは何ですか。つまり、例えば、キャラクター一貫性を解除すると、異なるフレームを生成でき、ビデオを作成でき、映画を作成できますよね。
これらは、正しく取得して本当にうまく取得すれば、非常に多くの下流タスクがそこから派生する可能性があるものです。次の大きなものは何だと思いますか。どう考えていますか。次の大きな波は何でしょうか。すべての下流タスクの基本モデルとしてNano Bananaを使用できる人々の次の大きな波です。
現在の1つは、実際にはレイテンシの点だと思います。これらのモデルで反復するのが本当に楽しいのは、次のフレームを生成するのに10秒しかかからないからだと思います。2分間座って待たなければならないとしたら、おそらくあきらめて去ってしまうでしょう。非常に異なる体験です。
だから、それが1つです。品質バーがなければなりません。単に速いだけで品質がそこになければ、それも重要ではないからです。品質バーに達する必要があり、それからスピードがフォースマルチプライヤーになります。
情報を視覚化するというこの一般的なアイデアは、先ほどの教育のポイントに対するもう1つのものですよね。それには良いテキストが必要です。事実性が必要です。なぜなら、何かについて視覚的な説明を作り始めるなら、見た目が良いだけでなく、正確である必要もあるからです。
それがおそらく次のレベルで、ある時点で、あなたにパーソナライズされた教科書を持つことができます。異なるのはテキストだけでなく、ビジュアルもです。
ダイヤモンド・エイジですね。それは基本的に。
基本的に。そして、それは本当に国際化もうまくいくはずです。多くの場合、今日では、学ぼうとしていることを説明する図をインターネットで実際に見つけることができるかもしれませんが、実際に話す言語ではないかもしれません。
だから、それは情報のアクセシビリティを改善し、開放する別の方法になると思います。より多くの人々に、そして再び視覚的に。多くの人々が視覚的学習者だからです。
興味深いですね。
画像と動画の関係性
生成される画像についてどう考えていますか。理由を聞きたいのは、別の非常にクールな例を見たからです。Nano Bananaで動作させている人がいました。彼はスクリプトを書いて、モデルに「この1秒後のフレームを生成して」と繰り返しプロンプトし続けました。それがビデオになったんです。
それを見たとき、「すべての画像は連続体の1フレームに過ぎないのか」と思いました。平行宇宙の連続体について常に知っているように。そのうちの任意の1つを生成できたかもしれません。
最終的には1つの大きな有向グラフです。
まさにそうです。そして、最終的にはビデオかもしれません。それについてどう見ていますか。どこで交差するか、または交差しないか。
非常にそうですね。ビデオと画像は非常に密接に関連していると思います。また、これらの次に来るものやシーケンス予測のユースケースで見ているのは、モデルの世界知識の一般化でもあります。
だから、どこに向かっていると思うかというと、ビデオは明らかに次のドメインだと思います。編集があるとき、多くの場合、尋ねているのは「これをしたらどうなるか」のようなもので、それがビデオが持っているものです。アクションの時間シーケンスがあります。
だから、低いフレームレートのビデオがあり、それとインタラクションできますが、明らかに、完全にインタラクティブでリアルタイムのものを作ることが、この分野が向かっている方向です。
個人的なお気に入りのユースケース
あなたはおそらく世界で最も経験豊富な人々の0.001%に入っています。画像モデルを使用している。あなたの個人的なお気に入りのユースケースは何ですか。既存のモデルをテストしているだけでない場合、日常的にどのように使用していますか。
まあ、私が一番上にいるかどうかはわかりませんが、お話しします。先ほど言ったように、パーソナライゼーションの側面が私にとって本当に響くものです。私には2人の幼い子供がいて、モデルで行う最高のことは、子供たちと行うことです。例えば、彼らのぬいぐるみをこうしたタイプのアプリケーションで生き生きとさせることができます。非常にパーソナルで、見ていて満足できるものです。
また、多くの人が家族の古い写真を撮って、それらを復元したりしています。だから、それが編集モデルの本当の美しさだと思います。あなたにとって最も重要な1つのことについてのものにできることです。だから、私が使うのは基本的に子供たちのためです。
とても素敵ですね。
基本的に、おそらく以前は決して作らなかったであろうコンテンツを作っていて、それは1人の人、または1つの家族のための消費です。以前は決して語らなかったであろう物語を語っているようなものです。
似たような感じで、私は多くの家族の休暇カードや誕生日カードなどを作ります。今では、スライドデックを作るときはいつでも、文脈的に関連する画像を生成して、テキストを正しく取得しようとします。それらすべてのことです。
そして、「ピクセル空間でチャートを作成できるか」のような境界を押し広げようとします。それをやりたいかどうかは別の質問ですよね。バーチャートのバーが互いに正確に配置されていることも望むからです。
だから、こうしたことをたくさんやっていると思います。私は実際、一緒に働いている人々が非常にクリエイティブであることに本当に感銘を受けています。開発中のモデルで私たちと非常に密接に働くチームがあり、彼らは境界を押し広げます。モデルで狂ったようなことをします。
ここで見た最も驚くべきことは何ですか。「私たちのモデルがこれをできるとは知らなかった」というような。
これは、人々がテクスチャ転送のようなことをやっているような単純なことでさえあります。
ええ。
人物のポートレートを撮って、「でも、この木片のテクスチャを持っていたらどう見えるか」と尋ねます。私は決してこれがユースケースになるとは思わなかったでしょう。私の脳はそのように機能しないからです。
しかし、人々はこうしたことでできることの境界を押し広げます。
それは世界知識の興味深い例ですね。テクスチャは技術的には3Dだからです。それには全体の3D側面があります。光と影があります。しかし、これは2D転送です。それは非常にクールです。
私にとって最もワクワクし、おそらく最も感銘を受けるのは、モデルの推論能力をテストするユースケースです。私たちのチームの何人かは、幾何学の問題をモデルに与えて、「ここでXを解いて」とか「この欠けているものを埋めて」とか「これを少し異なるビューから提示して」というようなことができることを発見しました。
本当に世界知識と最先端の言語モデルのような推論能力を必要とするこうした種類のものが、「すごい、素晴らしい、これができるとは思わなかった」と本当に思わせるものです。
黒板でコンパイルされるコードをまだ生成できますか。ラップトップのコードの写真を撮ったら、画像モデルでコンパイルされるかどうかわかりますか。
HTMLコードの画像を与えて、モデルにウェブページをレンダリングさせる例を見たことがあります。それができます。
それは非常にクールです。
私が見た最もクールな例は、私は学術界から来たので、論文を書いたり図を作ったりすることに多くの時間を費やしました。私たちの同僚の1人が、さまざまなことができる方法で、論文の1つから結果の図の1つを撮影しました。これは論文のさまざまなタイプのアプリケーションの束です。
結果を消去して、つまり入力があり、モデルに「これらすべてを論文の図の写真形式で解いてください」と頼みました。それができたんです。だから、この1つの図が求めている問題が何かを実際に理解し、答えを見つけて、画像に入れることができました。そして、同時にさまざまなアプリケーションのためにそれを行いました。これは本当に素晴らしかったです。
非常にクールです。とても素敵です。
その能力の上に構築されたアプリケーションはすでにありますか。そこから出てくるアプリケーションは何でしょうか。
非常に興味深いゼロ転送能力、問題解決タイプのものがたくさんあると思います。まだその境界がわかっていません。
そして、これらのいくつかはおそらく非常に有用です。例えば、何らかの問題Xを解決する方法が欲しいとします。シーンの法線や表面の向きのようなものを見つけるとか、おそらくモデルにプロンプトして、合理的な推定値を得ることができるでしょう。だから、ゼロショットまたは少数ショットのプロンプトで解決できる理解問題や他のタイプのことがたくさんあると思います。まだわかっていません。
モデルの新しい可能性
あなたが言及した非常に興味深いことの1つは、世界知識の転送ですが、多くの世界モデルやビデオモデルでは、常に状態を保持するものがあります。目を離したからといって、椅子が消えたり色が変わったりすべきではありません。それは世界の状態ではないからです。
それについてどう見ていますか。画像モデルにそこに関連性があると思いますか。それは最適化することさえ考えていることですか。
そうですね、テキスト、画像、オーディオ、ビデオのような他のものをコンテキストに入れられる長いコンテキストを持つ画像モデルについて考えると、最終的な出力画像やビデオを生成するために、持っているもののコンテキストについて推論していることは間違いないと思います。
だから、このタイプのことをするモデル能力は間違いなくすでにあると思います。
わかりました。この大きなユースケースのためにまだテストしていませんが、お知らせします。
これらのモデルについて私のお気に入りのことの1つは、発見することです。皆さんにとっては本当に楽しいことだと確信しています。皆さんはおそらく私たちよりもモデルができることについてはるかに多くのヒントを持っているでしょう。
しかし、時には、誰かがモデルができるかもしれないと必ずしも期待しないような信じられないことを見つけ出した、XやRedditやどこかでの狂ったような投稿を見ることがあります。そして、他の人々がそれを基に「ああ、それから私はこのことの次の反復を試した」と言い、突然、モデルができることに関して全く新しい空間が発見されたようなことになります。
これらのモデルの構築やインターフェースの構築により深く関わっている人々として、それが起こるのを見るのは楽しいに違いありません。
アーティストとの関係
今日、ビジュアルアーティストと話すと、私は個人的にこうしたものが大好きです。インターネットに投稿します。非常に懐疑的な答えが返ってくることがあります。「ああ、これはひどい」というような人々です。
この反応を引き起こすものが何かアイデアはありますか。私は、これが最終的にアーティストたちを本当にエンパワーするものだと確信しています。新しいツールを提供します。ミケランジェロに水彩絵の具を与えるようなものです。彼がそれで何をするか見てみましょう、そして素晴らしいものが出てきます。似たようなことです。しかし、それに対するこの強い反応を引き起こすものは何でしょうか。
出力に対する制御の量と関係があると思います。初期にこうしたテキスト画像モデルがあったとき、それらは非常にワンショットのようなものでした。テキストを入力して、出力を得ます。人々は「ああ、これはアートだ、これは私が作ったものだ」と言うでしょう。
クリエイティブコミュニティから来る人々にとって、それはおそらく少し間違った方法で人々をこすります。なぜなら、下されたほとんどの決定はモデルによって、トレーニングに使用されたデータによって行われたからです。もう物理的に自分自身を表現していません。
そうですね。
クリエイティブな人として、自分自身を表現できるようになりたいのです。だから、モデルをより制御可能にするにつれて、「ああ、コンピューターがすべてをやっているだけだ」というこうした懸念の多くは消えるかもしれません。
もう1つは、これらのモデルが作成できる画像に私たち全員が非常に驚いていた時期があったと思います。だから、私たちは「ああ、これらのモデルからこういうものが出てくる」と見て非常に満足していました。しかし、人間はこうしたタイプのことにすぐに飽きると思います。
だから、大きなラッシュがあり、今では、単一のプロンプトのようなもので、人があまり考えなかった画像を見ると、「ああ、それはAI生成画像だ。それほど興味深くない」とわかります。だから、AIツールで興味深いものを作ることができる必要があるという境界がまだあります。それは難しいですが、これは常に要件になるでしょう。これをできる人が必要です。
私たちにはまだアーティストが必要です。
アーティストが必要です。アーティストは、人々が実際に多くの制御と意図を持っているときにも認識できると思います。それでもアーティストではないかもしれません。しかし、しかし、しかし、多くの工芸があり、多くの味があります。時には何十年もかけて蓄積されます。これらのモデルには本当に味がないと思います。
だから、あなたが言及した反応の多くは、おそらくそこからも来ていると思います。だから、私たちは実際に働いているすべてのモダリティ全体で多くのアーティストと働いています。画像、ビデオ、音楽です。テクノロジーを彼らとステップバイステップで構築し、彼らが何ができるかの境界を押し広げるのを手伝うことを本当に気にかけているからです。
多くの人々が本当にワクワクしていますが、彼らは本当に多くの知識と専門知識、そして30年のデザイン知識のようなものをもたらします。
私たちは最近、Ross Lovegroveと彼のスケッチでモデルをファインチューニングして、彼がそこから何か新しいものを創造できるようにし、それから実際の物理的な椅子をデザインしました。プロトタイプがあります。
だから、彼らが構築してきた専門知識と、彼らが自分の仕事を説明するために使う豊かな言語をもたらし、モデルとの対話を持って、自分の仕事をフロンティアに押し上げたいと思っている人々がたくさんいます。
そして、それは1つのプロンプトと2分では起こりません。何かを構築するには、多くの味と人間の創造と工芸が必要です。それが実際に芸術になるのです。
結局のところ、それは背後に人間を必要とするツールであり、感情や物語やすべてを表現するためのものです。
絶対にそうです。絶対にそうです。
そして、それはおそらく、あなたがそれを見るときにあなたと共鳴するものです。何かについて30年間考えてきた人間が背後にいることがわかり、それをアート作品に注ぎ込んだとき、あなたは異なる反応をするでしょう。
この現象もあると思います。クリエイティブコンテンツを消費するほとんどの人々、そしてそれを非常に気にかける人々でさえ、彼らは次に何が好きになるかわかりません。
ビジョンを持ち、興味深く異なることをできる誰かが必要です。そして、それを人々に見せます。「ああ、すごい。素晴らしい。」しかし、彼ら自身ではそれを考えつかないでしょう。だから、これらのモデルを最適化しているとき、私たちができることの1つは、すべての人の平均的な好みに最適化することです。
しかし、そうすることで興味深いものは生まれないと思います。誰もが好きな何かで終わりますが、「ああ、すごい。素晴らしい。あの芸術の全体的な視点を変えるつもりだ」というようなもので終わりません。
アバンギャルド版のモデルがあるのでしょうか。その用語を使えば。スペクトラムの反対側は何でしょうか。マーケティング版やよくわかりませんが、非常に予測可能で非常に直接的なものです。
見落とされている機能
時間が迫ってきたので、最後のいくつかの質問です。1つは、モデルができることを知っているのに、もっと人々に聞いてもらいたい機能は何ですか。
インタリーブです。
インタリーブ生成、私たちが呼んでいるモデルの能力は、特定のプロンプトに対して複数の画像を生成する能力です。だから、寝物語のようなものが欲しいと頼めます。これらの一連の画像で同じキャラクターを生成してください、というようなことです。
人々がまだそれを有用だと気づいていないか、発見していないかわかりません。
興味深いですね。ポッドキャストを聞いている方は、これを試してみてください。
今後の技術的課題
次の数か月、数年で取り組むことを楽しみにしている最もエキサイティングな技術的課題は何ですか。
私たちが向かっている場所に関して、品質には本当に高い上限があると思います。人々はこれらの画像を見て「ああ、ほぼ完璧だ。終わったに違いない」と言います。しばらくの間、私たちはこのチェリーピックの段階にいました。誰もが最高の画像を選びます。だから、それらを見ると素晴らしいです。
しかし、実際に今より重要なのは、最悪の画像です。私たちはレモンピッキングの段階にいます。すべてのモデルが完璧に見える画像をチェリーピックできるからです。
だから、今の本当の質問は、このモデルはどれだけ表現力があり、やろうとしていることを考えると、得られる最悪の画像は何か、ということです。だから、最悪の画像の品質を上げることで、実行できるユースケースの量を本当に開放すると思います。
この種の即座のクリエイティブタスクを超えた、あらゆる種類の生産性のユースケースがあります。モデルができることをすでに知っています。それが私たちが向かっている方向だと思います。これらのモデルがより多くのことを合理的にできるなら、ユースケースははるかに大きくなります。だから、それが私たちが向かっている方向です。
それは、タイプライターの猿の道徳的同等物です。基本的に、十分な試行回数があれば、どんなモデルでも最終的には素晴らしい冒険を作るでしょう。しかし、反対側は難しいです。
反対側は難しいです。
1匹の猿が本を書くのは非常に難しいでしょう。そのためには非常に優れた猿が必要です。
下限に達したときに出てくるアプリケーションは何だと思いますか。
私が最も興味を持っているのは、先ほど言及した教育の事実性です。クリエイティブな目的でこれらのモデルを使いたいと思う回数は月に何回あるかわかりませんが、情報探索、事実性、学習、教育タイプのユースケースのためのユースケースははるかに多くあります。だから、それが機能し始めたら、これらの新しい分野が開かれると思います。
素晴らしいですね。
コンテキストウィンドウの活用
モデルのコンテキストウィンドウをもっと活用することについても何かあると思います。これらのLLMに本当に大量のコンテンツを入力できます。先ほど言及したいくつかの企業は、できることとできないことについて150ページのブランドガイドラインを持っています。非常に正確です。色、フォント、レゴブロックのサイズのようなものです。
だから、それを実際に取り入れて、生成を行うときに完璧に従うことができるというのは、全く新しいレベルの制御です。今日は持っていません。それが確実に従っていることを確認するためです。
非常に確立されたブランドとの間で多くの信頼を構築すると思います。
2番目のクリエイティブコンプライアンスレビューモデルがあり、それからモデルがすべきことに対してやったことをすべてダブルチェックします。
モデル自体がやるべきです。「私はこれを生成したけど、52ページにはやるべきではないと書いてある」というループを持っているべきです。そして、戻って再試行し、2時間後にそれを尊重してあなたのところに戻ってきます。
そうですね。テキストモデルで、この推論時間のスケーリングがどれだけ役立つかを見ました。自分の仕事を批評できることです。
そうですね。
だから、これは本当に重要に感じます。
驚くほど素晴らしい未来が画像モデルにはあります。
本当にそうです。
すべての素晴らしい仕事におめでとうございます。
ありがとうございます。
ありがとうございます。
招待していただきありがとうございます。
ポッドキャストに来てくださって本当にありがとうございました。


コメント