画像生成のルネサンス期の内幕 — OpenAIポッドキャスト第19回

AI画像
この記事は約23分で読めます。

OpenAIのポッドキャスト第19回にて、最新の画像生成モデルImageGen 2.0の開発背景とその画期的な機能について語られている。画像生成がテキスト描写、多言語対応、写実性の面でいかに進化し、実用的なユースケースや人々の創造性をどのように拡張しているかを解説する内容である。

Inside image generation’s Renaissance moment — the OpenAI Podcast Ep. 19
People are generating over 1.5 billion images a week in ChatGPT. In this episode, Product lead Adele Li and researcher K...

画像生成モデルの進化と自己紹介

こんにちは、アンドリュー・メインです。OpenAIポッドキャストへようこそ。本日のエピソードでは、研究者のケンジ・ハタとプロダクトリードのアデル・リーを迎え、Images 2.0についてお話しします。新しいモデルがなぜこれほど大きな飛躍を遂げたのか、開発中に最も重要視された評価指標、そして広く利用可能になった今、人々が何を生み出しているのかについて議論します。もしDALL-Eが石器時代だとすれば、ImageGen 2.0はルネサンスです。芸術的、美的に優れているだけでなく、科学、芸術、建築などがすべて一つの画像に統合されています。私たちはそれを見て、よし、これはImageGen 1よりも優れているぞと感じたのです。アデル、ここでプロダクトマネージャーになった経緯を少し教えてもらえますか。

OpenAIに入社したのは2年少し前になります。それ以前は、ずっと投資家としてキャリアを積んできました。

おお、すごいですね。

プライベートエクイティ業界にいて、Redpoint Venturesで3年間、AIやソフトウェア企業への投資を担当していました。OpenAIに最初に入社したときは、全く別の役割だったのです。私たちのデータや計算インフラをどのように構築するかを考えていました。そして時間が経つにつれてプロダクト側へと移っていき、ここ半年間はImageGenに携わっています。

ある役割から始めて、現在のこの分野に行き着くというキャリアの築き方は興味深いですね。さまざまな形で役に立つ能力を持っていると考えるのは素晴らしいことだと思います。

本当にそうですね。プロダクトマネージャーの役割は、それが何であれ、必要とされる仕事をやり遂げることだと思っています。特にImageGenに関しては、製品開発やケンジのような研究者との協力において、さまざまな力を発揮できるのが本当に素晴らしい経験になっています。同時に、現在の市場で埋めるべきギャップは何か、私たちが掴むべき機会は何かを考えることも重要です。私たちが最初にImageGen 1.0をリリースした1年前とは、市場が全く異なりますからね。今は非常に異なる状況になっています。画像生成を行う企業は複数存在し、ChatGPT自体も企業や製品として大きく変化しました。そのため、ImageGenの進化とChatGPTにおけるその役割について深く考えることは、私にとって非常にエキサイティングなことなのです。

ケンジ、あなたはどのようにして画像プロジェクトに関わることになったのですか?

実は、私も約2年前の同じ時期にOpenAIに入社したんです。最初はランダムなオーディオプロジェクトに取り組んでいて、それが私にとって初めてのプロジェクトでした。そして当時、リリース前のImageGen 1.0の開発を手伝うようになり、徐々にそのプロジェクトに関わる時間が増えていって、最終的に専任になったという感じです。

ユーザーからの反響と新しいパラダイム

現在、モデルへの反響はどのような感じですか?

モデルをリリースしてからの過去2週間で、利用率は50%以上増加しました。ChatGPTでは毎週15億枚以上の画像が生成されています。そして、世界中でバイラルなトレンドが生まれているのを確認しています。アジアでのカラー分析やステッカーのトレンドから、アメリカでのクレヨンや落書きのバイラルまで様々です。同時に、多くの人々が新しいユースケースを開拓しています。これはモデルのダイナミックレンジの広さを示しているだけでなく、人々がモデルの進化を視覚的にほぼ即座に理解できていることを示していると思います。静的なモデルにおいて、これまでで最高の忠実度と品質だというユーザーからの視覚的なコミュニケーションによる反応を見られたことは、本当に素晴らしいことでした。

今回は非常に大きな変化だと感じました。単なるImages 2ではなく、まったく新しいパラダイムと呼ぶにふさわしいほどのものです。機能が飛躍的に向上していますからね。何がそれを可能にしたのでしょうか?

このプロジェクトを始めたとき、私たちは話し合い、どのような機能やユースケースの飛躍的進歩を目指して構築すべきかを議論しました。そして、画像生成には今日できることよりもはるかに多くの可能性があると信じていたのです。今日目にするあらゆる出力や視覚コンテンツを、画像として抽出することができます。それが私たちが改善を目指した使命でした。この2.0モデルでは、さまざまな次元で改善を行っています。1つ目はテキストのレンダリングです。ページ上のテキストをより高い忠実度で表現する能力が向上し、言語や単語が実際の言葉として意味をなすようになりました。2つ目は多言語対応です。このモデルがさまざまな言語で機能することに本当に注力しました。そしてすでに、アジアやヨーロッパなど世界中の人々がこれらの進歩に共感しているのを確認しています。3つ目は写実性です。以前のモデルでは、出力があまりリアルでなかったり、顔や体が変形してしまったりするというフィードバックが多く寄せられていました。そこで私たちの使命の1つは、どうすれば画像をより自分自身に近いものにできるかということでした。モデルが知っていると思われるすべてのことは、世界に関する知識をその意識の中に吹き込んでおり、それを視覚的にユーザーに伝えることができるからこそ可能なのです。これらをすべて組み合わせることで、現在市場に出回っている中で最高の美的モデルである、最先端の画像生成モデルが完成したと考えています。これはまさに画像生成の新しいパラダイムを象徴するものであり、ここでのAIの進歩全体においても非常に大きな部分を占める機会だと思います。

私たちはよくソーシャルメディアでのフィードバックにも耳を傾けています。これらの情報をすべて取り入れ、基本的にはそれらを認識した上で、次のイテレーションで緩和したり、場合によっては完全に修正したりできるように努めています。

実用的なユースケースの広がり

今、どのようなユースケースを目にしていますか?人々はこれで何をしていますか?

リサーチチーム全体に特に関わりが深いのは、インフォグラフィックやテキストですね。今の画像内のテキストは格段に良くなっているので、より生産的なユースケースが多く開拓されていると思います。リサーチ側としては、これまで画像生成といえば遊びや非生産的なものというイメージがありましたが、今では生産性や、想像できるあらゆるユースケースに向けて確実な前進が見られます。

テキストについて言及されましたね。初期のモデルでは、チンパンジーを貶めるつもりはありませんが、OpenAIという綴りすらチンパンジーがやったかのように見えていたのを覚えています。しかし今では、テキストのページや細部まで描かれたものを見ることができます。モデルが賢くなるにつれて、変数のバインディングや物を隣り合わせに配置する能力が向上するのは分かっていますが、今回は本当に大きな改善でした。

そうですね。でも、それが完全に予想外だったとは思いません。その間に多くの成長があったことがわかります。まず、DALL-E 3とImageGen 1の間でそれが見られます。ランダムなオブジェクトのグリッドを要求した場合、DALL-E 3では5から8個程度だったのが、ImageGen 1では16個程度になります。そして1.5ではコンスタントに25から36個になりました。今ならおそらく100個以上できると思います。これは私たちが内部で行うかもしれないテストの一つで、ChatGPTに100個のランダムなオブジェクトのリストを要求し、それを画像ジェネレーターに送信して、いくつ正解するかを見るというものです。通常、ほぼ100個すべて正解します。時間の経過とともに絶えず成長しているのがわかります。ですから、完全に予想外というわけではなく、着実なペースで進んでいるのだと思います。

それは、AdaやBabbage、Curieのような本当に古いモデルで私がよく使っていたテストですね。SF小説を100冊リストアップさせて、22冊目くらいになると同じものを繰り返し始めるので、モデルが限界に達したとわかるんです。360度のパノラマのようなものも見てきましたが、あれはどうやって実現したのですか?

それは、あらゆるアスペクト比で画像をレンダリングする能力という、モデルから新たに出現した機能から生まれました。人々が非常に長い見事なパノラマや、細長いしおりを生成していることを発見したのです。そしてこのモデルのクールな機能の1つは、このパノラマのアスペクト比で画像を生成できるだけでなく、360度のスタイルで画像をレンダリングできることでした。これらの画像を実際に360度の世界で見るのは本当に楽しいことだとわかりました。そこで、その非常に楽しい機能を製品に追加することになり、現在はウェブとモバイルのChatGPTで利用できるようになっています。

私が最初にやったのは、ポーカーをする犬たちのバージョンを作ることでした。それをそこに入れて、まるで自分がその中の犬の1匹になって辺りを見回しているように座れるようにしたんです。予想していなかったことですが、楽しいですね。

ええ。人々がモデルを使って新しいユースケースや楽しいものを作り出し、私たちが想定していた以上の使い方を探求しているのを見るのは本当に素晴らしいことです。モデルを設計していたとき、私たちは人々が画像生成に本当に何を求めているのかを理解することに非常に慎重に取り組んでいました。画像生成には潜在的な需要がたくさんありました。人々は主に個人的なユースケースで使用していましたが、モデルが得意ではない特定の方向にモデルを押し進めたいという人々の兆候は確かに見られました。テキストレンダリングは、私たちが本当に改善したかった次元の1つでした。多言語対応もそうです。そして、このモデルでは世界の理解全般がはるかに優れていると思います。それが意味するのは、今やオンライン上の人々が、私たちが存在することすら知らなかったあらゆる種類のユースケース向けに作成した画像生成の例をたくさん共有しているということです。ですから、楽しいミームであろうと、5歳の子供向けの画像であろうと、プロ向けのコンサルティング資料であろうと、さまざまな出力にわたるモデルの美的な理解は素晴らしいものです。この最新モデルで機会と出力が拡大しているのを見るのは驚くべきことです。

不完全さへの欲求とパーソナライゼーション

面白いのは、トレンドの1つに、人気のある画像や人物の写真を取り込んで、モデルにちょっと不格好なMicrosoftペイント風のバージョンを作らせるというものがあったことです。

ええ、ありましたね。

人々がこの信じられないほど有能なツールを使って、あのようなばかばかしく見えるものを作ると予想していましたか?

面白いですよね。不完全なものを実際に作り出すには多くの知性が必要ですから。私がいつも人々に言っていることです。

本当にそうですね。

そして、現在オンラインで見られるバイラルトレンドにおいて、それは間違いなく非常に興味深い点です。人々が本当に求めていることの1つは、本物らしさ、不完全さ、ノスタルジアだと思います。それは、Microsoftペイントのプロンプトやクレヨンなど、人々が作成しているさまざまな種類の生成物に見られます。消費者のテーマとして本当に感じられるのは、AIと非常に本物らしく、不完全な方法でやり取りしたいということです。彼らは自分の不完全さを示し、AIを使って自分を良く見せつつ、自分自身のより楽しくておどけた側面も見せたいのです。AIによる自己表現は私たちが本当に興奮している分野です。人々がより多くを学び、その知性を分配することを容易にするだけでなく、これまで不可能だったかもしれない自分自身のバージョンを表現できるようにすることは、企業としての私たちの使命の一部だと考えています。

ケンジ、このモデルのトレーニング中に、これはもう準備が整ったぞと実感した瞬間はありましたか?

トレーニングが進む中でチェックポイントを取り、そこからサンプルを抽出して、これがどれくらい優れているかを確認するんです。ある時、モデルから画像をサンプリングして見たとき、よし、これはImageGen 1よりも良いと確信しました。ただ、それだけでしたね。

初期のDALL-Eのバージョンアップを見ていたときのことを思い出します。最初はぼんやりとした奇妙な触手のようなものが出ていて、研究者の1人に、これは無くなるの?と聞いたら、おそらくあと2回実行すれば、と言われたんです。そしてまさにその通りになり、それを予測できる能力に驚きました。そして突然、すべてが鮮明でクリアになったんです。

ええ。

数年前にはGANなどをいじっていましたが、目を細めて、これはピックアップトラックか何かかな、と言わなければなりませんでした。だから、突然はるかに良くなったことに気づく瞬間は興味深いですね。

ええ、それはもう非常に明白でした。初期のチェックポイントを取って画像をサンプリングし、次にImageGen 1から画像をサンプリングして、その2つを見比べるだけです。なんというか、なんでこの古いゴミみたいな画像が好きなんだっけ?と思うくらいです。その画像が何だったか忘れましたが、海辺を見下ろす女性の写真だったかもしれません。それを見て、よし、これだと。疑いの余地はありませんでした。

ええ。光沢のある理想化された雑誌の表紙のようなものから、本当に良い写真のように見えるものへの移行、その写実性の向上が大きな飛躍でしたね。単に計算量が増えたこと以外に、どのようにしてこれが起こったのか理解するのを手伝ってください。モデルが大幅に改善され、同時に画像の生成に1時間もかからないようになったのはなぜですか?DALL-Eの時代は、何が欲しいかを伝えて、1時間後にInstagramにアップされるという状況でした。それが今ではChatGPTに組み込まれ、しかも速くなっています。どのようにしてより賢くなり、同時に同じ速度を維持しているのでしょうか?

1から1.5、そして現在の2と、各リリースで多くのことを学びました。得られた教訓のそれぞれを活かしています。たとえば速度に関して言えば、モデルのトークン効率をもっと上げられないかと考えました。そして、より少ないトークンで非常に良い画像を生成できるように多くの作業を行いました。

このモデルのポストトレーニングは非常に興味深いものでした。モデルが世界の知識や、科学、概念、数学などが画像でどのように見えるかを理解するだけでなく、ユーザーの心に響くテイストとは何かを考えなければなりませんでした。モデルや出力を美しくするにはどうすればいいのか。どのようにしてリアルに見せるのか。これらはすべて、このモデルをポストトレーニングする際に取り組まなければならなかった課題です。なぜなら、私たちが本当に重視していたことの1つは、このモデルが現在出回っている中で最強の美的モデルであることだったからです。つまり、プロフェッショナルな出力であれ個人的な出力であれ、さまざまな出力においてより多くの創造性を発揮できるということです。トレーニングの幅広さとユースケースの幅広さが、このモデルのトレーニングを非常に興味深い問題にしたのだと思います。

評価とプロンプトのコツ

個人的にお気に入りのベンチマークテストはありますか?これの画像を作らせてみたいと思うようなものは?

私は私、私、私の評価と呼んでいるテストを持っています。

なるほど。

基本的には私と友人、家族の100枚の写真です。全員を滑稽なポーズにして、一人一人にカードや誕生日の設定を持たせています。自分の顔の周りの人たちのことは自分が一番よく知っているので、これは本当に素晴らしい評価になると思います。モデルを使って面白いものを作ったり、関連性のあることをしたいですからね。プロダクトマネージャーとして私がテストしていることの1つは、モデルの基本性能が優れているかだけでなく、ChatGPTがそのコンテキストで私が何を望んでいるかを理解しているかどうかです。ChatGPTは私に兄弟がいて、両親がいて、彼らが何をするのが好きか覚えています。では、モデルは画像内の重要な瞬間にパーソナライゼーションの要素を正確に挿入する方法を知っているでしょうか?そういったことをテストしています。あなたはどうですか?

先ほど言ったグリッドのテスト以外だと、それが一番よく使っているものですね。一時期、ディヴィヤと私は写実性について多くのテストを行っていました。そこを強く押し進めようとしていたんです。ディヴィヤのお気に入りは、オレンジジュースのジャッキを持っている女性でした。見たことがあるかわかりませんが、オレンジジュースのジャッキを持っている女性の画像が山のようにありましたね。

研究者たちは彼らが思わせているよりも標準的な画像のセットを持っているように感じますね。

ええ、標準的なものがあります。左利きで字を書いている人や、右手で時計を見ていてこの時間を示している、といったことができるかどうかとか。

画像モデルにおける大きな飛躍、おそらく1や1.5の頃の飛躍は、半分入ったワイングラスでした。ワイングラスの縁の部分が正確に描けるかどうかです。

ええ、縁の部分ですね。

まさにその通りです。私がプロンプトでそれを描かせる方法もありましたが、その中に赤い液体が入っている、といったように非常に詳細に描写する必要がありました。

このモデルはプロンプトを考えるのがとても楽しいです。

ピクセル精度のピクセルアートスタイルの画像ができるかという話題があり、誰かが、いや、できないと言っていたことがありました。それを聞いた時、よし、試してみようと思ったんです。64×64のグリッドを与えて、そこにアートを描けと指示すると、実際にできたんです。そこにアートを配置することができました。そのような結果を見られたのは驚きでしたし、プロンプトへの対応力は桁外れです。どうやってそれを計画するんですか?ただ偶然起こるものですか?これを理解できるようになったなんてすごい、という感じで。

人々はImageGenに非常に曖昧なプロンプトを入力します。もっと良くして、私をもっと良く見せて、もっと可愛くして、といった具合です。これらはすべて非常に曖昧です。それを実際にユーザーが望むものに抽出するのが、モデルとそのシステムの役割だと思います。それは私たちが時間をかけてトレーニングしてきたモデルの個性であり、その力を本当に活用してきました。そして正直なところ、人々が予想していなかったような驚くべき結果を数多く生み出していると思います。その驚きこそが、ImageGenを使う楽しさの一部なのです。

クリエイティブの拡大と教育への応用

2つのタイプのプロンプトが登場しているのを見てきました。DALL-Eの初期の頃、私はプロンプトエンジニアだからうまくやれるぞ、と思っていました。宇宙にいるアライグマを作って誇らしく思ったりしたものです。しかし、プロンプトエンジニアではなく、実際にアートの世界から来たアーティストが、彼ら自身の言葉を使っているのを見ました。彼らは素晴らしいものを作っていましたね。

ええ。

それは今でも当てはまるようです。

間違いありません。このモデルを開発する際、私たちはアーティストのグループと非常に密接に協力しました。アーティスト、デザイナー、マーケターなど、それぞれの職業に対して異なるアプローチを持っている専門家から多くのインスピレーションを受けました。私たちにとって非常に重要だったのは、インスピレーションだけでなく、それらの職業のベストプラクティスを取り入れ、人々がモデルとやり取りする方法に抽出することでした。それは意図的に注力してきたことです。うまく機能しているハックの1つは、インスピレーションやコンテキストをモデルにアップロードする機能です。モデルはそのコンテキストの精神を読み取り、それを出力に変換する驚くべき能力を持っています。

面白いですね。多くの人が、ボタンを押すだけで美しいものが得られると心配していると思います。そしてモデルごとにそれは良くなっています。おっしゃる通り、多くの労力をかけなくても済むのは簡単です。しかし、人々が労力をかければ、さらに素晴らしい結果が得られています。芸術的な傾向がある人なら、被写界深度など、やろうとしていることについて語る際にモデルがより深く理解してくれるようになったため、より大きなコントロールを得られているようです。先ほどおっしゃったように、初期のモデルでアーティストが、オリジナルの作品を与えたらこれらのバリエーションを作ってくれてどれが機能するかわかった、と言っていたのを見るのはエキサイティングでした。これを真のクリエイティブの増幅器として見るのは素晴らしいことです。

ええ、間違いありません。クリエイティブな方向性やセンス、判断力を持ち込み、それをモデルに適用することが、モデルをさらに押し上げる最良の方法だと思います。このモデルについて私が本当に興奮していることの1つは、人々のクリエイティブな表現の場をどのように広げるかということです。複数の異なるスタイルやタイプ、バリエーションを作成する能力が、このImageGenモデルほど簡単になったことはありません。また、建築図面を生成するところから、児童書の美学まで、さまざまなコンテキストを理解しシフトする能力も素晴らしいです。これらのベクトル間で非常にシームレスに移動できる能力は本当に素晴らしいものです。

優れたインフォグラフィックや図解を作成できる能力は非常に強力です。研究や教育に携わる人々からはどのようなフィードバックを得ていますか?

実は社内にモデルをテストするためのアルファチャンネルがあります。その中に、小学生から大学院レベルまで、あらゆるレベルの教育者に特化したサブチャンネルがあるんです。私が見た中で最もクールだったことの1つは、ある生物学の教授が、私には全くわからないような大学院レベルの教科書のレンダリングページを入力したときのことです。彼はそれが完全に正確だと言っていました。非常に複雑なトピックを、画像内で誰にでも理解しやすいものに抽出するこのモデルの能力は、その最大の強みの1つだと思います。

学生や教師がImageGenを使って様々な概念を学んだり、学習ガイドを作成したり、パーソナライズされたコンテンツを作成したりするのを見てきました。パーソナライズされた学習は私たちが非常に情熱を注いでいる大きなトレンドです。ImageGenモデルは、教師がすべての子供に自分の言語と好みで理解できるものを作成するのに役立ちます。それは私たちが本当に興奮していることです。また、人々が概念を学ぼうとしているときにImageGenで教えられるように、ImageGenの要素をどのようにしてChatGPT全体に広くもたらすかという文脈でもこれを考えています。

私が学生だった頃、マルチメディアが爆発的に普及する前は、ポスターが大きな役割を果たしていました。教室に貼られたポスターが物事を説明していたんです。今回、インフォグラフィックがいかに強力なものになり得るかを思い出しました。好きなだけ注目を集めることができ、時間をかけてじっくり見て、はるかに多くの詳細を盛り込むことができるからです。

私がImageGenで見た本当に素晴らしい視覚的な変化の1つは、現在社内のプレゼンテーションにおいて、50%以上のスライドがImageGenで作成されていることです。

わあ。

自分の概念を説明したり、意味することを図解したりする際に、画像を通じたコミュニケーションの浸透は非常に強力です。テキストのレンダリング機能とページ上のテキストの構成力は、このモデルで信じられないほど強力だと思います。何を言うべきかだけでなく、それをどのように提示すべきかをモデルが理解していることはスーパーパワーです。これの将来の探求について本当に興奮しています。これをさらに良くするにはどうすればいいのか。構成やさまざまな種類の出力をどのように改善し、製品内で編集可能にするか。これらは私たちが本当にワクワクしている方向性です。

今後の展望とワークフローの変革

この進化の過程をどのように見ていますか?これは素晴らしいですが、通常、OpenAIの誰かに取り組んでいることについて話を聞くと、ええ、これは良いですが、でも、と返ってきますからね。

人々がモデルを使いこなそうとしているさまざまなユースケースを探索する段階としては、まだ非常に初期の段階にあると思います。私たちが本当に興奮していることの1つは、ImageGenの次の段階、つまりクリエイティブなエージェントを作成することです。究極的には、あなたと一緒に働き、クリエイティブなアシスタントになり、あなたの働き方、好み、どのような出力を得たいかを本当に理解し、ユーザーがパーソナルなインテリアデザイナー、建築家、ウェディングプランナーなどをすべて1つの画像内に持てるような製品とモデルのエコシステムを構築することです。

もう1つ驚くべきことについてお話ししましょう。本についてです。私は時々本を出すのですが、ソーシャルメディアのヘッダーを変更しなければなりません。そこで私は単に、私の本の表紙を見つけて、XやFacebookなどに使える適切なサイズのソーシャルメディアヘッダーを作って、と頼みました。どうなるか見てみようと思ったら、一発でした。一発で正しいアスペクト比で完璧にやってのけました。

基本的に最初からそのように設計したか、その作業が得意になるようにモデルをトレーニングしました。初期段階のリスク軽減の仕事として、要求されたあらゆるアスペクト比に対応できるようにしたことを覚えています。

ええ。

そうですね、今では望む結果を本当に簡単に指定できるようになりました。

ええ。

あなたの例のように、プロモーション素材が欲しいけれど具体的なアイデアがなく、正確な指定をしていなくても、モデルは調査を行い、あなたに関連するスタイルとアスペクト比で提供することができました。それは非常に強力です。私たちはすでにこれを目の当たりにしています。あなたは著者ですが、アパートの物件情報を作成したり、ステージングを行ったりするためにImageGenを使用している不動産業者と話をしたことがあります。YouTubeクリエイターは、サムネイルやプロモーションコンテンツにImageGenを使用することについて語ってくれました。ファンとつながるためにImageGenを使用したいというトップアーティストとも話をしました。視覚的なクリエイションを支援するために、あらゆる種類の職業の人々がImageGenを使い始める能力は非常に強力です。特に視覚的でクリエイティブな業界で働いている場合、ImageGenはプロフェッショナルなツールキットにおける裏技のようなものです。将来的には誰もが日常的なワークフローの一部として使うようになる必要があると思います。

これこそが初めて、私が合理的に思いつくことなら何でもかなりうまくやってくれるという実感ですね。

私たちはこれが画像生成における全く新しいパラダイムだと考えています。ローンチビデオでも言いましたが、DALL-Eが石器時代だとすれば、ImageGen 2.0はルネサンスです。

ええ。

まったくその通りだと思います。モデルは芸術的、美的に優れているだけでなく、科学、芸術、建築をすべて1つの画像に統合しているからです。そして、モデルが持つその構成力と知識は、出力がはるかに信頼でき、強力で、さらに多くのユースケースを可能にすることを意味していると思います。ImageGenとCodexの交差点も、私たちがImageGenとコーディングエージェントの両方で作り出そうとしている機能の驚くべき組み合わせだと思います。多くの人が新しいウェブサイトのデザインや新しいアプリの作成の第一歩としてImageGenを使用しています。画像生成という非常に強力な美的モデルと、強力なコーディング機能の組み合わせにより、これら両方のツールを使用してゼロから本当に素晴らしいアプリをゼロショットで作成できるようになったことを意味します。

私はCodexで試してみました。自分のウェブサイトを取り上げて、ImageGenを使って別のコンセプトを作ってくれないかと頼んだんです。コンタクトシートのようなものを作ってもらい、4つの画像をそこに出してくれとお願いしました。そして、ああ、右上のやつ、あれを作ってくれないかと言って、Codexがそれを作るのを見ていたんです。魔法のように感じましたね。さらに彼らはそれをペットの一部として実装しました。Codexを使っていて、私はカラスが好きだからカラスを作ってと頼むと、ImageGenツールを呼び出して反復処理し、そのスプライトを作ってくれるのを見ました。

スプライトシートはバイラルになっていますね。

ええ。ゲームデザインもそうです。人々は新しい世界を作るためにImageGenを使うのが大好きです。

より良いスプライトシートを作るためのヒントはありますか?

社内でGIFを作ろうとしたことがありますが、ThinkingモードやCodexを使って、基本的には最初のスプライトを1つ生成するように頼むと、非常に良いものができます。その後で、残りの部分も作ってくれるかと頼むことができるんです。複数の画像にわたる一貫性は驚くべきものです。一貫したストーリーラインの10ページのコミックブックや複数ページのスライドを作ろうとしている人を多く見かけます。キャラクターと美学の一貫性はこのモデルに完全に固有のものです。

これまでは画像モデルを扱う際に不格好なワークフローが多く、試行錯誤しなければならない例がありました。今素晴らしいのは、キャラクターを作成し、様々なポーズのキャラクターシートを作ってと指示し、それを再度入力して、今はこれをしているところ、次はあれをしているところ、と指示できることです。それは非常に強力です。私たちがしばしば必要としているのは明らかに賢いモデルですが、コンテキストの長さはChatGPTやコーディングにおいて非常に大きな役割を果たしました。そして画像モデルでは、これらの参照を確実に行うことができるようになっています。本当に信じられないほどの能力です。

そうですね、間違いありません。そして、私たちはそれらをさらに改善しようと努めています。今はまだ完璧ではありません。私たちは人々のためにこの視覚的なクリエイションレイヤーを開発しようと本当に努力しています。なぜなら、すべての人が美学や個人的なスタイル、好みを持っているからです。それを構築している製品に吹き込み、ImageGenで人々が望む出力に簡単に、早くたどり着けるようにしようとしているのです。

最後のプロンプトアドバイス

最後に、プロンプトについてのヒントはありますか?

試していただきたいことの1つは、ImageGen Thinkingです。ThinkingモデルやProモデルに移動すると、その体験の中でより強力なバージョンのImageGenを利用できます。そしてそのモデルでは、実際にウェブを検索したり、ファイルを分析したり、裏でツールを活用したりすることができ、その結果、より高品質で構成力の高い写真が得られます。その体験でのプロンプトの提案としては、オープンエンドにすることです。モデル自身が探索を行い、理解し、推論し、重要な情報を見つけ出してくれると思います。また、美学的な感覚を与えることも非常に役立ちます。スタイルに基づいて指定することは、素晴らしい結果を生む上で非常に効果的です。

良いアドバイスですね。素晴らしいです。

単純に、スタイルや自分の好みを具体的に伝えることだと思います。私の場合、ミニマリストなインフォグラフィックが好きです。時々モデルは少し密度が高すぎると思うことがあるので。私はシンプルな人間なので、とてもクリーンな、本当にすっきりとした見た目が好きなんです。

アデル、ケンジ、本日はどうもありがとうございました。

コメント

タイトルとURLをコピーしました