4o画像生成：ChatGPTとSora

6,087 文字

Sam Altman, Gabriel Goh, Prafulla Dhariwal, Lu Liu, Allan Jabri, and Mengchao Zhong introduce and demo 4o image generati...

おはようございます。今日は私たちがこれまでに発表した中で最も楽しく素晴らしいものの一つをご紹介します。皆さんが長い間待ち望んでいたものです。お待たせしましたが、それだけの価値があると思いますし、きっと気に入っていただけると思います。ChatGPTにネイティブな画像生成機能を導入します。画像生成自体は以前からありました。実際、私たちが初めて知られるようになったのは、オリジナルのDALL-Eでした。しかし画像生成はこれまで大部分が目新しいものに過ぎませんでした。素晴らしいアートを作ることはできましたし、人々は驚くべきことを成し遂げてきましたが、広範囲に本当に役立つ力はありませんでした。
今日発表するのは、GPT-4oモデルでのネイティブな画像生成機能です。これはとても大きな進歩なので、説明する最良の方法は実際にお見せすることです。これは私たちが長い間世界に提供したいと思っていたものです。このような画像生成機能を提供することで、クリエイター、教育者、小規模ビジネスのオーナー、学生など、より多くの人々がこれまでできなかった新しいことをAIでできるようになると考えています。
本当に最良の方法は実際にお見せすることなので、このプロダクトの主任研究者であり主導者であるGabeを紹介したいと思います。
こんにちは、主任研究者のGabeです。
こんにちは、Profulです。マルチモーダル研究の責任者をしています。
早速デモに入りたいと思います。デモから始める理由は、これを話すための備忘録としても使っているからです。便利ですね。
このプロジェクトを2年前に始めたとき、私たちはGPT-4ほど強力なモデルでネイティブな画像生成のサポートがどのようなものになるかという科学的な疑問に興味を持っていました。その答えは分かりませんでしたが、1年後にモデルのトレーニングが完了すると、本当に興味深い兆候が見えてきました。フォーラムのブログ記事で紹介したのを覚えている方もいるでしょう。モデルが段落のテキストをレンダリングできることがわかりました。例えば、画像を本当に興味深く斬新な方法で組み合わせることができました。このモデルで遊ぶ時間をたくさん費やし、長い間感じなかった喜びと興奮を感じました。おそらくGPT-2以来かもしれません。
私もそうです。これは本当に「わあ」と思う瞬間の一つでした。
「わあ」と思う瞬間でしたが、そのモデルはまだ粗削りな部分がありました。時々タイポがあったり、少し信頼性に欠けていました。そこで過去1年間、このモデルを一般の人がより使いやすく、よりアクセスしやすくするために改良してきました。
画像が生成されているのが見えますね。すべてのテキストがありますし、タイポもないようです。良いですね。
完璧なテキストを含む画像生成を見るたびに、まだ驚きを感じます。それほど印象的であるべきではないのかもしれませんが、私たちはこれをとても長い間待っていて、それが起こるたびに「わあ、とても素晴らしい」と思います。
そして指示の中でこの画像が正確に捉えなければならなかった多くのこと、たとえば焦点を当てたいものや、一人称視点の画像であることや、私たちがいる場所、そしてテキストがあることなど、これはまだ私にとって驚きです。
一人称視点の画像は実際にとても難しいものですが、これは今私たちが見ているものとよく似ています。まるで写真を撮ったかのようですね。
それでは私のデモを始めます。まず私たち全員の自撮り写真を撮りましょう。いい表情をしてください。そしてChatGPTにこれをアニメフレームに変換してもらいます。この場合、テキストプロンプトのコンテキストだけでなく、この画像も取得して、両方を使って私たちのために本当に素敵な画像を作成できます。これが可能なのは、GPT-4oを全方位モデルとしてトレーニングしたからです。言語だけでなく、画像、音声、すべてのモダリティを入出力できるモデルです。それらを理解し、生成し、シームレスに連携できます。音声モードのような有用な製品を作るために多くの努力を重ね、そして今、画像がシームレスに機能するようになりました。
私たちがついに真に統合されたマルチモーダルモデルに近づいていることは非常に素晴らしいことです。すべてをこなすモデルです。
この場合、ユーザーにより多くのコントロールを提供します。特定のスタイルが欲しいかもしれませんし、特定の以前の画像や、デザインパレットなどを使用したいかもしれません。これらのコンテキストをすべてChatGPTに提供でき、ChatGPTはそれらをすべて使用して、あなたが望むものを作成します。よりコントロール可能になるのです。
背景の空や植物が見えますね。ちなみに、これは今日からChatGPTとSoraで利用可能になります。すでに開始されていると思います。あなた自身のアニメバージョンを作りたいなら、今すぐできます。
すでにProとPlusユーザーにはすべて公開されていると思います。
素晴らしいですね。無料ユーザーにも利用可能になります。私の小さなあごひげが見えますね。あなたの表情も、私の手のサインも、あなたの手のサインもパーフェクトです。
次に何をしましょうか？これをミームにできますか？
ミームにするのはいいですね。それはゲームの台本にありませんでした。どうしたいですか？
OpenAI内部でよくあるミームの一つに「Feel the AGI」というものがあります。AIがそれについてどう考えるか全く分かりませんが、試してみましょう。
私もAGIを感じています。
このケースでもアニメーションがとても良いですね。モデルは過去のコンテキストもすべて見ていて、言語やミームについてのすべての知識を使って新しい表現を私たちに提供します。この複数ターンの性質が、人々にとってさらに有用なものになります。どんな編集でも頼むことができ、間違っていたら「これを修正して」と言うだけです。これは人々にとってツールとしてより玩具としてではなく、方向性を示していると思います。それにワクワクしています。
ミームといえば、一般的なインターネットミームについてGPT-4oがどれくらい知っていると思いますか？
かなり知っていると思います。実際、これをOpenAI内部の人々に初めて公開したとき、最も多く受け取ったのは人々からのミームでした。Gabeがもっと詳しく話せるかもしれません。
そうですね、ミームは社内版での主要なユースケースの一つでした。ミームについて考え、なぜこのユースケースが会社の心に響いたのか考えていました。気づいたのは、過去9ヶ月間このモデルに取り組んでいる間、私は周りの画像をすべて見るという瞑想的な練習をしていて、一日に何百もの画像に囲まれていることに気づきました。これらの画像は必ずしも最も美的または美しい画像ではありませんが、すべて意図を持って作られていました。ミームのように、説得したり、情報を提供したり、教育したりするために作られました。これらは私たちの日常生活を構成する「ワークホース」イメージであり、私が非常に興奮しているのは、この「ワークホース」イメージを作成する力を世界中の誰にでも与えられることです、ChatGPTで。
この力について言えば、私たちは通常よりもはるかに高い度合いの創造的表現と創造的自由を提供しています。そのため、モデルが不快にならないようにしたいですが、合理的な範囲内で、人々が必要とするもの、欲しいものを作成できるようにしたいと思います。初日から完璧にはできないかもしれませんが、Gabeが言ったように、創造的自由にかなり傾いて、人々がこのモデルから最大限の効用を得られるようにしたいと思います。人々が何をするか見るのが楽しみです。
私もそう思います。作成されたミームを見てみましょう。素晴らしいですね。
ありがとうございます。他の研究者や製品担当者を招待して、もっと多くのことをお見せしたいと思います。他に何かあれば。
ありがとうございました。
それでは、素晴らしい研究をすることに加えて、優れた製品体験にすることにも努めました。同僚に自己紹介してもらってから、もう少しお見せしましょう。Alanから始めましょうか。
こんにちは、OpenAIの研究科学者Alanです。
こんにちは、Benchと申します。ChatGPTのエンジニアです。
こんにちは、Louです。OpenAIの研究科学者です。
モデルがより高性能になるにつれて、世界に関する知識が深まっていますが、これまでテキストやコードでしか自己表現できませんでした。今回のリリースで興奮しているのは、モデルが実際に自分の知識を可視化し、視覚的な方法で外在化できるようになったことです。試すプロンプトは「相対性理論を説明する漫画のページを作成する」というもので、面白みを加えるよう頼んでみましょう。
モデルが視覚的なユーモアをどれくらい理解していると思いますか？単に面白いテキストと比較して。
このプロンプトはとても曖昧なので、モデルがどのような予想外のものを生み出すか見るのは興味深いでしょう。これは世界知識を活用し、プロンプトの拡張バージョンを書いて、素敵な画像を提供してくれるものです。漫画や画像、一般的に伝えたいストーリーのより詳細な感覚があれば、それも確実にできます。このモデルは指示に従うのが非常に上手で、just公開したブログ記事には、まさにそれを行う方法の素晴らしい例がたくさんあります。
ちなみに、画像は以前の画像生成よりもずっと遅いですが、信じられないほど優れています。待つ価値は十分にあると思います。時間の経過とともに速くすることもできるでしょうが、質と時間の比率はすでに素晴らしいと思います。
英語だけでなく別の言語もあるようですね。一般的に、このモデルが画像を生成するだけでなく、正確なテキストを適切な方法でブレンドする能力により、想像力のためだけでなく、学習やコミュニケーションのためのツールにもなることを望んでいます。
ユーモアも加えられていますね。
レイアウトが気に入りました。
ソフトウェアに非常にカラフルですね。
素晴らしい。ありがとう、Alan。Alanは、このモデルがプロフェッショナルかつ教育的な環境でどれほど輝くかを示してくれました。私がこのモデルについて最も好きなのは、誰にでも身近なことです。プロのアーティストのスキルはなくても、創造性を表現することを楽しむ私のような人にとっても。それを示すために、特別なものを用意しました。
まず、Soraの発売時に手に入れたこのトレーディングカードからインスピレーションを得ました。画像生成のために同じスタイルで新しいカードをデザインできるのはとても素敵だと思いました。朝、このカードの写真を撮りました。これがそれです。ただ、巨大な猫の王の代わりに、私の犬のサンジをメインキャラクターにしたいです。これが私の犬の写真です。かわいいでしょう？カードに含めたい詳細もいくつか含めました。モデルの名前、年、いくつかの能力、そしてサンジの体重と身長です。モデルが何を作成するか見てみましょう。
なぜ巨大な猫の王がSoraにいるのか分かりませんが、Soraのトレーディングカードはプロのデザイナーによってデザインされたと思います。私たちのモデルでそれを生成できたら素晴らしいと思います。
私たちのモデルは非常に正確なテキストレンダリングにおいて長い道のりを歩んできたので、この詳細な指示でどれだけうまくいくか見るのは非常に興味深いでしょう。
元のカードを見せてもらえますか？
とても素敵ですね。すでにレビューされたようです。これは各ローンチごとに作るべきですね。素敵です。
今では機械でそれらを作ることができますね。
そうすべきですね。
サンジがスノーボードをしていますね。実生活では見たことがありませんが、カッコいいですね。テキストもとても鮮明です。
そうですね、すべての統計も正確に記載されています。驚くべきことです。
この小さな創造的な瞬間を皆さんと共有できて嬉しいです。次にLouに私たちの製品をより革新的に使用する方法をもっと紹介してもらいましょう。
はい、今日は皆さんと特別なことを共有できて嬉しいです。今日はAlanとMontaの作品、そして背景にある他の2枚の写真をもとに、記念コインを作成します。まずAlanの写真とMchaoの写真をコピーし、残りの2つはここのデモの背景です。
特別なヘックスコードを使用したいと思います。このヘックスコードは春の色です。なぜなら、GPT-4oとこの発表は両方とも春に行われたからです。今日の私たちの特別な色にしたいと思います。また、「for image gen」というテキストと今日の日付をこの記念コインに入れて、今日の記念品にしたいと思います。
このモデルは非自己回帰的な方法でトレーニングされているため、コンテキスト内のテキストと複数の画像を理解し、コイン上で調和のとれた方法でシームレスにレンダリングすることができます。このような指示からどんなコインができるか想像できますか？
簡単には想像できませんが、見るのが楽しみです。
私もそう思います。そう考えています。
こちらに見えるのは、「for image gen」と芸術的なクマ、ラジオ、そしてAlanの漫画と驚くべきサンジです。
すごいですね！
そのコインが欲しいです。
同意します。では、透明な背景にしたいと思います。このコインを実際に印刷して物理的に持ちたいからです。
ご覧のように、モデルは1ターンだけでなく、複数のターンを通じてコンテキストを理解しています。今日から、より視覚的な方法でChatGPTとチャットできます。これは非常に単純な例です。透明な背景を作りましたが、例えばこのコインの裏側がどのように見えるかを想像したり、AlanとMunchaoと私それぞれに異なるユニークな色を作ったりすることもモデルに話せます。
背景を透明にするだけでなく、実際のコイン自体を2つの間で一貫して保つことはどれくらい上手くできるでしょうか？
編集の一貫性を保つのはとても上手です。ChatGPTを使って画像編集や画像の洗練をチャット形式で行うことができ、とても会話的な言語を使うことができます。
こちらがコインです。透明な背景になり、前の生成との一貫性が保たれています。
素晴らしいですね！
とても素敵です！これを世界に提供できることに非常に興奮しています。今日からChatGPTとSoraで利用可能になり、まもなくAPIにも導入されます。AIモデルが視覚的にできることにおいて、これは大きな一歩前進だと思いますし、皆さんが何を作り出すか見るのが待ちきれません。
どうもありがとうございました。おめでとうございます。
ありがとうございました。