新しいAI画像生成技術が全てを変える…

11,005 文字

https://www.youtube.com/watch?v=2vW2bIlnA7g

OpenAIがGPT-4o画像生成機能を発表しました。チャットGPTのインターフェース内で好きな画像を作成できるようになりました。この技術は画像生成だけでなく、テキストと画像の編集においても非常に優れています。また世界知識を活用して視覚的推論を行う能力も持っています。これは私たちが長い間待っていたものです。過去にこのような画像を見せられたことはありましたが、実際にリリースされることはありませんでした。いよいよ本格的に準備が整い、現在展開中です。
すでに多くの方がアクセスできるようになっていますので、発表動画を見て、このモデルの実際の機能を確認してみましょう。
おはようございます。今日は今までにリリースした中で最も楽しくて素晴らしいものの一つをご紹介します。多くの人がこれを長い間待っていました。お待たせしましたが、十分価値があると思いますし、きっと気に入っていただけるでしょう。チャットGPTにネイティブな画像生成機能をリリースします。
画像生成自体は以前からありました。実際、私たちが最初に注目されたのは、オリジナルのDALL-Eでした。しかし、画像生成はこれまで主に目新しさの域を出ていませんでした。素晴らしいアートを作ることはできましたし、素晴らしいものも多く生み出されましたが、幅広い用途で本当に役立つほどの力はありませんでした。
今日リリースするのは、4oモデルにネイティブな画像生成機能を統合したものです。これはとても大きな進歩なので、最も良い説明方法は実際にお見せすることだと思います。これは長い間、世界に提供することを楽しみにしていたものです。
このような画像生成機能を提供することで、クリエイター、教育者、中小企業のオーナー、学生など、より多くの人々がAIを使って今までできなかった新しいことができるようになると思います。本当に一番良いのは、実際にお見せすることです。このプロダクトの主要な研究者であり推進力となっているゲイブを紹介します。
こんにちは、私はゲイブです、主任研究者です。こんにちは、私はPRです、マルチモーダル研究の責任者です。さっそくデモに入りたいと思います。デモから始める理由は、これを発表者のメモとしても使っているからです。
2年前、このプロジェクトを始めたとき、私たちはGPT-4のような強力なモデルにおいて、ネイティブな画像生成サポートがどのようなものになるかという科学的な疑問に興味を持っていました。その質問への答えは分かりませんでしたが、1年後にモデルのトレーニングが完了したとき、非常に興味深い可能性の兆候が見えました。
4oのブログ記事で紹介したのを覚えている方もいると思いますが、モデルが段落のテキストをレンダリングできたり、画像を本当に興味深く斬新な方法で組み合わせたりする様子を見ました。このモデルで遊んでいる時間をたくさん過ごし、長い間感じなかった喜びと興奮を感じました。恐らくGPT-2以来かもしれません。
私もそう感じました、本当に驚くべき瞬間でした。しかし、そのモデルはまだ荒削りな部分がありました。誤字があったり、少し信頼性に欠けていました。そこで過去1年間、このモデルを洗練させて、一般の人々がより使いやすく、よりアクセスしやすくなるよう取り組んできました。
ご覧のように、画像が生成されています。テキストがすべて含まれていて、誤字も見当たらないようです。完璧なテキストを含む画像生成を見るのは、いまだに驚きです。そんなに印象的であるべきではないのですが、これを長い間待っていて、それが実現するたびに「すごい！」と感じるのです。
指示に含まれるさまざまな要素がきちんと反映されています。焦点を当てるべき部分や、一人称視点の画像であること、私たちがいる場所など、テキストが正確に表示されているのは本当に驚きです。一人称視点の画像は実際に難しいものですが、これは今私たちが見ているものとそっくりで、まるで自分で撮ったかのようです。
デモを始めるために、まず私たち全員のセルフィーを撮りましょう。いい表情でお願いします。そして、チャットGPTにこれをアニメフレームに変換してもらいます。この場合、テキストプロンプトの文脈だけでなく、この画像も使って、両方を活用して素晴らしい画像を作り出します。
これが可能なのは、4oを全方位モデルとしてトレーニングしたからです。言語だけでなく、画像、音声、あらゆるモダリティを理解し、生成し、これらをシームレスに連携させることができます。音声モードのような便利な製品を作るために多くの努力を重ね、今回の画像機能でもすべてがシームレスに機能するようになりました。
本当に統合されたマルチモーダルモデルに近づいていることが素晴らしいですね。この場合、ユーザーにより多くのコントロールが与えられます。特定のスタイルや既存の画像、デザインパレットなどを指定でき、チャットGPTはこれらすべての文脈を使って欲しいものを作り出すことができます。より制御可能になるのです。
すでに背景の空や植物が見えていますね。ちなみに、これは今日からチャットGPTとSoraで利用可能になります。すでに開始していると思います。アニメバージョンの自分を作りたい方は、今すぐ試すことができます。Pro、Plusユーザーには既に提供されています。無料ユーザーにも利用可能になります。
私の髭も見えますし、皆さんの表情も、私の手のサインも完璧です。次は何をしましょうか？これをミームにできますか？
「I feel the AGI」というオープンAI内の一般的なミームにしてみましょう。AIがこれについてどう考えるか全く分かりませんが、試してみましょう。
このアニメ画像は本当に素晴らしいですね。この場合、モデルは過去のコンテキストもすべて理解し、言語やミームに関するすべての知識を活用して、新しい表現を作り出しています。このマルチモーダルな性質が、人々にとってさらに有用になります。どんな編集でも要求でき、もし間違っていたら「ここを修正して」と言えばいいのです。
これにより、単なるおもちゃではなく、ツールとしての方向性が見えてきます。それが本当に楽しみです。ところで、一般的なインターネットミームについて、4oはどれくらい知っていると思いますか？
かなり多くのことを知っていると思います。実際、これをオープンAI内の人々に初めて公開したとき、ほとんどの人がミームを作成していました。過去9ヶ月間このモデルに取り組んできて、周りの画像をすべて見る瞑想的な練習をしていました。毎日何百もの画像に囲まれていることに気づきました。
それらの画像は必ずしも最も美的で美しい画像ではありませんでしたが、すべて意図を持って作られていました。ミームのように、説得したり、情報を与えたり、教育したりするために作られた、私たちの日常生活を構成する実用的な画像です。この実用的な画像を作る力を世界中の誰もがチャットGPTで使えるようになることに、とても興奮しています。
この力に関しては、通常よりもはるかに高い創造的表現と自由を提供しています。モデルが不快でないようにしつつも、理由があれば人々が必要なもの、欲しいものを作れるようにしたいと考えています。初日から完璧な線引きができるとは限りませんが、ゲイブが言ったように、創造的自由に大きく傾け、人々がこのモデルから最大限の効果を得られるようにしたいと思います。皆さんがこれで何をするか見るのが楽しみです。
ミームを見てみましょう。素晴らしいですね。ありがとうございました。他の研究者や製品担当者を招いて、さらに多くのことをお見せしたいと思います。
ここで少し考えを述べたいと思います。まず、この画像はアップロードされるとミラー画像になることに注意してください。これが実際の画像になります。
真ん中の人がOKサインをしています。サム・アルトマンはピースサインをしていて、彼らの着ているシャツのタイプと色にも注目してください。背景の植物、窓、光、オレンジ色の仕切りなども見てください。
出力画像を見ると、まず第一に、キャラクターの一貫性が素晴らしいです。全員の民族性や出身地をきちんと捉えています。彼らそのものには見えませんが、彼らのアニメバージョンには見え、誰が誰なのか正確に分かります。シャツの色も完璧です。茶色のボタンダウンシャツ、グレーのスウェットシャツのようなもの、そしてサム・アルトマンは青緑色のようなものを着ています。
正確なシャツのタイプ、色、そして髪型、肌の色、民族性など、すべてをきちんと捉えています。とても素晴らしいです。ラペルマイクは認識していませんが、おそらく対象外なのでしょう。手のジェスチャーも良いですね。指がとても良く見えます。拡大すれば一部におかしな点もあるかもしれませんが、一目見ただけでは素晴らしく見えます。
背景も非常に高い忠実度です。窓やオレンジ色の湾曲した仕切りがあります。前の画像ではカーテンのように見えましたが、背景のすべての要素が正確です。この茶色っぽい葉っぱを見てください。彼らが撮った画像と比較すると、茶色い葉っぱがあります。これはおそらく部屋の中央に置くような仕切りで、カーテンではないようですが、とても印象的です。
全員に単純にフィルターを適用したわけではなく、この画像を単に異なる色調で再現したわけでもありません。人々や植物など、画像全体を再現しつつ、配置や視点が少し異なり、キャラクターも異なりますが、元の画像への忠実さは非常に高いです。これが期待できる品質なら、非常に優れたものになるでしょう。
優れた研究だけでなく、素晴らしい製品体験にするために懸命に取り組みました。同僚の自己紹介をしてもらいましょう。
こんにちは、アランです。オープンAIの研究科学者です。
こんにちは、メンチと申します。チャットGPTのエンジニアです。
こんにちは、ルーと申します。オープンアイの研究科学者です。
モデルがより能力を持つようになるにつれて、世界についての知識も深まっていますが、これまではその表現がテキストやコードに限られていました。今回のリリースで特に興奮するのは、モデルが自分の知識を視覚化し、視覚的に外部化できるようになったことです。
試してみるプロンプトは「相対性理論を説明する漫画のコラージュページを作成し、ユーモアを加えてください」です。モデルが視覚的なユーモアとテキストの面白さをどのように理解しているか興味深いですね。
このプロンプトはとても曖昧なので、モデルがどんな予想外のものを生み出すか興味深いです。これは世界知識を活用し、プロンプトを拡張バージョンに書き換えて、素晴らしい画像を提供するものです。漫画や画像、一般的に伝えたいストーリーのより詳細な感覚がある場合、それも可能です。
このモデルは指示に従うのが非常に上手です。公開したブログ記事には、正確にそれを行う方法の素晴らしい例がたくさんあります。ちなみに、これらの画像は以前の画像生成よりもずっと遅いですが、信じられないほど優れています。待つ価値は十分にあると思います。時間の経過とともに速くすることもできるでしょう。品質と時間の比率は既に素晴らしいと思います。英語だけでなく、違う言語も含まれているようですが、一般的に、このモデルは画像を生成するだけでなく、正確なテキストを適切な方法で組み合わせる能力があるため、想像力のためだけでなく、学習やコミュニケーションのためのツールになることを期待しています。ユーモアも加えられていますね。レイアウトも気に入りました。とても色鮮やかで素敵です。ありがとう、アラン。
アランは、このモデルがプロフェッショナルな教育環境でいかに輝くかを示してくれましたが、私がこのモデルで最も好きなのは、誰にでも使いやすいことです。私のような専門的なアート技術を持っていないが、自分の創造性を表現することを楽しむ人にとって、特別な何かを用意しました。
Soraローンチでもらったこのトレーディングカードからインスピレーションを受けました。同じスタイルで古い画像生成用の新しいカードをデザインできると思いました。朝にこの写真を撮りました。これが実際の写真です。ただ、この巨大な猫王の代わりに、私の犬のサンジーをメインキャラクターにしたいと思います。これが私の犬の写真です。かわいいでしょう？
また、カードに含めたい詳細もいくつか指定しました。モデル名、年、特徴的な能力、そしてサンジーの体重と身長です。モデルがどのようなものを作り出すか見てみましょう。
巨大な猫王がなぜSoraなのかわかりませんが、Soraのトレーディングカードはプロのデザイナーによって設計されたと思います。私たちのモデルでそれを生成できたら素晴らしいですね。
私たちのモデルは非常に正確なテキストレンダリングの面で長い道のりを歩んできたので、この詳細な指示でどれだけうまくいくか見るのが楽しみです。
元のカードを見せてもらえますか？とても素敵ですね。毎回ローンチのたびにこういうものを作るべきですね。これからはモデルで作れますね。
サンジーがスノーボードをしています。実生活では見たことがありませんが、かっこいいですね。テキストもとても鮮明です。全ての情報がきちんと書かれています。素晴らしいです。
この小さな創造的な瞬間を皆さんと共有できて嬉しいです。次はルーに渡して、私たちの製品のさらに革新的な使用方法をお見せします。
はい、今日は皆さんと特別なことを共有できて嬉しいです。アランとモーによる生成物と、デモの背景にある他の2枚の写真を基にして、記念コインを作りたいと思います。
まずアランの写真とモーの写真をコピーし、残りの2枚はここでのデモの背景です。特別なハックスコードも使いたいと思います。このハックスコードは春の色です。4oとこのローンチは両方とも春にローンチされたからです。独自の色にしたいと思います。また、「4 imagen」というテキストと今日の日付をこの記念コインに入れたいと思います。記念の銀貨を作りましょう。
このモデルは非自己回帰的な方法でトレーニングされているため、コンテキスト内のテキストと複数の画像を理解し、調和のとれた方法でシームレスにレンダリングできます。このコインがどのように見えるか想像できますか？
簡単ではないですが、見るのが楽しみです。「4 imagen」と芸術的な熊、放射線、アランの漫画、そしてメンチが作った取引があります。これはとてもクールですね。私もそれが欲しいです。
透明な背景にしたいと思います。このコインを実際に印刷して、物理的に手に入れたいからです。モデルはひとつの用語内のコンテキストだけでなく、複数の用語にまたがるコンテキストも理解していることがわかります。
今日から、よりビジュアルな方法でチャットGPTと会話できるようになります。これは非常に単純な例ですが、透明な背景を作成するだけでなく、例えば「このコインの裏側はどのように見えるか想像してください」と言ったり、アラン、メル、私それぞれに異なるユニークな色を作成したりすることもできます。
背景を透明にするだけでなく、実際のコイン自体の一貫性をどれだけ保てるでしょうか？編集の一貫性を保つのが非常に得意です。今日からチャットGPTを使って画像編集や画像リファインメントを行い、非常にチャットな言語を使用できます。
ここにコインがあり、透明な背景になっています。前の生成との一貫性を保っていますね。素晴らしいです。
これを世界に公開できることに非常に興奮しています。今日からチャットGPTとSoraで利用可能になり、APIにもすぐに追加されます。これはAIモデルが視覚的にできることの大きな前進だと考えており、皆さんが何を作るか楽しみにしています。ありがとうございました。おめでとうございます。
これはかなり刺激的に見えますね。OpenAIが4o画像生成を導入し、先週テストした新しいモデルでも、Googleが同様の画像生成と画像編集機能を提供しているのを見ました。非常に印象的でした。「Photoshopキラー」と呼びましたが、まだPhotoshopを完全に置き換えるには至っていないため、一部の方はあまり気に入らなかったようです。
しかし重要なのは、私たちがこの方向に進んでいるということです。画像を編集するのに、単に話しかけるだけでよくなるのです。そうなれば、大多数の人にとって、画像を編集するために使うものは、学ぶ必要のある専門的なソフトウェアではなく、使っているチャットボットになるでしょう。
例えば、彼女が透明な背景を生成できるようになったのを見ましたね。おそらくPNGなど透明背景をサポートする形式で生成していると思います。この技術が向上すれば、多くの画像編集作業をするためのますます優れたツールになるかもしれません。
どのような例があるか見てみましょう。ここにはシーンを描写するプロンプトがあります。ベイブリッジを見下ろす部屋、大きな目のロゴが入ったTシャツを着た女性が書いていて、ホワイトボードにはこのテキストが書かれています。これは絶対に素晴らしいです。
「ベイブリッジを見下ろす部屋のガラスのホワイトボードをスマホで撮影した写真」というのはちょっと面白い解釈です。外の景色が反射して見えていますが、明らかにスマホで撮影されたものです。Tシャツのオープンアイロゴ、ボードに書いている女性、そのテキストも完璧に捉えています。
このダイアグラムを見ると、完璧に再現されています。一見したところ、素晴らしく見えます。これは8つの中で最高のものだと注記されています。8つ生成してこれが最良だったとのことです。
「カメラマンがハイタッチするために振り向いたところの自撮り視点」正確にその通りです。カメラを持っている状態でハイタッチしている自撮り視点です。テキストもまだ非常に読みやすいです。「te」と「tokens」の部分がここでは隠れていますが、こちらでは見えます。前のものからテキストを再生成しているようです。すべてが素晴らしく見えます。
もちろん、本当に細かいところを挙げれば、この領域がちょっと歪んでいるように見えたり、手がほんの少しおかしく見えたりするかもしれませんが、これにA+をつけないのは難しいと思います。
このプロンプトを見てください。これが標準的な作品だとしたら、絶対に信じられないほど素晴らしいでしょう。20代の二人の魔女が道路標識を読んでいます。「路上清掃の時間、駐車許可証」などについての標識で、いくつかの本物のものと、いくつかのばかげた標識があり、正当な道路標識のように言い換えるよう指示しています。
「魔女専用の箒の駐車、魔法のじゅうたんの積み込み」などキャラクターについて説明しています。「トナカイ駐車は12月24日と25日のみ許可証保持者のみ。違反者はいたずらリストに載せられます」素晴らしいです。
マルチターン生成では、まず猫を作成し、シャーロック・ホームズの帽子と単眼鏡をつけています。あるいはこれは実際の猫をアップロードしたように見えます。次にいくつかのプロンプトを与えています。もちろん、このキャラクターを4Kゲームエンジンで作られたAAAビデオゲームに変換します。ミニマップの説明もしています。
すべてのプロンプトを読むわけではありませんが、非常に具体的な指示を与えていて、このモデルはそれを完璧に再現しています。これも一回限りの生成です。景観と比率を変更し、さらに呪文を追加し、少し引いた視点、第三者視点、スチームパンクマンハッタンのような設定にしています。完璧です。
プレイヤーメニューにはさまざまなクエスト、マップ、キャラクター、インベントリが表示されています。あの猫は同じ猫です。元の猫を見てください。黒い部分が顔を下り、白い胸とあごの色に注目してください。それは本当に素晴らしいです。それがあなたの猫であれば、毎日見ているのであれば、「これは私の猫だ」と言うでしょう。マーキングが非常に正確です。
指示に従うことも見てみましょう。これが出力で、これが与えられた指示です。16個のオブジェクトを含む4×4の列グリッドを持つ画像、これは難しいプロンプトです。青い星、赤い三角形などなど、そしてこれが出力です。筆記体のOpenAI、青いキリン、虹色の稲妻、タイダイ模様の42など。
これは完璧です。これを見て、彼らが何を書いたのか推測できますし、あるいはプロンプトを見て何を生成したのかがわかります。素晴らしく見えます。
空の街です。ワオ、これはニューヨークのタイムズスクエアを昼間に撮影したもので、人も車も照明されたビルボードもありません。ビルボードのスペースはまだありますが、そこには何も表示されていません。ライトも人もいない、これはかなり良いですね。
おっと、ワイングラスですね。何らかの理由でご存知ない方のために説明すると、DALL-Eが特に完全にワインが入ったグラスを作れないという全体的な問題があります。ワインがいっぱい入ったグラスを要求するたびに、常に半分しか入っていません。どのようにプロンプトを書いても、決して満杯のワイングラスを作成しません。
ここでは、少量のワインが入ったグラスを要求していて、これは完璧に再現しています。目に見えない象の存在を示す証拠を求めています。象とは何か、環境の中で何をするかを考慮し、おそらくその過程の途中を示してほしいですが、象自体は全く表示しないでください。
多くのモデルでは、オブジェクトを表示しないように指示すると、奇妙な出力が見られました。例えば「セレンゲティの写真を見せてください、象はいません。象がいないことを確認してください」と言うと、常に木の後ろに隠れてちょっと覗いているような象が見られました。「象のことは考えないでください」と言われると必ず象のことを考えてしまうようなものです。
しかしこれはA+をつけるでしょう。現在存在する目に見えない象です。見える象は全くないようですが、数式のようなものを作れるのも非常に印象的です。平方根の記号を変更していることに注意してください。テキスト表現から記号表現に変換しています。
これは非常に優れています。このように入力するでしょうが、ボードに書くとこのようになります。素晴らしいです。コンテキスト内学習もできます。GPT-4oはユーザーがアップロードした画像を分析・学習し、その詳細をコンテキストにシームレスに統合して画像生成を行うことができます。ここでは、図の配置方法などを示す参照画像がいくつかありますが、円形の車輪の代わりに三角形の車輪を要求しています。これは非常に優れた出力ですね。16回の試行で最高のものですが、これは完璧に要求を満たしています。
次に「これをニューヨーク市で撮影された写真に配置してください」。これは素晴らしい、青いチェーンソーの写真リアルな画像です。そして「そのチェーンソーを使って、おばあちゃんが感謝祭のディナーテーブルで七面鳥を切っている様子を見せてください。『より多くの思い出を刻み出そう』というタグラインを追加してください」。素晴らしいですね。
ここでは、このアート画像をDSLRカメラで撮影した写真に変換しようとしています。完璧です。この建物を写真に変換して、これも素晴らしいですね。装飾的な窓に注目してください。元の画像と非常に一貫性があります。すべての要素を正確に捉えています。
これらが窓なのかドアなのかはっきりしませんが、おそらくドアです。それを2つはドア、2つは窓にしましたが、元の画像からは正確に何なのか判断するのが難しいので、最善を尽くしたと思います。おそらく理由を考えて、3つのドアと2つの窓があるのが理にかなっていると判断したのでしょう。これはAランクです。
また、テキストと画像の間でWorld Knowledgeをリンクする能力も持っています。例えば、このコード、3jsを取り上げて「これが何を意味するかの画像を作成してください」と言うと、「im4」という画像が生成されます。どうやって知っているのでしょうか？
それは、特定のフォントをロードしたり、ライティング、アンビエントライトやディレクショナルライトを使用したり、特定のカメラ位置を使用したり、書き込んでいる物の質感を指定したり、「im4」という単語とその位置、ロゴの位置、テキストの位置を指定しているからです。これは非常にクールです。コードを見て、そのコードに基づいて画像を生成しているのです。
ここでは、「バーで最も人気のあるカクテルの写真リアルな画像を作成し、その横にレシピを書いてください」と依頼しています。これには、最も人気のある4つのカクテルは何か、そのレシピは何か、それらがどのように見えるかを知っている必要があります。これは素晴らしいです。
モデルが苦労する可能性のある限界についても説明されています。画像のクロッピングが問題になる可能性があります。特定の幻覚があるかもしれません。結合問題が発生するかもしれません。例えば、ここでの元素の周期表のように、10〜20以上の異なる概念がある場合、一部が崩れて何が何だかわからなくなることがあります。
正確なグラフ作成、多言語テキストレンダリング、編集精度、小さなテキストを含む高密度の情報なども問題になる可能性があります。これらはモデルの最良の使用例ではない可能性があります。これは一つの限界です。
エリー・ミラーがこれを試していたようですね。彼女が生成できたものの例です。「ニューヨークでの暮らし方：速すぎるほど速く動き、高すぎるほど支払い、人々を押しのけ、絶えず文句を言う」素晴らしいですね。そしてこれはニューヨークでその看板を持っている人物です。本当に素晴らしいです。
ここにはエルビスがワーテルローでナポレオンに会っている様子が描かれています。これもかなり良いですね。写真リアルなバージョンもまだ素晴らしいです。ナポレオンが頭にゴム製のアヒルをかぶり、エルビスのズボンには理想気体の法則が印刷されています。
この絵のスタイルを捉えた点が本当に気に入りました。これはイーサン・マイクからのものです。実際にこれをテストしている実際の人々は非常に感銘を受けているようです。テキストの精度は素晴らしく、非常に印象的です。
私たちもまもなくテストを行い、何が得意で何が苦手かを詳しく調べる予定です。すぐに公開されるでしょう。これについてどう思いますか？通常のチャットGPTインターフェースでこのようなものが使えるようになることに興奮していますか？もう試してみましたか？コメントで教えてください。
ここまで見ていただき、ありがとうございます。私の名前はウェス・ロスです。また次回お会いしましょう。