OpenAIによって新たに発表された画像生成モデル「ChatGPT Images 2.0」の機能と魅力について解説する動画である。従来の画像生成モデルから大幅に進化し、高解像度の画像や複雑なテキストを含むデザイン、複数の言語に対応したポスターや漫画などを、正確かつ極めて自然なクオリティで生成できるようになった。さらに「考える」機能を搭載し、ウェブ検索を組み合わせた複雑なタスクや複数枚の一貫性ある画像生成など、より高度で実用的な視覚的知能を備えていることが実際のデモンストレーションを通じて紹介されている。

Images 2.0のルネサンス的進化
今日、私たちはImages 2.0を発表します。DALL-Eを洞窟壁画、Images 1を古代美術に例えるなら、Images 2.0はルネサンスと言えるでしょう。Images 2.0は、これまで構築された中で最も賢い画像生成モデルであり、正確なテキストと構造化されたデザインを備えた、複雑で洗練された本番環境レベルのビジュアルを生成する機能を備えています。
このモデルは単に画像を生成するだけでなく、考えているのです。
その通りです。Images 2.0は考え、調査します。そして、最も正確な情報を利用して画像を生成するために、ウェブを検索することすらできます。その情報を元に、複雑なシステムを説明するインフォグラフィックや、証明付きで数学の問題を解く画像を生成することができるのです。
また、新しい多言語機能により、世界中の人に向けて複数の言語を用いたビジュアルを作成することができます。
そして今回、画像生成において初めて、複数の異なる画像を一度に作成できるようになりました。これにより、構造化されたタイポグラフィと写真のようにリアルな写真を含む雑誌一冊丸ごとや、家中のすべての部屋の完全なリノベーション計画、または同じキャラクターが繰り返し登場し、ストーリーが展開していく漫画を生成することができます。
さらに、驚くほど細微なディテールを持つ2K解像度の画像を、複数のアスペクト比で生成できるようになりました。私たちはもはや、ただ驚嘆するためだけに画像を生成しているのではありません。Images 2.0を使えば、発見しナビゲートするため、発明し構築するため、夢を見て世界を探求し、アイデアに命を吹き込むために画像を生成するのです。
1年余り前、私たちはChatGPTで画像生成機能を立ち上げました。皆さんにとても愛され、それが解き放つ創造力を目の当たりにするのは素晴らしいことでした。しかし今日、私たちはImages 2.0でそれをはるかに超えていきます。Images 2.0は大きな前進です。これはまるで、GPT-3から一気にGPT-5へ飛躍するようなものです。驚くべき新しい画像を作成し、創造性を表現し、本当に美しくて複雑なものを作り出す能力は、極めて注目すべきものです。
言葉で説明するよりも、実際にお見せする方が簡単ですね。さっそく始めましょう。チームは今回、本当に素晴らしいものを作り上げました。皆さんがこれをどう活用するのか、見るのが待ちきれません。この機能は現在、ChatGPTとAPIですぐに利用できます。では、詳細についてGabeから説明してもらいましょう。
Images 2.0がもたらす完璧なデザインと一貫性
皆さん、こんにちは。Gabeです。ChatGPT Imagesの研究チームに所属しています。
こんにちは、Kwanです。
Kenjiです。
Alexです。私たちは画像生成チームの研究者です。
私はこのモデルにとても興奮しています。このモデルは、確かな品質の画像を生成していると思います。説明するのはとても難しいのですが、一つの言い方をするなら、とても普通に見えるということです。
本当にごく普通の画像に見えるんです。私がこれらの画像を見ていて経験したことの一つは、この新しい画像を十分に見慣れた後で、以前の画像に戻って見てみると、前は気づきもしなかった以前のモデルのあらゆる間違いが見えてくるということです。当時はすごく良く見えたのですが、今回の画像ははるかに良く見えますね。
とにかく、プロンプトを実行してみましょう。ここに、昨日私たちが撮った4人の写真があります。そして、この画像から雑誌の表紙を作ってみようと思います。このモデルの特徴の一つは、非常に幅広く、そして奥深いということです。
ですから、皆さんがこのモデルのあらゆる隅々まで発見するには、少し時間がかかるだろうと思います。ですが、私たちがこのモデルについて気づいたことの一つは、デザインが本当に得意だということです。画像内のどこにテキストを配置するかについて、非常に慎重に考えているようです。あ、これはライブ配信ですよね。大丈夫です。
ええ、もしかしたらもう一度やり直す必要があるかもしれません。大丈夫かな。
いや、問題ないと思います。
あ、はい。素晴らしい。大丈夫そうですね。すべて順調です。はい。
では、見てみましょう。テキストを配置する場所を本当に慎重に考えていて、デザインもとても美しく見えます。かつては、タイポなしで単語一つ生成するのすらやっとだった時代がありましたよね。今では、タイポは非常にまれです。実際、たった一つのタイポを見つけるのすらとても難しいくらいです。
そうですね、それが新しいモデルについて私を驚かせたことの一つです。一貫性があり、タイポがなく、複雑なテキストと大量のディテールが一つの画像に収まっているなんて、以前は決して可能だとは思いませんでしたから。
間違いを見つけるのは珍しいですね。
はい、非常に珍しいです。間違いを犯すことなく、段落全体やページ全体のテキストを生成したり、雑誌の完全なレイアウトを作成したりすることができます。
ええ、雑誌の完全なレイアウトですね。
小さなテキストもすべて非常によくできているようですし、デザインも本当に素晴らしいと思います。
君たち、すごくクールなボーイズバンドみたいに見えるよ。
思考モードの導入
そうですね。さて、私たちはこのモデルの2つのバージョンをリリースする予定です。今ここで見ているようなインスタントバージョンと、思考するバージョンがあります。思考するバージョンは、思考モードを使って切り替えることができ、有料ユーザー向けに提供される予定です。
これが何をするかというと、実際に画像を生成する前に少し熟考するのです。その結果、非常に良いプロンプトを作成し、ウェブを検索することもできます。多くのことが可能なのです。では、このプロンプトを試してみましょう。昨年、私たちは自撮り写真をはるかに強力なものに変える、このプロンプトのバージョンを行いました。今回は、たった一つのプロンプトから漫画全体を生成することができるんです。
一つのプロンプトから3ページの漫画を生成できるというわけです。この生成を開始して、その後Kenjiに少し詳しく話してもらおうと思います。
つまり、思考モードを選択したのですね。今のところ、これは有料ユーザー向けにのみ提供しています。そして、はるかに複雑な画像を生成できるというわけです。
その通りです。はい。
ですから、このモードを使うには思考モードを選択する必要があります。そして、一度に複数の画像を生成できるだけでなく、Kenjiがこれから話すような、他にもたくさんの非常に興味深いことができます。では、ここで別のプロンプトを実行してみます。ネタバレはしませんが、ダクトテープという言葉に関係するものです。はい。では、行きましょう。
インスタントモードが変える日常体験
では、インスタントモードについて話してもらうためにKwanにバトンタッチします。
わかりました。ありがとう、Gabe。インスタントモードは、今日から誰でも利用できるバージョンで、以前のモデルと比べてはるかに優れた視覚的知能を持っていると考えています。特に強調したいのは、これが私たちの日常生活に実際に役立つ、初めての画像モデルだということです。
一つの例として、今ノートパソコンに戻って、この発表の後に予定している夏休みのための新しい服を買う手助けを、このモデルに頼んでみます。このプロンプトでは、私のポートレート画像を渡し、8種類の素敵な夏のコーディネートを提案してくれるように頼んでいます。このタスクにおいて、モデルは2つの異なる種類の視覚的知能を必要とします。
一つは視覚的理解です。実際に私の画像を見て、私がどのように見えるかを理解し、私に似合う素敵なコーディネートのプランを考え出します。もう一つの軸は視覚的生成です。計画されたレイアウトを、一貫性のある整理された画像へと実際に変換します。私たちは、この視覚的理解と視覚的生成の両方において、大きな進歩を遂げたと考えています。
これら両方の側面においてです。その結果、この種のタスクを非常にうまく処理できるようになりました。そして、今ここに出力結果があり、私に向けた8種類の本当にかっこいいコーディネートを見ることができます。
Kwan、どれが一番気に入りましたか?
私は最初のルックが好きですね。ミニマルなものが好きなので。なんだか、今私が着ている服にかなり似ている気がします。
色が反転しているかもしれないですね。
ええと、ではフォローアップしてみます。
いいですね。
はい、最初のルックがいいと思います。
最初のルックが好きです。
うん。ズームインして、同じスタイルのファッション撮影をしてくれませんか。私をメインにしたカット、いくつかの別アングル、詳細な服のカットを含めて。さて、これがプロンプトです。このプロンプトでモデルにフォローアップしてみます。基本的には、これにズームインして、実際に私がこのコーディネートを着たときにどう見えるかを見せてほしい、と頼んでいるだけです。
さて、それを待っている間、最初の画像をもう少し振り返ってみましょう。ノートパソコンに戻ります。この画像について本当に素晴らしいと思うことの一つは、これらの服のパーツすべてに、対応するテキストでラベルが付けられていることです。スニーカーや体にフィットしたTシャツなど、すべてが示されていますよね。
そして、これらすべてが本当に自然に見えます。つまり、私たちのモデルは、視覚的な図形を多くのテキストと一緒に組み合わせる能力がはるかに高くなっていることを示しており、これは本質的に、大幅に向上した視覚的知能によるものです。あ、はい。今、私の詳細なビューが表示されました。このコーディネートを着た私を、さまざまな角度から見ることができます。
本当にお店に行って、実際に試着しているような体験ですよね。
このデモを通じて強調したいのは、この新しいモデルが、単にプロンプトを与えれば画像が返ってくるというような、単なるAI画像ジェネレーターではなくなったということです。どちらかというと、対話的に話しかけるAIのようなものであり、このように非常に分かりやすい画像を使って応答してくれるのです。
より深い知能:ウェブ検索と一貫性の維持
それでは、思考モードと呼ばれる、私たちのモデルのより深い知能について話してもらうためにKenjiにバトンタッチします。
ありがとう、Kwan。私たちがこのモデルに導入した主要な機能の一つは、最終的な出力を生成する前に、画像生成が思考する能力です。これは、ウェブ検索を必要とするものや、互いに一貫性を保ちながら複数の画像を出力する必要があるもの、さらには「これが最終出力です」と言う前に自分の作業をチェックする必要があるものなど、非常に複雑なプロンプトに対して特に役立ちます。
まずはこれのいくつかの例を見てみましょう。実はGabeがライブ配信の冒頭で、これらの例をいくつか実行していました。では、スマートフォンの画面を見てみましょう。彼とSamの写真です。彼らの自撮り写真から、漫画を作成しました。最初の画像を見てみると、確かにGabeとSamのように見えますよね?
ええ、そうです。
でも、私がさらに素晴らしいと思うのは、続く画像を見ても、彼らが依然としてGabeとSamに見えるということですし、最初のページで維持されていた本来のスタイルを保ち続けているところです。
さらに素晴らしいのは、1ページ目、2ページ目、3ページ目の間で、ストーリーが非常に一貫しているはずだということです。
さて、ありがとう。これのもう一つの実例を見るために、Gabeが実行した別の例を見てみましょう。少し背景を説明しますと、数週間前、私たちはChatbot Arenaで、ダクトテープというコードネームでこのモデルのインスタントバージョンのベータテストを行いました。インターネット上の何人かの皆さんは本当に優秀な探偵のようで、それが私たちだと推測していました。
ですが、それが私たちだったと発表します。そしてこのプロンプトでは、基本的にChatGPT Imagesにも、このダクトテープモデルに対するソーシャルメディアの反応を探しに行き、人々の言葉を引用するように頼みました。その結果、Threads、LinkedIn、Redditなどからの引用が見られます。しかし、さらにクレイジーな部分は、ChatGPTへのQRコードを配置するようモデルに頼んだことです。
皆さんが今すぐご自身でこのモデルを試せるようにですね。これが機能するかどうか、確認してみましょうか?
ええ、試してみましたよ。
おお、いいですね、いいですね。つまり、思考を伴う画像生成によって、非常に複雑なことができるようになります。このケースでは、ウェブ検索、回答の合成、そしてQRコードの配置を、すべて一つの画像内で行うことができるのです。
写真のような自然さと圧倒的な柔軟性
しかし、まだ他にもあります。Alexからこれらの新しい詳細についてお話しします。
さて、自然さの面でも多くの改善を行いました。いくつかプロンプトを実行してみます。先ほどGabeが言ったように、私たちの出力は今や自然な画像のように見えます。これをトリガーするには、フォトリアリスティックといった言葉を追加したり、あるいはプロの写真やiPhoneで撮影、使い捨てカメラといった他のバリエーションを使ったりすることができます。
この最初の例では、OpenAIが設立された2015年に戻ったふりをしています。でも、なぜかImages 2.0もそこにあるという設定です。ご覧の通り、モデルは講義室のわずかな不完全さ、粒状感、そして照明を実際に再現できています。スライド上のすべてのテキストや、モデルが考え出した講義計画でさえも非常に一貫しています。そして、このような写真のようなリアリズムに加えて、モデルがはるかに柔軟になったことにもとても興奮しています。特に、非常に幅の広い画像や、非常に背の高い画像を作成できるんです。
最大で1対3や3対1の画像を作れます。では、これを見てみましょう。これは私たちのチームのお気に入りのスタイルのプロンプトの一つで、非常に背の高い画像を作成する能力を本当によく示しています。私の首がすごく長くなっていますよね。これはかなりクールだと思うのですが、まあ、プロフィール写真として使ったり共有したりするのは少し難しいかもしれません。ですから、これを1対1にするオプションを使うこともできます。時間の都合上、これはお見せしませんが。そして、アスペクト比と自然さの両方を組み合わせた別の例も見つけました。
月面着陸の360度画像を作成するようにモデルに頼んだものがあります。これは360度の写真パノラマのように見えると思いますが、私が以前にコーディングしたこのパノラマビューアで見てみましょう。
わあ。
ご覧の通り、実際には非常に一貫性のある360度画像になっています。
太陽と影も、正しい方向にあることがわかりますね。
おお、それはすごくクールですね。信じられないくらいです。この部分はバイブコーディングしたと言っていましたね?
ええ、Codexを使って本当にさっと作っただけです。
素晴らしい。
まあ、いくつかの継ぎ目はありますが、探さないとわからないくらいです。これは信じられないほど素晴らしいですね。画像が美しいのはもちろんですが、これらの画像の背後にある知能、そして世の中にある他の画像生成サービスと比べてどれほどの違いがあるのか、本当に驚くべきものです。
世界中をつなぐ多言語テキストレンダリング
ここでの進歩について、心からお祝い申し上げます。さて、次はNitantとBuanに加わってもらい、もう少し詳しく見ていきましょう。
その準備をしている間に、Gabe、あなたがどのスタイルを一番楽しんでいるか、あるいは一番驚いたのはどんなものか気になります。
そうですね、本当に気に入っているキーワードはいくつかありますが、Alexが言ったように、フォトリアリスティックという言葉がモデルの中で非常に興味深いものを引き出してくれると思います。
ぜひ試してみてください。
はい。
さて、ようこそ。
こんにちは。Sam、Gabe、ありがとうございます。Buanです。画像研究チームのもう一人のメンバーです。
そして私はNitantです。ChatGPT Imagesチームのエンジニアです。これから、私たちの新しいモデルの向上したテキストレンダリング機能をご紹介します。
OpenAIはサンフランシスコを拠点とする会社です。私たちは英語を話し、職場で英語を使用しています。しかし、私たちは世界中の皆さんに、画像を生成する時に私たちが感じているのと同じ興奮を味わってほしいと考えています。そのため、Images 2.0では、世界中のあらゆる言語、あらゆる文化において、モデルがすべてのテキストを完璧に生成できるように多くの改善を行いました。
見てみましょう。最初の例では、世界中のさまざまな言語についてのタイポグラフィアートのポスターを生成したいと思います。本当にたくさんの言語が登場します。どのように見えるか確認してみましょう。生成している間に、別のデモを開始します。仮に、私がOpenAIベーカリーをオープンしたいとしましょう。架空のパン屋です。
それを日本でオープンしたいとします。そして、純粋な日本語でポスターを作りたいんです。
新しいモデルが一番得意になったと気づいたのは、どの言語ですか?
そうですね、主にアジアの言語だと思います。ヒンディー語、中国語、韓国語、そして日本語などですね。というのも、これらの言語は英語の26文字とは異なり、伝統的に数千の文字を持っているからです。
ですから、以前は私たちのモデルがこれらの文字を記憶するのに苦労していましたが、今ではプロンプトを入力するだけで、これらの言語のページ全体にわたるテキストをエラーなしで生成できます。
わあ。
どうなるか見てみましょう。あ、これが最初の例です。タイポグラフィアートです。実際の雑誌の写真のような形式になるよう、意図的にプロンプトを出しました。
そのため、リアルに見えるだけでなく、正しい文字を確認することもできます。ここに中国語のニーハオがあります。フランス語のこんにちは、ボンジュールもあります。世界中の皆さんが実際に私たちのモデルを楽しんでくれることを願っています。自分の言語を使って、自分自身のアートを作成できるのです。では、2つ目の例を見てみましょう。パン屋のオープンです。おお、見てください。私たちのロゴをこのパンの中に組み込んでくれましたね。これは日本語のポスターです。
すべての漢字、すべてのひらがなを見ることができます。ズームインして詳細を見ることもできますよ。見てください。ここにあるひらがなをすべて見てください。ですから、世界中の皆さんがこのモデルを使って、自分自身のポスターを作り、自分のお店を開き、あらゆることに使ってくれることを本当に願っています。そして、私たちの画像生成モデルでどこまでできるかを皆さんにお見せするためだけに、実験的な4K APIを使って生成した画像がこれです。
極小の文字からブランドロゴまで
これはただの米の山ですが、ただの米の山というわけではありません。もし、この中にChatGPT Imagesというテキストが書かれた一粒の米があると言ったらどうでしょう? 見つけられますか? ここです。
ええ、中央にありますね。
見えません。何かあるのはわかりますが。
皆さんのために簡単にしておきましたよ。
すごいですね。
見てください。ズームインしてみましょう。
こんなに大きな山全体の中にある、たった一粒の米の上にChatGPT Images 2.0とあります。
これが、私たちの最新モデルで到達できるレベルなのです。
素晴らしいですね。
次は、交代して進めましょう。
はい。さて、Images 2.0は今すぐすべてのユーザーにお試しいただけます。もしアプリからChatGPTにアクセスしている場合は、必ず最新バージョンにアップデートしてください。
すると、このようなウェルカム画面が表示されるはずです。これが出れば準備完了です。では、日常的なシンプルなプロンプトから始めてみます。ヒンディー語でレシピを作成するように頼んでみます。Buanが言ったように、新しいモデルは、ヒンディー語、テルグ語、カンナダ語、タミル語、マラーティー語など、私が試した多くのインドの言語を含む、数多くの言語のテキストを理解しレンダリングする能力が著しく向上しています。その違いは、テキストが密集している場合に特に顕著です。
どんな結果が返ってくるか見てみましょう。どのインド料理を選ぶのかも楽しみですね。おお、出ました。アルーパラタを選んだようです。これは定番ですね。
いいですね。
おお。そして、テキストも本当に良さそうです。パッと見たところ、エラーは見当たりません。次は、アプリに追加された新しいプリセットスタイルをいくつかチェックしてみましょう。
ここで画像を作成を選択するだけです。すると、楽しいものがたくさん表示されますし、新しいモデルの機能を本当に活かしたものもあります。実は、OpenAIベーカリーのロゴを作ってみるのはどうでしょうか? Buan。
もちろんです。私のパン屋のポスターを写真に撮って、どうアレンジされるか見てみてはどうですか?
やってみましょう。さて、これは16から20個くらいのロゴのアイデアを返してくれそうですね。
モデルの能力を考えれば、これは実はかなりシンプルなプロンプトなんです。非常に詳細な指示に従うのが本当に得意ですからね。ですから、クリエイティブな作業において本当に重要な、特定のブランド言語やデザイン、美学などがある場合は、これを使ってアイデアを反復し、洗練させて、まさに求めているものを引き出すことができるのです。
そして、ここにカラフルなロゴのアイデアが揃いました。わあ。こんな感じです。
いいですね。
皆さんはどれが一番好きですか?
どれもいいですね。これはどうですか?
おお、いいですね。これは私たちのロゴとパンを組み合わせています。
気に入りました。これを見ているとお腹が空いてきますね。
これは本当に素晴らしいですね。人々がこれをどう使うか、待ちきれません。
創造力の解放へ
画像の美しさはすぐに伝わるでしょう。その知能は非常に奥深く、皆さんがこれを探索して楽しんでくれることを願っています。お伝えしたように、これは今日からChatGPTとAPIで稼働しています。チームがここで作り上げたものをとても誇りに思っています。私たちがこれを作り上げるのを楽しんだのと同じように、皆さんにも使って楽しんでいただければ幸いです。
本当にありがとうございました。


コメント