
10,394 文字
まずOpenAIの革命的な成果をご覧ください。私のお気に入りのサムネイル写真がアニメ風に、大げさなサウスパーク風に、シンプソンズ風に、もちろんジブリ風にも変換されています。マインクラフトの描画スタイル、高解像度マインクラフト風、そしてレゴ風まであります。
Chaiが生成できる画像をいくつか見てみましょう。3Dボクセル風のローファイビートの画像や、赤いドレスの女性を見つめる男性の有名なミームもボクセル風に再現されています。そしてAIによるジブリ風アートが今やどこにでも見られます。MCPはAI界隈で無視されていて、今はジブリミームが全盛期です。
あらゆるスタイルで再現された面白いミームがあります。JDヴァンスのものや、これが私のお気に入りかもしれませんが、ボクセル風、水彩風のものもあります。サム・アルトマンがジャンゴ・アンチェインドの悪役として描かれたものや、赤いドレスの女性を見つめる男性のミームのさらなるバリエーションもあります。操り人形風、ゴム管アニメーション風、そしておそらくピクサー風のものも。これらは素晴らしく見えます。
ジョン・ナックの写真をレゴに変換したものもあります。やはり素晴らしい出来栄えです。
ChatGPTのネイティブ画像生成は既存の画像を異なるスタイルで再現するだけでなく、新しいものを非常に上手く作成することもできます。「ニューラルネットワークの内部がどのように見えるかについての面白いインフォグラフィックを作成してください」と頼んだところ、入力が入ってきて、重み、おそらく活性化関数、そして出力という図が作成されました。
また、この有名な写真をカラー化しましたが、完璧ではないものの非常にクールです。さらに、これはバイブコーディングに関するウィキペディアのページのように見えますが、実際にはChatGPTに作ってもらった画像です。Levels IOのフライングシミュレータからのスクリーンショットを実際の風景に変換してもらったり、製品デザインも可能です。これらは本当にクールに見えます。
可能性は本当に無限大です。突然、画像から要素を削除したり、要素を追加したり、画像を透明にしたりするためにPhotoshopの専門家である必要がなくなりました。基本的に思いつくことは何でもできるようになりました。
彼らはこれを昨日リリースし、その機能を紹介するすばらしいライブストリームを行いました。それを再生しながら、私の考えをお伝えします。
「おはようございます。今日は私たちが今までに発表した中で最も楽しくてクールなものの一つをご紹介します。皆さんは長い間これを待っていました。お待たせしましたが、本当に価値のあるものだと思いますし、皆さんにも気に入ってもらえると思います。ChatGPTにネイティブ画像機能を導入します。
画像生成はしばらく前からありました。実際、私たちが最初に知られるようになったのは、オリジナルのDALL-Eでした。しかし、画像生成は主に目新しいものでした。クールなアートを作ることはできましたし、人々は素晴らしいことをしてきましたが、幅広い用途で本当に役立つ力はありませんでした。
今日発表するのは、4oモデルでのネイティブ画像生成であり、これは大きな進歩です…」
ちょっと待ってください。なぜ彼らはネーミングがこんなに下手なのでしょうか?これはもうミームになっていますが、なぜ「4oモデルにネイティブ画像生成を追加する」のでしょう?なぜ単にインターフェース全体にネイティブ画像生成を追加して、「画像を作成して」と言えば作成されるようにしないのでしょうか?なぜ特に4oでなければならず、4.5や01に移動すると使えなくなるのでしょうか?これは全く意味がありません。ネーミングが非常に悪いです。改善してほしいです。
「これは私たちが長い間世界に提供することを楽しみにしてきたものです。このような画像生成を提供できれば、クリエイティブな人々、教育者、小規模ビジネスオーナー、学生がより多くAIを使用して、以前にはできなかった様々な新しいことができるようになると思います。最も良いのは、実際にお見せすることです。このプロダクトの主任研究者であり、主要な推進者であるゲイブを紹介します。」
覚えておいてください、画像生成は新しいものではありません。DALL-E、Midjourney、Leonardo、Idoggram、Stable Diffusion、そして私が思いつかない他の多くの企業が行っています。そのため、人々が使用するためには本当に魅力的なものを提供する必要があります。
「さっそくデモを始めます。デモから始める理由は、これを話者のノートとしても使用しているからです。便利なんです。2年前、このプロジェクトを始めたとき、GPT-4のような強力なモデルにおけるネイティブの画像生成サポートがどのように見えるかという科学的な疑問に興味がありました。その質問の答えはわかりませんでしたが、1年後、モデルのトレーニングが完了したとき、本当にエキサイティングな兆候が見えました。」
これは重要な違いです。これはLLM(言語モデル)におけるネイティブ画像生成です。理解するのは少し難しいですが、拡散モデルであるはずです。実際にはよくわかりませんが、そうだと思います。これはGPT-4oテキストベースモデルと画像モデルを組み合わせたようなものです。興味深いですね。私が知る限り、他のほぼすべての画像生成モデルは拡散モデルであり、テキストも同時に処理することはありません。多くのモデルが今では画像を理解できますが、必ずしもネイティブに画像を出力できるわけではありません。
「モデルがテキストの段落をレンダリングできることがわかりました。私たちは画像を非常に興味深く斬新な方法で組み合わせることができました。このモデルで遊ぶ時間をたくさん費やし、長い間感じていなかった喜びと興奮を感じました。おそらくGPT-2以来かもしれません。」
私もそうでした。これは本当に「ワオ」と思える瞬間の一つでした。しかし、そのモデルはまだ少し粗削りでした。
すぐにわかるでしょうが、これは遅いです。彼らもそのことについて話す予定です。とても遅く、私のテストでは一つの画像に数分かかります。これにより、この種の画像生成の実用的なユースケースの数が大幅に減少します。ただし、信じられないほど正確で高品質であることがわかります。例をたくさんお見せします。私自身の例、彼らの例を見てください。少しお付き合いください。ライブストリームを見て、そして更に例をお見せします。
「時々タイポがあったり、少し信頼性に欠けたりしましたが、この1年間、平均的な人がよりアクセスしやすく、より使いやすくなるようにこのモデルを改良してきました。画像が生成されているのがご覧いただけます。」
速度に関して言えば、GPT-4oは特に最近、ほぼ使用できないほど遅くなっていることに気づきました。おそらく過去1〜2週間の間に。おそらくこれが理由かもしれません。ネイティブ画像生成を追加したこのデプロイによって、完全に遅くなったのかもしれません。最近のGPT-4oの遅さに気づいていますか?コメントで教えてください。
「すべてのテキストを取得したようですね。タイポは見当たりません。」
これを見てください。絶対に素晴らしいです。背景にぼかしがあり、カメラから離れるほどぼかしが増しています。目に見えないカメラからでもです。右側の照明も完璧で、テーブルに完璧な輝きが当たっています。ここのすべてのテキストは正確で、鮮明で、ミスはありません。非常に印象的です。
「自分たちの自撮り写真をアニメフレームに変換してみましょう。いい表情をしてください。ChatGPTに頼んでアニメフレームに変換してもらいます。」
この場合、私のビデオのサムネイルのインスピレーションがどこから来たのかがわかりますね。この場合、テキストプロンプトの文脈だけでなく、この画像も取得しており、これら両方を使用して本当に素敵な画像を作成できます。これが可能なのは、私たちがオムニモデルとしてトレーニングしたからです。言語だけでなく、画像、音声、あらゆるモダリティの入出力を理解し、生成でき、これらをシームレスに連携させることができます。
これは彼が述べた非常に重要な事実でした。GPT-4oはオムニモデルです。画像、テキスト、音声の入力を理解し、画像、テキスト、音声の出力を理解します。すべてを理解します。最近の音声リリースについて話したことを思い出してください。音声には2つのバージョンがあります。文字通り音声が入力され、それが何であるかを正確に理解し、音声を出力する「音声から音声へ」と、もう一つは少し古いアプローチで、音声を取得してテキストに書き起こし、テキストに対して何らかの操作を行い、テキストでプロンプトを送信してテキストで応答を取得し、それを音声に変換して出力するものです。このバージョンは明らかにより安定していて信頼性が高いですが、明らかに音声から音声へのアプローチが将来の方向性です。
ここで見ているのと同じ理由です。画像を取り込んで画像を理解できると、多くのニュアンスがあります。それを画像の説明などに変換するよりも良いです。テキストに変換すると、理解の損失があります。誰かの声のトーンや強調、感情の理解が失われます。画像も同様です。だからこそ、これらのオムニモデルは本当に強力なのです。
「私たちは、まず高度な音声モードのような有用な製品を作るために多くの努力を費やしてきました。そこでは音声がシームレスに機能し、そして今や画像もボード全体でシームレスに機能します。私たちが最終的にすべてを行う本当に統合されたマルチモーダルモデルに向かっているのは本当にクールです。」
「この場合、ユーザーにより多くのコントロールを与えます。特定のスタイルが欲しいかもしれないし、特定の以前の画像や、例えばデザインパレットなどを使用したいかもしれません。ユーザーはこれらすべてのコンテキストをChatGPTに提供でき、ChatGPTはこれらすべてを使用して、ユーザーが望むものを生成できます。より制御可能になります。」
「私たちの後ろに空が見えますね、植物も。これは今日ChatGPTとSoraでライブになります。ロールアウトはすでに始まっていると思います。もしあなた自身のアニメバージョンを作りたいなら、今できますよ。Proユーザーにはすでに提供されています。Plusユーザーにもすぐに提供されるでしょう。無料ユーザーにも提供される予定です。」
さて、彼らは時間を埋めています。これらの画像の生成には本当に長い時間がかかるからです。おそらくこの1枚の画像を生成するのに2分かかっていて、さらに長くなる可能性もあります。
「私の小さなあごひげが見えますね、あなたの表情、そして私の手、あなたの手も完璧です。次にこれで何をしましょうか?」
正直に言うと、サムの手のサインは正確ではありません。彼は実際に手の裏側を上げているのに対し、手の前面を上げています。ここでそれが切り替わっているのがわかります。小さなミスですね。
「ミームにしてみましょうか?話者ノートにあるので…AGIを感じてください。AIがこれについて何を考えるか全く分かりませんが、試してみましょう。私はAGIを感じています。」
少し早送りして結果を見てみましょう。「Feel the AGI」と非常にミーム風のフォントでテキストが表示されています。
次に、他のクールなことについて話すために次のチームが紹介されます。
「こんにちは、私はエラです。OpenAIのリサーチサイエンティストです。私はマノです。OpenAIのエンジニアです。私はルーです。OpenAIのリサーチサイエンティストです。私たちのモデルがより有能になるにつれて、世界についての知識も深まっています。しかし、これまでは本当にテキストやコードでしか自分自身を表現できませんでした。このリリースで本当にエキサイティングなのは、これらのモデルが実際に知っていることを視覚化し、視覚的な方法で外部に表現できるようになったことです。」
これは考えるととても面白いですね。繰り返しますが、オムニモデルのアプローチにより、これらのモデルは、彼らが「自分自身を表現する」と呼ぶ、とても人間的な表現方法で、望むあらゆるモダリティで表現できます。それがオムニモデルの非常にエキサイティングな点です。
「試してみるプロンプトは、『相対性理論を説明する漫画のページを作成してください。そして面白さも加えてください』です。モデルが視覚的なユーモアとただの面白いテキストをどの程度理解していると思いますか?」
「このプロンプトはとても漠然としているので、モデルがどんな種類のワイルドカード的なものを思いつくか見るのは面白いと思います。これは本当に世界知識を活用して、おそらくプロンプトの拡張バージョンを書き、そして素敵な画像を提供するだけです。ただ、もし…」
彼は今、別のことも言いました。「プロンプトの拡張バージョンを書く」と。DALL-Eと同様に、元の非常に広いプロンプトを取り、より詳細を加え、より多くの説明を加えています。自分で書かなくても、プロンプトにより多くの詳細を取り入れるための本当に良いテクニックです。
そして、進行がどれほど遅いか見てください。本当にゆっくりです。
「これらの画像は以前の画像生成よりもはるかに遅いですが、信じられないほど優れています。待つ価値は十分にあると思います。時間の経過とともに、より速くすることもできるでしょう。品質と時間の比率は既に素晴らしいと思います。」
「英語だけでなく別の言語も提供されているようですね。一般的に、このモデルが画像を生成できるだけでなく…」
見てみましょう。これは非常に印象的です。アインシュタインがいて、相対性理論があり、すべてのテキストが完璧に見えます。ジョークを見てみましょう。「速く動いていますね?長さが収縮しますよ。E=MC²、相対的に面白くないですか?」
AIは相変わらず完全には面白くありませんが、試みたことは理解できます。それでもジョークではありますが、全体的に画像は本当に素晴らしいです。
次に、彼らは自分のペットからマジック・ザ・ギャザリングスタイルのカードを作成し、自分で能力を追加することができます。見てみましょう。
「Soraローンチで手に入れたカードがあります。同じスタイルで新しいものをデザインできれば本当にクールだと思いました。朝それの写真を撮りました。」
これは生成された画像ではなく、Soraローンチで配布された実際のカードのようです。そして別に自分のペット、自分の犬の写真をアップロードして、それを使用するようです。
「ここに巨大な猫の王がいる代わりに、私の犬のサンジをメインキャラクターにしたいです。これが私の犬の写真です。かわいいでしょう?カードに載せたい詳細もいくつか含めました。モデルの名前、年、強調したい能力、そしてサンジの体重と身長です。モデルが何を生み出すか見てみましょう。」
「巨大な猫の王がSoraなのはなぜかわかりませんが、Soraのトレーディングカードはプロのデザイナーによってデザインされたようです。私たちのモデルを使ってそれを生成できたら素晴らしいですね。」
「私たちのモデルは非常に正確なテキストレンダリングの面で長い道のりを歩んできました。この詳細な指示でどれだけうまくいくか見るのはとても楽しみです。」
「元のカードを見せてもらえますか?」
彼らはまた時間を埋めています。とても遅いからです。早送りしましょう。
そしてカードができました。元のカードを見ると、上部のテキストはあまり良く見えません。正直なところ、画像の上にテキストがレンダリングされたように見えますが、他のすべては素晴らしく見えます。他のすべてのテキストは実際のカードに書かれているように見え、「生成AIイメージモデル」というすべての属性が下にあり、テキストは良く見え、スカーフを着けた彼の犬の写真も素晴らしく見えます。
次に彼女は今日のローンチを記念するコインを作成します。今日のローンチから参照画像を含めています。カード、漫画などがあります。
ここに実際のコインがあります。本当に良く見えます。適切な場所が浮き上がって見えます。このボタンは本当に浮き上がって見えますが、すべてのテキストは正確です。背景に小さなスピーカーが見え、アインシュタイン、E=MC²などのテキストもあります。
彼女はコインをひっくり返して、コインの裏側がどうなっているかを想像するよう頼むこともできると言っています。
ライブストリームはこのくらいにして、いくつかの例をお見せしましょう。
「鴨に乗った鶏が犬に乗って、犬が馬に乗っている」というプロンプトを与えたところ、とても良い結果が出ました。単に画像を作るだけでなく、複雑なプロンプトで私が求めているものを正確に理解しました。そして「超リアルにしてください」と頼んだところ、これがその結果です。これは本当に素晴らしく見えます。馬に対して犬が相対的に大きすぎるため、これは巨大な犬、巨大な鴨、巨大な鶏になっていますが、それ以外はすべて非常にリアルに見えます。
皆さんは私がすべてのサムネイル写真で一貫して頭痛を持っていると思っているかもしれませんので、そのサムネイルの顔を取り、誇張されたアニメにするよう頼みました。それがこれです。とても素敵だと思います。しかし、これほど誇張されたものは望んでいなかったので、「オリジナルにもっと似せてください」と言いました。これがその結果です。再び非常にクールで、私の目の色、髪の色、少しの無精ひげが正確に再現されています。シャツは正確ですが、下着にはボタンがありません。実際には普通のシャツですが、ボタンが追加されています。
こちらは私の背景付きの別の例で、「背景を削除してください」と頼みました。背景は削除されましたが、私の顔は非常に奇妙に見えます。まるでエアブラシで加工されたようで、とても良くは見えません。背景は削除されましたが。
そして「これをアニメにしてください」と言ったら、これは本当にクールに見えます。
画像を編集できることを覚えておいてください。「犬の画像を作ってください」と言ったらこれができました。完璧で、AIが生成したとは絶対に分からないでしょう。
次に「犬にリアルな眼鏡をかけてください」と言ったら、鼻の一部が眼鏡のレンズの一部を少しカバーしているのが見えます。耳の配置はもう少し良くなるかもしれませんが、それでも非常に素敵です。
これを見てください。「犬をすごく怒った表情にしてください」と言ったら、鼻がしわくちゃになり、歯を見せ、目はより怒った表情になっています。もちろん眼鏡はまだあります。非常にクールで、非常に簡単にできます。
私のビジネス「Forward Future」のロゴも作ってもらいました。実際にはテキストで間違いを犯しました。「Forward Future」と最も簡単なものであるはずですが、「別のものを作ってください。できるだけ創造的に」と言ったところ、二度と間違いはしませんでした。これがForward Futureですが、それほど創造的ではありません。「100倍創造的にしてください」と言ったら、これができました。本当にクールだと思います。
発表ブログで紹介されている例のいくつかがどれほどリアルかを見てください。
「ベイブリッジを見下ろす部屋にあるガラスのホワイトボードの、電話で撮った広角の画像」というプロンプトでは、そこにベイブリッジが見え、女性が書いている様子が見えます。ボード上の文字を見てください。これは完璧な文字です。すべてのテキストが正確ですが、まるでホワイトボードに書かれたように見えます。「大きなOpenAIロゴのTシャツを着て、手書きは自然でやや乱雑に見え、カメラマンの反射が見える」という指示も素晴らしいです。これは絶対に素晴らしいです。
「カメラマンが振り返ってハイタッチする自撮り視点」というのも、ハイタッチは失敗していますが、他のすべては完璧です。マウス、目、指まで正しく見えます。
「ミッドセンチュリーの家の冷蔵庫に貼られた意味のある言葉の磁石詩」というプロンプトでは、「一枚の写真は千の言葉に値するが、時に適切な場所にあれば、その意味を高めることができる。わずかな言葉で。」という詩が作られました。本当に上手く生成されています。
「4コマ漫画の画像を作ってください。境界線の周りに少しパディングがあり、小さなカタツムリがきらびやかな車のショールームのカウンターにいます。セールスマンはデスクから身を乗り出して彼を見ています。」というプロンプトのコミック風の画像も素晴らしいです。
クールで美しいインフォグラフィックが必要な場合、これを見てください。プリズム実験で、光が入ってきて屈折し、さまざまな色が出てきて、色のスペクトル全体があります。単一のプロンプトだけで、多くのクールなものを生成できます。
そして、これを見てください。同じものをワシントンスクエアパークのメモ帳に配置するとこうなります。とても印象的です。
「同じシーンを、プリズムを持ってテーブルに座っている、得意げな若いアイザック・ニュートンで」というとこうなります。彼の顔はあまり正確ではなく、蝋人形のように見えますが、全体的にはまだ美しく見えます。
これは魔女なしの有名な写真のようなものです。以前に似たような写真があり、それは非常に複雑な駐車規則の状況で、「ここに駐車できるのはいつですか?」という質問をGPT-4に投げて、答えを出しました。今では「二人の魔女がそれを読んでいるところを追加してください」と言っています。
これはメニューコンセプトです。絶対に素晴らしいですね。これは本当に役立ちます。レストランの経営者、サムネイル画像の作成者、ウェブサイト制作者、写真家など、あらゆるプロフェッショナルにとって非常に便利です。微妙な変更を加えたり、一から物を作ったりすることができます。
コンテキスト内学習も可能です。ここに示されているように、望むものに似た小さな画像例をいくつか与え、そのイメージの新しいバージョンの新しい説明を与えると、ほぼ同一のものが生成されます。
「青いチェーンソーの写真リアルな画像」は良く見え、「このチェーンソーの広告を作ってください。おばあちゃんが感謝祭のディナーテーブルで七面鳥を切り分けています。キャッチフレーズも追加してください」というと、同じチェーンソーがそこにあります。
「このシーンをDSLRで撮影した写真に変換してください」というと、これは古い絵画や描画のようなもので、それがリアルに見える美しいものに変換されています。
同様に、この種の建築写真を取り、それを写真に変換することもできます。
もう少しいくつか見てみましょう。「カール・マルクスがモール・オブ・アメリカの駐車場を急いで走っている」というプロンプト、「猫が通りの水たまりを覗き込んでいるが、その反射はトラのものである」というプロンプト、非常に素敵ですね。
「1990年代後半、さびれたダイブバーで、20代前半の4人の多様な友人がポラロイド風の写真」を生成するプロンプト、「2006年の夏のトロントの土曜日のファーマーズマーケットのリアルな画像を生成してください」というプロンプトでは、古いカメラのように日付が印刷されています。
「側道に駐車された車の、静かな夜のぼやけた古いアナログフィルム写真」を見てください。
「孤独な宇宙飛行士が広大な宇宙ステーション内を浮かび、そこに吊るされた巨大なキャンバスに渦巻く銀河を描いている」という面白いプロンプト、「馬が海を走り抜けている」というプロンプト、「放棄された地下鉄車両の窓を通り抜けて泳ぐイルカのある現実的な水中シーン」というプロンプトもあります。
完璧ではありません。彼らが挙げているいくつかの制限を見てみましょう。
まずトリミングの問題があります。完全な画像が得られず、もっとあるように見えますが、それはありません。
他のテキストモデルと同様に、画像生成でも特に低コンテキストのプロンプトでは情報をでっち上げることがあります。
「高結合問題」もあります。知識ベースに依存する画像を生成する場合、一度に10〜20以上の異なる概念を正確にレンダリングするのに苦労することがあります。そのため、間違ったスペルだったり、複数回表示されたりすることがあります。「ダイヤモンド スーパー コモーティング」などは正しくありません。
正確なグラフの作成は難しいと想像できます。韓国語アルファベットなど、多言語テキストのレンダリングもまだ問題です。モデルは時々非ラテン言語のレンダリングに苦労し、文字が不正確だったり、でっち上げられたりすることがあります。
編集の精度、小さなテキストを含む密度の高い情報もまだ課題があります。
完璧からはほど遠いですが、非常にクールです。ぜひ試してみて、あなたの考えを教えてください。このビデオを楽しんでいただけたなら、ぜひいいねとチャンネル登録を検討してください。次回のビデオでお会いしましょう。


コメント