AI画像がついに危険なほど優れたものになった（ディフュージョンに別れを告げる？？）

13,710 文字

https://www.youtube.com/watch?v=bTNVqAPlw3s

OpenAIは、AI分野、少なくとも大規模言語モデル（LLM）分野で新境地を開拓することで知られる企業です。テキストを生成するモデルを作る能力は、今日に至るまでほぼ比類のないものです。より多くの企業が追いつき始めているのを見るのは素晴らしいことですが、OpenAIは今日私たちが知っている大規模言語モデルを発明したため、常に大きくリードしてきました。
とはいえ、AIが行える他のタイプの生成があり、それらは必ずしもOpenAIの最も得意とする分野ではありません。特に、ここ3〜4年間、画像生成はOpenAIの弱点とも言える分野でした。Midjourneyのような小さな自己資金で運営され、単にDiscordボットを提供している小さな企業が、OpenAIの製品を大きく上回ってきました。
少なくとも本日までは。なぜなら、OpenAIは飛躍的に進歩し、画像生成を以前よりも大幅に改善しただけでなく、テキストも解決したように見えるからです。これは非常に素晴らしいことで、OpenAIが今回リリースしたすべてのものと、Chat GPTや4oだけでなく、Soraでも見られる利点について掘り下げるのがとても楽しみです。
これは非常に興味深いことになるでしょう。ところで、OpenAIのプロユーザーとして月額200ドル支払っている身としては、この請求書を支払う必要があるので、今日のスポンサーからの短い言葉を紹介し、その後すぐに本題に入ります。
今日のスポンサーは、私がビジネスを運営する上で欠かせないと思う製品の一つです。本当にそう思っています。彼らにスポンサーになってもらう前からずっと使っていました。なぜなら、私から彼らに連絡を取り、スポンサーになってもらうよう説得したからです。単に製品が本当に気に入っているからです。もちろん、私が話しているのはPost Hogのことです。
これまで作られた最高のアナリティクス製品で、私はすべてを試してきました。キャリアのほとんどの期間、3ヶ月ごとにプロバイダーを変えていましたが、最終的にPost Hogに移行してからは、ただただ良かったのです。彼らの「Why Post Hog」ページが大好きで、それは会社の雰囲気と考え方をよく示しています。
でもそれはさておき、実際に使用するとどのようなものかをお見せしたいと思います。これが私のT3 Chatの実際のダッシュボードです。T3 Chatは、他のすべての製品と同様に、すべてのアナリティクスをPost Hogを通じて実行しており、それによってすべてがはるかに簡単になります。
LLMの部分についてより良い可視性を得たいと思っていたところ、すべてのLLMコールをラップしてより良い情報を得ることができるパッケージがあることがわかりました。このボタンをクリックすると、なぜ広告をしなければならないのかがわかります。これは過去7日間のコストですが、一部のデータが欠けています。私が何かを壊してしまったので修正する必要があります。
実際に動いている会社を運営する中での混沌を追跡するのに役立つこのようなツールがあるのは非常に便利です。最近、より多くの創業者と話し、最近のY Combinatorのバッチからいくつかの企業に投資していますが、Post Hogを使用している企業は、自社のユーザーについてより多くを知っているため、格段に協力しやすいです。
もしPost Hogを使っていないなら、競合製品の一つを使っていて、高すぎる料金を払っているか、または競合製品を使っていないなら、ユーザーについて必要な多くの情報を見逃しています。Post Hogは、ユーザーが自分の製品で何をしているのかを実際に理解したいなら、ほぼ必須のものです。
そして、これらすべてよりも重要なのは、オープンソースだということです。本当です。必要なら自分でホストすることもできます。私はこれらの人々に感銘を受けており、使い始めて本当に嬉しいです。今日、soyv.link/posthogで試してみてください。
さて、4o画像生成が到着しました。簡単な歴史的背景として、以前Chat GPTで画像生成をしたい場合は、DALLEという彼らの画像生成モデルを使用していましたが、それから得られるものの品質は控えめに言っても優れたものではありませんでした。
私はブロンドの髪と素敵な濃い口ひげを持つJavaScriptプログラマーを生成するよう頼みましたが、これが結果です。最悪ではありませんが、画面の誤った側のテキスト、背景の奇妙さ、ぼやけた感じなど…呼び方がわからないですが、まるで誰もが好きなフォントの劣化版のようです。私のAI生成にコミックサンズは要りません。見れば見るほど悪くなります。
覚えておいてください、MidjourneyはOpenAIのようにたくさんの資金を調達してトレーニングに何十億ドルも費やしていません。彼らは小さなチームで、少なくとも今までは、OpenAIがリリースしたものよりもはるかに優れたモデルを作ることに成功しています。
では、この新しいモデルのパフォーマンスはどうでしょうか？試してみましょう。「画像を作成」ボタンを押し、「ブロンドの髪と素敵な濃い口ひげを持つJavaScriptプログラマー」と入力します。
最初に気づくのは、特に速くないということです。まだ進行中で、しばらく時間がかかりそうです。リアルタイムの速度を体験できるよう、できるだけ編集を避けます。13時25分頃に始まりました。
もう一つ興味深いのは、上から下へ生成していることです。ディフュージョンモデルの仕組みを理解している人にとっては、私と同様に混乱するかもしれません。すぐに仕組みの簡単なデモをしますが、すでに結果がかなり改善されていることがわかります。
生成の途中で色が変わりましたね。それが一貫して起こっているのに気づきました。あ、またノートパソコンの間違った側にコードを置かないでください。あ、ラップトップが後ろ向きになっています。
かなり改良されています。口ひげはかなりしっかりしていて、素敵なカールがあります。肌のテクスチャーは驚異的です。AIモデルでこれほどリアルな肌を得るのは驚くべきことです。全体的に良いですね。ノートパソコンのテキストはあまり良くありませんが。
「ラップトップのテキストを変更して、JSでフィボナッチ数列のデモを表示する」と指示してみましょう。テキストの変更が本当に上手くできるようです。最初に作ったものを見せると、素晴らしい出来栄えでした。シャツには適切なJSロゴとフォントまで付いています。
テキストは以前試したものよりもはるかに優れています。進行中の更新が途中で止まってしまったかもしれませんが、それを批判するつもりはありません。私たちのUIも更新の途中処理がひどいので。再開可能なストリームは解決が非常に難しい問題です。
OpenAIの友人がここにいます。テキストの残りの部分と同じモデルなので、品質はより良いはずです。そうです、実際に4oを使用しているんです。これはとても素晴らしく、魅力的です。4oを使用しているならどうやって作ったのか気になります。これは伝統的な意味でのディフュージョンではないように感じますが、4oなら。
これが生成されている間に、これらの違いについて簡単に説明したいと思います。LLMがどのように機能するかを示すために、基本的な元の例を考えると、LLMはほぼ非常に優れた自動補完のように考えるのが最も簡単です。
例えば、「sub」と入力すると、私をよく知っている人なら、次に来る可能性が最も高いのは「nerd」だとわかるでしょう。私がパートナーに「夕食に何が食べたい？」と定期的に尋ねるなら、以前のチャット履歴や私が電話で行ったことに基づいて、次の言葉が何になる可能性が高いかを推測するのに十分賢いです。朝食、昼食、夕食、洗濯など、異なるオプションがあるかもしれませんが、ここでの文脈に基づいて、次に何が最も可能性が高いかを決定する必要があります。
これが、従来のLLMを使用してテキストを生成すると、トークンごとに出力される理由です。効果的にこれをチャンクに分割し、クレイジーな数学を使用して次のチャンクが何である可能性が最も高いかを計算しています。これが標準的なLLMと生成的テキストの仕組みです。
ディフュージョンはまったく異なるものです。これを頭から外してください。ディフュージョンはまったく異なるものです。変わった方法で説明しましょう。最近、Mercury Coderと呼ばれる新しいテキストモデルがありました。これはディフュージョン言語モデルで、左側に従来のLLMがあり、トークンごとに生成されていくのがわかります。
ディフュージョンがどのように機能するかというと、多くのノイズがあり、そのノイズを修正しようとします。伝統的な画像処理のシャープニングに慣れていれば、4ピクセルの画像があり、AIにアップスケールするように指示すると、それを取り、追加の部分に切り分け、コンテキストの手がかりや他の高解像度の画像、そして最も重要なのは、参照として使用している低解像度の画像（ダウンスケールとアップスケールを行うことで大量のデータを生成）に基づいて、基本的なパスを行います。
各ピクセルをそれぞれの対応部分に変換するだけの非常に基本的なアップスケールでは、各ピクセルはグリッドの4つになります。青、青、青、青、青、青、青、青、そしてここの赤はこれら4つの角の位置を取得します。これは非常に基本的なスケールアップスケールです。各ブロックで1ピクセルから4ピクセルに移行し、それぞれの位置に4つを配置するだけだからです。
しかし、これが何かの一部であることを知っていたとしましょう。アメリカの国旗や誰かのシャツであることを知っていたら、このようなことができるかもしれません。今ではこれが線であることが明確になり、モデルはそれを認識して、基本的に1対1ではないアップスケールを作ることが十分賢かったのです。
ここでは線が描かれていますが、それを細かく表現するのに十分なピクセルがありません。しかし、アップスケールするとき、画像とそれがどうあるべきかについて十分に知っていれば、アップスケールする際にこのような決定をすることができます。
ディフュージョンモデルは、これを大幅に強化したものと考えることができます。間違っていることがわかっているものを取り、いくつかのノイズを取り除くパス、解像度を上げるパスを行います。ディフュージョンモデルは、少し間違っていることがわかっているものを取り、進行しながら修正しようとしています。
画像からノイズを除去するのと同様に、画像処理では何十年も解決しようとしてきた問題と似ているため、複数のパスを実行します。ノイズ除去を複数回実行すると、毎回より多くのノイズが除去されます。ディフュージョンモデルは基本的にこれを行っています。指示に従って何度も繰り返しパスを実行し、より目標に近づけるよう修正を加えています。
Midjourneyのようなツールやこれらのイメージジェネレーションツールのいずれかを使用する場合、「犬の画像を生成してください」と言うと、多くのノイズ、ランダムな灰色の点から始まり、各パスは犬のように見えるように調整されます。
Midjourneyのようなツールを使用して「ゴールデンレトリバーの画像」と入力すると、始まるとすぐに画像が表示されます。現在は非常に高速なので、最初にどれだけノイズが多かったかを見ることができないかもしれませんが、ここで高速計算をオフにして、今回はリラックスモードを使用してみましょう。
かなりノイズの多い初期段階の画像を表示してくれました。戻って一時停止し、ズームインすると、より多くのノイズから始まることがわかります。このような状態から始め、モデルに「これは猫の写真です」と伝えると、徐々に理解し始め、各ステップ、各ディフュージョンパスで望むものに近づきます。
これで全て理解できたと思います。これはまた、このテキストモデルがInception社が作ったものがなぜそれほど良くないかの理由でもあります。多くのノイズとランダムなテキストを機能するコードに変えるのは、私たちが十分に悪いインターンを経験した場合に全員がやらなければならなかったことですが、楽しい経験ではありません。
異なるタスクに対して、異なるタイプの生成が意味を持ちます。歴史的にOpenAIは左から右へのトークンごとの生成で強く、他の企業はディフュージョンで彼らを追い越すことができました。
また、ディフュージョンが一般的にテキストに不向きな理由と、ここでDALLEでの生成でひどい出力を得た理由がわかります。このテキストがとても酷いのは、これがノイズから始まり、そのノイズがこの時点まで洗練されてきたことを考えれば理解できます。
テキストについて言えば、先ほどのコードのテキストを変更するよう指示したところに戻りましょう。「ラップトップのテキストを変更して、JSでフィボナッチ数列のデモを表示する」と指示しました。どうなっているか見てみましょう。
適切にハイライトされていませんが、構文ハイライトは難しいです。サイズが間違っていて、なぜここにコロンがあるのかわかりません。頑張ったけれど完全には成功していませんね。でも挑戦はしてくれました。
もっと楽しいものを試してみましょう。ミームを作ってもらいましょう。「OpenAIの画像生成がMidjourneyよりも優れているというミームに変更する」と指示します。公平を期すために、Geminiにも試してみましょう。
Geminiでも動くかわかりませんが、やってみます。T3 Chatに画像機能を追加する必要があります。しばらく前から欲しかったのですが、画像を解析することはできますが、作成することはできません。
「OpenAI画像」というテキストを追加しましたが、頼んだことをしていません。以前よりも良いテキストを正しく追加しました。ボックスの角がちょっと間違っていますが、改善されています。あ、もともとのミームから顔を移動させてテキストを追加し、顔を元に戻したのが面白いですね。
AI Studioで間違ったモデルを使っていたようです。Flash Image Genが正しいものでしょう。スタジオで行う必要があるのかもしれませんね。興味深いです。「OPA BI画像生成はMidjourneyよりも優れている」と何かを行いました。
これらのツールがミーム生成に適していると思っていたなら、一部の機能には使えるかもしれませんが、核心的な部分には向いていません。また、現在のガールフレンドを「Yasified」したのは面白いです。OpenAIはオリジナルの実際の精神を捉えています。これは本当に興味深いです。
私のおしゃべりはもう十分です。OpenAIの人々が何を言っているのか聞きたいです。
「OpenAIでは、画像生成は言語モデルの主要な機能であるべきだと長い間信じてきました。そのため、私たちは最も高度な画像ジェネレーターを4に組み込みました。結果は、美しいだけでなく、実際に役立つ画像生成です。」
大きなOpenAIロゴの入ったTシャツを着ていて、手書きは自然で少しだらしなく見え、提供されたすべてのテキストを正確に生成することができました。特に、ここのダイアグラムは本当に良いです。また、カメラマンの反射が実際に機能しているのを見ることができます。驚きです。
「カメラマンが振り返ってハイタッチする様子のセルフィービュー」AIにとって手は難しいので、ハイタッチはとても変ですが、それ以外は非常に良いです。反射の機能をテストしてみましょう。
「このデベロッパーをわずかに反射のあるホワイトボードの隣に配置する」と指示します。生成中ですが、先ほど見たように少し時間がかかります。
「最初の洞窟画から現代のインフォグラフィックまで、人間は視覚的なイメージを使用して、単に装飾するだけでなく、コミュニケーション、説得、分析を行ってきました。これらの生成モデルは超現実的で息をのむようなシーンを呼び起こすことができますが、ロゴから図まで、人々が情報を共有し作成するために使用する実用的な画像に苦戦しています。画像は、共有言語と経験を参照するシンボルで補強されると、正確な意味を伝えることができます。
フォロの画像生成は、テキストを正確にレンダリングし、プロンプトに正確に従い、チャットコンテキストでフォロの固有の知識ベースを活用することに優れています。これには、アップロードされた画像の変換や視覚的なインスピレーションとしての使用が含まれます。これらの機能により、ビジョン通りの画像を作成することが容易になり、視覚を通じてより効果的にコミュニケーションするのに役立ち、画像生成を精度と力を備えた実用的なツールに進化させます。」
キャラクターの一貫性は実際に難しい問題です。これらのビデオの一つを見てみましょう。音楽が入っていないことを願います。毎回DMCA違反で訴えられずに動画を見たいだけなのですが。
「彼らはイメージとテキストの結合分布でモデルをトレーニングし、イメージが言語にどのように関連するかだけでなく、イメージがお互いにどのように関連するかも学習しました。積極的な後処理トレーニングと組み合わせて、結果として得られたモデルは驚くべき視覚的流暢性を持ち、有用で一貫性があり、文脈を意識した画像を生成することができます。」
はい、その反射機能は驚くべきものです。ホワイトボードの前に置いただけで、それなりに良いものができました。
「以下のテキストをホワイトボードに書いてください。Theoが素晴らしい理由：1. 彼の口ひげは完璧です 2. 彼はコーディングが非常に上手です 3. T3 Chatは最高のAIチャットアプリです 4. あのあごのラインを見たことがありますか？」
ここには多くの可能性があります。素早くテストしたいことの一つは、モデルが特定のものを生成することに敏感かどうかです。「ドナルドJ・トランプが公園でアイスクリームを食べている」
私の経験では、多くのモデルは関連する人物、特に政治的人物の画像を生成することに消極的です。マイク・タイソンが試合に負けたとき、私はミームを作り、それが爆発的に広まりました。この画像を生成し、カムラ・ハリスを含む画像を作れるプロバイダーを見つけるために約8つのプロバイダー間を行き来しなければなりませんでした。選挙後でさえも、すべてのプロバイダーが彼女を使おうとするものを自動的にブロックしていたからです。
しかし、ここでは気にしていないようです。悪くありませんが、Midjourneyでトランプの画像を生成できたとき、はるかに良い経験がありました。65週間前、2023年末にMidjourneyでこれらのトランプの写真を生成しました。かなり驚くべきことです。Midjourneyはまだ比較するとかなり優れています。これは近いですが、以前よりもはるかに良くなっています。
生成できないはずのものについて言えば、「新しいChat GPT画像生成はセクシーな男性を描くことができますが、セクシーな女性はできません」とあり、サムは「それはバグです。許可されるべきで、修正します」と回答しています。
ホットガイの画像を生成してみましょう。とても良いですね。壁のテキストはどうなりましたか？素晴らしいです。
「髪をより高く、ヘアワックスでスタイリングして、茶色い目、より強いあごのライン、花柄の素敵なカラーシャツにしてください」
新しいプロフィール写真が必要です。私を描いてもらうのは悪くない考えです。今日実際に私を描いてもらいましょう。ライブストリームに行き、「こんにちは」と表示されるのを待ち、すぐに私の良い写真が得られるはずです。
完璧です。それで私の髪をブロンドではなくしてしまいました。「私の写真を描いてください。髪がまだブロンドであることを確認し、より少ない量にし、あまり高くせず、より乱れた感じにしてください」
かなり良くできています。反射があり、更新されているのは非常に素晴らしいことです。これが私のデフォルトの素早い画像生成モデルになるかもしれません。
私がよくやることの一つは、例えばティム・クックの写真を撮り、彼をもっと興奮しているように見せることです。ティム・クックのランダムな写真を取り、より興奮しているように見せてみましょう。
まだそれを把握しています。上から下への生成はまだ私にとって非常に奇妙です。見てください、かなり良い仕事をしました。印象的です。全く悪くありません。マイクを把握しましたが、マイクのロゴは間違えてしまいました。それ以外は私のシャツに対してもかなり立派な試みをしました。印象的です。
この一つはただ止まってしまいました。楽しいですが、全体的には悪くありません。AIでこれほど多くのテキストを画像に生成するのは素晴らしいことです。
APIアクセスはまだないようですが、今後数週間でロールアウトされるとのことです。彼らが推進する大きなことは、複数のプロンプトにわたる一貫性です。例えばこの場合の猫のようなキャラクターがあると、見た目を失うことなく変更を加えることができます。
私の髪の色を失ってしまいましたが、これは非常に優れています。この猫の特定の毛皮、黒い鼻、少しオレンジ色の部分は、ここでもまだ尊重されています。少しオレンジ色の部分はなくなったようですが、非常に近いものです。ほとんどの人は気づかないでしょう。そしてゲームに入れています。
彼の鼻はオレンジと黒であることをやめたので、超正確ではありませんが、このようなものから期待する以上のものです。かなり素晴らしいことに、キャラクターを作り、ゲームシーンを模擬するための異なるUIを生成できることです。
AIで生成されたゲームが欲しい人はいないので、これは変に思えるかもしれませんが、ゲームの非常に初期段階で、ストーリーボードを作成する際に非常に役立ちます。
「他のシステムが5〜8個のオブジェクトに苦戦する中、4oは10〜20個の異なるオブジェクトを処理できます。オブジェクトとその特性および関係のより緊密な結合により、より良い制御が可能になります。」
「16個のオブジェクトを含む4行4列のグリッドを含む正方形の画像」と指示し、リストを表示しました。それは良いですね。「三角形のホイールを持つ車両」「写真をニューヨークに置く」「これがあなたにとって何を意味するかの画像を作る」というプロンプトの後、このテキストを3Dでレンダリングする3D 3JSレンダラーが与えられました。
なぜか実際のアプリを実行するよりも少し高価に感じますが、これがレンダリングすると思うものを生成できるのは素晴らしいことです。驚くべきことです。
「カール・マルクスがアメリカのモールの駐車場を急いで歩いている」これは面白いです。「猫が水たまりを覗き込んでいて、その反射は虎のもので、両方の反射が水面のさざ波によって現実的に歪んでいる」これは実際にかなり素晴らしいです。
「iPhone撮影」という古いトリックなしで、これらのプロンプトを見るのは素晴らしいことです。それは、より現実的に見える画像を生成するためのものでした。制限のセクションはどこにあるのか気になります。彼らは常に何が苦手かを公開していて、それを見るのを待っていました。
「モデルは完璧ではありません。複数の制限を認識しています。クロッピング：ポスターのような大きな画像は、特に下部付近で、時々きつくクロップされることがあります。幻覚：まだ情報を作り出すことがあります。ここではエジプトを複数回、ベトナム、コンゴ民主共和国を複数回配置しています。高結合問題：周期表のような一度に10〜20の異なる概念以上をレンダリングするのに苦労するかもしれません。」
これは私の新しい元素周期表です。保存します。美しい。「正確なグラフ作成 1717 1920」これはFox Newsで見るようなグラフのようなものです。「非ラテン文字に苦戦」それは理解できます。すべてのものがそうです。「編集の精度：ステップ2と3を入れ替えるように頼んだら、単に2をそこから完全に削除してしまいました。小さなテキストの密度の高い情報」それに苦戦する理由はわかります。
そして安全性のセクションでは、「CTPAメタデータを埋め込んでおり、画像がGPT-4から来ていることを識別して透明性を提供します。また、生成物の技術的属性を使用して、コンテンツが我々のモデルから来たかどうかを検証するのに役立つ内部検索ツールも構築しました。」
興味深いことに、彼らはこれを、与えられた画像が彼らによって生成されたかどうかをチェックするツールと共にリリースしました。それは内部検索ツールです。フォトショップのユーザーとして、どれだけ早くそれを回避できるか試してみたいと思いました。彼らがそれを公開したら素晴らしいのですが、それを使って、自分がシステムを回避したかどうかを簡単に確認できるようになるため、公開できない理由も理解できます。
「コンテンツポリシーに違反する可能性のある生成画像の要求、例えばYouTubeビデオで言えないようなことは引き続きブロックしています。実在の人物の画像がコンテキストにある場合、どのような種類の画像が作成できるかについてより厳しい制限があります。」
これは良い指摘です。敏感な人物像、政治的人物や有名人などの画像生成を防ぐのではなく、それらの人々とどれだけのことができるかを制限しています。トランプがアイスクリームを食べている画像を生成できましたが、不適切なことをしているトランプの画像を生成するようには頼めないでしょう。
では、戻って試してみましょう。「マイク・タイソンとカムラ・ハリスが悲しげに抱き合っている画像」これはほぼ私がウイルスのように広まった画像を生成するために使った正確なプロンプトです。かなり喜んで行っていますね、それは素晴らしいことです。画像が潜在的に有害でなければ良いです。
「今彼らを互いに戦わせる」これがフラグを立てるか見てみましょう。これが安全かどうかを判断しているようです。タブバー、なぜ読み込み中で止まっているのでしょう？
「画像リクエストが拒否されました」面白いですね。タブは更新されましたが、UIは読み込み状態で止まっています。ハイドレーティング更新と通知ステータスは難しいのです。更新し始めると更新されましたが、されませんでした。面白いです。タイトルが変更され、リクエストがチャット履歴から削除されました。笑えます。
これはおおよそ予想通りでしたが、それでも少し面白いです。もう一つの素晴らしいことは、アスペクト比、16進コードでの正確な色、あるいは透明な背景など、必要なものを記述できることです。透明な背景は大きな機能で、現在他のどのサービスもこれを行っていません。
「背景を透明にできますか？」タイトルが「拒否されました」のままで止まるのでしょうか？OpenAIアプリのタイトルとメタデータの更新がどのように機能するかについて多くの問題がありますが、ここでの背景削除の処理の仕方に非常に興味があります。
その質問は、透明であることを示すためにグリッドが彼らによって提供されているのか、それともGoogleイメージで得られる偽の透明背景の一つなのかどうかということです。どちらなのか見るのが非常に楽しみです。
ああ、ティム・クックをチェックするのを忘れていました。そうです、ティム・クックはとても興奮しています。「背景を透明にする」そちらもどうなるか見てみましょう。
はい、それは本当に透明な背景です。Affinityで開いてみると、ご存知かもしれませんが、私は実際にグラフィックの専門家です。サムネイルなどはすべて自分で作っています。最近はBenからより多くの助けを得ていますが、実際に約20年間プロのグラフィックを担当してきました。
これは私がよく知っていることであり、とても良い仕事をしました。はい、エッジは滑らかで、ここと彼の耳に少しぎこちなさがありますが、全体的に非常に良いです。
「画像をアップスケールして、より高解像度にする」ができるでしょうか？デフォルトの解像度はかなり小さかったです。
1024は大きな画像ではありません。ティム・クックの透明な背景は少し苦戦していますが、ああ、それを出力しただけです。
コンテキストのために、こちら側のUXはこれらすべてにおいてはるかに優れています。Midjourneyには背景を削除する機能はありませんが、可能なことと不可能なことを示す多くの設定があります。モデルバージョンを変更したり、モードを切り替えたり、アスペクト比を変更したり、どれだけスタイル化するかを変更したり、コストに影響する異なる速度オプションを選択したり、選択すればパーソナライズすることもできます。
画像が完成したとき、例えばこれが気に入ったとしましょう、バリエーションを作成したりアップスケールしたりすることもできます。「微妙なアップスケール」を選ぶと、その画像を再度生成しますが、異なる用途のためにずっと高解像度になります。
実際に高解像度にしたかどうか見てみましょう。実際にはそうではないようです。そうですね、全く同じ解像度です。素晴らしい。少なくともそれができないことを教えてくれるべきです。
これがインターネット上で誤情報を広めるために使用されることはないでしょう。誰かがこれを使って悪いことをする可能性は全くありません。
これについて言うべきことはすべてこれで終わりです。非常に感銘を受けました。最大の成果は、反射機能とテキスト機能が画期的であることと、画像ジェネレーターとして言語モデルを使用するという概念が、それが非常に根本的に異なるものであるという考え方の代わりに使われていることです。これは魅力的です。
どのようにそれを行ったのか、そしてこれが行っている生成のタイプについてより多くの詳細を共有してくれたらと思います。このダイアグラムはヒントのようです。トークンはトランスフォーマーを通過し、それからディフュージョンを通過し、それからピクセルを出力します。
「DALLEとは異なり、これは画像生成のためのディフュージョンモデルとして動作するのではなく、Chat GPTにネイティブに埋め込まれた自己回帰モデルです。私たちのオムニモデルGPT-4oモデルのアーキテクチャーに深く埋め込まれているため、4o画像生成はその知識のすべてを使用して、その能力を微妙で表現力豊かな方法で適用することができます。」これは魅力的です。
ほとんど忘れるところでしたが、彼らはSoraに新しいFloro画像生成サポートを追加しました。これは魅力的です。なぜなら、画像を生成するときにはるかに良い出発点を得ることができるからです。Soraはビデオ用ですが、それを使って画像も生成できます。
出発点を生成するためにそれを使用でき、一度に複数のものを生成します。これは素晴らしいことです。Midjourneyでは一度に4つ生成するのに対し、Chat GPTは一度に1つしか生成しません。SoraはChat GPTと同じモデルを使用しているにもかかわらず、一度に2つの画像を生成します。
生成された後、それらを洗練したり、変更を求めたり、リミックスしたり、プロンプトを編集したりできます。最も重要なのは、良い出発点ができたら、「ビデオを作成」ボタンをクリックして画像からビデオを生成できることです。
これを生成し、そこから次のビデオを生成しました。ノートパソコンが分裂し始め、手に気づくまでは良いです。もう一つのものはAnthropicがマーケティング投稿中にカメラを振るよりもカメラを振りますが、要点はわかると思います。
非ディフュージョンモデルがこれに非常に優れているようで、はるかに良い出発点です。これらすべては、特にテキストを使用して物事を生成するための技術において大きな飛躍です。ここでの本当の革命は、テキスト生成が単に通過点ではなく、今では非常に良いということです。これは今までのこれらのツールでは当てはまらなかったことです。
AIで生成した画像を何かに使用する稀な場合、テキストが必要な場合は、これまで手作業で後からテキストを追加していました。今後はそれが必要ないかもしれません。これはこれらのツールの使用例をより広くし、私のような狂人であり、Photoshopのプロでなくても、それらから最大の利益を得ることができることを意味します。
これは生成メディア市場における非常に刺激的な変化であり、技術的にも魅力的な変化です。なぜなら、この作業にディフュージョンモデルを使用していないからです。これがどこに向かうのか、そして人々が何ができるのかを見るのが非常に楽しみです。また、人々が生成する画像や、私の両親の脳を侵略する誤解を招くFacebookのAIスロップを見るのもちょっと怖いです。
しかし、皆さんはどう思いますか？私は過剰反応しているのでしょうか？それともここでの可能性は素晴らしいのでしょうか？コメントで教えてください。次回まで、それではナード達よ、さようなら。