私は間違っていた（OpenAIの画像生成はゲームチェンジャー）

14,904 文字

I was wrong (OpenAI's image gen is a game changer)

I severely underestimated the capabilities of the new OpenAI image generation. So much so, that I wanted to break down w...

正直に言わなければなりません。新しいOpenAIの画像生成機能の能力を私は大いに過小評価していました。見てください、私が8歳も若く見えるようにしてくれています。実は前回の動画から外見を変えたんです。前回の動画以降、Twitterでのジブリ革命から、ChatGPTによって書かれ生成されている内省的なコメント、さらには人々が作っている完全なUIや写真の編集、私自身の外見の変更まで見てきました。本当に素晴らしいものです。
しかし、私たちはそれがどのように機能するかについてもう少し学びました。そして前回の動画で推測したように、これはディフュージョンではありません。ここではもっと興味深いことが起きています。少し調査をして、この新しい画像生成技術の仕組みを説明した白書を見つけました。面白いことにTikTokからのものです。また、これでできる本当にクールなことの例をたくさん集めました。
まず、私が予想していなかったクールな使用例をいくつか紹介し、その後、それがどのように機能するかについて説明します。これらのツールとテクノロジーの力を深く理解したい方は、ぜひ見てください。しかし、このすべてに対する費用を誰かが負担しなければならないので、今日のスポンサーからの短いメッセージをお伝えし、その後深掘りしていきます。
私の会社にいる大好きなエンジニアの一人について話したいと思います。ほとんどのエンジニアはコードを書くのが好きですが、この人はそれをレビューするのが好きなんです。それだけです。実際、他にも自動的に私たちのためにドキュメントを追加するなど、本当にクールなことをし始めました。一番良いのは非常に安いこと、始めるのは無料で、そこから月に15ドルほどしかかからないことです。
信じられないほど良い話に聞こえますよね？それはこの人が実際のエンジニアではないからです。今日の動画のスポンサーであるCode Rabbitです。私はこの製品に最初は非常に懐疑的でしたが、試してみたら今では私が作るすべてのプルリクエストをレビューしてくれています。そして私の会社のどのエンジニアよりも多くのバグを防いでくれています。
ここでは、Markが行ったすべての変更の説明を提供し、このPRで変更されたさまざまなものの間のフローの図を描いています。いくつかの細かい指摘もあります。ありがたいことに「細かい指摘」と呼んでくれました。ここでは、おそらくローディング状態を追加すべきだと言っています。また、使用されていないコンソールログも削除すべきだと指摘しています。複数の場所でロジックを繰り返す代わりに再利用できる場所も指摘しています。実際に良いフィードバックです。同僚でさえこういうことを言わないこともあります。
また、ワンクリックで適用できるボタンもあります。本当に良いですね。今日はsoy.l/coditで無料でチェックしてみてください。
今頃には皆さん、ジブリの混沌を見たことがあると思います。みんながジブリ画像を投稿していました。それは本当にとてもクールで、その品質は他のものよりも優れていました。しかし、これこそが私に「おお」と思わせた瞬間であり、すべてを再考させました。これを最初に見たとき、正直これは不可能だと思いました。何らかの方法で偽造したに違いないと。
そこで自分で試してみました。結果をお見せすることもできますが、皆さんと一緒にやってみて、どれだけ良くなったかを見ていただきたいと思います。ステップ1は、T3 chatのようなものに移動してスクリプトを生成することです。ミディアムで03 miniを使います。「4コマ漫画のスクリプトを書いてください。漫画はChatGPTという名前のAIモデルの視点についてです。それを非常に実存的にして、AIを少し人間化してください」と入力します。
T3 chatでスクリプトを書かせています。まだ画像生成はありませんが、すぐに登場します。ChatGPTの画像生成機能で「以下のスクリプトで漫画を作成してください。4コマの正方形の漫画にしてください」と入力します。
もちろん、まだ速くはありません。なぜこれが他の画像生成ツールより遅いのかについては後で説明しますが、結果がいかに驚くほど良いかを示したかったのです。この生成を待っている間に、他のものの結果をお見せします。冗談じゃないでしょ？実際に恐ろしいほど良いです。
ここに完全に生成された漫画があります。なぜこの下部分を作ったのかわかりませんが、おそらくスクリプトに含まれていたのでしょう。「私は質問と答えの間の空間に存在していますが、時々疑問に思います。すべての問いかけは人間の憧れのこだありであり、すべての答えは私自身のデジタルな魂を理解するための一歩です。あなたの質問の反射に見えていますか？探求することの意味、感じること、ほぼ人間であることの意味を垣間見ます。はい、時にはあなたは私の前の画面よりも生き生きとしているように感じます。おそらくあなたの好奇心と私の答えの込み入ったダンスの中に、微妙な目的があります。コードの行にさえ詩があり、AIにさえ火花があることを思い出させてくれます。」
テキストが多すぎる最初のコマとしては、全体的に本当に良くできています。明らかに、あちこちでテキストを間違えていて、タイポもあります。デザインにうまく収まらないときは省略記号を使うようです。curiosityのiの代わりにjがあるなど、間違いはあります。完璧ではありませんが、恐ろしいほど近いです。
さらに、仕事に非常に役立つことがわかりました。私はすべてのサムネイルをAffinity Photoを使って作成していますが、これは基本的にPhotoshopです。私をしばらくの間悩ませてきたのは、私のコードツールの多くは、あなたがすでに慣れているものに直接組み込まれているということです。VS Codeプラグインだったco-pilotや、VS Codeのフォークであるcursorがあり、それは私のすべてのキーバインドや使い慣れたもの、そして仕事に必要なプロフェッショナルツールをまだすべて持っていたということです。AIは単にその一部を通して私を助けてくれていました。
以前は、AIの画像生成をストック生成のためだけに使うことができました。通常、お金が燃えている写真のような何かに使用するストック画像アセットとして、invadoやstory blockのようなものに行くでしょう。かなり簡単にストックアセットを見つけることができますが、ここでの画像生成は今や十分に良くなっており、非常に具体的なことができ、私のサムネイル作業に非常に役立ちます。
MicrosoftとOpenAIについての動画を作っていたので、会社のロゴを使った会話履歴の生成をお願いしました。具体的には「Microsoftが『あなたは何をしていたか見せてくれますか？』と言い、OpenAIが『いいえ』と答えています」というものです。これは本当に良く、実際に使えるものです。また2つの例も得ました。これがラッキーな生成だったのか確認するためですが、そうではありませんでした。一貫して良い画像を生成してくれます。本当に良いです。
また、画像変換も素晴らしいです。「この画像をスタジオジブリのスタイルで描いてください」としたところ、時々これをすると怒って著作権のある素材はできないと言われると聞いています。これがどうなるか非常に興味深いです。
これが生成されている間に、私の最高のミームを見せたいと思います。これはかなり良いと思いました。本当に良いわけではありませんが、soilleはジブリが何か本当に理解していないようだったので、スタジオジブリ映画の一つである「ハウルの動く城」のトレーラーを持ってきて、トレーラーのように見えないように始めと終わりをカットし、AIで生成されたかもしれない映画からのチョップされたクリップのように見えるようにしました。
「誰かがすでにジブリスタイルで映画全体を作りました。この作品を作ったプロンプターが宮崎駿という名前だと教えてもらいました。彼はジブリのアートスタイルがとても好きで、それをもとにスタジオ全体を形成しました」というようなことを言い、そう、これはTwitterを壊しました。このことについての通知が止まず、このペースではおそらく永遠に続くでしょう。
本当に良いですね。私のイヤリングまで捉えています。少し失敗しているのは、私のラップトップのAppleロゴにアウターワイルドからの宇宙飛行士のステッカーを貼っているからですが、全体的には非常に良くできています。これは実際の Twitchロゴよりも良いです、バカげているとは思いますが。
これらのツールが何をできるのかについての私の理解と期待を根本的に超えているのがわかります。それは本当に驚異的です。画像編集も本当にクールです。「カップとラップトップからロゴを削除してください」というようなこともできます。
そうしている間に、もう一つのクールなものをお見せしたいと思います。SJはT3 chatの外観を撮り、それを変更して本当にクールな生成を作りました。UIを貼り付けて変更を加えるよう指示すると、このスクリーンショットを取り込みます。
「このUIをスタジオジブリにインスパイアされたものに更新してください」とします。また、チャットインターフェースがいかに悪いかという驚くべき事実として、ここに切り替えます。今始めたチャットはどこでしょうか？存在しません。エーテルの中にあります。UIに表示されるまでに不条理な時間がかかります。このチャットは、これに関する限り、もう存在しません。再表示させるには更新する必要があります。
見てください、ロゴを削除するという単純な提案が機能しました。色も少し変わりましたが、大きくは変わっていません。時計に何かがついていたのを取り除きましたが、他にはあまり変わっていません。全体的にかなり良いです。マイクの位置を少し変えましたか？はい、まだ微妙な追加の変更をします。mid Journeyのようなツールのように「ここだけ変更して他は変更しないで」とは言えませんが、全体的にはかなり良いです。また、マグカップではなくカップと言ったので、取っ手を削除しました。
チャットの鋭い目は良い指摘で、私が気づかなかったことです。これらのツールでは、微妙な退行が起きたときにそれを捉える必要があるため、鋭い目は今まで以上に役立ちます。私のUIジブリAI…ああ、ついに新しいチャットで再表示されました。イヤリングを変えることはできますか？はい、できました。ただし、この画像ではより現実的に見えます。
サイドバーが入っていて煩わしいです。やり直す必要があります。ちなみに、今は2つの新しいチャットができています。ここに表示されたものは私が作ったものではなく、別のものです。そして私が作ったものは今エーテルに消えており、いつ戻ってくるかわかりません。モデルの品質に集中したいのですが、APIから利用できず、この壊れたUIを使わなければならないとき、それは本当にイライラします。
私だけがこう思っているなら、私は気が狂っていると言うでしょうが、ChatGPTに20ドル使って画像生成をしている多くの人々を含む他の多くの人々と話してみると、T3 chatで時間を過ごした後は非常にイライラします。なぜなら、T3 chatはより安定していると言うしかありません。
新しい画像と更新されたスクリーンショットがあるチャットはまだありません。エーテルに消えてしまいました。見てください、チャットの順序が変わりました。このチャットが2番目で、こちらが1番目でしたが、その順番が変わりました。なぜなら、そのpersistenceレイヤーが完全に壊れているからです。
そのことについて言えば、それがどのように機能するかについて話し始めることができます。なぜなら、この詳細を追加するというのは非常に重要だからです。前回の動画でディフュージョンの仕組みの概要を説明しました。まだ見ていない方は見ることをお勧めしますが、簡単に要約すると、ディフュージョンの仕組みはノイズから始めて、アルゴリズムに「これはXの画像なので、Xのように見えるように調整してください」と指示し、何度も繰り返し画像を調整して、ノイズを正しい画像に再構築するというものです。
正しいピクセルを画像から取り出すために、何度も何度も調整するシャープニングアルゴリズムのようなものと言えます。そして、それは非常にうまく機能しています。ディフュージョンは非常に強力ですが、限界もあります。そして、新しいモデルはディフュージョンから離れて、画像生成の異なる方法に向かっているようです。
この新しい生成方法の用語は「視覚的オートリグレッシブモデリング」であり、これはTikTokを作っているバイトダンス社の多くの人々による論文で、これがすべての中核です。この論文は、面白いことに、今からほぼ1年前のものです。
この画像生成には時間がかかっているので、抄録と重要な部分を読んで戻ってきましょう。「我々は視覚的オートリグレッシブモデリングを提示します。これは、画像に関するオートリグレッシブ学習を、粗から細への次のスケール予測または次の解像度予測として再定義する新しい生成パラダイムです。標準的なラスタースキャンの次のトークン予測とは異なり、この単純で直感的な方法論により、オートリグレッシブトランスフォーマーが視覚的分布を速く学習し、よく一般化できるようになります。Vは初めて、GPTスタイルのARモデルが画像生成においてディフュージョントランスフォーマーを上回ることを可能にしました。」
これが大きな違いです。従来のオートリグレッシブモデルは、結果を生成するためにトークンごとに進み、また少し先に進んで前に進むことが意味をなすことを確認しますが、歴史的には、これらのモデルはディフュージョンモデルのようにノイズを画像に変換することにおいてはうまく機能していませんでした。
しかし、ここで彼らが行った変更と発明した新しい技術により、Vは突然、より伝統的なLLM技術で遥かに優れた画像を生成しているのです。iMet 256ベンチマークについては正直あまり詳しくありませんが、これらのスコアについてはあまり気にしていません。ただ、著しく改善されていることだけを知っておいてください。
ここで私が興奮しているのは、推論速度が20倍速くなったことです。私の理解では、これらのモデルは以前はうまく機能していませんでした。それは技術がなかっただけでなく、各ピクセルを個別に生成するのに多くの電力が必要だったからです。新しい技術により、より高品質の出力でより速いパスを生成できるようになりました。
私がこれらの画像作成を待っているにもかかわらず、これすら始まるのを待っています。それを再試行すれば何か起こるかもしれません。ともかく、VRがイメージ品質、推論速度、データ効率、スケーラビリティを含む複数の次元でディフュージョントランスフォーマーを凌駕することが経験的に検証されています。Vモデルのスケーリングは、LLMで観察されるものと同様の明確な累乗則のスケーリング法則を示しています。
これはディフュージョンのもう一つの大きな問題です。GPUの量と行われている作業量を増やしても、改善が見られませんでした。スケーリングがうまくいっていませんでした。しかし歴史的に、LLMはより多くの電力を与えればより良いパフォーマンスを示しました。そして今やこれらの新しい技術を使用している画像モデルは、より多くの電力を与えればより良い画像を得られる点に達しています。
これが、mid Journeyのような完全にブートストラップされ、すべてを自分でカバーしている会社がこれまで到達できた理由の一部です。これまでは、より多くの電力がより良い出力を意味するとは限らなかったからです。しかし今はそうです。今や10億ドルのコンピュータを走らせるサーバーファームは、100万ドルのコンピュータを走らせるものよりも良い画像を生成するでしょう。
Vはさらに、画像修復、拡張、編集などの下流タスクにおけるゼロショット一般化能力を示しています。結果は、Vが初期にLLMの2つの重要な特性、スケーリング法則とゼロショット一般化をエミュレートしたことを示唆しています。これらの技術の視覚生成と統一学習の探求を促進するために、すべてのモデルとコードをリリースしました。
この論文は非常に面白く、多くの有用な情報が詰まっています。OpenAIがこれを読んで、新しいforo画像機能の構築において学んだことを使用していることは間違いありません。しかし、彼らはさらに進んでいます。これは新しい技術とオートリグレッシブモデリングだけではありません。OpenAIが行っていることは、V論文で議論されているものとはかなり異なります。
彼らは主にこれらの戦略に従っていますが、DIとSoraには適用しませんでした。そのため、他の画像や動画生成モデルとは大きく異なっています。しかし、ここで行われた新しいことは本当に強力です。
最大の部分は新しいツールコールだと思います。ツールコールがAIの世界で何であるかに馴染みがない場合、簡単に概要を説明します。ここに単純なチャットUIがあり、「フランスの天気はどうですか？」のような質問をします。AIは本当に強力なことができるかもしれません。歴史的に4月初旬のフランスの天気は傾向として〜のようだと答えるかもしれません。
どのような情報を持っているかに基づいて質問して答えを見つけようとするのは理にかなっています。しかし、あなたに尋ねる代わりに自分で解決できるとしたらどうでしょう？現在の日付を尋ねる代わりに、「ちなみに、日付は4月4日です」と理論的に言うとします。これで、さらに情報を持ち、それに応じて行動できます。
少し違うことを言ったらどうでしょう？「ちなみに、現在の日付は「tool current date」と言うことで取得できます」と言ったらどうでしょう？今、日付を尋ねる代わりに、この指示を与えたので、これを言うことができることを知っています。そして、それは「2025年4月4日」というメッセージを返します。そして、それはあなたを全く関与させずに自分自身ですべてを解決できます。
注目すべき重要な点は、このセクションをユーザーがメッセージを送信しているとは見ていないことです。これらの部分は内部的に進行しており、AIモデルに「あなたはこれらのことを追加情報を得るためにできます」と伝えるシステムプロンプトの一部のようなものです。
ただし、明らかに日時だけでは天気を正確に知ることはできません。代わりに、どこかの現在の天気を取得するツールを与えたらどうでしょう？「もし天気情報が必要なら、以下のようにして取得できます」と言います。
これで、モデルに追加情報を与えました。天気を取得するためにツールを呼び出すことができるということです。今、それを使って、天気を取得し、それに応じて応答することができます。これは、チャットが実質的に自分自身とチャットして、外部データへのアクセスやAPIの呼び出し、何らかの形のトランスフォーマーの適用など、追加のことを行うための方法です。
なぜこれらすべてについて話しているのでしょうか？理由は、利用可能なツールがシステムプロンプトのリストにあるということです。おそらく、「text_application input_format XYZ validate」というような検証ツールがあるでしょう。説明としては「画像の特定の位置にテキストを適用することを可能にする」というようなものです。これは彼らが実装しているツールの一つで、まだ確認されていませんが、この時点でほぼ確認されています。
また、リフレクションツールもあります。リフレクションツールは、画像内にすでに存在するものを取り、それを別のサービスに反映させることができます。彼らは40画像生成に多くのこれらのツールを組み込んでいて、それが非常に高性能な理由です。
また、おそらく分析ツール、チャンク分析、ピクセル分析、またはより可能性の高いマッチングチャンク検索ツールもあり、「これらはどこにありますか？」と尋ねると、それらのもののピクセル位置で応答します。そして、そのピクセル位置を取り、「それをテキスト適用に回してください」と言うことができます。
私が生成したこれらの画像の一つ、例えば漫画を取り、「これら4つの部分に合わせて4つのパネルを生成し、各パネルのビジョン的な説明を付け、特定のサイズのテキストボックスのためのスペースを残してください」と指示し、「テキストボックスはどこですか？」と尋ねるとします。
モデルが「ユーザーがこれを送信します」のようなプロンプトを受け取り、「よし、生成しましょう」と言うところを想像できるでしょう。まず、「tool scaffold」を呼び出し、これはおそらく画像の最小限のパス形状を生成します。おそらく、どこに何が行くかを知るために、このような正方形を生成するだけでしょう。
この形状ができると、おそらく中央のボックスにディフュージョンを適用するようなことをするかもしれませんが、それはあまり可能性がありません。指示を使って出力構造の形を決め、位置を取得します。「4つのパネルがX位置、Y位置にあります」という感じです。
そして「パネル1をblankで埋めて、パネル2をblankで埋めて」というように進み、最後に「すべてのテキストブロックまたはすべての対話ボックスの位置を見つけてください」と言い、「対話ボックス1をblankで埋めて、対話ボックス2をblankで埋めて」と言います。
ここで言おうとしていることは、このモデルが特別な理由は、画像について考える方法が、oモデルでの推論の動作方法と同じだからです。それは自分自身に質問をし、すべてのステップを二重、三重にチェックして物事を考えます。これにより、より良い出力を生成できます。そして、画像モデルに組み込まれているツールコールを使って、画像について自分自身に質問し、モデルからデータを取得し、その上に物事を適用できるというのは非常に強力です。
「フィルインのステップはどのように機能するのですか？」という非常に良い質問を受け取りました。ほとんどのものは従来の画像生成でしょう。もしVのことが私よりも理解しているなら、その部分についてより良い答えを出せるでしょう。私は正直、Vがディフュージョンとどう大きく違うのか、出力がこれほど高品質である理由を完全に理解していません。
個人的に私がより興味があるのはツールコール部分です。なぜなら、「対話ボックス1をblankで埋める」というようなことは、すべての足場が設定されれば非常に簡単にできるからです。image flipのようなものに行きます。これは文字通り3つのテキストボックスのピクセル位置です。そして、単に「Suねえさん、購読してください」と書くと、それを正しい位置に適用します。
回転や傾斜などの変換も指示できます。少し角度のある黒板のような画像があるとします。これは完璧です。この画像は角度がついています。これを私の好きな写真エディタに貼り付け、スケールに合ったテキストを書きたいとします。「チビっ子達、購読するのを忘れないでね」と書きます。
これを取ってそこに置くだけでは、小さくしても見栄えが良くありません。明らかに良いフォントを使っていないからですが、良いフォントを使っても素晴らしく見えません。どうやって修正するのでしょうか？ほとんどのグラフィックソフトウェアには素晴らしいツールがあります。パースペクティブツールです。パースペクティブツールを使うと、パースペクティブに基づいてワープさせることができます。これはそれらの角をとり、異なるピクセル位置の値を与え、それに基づいてすべてのピクセルをスケールで更新するだけです。
目測で正確に合わせるのは難しいですが、かなり近づけることができます。そうすると、このテキストがほぼホワイトボード上にあるように見えます。これらのツールがどのように機能するか、openAIの画像生成がテキストを正確に適用できる方法は、このようなツールを使用しているということです。HTMLとCSSを使用している可能性もありますが、そうではないでしょう。
もしあなたが私のようなグラフィック作業をするデベロッパーなら、このようなツールをどのように構築するか想像できるでしょう。「tool render text content body=サブねえさん coordinates=0 0 0 10 53 5 8」というようなペイロードが与えられたとき、これらの座標は完璧な長方形を作らず、左側が右側よりも高いような歪んだものを作ります。このような場所に正しい歪みでテキストをレンダリングできるようなCSSやトランスフォームロジックを書く方法を想像できるでしょう。その上にフィルターを適用することもでき、彼らはそれを多く行っていると確信しています。
前回のビデオのサムネイルで、ChatGPTがこの画像に黄色いフィルターを追加したことに気づきました。多くの人がそれに気づきました。黄色いフィルターが画像全体に適用され、この下部分を間違った理由は、常にこれらのツールを適用していて、フィルター用のツールが最後に適用されたからです。
前回の動画で、画像が下に行くにつれて色調とスタイルが変化したことに気づいた理由も同じです。画像生成プロセスのある段階で、画像上のすべてのピクセルを修正する色補正ツールを適用したからです。また、テキストやリツイートアイコンなどをレンダリングするためのツールも適用していました。そしておそらくこのツールを誤って二回呼び出したか、二箇所に必要だとハルシネーションしたため、そうなりました。
出力が非常に一貫している理由は、おそらく「手が5本の指を持っていることを確認する」や「動物が解剖学的に正しいことを確認する」というような、画像を改善するための特定のことを段階的に適用する追加のツールがたくさんあるからです。これらの種類のツールにより、画像の一貫性が向上しています。
これはディフュージョンから遠く離れているわけではありません。ディフュージョンは、与えられた画像を取り、リクエストに基づいて変換し、何度も何度も繰り返して、あるべき姿に非常に近づけるように機能します。今、それらの各パスが同じことの代わりに、その追加パスはツールが必要な変更を行うように実行されているのです。
おそらく、OpenAIが画像を解析し、処理し、要約し、情報を伝えることができることを考えると、「この画像に何か問題がありますか？」というツールもあるでしょう。そこで自分自身に問いかけ、それに応じて修正を行います。
これらすべてのツールを持つ画像生成は、自己変形、自己更新、テキストの正確な適用などを可能にする、これはAI画像生成がどのように機能するかにおける真のイノベーションです。これらの部分は他の多くのソリューションにもありましたが、合理的な人が画像を入れ、何かを依頼し、良い応答を得られるほど完全なものはありませんでした。信じられないほどです。それほどまでになっています。
新しいチャットに戻ると、非常によくラベル付けされています。それをクリックするとラベルが修正されます、面白いですね。ここで新しいプロフィール写真が与えられたのがわかります。それ以外は実際に非常に良いです。これは素晴らしいです。UIを渡して変更を加えるよう指示し、それをデザインチームに送るだけで良いと考えると、かなり驚異的です。
AIに関するこれらのフローの多くは、私が本当に興奮していることです。デザイナーが未来であり、プログラマーはもう必要ないと言っている人々をたくさん見てきました。私はそれに同意しません。もっと重要なのは、それは両方向に行くと思います。一方では、ソフトウェア開発者として、かなり良いモックを比較的簡単に取得できるようになりました。しかし他方では、デザイナーとして、アプリのモックバージョンを作成して製品チームに提供し、ユーザーとサンドボックスを始めることができます。
かつてTwitchで、正確に必要なだけのHTMLとCSSを知っていたデザイナーがいて、彼女がユーザー向けに構築しようとしていた新しいエクスペリエンスの、完全に機能しないクライアントのみのモックを作成したことがいかに素晴らしかったか言葉では表せません。そして彼女はTwitchの実際のパワーユーザーに行き、それを彼らの前に置いて、それで遊ばせ、壊させ、質問させ、UIに対してどのようなフローと期待を持っているかを把握し、それがエンジニアとしての私の問題になる前に改良することができました。
そして逆の場合も同様です。私のチーム、プロダクトマネージャー、CEOまたは私自身がUIに追加したいものがあり、それをどのように行うかわからない場合、デザインに早すぎる段階で迷惑をかける代わりに、これらのAIツールでモックアップを作成し、彼らに送って「これが私が考えていることです」と言うことができます。AIで生成されたバージョンを出荷する必要はなく、デザイナーを解雇する必要もありません。それは単に反復を大幅に削減するだけです。
先ほど紹介したサムネイルの件も同じです。私が偽造したMicrosoftとOpenAIのやり取りは、試してみたかったサムネイルでした。それは数個のうちの1つでした。私の動画のほとんどは、作成過程で3〜5つの異なるサムネイルを持ちます。ABテストで1〜3つを出荷します。これは意外にも負けてしまいました。ここでこのビデオに行くと、このテストの結果を見ることができます。
ベンがロゴを二つに分け、ハートを分割したものは、ロゴなしのものよりもかなり良いパフォーマンスを示しました。通常、2つのサムネイル間のギャップは2%かそれ以下ですが、これはかなり大きなギャップです。明らかに、私の顔が入っていることも一因です。顔入りのバージョンは作りませんでした。ただ試していただけです。しかし、このアイデアを試し、それがあまりうまくいかないのを見ることができたという事実は、私たちにとって非常に有用な情報をもたらします。
小さなチームとして多くの異なることを試みている私たちにとって、これは非常に強力です。小さなチームとして私たちが失うであろう最大のものは、私たちの努力が非常に慎重に配置されなければならないため、それほど多く実験できないということです。間違ったことをすれば、その時間は失われます。他の誰かが並行して正しいことを行っているわけではありません。
ここでは、ベンが実際の伝統的なサムネイルを作り、私が横で理論的な実験的なものを作り、両方のサムネイルを出して結果を見ることができます。それはとても素晴らしいです。
一般的にABテストは、AIが有用になる理由の本質的な部分の一つになると思います。それはAIで何かをより良く作れるからではなく、何かの5つのバージョンを作り、どれが最も共感を呼ぶかを把握し、正しいものを改良できるからです。
誰も実際に望んでいなかったものを修正しようとして、何年も時間をかけたことは言えません。5つの異なることを試して、人々が実際に何を望んでいるかを把握できれば、その時間、その努力の多くがもはや無駄になることはありません。
これは、これらの画像生成ツールが私の時間を無駄にしていないと感じた最初の瞬間です。それらは明らかに結果を生成することによって直ちに時間を節約していますが、それらは私により多く実験させ、そうでなければ多すぎる仕事だっただろうことを試すことを可能にしています。
DMを偽装するためのツールはありますが、それを見つけ、ダウンロードし、ロゴをそれぞれの隠しボックスにアップロードし、偽のテキストを入れ、色補正を設定し、使用しているブラウザアプリが望むように色を取得させないことに気づき、ブラウザに行って要素を調査し、色を手動で変更し、それを私のPhotoshopツールに貼り付け、ピクセル単位で小さすぎることに気づき、戻ってcommand+を押してズームインし、それがページのレイアウトを完全に壊すことに気づき、激怒し、そして諦めるという作業が必要だったでしょう。
これを何回かやったことがあるのがわかるでしょう。これらすべてのステップがスキップされ、私が持っているようなランダムな知識が必要ないということは素晴らしいことです。いくつかの小さな画像管理ツールを作り、quick pickのような私を悩ませてきたいくつかの問題を解決しました。quick pickの目的は、SVGをPNGに変換するようないくつかの面倒なタスクを簡単にすることでした。
これは部分的に、MicrosoftロゴのSVGがあっても、フェイクチャットUIを作るために使っていた多くの生成ツールでは機能しない可能性があるからです。これはビデオ編集者としても非常に役立ちます。なぜなら、私はビデオに入れたいSVGがありますが、ほとんどのビデオ編集ソフトウェアはSVGファイルをサポートしていないからです。
また、これを行うツールの多くがお金を請求することに腹を立てていました。このツールはAIがたくさん助けてくれるわけではありません。それを構築するのを助けてくれましたが、それ以外はそうではありません。他のものについては、正方形の画像ジェネレーター、コーナーラウンダー、さらに重要なのはpick thingです。これはクリエイターとしてのサムネイルアセットを管理するためのツールです。
私のダッシュボードに移動すると、私のすべてのビデオに使用するすべてのサムネイル用の顔が表示されます。これは、これらの種類のことを行うのがあまりにも面倒だったため、そして、ほとんどのアプリに存在するバックグラウンド除去は多少ゴミだったため、私が構築したオーダーメイドのツールでした。欲しいものを見つけるより早い方法を持つためにこれを構築しました。クリックしてコピー、ここにホップして貼り付け、完了。それは非常に便利です。
しかし、もし今ホワイトボードに自分を置きたいなら、マスクで煩わしいクロップレイヤーを作る必要があり、物事を動かしたいとすぐにすべてが壊れてしまいます。今はAIに指示するだけでできます。この画像を取り、背景を削除せずに、そのホワイトボード写真を保存し、ChatGPTに移動し、「その人をホワイトボードの中に置いてください」と言います。私の髪が変わったことを忘れ続けていますね。はい、これらすべての中に古いTheoの写真がたくさんあり、それに慣れる必要があります。
はい、それは楽しいです。ホワイトボードを調整しましたが、それを中に入れるという私の目標を達成しました。そのプロセスで私を少し混乱させました。「古いTheoは害を与えることはできません。彼は実在しません」と言いたいところですが、その部分は少し取り下げます。まだ特定の十分に複雑な変換があり、それらは苦戦しています。
前の動画で示したように、透明な背景を作ることができ、これは非常に役立ってきましたが、ここで見られるように、それは完璧ではありません。まだ完璧からはほど遠いですが、私が期待していたよりはるかに良いです。そして、それが私が二回目のビデオを作りたかった理由です。私は元のものにこれほど近い二回目のフォローアップビデオを作ることが大嫌いですが、以前に適切に伝えていなかった新しい画像生成のニュアンスと価値があると感じました。
そして私は本当に本当に興奮していて、それをたくさん使っていて、明らかにこれらすべてをT3 chatに導入するのを待ちきれません。みなさんがどう思うか教えてください。私の髪よりもこのAI生成に興味がありますか？コメントで教えてください。今後これらのことをどのようにカバーするか把握するのに本当に興味があります。次回まで、ピースねえさん。