
3,849 文字
こんにちは、私たちの最新の短編映像「Protopica」ではSoraの可能性に触れましたが、今回はそれを使って私たちのワークフローを完全に再考してみましょう。はい、RemixやBlend機能を使って異なる世界間でキャラクターを交換することもできます。待って、待って、待って。RemixとBlendって何?それを説明してくれる?
このショットを覚えていますか?私はその中の好きなものを入れ替えることができます。これがRemixです。例えば、これをリミックスしたり、これをリミックスしたり、これもリミックス、そしてこれもリミックスできます。
わかった、わかった、Remixは理解したけど、具体的にはどうやるの?
見てください。Remixを使うには、生成された動画のどれかをここでクリックするか、自分のショットをアップロードします。次に「おばあさんの代わりに赤ちゃんが欲しい」などの指示を追加すると、新しい動画は一貫性を保ちながらスタイルと詳細を維持します。そしてBlendでは、2つの間を行き来できます。基本的に最初のクリップをここで選び、blendをクリックして、次のものを選びます。
なるほど、今理解できました。では、ビデオを終わらせてもいいですか?
こんにちは、お招きいただきありがとうございます。皆さんとお話しできることをとても楽しみにしています。このモデルの画像生成能力がますます強力になっていると感じています。私はLouと申します。Open Lifeの研究者で、マルチモーダルモデルに取り組んでいます。
はい、今日は非常に興味深いデモをお見せします。このスタジオでは、私たちが描いたものがあります。多くの人々は漫画を生成するために別のツールを使用していますが、私はこの描画をChat GPTにアップロードします。
今、この指示を入力すると、この絵が実際の漫画としてどのように見えるかの生成が始まります。特にモデルをどんどん探索していくと、非常に驚くべきものが発見されることがよくあります。
私は今、この非常に面白い漫画を持っています。このドラゴンを、このかわいいペンギンに置き換えたいと思います。はい、それはいい感じです。私はいつも個人的に、これが現実世界でどのように見えるかに非常に興味があります。かわいいですね、気に入りました。
こんにちは、お会いできて嬉しいです。私はJean Fong Wangと申します。Open AIの研究者で、マルチモーダルモデルに取り組んでいます。透明な画像を生成する方法は非常に直感的で簡単です。
試してみましょう。内容は「かわいい、漫画スタイル、透明背景、正方形フォーマット」としましょう。これが指示です。何が起こるか見てみましょう。モデルは入力を取り込み、画像を生成しようとします。少し時間をかけてみましょう。
さて、何が生成されたか見てみましょう。これが透明な子犬です。もう一つの応用例はステッカーを作ることです。試してみましょう。はい、いくつかの主要なステッカーがあれば、透明な画像をどんな種類の背景にも簡単に重ねることができます。
今、ステッカーをパソコンにコピーして、ここに貼り付けることができます。背景に簡単に溶け込むように、もう少し小さくしましょう。
ステッカーを作ってもらえますか?
もちろん、メガネを掛けて青いシャツを着た賢い研究者を。わかりました、試してみましょう。メガネを忘れないでください。いつでも…はい、メガネをつけて。おお、できました。とてもうまく機能していると思います。皆さんにも気に入ってもらえると思います。
こんにちは、私はAlanです。Open AIの研究者です。よく「一枚の画像は千の言葉に値する」と言われますが、いくつかの単語やシンボルも表示できれば、何千もの画像を伝えることができます。
「ニュートンのプリズム実験を詳細に説明するインフォグラフィックを視覚化する、ワイドフォーマットで濃い青の背景」というような比較的シンプルな指示で、まず、テキストをわかりやすく表示する能力に頼り、そのテキストが意味することを実際に示す視覚要素と組み合わせ、視覚的な学習スタイルを持つ学生が言語的な説明だけでなく、実験が実際にどのように見えるかの視覚的なイメージからも学ぶのを助けることを期待しています。
もはや単に美的に見える架空のシーンを作るだけではなく、コミュニケーションと想像を同時に行うことが本当に重要です。Chat GPTと会話し、準備ができたら「それは素晴らしい、それの画像を描いてくれる?」と言うことができます。
今日の画像ジェネレーターは美しいですが、単なる美学を超えています。細部への注意がそれらを本当に役立つものにしています。ここで特別なのは、まず、そのキャラクターのコンテキストを保持することと、第二に、私が何を求めているかを理解することです。
生成中にさまざまな形で見ることができます。このような描画があり、Chat GPTは実際の漫画を返します。これは本当にコミュニケーションと想像を同時に行うことです。透明な画像を作成する、賢いアジア人研究者、青いTシャツ、これは素晴らしい。
一枚の画像は千の言葉に値しますが、いくつかの単語やシンボルも表示できれば、何千もの画像を伝えることができます。あなたと会話しているアーティストというこのアイデアが今やChat GPTに組み込まれているかのようです。
100回目に見ても、いつも驚かされます。この魔法を世界に見せることにとてもワクワクしています。皆さんにも気に入ってもらえると思います。
ご参加いただきありがとうございます。Chat GPTでの改良された画像生成を調査しています。それは本当に指示に従うのが上手です。私はKenji Hattaと申します。ここOpen AIでマルチモーダル研究に取り組んでいます。
他のモデルでは単純に捉えられないレベルの細部への注意があります。最初に見せたいのは、15の異なるオブジェクトで、それぞれが他のすべてのオブジェクトとは非常に異なる独自の属性を持っています。
「1つの青い星、2つの赤い三角形、3つの緑の四角形、4つのピンクの円、5つのオレンジ色の砂時計、6つの紫の無限記号、7つの白黒水玉のボウタイ…」というように15の異なるオブジェクトを含む画像です。
基本的に、これは私が定義したこれらのオブジェクトのほぼすべてをこの画像が成功させることを示します。Dolisのような以前のバージョンでは、おそらく最大でもこれらのオブジェクトの5〜8個程度しか成功しなかったでしょう。ここではすべてが完璧です。
細部へのこだわりが強化されたことで、あなたが思い描いているものをChat GPTに指定するだけで、Chat GPTがより良く理解し、その画像を生成します。それはあなたの心の中にあるものと画面に表示されるものの間の非常に直接的なマッピングになります。
今日のこれらの画像ジェネレーターはすべて美しいですが、役立つでしょうか?細部への注意がそれらを本当に役立つものにしています。
私はDavid Medina Unimadで、マルチモーダルに取り組んでいます。私が見せたいのは、私のお気に入りの指示の一つです。「Loポリのペンギンビーチを作成してくれますか?とてもLoポリにしてください」。
驚くべきことに、非常に良いLoポリの結果を得ることは時々難しいです。これは他の画像生成モデルのように、単にテキストだけに基づいて何かを生成しようとするものではありません。代わりに、大規模言語モデルの理解を使用して、ユーザーが何を望んでいるのか、その意図は何なのかを判断します。
私はボードゲームも好きで、特にフィギュアゲームです。今からこれからフィギュアを生成してみます。理想的には、同じ棒と帽子を持つ、これに似たペンギンが見られるでしょう。「プロが作って塗装したかのようなリアルなフィギュアを作ってくれますか?」
これがimanについて私が最も興奮していることです。他の画像生成モデルは文字通りあなたが言ったことを作成しようとしますが、ここで特別なのは、まず、このキャラクターのコンテキストを保持し、次に、私が何を求めているかを理解して、非常に似ているけれどもリアルなフィギュアスタイルのモデルを生成することです。
私が望むものを推測してくれます。すべての細かい詳細を伝える必要はありません。私たちができる別の現実的なことは、「これの結晶バージョンを、反射する光と非常にリアルに作成してくれますか?」
ここでも、私は非常に非常にシンプルな指示を与えています。通常、これは他のモデルが非常に詳細なものを生成するには十分ではありませんが、このモデルは私が求めているものを理解し、どのようなスタイルにすべきかを考えます。
キャラクターが何であるかを本当に理解し、修正を加え、ユーザーが何を望んでいるかを理解するこの能力は、私にとって単に信じられない能力です。
この分析に興味を持ち、現在の地政学的課題の理解をさらに深めたい場合は、私の新しいチャンネル「Vision actu」をチェックしてみてください。そこでは、この話題やその他の現在と未来を形作る多くの話題に関する詳細な分析が見つかります。両方のチャンネルを購読して何も見逃さないようにしてください。また新しい分析でお会いしましょう。


コメント