OpenAIのSoraがついに登場…しかし、本当に良いものなのか?

AIに仕事を奪われたい
この記事は約6分で読めます。

3,348 文字

OpenAI's Sora Is Finally Here... But Is It Good?
OpenAI's Sora is out and we got some hands on time with it. Mostly, it's going to be super fun but it's expensive and th...

Soraが登場し、かなり堅牢なものとなっています。これはただのテキストから動画への変換だけでなく、画像から動画への変換、動画のブレンド、動画のリミックス、そしてそれ以上の機能を備えています。そしてもしあなたがChat GPT Plusの購読者なら、今日からそれを使うことができます。私たちはこの立ち上げを長い間楽しみにしてきました。私たちはSora、つまり動画製品を立ち上げようとしています。これは完璧なものでしょうか?いいえ、そしてここでその部分についても触れていきますが、これはAI動画にとって真の転換点です。最大のAI企業が動画製品をリリースし、それは人々が使えるようになっています。
これは間違いなくAI動画の次世代であり、今日ここにあります。詳しく見ていきましょう。
はい、これがSoraのホームページです。これを見て笑ってしまいましたが、これはスライミーでリアルなインゲン豆の人がカメラにゆっくりと手を振っている様子です。ホームページでは、実際にMidJourneyに少し似ているのが分かります。そして、ここにはいくつかの異なる要素があります。おすすめ動画があり、これらはOpenAIが明確に選び出したものです。これらのコンテンツの一部は本当に素晴らしいものです。あの素晴らしい帽子を見てください。
そして、あなた独自のライブラリもあります。これは私が作成した動画で、「月面でスケートボードに乗る二人の男性、90年代ファッション」とプロンプトを入力しました。これは480pで、5秒の動画で、レンダリングに約20分かかりました。これは出てきたばかりのものですが、2つの生成結果が得られることが分かります。まあ、いい感じです。世界で最も素晴らしい生成結果とは言えないかもしれませんが、90年代の服装はちゃんと表現されていますし、スケートボードも確実に表現されています。月の上に月があるのは少し面白いですが、確かに月面上にいるのは間違いありません。
9:16の動画を生成することができ、480pや720p、1080pで生成することができます。これらはそれぞれより高額になり、生成も遅くなります。重要な点として覚えておくべきなのは、Chat GPT Plusの購読者、つまり月額20ドルを支払っている場合、月50回の生成しかできないということです。先週立ち上げたばかりのProサブスクライバーの場合は月額200ドルで、これはかなりの金額ですが、無制限に生成することができます。
ここに素晴らしい例があります。誰かがCounter-Strikeのシーンを作成したのですが、各プレイヤーNPCがケチャップボトルになっています。これはF Shriberによるものです。
私も動画を作りたいと思います。「建設作業員として働くチンパンジーがカメラにコーヒーカップを掲げる」というものにします。さて、今実際に生成できるか見てみましょう。チンパンジーができました。彼らはこれを「チンプの休憩時間」と呼んでいます。建設作業員として働くチンパンジーがコーヒーカップを掲げる、というものです。
見てみましょう、カップを掲げて…おや、何が起きているでしょう。チンパンジーの着ぐるみを着た人のように見えますが、まあ悪くはありません。もう一つの生成結果も見てみましょう。また…おや、何が起きているでしょう。邪悪なチンパンジーが現れて、何か深刻に問題のあることを笑っているように見えます。これらは本物のチンパンジーには見えず、チンパンジーの着ぐるみを着た人のように見えますが、まだ初期段階ですからね。
これをリミックスしてみましょう。「大きな猫がチンパンジーからコーヒーカップを奪う」としてみましょう。おそらく30分ほどかかるでしょうから、他の機能を見ていきましょう。
これは彼らが設定したブログ記事です。これは非常に興味深いものです。動画内の要素を置換、削除、または再構想することができます。これはリミックスツールです。最初に図書館の大きな開いたドアのショットがあり、そのドアをフレンチドアに置き換え、図書館を宇宙船に変え、宇宙船を削除してジャングルを追加し、ジャングルを月面の景色に置き換えることができます。最初のドアを見てみると、ドアの開き方がおかしく、一つは一方向に、もう一つは反対方向に開いています。完璧ではありませんが、それでもこれはかなりクールです。Comfy UIのようなオープンソースツールでこれができるものがたくさんありますが、これは最初からかなり堅牢です。
彼らが提供している別の機能は「recut」で、これは最適なフレームを見つけて分離し、シーンを完成させるために両方向に拡張することができます。これは拡張機能のようなものですが、動画を長くするためだけに使用するのではなく、拡張したい適切な部分を選択することができます。
次に「storyboard」があり、これはタイムライン上でシーケンスを整理して編集することができます。これは広大な赤い風景の中に宇宙船が停泊している遠景で、宇宙船の内部から外を見ている様子、宇宙少年が中央フレームにいる近接ショットなど、小さな物語を語ることができます。
そして最後にもう一つクールなツールが「Loop」です。Loopについて「何が重要なの?」と思うかもしれませんが、アーティストや、あるいはソーシャルメディアに投稿する人々にとって、これはかなり重要なツールです。基本的に動画をループ動画に変換し、それを独立して書き出すことができるからです。これは階段を見る異なる方法を示しています。これは全体的に本当に印象的な画像で、このツールを使用するアーティストとして考えた時、これがいかに有益なものになり得るかが分かります。
最後にもう一つクールな機能は「blend」で、これは2つの異なる動画を1つのクリップに組み合わせることができます。素晴らしいX(旧Twitter)ユーザーであるbazanの素晴らしい動画を見ました。彼は人々が歩いているショットと城のショットを組み合わせました。人々は少し浮いているように見えて下降していきますが、最終的にその城の前に到着します。これも通常の人々が使用できる非常にクールで強力なツールです。Comfy UIの様々な機能を使いこなすスキルセットを持っているかもしれませんが、ほとんどの人にとって、これは大きな意味を持つでしょう。
さて、大きな猫が現れる場合はどうでしょうか…何か起きていますが、何だか分かりません。それは大きな猫ではありませんでした。猫の4本足のように見えます。それも面白いですね。もう一つの生成結果も見てみましょう。はい、猫がカップを取ろうとして浮きながら下降してきています。ほとんどチンパンジーに届きそうでしたが…とにかく、私たちが見ているものの良い感覚が掴めます。これは素晴らしいものになるでしょう。
オープニングアイズのライブストリームで、コントロールがどのようになるかある程度感じることができました。なぜなら、AI動画で最も難しいことの一つは、何が許可され、何が許可されないかということだからです。しかし、重要なのは、多くの投稿が拒否されるだろうということです。なぜなら、このビデオで特に述べられていたように、彼らはSoraの違法な活動を防ぎたいと考えていますが、それと創造的な表現とのバランスを取りたいとも考えています。これは継続的な課題になることを知っています。初日から完璧にはできないかもしれません。最初は少し保守的に始めています。
なぜそうするのでしょうか?彼らは巨大な企業です。実際、ビデオの中で、彼らは責任を背負っていると述べています。彼らはこれで問題を起こしたくないのです。すでに少し問題になる可能性があります。なぜなら、すべてのビデオトレーニングがどこから来たのか確実には分かっていないからです。しかし、現時点ではこれはかなり堅牢に感じられます。多くの時間を費やしていないので詳しいレビューはできませんが、これはOpenAIという企業にとって、そしておそらくAI動画全体にとって大きな出来事だと思います。

コメント

タイトルとURLをコピーしました