
7,956 文字

OpenAIがSoRAをリリースし、世界中の人々が自分自身のAIビデオを生成し始めています。ローンチは少々混乱気味で、あまりにも多くの人々が同時にログインしてビデオを生成しようとしたため、新規アカウントの登録を一時的に停止せざるを得ませんでした。
しかし現在は状況が改善しており、SoRAユーザーによって作成された最近のビデオのストリームを見ることができます。もちろん、何らかのフィルタリングプロセスが行われていると思われ、全てのビデオがそのまま表示されているわけではありません。例えば、あるユーザーが3つのビデオを生成し、別のユーザーが連続して複数のビデオを生成しているのが見られます。
これはSoRAの能力を示す厳選されていないサンプルと言えます。ご覧の通り、一部には奇妙なものもあります。例えば、ダッシュカムの視点から車から逃げる象や、なぜか後ろ向きに走るフェラーリなどですが、ほとんどは非常に良質です。cursiveで書かれたニュートンの第二法則も明確に読めますし、ティーカップの中で回転する多次元の渦も見られます。
最初から最高というわけではありません。例えば中国企業のClling AIによって生成された本当に素晴らしいビデオも見てきましたが、全体的に見て印象的で非常に高品質です。
ご覧の通り、ビデオの説明を入力することができます。例えば「街の上を浮かぶ海賊船」と入力すると、いくつかのオプションが表示されます。まず、自分の画像をアップロードしてそこからビデオを生成することができます。また、プリセットもあり、独自のものを作ることもできます。例えば、シネマティックフィルム、バルーンワールド、アーカイブフィルム、フィルムノワール、段ボールやペーパークラフトなどがあります。
アスペクト比は3種類あり、16:9の横長、9:16の縦長、1:1の正方形があります。解像度は480p、720p、1080pから選べます。動画の長さは5秒、10秒、15秒、20秒から選択でき、生成するバリエーションの数も1つ、2つ、4つから選べます。
クレジットシステムについて説明すると、例えば480pで5秒の1バリエーションは25クレジットかかります。バリエーションの数を2倍にすると、クレジットも2倍になります。10秒にすると、またクレジットが2倍になります。正方形の動画は少し安くなります。しかし、これを1080pに切り替えると200クレジットになります。かなり大きな違いですね。
生成されたビデオの中には、本当に素晴らしいものが出てき始めています。古代のエイリアンジャングルへの着陸、砂浜を這うカニのクローズアップは超リアルです。エジプトで軍を率いるナポレオン・ボナパルトのドラマチックなクローズアップショットも非常にクールです。ただし、彼の頭が後ろ向きになっているのは残念ですが、それ以外は悪くありません。
第一次世界大戦の映像では、塹壕で泥まみれになって身を寄せ合う兵士の姿が見事に表現されています。長い動く指で作られた女性の顔が白い粉塵の山に崩れ落ちるという難しいプロンプトも見事に表現しています。少し不気味ですが、指なのかそれとも触手なのか、指であることは分かりますが、プロンプトの難しさを考えると悪くない出来です。
小さな苔むした水流を渡るアリのシーンは本当に素晴らしいです。タロットカードを読む女性魔術師も非常に高精細で、カードの画像まではっきりと見えます。小さなローマの沿岸の丘の町に向かって湾を進む古代のガレー船も美しい映像です。
これらは「おすすめビデオ」として紹介されているもので、OpenAIの誰かがバックグラウンドでフィルタリングを行い、ベストケースシナリオを見せようとしているものです。白馬に乗る宇宙飛行士のクローズアップは既に定番となっています。
アルプスを縫うように走る美しく壮大な列車の映像もあります。動いてはいませんが、山を下るところを見られたら素晴らしいでしょう。
ビデオ作成の機能に戻りましょう。16:9、1080p、5秒、1バリエーションを選択してみましょう。1つしか選べませんが、「ビデオを作成」をクリックするとキューに追加されます。
ストーリーボードを使用する方法もあります。画像を追加したりテキストを追加したりして、好きなように作ることができます。例えば、最初のシーンを「街の上を浮かぶ海賊船」と描写し、2.5秒後の半分の時点でシーン2として「海賊が飛び降りて街に向かってパラシュートで降下する」というように設定できます。理想的なシナリオでは、最初の2.5秒で船が見え、その後海賊が飛び降りる様子が見られるはずです。
既に作成したビデオから始めて、テキストを使用してフォローアップを作成することもできます。例えば、イチゴを食べるモルモットのビデオがあるとします。これをシーンの始まりとして追加し、10秒に延長して品質を下げることで20秒まで延ばすことができます。そして5秒目あたりで「動物たちが争い始め、10秒目には茶色と白のモルモットが勝利してイチゴを食べる」というように設定できます。
これらは非常にクールな機能で、好きなものをより長いビデオや短いビデオに切ったり再編集したりすることができます。例えば、このエレガントなカリギャラリーのシーンを選んで「再カット」をクリックすると、アスペクト比を変更したり解像度を上げたりできます。プリセットの1つはアーカイブで、昔ながらのレトロな雰囲気を出せますが、アーカイブからフィルムノワールに変更してみましょう。
では街の上を浮かぶ海賊船を見てみましょう。とても素晴らしく、確かにプロンプト通りの映像です。非常にリアルな海賊船で、3D要素もうまく捉えています。帆や他の部分もカメラが通り過ぎる際に正しく回転しています。
そして海賊のパラシュート・アドベンチャーです。これは海賊船から飛び降りるシーンのはずでしたが、少し違和感があります。期待していたものとは少し違いますね。
元のモルモットのビデオ、モルモットのいちごスナックは本当に良い出来です。東京のような場所で、ドレスを着た女性が通りを横切るオリジナルのビデオの再現もあります。今度は犬がピアノを弾こうとしているバージョンもあります。数個の鍵盤は叩けていますが、その後、犬が様々な都市の風景を探索するシーンに変わります。
良い出来ですが、少し混乱する部分もあります。通りにいたと思ったら、突然ガラスのないドアを通って中に入り、また通りに戻るという展開は少し一貫性に欠けます。遷移は不自然ですが、それでも全体的にはクールな映像です。
この撮影は少し変わっていて、何を見ているのか分かりづらいです。携帯電話のカメラで撮影したような暗くて粗い映像に見えます。航海中のバイキングは本当に素晴らしい出来です。火山地形の上のパンサーは、実際にはもっと家猫に近いですが、それでもクールです。
包囲下の都市のシーンでは、ミニチュアの戦車が転がり、背景で火事が起きているのに、通りを歩く人々は妙に落ち着いています。嵐の中でエスケープチャレンジに挑む勇敢な犬のアクション満載のショットもあります。爆発のシーンでは、犬自身が爆発と嵐の化身になっていますが、なかなかクールです。
壮大な山岳サイクリング・アドベンチャーのライブショットは非常にクールで、実際のレースのように見えます。一部は少し違和感がありますが、全体的には非常にリアルです。居心地の良いクリスマスキャットも素敵です。
コージーカフェの瞬間も非常に良い出来栄えです。女性のカップの握り方は少し奇妙で不自然な感じですが、それ以外は全て良好です。テーブルと椅子は全て適切な数の脚があり、これは素晴らしいスタートです。
ネオンKNリフレクションズと呼ばれる作品は、女性の顔のクローズアップで、非常に詳細で生き生きとしています。このビーチドクジラのリトリートは悪夢を見そうです。外側はビーチに打ち上げられたクジラですが、中に入ると照明付きの居心地の良い空間になっています。深く考えないでください。中の臭いのことは考えないでください。それはただの居心地の良いリトリートです。
ビーチサンセットの雰囲気も、全てが非常に良い出来栄えです。ぼやけた背景、サングラスへの反射など、全てが素晴らしく、これがAIで生成された映像だとはほとんど分からないほどです。サングラスと背後の目には少し不自然さがありますが、それ以外は素晴らしい出来です。
ドラゴンが街を攻撃するシーンもかなりクールです。建物を破壊しているように見え、ドラゴンも非常にリアルです。解像度は少し低いですが、調整可能です。
タイのワットアルン寺院の前に座るコラット猫の目からズームアウトするシーンは、猫の目の表現が非常に良いです。廃屋に突進する熊の群れのシーンでは、確かにたくさんの熊が映っています。
雪に覆われた森のトレイルをスノーボードで滑る一人称視点の映像は、本当に素晴らしい出来です。ニューヨークの道路をアラスカに向かって運転する貨物トラックの映像も、少しのちらつきを除けば非常にリアルです。
人々の間をズームしながら進む列車駅のショットも非常に素晴らしいです。これは10秒のCNNライブショットで、スターバックスの廃業についてのものですが、セットにいたと思ったら突然スターバックスにいて、そして消えてしまうなど、多くのことが同時に起こっています。
誰かの口の中に花が降る映像は、どんなプロンプトだったのか分かりませんが、かなり不気味な歯の表現になっています。月面の上のパグ犬…申し訳ありません、フレンチブルドッグが月を探検するシーンです。
花の口のモチーフを楽しんだ人のために、別のバージョンもありますが、今度は口ひげが現れるなど、非常に奇妙な要素がたくさんあります。トウモロコシ抗議デモでは、「コーンはどこだ」「メイズ(迷路/トウモロコシ)はどこだ」「コーンなければ平和なし」というプラカードを掲げています。
犬のポーカーフェイス、つまり有名な「ポーカーをする犬たち」の絵画のシーンは、途中まで全てが上手くいっていましたが、犬が空中に前足を上げた瞬間に消えてしまいました。それ以外は全て素晴らしい出来でした。
ジープの運転席から手を振る男性のショットは素晴らしいシーンです。ホイールの回転が少し変ですが、それ以外は全てかなりリアルに見えます。車を運転する男性のショットでは、彼は非常に緊張した表情で、正気を失いそうな様子ですが、それ以外は全て素晴らしいです。背景の風景、木々、ぼやけた建物など全てが良好です。ステアリングホイールの握り方とステアリングホイール自体は少し違和感がありますが、これは現実にかなり近いです。
これはホラー映画だと思いますが、そうではないのかもしれません。しかし、この…ああ、なるほど、確かにホラー映画でした。かなり奇妙ですね。ここではその映像は再生しないことにしましょう。
サーフィンをする犬のシーンです。現在見ているものの多くは「おすすめ」映像ではないため、ベストオブベストではありません。これらはユーザーが生成したものがランダムな順序で表示されているだけです。もちろん、犬の形が変化するなど奇妙な部分はありますが、全体的には良い出来栄えだと思います。
スウェーデンのサウナにいる女性、魔法の庭を歩くアフリカ系アメリカ人の魔女、燃えるホットソースの瓶を発見するビクトリア朝時代のアフリカ系アメリカ人の子供の驚きと感動のヴィンテージ映像も、非常に良い出来です。このショットのプロンプトは分かりませんが、映像は素晴らしく、反射の表現も素晴らしいです。
実際、彼らがどのように多くの反射を処理しているのか気になります。別のモデルか何かを使用しているのかもしれません。というのも、全体の画像を見ると30fpsなどの一定のフレームレートで表示されていますが、反射は5-10fpsのように見え、少しぎこちない感じがします。これは複数の異なるビデオで気付いた特徴で、特に光源の反射は低フレームレートでレンダリングされているように見えます。
例えば、これらの4つの異なるビデオ、同じテーマの4つのバリエーションを見てみましょう。最初のショットでは水面に太陽が反射し、最終的に建物が水面に影を落とすシーンがあります。これらのビデオの1つを再生してみると、水面の反射は他の部分と比べてかなり低いフレームレートでレンダリングされているように見えます。反射が飛び飛びになっているのに対し、建物を見ている時はかなり滑らかです。
しかし、床やデスクに反射がある別のショットでは、SoRAは反射面の処理を信じられないほど上手く行っています。この木製デスクの上面を見てください。画面の完璧な反射が見え、パンすると照明やオーバーヘッドライトの反射が床やデスクに見えます。これは驚くべき出来栄えです。
これをどのように実現しているのか気になります。1つのAIモデルで全てを処理しているのか、それとも裏で何か技術的なトリックを使っているのでしょうか。というのも、GoogleのDeepMindが作ったAI Doomを思い出してください。ゲーム世界内を歩き回る部分は1つのモデルが担当していましたが、体力ゲージや弾薬数などの表示、つまり下部のサイドバーやヘッドアップディスプレイは別のモデルが生成していたと思います。
ここでの反射にも同様のことが起きているのかもしれません。床への反射が信じられないほど素晴らしい別の例を見てみましょう。窓が床に適切に反射されているだけでなく、この小さな柵が床に反射され、ここではこの十字の柵と小さな窓の柵が反射されています。
ここで1つ奇妙なことに気付きました。これはハンドルが逆向きについているドアですが、それはさておき、これはドアで、これは壁です。壁の後ろに回ると何が起こるか見てください。壁の後ろに行くと、壁が消え、ドアも消えているように見えます。この壁は片側からは見えないのです。
猿の目のクローズアップは本当に素晴らしく、毛や目のテクスチャの細部まで信じられないほど詳細です。
ここでは、おそらくデッドリフトのバリエーションか、もしくはストレッチをしている人物がいます。重りは後ろにラックされていますが、本人は重りを持っていません。ある動きを示していますが、重りを持っていないため、その動きはあまり意味をなしません。それ以外は非常に近い表現です。
エイブ・リンカーンがスピーチを行うシーンだと思われますが、ステージ上の別のショットもあります。口は動いていませんが、手のジェスチャーはかなり良く、生き生きとしています。少しぎこちない部分もありますが、古い写真しか存在しない人物なので仕方ありません。
もちろん、麺類のシーンも必要です。AIビデオ生成にとって麺は非常に難しい課題です。このシーンでは麺との相互作用はあまり見られませんが、悪くはありません。もっと一貫して処理できることを示す良いショットがあるはずです。
これは「シャークプール・スペクタクル」と呼ばれていますが、それについてはこれ以上触れないでおきましょう。サメというよりはカジキのように見えますが、それはさておき。
先ほど生成を試みた全てのビデオはどうなったのか気になるかもしれません。実は、多くが予期せぬエラーに遭遇しました。最初にログインしてビデオを生成し始めた時、ほとんどがエラーを起こして完了できませんでした。ご覧の通り、これらは全て「予期せぬエラー」となっています。その後、時々ビデオを生成できるようになりましたが、まだSoRAの品質には及ばず、このように少しぎこちなく見えました。
しかし、時間とともにビデオの生成は徐々に良くなっていきました。このビデオのために特別に生成しようとした、プリセットなどの様々な要素を変更したビデオの多くもエラーを起こしました。プリセットを使用してリカットしようとした機能は現在うまく機能していないようです。ここでもさらに2つのエラーが発生しています。
これが起きている理由は、現在非常に多くの人々がSoRAを試しているためだと考えています。それにもかかわらず、ビデオの品質は本当に素晴らしく、生成されるビデオの出来栄えに非常に感心しています。おすすめ映像、つまり厳選された映像は絶対的に素晴らしいものです。最近のタブを見ると、おすすめほど良くないかもしれませんが、それでも非常に良いです。
人々が作成しているコンテンツの種類が見られ、素晴らしいものもあれば、そうでないものもあります。確かに品質にばらつきはありますが、全体的に非常に感心しています。
試してみようとしている全ての人に言えることは、一部の機能が動作しない場合は、この大きな波が落ち着くまで数日待つことをお勧めします。例えば、リカット、リミックス、ブレンドなどの機能を使おうとした時、それらは当たり外れが大きく、しばしばエラーが発生しました。ストーリーボードも期待通りの動作をしないことがありました。
これは単なるスキルの問題かもしれません。私が十分な時間を使っていないだけかもしれません。しかし、1つ明らかなのは、SoRAが一般公開されてから最初の1時間と、今8時間後では、生成物の品質が大きく向上しているということです。
エラーの発生率が高くなくなり、約束された機能が全て整った時点で、フォローアップビデオを作成する予定です。機能は非常に魅力的で、ビデオをループさせたり、複数のビデオをリミックスしたり、自分の画像を追加してフルビデオに変換したり、既存のビデオをAI生成ビデオに変換したりする機能は非常に興味深いものです。
コメント欄で皆さんの意見を聞かせてください。これは期待を超えていましたか?それとも品質に少し物足りなさを感じましたか?これはリリースからまだ24時間も経っていないことを覚えておいてください。問題が発生するのは当然です。OpenAIに多くの注目が集まっており、いくつかのエラーが発生したり、登録者数を制限しなければならなかったりしたのは、このような大規模なリリースでは避けられないことです。
個人的には、それでも良いプロンプトとビデオは本当に素晴らしいと思います。私たちが待ち望んでいたSoRAの品質が実現されています。あの驚くべきビデオは確かに厳選されたものでしたが、100万分の1でも1000分の1でもありません。おそらく10分の1か20分の1のビデオが驚くほど素晴らしい品質で生成されると言えます。
もちろん、ある種のビデオは他のものより得意不得意があります。非常に奇妙なものを要求すると、うまく生成できない可能性がありますが、確実に素晴らしい出来栄えになるものもあります。例えば、カニのような映像は以前も見ましたが、非常にリアルです。
電車の窓からの動く映像も本当に素晴らしく、エラーがあるようには見えません。空撮は素晴らしく、昆虫のショットもほとんどの場合非常に良いです。例えば、これらの車の写真のような前景と背景の小さなオブジェクトは一貫性があり、良好です。
全体として、私はこれに非常に興奮しています。さらに使い続けるのが待ちきれません。問題が解決されるにつれて、さらに良くなっていくと確信しています。
コメント欄で皆さんの意見を聞かせてください。ここまで見ていただき、ありがとうございます。私の名前はWes rthです。また次回お会いしましょう。


コメント