OpenAIが最新の動画生成モデルSora 2をリリースした。このモデルは物理法則に従ったリアルな映像を生成するだけでなく、音声効果や対話も同期して生成できる画期的な技術である。従来のモデルと比較して物理的な精度が大幅に向上しており、例えばバスケットボールのシュートが外れた場合、ボールが不自然にゴールにワープするのではなく、リアルにバックボードで跳ね返る動作を再現する。また、Sora by OpenAIという新しいソーシャルメディアアプリも発表され、AI生成動画のTikTokとも言える存在として注目を集めている。Cameo機能により自分自身や友人の姿をAI動画に登場させることも可能となった。まだ完璧ではないものの、現時点で最高水準の動画生成モデルと評価できる技術である。

OpenAI Sora 2の衝撃的な登場
皆さん、1、2、3。準備ができたらどうぞ。3、2、1、スタート。おい、大丈夫か?大丈夫だ。しっかり。くそっ。
さて、OpenAIがSora 2をリリースしました。これは動画生成モデルの最新バージョンで、間違いなくこれまでに見た中で最高の動画生成モデルと言えるでしょう。物理法則に従ったリアルな映像を生成できるだけでなく、V3と非常によく似た音声効果や対話も生成できます。そして、Sora by OpenAIという新しいソーシャルメディアアプリもリリースされました。これはAI生成動画版のTikTokだと考えてください。詳細は後ほど動画の中でお話しします。
このビデオでは、この新しいモデルからの出力をいくつかお見せします。とても素晴らしいものですが、完璧には程遠いです。奇妙な失敗例もありますが、全体的にはおそらく現存する最高の動画生成モデルだと思います。
公式発表と技術的進化
こちらが公式ブログ投稿です。以前のシステムよりも物理的に正確で、リアルで、制御可能だと述べています。それは実際にその通りのようです。また、同期された対話と音声効果も生成できます。後ほど動画の中でいくつかの例を見ていきます。
OpenAIによると、これは動画にとってのGPT-3.5モーメントかもしれないということです。Sora 2は非常に難しいことができます。例えば、オリンピック体操のルーチン、ペダルボード上でのバックフリップなどができます。いくつか例を見てみましょう。
この特定のクリップでは、ここに注目してください。最後に女の子がボールが自分のところに来ると期待しているのが実際に見えます。ボールは彼女のところに来ませんでしたが、手の動きを見ると、ボールが彼女の手の中にあるように見えます。これが失敗例です。
では、いくつかの例で音声をオンにして、音声が動画とどれだけ同期しているか実際に見てもらいましょう。
驚異的な音声と映像の同期
寒いな。みんな、馬には乗れないって言い続けてるけど、馬に乗ってるじゃないか。この2頭には誰も伝えなかったみたいだな。これまでの中で最も安定したペアだ。了解した。上だ。上。中央をカバー。外側。外側。任せて。セット。行け。惜しい。ナイススイング。よくやった、みんな。
興味深いのは、対話だけでなく実況も生成できることです。このシーンを見るだけで、観客からのリアルな実況を生成できるのは本当に信じられないことです。私たちが目にしている本当に信じられないものです。現実とAI生成コンテンツを区別するのは極めて難しくなるでしょう。
物理法則への理解の深化
ブログ投稿では、以前の動画モデルは過度に楽観的だと述べています。テキストプロンプトを正常に実行するために、オブジェクトを変形させ、現実を歪めます。例えば、バスケットボール選手がシュートを外した場合、ボールが突然ゴールにテレポートする可能性があります。
OpenAI Sora 2によれば、バスケットボール選手がシュートを外した場合、ボールはバックボードで跳ね返ります。つまり、物理法則にはるかにリアルに従います。ライブストリームで、モデルが実際にリアルな世界と物理について学習する世界モデルの作成について話しました。そして、それらのことが彼らが共有した結果に現れています。
さらにいくつかの出力を見てみましょう。
崩れている。いいえ、私たちは頂上まで押し進みました。今、勝利があります。知識は目的地ではありません。それは道のりの仲間です。
非常にシンプルなプロンプトから対話を生成できることがわかります。特にこの動画で興味深かったのは、生成する音声効果が生成される動画に非常に関連していることです。これは信じられないことです。V3では動画内にネイティブオーディオが含まれていました。1週間ほど前にone 2.5 previewでもこれを見ましたが、Soraは実際にまったく新しいレベルに引き上げています。
革新的なアプリとCameo機能
動画生成機能とは別に、Sodaという新しいアプリも導入されました。このアプリでは、AI生成動画に自分自身を登場させることができます。そして実際に複数の人を含めることができます。
例えば、こちらはOpenAIの従業員です。
森は隠れるのに完璧だ。何か見つけたと思う。この足跡の大きさを見て。待って、あれ見た?あそこで何か動いている。あれがきっと彼だ。追いかける。
やあ、旅人さん。これはすごいよ。実際に飛べることがわかったんだ。見て。準備はいい?見て。完全に地面から離れてる。外に行こう。ここからの景色は最高だ。こうやってただ漂うことができるんだ。まだ着陸の仕方を考えてるけど、最高の気分だよ。さあ。
いくつかのケースでは、AI動画で通常目立つアーティファクトでさえ見るのが本当に難しいです。特にこれらの画像でのキャラクターの一貫性は本当に信じられないものです。1つのショットから別のショットへと、キャラクターや人物の一貫性が保たれていることがわかります。そしてこれは人物の画像によって駆動されています。本当に信じられないものです。
利用可能性と展開計画
では、利用可能性について話しましょう。Sora iOSアプリは今日ダウンロードできます。今日から米国とカナダのみで利用可能になりますが、招待制なので、全員がアクセスできるわけではありません。
Sora 2は最初、人々がその機能を自由に探索できるように、寛大な制限付きで無料で利用できるようになり、その後ChatGPT proユーザーに提供される予定です。現時点では招待制のシステムだと言っているので、いつ正確に公開されるかはわかりません。
2つ目は、sort 2 APIもリリースされる予定です。おそらくOpenAIから、需要が予想以上だというツイートを見ることになるのではないかと思います。したがって、展開に関してはいくらか遅れがあるかもしれませんが、それは見守る必要があります。
sora.comにアクセスすると、こう表示されています。新しいSoraをご紹介します。改善されたモーションとサウンドで、アイデアを即座に動画に変換できます。そして今、招待コードを入力する必要があります。もし招待状を持っていて共有したい方がいらっしゃいましたら、ぜひ私に送ってください。とても感謝します。
ソーシャル体験の構築
彼らは本当にSora 2を中心としたソーシャル体験を作りたいと考えています。ここでは、汎用シミュレーションへの道におけるSora 2の展開と、物理世界で機能できるAIシステムについて語っています。私たちは、その過程で構築しているモデルで人々がたくさん楽しんでくれると思っています。
彼らは、このアップロード・ユアセルフというアイデアについて語っており、それがこのSoraアプリにつながります。彼らがカメオと呼んでいる機能です。自分自身や友人の許可に基づいて、AI動画を作成できます。
動画の長さについては何も見ていません。カメオの場合、アプリが確認し、あなたの肖像をキャプチャできるように、短い1回限りの音声と動画を実際に録音する必要があります。このようなものには、多くのプライバシー関連の問題が発生するでしょう。また、個人的には、完全にAIによって駆動される別のソーシャルメディアアプリについてどう感じるべきかまだわかりません。
確かにできますが、すでに十分なソーシャルメディアがあると思います。
ユーザーコントロールと安全性への配慮
ここで彼らは、フィードで何を見るかをコントロールするためのツールと選択肢をユーザーに提供していると述べています。TikTokやYouTubeショーツとは異なり、自然言語で指示できるレコメンダーシステムを持つことになります。これは非常に興味深いオプションです。フィードで見たいものの種類を促進できるかもしれません。
当初、これはフォローしたり交流したりする人々に大きく偏り、自分自身の創作のインスピレーションとして使用する可能性が最も高いものをモデル化した動画を優先します。ソーシャルメディアアプリなので、人々に友人と交流してもらいたいため、この招待制アプリのみを作成しています。
次に、10代の健康と幸福の保護について語っています。1日にフィードで見られる生成数に制限を設けます。また、大人に対しても、時間を取ってクールダウンするようリマインダーを設定します。これは良いことだと思います。繰り返しますが、私は多くの時間を終末スクロールに費やすこれらのソーシャルメディアアプリには賛成していません。
収益化モデルと今後の展望
しかし、収益化について語っています。他のアプリの多くの問題は、ユーザーの幸福と対立する決定にインセンティブを与える収益化モデルに起因すると述べています。透明性を持って言えば、私たちの現在の唯一の計画は、最終的に、利用可能なコンピュートに対して需要が多すぎる場合に、追加の動画を生成するために何らかの金額を支払うオプションをユーザーに提供することです。
アプリが進化するにつれて、ユーザーの幸福を主な目標として維持し続けながら、このアプローチの変更を公然と伝えていきます。ユーザーがコンテンツを収益化する能力も提供するかどうかはわかりません。それはOpenAIのもう1つの収益源になるかもしれませんが、それは見守る必要があります。
個人的には、一貫性とモデルが物理法則に従う能力という点で彼らが行った革新にはかなり感銘を受けています。これは本当に信じられないことです。そして私が言ったように、完璧には程遠いです。いくつかの失敗例が見られるかもしれませんが、これはまだ2回目の反復です。
特にこの動画を見ると、手の周りにいくつかの変形があり、人がツールをどのように掴んでいるかがわかります。しかし、これはまだ2回目の反復です。これらの変形を具体的に探していないほとんどの人にとって、それを理解するのはかなり難しいと思います。彼らはAI生成コンテンツを見ています。
OpenAI Dev Dayへの期待
OpenAI dev dayは来週で、私はdev dayに参加する予定です。彼らはdev dayの直前にかなりの数のものをリリースしました。dev dayのために正確に何を用意しているのかを見るのは信じられないほど楽しみです。現地からレポートします。
とにかく、このビデオが役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回お会いしましょう。


コメント