OpenAIが発表したSora 2は、動画生成AIの分野において革命的な進化を遂げた。ネイティブ音声生成、大幅に向上した物理演算、複雑な動きの再現、多様なスタイル対応、マルチショット機能、そして話題のカメオ機能など、10の重要な特徴を持つ。特に物理演算の精度は驚異的で、体操選手の複雑な動きや液体の流れまで自然に表現できる。アニメスタイルの生成品質も高く、ユーザーが自分の顔を動画に組み込めるカメオ機能はバイラル性を高める戦略として注目される。現在は米国とカナダで段階的にロールアウト中であり、OpenAIは50億ユーザーという配信目標に向けて動いている。AGI開発を放棄したわけではなく、むしろ一般ユーザーへの普及を通じてブランド認知を確立する戦略である。

Sora 2の衝撃的な登場
OpenAIがSora 2をリリースしました。知っておくべきことがたくさんあるので、これについて話していきましょう。モーティ、次元間Tik Tokがここにあります。OpenAIがついにSora 2.0を投下しました。これを見てください。
まだこのローンチビデオを見ていない方のために、これがSora 2のローンチビデオです。これを再生します。約2分間です。もし既に見たことがある方は、私が知るべき10のことに入る部分までスキップしていただいて構いません。でももし見ていないなら、かなりクレイジーです。なぜなら、これは何が起こっているのかを正確に示す素晴らしい紹介ビデオだからです。
1年前、Sora 1は動画で可能なことを再定義しました。今日、私たちは全く新しいSora 2を搭載したSoraアプリを発表します。これはこれまでに構築された最も強力な想像力エンジンであり、新機能が満載です。詳細についてはビルに任せます。
今では、すべての動画に音声が付いています。Sora 2は、動き、物理演算、IQ、そして身体力学においても最先端であり、リアリズムにおいて巨大な飛躍を示しています。そして私たちはカメオを導入しており、あなたにあらゆる世界やシーンに足を踏み入れる力を与え、友達があなたを彼らのシーンにキャスティングできるようにします。
AGIへの道において、ゲームは生産性だけではありません。新しい可能性を創造することです。それはまた創造性と喜びについてでもあります。だからこそ私たちはSoraアプリ内でSora 2をローンチし、誰もが想像力の限界を押し広げ、これまで考えられなかった方法で創造できるようにしています。
はい、皆さんはおそらく全体のイントロを見たばかりですね。そして、はい、Sora 2はリリースされました。さて、Sora 2について最も信じられないことの一つは、これが本当に以前の動画生成モデルのイテレーションよりもレベルが上のモデルであるという事実だと思います。そしてそれにはVO3が含まれますが、それに限定されません。
これは誰もを驚かせたものですが、それでも、皆さんに知るべき10のことをお見せしましょう。
ネイティブ音声生成の革新
知っておくべき第1のポイントは、Sora 2にはネイティブ音声があるということです。ここにビーチにいるバイキングのクリップがあります。今、音声なしでそれを見ることができます。
そしておそらく紹介クリップから、音声がどれほどの違いを生むかをご覧になったでしょう。今、あなたは動画を見ています。これは音声なしです。でも、ちょっと話すのをやめさせてください。そして、どれだけ聞こえるかに注意を払ってほしいです。彼が話しているのが聞こえるでしょう。雨がボートに当たる音が聞こえるでしょう。男たちの足が水を激しくかき分ける音が聞こえるでしょう。すべてが聞こえます。そしてそれは本当に完全に異なる雰囲気を作り出します。これをオンにして、私が何について話しているのかを正確にお見せします。
しっかり持て。シールドウォール、北のために。
そう、これは標準的な動画を生成しているときとは完全に異なる体験です。そして私は、これが動画生成に関して最も重要なことの一つだと思います。以前、多くの異なる動画生成ツールで作業していたとき、実際にその音声と音響効果を手動で追加しなければなりませんでした。
しかし今では、それがデフォルトで付いてくるようです。これは非常に非常に大きなアップグレードです。なぜなら、ほとんどの人は音響効果をすぐに用意していて、それらをマッチさせることができないからです。そしてほとんどの人は、多くの異なる著作権問題に直面することなく、音響効果をどこから入手すればよいかさえ本当に知りません。
だから、この埋め込まれた機能、ネイティブ音声は本当に良いです。そして私は、VO3でそれを見て以来、他の動画プラットフォームもこの実践を継続的に採用していくだろうと思います。
物理演算の大幅な向上
第2に、より良い物理演算があります。Chase Brow 3232からのものがあります。そしてこれはかなりクレイジーです。
この図に馴染みがない場合、これは基本的に図です。そしてこれは、IQテストのようなもので時々見るようなものです。オンラインでこのようなテストがあると確信していて、これを見ることができます。そして通常、ボールがどのカップに落ちるかを尋ねます。
しかし、ここで見ることができるもの、そして私はすぐに皆さんにSora 2とSoraとVO3を比較してお見せしますが、これの物理演算は実際にかなりかなり良いです。そしてこれは本当に本当に驚くべきことです。なぜなら、私はこれらの動画モデルが物理的な世界モデルではないという事実についての研究論文を読んだことを覚えているからです。そして彼らには世界モデルの理解が何もないという事実です。
彼らは物理的理解を欠いています。彼らはいくつかのテストを行い、テストはそれをかなり確認しました。しかし、このような特定の例では、これらのモデルが物理を理解しているかどうかを言うのは非常に難しいです。多分それらの研究者は一度研究をしなければならないかもしれません。彼らは実際に再び研究をしなければならないかもしれません。なぜなら、私が異なる動画例をお見せするとき、これは動画モデルから来るものとしてかなり驚くべきものだからです。
モデルはボールがここを滑り落ち、ここを滑り落ち、ここを滑り落ち、そして真ん中のカップに入ることを正しく予測します。そしてもちろん、私は皆さんにモデルの違いをお見せしたいです。
もちろん、同じユーザーがVO3のこの動画を投稿しました。これがVO3 fastなのかどうかは分かりません。VO3には2つの異なるモードがあるからです。しかし私が知っているのは、VOは良い物理演算を持っているものの、カップを正確なエリアに正確に置く物理的な属性を得ることができなかったということです。
そしてもちろん、これにはいくつかの失敗もあります。これは完全に修正可能ではありません。ここでは、ボールが少し弾んでいます。そこを落ちていきますが、完全に壊れるほとんどのシナリオよりもずっと良く見えます。物理が全く意味をなさないような。つまり、ボールが弾んでいて、非決定論的な方法で振る舞い、どこにでも跳ねているなら、それはある程度理解できるかもしれません。
複雑な物理演算の実現
もちろん、第3のポイントは、いくつかの複雑な物理演算があるということです。プロンプトがそこに見えますが、これはかなりクレイジーでした。そして彼らが実際にこの複雑な物理演算の例を使用した理由は、もしまだ見ていないなら、体操選手の物理演算がかなり信じられないものだからです。
VO3と以前の世代のモデルが苦労した最も難しいことの一つは、これを幻覚させずに、めちゃくちゃにしないように効果的にすることが本当にできなかったということです。脚が一緒に混ざってしまうVO3の物理演算の例があります。そしてこれは非常に非常に特定の、体操選手の動画AI生成の使用例でした。
ほとんどの人がこれを何に使うのか分かりませんが、問題は、この動画生成がこのすべてを行っているとき、モデルが脚を一緒に混ぜるようにだまされたり、体を本来あるべきではない方法で向けたりするのが非常に非常に簡単だということです。なぜなら、考えてみれば、世界でこれを実際にできる人間はほんの数人しかいません。
そして、人間がこの種の梁で宙返りする方法を正しく表現できるようにするために得られるトレーニングデータは限られています。だから、このレベルでこれができるということは、控えめに言っても非常に非常に印象的です。そして私は彼らが実際にこれを解決するとは思っていませんでした。将来のモデルでこのレベルに到達できるかもしれないと思っていました。
しかし驚くべきことに、Sora 2があり、そこにあります。さて、それだけが唯一の例ではありません。ここには互いの上に2頭の馬がいます。そして私がこれを複雑な物理演算と言う理由、皆さんは下部にプロンプトが見えますが、これを可能にする物理演算は、あなたが注意を払っていないこれらすべての微妙なことだからです。
馬の毛が流れる方法のように、流れる方向に流れています。すべての一歩ごとに脚の筋肉がただ揺れているのが見えます。馬が実際に他の馬の上でバランスを取ろうとしているように見えます。だから、これらはあなたが本当に注意を払わない微妙なことです。
以前のモデルでは、それは非常に歪んでいて、このAIルックを持っていたでしょう。しかし、この種の動画は、それらの真の不条理を理解しない限り、これらが超リアルに見えることを理解します。
そしてこちらには音声がありますが、音声なしで再生します。そしてこれは本格的なバレーボールの試合があるものです。そして私はこれがAIだと言えるとは思いません。多分それは私にとって悪いことです。しかし、最後に向かってだけ、ボールが実際に落ちて、この女性が少し怖がって砂の中に倒れ込むような、ある種の少しの混乱が見られます。
しかし要点は、音声でこれがどのようなものかをお見せします。音声が実際にあるからです。これをオンにしましょう。
カバー真ん中。外。外。私がやります。セット。行け。近い。ナイススイング。グッドポイント。よくやった、みんな。了解。
そして、これらの種類のことは非常に非常に難しいです。なぜなら、十分に長い期間にわたって動画の一貫性を保つことができなければならないからです。そして、動画を生成している間にそれができるのはかなり難しいです。一方の側に行って、もう一方の側に戻ってきます。
そう、そのすべてのことはかなりかなり難しいです。私が週刊ニュースレターをまもなく始めることをお知らせしたいと思います。だから、このような動画を楽しんでいるなら、すべてのニュースを1つの週刊ニュースレターにまとめます。だから何か見逃しても、週に1回そのメールを受け取ることができます。完全に無料です。
次に、ここにあるもう一つは、キックフリップをするスケートボーダーがいます。そして、これがまた非常に印象的な理由は、ボードが回転するにつれて、モデルがそのボードの向きをリアルタイムで追跡し続けることが本当に難しいからです。ボードがどこに行くかを歪めたり、ここで足に溶け込んだりすることなく。
だから、私がスローダウンしているのを見ると、すべてが一貫して見えることがわかります。彼がこのエリアに飛び上がるときでさえ、彼がボードから落ちて、ボードがかなりかなり無傷に見えることがわかります。何も奇妙に見えたり、変に見えたりするものはありません。このクリップについてのすべてが非常に非常に包括的に見えます。
そして私は皆さんにこのクリップが音声でどのように見えるかをお見せします。もしかしたらそうではないかもしれません。なぜなら、バックグラウンドミュージックがあって、それが著作権で保護されているかどうか分からないからです。それにもかかわらず、Sora 2について理解しなければならないことは、モデルの物理演算が非常に非常に印象的であり、こんなに短い時間でモデルからこのレベルの物理演算を見ているのは信じられないということだと思います。
Sora 1がリリースされたとき、私は本当に本当に驚きました。そして私は自分が見ているものを本当に信じることができませんでした。でも、彼らがこれをできたことに驚いています。
スタイルの多様性とアニメ表現
さて、第4のポイントにも進みましょう。第4のポイントは、より良いスタイルがあるということです。彼らが成し遂げたことの一つは、このアニメスタイルを本当に釘付けにしたことです。
これは以前、異なる動画基盤モデルで見たもので、そのアニメスタイルが本当にうまくできているのを見たときは本当に印象的でした。しかし今、OpenAIは何をしたのか分かりませんが、彼らはそのスタイルを完全に打ち出しました。
長い動画では、インターネットで見たすべての異なるスタイルをお見せしますが、一貫して見てきたもので本当に本当にクールに見えるものの一つは、もちろんアニメスタイルです。
さて、ここでもう一度見ることができます。これはアニメスタイルです。ここで見ることができるのは、これがマルチショットエリアに関しても非常に非常に効果的だということです。後で話すことですが、アニメは、そのスタイルについて何なのか分かりませんが、本当に本当に本当に良く見えます。
そして分かりませんが、それは私にとって非常に非常にリアルに見えます。多分私はすべての小さな小さな間違いを見るのに十分なアニメを見ていないのかもしれません。しかし私は本当に、将来的に人々がワンクリックで自分のアニメテレビ番組を生成できるようになると信じています。「これをしたり、あれをしたりするアニメを生成できますか?」というように。
そして最悪なこと、まあ、最悪なことではありませんが、最も面白いことは、実際にTwitterで誰かがそれをしているのを見たことです。彼らはGPU不足についてのアニメを持っていて、実際にかなり良かったです。もしSora 2について知らなければ、誰かがおそらくそれらのクリップを一緒に構築し、かなりの時間を編集に費やしたと言っていたでしょう。
そして、それがこれについて本当に驚くべきことでした。そしてもちろん、私が話していたように、マルチショット指示について話していました。
マルチショット機能の革新性
彼らが話していることの一つは、マルチショット指示ができるという事実です。ここで見ている動画は、Sora 2以前は、平均的なユーザーがこれを行うのはかなり難しかったことを理解しなければなりません。動画モデルを使っているだけの人なら、1つか2つのクリップしか得られませんでした。
そしてそこから、反復してから、それらのクリップを動画エディタで組み合わせる必要がありました。しかし今できることは、プロンプトの方法で、兵士がこの場所のビーチに突撃するとか何でも言うことができます。そして、すべてが非常にまとまっているので、ストーリーを構築するのがはるかに簡単になりました。
「OK、背景のシーンを取得して、それからビーチに走っている男性のシーンを取得して、それから旗を掲げている男の最終シーンを取得します」というように言う必要はありません。それから武器を掲げているところ。そして私は、これがゲームを変えているものだと思います。
なぜなら、ユーザーが本質的に引き継ぎ、音響効果、ショット選択のようなすべての難しさを取り除く使いやすさを本当に本当に持つことができるすべてのAIアプリまたはすべてのAIプラットフォームだからです。そのようなものは、そのようなものを本当に使いたい普通の人々がいるところです。
そしてマルチショット指示は、これを次のレベルに引き上げるものです。そしてこれは私が見てきたもので、Soraアプリ全体で見る動画で見ることになるものです。複数の複数の異なるマルチショット指示が見られます。
カメオ機能のバイラル性
さて、私たちが持っている際立った機能の一つ、そしてこれはバイラル性のための機能だと推測していますが、これがカメオ機能です。カメオ機能は、おそらく私のお気に入りの機能の一つです。なぜなら、Sam Altmanがこれらすべてのコメディックなものに登場しているのを見るのは、本当に本当に本当に面白いからです。
彼がこのクリエイターとこの動画をやっているのを見ることができますが、彼は実際にそのクリエイターとその動画に入っていません。それは私にとってかなり面白いです。そしてここで、Sam Altmanが文字通りこの男と話しているのを見ることができます。そして嘘はつきません。完全に完全にリアルに見えます。聞いてみてください。
毎分厚くなっていく。雨が来るにおいがする。ただの雨じゃない。西から前線が押し寄せている。気圧が急速に下がっている。40を超える突風が見られるだろう。今夜、彼らはフェスティバルを中止すると思うか?
これは非常に非常に興味深いです。なぜなら、これが実際に今持っているものであり、OpenAIがこれについて非常に賢かったと思うからです。彼らが望んでいるのは、人々が他のユーザーとクリップを共有するバイラル効果であり、このユーザーがこれをやっていた、このユーザーがそれをやっていたというようなことです。そしてこれがOpenAIの目標であることを覚えておかなければなりません。
OpenAIの目標は、人々が何でもすることの完全なバイラル性です。Sora 2は、誰もが使う1つのバイラルクリップを手に入れることができれば、おそらく次の2週間で非常に人気が出ると思います。そうすれば、このアプリがどこにでもある可能性があります。
今のところそれを阻んでいる唯一のことは、世界中に展開されていないということです。それについては後で話しますが、例えば、これを見てください。
Soraチームで働いていた誰かが、引用符付きでJake Paulとのコラボレーションをしました。そして彼らが一緒に座って電話を見ているのを見ることができます。そして、もし私がこれ以上考えず、ここにこの小さなウォーターマークを見なければ、これはもちろん本物の動画だと言っていたでしょう。なぜなら、彼のイヤリングの付け方さえも、それに注意を払ってください。
それは私の視点では非常に非常にリアルです。通常、AI動画では、それらの小さな細部は正しく行われません。そしてそれらは、動画がAI生成されているとわかる小さな明らかな兆候です。もちろん、大きな手がかりはSoraのウォーターマークです。これは素晴らしいです。なぜなら、それがエリアに出回っているからです。
だから、AI動画がどこにでもあって、あなたが気づかないという意味で普及するのはかなり難しいです。もちろん、オープンソースツールにはその能力があります。しかし、私がここで言おうとしているのは、ウォーターマーク以外には、それが完全にAI生成されていると教えてくれる手がかりがそれほど多くないということです。
ここで何も法外なことは起こっていません。彼はただ動画を見ているだけで、もしあなたが彼なら、いくつかの小さな違いに気づくかもしれませんが、私が言おうとしているのは、カメオは本当に本当に本当に面白いということです。
Sam Altmanがデータセンターエリアを走り抜けるこのカメオを誰かが作成したのを見てください。基本的に、おそらく今起こっていることです。GPUの火を消しています。つまり、何が起こっているかはかなり面白いです。
ああ、GPUがまた調理されている。ちょっと待って。ちょっと待って。さあ。消えろ。消えろ。もう一つ。左側。じっとして。じっとして。よし。OK。全部だと思う。
そして、彼らが顔をこんなに良く見せる方法を知りません。以前にOpenAIのモデルで試したことの一つは、もちろん顔などを見ることですが、それはかなりかなり奇妙で、私にとってはそれが本当に本当に効果的です。
だから、間違いなくカメオの機能は、際立った機能の一つになるでしょう。
現在の制限と課題
そして、第7のポイントとして言いたいことは、このプラットフォームには現在まだ間違いがあるということです。見ている動画は本当に本当に良く見えます。ほぼ完璧に見えるでしょう。しかし、これらはOpenAI自身が選んだ動画であることを覚えておかなければなりません。
彼らはすべての生成ミスがある動画をお見せしません。覚えておいてください。このソフトウェアでは、すべての動画が異なります。1プラス1が2であるというような決定論的なものではありません。
むしろ、何かを生成しようとしていて、モデルが複数のアイデアを統合して、何が起こるかを見ているようなものです。だから、動画で起こっている奇妙なことがいくつかありますが、将来に入り、物事が続くにつれて、小さな間違いを切り取れば、通常、最初期のモデルから得られる奇妙なAI生成の問題をあまり見なくなるポイントに到達し始めると思います。
だから、このモデルがどれほど優れているかは非常に非常にクレイジーです。なぜなら、私は多くの多くの間違いを見ようとしたからです。しかし、非常に分布外のもの、つまりトレーニングデータで、同じように見える動画を提供できるほど多くの例を持っていなかったものを生成していない限り、多くの問題があるのはかなりかなり難しいでしょう。
さて、ロールアウトを見ている場合、私は現在Sora 2にアクセスできていません。もちろん、私はイギリスにいるので、とにかくアクセスするのはかなり難しいです。しかし、Soraに参加したい場合は、招待コードを取得する必要があります。招待されると、4人を招待できます。
だからOpenAIは、できるだけゆっくりとこれをロールアウトしようとしていると推測しています。なぜなら、彼らはこれまでどんなロールアウトにも十分な計算能力を持ったことがないからです。そして、この種のロールアウトでは、誰もがアクセスできれば、今頃非常にバイラルになっていたと思います。
しかし現在は、今すぐアクセスできません。実際にアクセスできる唯一の方法は、ウェブアプリsora.comにアクセスすることです。アカウントのアクセスが開かれたときにプッシュ通知を受け取るために、アプリ内でサインアップできます。そして最初のロールアウトは、今日、米国とカナダ向けになります。そしてもちろん、彼らはすぐに追加の国々に拡大する予定です。
だから、これは無料でもあるようです。そしてChatGPT Proユーザーは、Sora 2 Proと呼ばれる実験的な高品質バージョンを使用できるようになると書かれています。だから、これは非常に非常に興味深いことになるでしょう。なぜなら、Proモデルがあり、現在、どのバージョンがProでどのバージョンが標準なのか分からないからです。
OpenAIの戦略とAGIへの道
さて、ロールアウトについて話した後、これについて話す必要があります。なぜなら、これは今、誰もが話していることだからです。誰もが、これがAGIの終わりなのかという事実について話しています。人々は、OpenAIがAI生成動画のためのソーシャルアプリをローンチする準備をしているという事実について、何百万もの何百万ものツイートや投稿を見てきました。
そしてこれが世界を台無しにするという事実。人々の脳を台無しにするでしょう。そして、彼らはAGIを構築するというミッションを持っていたのに、今ではAIスロットマシンのようなものを構築しているように見えるという事実です。AIは起こっていないと誰かが言っているのを見ることができます。
さて、Sam Altmanが行ったインタビューがありました。それは大々的に宣伝されたインタビューではありませんでした。それほど多くの視聴回数を得られませんでした。しかし、OpenAIの実際の目標が何であるか、そして5年から10年後にどこに向かうのかを人々に思い出してもらいたいです。
5年から10年後、Sam Altman自身がインタビューで、彼の会社OpenAIにとって最も人気があり最も重要なものは、最高の大規模言語モデルや世界で最もスマートなAIではなく、50億ユーザーになるだろうと言いました。
それが彼らが最適化しているものです。彼らは完全に配信を最初に最適化しており、つまり、日常的に平均的な人が使いたい通常の日常的な製品を最適化しているということです。それはAGIの目標を達成しないという意味ではありません。彼らは日常の人々の意識の中に入りたいだけであり、それが彼らの真の目標になるでしょう。
だから、AGIが起こっていないと述べている人々を見るとき、私はそうは思いません。それはただ、これらのことが、OpenAIが行わなければならない戦術的なことだということを意味します。なぜなら、最もスマートなモデルを手に入れたとしても、AIの仕組みは、そのブランドアイデンティティを持つ必要があるだけだからです。そして私は、それが将来的により有用になると思い、Samも同じことを考えているので、彼はこれをやっています。
だから、OpenAIがAIスロップフェスト企業になるとは思いません。彼らは未来がどこに向かっているかを知っているだけで、パイの大きなシェアを望んでいるだけだと思います。
さて、彼らはまた、このAIスロップフェストに関して、フィードで10代が1日に見ることができる生成数にデフォルトの制限を設けており、このグループのカメオに対するより厳格な許可も展開していると話しています。
基本的に、彼らはいじめを防ぐことを目指しており、人々がこれらのアプリで24時間365日ドゥームスクロールすることを望んでいません。このアプリはおそらく本当に人気が出るでしょうが、彼らは、見てください、何時間もドゥームスクロールできるTik Tokのようにはさせないと言っています。彼らはただ楽しいものにしたいだけです。
それは将来変わると思いますが、私たちは決して知ることはないでしょう。さて、このユーザーから見た他のことで、かなりクレイジーだったものがあります。そして、これの著作権がどのように機能するのか分かりませんが、実際にリック・アンド・モーティのAI生成エピソード/部分を手に入れました。分かりません。
これが本物だとはまだ信じられませんが、これを見てください。モーティ、次元間Tik Tokがここにある。OpenAIがついにSora 2.0を投下した。これを見ろよ。ああ、私たちは。
つまり、皆さんについては分かりませんが、モーティを見たことがあれば、それが実際に悪くないことが分かるでしょう。悪くないです。AIっぽく見えません。実際に、伝えようとしていることに関しては本当に良いです。
だから、実際に面白ければ、おそらくこれのいくつかのエピソードを見るでしょう。しかし、AIエピソードが未来になると想像できますし、OpenAIの新しい技術がこれらの動画作成やスタジオの一部を動かすと想像できます。
しかしもちろん、ユーザーが将来このようなものを作成しようとする場合、今のところ、お気に入りのテレビ番組から何かを生成することができるでしょう。しかし、おそらく数日後に、彼らはこれをロールバックするでしょう。おそらく著作権法などのためです。そして企業は、人々が複数のエピソードを生成したり、トレーニングデータから盗んだりすることを望まないので、すでに多くの多くの精査に直面しています。
その全体的な混乱があります。しかし、このアプリのお気に入りの機能が何か教えてください。そして次の動画で皆さんにお会いできることを楽しみにしています。


コメント