OpenAIが発表したSora 2は、動画と音声を同時生成する画期的なAIシステムである。従来のSora 1から大幅に進化し、複雑な物理法則の再現、自然な身体動作、高度なIQを実現している。特筆すべきは新機能「Cameo」で、ユーザー自身や友人、さらにはペットの短い映像から特徴を学習し、あらゆるAI生成シーンに自然に組み込むことができる。この機能により、AI生成コンテンツは単なる創作ツールを超え、新しいコミュニケーション手段として位置づけられている。Soraアプリは招待制でiOSから提供開始され、ソーシャルフィードを通じて友人と創造性を共有できるプラットフォームとして設計されている。厳格な本人確認と権限管理により、なりすまし防止とプライバシー保護が徹底されている。Web版とAPI提供も予定されており、プロのクリエイター向けの高度な制御機能も実装される。OpenAIはこのプロジェクトを、汎用人工知能(AGI)実現に向けた物理世界の深い理解を目指す研究の一環と位置づけており、生産性向上だけでなく創造性と喜びをもたらす技術として展開していく方針である。

Sora 2の登場
1年前、Sora 1は動画表現の可能性を再定義しました。本日、私たちは全く新しいSora 2を搭載したSoraアプリを発表します。
これはこれまでに構築された最も強力な想像力エンジンです。そして新機能が満載です。詳細についてはビルにお渡しします。
音声生成と物理演算の飛躍的進化
今や、すべての動画に音声が付いてきます。
Sora 2は動き、物理法則、IQ、身体力学においても最先端であり、リアリズムにおける巨大な飛躍を示しています。そして私たちはCameoを導入します。これはあなたにあらゆる世界やシーンに入り込む力を与え、友人たちがあなたを彼らのシーンにキャスティングできるようにします。
AGIへの道のりにおいて、利益は生産性だけではありません。新しい可能性を創造することなのです。それは創造性と喜びについてでもあります。
だからこそ私たちはSora 2をSoraアプリ内でローンチし、誰もが想像力の限界を押し広げ、これまで考えもしなかった方法で創造できるようにします。
開発チームの紹介
現実へようこそ。私はビルです。Soraの責任者を務めています。私はローハンです。Soraプロダクトチームをリードしています。私はトーマスです。Soraエンジニアリングをリードしています。
2024年2月に、私たちはSora 1を発表しました。私たちは内部的にこれを動画生成におけるGPT-1の瞬間として捉えています。動画が本当に機能し始めた最初の瞬間であり、物体の永続性のような単純な振る舞いが事前学習のスケールアップから現れ始めました。
それ以来、Sora研究チームはモデル能力における次のステップ関数的変化を提供するために懸命に取り組んできました。そして今日、皆さんにSora 2をお見せできることに大興奮しています。
Sora 2の革新的機能
Sora 2は私たちのフラッグシップとなる動画と音声の生成システムです。そして皆さんは今、それができることの一端を見ました。
このモデルを手にして最初に気づくのは、物理的な相互作用において、これまでのどんな動画生成システムよりもはるかに賢いということです。過去には、オリンピックの体操競技のような本当に複雑なダイナミクスや、ウェイクボードでバックフリップをするようなことは本当に難しかったのです。Sora 2はこうした種類の複雑な衝突を扱い、極めて自然に感じられる方法でダイナミクスをモデル化することにおいて、はるかに堅牢です。
チームはまた、以前のモデルと比較してSora 2の操作性を改善するために多くの作業を行ってきました。多くの場合、動画生成システムをショットごとの方法で使わなければなりませんでした。同じ生成内で複数のショットを含む長い物語を作り出すのは本当に難しかったのです。Sora 2はこれがはるかに得意で、より長く、より一貫性のあるストーリーを一気に語ることができます。
もちろん、ここでの大きな機能は音声生成です。これは動画と音声を同時に生成する最初のSoraモデルです。そしてこれは非常に汎用的なシステムです。複数の話者にまたがる様々な言語で対話を生成できます。効果音さえも、そしてサウンドスケープさえも生成できます。
Cameo機能の革新性
私たちは皆さんがこのモデルを手にすることに本当に興奮していますが、何よりも私たちが本当に興奮している機能が1つあります。それはCameoと呼ばれる新機能で、Sora 2独自のものです。
その仕組みは、例えば私、ローハン、またはトーマスの短いクリップを観察することです。その後、その人物を取り出して、あらゆるSora生成環境に挿入することができます。先ほどの動画で私とサムの例をいくつか見ましたが、これは私たちのワールドシミュレーションモデルから生まれる非常に汎用的な機能です。
その仕組みは、最終的には人間だけでなく、ペットや物体のクリップを観察するだけで、モデルがそれを本当に深く理解し、まるで別のテキストトークンのように、あらゆるプロンプトにそれを注入できるということです。
私たちは皆さんがこのモデルにアクセスできることに本当に興奮しています。しかし、私たちが本当に見せたいのは、このモデルのすべての魔法を本当に捉えるために、製品側で何をしているかということです。
初期の頃、これらの機能を開発していた際、Sora研究者たちは本当にこれが新しい種類のコミュニケーションだと感じました。最初はテキストメッセージとして始まり、その後絵文字やボイスノートに移行したものが、このCameo機能によって新しい動画ベースのメディアに進化しているように本当に感じられました。
そして時間が経つにつれて、モデルのこれらすべての素晴らしい能力を本当に捉え、できるだけ多くの人々の手にこれを届けるために、新しい製品表面を開発する必要があることが本当に明確になりました。ローハンとトーマスはここで多くの素晴らしい仕事をしてきましたので、彼らにもう少し詳しく話してもらいます。
Soraアプリの体験
素晴らしい。それでは、皆さんアプリを見たがっていると思います。そこに入る前に、少し舞台設定を。
これから見るのは、以前にソーシャルメディアを使ったことがあれば非常に馴染みのあるインターフェースです。アイデンティティという概念があります。プロフィールがあります。つながっている他の人々をフォローできます。しかし、その中のすべてのコンテンツはAI生成されます。
ボットによって投稿されるのではありません。人間によって投稿されますが、すべてAI生成です。そしてこれは、基本的に私が使った他のものとはかなり異なる、非常に非常に興味深い感触を持っています。本当に新しいメディアのように感じられます。
フィードを見ると、Soraチームで私たちが楽しんできたすべてを見ることになります。製品で遊ぶ中でいくつかのミームが出現しています。増大する需要に対応するために常にGPUが必要だということがあります。ケチャップについての1つがあります。何らかの理由で私がケチャップを飲んでいて、これは実話に基づいていると思いますが、まだ理解できていません。でもそこにあります。そしてもちろん、香水や、モデルを様々な方法でストレッチする他のものについての楽しいものもあります。
でもローハン、ただ見せてもらえませんか。
ええ、アプリに飛び込みましょう。
さて、ここでSoraアプリをクリックして、フィードにドロップされます。分かりました。Soraは収益化前です。収益を見せると、人々がいくらかと尋ね、それは決して十分ではないでしょう。100倍または1000倍の企業だったものが、突然2倍の犬になります。しかし収益がなければ、収益化前だと言えます。
アプリは確かに収益化前です。ここで注目すべきいくつかのクールなことがあります。これは私が以前に話していたCameo機能の例ですが、実際にこれは1つの中に2つのCameoがあります。つまり、これは私がサムと同じシーンで話しているのです。
そして、これらの動画を本当にリアルに感じさせる多くの小さな詳細に気づくでしょう。これらの前後の小さなショットチェンジ、私とサムの顔の自然なジェスチャーと表情。対話を正確に捉える自然なリップシンク。これらすべてがSora 2で真新しいものです。
さて、続けましょう。オーケー、これを見てください。ライトを消しますね。ワオ、ちょっと待って。なぜ私は漫画なの? それは起こるはずじゃなかった。ライトはまだついています。でもこれはちょっとクールですね。
これは本当に大好きです。Sora 2のダイナミックレンジは信じられないと思います。そこにある多くの以前のモデルは、単一の美的感覚に崩壊するように見えますが、Soraは本当に広く多様な範囲を持っていて、それは素晴らしいです。インターネットの創造性がこれにアクセスできるのが待ちきれません。
続けましょう。ニュースに戻りますが、先月の男はマクドナルドのケチャップを食べるのをやめられません。そのままから見て、ケチャップの問題じゃないんです。体験の問題なんです。健康専門家は懸念しています。
ニュースに戻ると、先月の男がここにいます。彼は絵から出てきたような生きた感じがします。すべての品種は物語を運んでいます。近くにいれば、彼の声が聞こえるかもしれません。
見てみましょう。このCameo機能は本当に汎用的です。私が言っていたように、人間に使えますが、ペットにも使えます。これは実際に私の本物の犬、ロケットです。アニメスタイルでレンダリングされています。
ローハンが言っていたように、これは生成できるスタイルの範囲という点で本当に汎用的なモデルです。リアリズムからアニメまで、その間のすべてをカバーできます。
素晴らしい。私はインスピレーションを感じています。生成を実行すべきだと思います。画面の下部に、このプラスボタンが表示されます。そこをクリックすると、シンプルなコンポーザーにドロップされます。
ここで、あなたが持っているあらゆるアイデアを、あらゆるスタイルで、あらゆるシーン、トランスクリプト、そういったすべての種類のものを説明でき、動画を得ることができます。CameoとあるこのトレイがCameoの上に表示され、一番左に私、ローハンと、ここでネットワーク上にいる何人かの友人が見えます。彼らは私に彼らをCameoする許可を与えてくれました。
Cameoで生成を実行しましょう。多分ほとんどの人が知っている誰か。サムにしましょう。サム、どう思う? 彼はこのライブストリームがどれだけうまくいっているかを祝わなければなりません。それについて叫んでいます。拳を振り上げて叫んでいます。さて、それを発射します。
Sora 1と同じように、これらの生成には数分かかる可能性があります。それがバックグラウンドで起こっている間に、Cameo機能についてもう少し詳しく説明します。おそらく疑問に思っているでしょう、どうやってこれを設定するのか? 許可はどのように見えるのか? どうやってこれを安全に保つのか?
ここに飛び込みましょう。これは私のプロフィールです。Cameoを編集をクリックします。この画面では、多数のCameo設定が表示されます。設定に入る前に、実際にCameoをアップロードする方法について話したいと思います。
ここで再撮影をクリックします。このフローでは、ダイナミックな音声プロンプトを録音するように求められます。つまり、ランダムな音声チャレンジが提示されます。その後、生存確認があります。特定の方向に頭を動かすように求められ、それが私たちのシステムに送信され、そこで基本的に誰もあなたになりすましていないことを確認し、これが確かにネットワーク上のあなたであることを確認するために大量の検証を行います。
それが完了し、Cameoが承認されたら、このCameoを誰が使用できるかを設定できます。私だけが自分のCameoを使用できる、承認した人、相互フォロー、全員、と決定できます。あなたはこのネットワーク上で自分の肖像を完全にコントロールできます。
あなたが明示的な許可を与え、このCameoフローを経ずに、誰かがあなたを生成する方法はありません。これは私たちにとって非常に重要な原則です。
他にもいくつかの注意点があります。モデルがどのようにあなたを描写してほしいかをガイドできます。モデルは素晴らしいですが、完璧ではありません。時々、物事を幻覚する可能性があり、スキニージーンズや変なアクセントなどを私に与えるかもしれません。
だから、Cameo設定に入って、生成を実行する際にこれを調整できます。これは、これを設定する人全員に提案します。そして、これをより細かくコントロールできるような高度なフローのようなものを追加する予定です。
しかし、それまでの間、すでにこれを行ういくつかの方法があります。これは多くの楽しみにも使えます。チームで楽しんでいるのは、自分自身に面白い帽子や変なものを与えることです。ローハンは後で見ることになる金のチェーンをいつも持っていますが、それらの指示を使ってモデルを別の楽しい方法でガイドします。
もう1つ、私たちにとって本当に重要なことは、自分自身のアイデンティティに対する所有権という考え方です。あなたが誰かに許可を与えて権限を与えた時に、あなたのCameoで作成されたすべてのもの、あなたはそれに対する完全な権利を持っています。あなたはそれを削除できるという意味で。あなたはその動画の所有者のように扱われます。
ええ、その通りです。クール。フィードに戻りましょう。もう少し宝石を見てください。
Sora 2、Soraからの新しいフレグランス。新鮮、清潔、そして謝罪しない。私は香水を使いませんが、もしそれがSoraをテーマにしていたら、検討するでしょう。可能性。
このアプリとこのモデルの私のお気に入りの機能の1つ。そして、この技術で独自に可能になったものだと思います。それは、このリミックス機能を通じて、トレンド、ストーリーライン、クリエイターが取り組んでいる宇宙のような何らかの伝承にすぐに参加する能力です。
これが見えます。インスピレーションを感じています。これの自分自身のバリエーションを見たいです。ここでこのリミックスボタンをクリックするだけです。新しいフレグランスから。ここでリミックスボタンをクリックして、これを広告にすると言えます。
ああ、これを広告にする。何かアイデアは。シルクハット。巨大な羽のついたシルクハット。いいですね。オーケー。そして、ブーム、その生成を発射します。
そして、Soraは私の貢献に取り組みます。その間に、この香水の他のリミックスを実際に見てみましょう。
Sora 2、Soraからの新しい歯磨き粉。新鮮、清潔、そしてあなたが選ぶ誰であるかに対して謝罪しない。Sora 2、可能性の笑顔。可能性の笑顔。
私は現実では韓国語を話しませんが、Soraでは何でも可能です。
さて、フィードを続けましょう。みんな、私のキックフリップを見て。これは私たちの同僚ミニアがキックフリップをしているところです。これは信じられない物理法則です。他のどの動画生成モデルでもこのようなものは見たことがありません。
私は約20年間、これを自分でやろうとしてきました。まだキックフリップに取り組んでいます。でもええ、ここでのモデルによる物理法則の信じられない表示です。
夢。ローハンの選手権ポイント。はい。ヘイターたちに私の燃料にしてくれて感謝したいと思います。そこに私の金のチェーンが見えます。そしてもしトーマスが生成を作ったら、彼は知らず知らずのうちに私の金のチェーンをそこに手に入れることになり、それがこの機能の楽しさの一部です。
ダンス、ばかげています。みなさん、声を上げてください。そして最後に、本当に良い範囲です。Soraアプリをダウンロードしてください。すぐに方法をお伝えします。
クール。生成をチェックしましょう、でもまだ進行中かもしれませんが。ああ、サムのができました。
さて、このライブストリームは本当にうまくいっています。行きましょう。興奮しています。素晴らしいです。私たちはそれを粉砕しています。さあ。皆さんありがとうございます。これは素晴らしい。ねえ、ありがとう。ありがとう。
さて、もう一方はまだ生成中だと思います。それが進んでいる間に、トーマスにこのアプリに関する私たちの哲学についてもう少し話してもらうために戻します。
アプリ開発の哲学
ありがとう、ローハン。このプロジェクトを最初に進めていた時、これが会社として実行し、コミットしたいものになるかどうか本当に確信が持てなかったことを認めたいと思います。
私たちは皆、AI生成フィードを持つというアイデアと、それがどのように感じられるか、実際の人間のつながりとの接触を失うかどうかについて、少し懐疑的でした。
このCameo機能を使い始めてから、本当に違うと感じます。新しいメディアのように感じられ、友人とつながる新しい方法のように感じられ、私自身も驚きました。フィードをスクロールしていて、ああ、それに少しだけ即興で何ができるだろうか、待って、自分自身をその動画に入れられるか、と考えている時、それは非常に異なる操作モードです。本当に非常に異なると感じます。
そして私は、つながりの概念を持つチームでこれが展開されている方法に非常に非常に満足しています。時間が経つにつれて私たちが気づいたことの1つは、一般的に多くのソーシャルメディアが友人や家族のつながりという考えから離れてきたということです。
私たちは、Soraは創造することが非常に簡単なので、これに傾倒できると信じています。以前は不可能だった方法で創造することが非常に簡単です。そしてそれをフィードに入れて、つながったコンテンツを大いに優先する予定です。
また、つながったコンテンツだけを見ることができるフォローフィードが常に利用可能です。そして、フィードをコントロールする方法でいくつかの主体性を与えるいくつかの新機能もあります。
フィードの上部にベータ機能があり、見たいコンテンツのタイプを選択できます。たとえば、リラックスした気分の場合、リラックスしたいと言えます。動物。動物。私たちはいつもそれで楽しんでいます。かわいい動物だけを見る。そして、その時にやりたいことと本当に一致するコンテンツを表示するようにモデルをガイドできます。
また、単にフィードをスクロールすることだけでない方法で、創造的になること、インスピレーションを与えることを奨励するためにフィードを大いに最適化する予定です。
素晴らしい。生成が完了したと思います。それを見てみましょう。
巨大な羽のついた新しいシルクハット、大胆、エレガント、そしてあなたが選ぶ誰であるかに対して謝罪しない。プルーム、可能性の帽子。買いたいですね。
クール。そして、このネットワークで安全性とモデレーションにどのように取り組んでいるかについてもう少し話します。
安全性とモデレーション
明らかに、トーマスが言ったように、私たちは内部的に純粋にAI生成されたフィードの懐疑論者でしたが、この人間のつながりを感じてきました。これが最良のフォームファクターだと感じましたが、このようなフォームファクターの良い面を増幅し、短編動画によくある悪い面を軽減することを確実にしたかったのです。
ここにはいくつかのことがあります。1つは18歳未満の場合、18歳未満向けの別のポリシーセットがあります。デフォルトでは無限スクロールはありません。あなたの体験のかなり早い段階でクールダウンのある停止期間があります。
大人でさえ、スクロールプロセスの後半で、もしあなたがドゥームスクロールループにいると思われる場合は、創造へとナッジします。なぜなら、私たちはそれが楽しいことであり、通常このアプリで気分が良くなると考えているからです。
もう1つ本当に重要なことは、このコンテンツが私たちのプラットフォームの外にある時は常に、AI生成であることが明確にラベル付けされることを望んでいるということです。そこで、いくつかの来歴技術があります。
まず第一に、私たちのアプリからエクスポートする時、目に見えるウォーターマークが付けられます。だから、これらのものが他のネットワークで浮遊している場合、そこにSoraアニメーションが表示されます。
また、内部的には、インターネットで浮遊しているのを見た場合、私たちが見る生成を常にSoraまで追跡する技術もあります。そしてC2PAもあります。
そして、Sora 1と画像生成で行われたすべての素晴らしいモデレーションの上に取り組んでいます。このネットワーク上で有害なコンテンツを作成することが非常に難しいことを確実にする推論モデルが内部にあります。
明らかに、誰もX指定または暴力的なコンテンツを作成できないCameo機能では極めて重要であり、それは私たちが設置したすべての種類のガードベルでケースになっており、それは素晴らしいです。
明らかに、私たちはここでモデレーションについて少し保守的に始めています。過剰なブロッキングが見られるかもしれません。事前にお詫び申し上げます。
ミームについて。ええ、人々は過剰ブロッキングで私たちを内部的にミーム化しています。だから、私たちはユーザーの自由と、ネットワーク上で悪いことをしようとしているかもしれない人々の、このバランスを見つけています。そして時間をかけてそれに取り組んでいきます。
最後に、ビルに戻す前に、展開する予定の他のいくつかのサービスについて話したいと思います。
Webアプリとロールアウト計画
Sora 1、sora.com、私たちの既存のWebアプリはこの新しいモデルを取得します。少しフェイスリフトが見られるでしょうが、モデルがシーンをショットごとにどのように作成するかを本当にコントロールできる、近日中に、おそらく1週間かそこらで来るかもしれないストーリーボードのような素晴らしい機能もまだあります。
ビルが言及したように、このモデルには非常に多くの制御可能性と力があります。私たちは、ネットワーク用の素晴らしいコンテンツを作成できるように、素晴らしいクリエイターツールに本当に投資したいと考えています。
そして、数週間以内にAPIもローンチする予定です。人々が素晴らしいことができる使用例のロングテールがあり、私たちが構築したくないかもしれない細かい編集コントロールのようなものがありますが、他の人がそれを行うかもしれません。人々はこれを自分自身の動画エディタに統合したいかもしれません。そして今、それがSora 2で可能になります。
ええ。私たちがこれをどのように展開しているかについて話したいですか?
ええ。今日が日です。今日の午後遅くから、App StoreでSora iOSアプリをダウンロードできるようになります。私たちはiOSでのみ開始しています。チームはAndroidバージョンを稼働させようと懸命に取り組んでいますが、お待ちください。
私たちは最初に米国とカナダでローンチし、招待ベースのロールアウトを行っています。私たちが言ってきたように、友人と一緒にこのアプリに来ることが本当に重要だと思います。これは本当にソーシャルな方法で、ほとんど新しいメッセージング形式として最もよく体験されます。
そして、待機リストから外れた時、アプリをダウンロードしてプッシュ通知を受け取った時に通知されますが、その後、自動的に4つの招待コードを取得し、友人に渡して一緒に来ることができるようにするために使用できます。
私たちは皆さんがこれらのモデルを手にすることに超興奮しています。私たちは、物理世界を深く理解するAIシステムを本当に構築するために、2023年初頭にSora研究プログラムを開始しました。私たちは、それが真に汎用的なAGIに到達するために最重要の能力になると考えています。
その過程で、私たちは世界が大いに楽しめ、多くの喜びをもたらすことができると考える多くのモデルをトレーニングしています。だから、皆さんが最終的にこのアプリで何を作成するかを見ることに本当に興奮しています。
Soraでお会いしましょう。
準備ができたら。3、2、1、行きます。おい、大丈夫か? 大丈夫です。しっかりと。くそっ。


コメント