
11,749 文字

みなさんこんにちは。ついにSoraが公開され、ヨーロッパとイギリスを除く世界中のほとんどの人が利用できるようになりました。サム・アルトマンによると、これらの地域での提供には時間がかかるとのことです。このビデオでは、発表内容を見ていきたいと思います。早送りしながら、重要なポイントを取り上げ、今日発表されたSoraに関する事項や、Soraで可能なこと、そして今後のAI生成の未来について、私の反応と考えを共有したいと思います。
「デイ3へようこそ。これは私たちが長い間待ち望んでいた発表です。今日は私たちのビデオプロダクトであるSoraを公開し、なぜこれがとても重要で興奮することなのか、詳しくお話ししていきます。まずは、とても素晴らしいので、皆さんにお見せしたいと思います。Sora製品の様子を少しご覧いただきましょう。これがフィードです」
私はこのディスカバリーインターフェースというアイデアが気に入っています。ユーザーが他の人々が作成しているものを確認できるのは素晴らしいことだと思います。この技術をどのように使用しているのか、Soraで何が可能なのかを見ることができます。コミュニティによってすでに生成された本当にクールな例がたくさんあります。
最近のタブに行くと、作成されたものや、すでにフィーチャーされているものを見ることができます。本当にクールなアイデアがたくさんあります。プロンプトも確認できます。プロンプトに何が含まれているのかを見て、多くのアイデアを得ることができます。また、後ほど説明する素晴らしい機能もいくつか導入されています。それについての私の考えと、それがSoraインターフェースの様々な機能にどのように統合されているかについてもお話ししたいと思います。
Soraは別のウェブサイトで、そこにログインする必要があります。ChatGPTアカウントを使用してログインできます。すでにプロプランまたはプラスプランをお持ちの方は、そのアカウントで利用可能です。実際、これらのプランのいずれかが必要です。ユーザーが生成しているビデオを見ることができ、これについては後ほど詳しくお話しします。
「ビデオは多くの理由でOpenAIにとって重要です。3つの点についてお話しします。1つ目は、私たちはクリエイターのためのツールを作ることを大切にしています。これは私たちの文化にとって重要であり、人々がAIをどのように使用することを望むかということに関係しています。特に、初期のテスターたちとの間に新しい種類の共創的なダイナミクスが生まれており、これはAIクリエイティブツールとその使用方法について興味深い示唆を与えてくれます。
2つ目は、世界がテキストだけになることを望まないということです。AIシステムとの主なやり取りがテキストだけだとしたら、重要な何かを見逃していることになります。私たちのAIがビデオを理解し、生成できるようになることを望んでいます。これは、私たちのコンピュータの使用方法を根本的に変えることになるでしょう。
3つ目は、これが私たちのAGIロードマップにとって重要だということです。ビデオは、AIが世界で必要とされることを学ぶための重要な環境となるでしょう。では、Soraのリーダーであるアディアとリサーチリーダーのビルに、このプロジェクトについて説明してもらいましょう」
サムの話の前に、この「OpenAIの12日間」で気に入っているのは、OpenAIがテクノロジーの背後にいる人々、製品を作っている人々に焦点を当てることを決めたことです。これは非常に重要だと思います。実際にこれらの製品を作っている人々を見られるのは素晴らしいことです。ハイレベルな話だけでなく、これらの人々は専門家であり、テクノロジーの構築に懸命に取り組んでいる人々です。このような形で顔が見える形にすることは、OpenAIの良い戦略だと思いますし、OpenAIの文化について多くを物語っています。
「みなさん、今日はついにSoraが利用可能になる日です。私たちは本日、アメリカ合衆国および他の多くの国々でSoraを公開します。sora.comでモデルにアクセスできます。これはOpenAIの全く新しい製品体験で、ビデオ生成のために一から構築されました。最も良い点は、ChatGPT PlusまたはProアカウントをお持ちの方は、それだけでSoraを利用開始できることです。Soraのために追加料金を支払う必要はありません。すでにお持ちのアカウントに含まれています」
これは既存のアカウントサブスクリプションの一部としてSoraを含めることにした良い決定だと思います。別のアカウントを作成する必要がないのです。私の大きな疑問は、SoraがChatGPTに統合されるかどうかでしたが、これは非常に複雑な製品なので、ChatGPTの外部に存在することは理にかなっています。
「このように広範な展開を行うために、Soraリサーチチームは2月に公開したモデルをより高速で低コストにする方法を見つけるために多大な努力を重ねました。彼らは本当に成果を上げ、今日私たちはSora turboを公開します。これは元のSoraモデルの新しいハイエンドな加速バージョンで、今年初めに発表した世界シミュレーションに関するテクニカルレポートで話した全ての機能を備えています。
これには、テキストからのビデオ生成、画像のアニメーション化、新しいスタイルへのリミックス、時間の前後への拡張など、多くのビデオツーヴィデオ機能が含まれています。他のメンバーが数分後にこれらをお見せします。サムが言及したように、私たちはOpenAIでSoraプロジェクトを始め、世界とその物理法則を深く理解するAIシステムを構築しようとしています。これはまだ始まりにすぎません。この初期バージョンのSoraは間違いを犯すことがあり、完璧ではありません。しかし、すでに人間の創造性を補強するのに非常に役立つ段階に達していると考えています。今日から世界がSoraで何を作り出すのか、楽しみです」
「こんにちは、アディアです。この発表を本当に楽しみにしています。OpenAIは、視覚生成で可能なことの境界を押し広げる最先端のモデルを、複数年にわたって開発してきました。しかし、視覚生成のさらなる進歩には、機械学習とヒューマンコンピュータインターフェース設計の両方におけるブレークスルーが必要だと考えています」
このように正直であることが好きです。ビデオ生成モデルの構築には多くの作業が必要です。物理法則の理解、シーン作成時の多くの詳細の理解が必要です。動きは時々、一部のビデオ生成モデルでは本当に一貫性がありません。このテクノロジーとその可能性についてはまだ初期段階なので、このように率直で正直であることが好きです。
「そのため、私たちが構築した製品を本当に誇りに思っています。ロハンとジョーイに詳細を説明してもらいましょう」
「やあ、ジョーイ」
「やあ、サム。この製品をお見せできることを楽しみにしています」
「始めましょう」
「私はSora製品チームのリーダーのロハンです」
「私はSoraのプロダクトデザイナーのジョーイです」
「では、ジョーイ、始めてください」
「まず、エクスプローラについてお話ししましょう。エクスプローラはインスピレーションを得る場所です。コミュニティによって共有されたビデオのフィードで、誰もがこの強力な新しいモデルの機能を探索するために集まることができます。特に初めて使用する時、これらのモデルで何ができるのかを理解するのは難しい場合があります。そのため、人々が集まり、テクニックや手法を共有できる空間を作ることは、エキサイティングであり、また重要だと感じました。
ここをスクロールすると、これらの素晴らしいビデオからインスピレーションを得ることができます。特に興味深いものがあれば、クリックしてライトボックスで表示できます。これは本当にクールです。なぜなら、ビデオとプロンプトを見るだけでなく、下部を見ると後ほど説明する機能があります。リミックス、リカット、ブレンド、ループができ、基本的に他の人が作成したものを取り上げて独自のバージョンを作ることができます」
これは機能として非常に強力だと思います。彼らはこれについて深く考え、製品に統合しています。多くの人々はLLMの使用は得意かもしれませんが、ビデオ生成はそれほど得意ではありません。ビデオ作成は非常にクリエイティブなプロセスなので、人々にプッシュや出発点を与えるようなツールを持つことは本当に良いことです。彼らがこれを製品の一部として行ったことは素晴らしいと思います。
「このライトボックスの下部には、このビデオを作成するために使用された正確な方法が表示されます。単純なテキストプロンプト、画像拡張、ビデオ拡張、または他のより強力なクリエイティブツールのいずれかです。ここでは、これにストーリーボードがあることがわかります。これについては後ほど説明します。そして、それさえもディスカバリーページに表示される例の中に現れます。この方法を取り入れて、あなた自身のクリエイティブワークフローに組み込む方法を学ぶことができます」
「では、ロハンに最初の生成を行ってもらいましょう」
「ライブラリに移動しましょう。これはSoraでのホームベースと考えることができ、すべての生成物を見ることができます。ビューをいくつかの方法で切り替えることができます。グリッドビュー、リストビュー、フォルダの作成、お気に入り、フィードからのブックマークの確認など、すべての細かい組織的な要素がありますが、これは私たちがストーリーテリングとこの製品の実際の使用を本当に重視していることを示しています。
ここ下部に、シンプルなコンポーザーがあります。ここでテキストで説明するか、画像をアップロードしてビデオを作成できます。サム、アイデアはありますか?」
「砂漠を歩くマンモスはどうですか?」
「砂漠を歩くマンモス、いいですね。砂漠の風景を歩くマンモスと書いてみましょう。ワイドショットにしましょう。これを実行する前に、ここにあるいくつかのオプションについて説明したいと思います。アスペクト比について、Soraは横向きのアスペクト比から正方形、縦向きまで生成できます」
この選択肢も好きです。他のツールの中には特定のアスペクト比でしか生成できないものもありますが、彼らは16:9、1:1、9:16を提供しており、これはショート、インスタグラムなどのクリップを生成するのに良いです。ビデオ編集者として、私はこれにとてもワクワクしています。特に9:16は、ショートクリップを多く作成し、AIビデオ生成をこのビデオ作成プロセスに統合することに興味があるので、非常に役立つ機能になるでしょう。
「480pから1080pまでの解像度で生成できます。ここで解像度を見ると、480p、720p、1080pがあります。1080pは非常に遅くなり、8倍時間がかかることがわかります。最速は480pになるので、このツールを使用する際には辛抱強く待つ必要があります。実際、いくつかのビデオを生成するために使用していましたが、永遠に時間がかかっているようでした。このビデオを録画している間もまだ生成中です。
5秒から20秒までのビデオを生成できます。30秒から約1分までのものを導入すると思っていたので驚きましたが、おそらく彼らはすでにそこまで生成できるバージョンのSoraを持っているのかもしれません。20秒まで生成できるのは素晴らしく、私が言及したように多くのユースケースで実際に非常に役立つと思います。例えば、ショートをより魅力的にしたり、より魅力的なクリップを生成したりするために使用したいと思います。これはテクノロジーの現状では良い使用方法だと思いますが、今後はより長い時間を求めています。1分のビデオを生成できるのか、3分から5分のビデオまで生成できるのか、それは興味深い開発になるでしょう。おそらく2025年に登場するかもしれません。
「また、一度に複数のバリエーションを生成することもできます。この説明から何を求めているのかわからないかもしれませんが、Soraはいくつかの異なる方向性を試すかもしれません。バリエーションを使用すると、いくつかのオプションを見ることができます。ここで4つのビデオバリエーションを生成してみましょう。
そして最後に、プリセットがあります。時々、本当に気に入った美的感覚やスタイルを見つけて、それを再利用可能なコンポーネントとして保存し、多くの生成に適用したいと思うかもしれません。それが可能です。自分で作成することもできますし、いくつかのデフォルトも用意されています。ストップモーション、バルーンワールドなど、クレイジーなものもあります」
ビデオ編集をする人なら、使用して管理できるテンプレートがいかに便利かを知っているでしょう。これは試してみたい機能で、多くの人々がこれを使用することになると確信しています。AIでビデオを生成する過程をより簡単で楽しいものにするだけです。プリセットを設定できるのは本当にクールです。
「では、この生成を実行して、ジョーイにストーリーボードという別の素晴らしい機能について説明してもらいましょう」
「ありがとう、ロハン。ロハンが一般的なアイデアをSoraに送って美しいビデオのセットを作成する方法を示しましたが、今日は私たちが導入する全く新しいクリエイティブツールについてお話ししたいと思います。これはまだ非常に初期段階ですが、ストーリーボードと呼んでいるもので、馴染みのあるタイムラインを使用してシーケンス全体で複数のアクションを指示できます。
ここをクリックして、ストーリーボードについて説明しましょう。画面上部にストーリーボードカードがあります。ここで環境、キャラクター、特定の時点で発生させたいアクションを説明します。その下にタイムラインがあり、クリップ全体の概要を見ることができます。ここでビデオ内のアクションの順序を決めます。そしてその下に、ロハンが説明した作成設定があります。
では、ストーリーボードに戻って、シーンの最初のカードを設定しましょう。『美しい白いツルが小川に立っています。黄色い尾を持っています』と書きましょう。ここでは、少なくても多くても書くことができ、少なく書くほどSoraが詳細を補完し、多く書くほどSoraは私の指示に従おうとします。
このビデオでは、このツルが最初に立っていて、その後頭を水に浸けて魚を捕まえることを望んでいます。タイムラインに移動して、クリップの概要内のどこでも新しいカードを追加できます」
これは本当にクールです。シーケンスでこれらの異なるクリップを作成できることです。好きな場所を選んでこのクリップを作成でき、その続きを作ることができます。彼は動画で示すと思いますが、彼が言及したように、非常に一般的で具体的でないものから始めることができます。何を含めたいかわからない場合はそうすることができ、その後より具体的になることができます。また、最初からより具体的になることもでき、これは望ましい結果を得るのに役立つと思います。
しかし、このようなツールを持つことで、より創造的になり、ビデオ制作プロセスについてより深く考えることができるようになります。ビデオを作成する多くの人々がこのようなツールを使用しているので、すでにSoraにこのようなツールを統合したことは素晴らしいと思います。これは単なるビデオ生成ツールではなく、クリエイティブプロセスを支援するための高度な機能が全て備わっています。
「ではここに『ツルが頭を水に浸けて魚を捕まえます』と書きます。タイムラインを見ると、タイムラインの開始時にシーンを設定し、5秒後にツルが頭を水に浸けるようになっています。これら2つのカードの間にスペースがあることに気づくでしょう。このスペースは、Soraが最初のアクションのセットと2番目のアクションのセットを接続するために重要です。これらのアクションがいつ発生するかを調整することはできますが、これらのアイデアを接続するために十分な時間をSoraに与えることが重要です。連続的なショットを望む場合は、より近づけることもできます」
これは本当に重要なポイントです。これは、サム・アルトマンがこのデモの冒頭で言及したことです。彼らはこの技術をクリエイティブで協力的なツールとして構築したいと考えています。ビデオ生成を自動化するだけでなく、あなたがそのクリエイティブプロセスの一部となることが重要です。そのため、ストーリーボードのような機能を導入するために懸命に働いてきました。なぜなら、あなたがそのプロセスの一部となり、ツールに何を望むのか、生成したいシーンは何か、見たい詳細は何かを指示することができるからです。
このことを明確にし、率直に述べることは、このテクノロジーをどのように使用するかという点で非常に重要な決定だと思います。OpenAIは、これらの機能を見ると、ビデオ生成を自動化するツールとしてではなく、ビデオを生成するためのコパイロットや協力的なパートナーとして使用されるツールとしてマーケティングしているようで、興味深いアプローチを取っています。
「それとも、それらをさらに離して、Soraにより多くの詳細を補完させることもできます。これを5秒に戻して実行し、1分後に確認しましょう。しかし、もう1つのストーリーボード機能をお見せしたいと思います。本当にクールな機能で、それは画像からビデオを作成することです。この最初のストーリーボードカードで」
これは別の非常に便利な機能です。何か良い出発点がある場合、例えば画像があるとか、インスピレーションとなる画像やビデオ、使いたいクリップがある場合、それを使用することができます。これはすでにこのSora turboモデルに統合されています。
「デスクトップにある画像をアップロードしましょう。この画像は灯台のものです。Soraが自動的にその最初の画像を最初のカードに配置し、全く新しいカードを作成したことがわかります。これは続きのキャプションです。Soraがその画像を見て、この画像で行いたい可能性のある動きを理解し、この画像を美しいビデオに変えるためのキャプションを追加しました」
これはなんて素晴らしいのでしょう。画像を与えると、モデルが生成する可能性のある続きの説明を生成してくれます。これはモデルが非常にクリエイティブになれる部分で、これらのアーティファクトを生成するツールがより高速になるにつれて素晴らしくなると思います。そうすれば、異なるバリエーションを試すことができます。しかし、モデルが良好な画像理解を持ち、コンテキストを理解し、独自のアイデアを生成できるという事実は、本当に役立つと思います。なぜなら、時にはアイデアが不足していて、システムからインスピレーションを得たいだけの場合があるからです。これはシステムからインスピレーションを得る良い方法です。
「テキストと同様に、このカードの内容を編集したり、位置を調整したりすることができます。しかし、今はこれを実行して、どのように見えるか確認しましょう。では、ロハンに生成したビデオを確認してもらいましょう」
「やりましょう。まず、マンモスを見てみましょう。これらの生成のバリエーションにマウスを合わせると、どれが一番気に入るかを感じることができます。そして、Soraでさらに改良を続けることができます。右上が良さそうですね」
「私もそう思います」
「では、右上を見てみましょう。これはクールですが、シーンを見ていると、このマンモスがロボットだったらもっとクールだと思います。ここでリミックスをクリックして、単純に『マンモスをロボットに置き換える』と書きます。ここにもいくつかの馴染みのあるオプションがあります。複数のバリエーションを作成したり、解像度を変更したりできます。また、リミックスの強度をSoraに指示することもできます。シーンに大きな変更を加えたい場合、おそらくこれは大きな変更なので、強いリミックスを指示します。微妙な変更の場合、例えば」
私は、リミックスでこれらの奇妙なグリッチが取り除かれるのか、それともリミックス時にも残るのか興味があります。
「この背景にもう少し風を加えたり、より多くの砂を舞い上げたりする場合は、マイルドまたは微妙なリミックスを使用します。今回は強いリミックスを実行しましょう。では、ストーリーボードを見てみましょう、ジョーイ」
「ツルはどうなったか見てみましょう」
「やりましょう。では、これらの1つを見てみましょう。半分くらいのところで、ツルが頭を水に浸けているのがわかります。魚を捕まえられるか見てみましょう。あ、このツルは失敗したようです。別のも確認できますが、Soraが私の指示を受け取って、まさに望んだ場所に行こうとしているのがわかります」
「これらのツルは失敗したかもしれませんが」
「小さな魚を捕まえましたね」
「ええ、小さな魚を捕まえました。しかし、ここで指摘したいことがあります。Soraのもう半分の物語は、ビデオを取り、それを編集し、その上に構築することです。このビデオの始まり、ツルの頭が水しぶきを上げる部分が大好きなので、リカットと呼ばれる別の編集ツールを使用して、ビデオをトリミングし、さらなる指示でストーリーボードで拡張しようと思います。
リカットをクリックすると、新しいストーリーボードに移動し、Soraがツルのこのビデオをインポートしました。タイムライン上でビデオを確認でき、スクラブして確認することもできます。また、ビデオをトリミングすることもできます。実際、頭が水しぶきを上げるまでの最初の数秒が気に入っています」
他のストーリーボードの例と同様に、ここで空白にしておいた部分は、そこにあるストーリーボードカードから継続してSoraがシームレスに続けてくれます。全く新しいエンディングが欲しい場合は、最後を空白にしておくことができます。全く新しい始まりが欲しい場合は、これをここに置いて、おそらくカメラは最初にツルにもう少し長く留まることになります。また、中間に移動して、ビデオの終わりと始まりを全く新しく生成することもできます。そして、ストーリーボードの他の部分と同様に、常にクリックしてカードを追加し、より多くの指示を与えることができます。では、このビデオの新しいエンディングを生成してみましょう」
そして、彼が生成する前に、ビデオを作成する人としてあなたが決定を下していることがわかります。本質的にあなたが監督なのです。確かにSoraを使用してクリップやビデオを生成していますが、特定のシーンをどこに配置し、何を含め、何を除外するかなどを指示する必要もあります。そのような決定を下しているのはあなたです。あなたがそのクリエイティブプロセスの一部であり、それが機能自体で明示的であることが好きです。
「見てみましょう。素晴らしい、ありがとうジョーイ。生成中のうちに、ロボットができているか見てみましょう。ああ、できました。すごい」
「信じられないですね」
「Soraはマンモス型のロボットを作り出しました」
「そうですね、実は左側のが結構クール。実際にすごくよく歩いていますね」
左側のものは足の動きがマンモスに比べてより一貫性があるかもしれません。一般的に、動物や類似のものでは一貫性に欠ける部分がありますが、それでも信じられないほど素晴らしいです。
「ロボットを入れてみただけなのに、それを実現しました。強いリミックスを使って、マンモスをロボットに置き換えました。本当に素晴らしいですね。他の機能もいくつか見てみましょう。ジョーイ、あなたの画像からビデオへの生成を見てみましょう」
「素晴らしい、この灯台にはいい雰囲気がありますね」
「右上のがかなり良いですね」
「いくつかの異なるショットがあり、それぞれ異なるカメラの動きがあります。ご覧のように、正確に何が欲しいかわからない場合でも、画像を入れてSoraに任せることができます」
品質は素晴らしいですが、一貫性も素晴らしいです。画像の実際の要素を失うことはなく、単に画像を完成させようとしたり、その画像がシーンでどのように見えるかについてのアイデアを多かれ少なかれ与えようとしています。すべての例でそれをとてもうまく行っていることは本当に重要です。
「この右下のが好きですね。ループにすると良さそうです。私たちの素晴らしい機能の1つは、生成が本当に気に入った場合、Soraに『これを無限に繰り返してほしい』と伝えることができることです。それをループで実現できます。
ループをクリックすると、このループの開始点と終了点を指定できます。そしてSoraがギャップを埋めて、この種のシームレスな繰り返しシーンを作成します。いくつかのオプションがあり、始まりと終わりがすでにかなり似ている場合、Soraはフレームを少なく追加することができます。あるいは、より異なる始まりと終わりを接続するために多くのフレームを追加するように指示することもできます。しかしSoraが重要な作業を行います。これは本当に素晴らしい機能です。アルファ版での多くのアーティストがループを本当に気に入っています。
最後にもう1つの機能、ブレンドについて簡単に触れたいと思います。ブレンドは、Soraに2つのシーンを与え、Soraがそれらの両方の一貫性のある新しいシーンを作成するものと考えることができます。それはほとんど、2つのビデオを別の次元で結合し、この次元に戻すようなものです。Soraのモデルを使用するまで、このようなものを見たことがありませんでした。
ブレンドをクリックすると、ライブラリから別のビデオを選択できます。ロボットとマンモスをブレンドするのも面白そうですね。ここにはいくつかのオプションがありますが、詳細には立ち入りません。要するに、Soraにこれら2つのシーンをどのようにブレンドしてほしいかを指示することができます。ヘビーユーザーやパワーユーザーが本当に素晴らしいビデオを作るための素晴らしい高度な機能があります」
「やってみましょうか?」
「もちろんです」
「おそらくトランジションBブレンドがマンモスとロボットには良さそうですね。実行しましょう」
「素晴らしい。まとめとして、フィーチャードフィードに戻りましょう。ジョーイが先ほどこれらのビデオをスクロールしていたのを覚えていると思います。下部にストーリーボードがあるのに気づいたかもしれません。今はそれが何かわかりました。フィードのそれぞれの生成がどのように作られたのかを見ることができます。フィードが大好きな理由は、インスピレーションを見つけて、誰かのビデオの独自のリミックスを実行できるからです」
「インスピレーションに加えて、単に見るのが本当に魅力的だと思います」
このテクノロジーでビデオを生成した経験がない場合でも、フィードに行けば心を奪われることでしょう。Soraが生成しているものは本当に驚くべきものです。この1時間ほど、息子と一緒にすべての例を見ていましたが、素晴らしい例がたくさんあります。経験がなくても全く問題ありません。人々が何をしているのかを確認し、リミックスなどを試してみることができます。それが私のアプローチ方法です。
「人々が作り出しているものは本当に驚くべきですね」
「本当に素晴らしいです」
では、ここで終わりにしましょう。私のXスレッドへのリンクを残しておきます。発表の詳細をすべてまとめたTL;DRの投稿があります。これはPlusとProユーザーが利用できます。ProまたはPlusユーザーであればアクセスできますが、いくつかの制限があります。Proは若干の制約付きで無制限に使用でき、おそらく500回のファスト生成といった感じです。サムがビデオで言及していましたが、ここで終わりにします。
ご意見をお聞かせください。この技術を使用してビデオを生成する私自身の制作プロセスと、特に短いビデオを作るために、この技術をどのように使用したいと考えているかについての例を紹介するフォローアップビデオを作成する予定です。これは私が長い間興味を持ち、実験してきたことです。お楽しみに。
これで今回のビデオは終わりです。ご視聴ありがとうございました。まだの方はチャンネルの「いいね」と登録をご検討ください。また次回お会いしましょう。


コメント