Sora、Image Gen、Codex:クリエイティブ制作の次なる波

OpenAI・サムアルトマン
この記事は約18分で読めます。

本動画は、OpenAIのクリエイティブディレクターであるChad Nelsonが、同社の最新AI技術を活用したクリエイティブ制作の新しい波について紹介するプレゼンテーションである。具体的には、英国の制作会社Native ForeignおよびVertigo Filmsが手がける長編アニメーション映画「Critters」を事例に、ストーリーボード制作に特化したカスタムツールの開発過程を詳述している。このツールは、GPT-5、Codex、GPT Image Genを組み合わせて構築され、通常1年かかるストーリーボード制作を数日に短縮することを可能にした。さらに、Sora 2 APIによって静止画から動画への展開も実現している。開発チームは、わずか48時間でMVPを構築し、Codexを活用することで日々のフィードバックを即座に反映させる高速な開発サイクルを確立した。本セッションは、アーティストと開発者の緊密な協働により、AI時代のクリエイティブ制作がいかに変革されうるかを示す先駆的な事例となっている。

Sora, ImageGen, and Codex: The Next Wave of Creative Production
AI is changing how quickly creative ideas can become reality. In this session, we’ll walk through how we built a custom ...

OpenAIにおけるクリエイティブ制作の新時代

こんにちは、皆さん。私はChad Nelsonです。OpenAIでクリエイティブディレクターを務めています。ちょっと待ってください。カジュアルにいきますが、これは楽しいトークになりますよ。

私のキャリアの中で、たくさんのコンテンツを制作してきました。映画、ビデオゲーム、テレビ番組などです。そして、すべての経験に共通する一つの流れがありました。それは「どうやって作るのか」ということです。最終的にこれらのものをどう作るのか、どんなクリエイティブワークフローが必要なのか、どんなツールを使うのか、ということです。

プロジェクトを始めると、基本的には利用可能なツールの状況を見渡して、「どのツールが使えるだろうか」と考えます。できれば、プロジェクトのニーズに対して汎用的すぎたり、逆に複雑すぎたりしないものがいいですよね。そして今日のAIツールの状況では、文字通り毎月新しいツールが登場していて、それも助けにはなりません。

しかし、これは私たちにある疑問を投げかけました。もし、個々のプロジェクトやクリエイティブワークフローに完璧にマッチしたツールを、開発に何ヶ月もかけずに作れたらどうだろうか、と。これはOpenAIで私たちが考えてきたことであり、実際にこの理論をテストするのに役立つプロジェクトを見つけました。

Crittersプロジェクト:AIとアーティストの協働

数ヶ月前、いや正確には2週間前ですが、英国のNative ForeignとVertigo Filmsが「Critters」という長編映画を発表しました。これはアニメーション映画で、ロンドンにいる彼らのチームは、基本的にアーティストたちをOpenAIの最新モデルで強化、あるいはパートナーにしたいと考えていました。

興味深いことに、彼らは私たちのところに来てこう言いました。「すべてが人間主導であることを確認したい。アーティストたちがAIツールを動かすようにしたいのであって、逆ではない」と。

彼らの目標はシンプルでした。ストーリーボードから始めましょう、と。ストーリーボードとは、映画の各シーンをスケッチして、最終的に映画全体を視覚化するプロセスです。

最初に彼らのチームと話したとき、彼らは「このプロセスは通常約1年かかる」と言いました。そして、その問題点の一つは、非常に時間がかかるため、正しく仕上げるための試行やイテレーションの機会が限られているということです。私たちはそれについて考え、「なるほど、興味深いな」と思いました。

ストーリーボードに特化したツールを設計できたらどうだろうか、と。そこで私たちはGPT-5とCodexを使って、ストーリーボードに非常に特化したツールを設計することにしました。これにより、スケッチから高精細なレンダリング、そして潜在的には最終フレームまで進めることができます。私たちは内部でこのプロジェクトを「Storyboard」と名付けました。

その仕組みをデモンストレーションするために、同僚のOliviaを紹介したいと思います。

Storyboardツールのデモンストレーション

皆さん、こんにちは。私の名前はOlivia Morganです。OpenAIでソリューションエンジニアをしています。

Crittersを背景として、私たちが構築したこのStoryboardアプリケーションをお見せしたいと思います。そして、今日皆さんに持ち帰っていただきたいことは、単にCodexを使ってカスタムツールの構築を加速できるということだけでなく、画像APIやビデオAPIのパラメータを適切に公開することで、本当に多くのクリエイティブな自由度を解き放つことができるということです。

Storyboardのデモをお見せしますが、ストーリーボードアーティストのペルソナを使います。ただし、これはどんなクリエイティブ分野にも当てはまります。デザインの誰か、マーケティングの誰かが初期コンセプトを生成しようとしている場合などです。

Storyboardのページにアクセスすると、プロジェクトという概念が表示されます。新しいプロジェクトを開始するには、右上隅に移動して、今日のプロジェクトを「dev day」と呼びます。デモのために、既存のプロジェクトから複製します。

これが行うのは、プロジェクトのセットアップを複製するだけです。プロジェクトのセットアップについては、もう少し後で説明しますが、基本的にはこれによって、キャラクター、ロケーション、プロップが表示されています。しかし、私たちが始めるフレームワークがご覧いただけると思います。

左側には、スケッチとプロンプトを持ち込みます。次にコントロールのリストがあります。これらは、GPT Image Genの編集エンドポイントに送られる画像で、最終出力の精度をコントロールするのに役立ちます。

ここで、2つの異なるプリセットで生成できることに気づかれるでしょう。プロジェクトのセットアップには、白黒スケッチで生成するように設定されたターボプリセットがあります。そして高精細プリセットがあります。これにより、最終的なレンダリングが得られます。

例を見ていきましょう。左上隅にフレームをアップロードします。泳いでいるクリッター、火山のクリッター、手を振っているクリッターを選びます。それらがストーリーボードに表示されると、左側に表示されます。

ここに黄色い魚と一緒に泳いでいるクリッターがいます。スケッチを説明するためにプロンプトを追加する必要があります。メモ帳に移動して、用意しておいたプロンプトをいくつか取得します。

これを「白い毛むくじゃらのクリッターが水中を泳いでいて、周りに浮き上がる泡に囲まれている。黄色と白の鱗のある魚が近づいてくる」と説明します。

次にコントロールを選択したいと思います。最終出力でクリッターをどのように見せたいかという精度が必要です。キャラクターのリストがあるので、実際にこのクリッターを選択します。ただし、おじいちゃんクリッターを使いたいレンダリングがあれば、彼も選択できます。

次にロケーションに移ります。このクリッターは水中にいます。これはiPhoneで撮った画像です。この水中ロケーションを選択しますが、砂漠や森のロケーションで遊ぶこともできますし、プロジェクトのセットアップでさらにロケーションを追加することもできます。

それからプロップという概念があります。このクリッターにサングラスをかけさせたい場合は、後で生成でお見せしますが、それも持ち込めます。

では、これらの生成をキックオフして、残りの2つの画像に移ります。火山の前にいるクリッターたちがいます。このスケッチを説明するプロンプトを取得します。「2匹の毛むくじゃらのクリッターが湖の向こう側にある遠くの火山を見ている。脇にベリーの茂みがあり、早朝の光」です。

再び、最初のクリッターを使用します。ロケーションについては、アセットを持ち込む必要はありません。プロンプトで説明しましたので、これらの生成もキックオフします。

最後のものについては、実際にプロップを持ち込む例をお見せします。このスケッチを「サングラスをかけて手を振っている白い毛むくじゃらのクリッター」と説明します。

画像を見ると彼はかけていませんが、そのためにプロップを持ち込みます。最初のクリッターがここにいて、そのプロップ、クリスタルのサングラスをプロップとして持ち込みます。これが最終生成で彼がかけるものになります。

プロジェクトセットアップとカスタマイズ機能

生成を見る前に、プロジェクトのセットアップをご覧いただきたいと思います。これは、プロジェクトを最初に立ち上げたときに複製されたものです。ロンドンのクリエイティブチームと作業していたとき、彼らは画像生成のこの部分、ストーリーボードで全体的なスタイルを設定する能力が本当に重要だと言っていました。

上部にスタイルガイドがあり、すべての生成に適用される美的説明を設定できます。私たちの場合、ストーリーボードフレームのスケッチを詳細なシーンに変換したいと考えています。そして、最初のスケッチの位置と構図を維持したいと思います。

ターボ生成プロンプトについては、ストーリーボードスタイルの白黒マーカーとインクのレンダリング、色なしを望んでいます。高精細生成プロンプトについては、これはフルカラーの高度にリアルな映画シーン、35mmフォトグラフィーです。

コントロールまたはアセットについて言えば、下部にロケーション、キャラクター、プロップを管理できる場所があります。持ち込む各画像に説明を追加できます。キャラクターについては、実際にGPT-5に説明を生成してもらう機能を追加しました。

これらのコントロールで遊んでいました。例をお見せします。黄色いクリッターを持ち込みます。すぐにGPT-5に送られ、短い説明が得られます。「柔らかい毛で覆われた丸くてぽっちゃりした体を持つ小さなふわふわの明るい黄色のクリッター」。

繰り返しになりますが、これらはすべて最終的な画像生成のためのプロンプトに送られます。テキストとそれらの画像の両方です。これは重要です。なぜなら、私たちが持っているGPT Image Genモデルには、オンにできる高入力精度パラメータがあるからです。これがどのように機能するかは、すぐに分かります。

最後に触れたいのは、この履歴タブです。ロンドンのクリエイティブチームと作業していたとき、彼らは履歴タブの概念を持つことが重要だと言っていました。最初のスケッチ、生成された画像、特定のキャラクター、プロップ、ロケーションを参照しているかどうか、そして生成された画像に使用されたプロンプトを見られるようにしたかったのです。

右隅には、これらすべてをCSVでエクスポートする機能を提供したので、作成しているすべてのストーリーボードに対して完全な監査可能性を持つことができます。

ストーリーボードフレームに戻って、何が生成されたか見てみましょう。水中のクリッターの最初のスケッチを覚えていると思います。白黒フレームが得られました。4つの異なるプリセットがあります。なぜなら、これらの画像モデルで作業しているとき、これらのモデルには少しクリエイティブな自由度があるからです。

そのため、アーティストにビジョンに最も合うレンダリングを選択する能力を与えます。右下隅でダウンロード用に確認できます。残りの4つを見て、観客の皆さんに参加してもらいたいと思います。これらを見て、どれが一番好きか声援を送ってください。

この生成は好きですか?この生成は好きですか?それともこの生成ですか?最初のやつですね。分かりました。確認された生成が得られました。残りの2つも素早く見ていきます。

火山の前にいるクリッターたちもあります。どれが一番好きか声を上げていただければ、ダウンロード用に確認します。2番という声が聞こえました。

下部には、メガネをかけた生成の例があります。白黒スケッチはまだ待っていますが、フルカラーの生成は得られました。2番か4番が好きなので、2番にします。

これが重要な理由は、ストーリーボードや初期スケッチの生成に取り組んでいるとき、多くの場合、1つの画像だけでなく何百もの画像を扱っているからです。そのため、これをバルクで行い、ダウンロード用にステージングし、他のクリエイティブツールに移動できる能力は、本当に強力な概念です。

ロンドンのクリエイティブチームと作業していたとき、私たちが本当に魅力的だと感じたのは、環境デザインなど、さまざまな側面でこのStoryboardの概念を活用し始めたことです。

ここに初期環境のスケッチとStoryboardの最終レンダリングが表示されています。また、キャラクターデザインのようなものにも使われています。キャラクターの初期スケッチをStoryboardに投入し、Storyboardを使用してすべての最終的な詳細をレンダリングしています。

これにより、このようなツールがより大規模なエンタープライズアプリケーションで何に使用できるかについて、私たちの目が開かれました。

例えば、あなたがアスレジャーブランドで、季節のローンチの準備をしているとします。または、自動車会社で新しいキャンペーンを構築しているとします。そこでStoryboardが登場します。これらの初期コンセプトを見事なプロダクションスタイルのショットに変換し、素早く動きながら、最初のスケッチから最終フレームまでが正確に望む通りであることを確信できます。

Sora 2 APIによる動画生成への展開

そして、新しいSora 2 APIにより、私たちは本当に興奮しています。なぜなら、これがStoryboardツールにとって意味することは、初期スケッチから美しい画像、そして現在はフルモーションまで進めることができるということです。

皆さんがこれに触れられることを本当に楽しみにしています。Sora 2では、モーション理解、物理演算、プロンプトや画像を通じて詳細をガイドする能力が本当に、本当に印象的だと思います。

実際に、このようなビジュアルや画像からこのようなフルモーションとサウンドに移行できます。

やあ、ピカピカの友達。踊るのが好きなんだね?君は美しいよ。

これがSora 2 APIの小さなティーザーです。皆さんがこれに触れられることを本当に楽しみにしています。Storyboardにこれを構築し続けることを確実に楽しみにしています。

構築といえば、次に同僚のAllisonを呼んで、実際にStoryboardをどのように構築したかを説明してもらいたいと思います。でも彼女を呼ぶ前に、Chad、まだいますか?

何ですか?すみません、ここに戻ってきてほしいんです。Storyboardに投げ込めるものをスケッチしていただけますか?実際に私たちがどのように作業してきたかをお見せできるように。

うーん、私に挑戦を与えたようですね。iPadを取ってこないと。分かりました。ちょっと待ってください。すぐ戻ります。

何を描いてほしいんですか?泳いでいるクリッターがいて、火山もあるので、洞窟のシーンはどうでしょうか?洞窟の中のクリッターみたいな?

分かりました。iPadを取ってきます。あ、見つけました。わあ。見てください。分かりました。うまくいけば、このコードが十分に長いといいですが。

何枚くらい、2枚か3枚ですか?私はクリエイティブディレクターであってストーリーボードアーティストではないので、試してみます。数分あげます。

彼がスケッチしている間に、同僚のAllisonを呼んで、Storyboardをどのように構築したかを説明してもらいます。

Storyboardの開発プロセス:48時間での構築

ありがとう、Olivia。皆さん、こんにちは。私はAllison August、OpenAIのソリューションエンジニアリングリーダーです。

Chadがあそこで熱心に描いている間に、私たちが48時間でStoryboardをどのように構築したか、そしてそれがCrittersの設計プロセスをどのように加速したかを数分かけて説明します。

私たちのチームは、業界全体のさまざまなクリエイターと協力してきました。最大のメディア企業から、本当に素早く動く必要がある小規模チームまで。そして、私たちが聞いたことは明確でした。彼らはAIによるクリエイティブプロセスをより細かくコントロールしたいのです。

今日の多くのツールでは、画像のためにテキストプロンプトを送信すると、実際には望むものからかなり離れた出力が得られることがあります。しかし、クリエイターは、ショットが頭の中でどのように展開されるべきかというビジョンを持っています。最終生成に直接進むのではなく、シーンとスタイルを視覚化して、コンセプトに合った出力を得られるようにしたいのです。

実際、Chad、右側のあなたの描いたものですよね?かなり良さそうです。批判なしのゾーンで。素晴らしいですよ、Chad。

Storyboardでの私たちの目標は、クリエイターがこのレベルのコントロールと精度を与え、AIでショットに命を吹き込むプロセスに従うことができるワークフローを作成することでした。

8月の社内ハッカソンで、私はOliviaと他の3人のソリューションエンジニアと協力して、この問題を解決しようとしました。数日前にCrittersチームと交流があり、このハッカソン中に解決策に向けてアイデアを出すための思考パートナーとして彼らと協力できると考えました。そして、わずか2日間で動作するプロトタイプを構築しました。

このMVPを素早く構築するために、CodexのCLIとGPT-5を搭載したCursorに頼りました。アプリはNext.jsで構築し、Supabaseをバックエンドとして使用しました。これはプロジェクトの状態、画像、認証を管理します。すべてはVercel上にデプロイされています。

Vercel上では、GPT-5、Image Gen、そして現在は新しいSora 2 APIを調整する関数を実行しています。すべてのリクエストに対して、GPT Image Genで4つの画像バリエーションを生成し、クリエイターに自分のビジョンに最も近い画像を選択するオプションを提供しています。

Oliviaが少し前に述べたように、GPT-5はアプリケーション全体に組み込まれており、アーティストのスケッチの説明を洗練させることから、より詳細な画像出力を駆動する豊かなキャラクターテキストを自動生成することまで、生成結果を改善しています。

Storyboardの元のコンセプトの1つを見てみましょう。一度に1つのスケッチをアップロードし、プロンプトを追加し、キャラクター、またはこの場合は非常にかわいい小さなクリッターを選択できるインターフェイスから始めました。かなり基本的なものでした。プロジェクトのセットアップも生成履歴もなく、スケッチを一括でアップロードすることさえできませんでした。

作業を進める中で、シーンからスケッチを一括アップロードし、プロジェクトレベルの構成に基づいてさまざまなタイプの出力をレンダリングできるプロジェクトの概念が、クリエイターにとってはるかに役立つことに気づきました。

これが実際にCrittersチームに送ったモックアップで、Oliviaが少し前にデモしたものにずっと似ています。

これを送ると、Crittersチームはすぐにアプリのテストを開始し、非常に貴重なフィードバックをたくさんもらいました。ファイル名の可視性の追加のような基本的な要求から、プロップやロケーションの入力をコントロールするオプションの追加のようなより複雑な要求まで。

当初、Oliviaと私はハッカソン後に変更を加える予定はありませんでしたが、リクエストを見て、これらの変更の一部がチームにとってどれほど価値があるかを見たとき、Codex、私たちのコーディングエージェント、そして最新のGPT-5 Codexモデルをテストすることにしました。

会議の合間にCodexにタスクを送りました。プロダクションへのプルリクエストを非常に簡単にレビューしてマージしました。Codexは私たちが携帯電話からでもこれを行うことを可能にしました。そうですよね、Olivia?はい。

今、実際の私のCodexワークスペースのスクリーンショットと、私たちが出荷したさまざまなタスクのいくつかをご覧いただいています。UIに小さな要素を追加するような簡単な勝利から始めましたが、すぐに、プロジェクトレベルとスケッチレベルの両方でアップロードされたアセットに基づいて生成プロンプトをコンパイルするような、より複雑なタスクで実際に優れていることがわかりました。

私の経験では、アプリケーションの基礎を構築し、ベースUIについて考えていたものを設計したら、Codexは追加機能を加え、記録的な速さで必要なトラブルシューティングを行うことに本当に優れていました。

毎日、Crittersチームから約10件の機能リクエストを完了しました。彼らは私たちがどれだけ早く改善を出荷するかに驚きました。

Chad、これが私の最後のスライドなので、そろそろ仕上げていることを願っています。はい、準備できると思います。きっと素晴らしいものになると確信しています。

まとめとして、私たちはCrittersチームと本当に密接に協力し、タイトなフィードバックループを維持しました。つまり、Codexの助けを借りて、これまで以上に速くプロトタイプを作成し、日々のフィードバックを取り入れることができました。

通常、この種のループは本当に1週間から2週間かかることがあります。しかし、Codexを使えば、アイデア出しの時間を本当に1日に短縮できました。

最終的なStoryboardツールは、Crittersチームが数日で異なるシーンにわたる何千ものスケッチを視覚化するのに役立ちます。通常なら何ヶ月もかかっていたプロセスです。

ライブスケッチのデモンストレーション

では、Chad、鉛筆を置いて。描いたものを見せていただけますか?はい。では、これがここの小さなスケッチです。素晴らしい。

洞窟に入ると言いましたね。小さなトーチを持たせました。暗い洞窟なので。ええ、それで何をしたか見るのが非常に楽しみです。

生成が届きました。ちょうど間に合いました。Chadのスケッチがあります。少し説明を加えました。「暗い洞窟に入る毛むくじゃらのクリッターの正面図」と。

クリッターキャラクターを、プロンプトに送りたいアセットとして選択しました。そして、冒険的なクリッターの白黒生成と、移行できる最終画像があります。

トーチが気に入りました。トーチは本当にうまく機能しています。これは素晴らしいです。実際、私はたった2分くらいでスケッチを取って、このように視覚化できるという事実が本当に好きです。そして、ロンドンの彼らのチームがツールでどのように作業しているかを見ることが、これほど素晴らしかったのだと思います。

Sora 2について触れましたが、明らかに私は魚が大好きですが、Sora 2がその音声を作ったと思います。ロンドンのCrittersチームが小さなデモンストレーションをまとめました。彼らがツールにアクセスしてから約、わかりませんが、先週発表したときから数日です。

彼らが何を作ったか、どんなことができるかの例を見てみましょう。

素早くとかしてあげて。完璧。写真を撮って。カメラ準備して、並べて。いいね。カメラが回っていて、大地で準備完了。アンテナを整えて。ありがとう。

よし、みんな。セット、回ってます、アクション。

やあ。えーと、私のセリフは何だったっけ?くそっ。

大好きです。大好きです。Sora 2は素晴らしいと思います。ビジュアルの品質が素晴らしいです。音が大好きです。すべての声、すべての環境音、音楽が素晴らしいです。

しかし、この時代について本当にエキサイティングなのは、アーティストと開発者がこれまで以上に密接に協力できる時期を迎えているということだと思います。

アーティストとAIを組み合わせると何が起こるかを見てきました。素晴らしい作品を生み出します。しかし、彼らがその作品をどのように生み出すかが、これらのカスタムツールによって真に変革される可能性があるのです。

Crittersはこの優れた例になったと思います。彼らがツールで次に何を作るのか待ちきれません。

クリエイティブツールの未来とまとめ

しかし、この部屋を見渡すと、開発者でいっぱいの部屋が見えます。私たちをワクワクさせるのは、皆さん全員が何を作るかということです。業界やアーティストに、彼らの想像力を探求させるために、どんなクリエイティブツールを持ち込むのでしょうか。

それでは、Olivia、Allison、そして私自身を代表して、お越しいただき本当にありがとうございました。素晴らしい開発者の日をお過ごしください。改めてありがとうございました。ありがとうございました。

コメント

タイトルとURLをコピーしました