OpenAIが開催したBuild Hourにおいて、新しいImage Gen(画像生成)機能について詳細な解説とライブデモが行われた。GPT-4oベースの画像生成モデルの特徴、API経由での利用方法、ストリーミング機能やマルチターン編集などの新機能が紹介され、実際のフォトブースアプリケーションの構築過程が示された。さらに、AIプレゼンテーション作成ツールGammaの担当者が登壇し、Image Genを活用した実用的な事例が披露された。

Build Hour: Image Genの概要
こんにちは、Build Hourへようこそ。私はスタートアップマーケティングチームのクリスティンです。今日はビルと一緒にお送りします。皆さん、こんにちは。ビルです。スタートアップチームのソリューションアーキテクトをしています。
今日は画像生成について、とても楽しいトピックを用意しています。でもまず、初めて参加される方のために、Build Hourの目的について簡単におさらいしたいと思います。
Build Hourの目標は、OpenAIのAPIやモデルを使って会社を拡大するためのベストプラクティス、ツール、AI専門知識を皆さんに提供することです。画面右側には、チャット機能とQ&A機能があります。今日一緒に構築しながら、質問があればぜひ送信してください。
また、私たちが使用するコードへのリンクも含めますので、実際に一緒にフォローできます。何か質問があれば、Q&Aに気軽に投稿してください。今日は私たちのチームが待機しており、皆さんの質問にお答えする準備ができています。最後の方でライブで答える質問もいくつか残しておきます。
また、今後のBuild Hourを確認できるホームページのリンクも画面下部に残しておきます。私たちは常に皆さんのフィードバックや提案を受け取り、さらに追加しています。実際、6月と7月に新しいトピックでさらに3つのBuild Hourが予定されています。ぜひチェックしてください。
Image Genの背景と実績
画像生成について少し背景を説明すると、私たちは3月にChatGPTでImage Genを最初にリリースしました。スタジオジブリ風の画像を見ずにソーシャルメディアを見ることはできなかったと思います。
これらの画像はニュースフィード全体に溢れていました。最初の1週間だけで、7億枚の画像と1億3000万人以上のユーザーが画像を生成しました。これは非常にエキサイティングで、これをさらに一歩進めて、開発者の手に届けたいと思いました。
そして1ヶ月も経たないうちに、「クールなものを作る」という一つの指令でOpenAI APIで立ち上げました。スタートアップからフォーチュン500企業まで、誰もがImage Genを取り入れ、これを市場に持ち込み、自分たちのツールやプラットフォームに組み込んでいるのを見ました。
実際に、私たちのスタートアップカスタマーの一つであるGammaも今日一緒にいて、このBuild Hourの後半で彼らが構築したものをデモしてくれます。
今日の内容
今日お話しすることは以下の通りです。実際にはさらに新しい機能があります。テキストレンダリング、世界知識、マルチターン編集などを説明し、その後とても楽しいデモを行います。実際にフォトブースをライブで構築するので、Image Genが何を生成できるかを見ることができます。
そして先ほど述べたように、Gammaがステージにやってきます。今日はAIエンジニアリング責任者のジョーダンと一緒で、Gammaについてさらに詳しく共有してくれます。そして私のお気に入りの部分はQ&Aです。先ほど申し上げたように、私たちはすべての質問に答えるよう努めていますが、すべて読んで、皆さんのフィードバックを取り入れています。右側に何でも気軽に質問を送信してください。
Image Genの技術的特徴
それでは、これ以上前置きなしに、ビルに引き継ぎます。
ありがとう、クリスティン。紹介してくれて。そして、このようなことをするのは本当に久しぶりです。前回こんなことをしたのは、高校時代まで遡ります。
面白い事実として、クリスティンと私は両方とも高校時代にこんなことをしたことがあると思います。戻ってこられて嬉しいのですが、今度はより大きな聴衆の前です。
皆さんの多くはおそらくImage Genについて聞いたことがあり、さらには実際に自分で試したことがあると思います。明確にするために、Image Genが実際に何なのか、以前の世代のテキストから画像へのモデルとどう違うのかを定義することが役立ちます。私による簡単なデモウォークスルーも行い、その後Gammaにステージを譲って、彼らが構築したクールなものを見せてもらいます。
まず最初に、どう違うのでしょうか?Image Genとは何でしょうか?Image Genは以前の画像生成モデルとは異なります。DALLEなど、皆さんがおそらく聞いたことのあるものは拡散ベースのモデルでした。
ここでの主な違いは、これがGPT-4oネイティブだということです。Image GenはGPT-4oの画像生成モデルで、舞台裏では同じGPT-4oアーキテクチャが全てを動かしていることを意味します。画像の生成は自己回帰的に行われ、GPT-4oがテキストを生成するのと同じ方法で画像を生成することを意味します。
画像の生成は、次のトークン予測のように行われます。これではうまくいかないように聞こえるかもしれませんが、実際には非常にうまく機能することがわかりました。これにより、画像の上にテキストを適切にレンダリングできる、指示に従うことの改善、きめ細かな画像編集、画像入力に基づく編集など、多くの利点がもたらされます。
新機能の詳細
ここに私たちが提供するすべての利点の簡単な概要があります。セールス的に聞こえることを恐れて、あまり詳しくは説明しません。ここで一時停止して、スクリーンショットを撮ってください。これらはすべて録画として利用可能になります。
改善されたテキストレンダリングがどのようなものかのいくつかの例は、手書きのテキスト、異なる表面上のタイプテキストです。高校の話題が出たので思い出すのですが、高校時代、生徒会選挙に4回連続で立候補しましたが、4回とも当選しませんでした。その過程で、多くのポスターを作成しなければならず、そのようなポスターを作るのに一度に10時間を費やしたことを覚えています。
聴衆の中でそのようなことをしたい人がまれにいる場合、10分でできます。時間の大幅な節約になることを願います。
追加された世界知識もここで役立ちます。多くの人々が、ここでスライドに例として示されている光合成のような概念を説明する科学ポスターなどの素晴らしい教育資料を作っていることがわかりました。細胞構造を追加のコンテキストなしに簡単な一行の指示で直接作成できます。
Image GenはGPT-4oに基づいており、GPT-4oは訓練プロセス中にそれらすべての世界知識が組み込まれているため、これらすべてを取得します。また、その実世界の知識のために、実世界の場所のフォトリアリスティックなレンダリングも作成できます。
画像入力とマルチモーダル機能
画像入力も素晴らしいです。例えば、ここでは複数の画像をプロンプトと組み合わせて使用し、それらすべての画像入力を組み込んだ最終画像を生成できます。ここで見ることができるように、これらすべての画像を結合して一貫したギフトバスケットにしています。
プレゼンテーションから少し離れて、私たちのウェブサイトに画像ギャラリーがあります。ここで、示した画像の一部と、それらの画像を生成するために使用されたプロンプトと入力を見ることができます。それらの入力の一部には、テキスト入力と組み合わせた画像入力も含まれています。自分で試してみる価値があります。
API経由でのアクセス
プレゼンテーションに戻りましょう。機能について十分お話ししました。これらはすべてChatGPTで利用可能です。どうやって何かを構築できるでしょうか?想像通り、これらはAPIでGPT Image Genとして利用可能で、体験をAPIに持ち込みます。
その機能について簡単に説明し、どのように最適に使用できるかを説明します。まず、実際に先週いくつかの新機能をリリースしました。先週、Responses APIの改善の一部として、これらの新しいエキサイティングな機能をリリースしました。
Image Genは現在、Responses API内で組み込みツールとして利用可能です。これらの改善には、ストリーミング、マルチターン編集、マルチツール画像生成、マスキングが含まれます。それぞれについて説明します。
ストリーミング機能
ストリーミングは非常に自明です。Image Genは画像を完全に生成するのにかなりの時間がかかり、設定によっては30秒から1分の間です。レスポンシブなユーザー体験を構築できるようにするために、Responses APIにストリーミング機能を追加しました。これにより、完全な画像が完成する前に、利用可能になったときに画像の部分的なレンダリングをストリームできます。
マルチターン編集も付随的に非常に自明です。画像を渡して、そのIDを通じて、またはそれを丸ごとアップロードすることで、追加のテキストプロンプトと組み合わせて、異なる画像を生成できます。仕組みとしては、Responses APIがすべてのレスポンスで画像IDまたは前のレスポンスIDを提供し、それを次のレスポンスに渡すことができ、マルチターン編集のユーザー体験を生み出します。
Responsesでのマルチツール画像生成。現在、Image Genと一緒に他の組み込みツールも使用できます。このスライドで説明するよりも、実際に自分で試す方法を少し見せる方が良いと思います。
ライブデモ:プレイグラウンドでの実演
OpenAIプレイグラウンドを開きましょう。慣れ親しんでいる方には、ここで私たちの最新モデルを一緒に使い、それらのモデルにプロンプトを送って何を生成するかを見ることができる場所です。
組み込みツールを提供するResponses APIを使用していることを確認してください。Image Genツールを選択して追加し、デモ目的でWebサーチツールも選択できます。
先ほど述べたように、Image Genは世界についての非常に優れたモデルを持っており、世界の動作に関する内部知識を持っていますが、リアルタイム情報へのアクセスはまだありません。そのためにWebサーチツールを使ってインターネットで調べることができます。
例えば、今のニューヨークの天気を調べて、その情報でポスター画像を生成するということができます。ここでこのプロンプトを送信します。
Webサーチツールと画像生成ツールの両方へのアクセスを与えることで、Responses APIはGPT-4o1モデルを使って自分で知的に判断してWebサーチツールを呼び出すことができ、適切な天気を調べました。ここで見ることができるように、今日は5月29日、最低61度華氏、最高70度華氏。朝は曇り、その後雲と日差しの間隔で午後にはところによりシャワーがあります。
ここで見ることができるように、Image Genツールがこのレスポンスのストリーミングを開始し、最新の情報を直接使用しています。これらすべてがAPI自体から直接利用可能です。これを実装するためにカスタム関数を定義する必要はありません。すべて最初から利用可能です。
マスキング機能とデザインの対話
マスキングも非常に自明です。マスクを作成し、インペインティング体験を構築できます。例えば、ここでマスクを作成し、特定の領域のみが編集可能であることを示します。ここで見ることができるように、その領域のみが編集され、他は何も変更されませんでした。ここにフラミンゴがあります。
Image Genは単純にテキストから画像だったものが、画像生成全体がこれらの現代的な機能の進歩により、今では設計は対話として考えることができると真に言えます。
使用例とアイデア
機能について十分話しました。今度は、これで何を構築できるかについて思いついたアイデアのいくつかを簡単に見てみたいと思います。いくつかの使用例、アイデアを紹介します。
マーケティングとブランドデザインに使用できます。製品のポスターやマーケティング資料をその場で生成することがこれほど簡単になったことはありません。
Eコマースと小売業。この画像が生成されたのがわかります。文字通り私たちが持っていたギャラリーからこれを取り出しました。覚えているなら、この画像はモデルの画像と彼女が今着ているドレス、つまりドレスの製品画像を組み合わせて生成されました。
ドレスを販売するEコマースストアだと想像してください。顧客が自分の写真を通じて購入前にスタイルを試着できる体験はどれほどクールでしょうか。
また、多くのクールな教育ポスターも作ることができます。子供の頃、私は多くの本を読み続けていましたが、これが欲しかったでしょう。これは少しメタなスライドです。Image Genを使ってこの画像を生成し、このプレゼンテーションに入れて、プレゼンテーション用の画像を生成できることを皆さんに伝えているからです。プレゼンテーションに最適です。
これは私にとって少し個人的なアイデアでもあります。私はゲームが大好きで、高校時代に自分のゲームを作ろうとしました。RPG Makerというものを使ったと思います。最大の痛みは、適切なキャラクターアセット、ゲームに入れるスプライトを見つけることでした。私と同じような人なら、その痛みを知っているでしょう。
今こそそれらのアイデアに戻り、作りたかったゲームの構築を完了する完璧な時期です。
これは決して網羅的なリストではありません。これらは私が1時間足らずで、少し寝不足の状態でこの資料をまとめているときに思いつけたものです。でも皆さんは私より賢いでしょうから、皆さんに任せて、これでクールなものを構築してください。でも、何を構築しようとしているかは是非教えてください。
ベストプラクティス
構築について話しているので、ベストプラクティスについても少し詳しく説明することが役立ちます。明らかに多くの画像を自分で生成したことがわかるように、このスライドを作るのもとても楽しかったです。
適切なAPIフォーマットの選択。Image Genを2つのAPIフォーマットで提供しています。ResponsesとImagesです。
ImagesはDALLEで画像を生成するために使用したことがあるなら馴染みがあるでしょう。単発の直接的なテキストから画像へのタスクにはImagesを推奨しますが、それだけです。それ以外の場合、実際に多くの使用例ではResponsesを推奨します。なぜなら、追加の推論が必要かもしれない組み込みのマルチターン、マルチツール体験があり、それらすべてのツールを一緒に統括するベースモデルも呼び出せるからです。
画像出力もカスタマイズできます。サイズと品質は使用されるトークン数に影響します。モデルはトークンに基づいて構築されています。出力パラメータをいじって、希望し、望む形式を取得することができます。
また、ここでいくつかのことは、透明な背景はPNGやWEBPなどの特定の形式でのみ使用できることです。これらすべては私たちのImage Genに関するドキュメントで利用可能です。
この最後の部分は直接的に見えるかもしれませんが、人々がよく忘れるのはユーザー体験です。Image Genは生成に少し時間がかかります。画像が生成されている間のユーザー体験はどうあるべきでしょうか?ストリーミングすべきでしょうか?これらは構築前に答えることを考えるべき質問です。
制限事項について
Image Genにも特定の制限があります。次のいくつかのスライドでそれらを指摘します。それらの制限が何かを知り、ガードレールを設置することも、人々がしばしば見逃すことです。
制限について。制限がいくつかあり、ここで指摘する価値があります。一つは、生成速度が以前よりもかなり遅いことです。しかし、ストリーミングにより、そこでユーザー体験を改善できるかもしれません。
テキストレンダリングは良いですが、まだ完璧ではありません。先日、中国語の文字が上にあるポスターを生成しようとしました。中国語を話す人として、それらの文字のいくつかを理解することができませんでした。英語以外の言語のテキストレンダリングでは、そのようなことにも遭遇するかもしれません。
マルチターン画像の一貫性は良いですが、これも完璧ではありません。
モデレーションについて最後に一つ注意してください。公開するすべてのモデルと同様に、安全性とモデレーションについて非常に多くの配慮をしています。生成されるすべての画像は、こちらで公開されているコンテンツポリシーに従って行われます。つまり、暴力、虐待、危険なものはありません。
渡すことができるモデレーションパラメータがありますが、低いものが最低レベルであり、感度も自分で微調整できます。それでも、特定の生成によっては拒否される可能性があり、良い意図や例えば芸術的文脈にもかかわらず、特定のタイプのコンテンツを生成したい場合は、使用例に適さない可能性があります。
ライブデモ:フォトブースアプリの構築
すべての概念が終わったので、楽しい部分に入りましょう。一緒に何かを構築しましょう。実際、私は既にその多くを構築しているので、一緒にそれについて話しますが、いくつかの新機能も追加します。それでは、すぐに始めましょう。
これがデモです。デモに入るスライドです。素晴らしい。
フロントエンドがどのようなものかを見せましょう。これは、3週間前に起こったエグゼクサミット用に構築したアプリです。エグゼクサミットは基本的に、多くのフォーチュン500のCEOたちがサンフランシスコにやってきて、OpenAIで私たちが構築したものを見て、起こっていることについて多く話し合うイベントでした。
ここで私たちはフォトブースアプリを構築し、このデモ用に再利用しましたが、プレゼンテーション中に話したクールな新機能もたくさん追加しました。これは基本的に非常にシンプルなNext.jsフォトブースアプリです。
ここでできることは、事前に準備した自分の写真をアップロードすることです。それが私です。私自身です。彼の笑顔とカメラを見つめる様子をご覧ください。ちょっと恥ずかしいですね。
選択できるモディファイアのセットがあります。ここで私のパートナーであるクリスティンに相談して、どれにするかを見てみましょう。ジブリスタイル、これは少し定番ですね。ニット調の居心地の良いシーン。日本のアニメ映画ポスター。最後にミニフィギュア。素晴らしい、素晴らしそうに聞こえます。
画像生成は完了まで数秒かかると言ったので、これを始めましょう。ここで私たちは手を合わせて、ライブデモが動作することをライブデモの神々に祈ります。デモはカンニングしていません。
ここで見ることができるように、実際にストリーミングが開始されているようです。Chrome開発者タブを開いて、何が起こっているかを見るのが役立ちます。舞台裏で、コードについても少し説明します。
ここで見ることができるように、これが構築した最初の新機能です。これはエグゼクサミットでは利用できませんでした。これは先週以来の新しいものです。見ることができるように、すべての画像がストリーミングされています。
エグゼクサミットでは、最後の画像が生成されるまで待つ必要がありました。人々は最後の画像が生成されるまで親指をくるくる回していました。Chrome開発者タブで見ることができるように、ストリーミングの動作方法は部分的な画像を渡していることです。フロントエンドに渡している画像には2つのタイプがあります。部分的なものと最終的なものです。
部分的な画像は基本的に自明です。部分的な画像です。IDを使用して、それぞれのパネルで画像を更新できます。
これらの画像が生成されたので、小さなデモに追加した2番目のことを見てみましょう。このジブリのものの画像を撮りましょう。この画像に特定の変更を加えたいとしましょう。数週間前、このデモではそれができませんでしたが、Responses APIのおかげで、追加のプロンプトを追加して変更できるようになりました。
ここでみんなのお気に入りの色は何か少し気になります。チャットに聞いてみましょう。実際に、緑に投票した人々が圧倒的に多かったです。もう一人入ってきました。この背景を緑に変える必要がありそうです。
背景は既にかなり緑に見えます。では、もっと緑にしましょう。背景をもっと緑に、実際にもっと濃い緑の色合いにしましょう。他のものはすべてそのままにしておきます。修正をクリックしましょう。
ここで見ることができるように、新しい画像を生成するために画像を戻しています。修正している間、親指をくるくる回して待つ必要はありません。構築したもののコードに直接飛び込みましょう。
コードの詳細解説
最初の生成については、それらのボタンの一つをクリックしたときに何が起こるかのコードロジックを示します。フロントエンドは選択したものを返し、それがここでプロンプトにマッピングされるマッピングを経由します。これは非常に基本的なプロンプトで、10分で書いたもので、完全に空っぽなので、改善の余地がたくさんあると確信しています。
これは、このリポジトリが既に公開されており、Build Hoursリポジトリでアクセスできると言ったところです。少し変更しましたが、このセッションの直後に更新します。これらのプロンプトを自分で見て、コードを自分でホストし、心ゆくまでプロンプトエンジニアリングできます。
マッピングが完了すると、被写体の元の構成を維持し、以下のモディファイアで被写体の画像を生成する、元の構成と被写体を維持するという完全なシステムプロンプトを生成します。
その後、ここで魔法が起こります。見ることができるように、Responses APIを使用しています。レスポンスを作成し、入力画像、入力画像のB64エンコーディングをプロンプトと一緒に渡しています。ここで画像生成ツールを与えています。
また、渡すパラメータもいくつかあります。例えば、サイズ、品質。絶対に高品質が欲しいです。部分画像、3枚の画像、そして設定するもう一つのことはstream is trueです。
これにより、ストリームを開いて、返される異なるイベントを渡し始めることができます。部分画像を渡してフロントエンドに送り返し、最終画像も画像に関連付けられたレスポンスIDと一緒に戻すことができます。
ここで言及する価値があることは、ツール選択です。Responses APIを使用しているため、requiredに設定しました。ツールを呼び出すようにプロンプトできますが、tool choice equals requiredに設定することで、1つ以上のツール呼び出しを強制的に行わせます。
1つのツールへのアクセスしか与えていないので、レスポンスAPIは画像生成ツールを呼び出すことを強制されます。これはResponses APIを使用するときに覚えておくべき一つの注意点です。
生成が終了したこの画像に戻りましょう。それは確かにかなり濃い緑色に見えます。何でも夜のように見えます。しかし、1ターンの生成だけを見せただけでは、マルチターンの良いデモにはなりませんよね?
他の何かを追加してみませんか?このハンサムな紳士がどこで働いているかよくわからないんです。クリスティン、彼はどこで働いていると思いますか?
OpenAIで働いていると思います。もちろんです。どうやって修正できますか?今私のパーカーに表示されているように、彼のシャツにOpenAIのロゴを追加してみませんか。
彼のシャツにOpenAIロゴを追加してみましょう。もう一度修正をクリックできます。うまくいくことを願いますが、生成している間に編集ロジックがどのように動作するかに注意を向けることもできます。
これは別のroute.jsファイルにあります。Next.jsに詳しい方々は、おそらく私よりもNext.jsに詳しいでしょう。リポジトリをダウンロードして自分で見ることができます。
他の方々のために、これは基本的にこの特定のエンドポイント、編集エンドポイントのすべてのロジックが存在する場所です。ここでも非常に似たコードロジックが見られます。渡されたプロンプトである入力テキストと、画像のB64エンコーディングである画像URLがあります。
ここで指摘したく、皆さんに注意してもらいたいことは、私が行ったプレゼンテーションを思い出していただくと、実際に画像のB64エンコーディング全体をバックエンドに戻す代わりに、前のレスポンスIDを戻すことができることです。これを行う正しい方法はありません。
このようにして、すべての状態を管理でき、送受信する必要がある全画像の往復が少なくなります。これをどのように行うかの簡単な概要を提供するために、ウェブサイトの画像生成ドキュメントを見ることができ、マルチターン画像生成を見ることができます。
ここで、これがどのように行われるかの例を提供します。基本的に、最初のレスポンスであるレスポンスがあり、フォローアップレスポンスがあります。B64エンコーディングで全画像を渡す代わりに、レスポンスIDを渡すだけです。これは基本的にこのように動作します。確実に簡単にできることがあります。
この素敵な紳士がどこで働いているかが非常にはっきりわかります。もう一つ追加したいことは、インターネットでのみアクセス可能な最新の実世界情報へのアクセスが必要な場合はどうでしょうか。
プレイグラウンドでどのように行うかを示しましたが、私たちは皆ビルダーなので、コーディングしなければなりません。これを正確にどこに置くべきでしょうか?ここで少し時間を取って、皆さんの何人かがそれを理解したかどうかを考えてみましょう。
何人かの方が実際に理解したことがわかります。皆さんにヒントを与えるために、ここではありません。ここでもありません。間違った場所に置くことで混乱し続けたので、そのコメントを置きました。
ここで見ることができるように、ツールフィールドがあり、それは配列です。ここで、カスタム定義ツールとホストされたツールを識別できます。ここでできることは追加です。カーソルが私の心を読んだようで、ここに一行の説明を追加できます。
これにより、基本的にWebサーチツールを使用する機能を追加しました。最近利用可能になった知識のみを調べてみましょう。最近NBAに興味を持ちました。NBAに興味を持ったわけではありませんが、バスケットボールをフォローするようになりました。Golden State Warriorsが負けてから、ニューヨークに5年間住んでいるので、Knicksをフォローしています。
KnicksとPacersについては話しませんが、KnicksとCelticsについて、どうだったか気になります。KnicksとCelticsの最新スコアを調べて、そのスコアを画像の背景に追加してみましょう。他のすべてはそのままにしておきます。ここで修正をクリックできます。
これがデモの最後の部分なので、もう一度手を合わせて、これが適切に実行されることをデモの神々に祈りましょう。少し時間をかけて、何が生成されるか見てみましょう。
その間、何が正確に起こっているかについて少し話すことができます。これは基本的にプレイグラウンドで見たものと同じです。最新のスコアを調べるようなものを設定すると、画像を生成する前にWebサーチツールを呼び出す必要があると判断します。それが私が行ったこととまったく同じです。
実際にKnicksがCelticsを破り、イースタンカンファレンス決勝に進出しました。これで、これまでに準備したデモは終了です。
繰り返しますが、このリポジトリ全体をBuild Hoursリポジトリの一部として利用可能にしています。自由に試し、自分でハッキングし、本番環境で製品を構築してみてください。皆さんがこれで何を構築するかを見るのが本当に楽しみです。
Gammaのデモンストレーション
それでは、クリスティンに戻しましょう。もちろんです。次の部分がとても楽しみです。GammaのAIエンジニアリング責任者であるジョーダンをステージに迎えます。ジョーダン、こんにちは。調子はどうですか?今日は参加してくれてありがとう。
調子は良いです。紹介してくれてありがとう、クリスティン。もちろんです。見せたい本当にクールな機能があると知っているので、画面を共有してください。
今日の私の話では、ビルが先ほど見せたのと非常に似たような技術をGammaでどのように使ってアプリを動かしているかを実際に多く示します。
Gammaでは、私たちの使命はあなたのアイデアを実現することです。プレゼンテーション、ドキュメント、ウェブサイトの作成を支援し、最近ソーシャルメディア投稿も追加しました。これらすべてをAIで行っています。
これらすべてのメディアと同様に、Gammaは視覚的なプラットフォームです。視覚的な媒体です。私たちにとっての3つの柱は常に、チャートと図表、視覚化とレイアウト、そして最後にAI生成画像でした。
過去2年間で、私たちは多くのAI画像を生成してきました。1日あたり約70万のAI生成プレゼンテーションを行っています。すべてのプレゼンテーションにはいくつかの画像が含まれています。最近、私たちのプラットフォームと様々なプロバイダーを通じて10億のAI生成画像を突破しました。そのうちの1つが新しいImage Genモデルです。
しかし、歴史的にAI画像には多くの問題がありました。プレゼンテーションでAI生成画像を使用する早期採用者であった私たちは、いつの日か良くなると言い続けてきました。そのプロセスを通じて、ここの誰もが何らかの形で見たことがある問題を抱えていました。
手が奇妙だったり、手足が奇妙だったりしていました。OpenAI Build Hourのこの3番目の画像は、実際に昨日生成したもので、今日でも、より高速で安価な新しいモデルの一部でさえ、テキストを正しく表示できません。
しかし、この1、2ヶ月で、多くの新しいモデルが登場し、多くの良いニュースがあったと思います。AI画像が大幅に改善されました。プレゼンテーションで以前は使用できなかった新しいコンテキストで使用できるほどです。
これは2023年11月のAI画像の例で、美味しい寿司を求めたときのものです。少し奇妙です。卵がそのように寿司に入るとは思いません。対照的に、これが昨日の様子です。ずっと良くなっています。品質は優秀で、今では私たちがGammaを通じて作成する生成プレゼンテーションにより自信を持って含めることができるものです。
この一環として、GammaでAI生成画像をどのように使用するかを示し、Gammaの一般的なプラットフォームの簡単な概要を提供したいと思います。
今日のトピック、OpenAI Build HourのImage Genについてプレゼンテーションを作成します。Gammaでは、単一の行から簡単にプレゼンテーションを作成できます。生成オプションに行き、OpenAI Build Hour Image Genと入力し、今日のBuild Hourであることを伝える日付を入力します。
Image Genに関係ないもう一つの興味深いことは、実際にWebサーチです。WebサーチをネイティブツールとしてLanguageモデルに組み込んでおくことは、このようなトピックで本当に役立ちます。少し停止したようです。もう一度試してみます。
Webサーチをネイティブツールとして言語モデルに組み込んでおくことは、このようなトピックで本当に役立ちます。言語モデルのトレーニング日付を過ぎたものや現在のイベントは、以前は単にここに表示されませんでした。基本的に、すべての詳細が作り上げられたプレゼンテーションの幻覚的な概要になっていました。
しかし、ここで見ることができるように、今日のBuild Hourを検索すると、これらすべてが実際のWebページに基づいた本当の情報を取得します。
これを少し良くするためにいくつかの調整をします。スピーカー用の別のページが欲しいかもしれません。それからいくつかのタイトルを追加します。これを少し大きくできます。OpenAI、ソリューションアーキテクト。そして私自身については、Gamma AIエンジニアリング責任者とします。
私たちのGamma AIにこれらの人々を生成させたくないので、実際に既に持っている画像を含めることができます。ビルの画像を入れます。私の画像を入れます。これは基本的に、新しい画像を生成する代わりにこれらの画像を使用するようAIに伝えています。うまくいくことを願います。
次の部分は、満足できる概要ができたら、テーマを選択することです。このデモのために、実際にOpenAIテーマを作成しました。それを検索します。それを選択し、このためにGPT Image Genモデルを使用することを確認します。
このテーマで、OpenAIのスタイリングに合わせようとしていますが、OpenAIブランドが使用していると思う抽象的なグラデーションのような画像にも合わせようとしています。このデッキを生成しましょう。
ビルが先ほど述べたように、画像生成は間違いなく遅いAI操作です。デッキを生成するとき、言語モデルは実際にはかなり高速です。これの内容を生成でき、通常は画像の生成を待っています。
このデッキがストリーミングされる際、以前に持っていた概要、Build Hourについての情報を見つけるためにWebサーチツールを使用したものを取得し、それを別の言語モデルに渡して、レイアウトの選択と望む視覚的表現の選択と共に、完全なデッキ生成を行います。
見ることができるように、ここで画像を使用したようです。このレイアウトを変更します。このオーディエンスのものを取り除きます。これはスピーカーに関するものだけにしたいと思います。
ここでできることの一つは、レイアウトを切り替えることです。このレイアウトの方が良いと思います。生成された画像のいくつかを見てみましょう。
これはテキストがあまり良くないかもしれません。これは非常に良い画像です。テキストが正しく表示されていると思います。これは興味深いものです。これらの画像の多くは、完全なWebサイトを表示することに傾いていると思います。
最後に見せたい部分と、Image Genの上に構築している別の機能は、マスクレス編集を行う機能です。気に入らない画像がある場合、この機能を開いてAIとのチャットを開くことができ、これは実際にこの画像のコンテキストでチャットを行っています。
試せることの一つは、この画像を抽象的なグラデーションに再生成することです。これが何をするかを見てみましょう。
このメニューから、画像で2つのことのいずれかを行うことができます。作成または編集です。この場合、これは必ずしも調整したい画像ではないと思うので、新しい画像を作成しています。的を外したと思いますが、画像編集が適切な解決策になる他のケースを示すことができると思います。
これは内部でGPT Image Genモデルを使用していると思い、レイテンシは約30秒です。ストリーミング機能を実装することを楽しみにしています。これによりずっと良い体験になると思います。
これを選択します。そして、それが私のプレゼンテーションで更新されます。それでは、これを試してみましょう。ラップトップの下のテキストを削除するように編集してみて、これがどう動作するかを見てみましょう。
これは、以前画像編集をしたい場合はマスクも提供する必要があったマスクレス編集を使用しています。これはテキストを受け取るだけで、それを解釈し、どこを編集するかを把握し、編集できます。それはかなり良かったです。
トップバーも削除して、それが動作するかを見てみましょう。それを削除し、うまくいけばラップトップだけの画像が得られるでしょう。うまくいきました。
明らかに、これが実際のデッキだった場合、おそらくもっと調整するでしょうが、Gammaでの構築の開発サイクルを示すには十分だと思います。デッキに望む一般的なスタイルと一般的な概要を提供できますが、その後AI画像編集を使用してこれらの画像を実際に洗練させることができます。
最後に話したいことはマスクレス編集です。私たちが最近得た大きな勝利の一つで、OpenAI Build Hourで指摘するのが理にかなっていると感じるのは、実際にマスクレス編集を行う他のモデルからGPT Image Genに切り替えたことです。
基本的に一夜にして、ユーザーによる27%の改善を見ました。これらは編集後に画像を評価するユーザーの評価に基づいています。基本的に一行のコード変更で大幅な改善を得られるこのような勝利があります。これについてとても満足しています。
Gammaを試してみたい場合は、gamma.appで無料でできます。それでは、クリスティンとビルに戻します。
Q&Aセッション
ジョーダン、ありがとうございました。実際に、聴衆から質問がありました。すみません、クリスティン。私の方で音が途切れました。繰り返していただけますか?
もちろんです。チャットから質問がありました。戦略的なセールスデッキを作りたい場合、まずChatGPTから戦略を取得してからGammaに提供することをお勧めしますか?
実際に、Gammaにコンテンツをインポートする多くの異なる方法をサポートしています。より専門的な使用例の場合、多くの人が私たちのペーストインモードを使用していると思います。
これにより、完全な概要や完全な研究ページを貼り付けて、Gammaにそれを要約させるか、望むピッチデッキに保持させることができます。多くの人がChatGPTのような言語モデルを使用して最初に思考を統合し、研究を行い、画像を生成し、その後それをGammaに持ち込んで、基本的にスライドに分割し、視覚化を行うのを見ています。
参加してくれてありがとうございました。今度はライブQ&Aに移ります。最初の質問を見てみましょう。
一貫性とオブジェクト参照スタイルなどの細かい制御に関するヒントが欲しいです。これは非常に一般的な質問で、クリスティン、皆さんが尋ねてくれて嬉しいです。
一貫性、細かい制御については、いくつかのことができます。新しいImage GenとAPIで特に、それがネイティブなので、実際に回すことができるいくつかのつまみがあります。
プロンプティングは実際に非常に重要です。つまり、プロンプティングのベストプラクティスにも従う必要があります。可能な限り具体的になり、Image Genに矛盾する指示を与えないでください。
オブジェクト参照スタイルのような細かい制御について、この質問から引き出すもので、参照は一つのことです。入力の一部として画像を渡すことができるので、参照画像は実際に何を生成すべきかを知らせるのに非常に役立ちます。
特定のシーンに入れたいオブジェクト、画像を生成したいスタイルの参照画像がある場合、それらすべてを画像入力として渡すことができます。適切なプロンプティングと参照の提供、これらがこの特定の質問に対する最大の2つのレバーだと思います。
次に進みましょうか?プロンプトについて話しているときに、特にプロンプトから来る変異問題をどのように解決しますか?
変異問題という恐ろしい言葉に聞こえますが、プロンプトの間違いに基づく予期しない生成結果のようなことを意味していると思います。実際には、これらの問題を特定して修正できることは、多くの人が想像するよりも簡単です。
プロンプト内に矛盾がある場合は、間違いなくそれらを修正してください。提供する一つのヒントは、画像を生成する前に、実際にすべてのプロンプトをGPT-4o1または o3に通すことです。今日のモデルは、少なくとも文章関連では私よりも賢く、プロンプトは文章であり、一人でやる必要はありません。他のモデルと一緒にやりましょう。
次の質問は、すべて一貫性のあるテキストが散りばめられた画像でストーリーを生成したい場合、品質とコストの最良の実践は何でしょうか?
もう一つの素晴らしい質問で、今度は使用例に入っています。これで本当に興奮します。テキストと散りばめられた画像でストーリーを生成すること。具体的な使用例が何かはよくわかりませんが、頭にいくつかの具体的な使用例があります。
例えば、その場で子供の本や教育資料を生成したい場合、Image Genはそれに最適でしょう。
この質問が出てくるとは思っていなかったので、思いつくままに考えを吐き出していますが、最初に私が先ほど言ったことすべて、参照画像と画像を戻すこと、Responses APIのおかげでマルチターンで画像を生成できるので、画像を参照として戻すか、以前に生成された画像を画像生成IDとして渡すことができ、Responses APIがそれらすべてを取り、以前に生成したものを見て、断片を組み合わせ、スタイルと一貫したスタイルの画像を生成できます。
品質とコストについても素晴らしい質問です。ここで提供する推奨事項は、レイテンシとコストが許す限り、使用できる最高品質を使用することです。そうすることで、Image Genモデルが何ができるかの上限を見ることができ、プレゼンテーション中に述べた制限にもかかわらず、心に描いた使用例がImage Genに適していることを確信した後、出力形式や品質などを調整し始めることができます。高から中、低に移行して、どれが最適かを確認してください。
次は、画像の一部を編集せずにそのまま残すことは可能ですか?編集される領域を分離したいのです。
素晴らしい質問です。マスキングについて非常に簡単に触れましたが、周りにデモを組み上げるのが少し難しいからです。しかし、編集したい画像と一緒にマスク画像を渡すことで、これを非常に簡単に行うことができます。
マスク画像は基本的にアルファチャンネルを持っています。透明レイヤー、正確に思い出せませんが、すべて私たちのドキュメントで利用可能です。透明レイヤーが変更したい領域で、変更したくない他の部分については、アルファチャンネルを完全に暗いままにしておき、それが変更されないでしょう。逆かもしれません。自分で試してみることをお勧めします。
今日の時間はこれですべてですが、すべての質問に本当に感謝しています。述べたように、私たちはそれらを読み、フィードバックを受け取っています。
お別れのギフトをいくつか残します。録画と一緒に後でメールで共有するリンクがいくつかあります。これらは試してみるのに非常に役立ちます。ビルが述べたように、今日使用したコードを更新する予定です。様々な調整や自分で試してみたいという要求が皆さんから来ているのを見ました。
それでは、6月17日の音声エージェントに関する次のBuild Hourでお会いしましょう。参加してくれた皆さん、ありがとうございました。またお会いしましょう。


コメント