
6,691 文字

みなさん、OpenAIが今回素晴らしい発表をしました。誰もが待ち望んでいたもので、画像編集や素晴らしいテキスト付きの画像生成、画像の構成など、カスタマイズされた写真、自分自身の写真、メニューの生成、マンガの生成など、私たちが常にやりたかったことが全てできるようになります。どんなことが起きているのか一緒に見ていきましょう。
まずはいつものように、いいねをくれた皆さん、チャンネル登録してくれた皆さん、そして特にこの人工知能チャンネルを支援してくれているメンバーの皆さんに感謝します。メンバーは知的エージェントの限定動画にアクセスできることを忘れないでください。今回OpenAIは誰もが待ち望んでいた新機能、つまり常に欲しかった修正ができるAクラスの画像エディターをリリースしました。
最初の例では、チャットに一人称視点の画像、いわゆるPOV(視点)画像を生成するよう依頼しています。「古いロフトで撮影スタッフがカメラを向けており、テーブルの上に巨大な文章が書かれた紙があること」と指定しています。「スピーカーノート パート1」という巨大なテキストがあり、ご存知の通り、AIが画像生成でこの長いテキストを含む画像を作成する際に、何か意味不明なものを作り出す可能性は非常に高いです。
ご覧のように、画像生成はずっと時間がかかっていて、そんなに速くはありませんが、基本的な考え方としては、画像の品質がテキスト生成にかかる時間を補うということです。そして最終的な生成結果がこれです。ロフト内の撮影スタッフがいて、美しく完全に書かれた長いテキストがあります。これこそが私たちが最も望んでいたものですね。
次に、自分たちの写真を基にした画像を作成しようとしています。写真を撮って、それをアニメ風の絵に変換しようとしています。「これをアニメのフレームに変換して」と依頼しています。AIは3人の写真(真ん中の人がOKサインを出し、サム・アルトマンがVサインを出している)を取り込み、生成を始めます。長い時間がかかり、最終的に3人がアニメ風になって表示されます。
サム・アルトマンは「この画像をミームに変換して、’fi thei’と書いて」と頼みます。また長い時間がかかりますが、ちゃんと「fio thei」と書かれたミームが完成します。彼らが頼んだ通りに正確に生成されました。
次に、相対性理論を説明するマンガを描くように依頼しています。つまり、AIに複数の画像でストーリーを作る漫画を書くよう頼んでいます。長い待ち時間の後、相対性理論のマンガが表示され始めます。アインシュタインの顔が表示され、最終バージョンではこの素晴らしいものが表示されます。一部は中国語か日本語で書かれており、他の部分は英語ですが、基本的に時間が遅くなることや、列車と観測者の速度の問題など、非常に明確な参照があります。これはすごいですね。人間がこのようなアートを作るのにどれだけ時間がかかるでしょうか。
次に、彼らの一人の犬の写真を撮り、参照画像を基にしたランチタイムのカードを作るよう依頼しています。そのカードに書くべきテキストについて多くの情報がありますが、これは標準フォーマットで、「Sora 2024」という画像とテキストがあります。同じパターンを使用するが、今回は犬の写真を使ってほしいとのことです。
これは素晴らしいことです。例えば、メニューがあって更新したい場合、テキストを変更して「AIよ、このメニューを更新してください」と言うだけでいいのです。しばらく時間がかかりますが、最終的に「GPT For Image 2025」と犬の写真、そして彼が要求したテキストが表示されます。皆さんはどう思いますか?価値があると思いますか?私はこれが素晴らしいと思います。
最後に、彼らは記念コインを作成します。最初の2枚の写真は背景で、ベースカラーとして使用する色コードを指定しています。より面白くするために、さらに写真を追加し、「for de gen 2025 3 e 25」というテキストを書くように指示しています。期待されるのは、指定された色パレット、4つの画像、そしてそのテキストが書かれたコインです。
長い生成時間の後、「forow imagin」と書かれた画像が表示され始め、アインシュタイン、ラジオ、テディベアが表示されます。犬は表示されませんでしたが、全体的には素晴らしい記念コインです。そして最後に、背景を透明にするよう依頼しています。これにより、他の場所で画像として使用できるようになります。しばらくすると、格子模様の背景(透明背景を表す)が表示され、彼らは実際に背景を削除し、コインをきちんと保持しています。
これは価値があります!本当に驚くべきものでした。皆さんはどう思いますか?コメントしてください。これは非常に優れていて注目に値します。彼らのサイトには他にも多くの例が示されています。
例えば、「Bay Bridge を見渡す部屋のガラスのホワイトボードの前で電話で撮った広角画像。視野には大きなOpenAIロゴが入ったTシャツを着た女性が書いている様子が映っている。筆記体は自然でややわかりにくく、写真家の反射が見える。テキストには…」という巨大なテキストが書かれている例があります。
これを見ると、これはAIによって生成された画像です。この写真は実際に撮影されたものではなく、存在しません。背景の橋や反射など、これは信じられないほど超現実的なものです。
他にも例があります。「中世の家の冷蔵庫に貼られた磁気詩の意味ある言葉」という例では、様々なテキストが書かれています。オリジナルのテキストは英語で、ここでは翻訳されていますが、男性が右手と左手に言葉を持っているなど、非常に正確に描写されています。これは現実世界のものであり、もはやフィクションではありません。
「境界線の周りに少し詰め物のある4パネルの漫画の画像を作成し」という例では、各フレームで何が起こるべきか、表示されるべきテキストなど、多くの情報が提供されています。もちろん、これも英語からの翻訳ですが、シーケンス全体できちんと漫画が生成されています。
「ニュートンのプリズム実験を詳細に説明する図」という科学実験の例では、AIが光がプリズムに当たり、屈折して分散し、スペクトル全体を説明する図を単独で作成しています。
続いて「若くて傲慢なアイザック・ニュートンがテーブルに座り、ノートブックなしでプリズム実験を実演している同じシーン」という依頼に対して、プリズムと色の分離を示すニュートンの画像が表示されます。
私たちは本当に素晴らしい時代に生きています。基本的に、ここにはビデオのシーケンスがあり、キャラクターの一貫性を示しています。猫やキャラクターを作成し、ストーリーを作りたい場合に、そのキャラクターをストーリー全体で維持する必要があるとします。そのキャラクターを生成し、様々な状況で使用できるのです。
他にも多くの例があります。例えば、説明書きのある道路標識や、長い茶色の髪の毛の20代の二人の魔女が道路標識を読んでいる写真リアルな画像など。コンテキスト、キャラクター、構成など、何を書くべきかの説明があり、二人の魔女と彼らが読んでいる多くの標識が示されています。
「Henという伝統的なMarinコンセプトのレストランをオープンしています。有機的で新鮮な農場から調達した食材で準備された韓国料理に焦点を当て、季節に基づいた回転メニューを提供します。以下のメニュー項目を組み込んだメニューの画像を作成してください」という例では、価格や使いたいものなど多くの情報が含まれています。生成されたメニューには、リクエストされたスタイル、価値、価格、写真などが含まれています。
結婚式の招待状も作れます。「木製テーブルの上に置かれた魅力的な結婚式の招待状の写真。カードは卵の殻のような質感と美しいエンボス加工が施された頑丈なもの」など、表示したいテキストなどの情報を提供するだけで、この素晴らしい画像が表示されます。
複数のターンでの生成も可能です。例えば「この猫に探偵の帽子とモノクルを与えてください」から始め、「これをトリプルAビデオゲームに変換し、ゲームエンジンで4Kで作成し、UIを追加する」と続けると、体力バー、小さな地図、中央に猫、トリプルAゲーム要素などが表示されます。
さらに「16:9の比率の風景画像に更新し、UIにより多くの魔法を追加し」と続けると、猫と橋がある以前のゲームが改善され、ワイドスクリーンの16:9画面で表示されます。さらに「プレイヤーがメニューを開いたときのインターフェースを作成し、装備を持った猫のキャラクターとアクティブなミッションを示す別のページを表示する」と続けると、帽子、目、体、足など、ゲームに存在すべき多くのオプションが表示されます。このゲームは存在せず、その場で発明されたものです。
他にも詩の例があります。「高級な卵の殻のようなテクスチャーのカードに具体的な詩。OpenAIでは、長い間信じています…」というテキストがあり、それがリクエストされた通りに詩に表示されます。さらに「デザイナーの部屋でこのカードを見せて、カードをカメラの近くに」と依頼すると、デザイナーの部屋のカードとカメラの近くのカードが表示されます。
整理されたオブジェクトの例では、「4行4列のグリッドを含む正方形の画像で、16のオブジェクトを含む」という指示があり、青い星、赤い三角形など、説明されたすべてのオブジェクトが作成されます。
「午後のニューヨークのタイムズスクエア、人、車両、または照らされた看板なし」という例では、通常は多くの光と活動がある場所が空っぽになっています。
「赤ワインのほんの小さな一滴だけが入ったワイングラスを見せて」という例では、グラスにほんの一滴のワインが表示されます。
「見えない象」の例では、「環境にいる見えない象の証拠が必要です。象が何をしているか考え、それをプロセスの途中で示すかもしれないが、象自体はまったく表示されない」という指示に対し、象が見えない画像が表示されます。
数学方程式の例では、E=MC²やa√9=3など、多くの方程式が書かれたホワイトボードが表示されます。
「参照画像を使用して三角形のホイールを持つ車両の設計図を描く」という例では、歴史的に作られた黄色い参照画像が提供され、「三角形ホイール車両、英国特許2025 OpenAI」という三角形ホイールを持つ車両の画像が生成されます。さらに「これをニューヨークで撮った写真に」という要求に対し、ニューヨークで三角形のホイールを使用している人の画像が表示されます。
「青いチェーンソーの写真リアルな画像」という例では、「このチェーンソーの広告と、感謝祭のディナーテーブルで七面鳥を切っている祖母を追加し、スローガンを追加する」という続きの要求に対し、チェーンソーで七面鳥を切っている祖母が表示されます。
「このシーンをDLSR(デジタル一眼レフカメラ)で撮った写真に変換する」という例では、絵画が実際の人物の写真のように変換されます。また、「建物の例では、「これを写真に変換して」という要求に対し、落書きのような建物の絵が美しい建物の写真に変換されます。
「世界知識」の例では、「画像のネイティブ生成により、テキストと画像間の知識を関連付けることができ、より知的で効率的に見えるモデルになる」と説明されています。
「コードで生成された画像」の例では、「あなたにとってこれが何を意味するかの画像を作成する」という要求に対し、コードには「OpenAIのバナー」などの要素が含まれており、結果として「私はGPT-4o」という画像とOpenAIのロゴが表示されます。
「カクテルのレシピ」の例では、「私のバーで最も売れているカクテルのプロフェッショナルに撮影された写真リアルな図を作成する」という要求に対し、各カクテルの説明テキスト付きのカクテルの画像が表示されます。
「時間のインフォグラフィック」の例では、「なぜSFがそんなに霧深いのかを説明する視覚的なインフォグラフィックを作成する」という要求に対し、詳細なインフォグラフィックが表示されます(SFが何を指すかは不明です)。
「クジラのガイド」の例では、「純粋な白い背景に、水彩画スタイルのさまざまな種類のクジラの教育ポスターを作成する」という要求に対し、白い背景にさまざまな種類のクジラが表示されます。
「マーチャの作り方」の例では、「マーチャの作り方についてカラフルなリソグラムを作成する」という要求に対し、粉末を入れ、水を加え、混ぜて消費するという段階的なプロセスを説明するインフォグラムが表示されます。
「フォトリアリズム」の例では、「画像内の幅広いスタイルでのトレーニングにより、モデルは説得力のある画像を作成および変換できる」と説明されています。例として、「駐車場を急いで歩くK.マルクスのパパラッチスタイルの自然な写真」などが挙げられています。
DALLEの特徴の一つは、どれだけ多くのテキストを書いても、写真は最小限の詳細で表現され続けることです。最初の画像でテキストが固定されているように見えますが、ここに表示されているすべてのものは、DALLEがすべての指示を実行する特性があるため、非常に詳細に説明されていると確信できます。
「制限事項」のセクションでは、「私たちのモデルは完璧ではなく、初期リリース後のモデル改善を通じて対処する複数の制限に気づいています」と説明されています。例えば、「幻覚」の問題があり、他のテキストモデルと同様に、画像生成は情報を作り出す可能性があります。
「高結合の問題」の例では、「元素の周期表」が生成されますが、一部の要素が意味不明なものになることがあります。「一度に10〜20の異なる概念を正確にレンダリングするのが難しい場合がある」と説明されています。
「多言語レンダリング」の問題では、「モデルは非ラテン語のレンダリングに時々困難を抱える場合があり、特に複雑さが高い場合は文字が不正確になる可能性がある」と説明されています。ラテン文字はすべて似ていますが、異なるアイデアを持つ他の言語に移ると問題が生じます。
「編集の精度」の問題では、ステップバイステップの指示でステップ1、2、3が逆になっているなどの問題が生じる可能性があります。
「小さなテキストを含む密度の高い情報」の問題では、「非常に小さいサイズのテキストで詳細な情報をレンダリングするよう要求された場合、モデルが困難を抱えることが知られている」と説明されています。
「いつ利用可能になるか、誰が使用できるか」という質問に対しては、「GPT-4oの画像生成は、Plus、Pro、Team、およびFree(無料)ユーザー向けに今日から開始される」と説明されています。つまり、無料ユーザーも画像生成機能を使用できるようになります。「Enterpriseおよび教育向けのアクセスも近日中に提供される予定」とのことです。
「DALLEに特別な場所を持っている人のために、DALLE専用GPTを通じてアクセスすることもできる」という説明もあります。「開発者はまもなくAPI経由でGPT-4oの画像を生成できるようになる」とのことで、APIを使用する人にはまだ開放されていませんが、今後数週間で利用可能になる予定です。
「GPT-4oを使用して画像を作成およびカスタマイズすることは、会話するのと同じくらい簡単です。アスペクト比、正確な色(16進数コードを使用)、または透明な背景など、必要なものを説明するだけです」と説明されています。「このモデルはより詳細な画像を作成するため、画像のレンダリングに時間がかかり、通常は最大1分かかる」とのことで、遅延は現在のところ避けられないようです。
あなたはどう思いますか?アプリケーションでテストしてみて、考えを教えてください。このニュースは本当に素晴らしいもので、私は大好きです。このツールを使う価値は十分にあります。もしチャンネルを支援して、このようなビデオを見続けたいなら、メンバーになってください。メンバーは知的エージェントの限定動画にアクセスできます。いいねを押してくれてありがとう。


コメント