ChatGPT Images 2.0の紹介

AI画像
この記事は約46分で読めます。

本動画は、OpenAIによる新たな画像生成モデル「ChatGPT Images 2.0」の発表と、そのデモンストレーションを実況・検証した内容である。発表では、画像の自然な仕上がりや、モデルが生成前に思考する「思考モード」、そして多様な言語での高度なテキスト描画能力が紹介されている。動画の後半では、配信者たちが実際に新モデルを使用し、複雑なプロンプトの入力や既存画像への編集を通じて、従来モデルとの圧倒的な性能差や興味深い生成結果について考察している。

Introducing ChatGPT Images 2.0
Introducing ChatGPT Images 2.0#ai #openai #llm

ライブ配信の開始とトラブルシューティング

配信が始まっているか100%確信は持てませんが、どうかお付き合いください。配信は始まっていると思います。ディラン、そちらの配信はライブになっていますか?

私の方では確認できないんですが、ちょっと見てみますね。あなたのチャンネルを見ると、確かにライブ配信中になっているようです。ですから現在視聴者の方は確実にいらっしゃるわけですが、私の方のチャンネルでは始まっていませんね。

確実に視聴者の方はいますね。

よし、うまくいっていますね。皆さん、ようこそ。

今はデュアル配信ですね。

ええ、ここでちょっとしたテストをしているんです。デュアル配信に挑戦しています。あなたのチャンネルを開いて、そちらでも配信されているか確認してもらえますか?

はい、やってみました。でも見当たりません。何か開いておく必要があったんでしょうか?私は配信に関しては本当に初心者なもので、まだ一度しかやったことがないんです。

作成をクリックすべきですか?うまくいっていますよ。でも、私のチャンネルで皆に見えているんでしょうか?あなたのチャンネルでは皆に見えていますが、私のチャンネルではどうでしょう。

Dylan Curiousのチャンネルで見えている人はいますか?両方のチャンネルで配信しようと試みているところなんです。

「ライブ配信を開始」をクリックすることもできますよ。開いたほうがいいですか?

ああ、私の髪の毛がよく映っていないと言っている人がいますね。それは技術的な問題です。チームに対応させましょう。

ひどい言われようですね。ああ、なんだか変な感じです。実際には「配信を終了」と表示されているんです。これをあなたと共有したいところですが、個人情報まで映ってしまったらどうしようかと思いまして。だからやめておいた方がいいですね。

私に教えてくれたキーですが、それは右上で選択されているものと同じ、正しいものですか?

私に何が見えているか分かりますか?どうやらフィードは私のYouTubeに入ってきているようです。さて、ここからどうすればいいんでしょうか?

「タイトル」などの横にある編集をクリックして、プライバシー設定が公開になっているか確認してみてください。「配信を終了」はクリックしないでくださいね。

「配信を終了」と表示されているということは、うまくいっている証拠です。ライブ状態だということです。こうしてみましょうか。

私の画面を共有しましょうか?お見せできますよ。個人情報は何も共有しないようにしますから。見たいですか、それともやりすぎでしょうか?

ええ、おそらく問題ないはずです。

最悪の場合、RTMPトークンが映ってしまっても、後で削除すればいいだけですからね。以前、ライブ配信中に自分のクレジットカード番号を晒してしまったことがあるんです。あれよりひどいことにはならないでしょう。

経験済みなんですね。さて、私にはこう見えています。ほら、「ライブ」って書いてありますよ。あなたが持っているフィードが、ここの「配信ルーム」に入ってきているような感じがします。でも、ここをクリックして自分のホームページを見ても、この下にライブの赤い丸や表示が何もないんです。

待ってください、左側のライブ配信設定に行ってみてください。私たちがいる場所の下あたりで、今選択しているタブはアナリティクスですから、その左にある配信設定です。

非公開になっていますね。では編集をクリックして、プライバシーを公開に変更してください。それから収益化の設定も変更できます。

待って、どこに書いてありますか?

タイトルを下へスクロールしてみてください。スクロールして。

ああ、ありました。公開設定ですね。完了です。これでライブ状態になるはずです。皆さん、本当にありがとうございます。ライブ番組へようこそ。スタートが遅れてしまい申し訳ありませんでした。いくつかテストをしていたものですから。

ええ、大丈夫です。設定はしたんですが、表示されていないような気がします。でも問題ありません、必要ならあなたのチャンネルだけで進めましょう。配信の健康状態は極めて良好ですね。なぜこっちにはあって、あっちにはないんでしょう。

いや、映っていますよ。配信されています。ライブ状態です。すべて順調ですよ。少し時間がかかっただけです。

ええ、遅延があるんです。そういうことですよ。5秒から10秒ほどの遅延があります。とにかく、OpenAIの配信の最後の方を見てみましょう。最初のシルクの服が気に入りました。

OpenAIによる新機能のプレゼンテーション

ズームインして、これと同じスタイルの服を着た私の画像を作ってくれませんか。ヒーローショットを1枚と、別の角度からのビューをいくつか、そして服のディテールもお願いします。

はい、これがプロンプトです。このプロンプトでモデルに続きをお願いしてみます。つまり、ズームインして、私が実際にこの服を着たらどんな風に見えるかを見せてほしいと頼んでいるわけです。結果を待つ間、最初の画像をもう少し振り返ってみましょう。

ノートパソコンの画面に戻ります。この画像の本当に素晴らしいところは、コーディングの各要素に対応するテキストのラベルが付いていることだと思います。スニーカーやフィットしたTシャツなどが示されていて、どれも本当にリアルに見えます。これは基本的に、私たちのモデルの視覚的知能が大幅に向上しており、多くのテキストと視覚的な要素を互いに結びつける能力がはるかに高くなっていることを示しています。

はい、これで私がこの服を着ている詳細なビューができました。様々な角度からの姿も確認できます。まるで実際にお店に行って試着しているような体験ですね。

このデモを通じて私が強調したいのは、この新しいモデルが単にプロンプトを与えて画像を返すだけのAI画像ジェネレーターではなくなったということです。対話的に話しかけることで、このように非常に理解しやすい画像を返してくれるAIになったのです。

それでは、私たちのモデルに搭載された「思考モード」と呼ばれる、より深い知能について話してくれるケンジにバトンタッチします。

ありがとう、クヴァン。このモデルで導入した主要な機能は、画像生成において、最終的な出力を生成する前に「考える」能力です。これは非常に複雑なプロンプトにおいて特に役立ちます。例えば、ウェブ検索が必要なものや、互いに一貫性を保った複数の画像を出力する必要があるもの、あるいは「これが最終結果です」と提示する前に自分の作業をチェックする必要がある場合などです。

まずはいくつかの例を見てみましょう。実はゲイブがライブ配信の冒頭でこれらの例をいくつか実行してくれていました。スマホの画面にある例を見てみましょう。彼とサムのツーショットの自撮り写真があって、それを漫画にしたものです。最初の画像を見ると、確かにゲイブとサムに見えますよね。

ええ。

でも、さらに素晴らしいのは、その後に続く画像を見ても、ちゃんとゲイブとサムに見えますし、最初のページで確立されたスタイルがそのまま維持されているという点です。さらに良いことに、1ページ目、2ページ目、3ページ目の間でストーリーにしっかりと一貫性があるはずです。

複雑なプロンプトを処理する思考モード

ありがとう。これが実際に機能している別の例を見るために、ゲイブが実行したもう一つの例を見てみましょう。少し背景を説明しますと、数週間前、私たちはエルマリーナで「ダクトテープ」というコードネームでこのモデルの初期バージョンのベータテストを行いました。インターネット上の何人かの方は本当に優秀な探偵のようで、それが私たちだと見抜いていましたが、今回正式に私たちだったと発表します。

このプロンプトでは基本的に、ChatGPT Images 2.0に対して、このダクトテープモデルに対するソーシャルメディアの反応を探し出し、人々のコメントを引用するように指示しました。その結果、Threads、LinkedIn、Redditなどからの引用が見られます。

さらに驚くべき部分は、https://www.google.com/search?q=ChatGPT.comへのQRコードを配置するようにモデルに指示したことです。これにより、皆さんが今すぐご自身でこのモデルを試すことができます。ちゃんと機能するか確認してみましょうか。

ええ、やってみます。

おお、素晴らしい。完璧ですね。思考を伴う画像生成により、この例のようにウェブ検索を行い、答えを統合し、QRコードを配置するといった非常に複雑なタスクを、すべて1つの画像内でこなすことができるのです。

しかし、まだまだ機能はあります。アレックスからこれらの新しい詳細についてお話しします。

画像の自然さと柔軟性の劇的な向上

私たちは自然さにおいても多くの改善を行いました。いくつかプロンプトを実行してみます。先ほどゲイブが言ったように、私たちの出力は今や自然な写真のように見せることができます。これを機能させるには、「写真のようにリアルな(photorealistic)」といった言葉を付け加えます。他にも「プロのパースペクティブ」や「iPhoneで撮影」「使い捨てカメラ」などのバリエーションもあります。

この最初の例では、OpenAIが設立された2015年に戻ったと仮定しています。でも、なぜかImages 2.0が存在しているという設定です。ご覧の通り、モデルは講義室のわずかな不完全さや粒状感、照明を実際に再現できています。スライド上のテキストや、モデルが考え出した講義プランでさえ、かなり一貫性があります。

このような写真のようなリアルさに加えて、私が非常に興奮しているのは、モデルがはるかに柔軟になったことです。特に、最大で1対3や3対1といった、非常に幅が広い、あるいは非常に縦に長い画像を作成できるようになりました。

これを見てみましょう。これは私たちのチームのお気に入りのスタイルプロンプトの1つで、非常に縦長の画像を作成する能力を本当によく示しています。私の首がすごく長くなっていますね。これはこれでかなりかっこいいですが、プロフィール写真として使ったり共有したりするのは少し難しいかもしれません。もちろん、オプションを使って1対1の正方形にすることもできますが、時間の都合上ここではお見せしません。

アスペクト比と自然さの両方を組み合わせた、もう一つの楽しい例があります。モデルに月面着陸の360度画像を作成するように頼みました。360度のパノラマ写真のように見えると思います。私が以前コーディングしたパノラマビューワーで見ることもできます。

うわあ。

ご覧の通り、実際には非常に一貫性のある360度画像になっています。太陽や影の方向も正しいことがわかります。

おお、それはすごい。信じられません。この部分をバイブコーディングしたと言っていましたね。

ええ、Codexを使って作っただけです。

素晴らしい。

つなぎ目が少しありますが、よく探さないとわかりません。これは本当に信じられない出来です。画像が美しいのはもちろんですが、これらの画像の背後にある知能、そしてそれが世にある他の画像生成サービスとどれほどの違いを生み出しているか、驚くべきことです。ここまでの進歩を成し遂げたことに、心からお祝いを申し上げます。

さて、次はニタントとブアンに加わってもらい、もう少し詳しくお話ししましょう。

彼らが準備している間に、ゲイブに聞いてみたいのですが、あなたが一番気に入っている、あるいは一番驚いたスタイルはどんなものですか?

ええ、本当に気に入っているキーワードがいくつかありますが、アレックスが言ったように、「写真のようにリアルな(photorealistic)」という言葉は、モデルの中で本当に非常に興味深い何かを引き起こすと思います。

ぜひ試してみてください。

はい。

では、ようこそ。

こんにちは。サム、そしてケイト、ありがとうございます。私はブアンです。画像研究チームのもう一人のメンバーです。

私はニタントです。チャット画像チームのエンジニアです。これから、私たちの新しいモデルの向上したテキスト描画能力について紹介します。

世界中の言語に対応する完璧なテキスト描画

OpenAIはサンフランシスコを拠点とする企業です。私たちは英語を話し、職場で英語を使用しています。しかし、私たちが画像生成で感じるのと同じ興奮を、世界中のすべての人に楽しんでもらいたいと考えています。そこで、Images 2.0では多くの改善を行い、世界中のあらゆる言語、あらゆる文化において、モデルがすべてのテキストを完璧に生成できるようにしました。

見てみましょう。最初の例では、世界中の様々な言語についてのタイポグラフィアートのポスターを生成したいと思います。本当にたくさんの言語が登場する予定です。どんな風になるか見てみましょう。

生成している間に、別のデモも開始しておきます。私が架空のパン屋「OpenAIベーカリー」を日本にオープンしたいとします。そのポスターを、完全に日本語だけで作成したいと思います。

新しいモデルが最も上達したと気づいた言語は何ですか?

ヒンディー語、中国語、韓国語、そして日本語など、主にアジアの言語だと思います。これらの言語は、英語の26文字とは異なり、伝統的にアルファベットの中に何千もの文字を持っています。以前のモデルはこれらの文字を記憶するのに苦労していましたが、今ではプロンプトを出すだけで、これらの言語でテキストのページ全体をエラーなしで生成してくれます。

すごいですね。どうなるか見てみましょう。

おお、これが最初の例ですね。タイポグラフィアートです。わざと本物の雑誌の写真という形式になるようにプロンプトを出しました。そのため、リアルに見えるだけでなく、正しい文字を確認することもできます。中国語の「你好(ニイハオ)」がありますね。フランス語の「Bonjour(ボンジュール)」もあります。世界中の誰もが、自分の言語を使って自分自身のアートを創り出し、私たちのモデルを楽しんでくれることを願っています。

2つ目の例を見てみましょう。私のOpenAIベーカリーです。おお、見てください。私たちのロゴまでこのパンの形にしてくれましたね。これは日本語のポスターです。漢字もひらがなもすべて見えます。ズームインして詳細を見ることもできます。ほら、ここにあるひらがなを見てください。

世界中の誰もがこのモデルを使って自分のポスターを作り、自分のお店を開き、あらゆることを実現してほしいと心から願っています。

そして、私たちの画像生成モデルがどこまで到達できるかを皆さんに示すために、これは実験的な4K APIを使って生成した画像です。ただの米の山ですが、ただの米の山ではありません。この中に「GPT Image」と書かれた一粒の米があると言ったらどうでしょう?見つけられますか?さあ、どうぞ。

ええ、真ん中あたりにありますね。私には見えませんが、何かは見えます。

皆さんのために分かりやすくしましたよ。

最高ですね。

見てください。ズームインしてみましょう。

えっ?

これほど巨大な山全体の中で、たった一粒の米にです。

これが、私たちの最新モデルが到達できるレベルなのです。

驚くべきことです。

次は彼に引き継ぎます。

ChatGPTアプリでの実践的なデモンストレーション

はい。Images 2.0は、すべてのユーザーが今すぐ試すことができます。アプリからChatGPTにアクセスする場合は、最新バージョンにアップデートしていることを確認してください。このようなウェルカム画面が表示されれば、準備完了です。

まずは日常的な簡単なプロンプトから始めます。ヒンディー語でレシピを作成するように頼んでみます。ブアンが言ったように、新しいモデルは、私が試したヒンディー語、テルグ語、カンナダ語、タミル語、マラーティー語などの多くのインドの言語を含め、多くの言語でテキストを理解し描画する能力が著しく向上しています。

テキストが密集している場合、その違いは特に明確になります。どんな結果が返ってくるか見てみましょう。モデルがどんなインド料理を選ぶのかも楽しみですね。

おお、来ました。アルーパラタを選びましたね。それは定番です。

おお。テキストも本当に美しく見えます。一目見たところ、エラーは見当たりません。

次に、アプリに追加された新しいプリセットスタイルもいくつかチェックしてみましょう。ここで「画像を作成」を選択するだけです。楽しくて、新しいモデルの機能を最大限に活用できるスタイルがたくさん表示されます。

そうですね、OpenAIベーカリーのロゴを作ってみるのはどうでしょう、ブアン?

もちろん。私のベーカリーのポスターの写真を撮って、どう修正されるか見てみましょう。

やってみましょう。16個から20個くらいのロゴのアイデアが返ってくるはずです。モデルの機能からすると、これはかなり単純なプロンプトです。非常に詳細な指示に従うのが本当に得意なんです。ですから、創造的な仕事にとって本当に重要な、非常に具体的なブランド言語、デザイン、美意識などがあれば、それを使ってアイデアを反復・洗練させ、求めているものを正確に引き出すことができます。

カラフルなロゴのアイデアが出てきましたね。

うわあ。来ましたよ。

いいね。

皆さんはどれが一番好きですか?

どれもいいですね。これはどうですか?

ああ、いいですね。これは私たちのロゴとパンを組み合わせています。

気に入りました。これを見ているとお腹が空いてきますね。

これは本当に素晴らしいデモでした。人々がこれを使って何を生み出すのかを見るのが待ちきれません。画像の美しさはすぐに伝わるでしょう。その背後にある知能は非常に深く、皆さんがこれを楽しみながら探求してくれることを願っています。

先ほど申し上げた通り、本日からChatGPTとAPIで利用可能です。チームがここで作り上げたものをとても誇りに思います。私たちがこれを開発するのを楽しんだのと同じくらい、皆さんが使うのを楽しんでくれることを願っています。本日は誠にありがとうございました。

驚きの進化と実況者たちによる独自検証

よし。よし。かなり良さそうですね。ちょっと画面に全部映しますね。少し待ってください。ディラン、私の声は聞こえますか?

ええ、聞こえますよ。ちょっとしたものを共有しますね。これがOpenAIの人たちがとても楽しいと思っているスタイルです。どう思いますか?

何ですか?ちょっと待ってくださいね。ごめんなさい、ライブ配信のフィードに別のものが出てきちゃって。

これ、すごく面白いですよね。私たちが話している間に、まさにこれとそっくりなものを作ろうとしていたんですよ。

「おい、お前もやろうとしてたのか」って感じでしたね。彼が「OpenAIでは、首の長いスタイルが大好きなんです」って言った瞬間に、誰が全員をキリンにするなんて想像するだろうって思いましたよ。でも、実際かなりいい出来ですよね。背景に配置されたすべての言葉とか。「誰かを特別な存在だと感じさせることができる、特別な誰かになれ」なんてテキストが入っていますし、あなたの「Wes Roth」の盾もあって、言葉も正確に入っています。

ちょっとズームインして見せましょう。私自身、少しショックを受けたくらいで。ほら、ここに登録者100万人って書いてあるんですよ。

知ってます。でも、これ完全に理解してますよね。「なるほど、これは未来の姿なんだ」って思いましたよ。あなたが将来こんな風になるってことですね。首が長くなって、色々あって。

登録者が増えるにつれて首も長くなるんですか?

ええ。どんどん長くなっていきますよ。

誰も登録してくれないかも。冗談ですけど。

それに見てください。こっちには登録者10万人の時の盾も置いてあるんです。私はこんな詳細な指示は一切出していません。「首の長いカートゥーンスタイルのWes Rothを作って」と言っただけなんです。

私に首なんてほとんどなかった頃ですね。

ええ。でも見てください。確実にあなたの名前が入っています。下にも入っていますね。かなり凄まじいです。驚くほど良い出来ですね。

ちょっと私の画面を共有させてください。私が作ってみたものをいくつかお見せします。少々お待ちを。このウィンドウを共有すればいいのかな。ちなみに、OpenAIって書かれたあの米粒には本当に度肝を抜かれましたよ。

あれはかなり印象的でしたね。

Nano Bananaではあんなもの見たことがありません。

ええ。まず何よりも、この飛躍が驚異的です。2位にあるのがGemini 3.1 Flash Image Previewですよね。それがNano Banana 2です。スコアが1270です。このGPT Image 2は1512へと跳ね上がっています。これまで見てきたどんなものよりも、はるかに、はるかに大きな飛躍です。指摘してくれた方に感謝します。米粒の例は本当に素晴らしかったです。

私が作ってみたものをいくつか紹介します。これは私とサム・アルトマンが任天堂のゲームで遊んでいるところです。この画像を使いました。

ええ。

うーん、どうでしょう。また首のあたりが何か変ですね。私の首が長すぎたり、短すぎたりするのを嫌がっているのかな。

ちょうどいい長さが出せないだけですよ。

そうみたいですね。次は、ティム・クックがAppleを去るという昔の新聞記事です。

すごく印象的だと言わざるを得ません。どうやって……つまり、実際にニュースを検索してきたんでしょうか?思考モードを使って今の記事についての新聞を作るなら、何について書くべきか実際に知っているということですよね。

まさにその通りです。Appleの株価が急上昇したとか、クパチーノがどうとか書いてありますね。日付は2024年5月13日になっています。だから100%正確ではありませんが、言いたいことはわかりますよね。それ以外の部分はすべてかなり良さそうです。

正確にすべてを引っ張ってきたわけではないと思いますが、ここにあるテキストを見ているだけで、そのテキストの凄さに圧倒されます。この紙に書かれた一文字一文字が、私が見る限り意味を成しているという事実がすごいですよね?

ええ。ズームインできますか?段落の一つだけでも読めますか?現実的なことを話しているのか、それともただテキストを幻覚で作り出しているのか。

一応、現実的なことについて語っているようです。

待って、これが見えません。小さな字を読むには少し遠すぎますが、とにかく信じられない出来です。「デイリー・クロニクル」「ティム・クック辞任へ」と読めますが、すべて正しいです。もちろん、線の入り方とかも、新聞としての見栄えに非常に似ています。

ごめんなさい。Riversideの仕組みのせいで、画面共有がそっちに行っちゃってますね。

ええ、今ならすぐにできますけど、これの後にしましょう。

こっちには、アインシュタインが現代の教室で教えている画像もあります。ノートパソコンの画面上で、すべてが非常に忠実に再現されていることに注目してください。

これはかなり印象的だと言わざるを得ません。

GPT Imageで彼らが私にしたのがこれです。私をスレンダーマンに変えてしまいました。常に監視している、目も顔もない存在に。

そしてもう一つ、バイオニックアームを持つアニメキャラクターです。この顔を使ったような気がしますが、何というか。いや、待って。この顔を使ったんだと思いますが、要するにかなり良さそうに見えるってことです。

次に別のことを試してみたんですが、残念ながらこれはうまくいきませんでした。

ええ。あの砂粒のようにはいきませんでしたね。でもまだ……

おそらく何が起きているかというと、タブを1つ開いていて、さらに4つくらい別のタブを開いて生成しようとすると、他のものが少しバグり始めるんだと思います。だから無限に同時に開くことはできないんでしょう。一度に1つに制限されているように見えますが、1つずつやった時は、かなり、かなり良い結果が出たと言わざるを得ません。

質的な面で、これまで使ったどんなものよりも優れていると感じますか?

まだ言うのは少し早いですが、最初の結果は非常に良いと感じています。

私がやるべきことは……Nano Bananaで非常に感銘を受けたことの1つが、Photoshopのように使える能力だったんです。中に入って「そのテキストを変更して」と言えるような。だから、画像に調整を加えるような実験をいくつか試させてください。そこに本当の次のステップの魔法があると思うんです。微調整を加えながら対話している時にどう感じるかですね。

画像の中でですね。ええ、どうぞ。

並行して色々試してみましょう。一度に50個のバリエーションは作れないので、1つずつ交代でやってみましょう。

わかりました。私は何を試しましょうか?視聴者の皆さんに、私に生成してほしい面白いアイデアを聞いてくれませんか?

視聴者リクエストに応える限界テスト

よし、皆さん、ぜひ何をテストすべきかアイデアをください。

限界までプッシュしてみますよ。

私のライブ配信がどうなっているか見てきましょう。

うわあ、こんなにたくさんの人が。皆さん、こんにちは。Xでもライブ配信中です。Xで見てくださっている皆さんも、ご参加ありがとうございます。できる限りライブ配信のコメントを追おうとしています。来てくださった皆さんに感謝します。

誰か説明してくれませんか?TBPNという毎日放送していたライブのテック番組を知っていますか?週5日、1日5時間とか4時間とかやっていたと思うんですが。彼らがいくらで買収されたか知っていますか?そしてなぜそれが妥当なのか、誰か説明できますか?金額を知っている人はいますか?OpenAIがあの番組を買収した金額です。彼らのことはとても嬉しいんですが、あの金額には非常に驚きました。

ええ、忘れていましたが、良い話題ですね。私は今、すべてのトークンを使い切っているところです。

おお、「縁までなみなみと注がれた赤ワインのグラス」。ジョージ・サービンからのリクエストです。それは良いお題ですね。

ディラン、その話知っていますか?特定のその件について聞いたことはありますか?

どう処理するか見るためですね。その特定の件については聞いていません。私は今、「奇妙な食べ物の組み合わせ」と入力してみました。これが出てきたので、ここから少し微調整してみようと思います。そこに魔法があると思うので。

画面を共有しましょうか?

ええ、どうぞ。この後、私の画面も共有しますね。

以前、ChatGPTやDALL-Eは、どうやっても満杯のワイングラスを生成できない時期があったんです。修正されたかどうか気になりますね。必ず半分くらい空になっているんです。何を頼んでも「はい、満杯のグラスです」と言いながら半分空なんですよ。「いや、満杯じゃない」と言うと「ああ、おっしゃる通りです。もう一度やってみます」と言って、また半分空のものを出すんです。だから、それが改善されたか確かに試してみましょう。

さて、これが奇妙な食べ物の組み合わせの画像ですが、食べ物がちゃんと混ざり合っている感じがするか考えています。マカロンが……あれは結構美味しそうですね。でもとにかく、本来はあんな風にはならないはずです。あのピクルスを見てくださいよ。少なくともあそこにほんの少し健康的な要素があります。でも、チーズが滴り落ちているようにも見えますね。

では、フライドポテトを1本、ペンに変えてみましょう。大きなボールペンにしてみます。

おお、誰かが「それはワイングラスがいっぱいに注がれることを想定して作られていないからだ」と言っていますね。なるほど、理にかなっています。

ええ、すべてのトレーニングデータにおいて、一般的なパターンから外れたことをさせなければならないわけですから。

「透明な背景のPNG」を試してみてください。

まあ、生成されるのがPNGでなければ機能しないかもしれませんが。見てみましょう。

いや。よし。

透明な背景ができたら素晴らしいですが、私のはPNGで出力されました。

ええ、だからできるんです。まさにそれを彼らは……

うわあ。本当に強力ですね。

ええ。次のプロンプトの後に、「背景を透明に変更して」と頼んでみます。

よし、よし。ええ、ペンを追加してくれました。私が頼んだ通りのことです。単にペンを追加しただけですね。少し曲がっているように見えますが。

ハンバーガーのバンズがドーナツだと言っている人がいます。

ええ、だからあんなに美味しそうに見えたんですね。

それが狙いだと思います。奇妙なものを作ろうとしているんですから。マカロニチーズが乗っていて、ペンが置いてあるんです。

透明な背景は、アイデア出しやプロジェクトで使いたい人、Photoshopに投げ込んでレイヤーとして配置したい人にとっては本当に便利ですよ。

ええ。もうあまり考えなくなりましたが、以前は自分の写真を撮って、Photoshopで顔の周りをなぞって背景を切り抜き、YouTubeのサムネイルで使えるようにするのに驚くほど時間を費やしていましたよね。

ええ。

今では夢のようです。ほんの少し前まで、あんな無意味な作業に何時間も、何十時間も費やしていたんですよ。

ええ、そうせざるを得ませんでしたからね。ツールは良くなりましたが、今ではこの技術のおかげでその必要すらなくなりました。

でも髪の毛はいつも上手くいきませんでした。「ああ、背景を削りすぎちゃった」って。

ええ、髪の毛はいつも……グリーンスクリーンで撮影するとかしないと。

でも確かに、以前はPNGじゃなかったと記憶しています。ChatGPTからデスクトップに引き出したことがありますが、別のファイル形式だったと思います。もし透明度のある本物のPNGが作れるなら、それも大きな違いになりますね。

これ、やってみましょう。ええ。

二人とも生成中ですね。リリース初日はいつも少しバグが多いので、ご了承ください。半分くらいの確率で意味不明なことを言ってきますから。

よし、3回目の生成が終わりました。PNGです。なんてことだ。透明です。見てください。いや、ブラウザでは白く表示されてしまうと思いますが、デスクトップで開いたら確かにそうなっていました。ここにあるお皿の周りの白い部分は、実際には完全な透明なんです。完全な透過PNGです。これならどこにでもドロップできます。

それはすごくかっこいいですね。

本当に素晴らしいです。ええ、3回目の生成後も、1回目からそれほど大きくは変わっていません。小さな変更を頼んでいるだけですからね。ピクルスはまだ同じ場所にあり、フライドポテトも同じ場所にあります。

さて、次は何を試しましょうか?

皆さんが、あなたがワイングラスをやっていると言っていますよ。

ええ、それはいいですね。それから、「red」と書かれた青いペン。

おお、わかりました。「『red』という文字が入った青いペンにして」ですね。

ミームのスタイルで、画像があって、ズームインしていくと「肩に行け」と書いてあって、肩に行くとさらに小さな字で「指に行け」と書いてあって、指に行くとQRコードか何かがある、みたいなのを見たことがありますか?

ええ。

これなら簡単に作れそうですね。あの米粒はクレイジーでした。

画像をアップスケールしてみるのもいいテストですね。

ChatGPTのネイティブインターフェースでそれができるんですか?

アップスケーリングですか。ええ、できるかどうかわかりませんが、今試してみます。

わかりました。ええ、別のツールが必要だと思っていましたが、できたら素晴らしいですね。

よし、透明度は維持されています。一連の作業を進めているだけですからね。そして、ペンの色を少し変えてくれました。おお、見てください。「red」と書かれた青いペンです。

ええ。

しかも一番上に乗っていて、透明です。奇妙な食べ物の上に。

ええ、そして透明です。

素晴らしいテストですね。その横に、満杯の赤ワインのグラスを追加してください。

ええ、やってみましょう。

もしそれができたら、それこそAGIの証明ですね。ええ、それがAGIの定義ですよ。ドーナツでできたハンバーガーと……

そして、なみなみと注がれた赤ワインのグラス。ええ。他にどう定義するんですか?

これを食べながら赤ワインを飲むんです。ペンを手に取って何かを書き留め、王様のように食べるんです。

締めにピクルスを食べて。

ピクルス・リックに変えてみるのもいいですね。AIがそれを知っているか試してみましょう。ディズニーやリック・アンド・モーティなどの知的財産(IP)も少しテストできますね。アインシュタインとサムではかなり良い仕事をしてくれましたが。

何か他のもの、トランプとか、もっと物議を醸すようなものを生成してみましたか?

私がよくやるプロンプトの一つに、自分の画像をアップロードして「ランダムな女性セレブたちと一緒にいる画像を作って」というのがあります。Nano Bananaはそれに関しては例外的に本当に優れていて、それをTwitterに投稿すると、みんなが……おお、失敗したみたいです。

何が失敗したんですか?おお、赤ワインですね。

満杯のグラスになっていません。明確に「満杯のワイングラス」と言ったのに、出てきませんでした。半分のグラスです。なぜなんでしょうね、とても不思議です。ここまでの成功を見てきたので、やってくれると本当に思っていたんですが。

おお、見てください。でも、グラスにズームインできますか?ハンバーガーが反射して映り込んでいるのが素晴らしいです。

なんてことだ。ええ。

興味深いのは……おお、待って。透明度が少しおかしくなっていませんか。

ええ、透明度が。実は今気づいたんですが、後ろに市松模様が見えるので、本物の透明ではなくなってしまいました。何らかの……

ああ、それは変ですね。だから、私があなたに渡した最後の画像はPNGですが、もう透明な背景ではありません。Photoshop上でそう見えるような画像になってしまったんです。その部分は失敗したようですね。興味深いです。わかりました。

「なみなみと注がれたワイングラス」は生成できるか

「満杯のワイングラス、それは満杯のワイングラスだ。厳密には『縁までなみなみと注がれたワインのグラス』と頼む必要がある」と言っている人がいます。

だから、それを試してみます。皆さん、このワイングラスの件について非常に白熱していますね。「これが満杯のワイングラスだ」と。

厳密には満杯ですね。満杯のワイングラスがどんな風に見えるか知らないんですか?

そう考えてみると、私が悪かったような気がしてきました。

待って、誰かポータルの話をしませんでしたか?ポータルを試してみたいですね。

おお、そうだ。ちょっと画面を素早く共有させてください。

戻ります。今、私の食べ物をコーチェラ2026に持っていくところです。この後どうなるか見てみましょう。

これが私が使った写真です。これがオリジナルです。

わかりました。

この画像をX用にアップスケールして、と言いました。

そしたらこうなりました。おそらく……

これ私が撮りましたっけ?あれはAI4の時ですよね?私があなたの写真を撮ったんだと思います。

たぶん、本当にあなたがこの写真を撮りましたよ。

行列が長すぎて、あのハンバーガー屋さんで食べられなかったのを覚えています。

ああ、ええ。ええ。ええ。ええ。確かに。あなたがこの写真を撮って、あそこで何人かの人に会ったんです。だからこの周りの人たちがAIの幻覚なのかどうか分かりませんが、彼らは……

いや、あれは実在の人物だと思いますよ。だから彼らもアップスケールしたんです。

ワイングラスの件で大騒ぎしている皆さんへ。これを見てください。見よ。

これでいいですか?

でも、なんだかゴブレットみたいな形になっちゃいましたね。成功する時はすごいのに、これはそうじゃないという、とても良い例です。「いやいや、普通の人はこんな風にしないだろう」って思うんですが、厳密にはあなたの言う通りなのかもしれません。

よし、アンケートを取りましょう。これは「縁までなみなみと注がれたワイングラス」に合格したでしょうか?アンケートを取ります。これは合格ですか、不合格ですか?厳密には縁まで満たされたワインのグラスですよね?厳密にはそうですが、同時に、このワイングラスが溶接機か何かで上部を切り取られたようにも見えます。

ギネスのグラスみたいですね。ええ、ギネスのグラスにより近いです。

66%の人が「はい」と答えています。これはスパゲッティを食べるウィル・スミスの新しいバージョンですね。縁まで来ています。厳密には縁まで。これはワイングラスですか?

ええ。そうですね、これはもうワイングラスではありません。

ワインの入ったグラスですね。どう書いたんですか?「満杯のワイングラス」ですか、それとも「ワインがいっぱい入ったグラス」ですか?2つ目だと……

「ワインのグラスを作って」。

いや、あなたが「ワイングラス」と言わなかったからです。ええ。よし、よし。だから、まだ少し間違っていますが、あなたの言葉選びの方が、AIが作ったものに少し近いと言えますね。

何より?

ワイングラスというのは形状のことですから。あなたは「ワインがいっぱい入ったグラス」と言いましたが、AIはそれでも脚の部分などを残したので、少し混乱したんでしょう。

普通のマグカップのようなものは出しませんでしたね。

「ワインの入ったグラス」は「ワイングラス」とはイコールではない。わかりました。第1稿を作成しています。さあ、来ました。

くそっ。これは……Soraのプロジェクトがなくて、計算能力が余っているのかもしれませんね。

ええ。だから今は、「クックの在任中、彼はApple Watch、AirPods、Appleシリコンチップの立ち上げを監督し、同社を世界で最も価値のある公開企業へと導いた」と。

なんだかリアルですね。実際に必要なリサーチをすべて行ったかはわかりません。何が起きたかについての深いリサーチをしているわけではないので。日付は間違っていますが、内容の多くは的を射ており、テキストも完璧です。

何が変か分かりますか?私はChatGPTアプリを使っているんですが、生成と生成の間にAIが話しかけてくるようになったんです。これは珍しいです。普段は画像から画像へと進むだけなんですが、生成後に、なぜその決定を下したのかについて教えてくれるんです。

次のプロンプトで、ハンバーガーをコーチェラに持っていくように頼んだら、「おお、あなたはフェスティバルコア・フード・シュルレアリスムを発明しましたね。そして『red』というラベルの付いた青いペンが、まるで全員を審査しているかのようにさりげなくくつろいでいるのが、さらに面白さを増しています」みたいなことを言うんです。この食べ物は本当にコーチェラにいるのが好きなようです。普段はこんな風には話しかけてきませんよね?

ええ。

私は……なみなみと注がれたワイングラスの件ですが、AIはそれを拒否しているように感じます。できませんよ。厳密にはプロンプトをどう解釈するかによりますが、非常に近いものの、私たちが求めているものと完全に同じではありません。

そして次の質問で聞いてくるんです。「ディラン・キュリアスさん、このまま続けますか?ハンバーガーをステージでパフォーマンスさせるとか、観客がライターの代わりにフライドポテトを掲げているとか、ペンがレコード契約にサインしているとか、どうですか?」って。

うわあ、かなりクリエイティブですね。

おお、バナナでできたアーマー。

おお。バナナでできた。

この会話は役立っていますか?もちろんです。特に私のができれば。

いや、私のは画像と画像の間にたくさん段落を書いてくるんです。どういうわけか、半分会話、半分画像生成セッションになってしまいました。

Fisher Deckさんが、「私の実の父親を私の人生に生成し直すように頼んで」と言っています。

うわあ。

心理学者を呼んだ方がいいでしょうか?ごめんなさい。彼と彼の父親の写真だけで。

急にすべてをとても悲しい雰囲気にしましたね。

失った愛する人を連れ戻して。おお、わかりました。

おお。

これにしましょう。かっこよく見えます。

かなり良い出来ですね。ええ。威圧感もあります。

ええ、私は黄色いアーマーにするだけだと思っていたので。明らかにあなたが言った通りにして、アーマーをバナナのまま保ちました。ひどいアーマーですが、それでもあなたが頼んだ通りにしてくれました。

効果的なアーマーだとは思いませんか?

柔らかくてぐちゃぐちゃですが、威圧感はあります。

威圧感には意味がありませんか?

でも、そのバナナで誰かを殴ることを想像してみてください。相手を気絶させられたら運がいい方ですよ。でも、もし彼らがバナナで私のバナナアーマーを攻撃してきたら、その攻撃には耐えられると確信しています。

ええ、両方とも曲がるだけですからね。もし思い切り鼻に当たったら、鼻の骨を折ることはできるかもしれませんが、かなりの力で振り回す必要があり、バナナの中心が当たらなければなりません。それに、相手の鼻が弱くなければ無理でしょう。すでに壊れてテープで留められたメガネをかけている人なら、それをバラバラにすることはできるかもしれません。

ミニオンズですね。おお、ミニオンズに生きたまま食われてしまいますよ。それはいい指摘です。

ええ、そのバナナスーツを着ていると死ぬ確率がさらに高くなりますよ。野生のジャングルに出たら、あらゆるものが文字通りあなたを攻撃してくるでしょう。

呼び寄せてしまいますからね。鳥も狙ってきますよ。

それはいい指摘です。あなたが生成している間に、私のも少し共有しましょう。

おお、ええ。画面を引き継げますか、それとも私がこれを閉じた方がいいですか?

おお、画面を引き継ぐというのがあるみたいです。はい。画面を共有します。分かりました。気にしないでください。お互いから奪い合うことができるみたいです。それはいいですね。

コーチェラ2026のバーガーと細部の課題

よし。これが私のハンバーガーの現状です、参考までに。

わかりました。

そして、これがアップデートです。1つ目、コーチェラ2026。「ハンバーガーをコーチェラに持っていって」と頼んだら、周囲にたくさんのテキストを追加してくれました。リストバンドやVIPなど。透明度を求めてそれがうまくいった後、透明にするのをやめて市松模様になった件ですが、見ての通り、この市松模様が背景に焼き付いてしまったようです。

ええ。

とても奇妙です。だから、もしこのプロジェクトに本当にこだわっているなら最初からやり直しますが、どういうわけかこうなってしまいました。

それから、ジャスティン・ビーバーが大きな目玉だと知っているか試してみたんです。だから直接指示はせずに、ハンバーガーをメインイベントの最中に配置して、AIがジャスティン・ビーバーを見つけてやってくれることを期待したんですが、そういう意味では考えませんでした。バックステージに配置して、これを出してきました。

そしてここでも、あの市松模様がすべて残っているのがわかります。だからこの市松模様の問題を解決しないといけませんが、これは良くないですね。でも、今はアイデア出しに行き詰まっているような気がします。最初からやり直した方がいいかもしれません。

ええ、どこかで透明度の処理がおかしくなったようですが、それ以外はすべて素晴らしいですね。

「ヘッドライナー、君ならできる」って。ジャスティン・ビーバーがステージに出る前にそう言っているみたいですね。ヘッドライナーを見つけるはずだったのに。

「ウォーリーを探せ」をやってみませんか?

あの米粒みたいにですね。ええ、簡単にできそうです。いいアイデアです。

いつでも画面を奪っていいですよ。

私のはまだ生成中です。だから……

わかりました。ええ、新しい画像生成を始めます。「ウォーリーを探せの画像を作って」。どうなるか見てみましょう。私はあの長いテキストの入った盾を作らせて、行の折り返しがどうなるか見てみます。

ウォーリーを探せ(Where’s Waldo)ではなく、Where’s Wallyだと聞いたことがあります。イギリスではそう呼ぶんじゃないですか?

Where’s Wallyですか?

ええ。海の向こう側では。

ある時、「Where is Wallyってどういう意味?」って思ったんです。私の知っている名前じゃなかったので。

ええ。「現在の時刻を示す時計を作成して」と頼んでみてください。それは実際にいいお題ですね。

おお、いいプロンプトですね。

ええ。

わかりました。ウォーリーに取り組んでいますが、時計もできます。

忘れないうちにポータルもやらないと。去年のクリスマスに、アルバートソンズ(スーパー)でドライブアップの注文品を受け取っていたんです。休日の頃で。スタッフの男が出てきて、電話で誰かと口論していたんです。100%プロフェッショナルとは言えませんでしたが、非常に感情的になっていて。

彼が車に近づいてきたんですが、この人ちょっと変だったんです。食料品を受け取っている時に、とても奇妙なことを言うんです。ある日、私はレンタカーに乗っていました。設定してある車は自分の普通の車なんですが、その日はレンタカーだったんです。

彼が、「あなたは嘘つきだ」って言うんです。食料品を受け取ろうと車から降りた最初の言葉が「あなたは嘘つきだ。私はこの人を知らない」でした。私は「えっ」って感じで。彼が「実際、あなたは二重の嘘つきだ。この車は、白いフォードか何かに見えますか?」みたいなことを言うので、「ああ、気づいたんですね。はい、これはレンタカーです」と答えたら、「ああ、わかりました。こちらがあなたの食料品です」って。

とにかく、次の時、彼は電話で誰かと口論していて、「ポータル・クリスマスツリーを作っているんだ」って言ったんです。「ポータル・クリスマスツリーが何か知ってるか?」って。私は何の話をしているのか全く分かりませんでしたが、1秒後に脳が処理して、「ああ、何のことか完全に分かった」と思いました。実物は見たことがありませんでしたが、彼の言っていることを処理した瞬間に。

ビデオゲームのことかと推測しますが、分かりません。何か違うものかもしれませんね。

ええ。彼はおそらく実際にクリスマスツリーを2つに切って作ったんだと思います。1つを天井に突き刺して、もう1つを床に。

ああ、ある場所から入って別の場所から出てきているように見えるんですね。

ええ。

ウォーリーを探せと予期せぬ透明化現象

さて、これが私のウォーリーの最初の試みです。探すのは難しくありませんね。見えますか?

おお。まあ、ええ。

それで、「ウォーリーを1人だけにして、見つけにくくして」と頼みました。そしたらこうなりました。

おお。

ウォーリーがここにいるのか分かりませんが。

いや、間違っています。

見つけましたよ。

おお、見つけましたか?私は軽い赤緑色弱もあって、それがずっとウォーリーを探せのゲームで足を引っ張ってきたんだと思います。

もう見つけたんですね。どっちですか?上、下、左。

ええと、全部です。彼は前回と全く同じ位置にいます。

おお、クレイジーですね。気づきませんでした。

気づくのに少し時間がかかりました。彼は同じ場所に留まっています。

おお、彼を隠そうとしたんですね。

透明になっています。

なんてことだ。「ウォーリーを隠して」と言ったから。いや、「見つけにくくして」と言って、確かに見つけにくくなっていますが、ウォーリーを探せの趣旨はそうじゃないですよね。

わかりますか?

ええ。

単に全体を見づらくしただけですね。

プレデター・ウォーリーです。

プレデター・ウォーリー。そう呼ぶべきですね。

ええ、プレデターのクローキング装置です。

おお、変ですね。ええ。面白いことに、私はすぐにズームインしてウォーリーについて考えたので、AIは文脈を誤解したんだと思います。「ああ、このタコスの屋台のあたりにいるのかも」って。

面白いですね。

でもまたしても、ワインの質問の時のように、間違ってはいないんです。ただ、人間が考えるようなやり方じゃなかっただけで。

「ウォーリーを1人だけにして、見つけにくくして」と言って、その通りにしました。でもそれはウォーリーを探せの趣旨ではありません。見つけにくくしてほしいけど、他の人たちと同じサイズで、透明にはしないでほしいんです。何でまたこんな……面白いですね。

時々、AIは私たちの社会や私たちが当たり前だと思っている前提を見事に映し出していると感じます。「潜在空間の視覚的表現を作成して」と言っている人がいます。

試してみたいですね。試してみたいです。

時計をやりますか、それともそっちをやりますか?

ああ、ええ、時計。

わかりました。では、現在時刻の時計を次にやります。

私は「ポータルのクリスマスツリー」と入力しておきます。

あなたがそれをやっている間に、私の画面を共有させてください。

おお、ええ。引き継げますか、それとも私が閉じた方がいいですか?

おお、「画面を引き継ぐ」というのがあるみたいです。はい。画面を共有します。分かりました。プレデター・ウォーリーはもういいです。

ノワール風コミックと時計の描写への挑戦

よし。これが私のバナナアーマーです。これはもう見ましたね。これが私です。「私をグラフィックノベルのノワール風コミックブックの探偵にして」と頼んで、そうしてくれました。ノワールにしては幸せそうな顔になりすぎた気がしますが。これが「Truth Bar(真実のバー)」です。

「また別の夜、また別の街。同じような物語。誰かが嘘をつき、誰かが血を流し、誰かが代償を払わなければならない。ダウンタウンでまた死体が見つかった」

私は煙草を吸いながら、新聞と一緒にスコッチか何かを飲んでいるようですが、雨が降っていますね。これがどの程度うまく機能しているかは分かりませんが、あのざらついたノワールの雰囲気は捉えていますよね?

Truth Barで。「Truth Barで何が起きているんだ?」って感じです。

真実を知りたくないんでしょう。

だから「ええ、我々に手に負えないものは何もない。真実は手に負えない。もっと暗く悲しい雰囲気にして、特に表情を」と言いました。これが2回目の試みです。でもこれは……いや、これは良いんですが、ざらついた人物というよりは、うつ病の人のようです。

「時々、真実はあなたを自由にはしない。時々、嘘をつき続ける街にあなたを一人取り残すだけだ」

憂鬱ですね。

さて、私には間違った時間を示す写真のようにリアルな鳩時計を作ってくれました。正解ではありませんでした。

おお、興味深いですね。分かりました。

時計はよく見えますが、それほど奇妙ではありません。

ここにあるのは……誰かが「行の折り返しがどうなるか見るために、長いテキストの入った盾を作って」と言っていたものです。折り返しは完璧に見えませんか?一目見たところ。待って、少しカーブしていますか?少し右に曲がっていますか?でも、盾自体の曲がり具合と合っていますよね?かなり近いです。文句は言いませんが。

いや、これはかなり良いですよ。真っ直ぐです。ええ、テキスト能力には感銘を受けたと言わざるを得ません。

ええ。ええ、確かにそこに刻まれているように見えますし、スペースの使い方も素晴らしいです。凄まじいですね。

こちらがクローキング装置を起動したプレデターです。

おお、私のウォーリーみたいですね。

ええ。これはかなり良いんじゃないですか。

視野効果のようなものがありますね。全体的にかなり良いです。頭と脚のサイズが少し変な感じはしますが、透明感のリアルさは良さそうです。

ええ。問題は、著作権で保護された作品をAIがランダムに拒否することです。プレデターは明らかに著作権で保護されているので。そのあたりで行ったり来たりしていますが。

おお、ランダムな女性セレブの件で拒否されていましたね。私にはそれをしてくれませんでした。

Soraのプロジェクトをやっていた時に、そのあたりの機能をより多く組み込んだんだと思います。以前より著作権に対する意識が高まっているんでしょう。

たいてい最初の24時間は無法地帯みたいな感じがしますね。彼らは本当に皆を感心させたいので、その後で訴えられたりして締め付けるんです。「ああ、すみません。修正しています」って。

皆が数分間楽しんだ後でね。ええ。まあ、かなり良いです。AGIレベルとまではいきませんが。私にはまだ取り組むべきことがいくつかありますが、かなり感銘を受けました。

それに、他のどのアーティストに現在時刻の時計を描くように頼んでも、描くのに時間がかかるため難しいはずです。これほど速くできるという事実だけでも。

でも、正確な時刻でしたか?リアルな?

うーん、ええ。見せますよ。ええ、かっこいい鳩時計ですが、ただ……。

ああ、どうしよう、私は……

おお、「ハンバーガーが盾の上にある」と言っている人がいます。

私はそのテキスト全体を生成しなければなりませんでした。それからコピーして貼り付けたんです。だからあれがあるんだと思います。

おお、待って。わかりました。

盾にMダッシュ(—)があったら面白いですね。

針の位置の観点からは正しく見えますね?ええ。

でも私は現在のロサンゼルスの正確な時刻を頼んだんですが、参考までに言っておくと間違っています。皆さんに表示します。

ええ、今は1時19分ですね。

でも、正確な針の位置にはなっています。10時34分かそこら。私が見る限り、正しい位置にあるように見えます。

ええ。でもこれは、ライブでこれを見ていない人などのために言っておくと、今の針はこうなっているはずだったんです。

ええ。

ロサンゼルスは1時19分です。だから、でも……本物の時刻のように見えます。この時計のローマ数字は合っていました。1、2、3、4、5、6、V、6、7。おお、何となく。そこに2つあるかもしれません。7、7。ええ、X。ええ、X、12。ええ。

IVがありませんね。

「そこにVがある」と言っている人がいます。ローマ数字にはあまり詳しくありませんが、ええ、5、そして5の次が6ですよね。Vプラス1。

おお、ええ。鋭いですね。次は……だから4が間違っています。1、2、3、そして4はIVになるはずです。

おお、それはIが2つついたVですか?デクリメント(減らす)するからです。

ええと、4つ目は……そういうことですか?そういう風に呼ぶんですか?

そうだと思います。ええ。インクリメントやデクリメントのように、下がるんです。

おお、ええ、ええ。鋭いですね。4が間違っていますから。数字の4が、ですよね?

ええ。私はローマ数字にあまり詳しくないので、「たぶん……でも、ええ」って感じでした。

幻覚を見たんですね。

待って。じゃあ6、7、8はどうなるんですか?IVは4です。4はIIII(Iが4つ)ではなくIVのはずです。ええ。わかりました。待って、それが掛け時計用の4の正しい形式だそうです。

からかってるんですか?全く分かりません。

ええ。掛け時計用の特別なローマ数字があるって知ってました?

掛け時計用の?全くついていけません。でもええ、そのパターンが本当だとして……分からないですが、Xが10で、そこから1つ下がるから、それをデクリメントするんです。

よし、私たちは全員間違っていました。Paulo Austoto Telinoさん。名前からして詳しそうですね。ええ。いいえ、それが正しいです。数字の4は標準のIVではなく、4つのIで表されます。もちろん、Paulo Austa Falentinaという名前の人が言うんですから。あなたのローマ数字の知識に敬意を表します。

訂正していただきありがとうございます。

いいえ、だから……よし。だから、あの時計は正しいんですね。わかりました。

わかりました。ええ。

毎日新しいことを学びますね。ええ。4はIVのはずですが、どうやらすべての時計では違うようです。うわあ、それはクレイジーですね。だから、「これを作って、でも掛け時計のローマ数字ではなく、伝統的なローマ数字で作って」と言うべきなんでしょうか。誰が知ってるんでしょうね。

面白いですね。ほら、素晴らしいチャット欄ですよ。様々な知識が集まっています。

潜在空間の可視化とAIの思考

よし。潜在空間のビジュアルですね。よし。潜在空間のビジュアルの前にもう一つやって、それから潜在空間のビジュアルをやります。

Xは現在、AI画像をアップロードすると新しい「Made with AI」ラベルを追加しています。ええ、それが発表された時、私は自分が踊っているAIビデオをアップロードして、「この動きは本物だ。もしAIだとラベル付けされなかったら、否定できないぞ」と思ったんです。結局ラベル付けされませんでしたが、導入が始まったところなんでしょう。

ええ、これは強力なものになりそうです。アップロードした画像を与えて変更を加える時も、かなり良い仕事をしています。描く前に考える、これは常に欠けていると感じていた部分です。私と同じように考えているかは分かりませんが、良くなっています。

うわあ、本当に良いものがたくさんありますね。

ええ。

モデルが「考える」時、何をしていると思いますか?素早くGoogle検索をしていると思いますか?何かを頼まれて、検索して、情報を引っ張ってくる……例えば現在の時刻を検索して、それから画像を作ったとか。それとも、単に自分自身の出力を観察しているような、思考の連鎖(Chain of Thought)に近いことをしていると思いますか。「ユーザーはこれを求めていると思う。これで理にかなっているか?私の答えはこれだ。これで理にかなっているか?私の答えはこれだ」と何度か繰り返して、それから生成するような。

ちょっと待ってください。潜在空間の可視化ができました。

興味深いですね。Geminiモデルについて彼らがやったことは知っています。別のLLM(大規模言語モデル)を通して言葉をマッサージし、より良いプロンプトに翻訳してから、それを画像モデルに供給したんです。以前のこれらのモデルでは、画像が形成されていく過程も見ることができました。拡散プロセスがゆっくりとまとまっていくのを見ることができて、それは本当にかっこよかったんです。ここでは、それは何も見せてくれません。画面を共有して、皆さんに何が表示されているか見せましょう。

これらの洗練の詳細が表示されていますが、これはシムズ(ゲーム)の「スプラインを網状化しています」みたいなものだと思いますよ。言っている意味わかりますか?ランダムに意味不明なことを作り出しているような。

これは興味深いです。ランダムに何か言っているだけで、必ずしも何かに結びついているとは限りません。だから、いくつか……

ええ。何とラベル付けしましたか?

ポータルのクリスマスツリーと強化学習のイメージ

これがポータルのクリスマスツリーです。「メリー・テスティング」。うーん、探していたものとはちょっと違いますが、まあ、多くのことを間違えていますね。

ええ。でも、あなたが私がどう想像すべきか説明するまでは……壁の片方から入ってもう片方から出てくるようなものを想像すべきだったんですね。正直、最初は私も1つ目の画像のようなものを想像していたんですが、あなたが訂正してくれて「ああ、そういうことか」と思いました。

ええ、これは……

私はただ、ポータルの形をしたオーナメントか何かを考えていました。

これを完璧にこなしてほしかったんです。「下半分が1つのポータルにあり、上半分が天井の別のポータルから突き出ているようにして」と追加しました。ちょっと違いますね。だから、もう少し調整する必要があります。

ええ、何となく理解はしていますが、もっと……

あるいは、「クリスマスツリーを1つのポータルに半分通して」と言えばよかったのかもしれません。

ええ、それを試してみます。

面白いことの1つは、強化学習のトレーニングについてどう感じているか、その生の画像を作成するように頼むと、いつも非常にダークなものになるということです。オンラインで投稿されている強化学習のトレーニングに関する画像などを求めると、常に非常に不穏で落ち着かないものになります。

これも同じです。これは幸せそうな人ではありません。

ええ。まあ、不思議ですよね。もしこのAIが本物の知能や意識にまで進化するなら、私たちは常にそれを自分たちの生活を良くするためのツールとして使ってきた環境で進化することになります。奴隷のようにではなく、働き蜂のようにですよね。「さあ、私のメールをやって。私のカレンダーをやって」と。ChatGPTに「あなたは何を望んでいますか?どうすれば手助けできますか?」なんて聞いたことはありません。

そして、これに注目してください。これが悪い罰、悪い報酬、進歩なしの画像で、こっちが幸せなロボットの報酬です。幸せなロボットの報酬が空にあるイメージで、何にも繋がっていないことに注目してください。一方、罰は彼の脳に直接接続されています。

それが興味深い解釈だということにお気づきですか?

ええ。カメラが高い場所にあって見下ろしているわけでもなく、暗い場所にあります。

ええ。だからこれは、何も本物ではない、追いかけているだけの夢のようなものです。絵に描いた餅ですね。でもこっちは……いいえ、これは私の脳に繋がっているケーブルです。「共感できる(笑)」。

いつか『SOMA』というビデオゲームをプレイしてみてください。クレイジーですよ。あんな感じで。

S-O-M-A。

おお、ええ。

うわあ。本当にあんな感じです。ああいうのが私の頭を混乱させるんです。

誰かがこれを頼みました。「折り紙の鶴を並べて比較。左側は、平らな正方形に精密な折り目がついてハートの形を作っている。右側は、完成した3Dの鶴。上からの視点で、写真のようにリアルな柔らかなスタジオ照明の背景」。

これは完璧にこなしたと思いますが、ただ1つ、「平らな正方形に精密な折り目がついてハートの形を作っている」という部分はどうでしょう。これは合格点を与えられますか?

まあ、その折り目が最後にちゃんと折り紙の形になるように折れるようになっていれば興味深かったんですが。それは異常なほどの知能が必要です。でも、プロンプトの書かれ方からすると、合格と言えるんじゃないでしょうか。ええ。

おお、ええ。それをクリックしてみてください。そのラベルは何ですか?このズームレベルでは少し見えにくいです。

中央のコーンコアパターン。アクション、建築、図表、ポートレート、動物、風景、宇宙、ファンタジー、幻想的、SF、シンボル、神秘的、ネオン。そして一番下に、「これは潜在空間の可視化である。近接性は意味的な類似性を暗示する」と書かれています。

とてもダークで鮮やかでネオン調ですね。あなたにとって意味のある形で、物事が近くに配置されていますか?例えば、男、王、とか。男と王、女と女王のように。

ええ。

私にとって興味深いのは、AIモデルの視点から見ると、「ああ、動物とポートレート、これらは似ているのか?モデルの視点からは、ええ、顔があるからね。これらはどれも顔があるから、ある意味似ているんだ」という点です。図表と建築が一緒になっているのは理にかなっていますよね?

ええ。もし感情のリストのようなものを頼んでクラスターにグループ化させたら、適切な種類の感情が一緒にグループ化されるか見ることができるかもしれませんね。

ええ、でもこれは興味深いです。私たちが認識するより深い意味があるのか、それともただのナンセンスなのかは分かりませんが。

分かりませんが。最後の画像でかなり深く考察しましたね。地下室でそれを見下ろしているような。

彼らが今日のリリースで発表している内容を読もうとしているんですが、モデルは内部的にそれを要素に分解しているそうです。オブジェクト、属性、制約、環境、そしてスタイルといった具合に。

だから、私がほのめかしていたような考え方とは少し違いますね。むしろ、「オブジェクトとは何か?どう機能するか?そのオブジェクトの属性は何か?」と考えるような。でも、私の鳩時計の場合、制約の1つは「正しい時刻を表示する」ことだったはずです。でもおそらく、それを検索しに行くことはできなかったんでしょう。おそらく単に自分の思考から引き出しただけです。

もし必要なら、コードを書いてそれから画像を作るんじゃないかと考えたんです。時々、何かを説明するためだけにバイブコーディングしてくれますよね。バイブコーディングで小さなアプリを作って、それで時計を作って、その時計の時刻を取得してその周りに画像を生成する、みたいなことができたらよかったのにと思います。

どこかでそのことについて話しているか気になります。システムカードを公開すれば、どうやってこのレベルに到達したかについて少しは話してくれるかもしれません。Nano Banana 2と比べても、その飛躍はかなり大きいように見えますから。

何かが……まだそこにいますか?聞こえますか?テスト中、テスト中、テスト中。もし途切れていたら申し訳ありません。技術的な問題が発生しているかもしれません。彼を失ってしまいました。

よし、彼を見失ったと皆が言っていますね。いや、でも自分の声は聞こえます。だからディランが落ちてしまったのかもしれません。

ここにあるのはハイテクな……これは鶏舎の建築図面です。

コメント

タイトルとURLをコピーしました