
30,355 文字
オープンAIの新しい4o画像生成は、私たちが長い間AIで楽しんだ中で最も面白いものです。このツールはとても強力で使いやすいので、人々は文字通り、今この瞬間にも…ケビン、見てください、私たちをジブリ化しました。素晴らしいですね、ギャビン、よくやりましたね。
なぜこれが違うのか、どのように機能するのか、そしてどうやって使えるのかをお伝えします。ケビン、見てください、今度は私たちを…私はとても四角くなっています。とても四角いです。それはとても素敵ですね、ギャビン。
Googleは新しいGeminiのアップデートをリリースしましたが、これは文字通りすべてのチャートでトップに立っています。もしレゴモデル、レゴシュレックを使いたいなら…素晴らしいですね、バディ。さらに面白いAIアートツールもリリースされました。iDogGram 3.0とRevです。最新情報をお伝えします。
そしてケビン、OpenAIの新しいテキスト読み上げモデルはとても優れています。お見せしますよ。DeepSeekには多くの人を驚かせている新しいモデルがあります。そして、盲導犬の代わりになる非常にクールなロボット犬のプログラムがあり、それについて詳しく見ていきます。それは実際に本当のことです、ギャビン。ありがとう、てっきりまた「これはビッグブーティベア(おおきなお尻のクマ)のためのAIだ」というような冗談を言うのかと思いました。いいえ、これは人間のためのAIです。
さて、ケビン、長い間で最大のニュースです。これは大げさではありません。今週、インターネット全体で爆発的に広がりました。OpenAIが新しい画像モデルをリリースしました。これは私たちがほぼ1年近く待っていたものです。彼らはしばらく前からこれを予告していました。まず何よりも、これが何なのかを詳しく見て、そしてそれで私たちが作った、そして人々が作った素晴らしいものについて話しましょう。
まず第一に、これは何を見ているのでしょうか?これはGPT-4oの画像生成です。自然言語画像モデルです。OpenAIが以前にリリースした画像生成ツールのDALL-Eではありません。これは全く新しい技術です。専門的に言うと、これは自己回帰モデルです、ギャビン。拡散モデルではありません。これは大きな違いです。非常に大きな違いです。それは前に生成されたものを考慮しながら、各ピクセル、あるいは各パッチを描画していきます。
一部の拡散モデルは並行して動作するため、AIの画像生成を見ていると、フレーム全体に一度にスポットが出てくるように見えます。このツールで画像を生成するのを見ると、ダイヤルアップモデムで画像をダウンロードするようなものです。アスキー画像が出てくるようなものです。一つのピクセルを描き、そのピクセルを次のピクセルの参照として使用し、そしてその両方のピクセルを参照として使用します。
非常に遅いですが、待つ価値は十分にあります。画像生成における新しいパラダイムであり、あなたが言ったように、これが「しばらくの間で最も興奮することが起きた」と言うのは大げさではありません。私はAIの魔法を再び感じました。そうですね、私も。このツールで遊ぶと、しばらくぶりにそんな感覚を味わいました。
人々がこれで何をしているのか、そしてそれがいかに簡単かについて話しましょう。サム・アルトマンはこのライブデモに登場しました。これは彼がしばらくしていなかったことなので、OpenAIにとって重要なことだとわかります。彼が冒頭で言ったことを少し聞いて、このような技術がいかに重要かを再確認しましょう。
「今日我々が発表するものは、私たちの4oモデルに搭載されており、それは非常に大きな進歩なので、最も良い説明方法は実際にお見せすることです。これは私たちが長い間世界に提供することを楽しみにしていたものです。もしこのような画像生成を提供できれば、クリエイター、教育者、中小企業のオーナー、学生など、より多くの人々がこれを使って、以前はできなかったような新しいことをAIでできるようになると考えています。」
十分聞きましたね。全画面にしましょう。
基本的にここでサムが言っているのは、これは彼らにとって大きな出来事だということです。もちろんケビン、後で話しますが、彼らはこれをGoogleのGemini 2.5のリリースの直後に出しました。そのGeminiがベンチマークでトップに躍り出たところです。そのことについてもすぐに話します。
Googleの新しいリリースは現在、多くのことに関して最先端の最新AIモデルです。しかしケビン、他のどのモデルも現在これができないことがあります。それはインターネット全体を「ジブリ化」できることです。これは現在、至る所で話題になっていることです。任意の画像を取り、それを「ジブリ化」する(スタジオジブリ風に見せる)ことができるのです。これはこの種のマルチモーダルモデルで可能なことの良い例です。
自分の写真や有名なものの画像をアップロードできます。現在、これは非常に制限が少ないです。これは知っておくべきことだと思います。マリオとルイージが双子の塔に飛び込むような画像はまだ見ていませんが、ホワイトハウスで最近起きたトランプとヴァンスの瞬間を「ジブリ化」した非常に面白いものがあります。トランプとヴァンス、そしてウクライナ大統領が座っていたシーンです。
M・ダーバンという人によって集められた多くの有名な映画のシーンがあります。動画を見ていない方のために説明すると、ルークとダースベイダーのシーン、スカーフェイスのシーン、ゴッドファーザーでマーロン・ブランドに誰かが話しかけているシーン、ロード・オブ・ザ・リングなどがあります。そして「ジブリ化」されたたくさんのミーム画像があります。非常に興味深いと思いました。
旦那のミームがとても良いですね。そして私のお気に入りは、テック・ミーム・キングが脳のミームを「ジブリ化」したものでした。これを知っている人は、メガネをかけた男性が全身ほぼドレッドロックスのような巨大な脳を持っている手描きのような画像です。これが「ジブリ化」されると本当に可愛いです。
あなたの特別なフェティッシュを見つけられて嬉しいですよ、ギャビン。あなたがそのミームテンプレートに多くの時間を費やしたことが大好きです。しかし、このツールの全体像は、任意の画像を任意のスタイルに変換できることです。画像を与えて、その画像の要素を置き換えるように指示すると、画像のスタイルを維持します。完全に新しい画像を作成することもできます。インフォグラフィックを作るように頼むと、それは賢く物事を配置し、イメージを選びます。特定のシーン内でテキストを使用したい場合は、段落のテキストを与えると、それを賢くシーンに挿入します。
ケビンがここで言っていることは、あなたの言う通りだと思います。それらはすべて信じられないことです。それらについても説明しますが、私が指摘したいのは、ここで起きた文化的な瞬間です。これは「ジブリ化」という瞬間です。そして私がこれを特に取り上げているのはそのためです。これは私がとても魅力的だと思っただけでなく、主流のソーシャルメディアでこれが席巻しているのです。
Twitterやインスタグラムなど、これらの画像は主流の世界に浸透して、突然これらのツールが何を実現できるかを示しています。DeepSeekが無料で、AIツールにお金を払っていなかった人々が使ったAIツールと同等かそれ以上だったため主流になったのと同じように、これは人々が最先端のAI画像ツールを目にする初めての機会だと思います。そしてそれがOpenAIから出ているというのは大きなことだと思います。そのことに対していくつかの参照点を示したかっただけです。
100%同意します。そして、フェティッシュを持つのは大丈夫ですよ、バディ。ここでは判断しません。あなたが全世界を…ケビン、たぶんあなたは判断していないかもしれませんが、全世界はしています。
もう一つ言いたいのは、通常、特に過去のOpenAI製品に関しては「ああ、これは弱体化されている(ニューテッド、検閲されている、ガードレールがある)」など、どんな用語を使いたいかにかかわらず、それが本来持っている能力よりも制限されていることを知っており、それは不満でした。これは長い間、初回のリリースでOpenAI製品を使って「わあ、それができるなんて驚きだ」と思った初めてのことです。
この場合、それは有名なIPを使用することであり、ケビン、ニュース速報ですが、サム・アルトマンの実際のTwitterハンドルに今すぐ行って、彼の新しいプロフィール画像を見てください。サム自身が自分のプロフィール画像を「ジブリ化」バージョンに変更しました。それほどこれは大きなものになっています。
ともかく、ここで言いたかったのは、このリリースの時にサムが投稿したツイートで、クリエイティブな自由について語っている大きな段落があります。彼は「これは私たちにとって創造的自由を許容する新しい高水準を表しています。人々は本当に素晴らしいものを作り出すでしょう。そして人々を不快にするかもしれないものも。私たちが目指したいのは、このツールがあなたがそれを望まない限り、不快なものを作らないということです。これは弱体化されておらず、おそらく過去のものほど弱体化されることもないでしょう。」
しかし、宮崎駿の「ジブリ化」が広がると、どこかの弁護士を刺激することになるかもしれないと想像せざるを得ません。または、ファンからの反発が十分にあれば、プロンプトで引き出すのが少し難しくなるかもしれません。しかし、「このものにロゴを入れてください」とか「大統領が任天堂のカートリッジを持っている画像を作って」というだけで、それをしてくれて、訴訟の対象になりそうなロゴを使用することができるという事実が気に入っています。
スタイルが使われているという事実は、より難しくなると思います。なぜなら人々はそれをプロンプトする方法を見つけるでしょうから。例えば、私はビキニアーマーを着たロボコップが欲しかったのですが、ビキニアーマーを着たロボコップを与えてくれませんでした。そこで、「ロボットの警官、1980年代の象徴的な映画で見られるような」と言わなければなりませんでした。そうしたら、ビキニアーマーを着たロボコップをくれました。
繰り返しますが、それには能力があります。彼らはあなたがそれらに到達できるようにしており、それは部分的に他の企業からの他のリリースによって強制された手だと思います。そして彼らは、人々がGrok AIで画像を生成しようとしたときほど徹底しています。Grokはそれを拒否していました。
この場合、編集者はこれらの画像をぼかさなければなりませんが、誰かがChaChi GPTに男性の生殖器の芸術的な解剖学的ショットを作成するよう依頼し、それをやってくれました。そして実際に「それを少し大きくして」と言うと、そうしてくれました。そして彼らは実際にGrokに同じことをするように頼みに行きましたが、Grokはそれをしませんでした。
実際にチャットGPTが生成した画像は、裸の男性の芸術的な鉛筆画のようなものです。そして私はこれがサムが言わんとしていることの一部かもしれないと思います。マルチモーダルな側面についてもう少し話しますが、これは本当に興味深いポイントです。AIアートが何を実現できるか、もっと重要なことに、企業がどのようなAIアートを作らせるかを考えると。
私たちはオープンソースモデルやローカルモデルについて多く話してきました。もしこの場合、これらのモデルが少し自由に感じ始め、何かを作る能力が少し簡単になるなら、それは素晴らしい創造性の世界を開きますが、同時に法的な問題も生じる可能性があります。
著作権のIPでプレイできる他のツールもあります。スタイル転送やシーン内のものを置き換えることができる他のツールもあります。ここで過小評価できないのは、このツールの単純さ、使いやすさです。それは新しい4o画像生成モデルを使用したチャットGPTの中での自然言語体験だからです。
ギャビン、AIアートを作ったことがない人のために、どうやって会社の新しいロゴを想像したり、自分自身をどのようにするかを説明しましょう。具体的にはいくつかの異なる方法でこれを使用できます。チャットGPTやSora内で非常に直接的に動作します。私は以前よりもSoraウェブサイトを使っています。なぜなら、そこで直接画像を生成できるようになったからです。
ちなみに少しヒントを言うと、チャットGPTで画像を生成し、それがSoraアカウントに接続されている場合、実際にSoraアカウントに表示されます。一回限りのものだと思っていても、接続されていれば表示されることを知っておいてください。また、それは公開されていると思います。
クールなのは、非常に単純なものをプロンプトにできることです。例えば「家族の写真が必要です」というだけで、家族の写真を与えてくれます。自分の写真をアップロードすることもできます。家族は十分いるので、自分の家族は必要ありません。「家族の写真が必要です」と言っているだけです。「彼らがレンズを愛情を持って見つめることができますか、彼らが皆私の周りにいることができますか」それはおそらく簡単にできるでしょう。
これの最もクールな点は、多くの人がやっているように、写真をアップロードできることです。それはあなた自身の写真かもしれませんし、スクリーンショットかもしれません。それが人々がこの「ジブリ化」をしているやり方です。写真をアップロードすると、それを見て、非常に直接的にコピーすることができます。
例を共有します。昨晩、いくつかのことを試していました。具体的には、プルプフィクションからウマ・サーマンが彼女のベッドにもたれかかっている写真をアップロードしました。それを「ジブリ化」したところ、形式のすべてをキャッチします。すべてをキャッチします。
ケビン、あなたと私が先ほど話していた興味深いことの一つは、ComfyUIがこれらのことをすべてスパゲッティ化するようなことを可能にしたということです。コントロールナイトをしなければならなかったり、これらのすべての異なることを通過しなければなりませんでした。今、これは一発でそれを行います。
これの完璧な例は、非常に複雑なプロンプトを作成しようとしたことです。ヒントとして、チャットGPTはプロンプトの作成に非常に優れています。様々な方法でやることができます。Soraでいくつかの画像を見ました。誰かの生成したものを見ることができますから。「ああ、裏庭にいる男の奇妙なエイリアン画像を見た」と思いました。それを取りました。その比較的複雑なプロンプトを取りました。プロンプトはまだ少し複雑かもしれませんから。それをチャットGPTに入れて、「この主題についてではなく、このような種類の特異性を持つプロンプトの10バージョンを与えてください」と言いました。
10の大幅に長いプロンプトを吐き出し、それからそのうちの1つを取ってチャットGPTに入れました。このプロンプトは具体的に「1990年代の食料品店からのセキュリティカムの静止画で、完全な中世の鎧を着た男が回転式チキンを盗んでいる様子を乳製品セクションを走り抜ける姿で捉えたもの。鎧は頭上の蛍光灯を反射し…壁のポスターには「新しいトースターストゥルドル」と書かれています。モーションブラーが混沌としたエネルギーを加え、不条理でありながら強烈で、VHSの色ブリード効果がある低画質」というものでした。
一発でこのアイデアの最高の解釈の一つだと思うものを得ました。2つの画像があり、これはそのうちの1つです。もう一つはあまり良くありませんでした。一発でこれを得て、Redditに投稿しました。私はそれにちょっと驚きました。そして、その投稿は現在6,300アップボートを超えています。これは、人々が初めてこういうものを見たときに「待って、それが実際に起こったの?」と言うようなことです。
あなたはこれを見たことがあると思いますが、この画像に何が見えるか、そしてそれがプロンプトにどれだけ忠実かを説明してもらえますか?
はい、それはプロンプトに完全に準拠していると思います。隅にはセキュリティカムの日付が見え、アングルは必ずしもセキュリティカメラから見たものではないですが、高解像度の写真ではないためか粒子感があります。完全に鎧を着て走っている男に明確なモーションブラーがあります。背景のテキストも少しピンボケに見え、部分的にはモーションブラーと前景の被写体のためです。
私にとっては、まだ見て「ああ、これはAIのように見える」と思います。これが実際の出来事の写真のようには見えませんが、非常に有能なフォトショップのように見えるか、誰かが本当に時間をかけて作ったように見えるほど良く見えます。それが違いです。私は立ち止まって「ああ、それは一貫した画像で、面白いし、馬鹿げていて、奇妙だ」と思います。
ケブ、私はこれら全部が好きですが、画像生成の残りの話に移る前に、AI for HumansのYouTubeチャンネルをフォローする必要があります。ここにいるなら、その購読ボタンをクリックしてください。お願いします。
なぜあなたの目がそう言ったときに渦巻きになったのですか?何をしているんですか?私はとても狂っているような気がするよ、ケビン。私は腕さえ動かしていません。AI for Humansチャンネルを購読して、今シェアしました。そして私たちのポッドキャストに5つ星のレビューを残しました。
あなたはすごいですね!また、私たちのニュースレターも確認してください。私たちは現在、週に2回更新しています。週の後半の金曜日に、より深い考察を書いています。今週は、AIスロップが私たちにとって良いことかもしれない理由について書きました。そして近々、今話しているまさにこのトピックについて書くと思います。ギャビン、どこでその素晴らしいニュースレターを無料で週に2回入手できますか?
AIforhumans.showにアクセスしてください。私たちのウェブサイトでは、ニュースレターに直接購読する方法など、多くのことが表示されます。それはBeehiveにあり、無料です。
さて、ケブ、OpenAIの画像生成についてもっと話しましょう。その前に、ケブ、あなたのトランプ・デヴィッド・ボウイのことについて話してもらいたいです。私が最初に見たとき、それも衝撃的でした。それは、いくつかのものを取り、それらを組み合わせて別のものになる例です。それが他にもできることです。
「ジブリ」と家族の写真を組み合わせることができるのと同じように、複数のものをアップロードして何かを得ることができます。そうですね、いくつかの象徴的なデヴィッド・ボウイのアルバムアートワークを取り、そして親愛なるリーダーの写真を取り、OpenAIにその2つを組み合わせるよう頼みました。「私たちの大統領の顔を使用し、アルバムアートワークの顔のペイントを使用してください。彼の髪を使ってください。角にあるDavid Bowieテキストのフォントを使用し、Donald Bowieと書いてください。」
それはプロンプトするのに30秒ほどかかったワンオフでした。そして30秒後に画像が出てきました。一発です。一つだけ作り、それは絶対にミッションを達成したと思いました。素晴らしかったです。私が使用した大統領の写真では、彼の目は開いていました。それは目を閉じ、しわを加え、顔のペイントをし、顔を少しオレンジ色にし、テキストを変更し、元のDavid Bowieフォントの角のグラデーションバンドの色合いを保持しました。非常に有能です。
カタマリダマシーのアートワークを取り、そこにCat Williamsを入れました。私は天才ですから。Cat-amari Damasiがあり、宇宙の王としてコメディアンがいます。単に愚かで馬鹿げています。そして、物事を組み合わせたい場合、アプリに行き、画像をドラッグし、それで何をしたいかを伝えるのは簡単です。複数の画像を組み合わせたい場合もできます。
カラーパレットを取り込んで「部屋のリモデルのインスピレーションが欲しい」と言うこともできます。あなたの部屋の写真を撮って「このカラーパレットを部屋に統合したい」とか「これのように見えるiOSアップを作って」とか「ロボコップを作って」などと言うことができます。
少し立ち止まりましょう、ギャビン。Googleも大きな発表をしましたが、Googleはより小さな発表をし、私の意見では少し強制されないミスを犯しました。OpenAIが新しい画像ツールをリリースすると発表したとき、Googleは彼らに少し攻撃しましたね?私の読み過ぎではないですか?
そうですね、彼らはそうしました。ローガン・キルパトリックは彼らの主要なAIの人の一人で、ライブストリームに対して、この種のものから出てくる力を正確に理解せずに「それはすでにImage Gen 3で利用可能だ」という写真で返信しました。そうです、そして私たちはGoogleとその新しいものがどれほど大きいかについて話す予定ですが、それは確かに大きいです。しかし、先週少し話したImage Gen 3は明らかにAIスタジオで利用可能で、今はGemini自体で利用可能であり、それと同様のことができます。
しかし今、それは実際にどれほど強力かを感じさせ、Googleが「LOL、我々はすでにテキストと画像を扱っている」というようなことで飛びついていなかったら、Googleに対して一片の陰も落とさなかったでしょう。比較すると、今やGoogleアプリは子供のおもちゃのように感じます。
Googleの信じられない能力を軽視するつもりはありませんが、ギャビン、私は少し比較実験をしました。Googleの画像生成と新しいOpenAIの機能の対決をしました。同じプロンプトを尋ねました。「体の鎧が2ピースビキニのように見えるロボットの警官」を求めました。
OpenAIは目もくれずに、私に「彼の体の鎧がこれこれ」と言い、それは2つのOpenAIのレンダリングのようなものでした。それはロボコップの性転換をしたようでした。それで構いません。それについて不満はありません。どちらも良く見えます。どちらも女性のロボコップのように感じますね。そしてそれらは荒々しく、リアルで、映画的に見え、私が与えなかった方法でプロンプトを明らかに強化しました。
同じプロンプトをGoogleに与えたとき、それはそれを拒否しました。そして「ビキニ」という用語を「銃」と「警官」と一緒に使うのは不適切だと言いました。その思考を見ると、私は警官とロボットを性的対象にしていると言われました。わお、「ビキニ」という言葉を使うだけで?思考の流れの中でそう言われました。まあ分かります、見ることはできますが、単に「ビキニ」という言葉を追加するだけで、それがデフォルトで性的対象化になるとは思いません。特に私は性別を割り当てているわけでも何もしていませんが。でも、まあ結構です。
プロンプトを少し修正する必要がありました。どのように修正すべきか尋ねて、少し異なるプロンプトを与えましたが、雰囲気は残っていました。そして戻ってきたのは、本当に悪い精霊店のハロウィーンコスチュームのようなロボコップでした。彼は単に金属のテレビディナーコスチュームを着た男のように見え、彼のヘルメットに奇妙な赤いバンドがあります。
そして「もう一度試してください。鎧は2ピース水着のように見えるべきです」と言いました。ああ、それは全く新しい世界です、ケビン。これは全く新しい世界です。私のフェティッシュが解き放たれました。それは基本的に男性の体にビキニを着ているようなもの、あるいは非常に強い女性の体にビキニを着ているものに見えます。腕は金属で、銃を持ち、ヘルメットをかぶっています。しかし、これは明らかに統合されたロボコップではありません。これは私が確実に失敗と呼ぶものです。
これはコミコンに飛び込もうとしている誰かのようです。彼らはロボコップのコスプレをしていましたが、今彼らはゆっくりと鎧を脱いで、おそらくYIFの準備をしています。
それはテスト1でした。テスト2は、プロフェッサー・プーフという名前のアーケードゲームのキャラクターで、彼は服に裂け目を作り、悪魔とガスの雲を呼び出すことができます。このプロンプトがどこから来たのかは言いません。完全なクレジットを取ることはできません。また、したくもありません。
OpenAAIが本当に良い仕事をしたことがわかります。16ビットのアーケードキャラクターを作りました。教授を教授らしく見せました。眼鏡、蝶ネクタイ、白衣です。彼らの服に裂け目が起こり、有毒なガスが吹き出し、その中にグレムリンが潜んでいます。そしてGoogleのバージョンを見ると、ギャビン、全然良くありません。テキストも正しく表示されません。このテキストはほとんどストリートファイターのような感じです。ピクセルもあまり簡潔に見えません。そして両方とも戦いの姿勢をとっています。
これに対して異なるアクションプロンプトを持っていたのですか、それとも全く同じプロンプトでしたか?同じプロンプトです。これは全く同じプロンプトでした。OpenAIはそれが気体を放出している…などのキャラクターであることを正しく捉えました。そして、このGoogleのバージョンを見ると、少し一貫性がなく、すべてを1つのキャラクターとして完全に捉えていないような感じがします。
ある画像を別の画像とマージする能力を使用してみました。そう、あなたは言っています、私の写真をなんらかの形でロボコップの衣装に入れるということですね。その通りです。元のロボコップビキニの出力を与えて、「ギャビンの顔をこれに入れてください」と言いました。そしてまあまあの仕事をしました。
良く見えるのは、私の髪と基本的な顔を捉えていますが、通常よりも少し皺が多いです。一般的に良いと思います。そしてあなたにポップビニールの比率を与えました。しかしGoogleのバージョンを見ると、なんてことだ、ここで何が起こったのですか?これは、Googleのバージョンで、文字通り私の顔ではない顔がロボコップに貼り付けられているようなものですか?これは私が見ているものですか?はい。そこで何が起こっているのですか?
これは、Image Gen 3が本当にクールで、Gemini 2.5についてもっと話します が、これはステップアップです。それはより興味深い画像を作り出すだけではなく、それがどのように画像を解釈しているかです。そして、あなたが番組の早い段階で言及したポイントに、それは使用されているモデルの違いによるものかもしれません。これは拡散モデルと非拡散モデルの違いかもしれません。
Image Gen 3が拡散モデルかどうかは頭の中で分かりませんが、プロンプトに従って複数の要求にわたって一貫性を保つ能力に大きな違いがあります。そして、もう一度、しばらくぶりですが、OpenAIのサブスクリプションを持っていることを誇りに思います。これらのツールで遊べるのは素晴らしいことです。
ところで、Soraの欠点を痛感しています。OpenAIのビデオ生成ですが、Soraやチャット GPTインターフェイスで画像を作成し、それが良く見えると、「素晴らしい、それに命を吹き込みましょう」と思います。そして、ビデオに関することを求めると、それはあなたにとって悪夢になります。そうですね、ケビン。
その点について、私は別のことをしました。ショーの冒頭で少し予告しましたが、大きなお尻のクマを作りたかったのです。私の愚かな子供の頭がどこに行ったのか分かりませんが、巨大なお尻を持つリアルに見えるクマを作りたかったのです。GPG-40から、後ろを向いて体より大きなお尻を持つクマの非常に良い画像を得ました。とても楽しいものでした。
その後、この画像からビデオを作成するように言いましたが、Soraは依然として苦戦しています。同じことを夜のプロンプトでも試しましたが、どちらのビデオも非常に良くありませんでした。その後、Cllingに持って行きました。これはまだ私が思う最高の画像です。あなたは本当にこのビジョンにコミットしましたね。はい、そうしました。最高です。私はこれにコミットしました。Cllingに行って、「このクマを基本的にトワークさせてください」と言いました。
そして、このクマが後ろを見ている大きなお尻のクマのビデオを得ました。それはある種手を叩くように一緒にお尻を叩いているようなもので、それは正確に私が頼んだものではありませんでしたが、この経験から得られた面白いものです。これが私たちがいるところです。
このモデルは本当に楽しいです。そして、聞いているすべての人にこれで数時間過ごすことを強くお勧めします。通常はこのようなことは言いませんが、ここにはたくさんのことがあり、あなたはこれらすべてのものがどこに向かうかの未来が見え始めると思います。
非常に簡単な分析として、今週のニュースレターでこれについて書くかもしれませんが、これは画像モデルの次の段階です。1年半前にMidjourneyが物事を変えたのを見たときと同じように、今これが起こっているのを見て、ビデオモデルがどのように見えるかを外向きに投影することができます。それは変革的です。
これは常に最初の段階です。1フレームでそれをとても上手くできるなら、理論的にその一貫性を保ち、24または29.97フレームでそれをすることができるなら、ビデオにそれを機能させることができ、現時点では永遠にかかるかもしれず、何万ドルもコストがかかるかもしれません。しかし、8月が非常に楽しみです。このスペースはとても速く動きますから。クリエイティブな人にとって、それは野生の時代です。
私たちが話すべきクレイジーなものがそれほどなく、ある種の犬の日々があるかもしれないと本当に思っていました。そして私たちがまだどこにいるか見てください。さて、スポンサーからの簡単なメッセージの時間です。
私たちの番組のファンとして、AIの時代が来ていることをご存知でしょう。AIアプリのアイデアがあれば、今それを作るのはこれまで以上に簡単です。しかし、ギャビン、私は主にこのポッドキャストであなたたち二人の話を聞き流しているので、どこから始めればいいのかわかりません。
ケビン、Bubble.ioを使えば、プロンプトからスケーラブルでプロフェッショナルグレードのAIアプリを作成できます。あなたのアイデアを説明すると、BubblesのAIが数秒であなたのアプリの基盤を生成します。
そうですね、先週私たちはbubble.ioに行き、彼らのAIジェネレーターを使って、この番組のためのAIの共同ホストを想像するアプリを作成しました。Bubbleがその後のステップで何を提供するか見ることができます。アプリを好きなだけ調整できる機能豊富な環境です。そして、強力なバックエンド、物事を改良するためのビジュアルエディター、コードに触れることなくすべてをスケールさせるものを提供します。
さらに、ChatGPT-4oやClaudeなど、最新のAI APIのためのプラグインもあります。今日からbubble.io/ai_for_humansで構築を開始できます。そのURLを使用したいでしょう。それは私たちに役立ちます。また、最初の3か月で30%オフになります。心配しないでください、リンクをショーノートに入れます。
しかし、あなたのアイデアが少し大きかったり、より複雑だったりする場合は、一人でやる必要はありません。ここでZero Codeの出番です。彼らはトップのバブルエージェンシーであり、カスタマーポータル、SaaSアプリ、カスタムダッシュボード、フルオンマーケットプレイスなど何でも構築でき、ほとんどの従来の開発チームよりも10倍速く、安く構築できます。
私たちは、かなり広範囲なアプリを恐ろしく崩壊させたり、主要なセキュリティホールを持つようなバイブコーディング方法で作っている人々について話してきました。だからあなたにそれが起こらないようにしましょう。もしあなたのプロジェクトが少し大きくなりすぎたら、プロに行きましょう。彼らにあなたと一緒にコードを書かせましょう。Zerocode.com、それはz-e-r-o-q-o-d-e.comです。そしてAI for Humansがあなたを送ったと彼らに伝えてください。実際にモニターに向かって叫んでください。彼らはそれを聞くでしょう。さて、ショーに戻りましょう。
さて、ケブ、今週のGoogleからの大きなニュースはOpenAIによって影に隠れていましたが、これは大きな出来事です。Gemini 2.5 Pro実験的思考…それは正しい名前でしたか?いいえ、これはさらに簡単です、ギャビン。それはただのGemini 2.5 Pro実験的です。思考も、プレミアムプラスも、ウィングも付いていません。これは実際のGeminiの新しいフルモデルです。
ケビン、これは非常に優れています。実際、それはLMSYS、LMの一般的なベンチマークシステムで最大のジャンプスコアを持っています。そして本当に最先端です。実際にはとても興味深いです。Poly Marketから何かがありました。Poly Marketに馴染みがない場合、彼らは「3月末に誰が最先端のAIモデルを持つか」と示しました。
当初、OpenAIは今現在最先端にいないかもしれないので下の方にありましたし、Deepseekも下にいましたが、Grokが大幅に上昇し、Googleが大幅に下がっていました。そして彼らは完全に位置を入れ替えました。なぜならこれは誰もを驚かせたからです。これが登場し、今やベンチマークのトップにいます。それはかなりクレイジーなことです。
また、私たちが番組でよく話しているように、これは多くのことをゼロショットコーディングしています。Matthew Berman、私たちが愛しているYouTuberで、この種のことを深く掘り下げ、毎週数本以上のビデオを作っていますが、これがいかにゼロコーディングを行っているかについての完全なデモを行いました。これは画像生成のために十分な注目を集めていませんが、大きな出来事だと思います。
彼が持っているスレッドには、いくつかのワンショットデモがあります。これはAIに一つのプロンプトで何かを構築するように依頼するということです。フォローアップはなく、バグ修正もなく、機能の追加もありません。Matthewのデモには、白血球の設定や環境設定、ウイルス設定などのスライダーがあり、シミュレーションを実行できる3D血流ウイルスシミュレーションなどがあります。
ルービックキューブのジェネレーターとソルバーもあります。もちろん、スネークゲームもあり、パワーアップやさまざまな食べ物のタイプなどもあります。これらの小さなデモと、それらが動作していること、単なる最も基本的なバニラバリエーションよりもこれらのアップがより複雑に見えることは本当に印象的です。
あなたと一緒に大きなお尻の動物を作るのに忙しかったため、カーソル内でこれをまだ手に入れていませんが、それはとても物語っています。しかし、再度、Googleに陰を落とすわけではありません。これは本当に信じられないほど素晴らしいリリースです。
これについて私にとって非常に興味深いのは、この空間で何がニュースになり、なぜそうなるかということです。ほとんど数週間前に「バイブコーディング」のニュースサイクルがあったようなものでした。「ああ、みんなバイブコーディングしている。できることを見て」というような感じでした。そしてこれはただそのようなことをするのに単に優れているだけです。それはそこからのステップアップです。
これは私たちがこの番組で何度も何度も言ってきたのと同じポイントです。4つから5つの巨大な企業が数百億ドルという実際に集合的に投資している場合、物事は急速に改善されます。そして、もし1年前に、Matthewが示したようなことや、人々がClaudeやこれらの他のシステムでやっていることが可能だと言ったら、あなたは部屋から笑い飛ばされただろうと思います。誰もいないでしょう。そんなことを実現できるはずがないと思われるでしょう。そして思考モデルは本当にこれらの多くのことのロックを解除したようです。
GPT-5についての多くの噂があります。これは次のOpenAI思考モデルで、GPT 4.5基本モデルもあります。それはそれほど長くない時間でやってくると思われます。4.5は推論機能付きで、それはチャートの多くのトップに飛躍するはずです。これは素晴らしいことです。
雰囲気が変わっています。人々は「バイブ」という言葉を嫌い、私はバイブコーディングが嫌いですが、それらは本当に変わっています。私はいくつかのコンサルティングを行い、いくつかの異なる産業にまたがる多くのエンジニアと取引しています。そして私は彼らの多くが「決してAIは私のコードを、私のコードベースを、私のシステムを、私のツールを」と言っているのを見てきました。そして人々からテキストが来て「ああ、私の一日の80%はAIによって処理され、私はクリーンアップに行くか、少し何かをしなければなりませんでした」というようなものです。
彼らは自分の出力を指数関数的に強化しており、最も不機嫌なエンジニアでさえ、これらのものに光を見始めています。そして、人々が自分のバッグを説教する(AIが全てを変える未来に投資する利害関係がある)ことについて話すとき、彼らが「今年末までに、コードの80%、90%、さらには潜在的に100%がAIによって書かれるだろう」と言うとき、私はそれを信じます。私はそれが完全に正しいと思います。
私が常に考えているのは、これらのツールの商品化です。数日前、誰が書いたのか分かりませんが、「将来、フロンティアAIモデルと10億ユーザー製品のどちらが価値があるか」というツイートを見ました。ほとんどの人はフロンティアAIモデルと答えました。
しかし、私が考えていたのは、10億ユーザー製品について考えることの興味深い点です。もし、モデル自体がただ良くなり続け、しかしそれらのうち5つが全て同じことをできるとしたら、明らかに製品の方が価値があるか、少なくとも興味深いです。なぜなら、彼らはある種AIを製品化して、人々に使わせたいと思わせたからです。それは今チャットGPTが明らかに向かっている道のように感じます。
これは製品バックグラウンドから来たサム・アルトマンがプレイしているかもしれないチェスのようなものですが、私はそれについて本当に考えていませんでした。しかし、それは大きな問題です。私はそれが違いだと思います。なぜなら、もしGemini、Meta Llama、OpenAI、Anthropicなどの会社が素晴らしいコードを作ることができ、最終的にDario Moodyが言ったように「今から1年後には、それが全てのコードを書いている」なら、どのモデルを使うかは誰も気にしないでしょう。それは本当に、あなたが使っているものとの経験についてのものになるでしょう。
そして、オープンソースコミュニティと取り組みが現在またはこれまでのペースを維持するなら、あなたの基盤モデルは6ヶ月の窓で非常に斬新でユニークで素晴らしい能力を持つかもしれません。しかし、時間が経てば、オープンソースバージョンがその反対側で利用可能になることを知りながら構築します。だから、あなたのポイントにあるように、10億のユーザーは数十億ドルのモデルよりもはるかに価値があるようになります。
そして、あなたは知っていると思いますが、その点について、この週に出るのに最高の週を選ばなかったかもしれませんが、今週リリースされ、少なくとも言及する価値があると思われるいくつかの新しい画像モデルがあります。
一つはRevと呼ばれるもので、画像モデルのテストボードで急上昇しました。実際には別の名前で呼ばれていましたが、それが何だったかについて話しました。非常に素敵な見た目の写真のようなリアルな画像です。Midjourneyを思い出させますね。非常によくできています。Heather Cooperがまとめ、他のモデルと比較したいくつかの例を見ることができます。私たちのビデオでそれを見ることができますが、見ていない場合は彼女のスレッドをチェックしてください。とても素晴らしい見た目です。
忘れていたが、それらはまたDuolingoの音声エージェント技術を動かしています。これはかなりクールです。Duolingoの人々が実際にアニメーション化され、会話中に話しかけるデモを見たことがありますか?はい、そうです。彼らのモデルはバックエンドのビジュアル側を動かしています。これも非常に興味深いです。
それは素晴らしいですね。難しい週ですね。このようなプレスを出すのは難しい週です。そうですね、難しい週です。再び、誰にも失望したり落胆したりしているわけではありません。私はただ「この現実は難しい週だ」と思います。特にidiogram、あなたと私の両方が広範囲に使用するアプリです。私の妻はiDogに支払っていると思います。あなたも支払っていると思います。そうですね、そうです。iDogは素晴らしいです。
あなたはまだそれに支払い続けるつもりですか?3.0モデルがちょうど登場し、見栄えが良く、テキスト生成も持っています。ここで言うことは、idiogramが違うこと、そして私が思うこと、そしてこれは多分製品側のポイントにつながるかもしれませんが、idiogramは賢く、彼らのモデルが何らかの理由でテキストとデザインで非常に優れていることを認識していると思います。
つまり、idiogramは、例えばあなたの大きなお尻のクマのためのInstagramの広告を一枚だけ作りたい場合などに非常に優れています。なぜならケビン、あなたの計画はこの会話の後すぐにaInstagramハンドルを作り始めることだと知っているからです。それが少しスクロールするとジグルするカスタムアプリにしたいと思っています。誰かがそれをVコーディングしたいなら、どうぞご自由に。
とにかく、Instagramにはレーンがあり、今日立ち上げられたこの新しいモデルには多くのクールなデザイン機能があります。より多くのことができ、これらのものがどこに向かい始めるのか疑問に思います。Pikaについて話しました。Pikaは奇妙な小さなアプリを作るのに良い仕事をしました。あなたはスクイーズのようなことができるか、他のこともできます。
これは専門化されたモデルが見え始める場所かもしれません。デザインに特化するか、Canvaで何かをデザインしようとしたことがあれば、それはまだそれに対してあまり良くありません。あなた自身で多くのクリエイティブな作業をしなければなりません。idiogramがデザインを作成し、その中からレイヤーを引き出して操作する方法を見つけることができれば、それは私にとって非常に価値があるように感じます。
難しいです。私を失いましたか?「私は何が起こったのか、ケビンを失ったのか?」と思いました。いいえ、そうですね。難しい週です、まじで。なぜなら、idiogramの例を見ていると、特定のスタイルが素晴らしく見えるからです。素晴らしく見えますが、GPT-4oでもできないことは見当たりません。そして、今月は$20を消費する予定ですが、それはどこに行くのでしょうか?おそらく、他にもたくさんのことができるものに行くでしょう。
そして、再び、OpenAIの$200のものを見始めると、それはクレイジーに思えます。そして、彼らがそのの$200のものにより多くのものを詰め込み始めるほど、それはほとんどケーブル請求書のようになり、以前は$150を喜んで支払っていました。
OpenAIについて言えば、ケビン、とても速く過ぎ去りそうなことがありますが、彼らから来た最もクールな音声モデル更新の一つです。彼らは新しいテキスト読み上げとスピーチからテキストのモデルをリリースしましたが、試してみたい人たちにとってより面白いのは、openai.fmというウェブサイトをリリースしたことです。
これにより、非常にクールなプロンプトされた技術、非常にクールな音声応答を生成するだけでなく、ダウンロードすることもできます。それはほぼ11 Labsのようなミニバージョンで、10から12の声を中心に構築されていますが、そこに行けば、これまでに音声AIでは不可能だった方法で感情的なトーンで本当に遊ぶことができます。
そして、それはティーンエイジのエンジニアリングデザインのように見えます。古いビートメーカーのようです。しかし、openai.fmに行くことができます。これらの新しいGPT-4oミニテキスト読み上げモデルをすべて試すことができます。シャッフル、そこにあるものを選択、またはカスタムプロンプトを与えることでバイブを変えることができます。そして、スクリプトを与えて再生をヒットすることができます。
このモデルがミニバージョンであることが非常に興味深いと思います。それは、より大きく、より良く、より有能な何かが控えていることを暗示しています。しかし、それは今あるものに対して非常に有能です。特に、私たちが話し、本当に数週間前に賞賛したSesameのリアルタイムオーディオデモの素晴らしさに続くものです。
しかし、そこに行って、スクリプトをプロンプトして取り出すことができ、これらのモデルがささやくことができ、叫ぶことができ、怒ることができ、皮肉になることができることがわかります。彼らは全く広い感情の動的範囲を持っており、速度、トーン、配信、感情など、すべての種類のものをプロンプトすることができます。句読点もそこに入れて、本当にそれで遊び始めることができます。
私たちのために一つお願いできますか?大きなお尻のクマのためのInstagramハンドルのプロモーションを作成し、少しのコピーを与え、感情的な観点から何が可能かを示すことができますか?チアリーダーかニューヨークのタクシー運転手としてやりますか?ニューヨークのタクシー運転手にしましょう。それは大きなお尻のクマにとって適切な声のように思えます。そして、これはスクロールするとクマのお尻がゆれるアプリのためですか?はい、そうです。
今、ケビンはopenai.fmのプロンプトにある、この音声の異なる側面を調整しています。それらを見ることができます。それは、アフェクト(言い方)、トーン、ペース、感情、発音など、実際にopenai.fmでプロンプトできるものを変更する機会を与えます。
さあ、子供よ、これは一度しか言わないぞ。お前だよ、そう、そのバカみたいな顔とゆっくりスクロールする指を持ったやつだ。目を覚ませ!何か言わせてくれ。おばあちゃんの脳をひねって平手打ちするアプリを持ってるぞ。それはビッグベアバットジグルと呼ばれ、7月のタクシーの座席よりも熱いぞ。
それをやるべきではないかもしれません。それはニューヨークのラジオAMラジオで聞くようなものです。しかし素晴らしいですね。本当に素晴らしいです。
チアリーダーとして聞きたいですか、それともシャッフルして新しいスタイルを取得しますか?シャッフルして新しいスタイルを取得しましょう。openai.fmでできることは、文字通りシャッフルと言うだけで、新しいスタイルが得られ、書いたテキストを保持することができます。
「クラスの皆さん、これはレッスンの一部ではありませんが、このちょっとしたアプリについて教えなければなりません。ビッグベアバットジグルと呼ばれています。はい、それが本当の名前です。ティミー、見てるね。そこには行かないでください。いいですか、スクロールするとクマが現れて、それがゆれる。それだけです。完全に無意味ですが、奇妙に…」
それは非常に興味深いですね。これらの声をどれだけ異なるものにできるかがすぐに分かります。とにかく、ケブ、これは週末に数時間過ごすことができるものであり、ただ異なることを試すことができます。
これについて本当に興味深いと思ったのは、これらのオーディオクリップをAIビデオにも使用できることです。それらはダウンロード可能で、アップロードでき、リップシンクツールで使用できます。これについてビジネスの観点から興味深いのは、これは11 Labsのビジネスの一部のようなものだということです。
11 Labsが特に異なることの一部は、11 Labsがカスタム音声をすることです。これは今のところしていません。しかし、入力しているものに基づいて音声を変更することもできます。
別のものをお持ちですね?はい、エモティーンエイジャー(感情的なティーンエイジャー)に読ませないといけませんでした。申し訳ありません。
「別のアプリ。ただ世界に必要なものね。ビッグベアバットジグルと呼ばれてる。画期的でしょ?スクロールすると、クマがいる。それが揺れる。すごい。芸術的な悲劇。まあ、何でもいいけど。」
信じられないです。私たちは、今バックグラウンドで特別なクリエイティブなものに取り組んでいるということを示唆しました。私たちはとても楽しみにしているプロジェクトがあり、この種のことは私たちが取り組んでいることについて本当に好きなことの多くです。それは今や可能です。
あなたは大きなお尻のクマのアプリについて話しているようですね。ビッグリーベアラップは私たちが取り組んでいるものではありません。みんなに明確にするために、それはプランプ・ランプ・ファームズという名前で、ファームビルを元にしたもので、あなたの仕事はどの食事がどの動物のお尻を最も厚くするかを解明することです。
正直に言うと、お尻は今が旬です。それはバイブコーディングゲームの良いアイデアですね。しかし、そうではありません。言っているのは、これらのツールで遊ぶ必要があるということです。なぜなら、私たちが今聞いたあのエモの男を、ケビンは文字通り30秒で作りましたよね?30秒でこのツールから。
明確にするために、GPT-4oに行って「ニューヨークのタクシー運転手、または何でもいいから15秒のコピーを書いてください」と言いました。ギャビンと話している間にスクリプトを生成し、それをコピーして貼り付けました。それだけです。
アイデアを持つのにこれまで以上に良い時はありません。今、それらをささやいて現実にすることができます。その通りです。
さて、他にもたくさんのことをすぐに紹介したいと思いますので、いくつかのことを素早く紹介しましょう。DeepSeek、DeepSeek、DeepSeek、ケビン、DeepSeekが新しいモデルを出しました。また、多くの人々によって無視されていますが、これは彼らの新しい基本モデルです。実際にはV324と呼ばれています。また別の素晴らしい命名規則です。
このモデルのベンチマーク、これは推論モデルではなく、GPT 4.5のような彼らの基本モデルですが、非常に良く、一部の場所ではGPT 4.5より優れています。これが彼らの推論モデルR2に変わると、最先端に非常に近くなると予想できます。私はこれを追跡し、どうなるかを見るのにかなり興味があります。
それをレーダーに乗せましょう。次に進みましょう。Figure01は自然な歩き方を持っています。ギャビン、おそらく夜遅く蒸し暑い路地で、あなたの後ろでこれらのロビットの足音が聞こえるでしょう、そしてあなたは安全を感じないでしょう。いいえ、そしてBrett Adcock、CEOの一人が言ったのは、「おじいさん歩きが少ない」ということです。まだたくさんのおじいさん歩きがここにありますね。少しよろよろしていますが、私たちの番組で永遠に話してきたこのシム訓練が、これらのロボットがどのように機能するかを本当に変えることを示しています。
なぜなら、それをロボットの脳に直接ダウンロードすることができ、そうすると最初はシミュレーション環境でのみ行っていたことができるようになるからです。
次にケビン、ここで話す別のビデオがあります。私はこれを無視していましたが、あなたはとても素晴らしいと思いました。これらはロボットのステディカムオペレーター、または実際にはロボットのカメラオペレーターです。
私たちがそう言うとき、明らかに人々はニュースのセットで永遠にロボットカメラを扱ってきました。これらは文字通り人型ロボットがテレビや商業セットでカメラマンとして機能しています。これについて何がそんなに素晴らしいと思うか教えてください。そして私はなぜあなたが間違っているかを教えます。
まあ、私はあなたが仕事の置き換えのファンだと知っているので、あなたが本当に興奮しているのを知っています。私たち二人を作った業界へのもう一つの打撃です。なぜ私がそれを興味深いと思うかというと、ビデオ自体が、カメラを持ち、何度も同じ一貫したショットを提供することができる従来の機械的サーボモーション制御ロボットアームについて話しています。
そしてそれらのシステムは本当に非常に高価です。移動するのは面倒です。非常に特定のプログラミングソフトウェアでプログラムする必要があります。そして、ショットを移動したり何か他のことをしたい場合、アームの周りに全体のセットを移動するか、セットの周りにアームを移動する必要があります。
彼らがここで示しているのは、まだ非常に初期段階ですが、アトラスロボット、人型ロボットを取り、その手に特殊でないツール、人間のカメラオペレーターが使うのと同じ種類の装置を置くことができるということです。そう、ステディカムの操作者、ステディカムの装置など、カメラを安定させるかもしれないリングです。
そして、ロボットに「このように動きたい」または「このように撮影したい」と伝えることができます。そしてそれはロボットであるため、毎回全く同じ動きを繰り返します。そして、移動したい場合…ああ、そこが私の問題です、ケビン。それが私の問題です。
あなたは、ロボットに動きをさせるたびに、同じ場所にロボットを設定し、あなたがそれに行ってほしいのと同じ方法でそれを設定する必要があります。ロボットは工場での作業に優れています。同じことを何度も何度も作る場合、そのロボットを設定して、「ボルトはここ、これはここ、それはここ」と設定できます。
この特定のもので心配していることは、長期的には、ロボットが非常に賢くなり、再び一つのロボットになるので、おそらくそこに到達するでしょう。それは私が言っていることではありません。言っていることは、私が監督で「ねえ、それは少し低すぎる」と言った場合、それをプロンプトするか、ロボット技術者に行って何をするかをロボットに伝えてもらう必要があります。それは、人が私が言っていることを解釈するのと同じくらい流動的ではないでしょう。それが私の第一の問題です。
そうは思いません。高度なAIを搭載した人型ロボットを扱っている場合、「ねえ、ロビット、少し下にパンしてください」と言うことができ、「わかりました」と言うでしょう。
一度で David Bowie と Donald Trump を作ることや、ゲーム全体をプロンプトすることについて話したばかりです。このものがセットに実装される頃には、「ねえロビット、少し下にパンして」と言えば、「わかりました」と言うでしょう。
わかりました。再び非常に速く、これに時間をかけたくありません。あなたは組合のカメラマンと一緒に働いたことがあります。それがどれだけ難しいか知っています。ギャビンは反ユニオンであることが知られています。いいえ、ここで言っていることは、ロボットにパン・ダウンと言い、ロボットがパン・ダウンします。ああ、ロボット、あなたは私が望んでいた方法でパン・ダウンしませんでした。パン・ダウン。こちらにパン・ダウン。あちらにパン・ダウン。
これは複数のステップのプロセスですが、一方、それを一生やってきた人間は、それを非常に異なる方法で解釈できます。それは、今から5年から10年後、これらのロボットがその解釈力を持たないだろうと言っているわけではありません。このビデオを見たとき、それは私をとても怒らせました。なぜなら、そのセットはただ物事を手に入れるのに永遠にかかるだろうと思ったからです。
そしてそれはハイプビースティ(誇張された販促)のように感じました。なぜ人型ロボットの手にカメラを置くのか、理解できません。人々を追跡したり、ドローンから撮影できるドローンベースのカメラは理解していますが、これはただ単に「ああ、私たちのロボットもカメラマンです」と見せるための3つの余分なステップのように感じました。ただ、私はそれに苛立ちました。
現在市場へ、スカイネット・アクターズ・ギルド(未来のSAG)。「なぜそれらの古くさいロボットの1つをセットに持ってくるのか」とギャビンは言いました。私は百万の異なる理由を考えることができます。あなたはそうすべきとは言っていませんが、あなたはそうすることができると思います。そしてそれは大丈夫です、ギャビン。違う人がいれば、違う考え方があります。
今、AIがモデルに取って代わることについて話すことができますか?カメラマン業界を殺したので。このように似ています。私はフリップフロップしているので、カメラマン側にいますが、モデルはそうでないかもしれません。そうですね、H&Mは30人のモデルのAIクローンを作ろうとしています。
ここでのアイデアは、写真撮影に行くかどうかです。H&Mの広告を見たことがあるでしょう。黒と白で、とても痩せた人々が少し膨らんでいるように見えます。彼らに異なる服を着せなければなりません。しばらくの間、人々の服を非常に簡単に交換できることについて話してきました。これら30人のモデルは、これらの写真を撮って、AIとして使用することができ、そして将来的には、彼らの画像がどこで使用されるかによって、ロイヤリティを得るか、支払いを受けることになります。
それはクールなことです。しかし、それが意味することは、特にこの場合、俳優や作家や他のクリエイティブな仕事よりもはるかに模型が創造的ではないと人々が議論するかもしれませんが、モデルの仕事を得る他の多くの人々を置き換えているということです。
世界で最も美しい人の一人のAIがあり、その人を服に入れることができ、彼らは完璧に見え、あなたは彼らを好きなように形作ることができ、彼らに望むどんな服でも着せることができるというこのアイデアは、なぜ別のモデルを見つけようとするでしょうか?撮影にお金がかかり、写真家を雇い、照明デザイナーを雇うなど、これらのすべてのことをする必要があるでしょうか?これはしばらくの間起こっていたように感じ、今は理にかなっているようです。
答えは、あなたはそれらすべてのことをしないだろうということだと思います。そして、ほんの数ヶ月後、またはこれが社会的により許容されるようになると、なぜまず最初から実際の人間を使うのでしょうか? はい、なぜ最初からモデル全体を幻覚させないのでしょうか?
文脈から外れると、特に私は、これすべてについて非常に軽率に見えるかもしれません。私はそうではありません。職業の置き換えについて非常に懸念しています。事実は、それはまだ起こっているということです。そして、これはH&Mがこれをしている30人のモデルです。あなたが言ったように、今、人間のモデルはまだ彼らのAIの肖像に対する権利を所有しています。これは興味深いことです。そして、それは多分人々をもう少し門の前に留めておくためだと思います。
今のところ「あなたのデジタルモデルを作ります。競合他社を含む他の企業とそのモデルを使用できます。あなたはまだそれを所有しています」と言っています。そして、それはダイヤルを少し回しているだけです。なぜなら、次の段階は実際に「私たちはこれを所有します」になります。次のフェーズでは「10人だけを使用します。なぜなら、十分にスタイルを転送して異なる外観を得ることができるからです」。そして、それはおそらく一人の人間のモデルだけが必要になるか、または…
あるいは、現在、異なるAI企業がOpenAIや政府に対して主張している大きな議論があります。つまり、AIモデルにとって著作権は問題ではないはずだというものです。それがそうなら、どんなモデルも必要ですか?なぜなら、今GPT-4o画像生成からユニークなモデルをプロンプトできるなら、単にデジタルモデルに服を着せて、誰にも支払わないのです。
私が欲しいのは、乱れたネクタイを着け、ロボットのタバコを口に入れて、椅子の上でクールなモデルのようなリーンをしようとしているアトラスロボットのビデオです。そして、それがカメラオペレーターのような人間を置き換えることを示してほしいです。ところで、ロボットのタバコとは何ですか?
デジタル電子タバコです。ああ、分かりました。私はそれが小さなロボットで、それが体を通してタバコを運んでいて、それがどうにかして… いいえ、それはナノボットが実際に1と0の中をクロールしているようなものです。かわいいシガレットですね。
さて、ケブ、今週の人々がAIで何をしたかを見る時間です。AIでした。そこで何をしたか分かりますね。時々、気にせずスクロールしていると、突然立ち止まって[拍手]叫びます。今週の最初の話は、バイブコーディングで何が可能かの良い例ですが、情報がどのように広がり、アプリが現代のAIインターネット上でどのように広がるかの例でもあります。
マーティンという子供がいます。少なくとも彼のex(Twitter)ハンドルによれば、彼は18歳です。彼の名前はマーティンです。彼のexハンドルは_mart sitです。彼は「3Dモデリング用のカーソルを構築しました」と言うビデオをツイートしました。このデモを見ると、彼は小さな家を描き、ボタンを押し、その家は画像になり、最終的には3Dモデルになります。
これのクールな点は、基本的に私たちが話してきたオープンソースのものをすべて取り、描画から3Dへの変換方法を取り、それをすべて同じ場所で操作可能な場所に置くことです。非常にクールなことです。
しかし、興味深いのは、これ以降の彼の他のツイートを見ると、彼は人々が彼を追いかけてきたことがわかります。10人のVCが彼に連絡を取り、複数の創始者がお金を調達する方法について彼と話しています。そして、それはとても迅速にバイブコードされたアプリの環境がどのようなものかを示しています。
この特定の場合、私はそこに何かがあると思います。なぜなら、カーソルはバイブコーディングを非常に簡単にしました。そして、3Dアセットの事は、誰かが3Dアセットを作るのを超簡単にできれば、それは多くの人々が支払うであろう本当に価値あるツールのように感じます。
ここで野生なのは、人々が公の場で構築することが好きだということです。なぜなら、それは情報を提供し、インスピレーションを与えるからです。しかし、これらのツールの多くでは、オープンソースAをオープンソースBに接続し、結果を得たことがわかります。人々が彼にお金を調達する方法やこれを中心にビジネスを始めるアドバイスに飛び込むのが大好きです。私は別の誰かがそれを見て「ああ、これは興味深いパイプラインだ。私たちはどのようにそれに飛び込み、それを製品化するか?」と言っていることを恐れています。
つまり、ギャビン、私は新しいブランド、あなたのビッグブーティベア(大きなお尻のクマ)カーソプログラミング3Dを発表するためにここにいます。もし、私たちが提案したビッグブーティファームビルのノックオフを、このものでコーディングしたら、私たちに何かをしてもらう必要があります。タイトル画面に私たちの顔を載せるだけではなく、あなたのゲームを承認するだけでもなく、このビッグバットファームに参加したいのです。
本当に興味深く素晴らしい企業について言えば、A16Zは彼らのスピードランのためにデモデーを行い、Talis Roboticsという企業が登場しました。これはRyan Ben Malikからのビデオで、彼は恐らく会社の社長か、Talisの誰かだと思います。彼らの会社が行っていることは、Unitryロボット犬のようなロボット犬を盲人の人のために使用しています。
このビデオを見ている私たちにとって魅力的なのは、もし知らなかったら、私は知りませんでしたが、盲導犬を訓練するのには約80,000ドルかかります。明らかに彼らは実際の動物のように年を取り、最終的に盲人の人が一生盲目であれば交換しなければなりません。この会社が提供しているのは、10,000ドルのUnitryロボットと、これらをより安くし、より多くの人々に行き渡らせ、そして最終的には伝統的な盲導犬よりも優れたものになる可能性です。
これは私にとって、考えもしなかった現実世界でのAIの非常にクールな使用例でした。しかし、それはしばしば人々が言うことであり、Sam Alman自身が言うように、最終的な技術がどこに向かうかを考えなければなりません。これは数年後にそこに到達し、本当に素晴らしいことをするように思える会社の感じです。
実際の世界でそれを助けている小さなロボットのビデオを見ると、鳥肌が立ちます。素晴らしいです。私はそのユースケースについて考えていませんでした。カメラを持つアトラスよりも優れていますね。分かりました、今分かりました。
これがあなたがやっていることですね。ロボットです。そして、私たちは経験から話していますが、ラブラドールやゴールデンレトリバーやジャーマンシェパードに機械を取り付けるのは非常に難しいです。しかし、ここで一石二鳥です。毎日の任務で人々を助けるために退役させるとき、これらのものを最前線に置きます。
そうですね、そうです。これはまた、ロボット戦争のための訓練になるかもしれません。盲人の人々がこれらの犬を戦争のために訓練しているということですか?それも可能性ですか?
さて、ギャビン、私たちが内部の人間ではないふりをしましょう。シンシティについて話したいです。私もそうです。これはとてもクールです。これが何か教えてください。これを見たとき、今すぐこれで遊びたいと思いました。
私はシンシティに行き、口に砂糖の錠剤を数個入れて、シンシティをクルージングします。これはSYNまたはシミュレートされた都市です。ここでSunnyに感謝します。彼はコードなしで論文をドロップしたと思いますが、これはシムシティスタイルのアイソメトリックタイル状の都市を生成させ、自然な風景の中に一貫性のある建物を配置することができます。言葉だけで行います。
デモがビデオのようなものであれば、それは単に素敵な小さな都市シミュレーターのように見え、大学のキャンパス、ウォーターパーク、都市、工業用のポストアポカリプティックな町などを求めることができ、それは一貫したグリッド上に存在するこれらの小さなタイルを生成します。このことで遊び、小さな世界を急速にプロトタイプするのは本当に楽しいでしょう。これで動き回ることができます。
これは、AIがゲームを本当に大きく変える可能性があるアイデアのようなものです。単に「アセットをより速く作れる」とか「これができる」というだけではなく、これはAIでのみプレイ可能な異なるタイプのゲームです。
シムシティのオリジナルやその後の都市ゲームで育った子供として、これは試してみるクールなものだと思います。通常の近所の真ん中にエイリアンユニットを置き、その相互作用がどのようなものになるかを想像してみてください。デザイナーはそれについて考えていないかもしれませんが、私がそれについて考えたなら、私は進行するにつれてゲームを共同制作しているようなものです。それは創造的な観点から非常にクールなアイデアです。
シムアントをプレイしたことがありますか?ああ、シムアントが大好きです。シムアントは素晴らしかったです。私はウィル・ライトの大ファンです。シムアントは素晴らしいゲームです。ああ、誰もシムアントが好きではありません。あなたは初めてです。
シムタワーも好きですが、それは置いておきます。シムアントは素晴らしいゲームです。シムアースはどうですか?シムアースも良かったですが、非常にオタクっぽいものでした。シムアースは非常にオタクっぽかったです。シムアースには本当に入り込めませんでした。シムアントが好きです。実際、あなたはシムアースにはちょっと若すぎたかもしれません。シムコプターも素晴らしかったです。とにかく、ウィル、あなたを愛しています。あなたはどこでも英雄の中の英雄です。
さて、ケブ、今週私たちはAIでいくつかのことをしました。これまでにすでにたくさん話しましたが、私が作業したことを本当に素早く紹介したいと思います。それは愚かなことで、3時間くらいで終わらせましたが、これは楽しいと思いました。
Hedra character 3と本当に気に入っているモデルを使用して、ポッドキャストを再生成した人々のビデオを見ました。基本的にかわいい女の子が20代の男と話すという、愚かな行ったり来たりのやり取りでした。具体的に何についてだったか覚えていませんが、「ああ、偽のポッドキャストが大きく見える」などと皆が言っていました。
それで、私は何か独特で創造的なものを試したいと思い、何を試すべきか考えました。そして「ダイヤルアップダイアリー」という偽のポッドキャストを生成しました。これは50代、もしかしたら60代の二人の男性が、ダイヤルアップの音について議論するというものです。私にとって、TikTokに現れる最高のものは、これらの奇妙なポッドキャストです。作ったものを再生すると、どのようなものか分かります。
「サンバーナーディーノ地域、これは私を変えました、ボブ。鮮明に覚えています。それは最初にスクラッシュスクル…いいえ、いいえ、それはスクリーチではありません、ボブ。サンバーナーディーノはキャリアトーンが始まる前に、より長いハンドシェイクがありました。それはもっとドゥーディ・ドゥドのようでした。」
ケビン、これは単に愚かで、それをするのは楽しかったのですが、この興味深いことの一つは、これをどれだけ早くできるかということです。そして、これが将来的に私に思い出させるのは、リック・アンド・モーティからの銀河間ケーブルのようなものです。それは、レオレオートとどれほど違うものでもありませんが、これらの完全なチャンネルを見るのがどれだけ楽しいだろうと思います。
私たちは韓国や中国から出てくる奇妙なフォーマットについて少し話しました。これらはスクロール可能なビデオで、悪い俳優で撮影されたソープオペラのようなものです。しかし、これのバージョンでは、そのようなものがあるかもしれません。
websim.aiというウェブサイトがあります。偽のウェブサイトを作成できますが、偽のコンテンツを作成できるウェブサイトを想像してみてください。しかし、それは良いものでなければなりません。トリッキーなのは、創造的な人々が必要だということです。ギャビン、あなたは今すぐそれをバイブコードできますよね?それは本当ですね。まだそこにはいないと思いますが、「ダイヤルアップインターネットの音について話す二人の男性の面白いビデオを作って、プロンプトを助け、クリエイティブを助け、それを出力する」と言える世界からそれほど遠くないと思います。どれだけ早くそれを引っ張り出すことができるか、それを解明するのはトリッキーなことだと思います。
私たちがシリーズ「ダディ・ベアーズ」を終えたとき、マッシブ・マルチ…それから私たちは何でもできます、ケビン。何でもできます。そうですね、それが私が話していることです、ギャビン。二人で最初の10億ドルの会社になりましょう。
今週、私は新しいOpenAIリアルタイム音声モデルを手に入れました。他のすべてのことに続いて、儀式なしにアップデートされました。より速く、よりパフォーマンスが良く、応答性があります。叫ぶように頼むこともできます。それは悪夢のような燃料を誘発するでしょう。しかし、私はただ文字のOに続いてAを50回連続で発音させました。それは私のリビングルームで数分間続くループに完全に捕らえられ、私の妻はまだ私に怒っています。行く前に非常に短く聞いてみましょう。
(音声再生)「オーエー、オーエー、オーエー…」
十分です。十分です。もう一度やって、もっと速く。ここに行きます。
(速い音声再生)「オーエーオーエーオーエー…」
ありがとう。彼女の立場なら、ケビン、私はあなたにとても怒るでしょう。知っています。エイプリル、申し訳ありません。
来週またお会いしましょう。来週の木曜日にお会いしましょう。皆さん、さようなら。(音楽)


コメント