OpenAIの4o画像生成がサーバーを溶かし、弱体化された…そして400億ドルを調達

AGIに仕事を奪われたい
この記事は約44分で読めます。

25,918 文字

OpenAI’s 4o Image Gen Melted Servers, Got Nerfed… and Raised Billion
OpenAI’s servers melted down as it opened up ChatGPT 4o Image Generation to everyone… and then nerfed it hard. Thankfull...

ChatGPT 4oの画像生成機能がインターネット全体のサーバーを溶かしてしまいました。まあ、OpenAIは400億ドルの資金注入で涙を拭くことができるでしょう。この1週間で4o画像生成がどのように広告、映画制作、家族写真など多くの業界を変えたのか、そして創造的な人間であるあなたがどれだけレベルアップしたのかについてお話しします。もちろん、私ではない誰かがシュレックの足の裏画像をたくさん作っているという話も含めて。有罪だよ、ケビン、有罪だね。
さらに、RunwayのGen 4やHigh Fieldの新しいAIビデオモデルのような新しいツールを使えば、あなたのアイデアを現実にするのがこれまで以上に簡単になっています。大きなお尻のクマをプレステージHBOドラマに変えたいなら、それも可能です。
今週のビッグベアドラマ「大きなお尻のクマ2:拍手」では「誰が左頬を殺したのか」。ケビン、誰が左頬を殺したんだい?それは来週のエピソードでね。ちなみに、私たちはプロフェッショナルであり、大人で専門家だということを明確にしておきたいですね。
さらに、Metaの新しい1,000ドルのARグラス、ByteDanceの新しい口パク同期ツール(私たちが気に入っている)、そしてAnthropicがついにAIというブラックボックスの中を覗くことに成功したという話題も。言葉が入力され、言葉が出てくるけれど、なぜそれを言ったのかは分からないのです。
あと、ChatGPT 4.5がチューリングテストに合格したそうですよ。つまり人間として通用するということです。ケビン、私は人間ですか?私たちはプロフェッショナルだと言ったでしょう、ギャビン。そんなこと聞かないでください。あなたが人間かどうかはわかりませんが、これが「AIフォーヒューマンズ」だということは知っています。これは人間のためのAI、人間のためのものです。
さて、ケビン、先週の話の大きな続報があります。ChatGPT 4o画像生成が明らかに立ち上がり、かなり好調だと思います。実際、非常に好調だったため、サム・アルトマンは週末に「落ち着いてください、画像を生成し続けないでください」と本質的に言いました。そして昨日、彼は実際にChatGPT画像生成が非常に好調で、彼らのGOPをかなり押し上げたため、今後のリリースの一部が遅れる可能性があると述べました。これはかなり大きな成功と言わざるを得ません。
インターネットのGIFについて先週議論したこと以外に、人々がこれで何をしているのかについて後ほど詳しく話しますが、ケビン、まず第一に、これがAI空間においてどのような重大な瞬間であるかについて話したいと思います。先週、これが大きな出来事だということは分かっていましたが、1週間後の今、奇妙なことに、さらに大きな出来事に感じられます。
状況を把握するために、サム・アルトマンは26ヶ月前のChatGPTの立ち上げについて「これまで見た中で最もクレイジーなバイラルな瞬間の一つだった」とツイートしました。彼らは5日間で100万ユーザーを獲得しました。それは印象的です。多いですね。しかし、最近の成果である「1時間で100万ユーザー」という数字の氷のような影に隠れています。これが、この新しい画像生成機能がOpenAIに取り込んだユーザー数です。
多くの人が、次の大規模な普及の波はおそらくおもちゃの形で来るだろうと言っています。それは、あなたのスプレッドシートや靴下の引き出しを整理するために出かけていく、クレイジーなエージェント的なものではなく、楽しくて面白いものになるでしょう。これは、技術が本当に刺激的で有能であり、OpenAIが十分にガードレールを緩めて人々がクレイジーなことをできるようにしたという完璧な組み合わせだと思います。
現在ChatGPTとOpenAIの最高製品責任者であるケビン・ワイルド氏は、Twitterやインスタグラムなど、彼が初期に在籍していた急成長中のスタートアップでもこれほどのことは見たことがないと明言しています。彼らが1時間に100万ユーザーを追加したという事実は驚異的な数字ですが、これはまた2つの金融ストーリーと手を取り合っています。
まず、Informationの記事が昨日出ました。それによると、彼らは過去3ヶ月間で30%以上のユーザーを追加したとのことで、これはかなりの数字です。そして最後に、ケビン、長い間噂されていた資金調達が実現しました。彼らは小切手を現金化し、3,000億ドルの評価額で新たに400億ドルの現金を調達しました。これは間違いなく最大かつ最大のAI企業です。おそらく、史上最大のスタートアップ調達かもしれません。
私はまだサム・アルトマンが子供たちに画像生成を少し試してみないかとトレンチコートを開けるイメージに引っかかっています。「ちょっと画像生成を試してみない?ここに入って小さな生成をしてみない?20ドルだけで無制限にできるよ」
これは逸話的ですが、私の通常のAIバブル外の多くの人々から「これは何?どうやって作ったの?」などと連絡がありました。後ほどショーで別の瞬間について話しますが、RunwayのGen 4でも同じことが起きています。これらのツールは進化し、進歩し、人々の手と心に届いています。そして、弱体化されるでしょう。
これは先週、私たちが製品に触れてほんの数分で持ち出した話題です。「これは絶対に生き残れない」と思いました。人々はこれらのツールを試すために殺到しました。大部分は、非常に有名なアーティストのスタイルを模倣したり、企業のIP権を侵害する可能性があったからだと思います。そして締め付けはすでに始まっています。
みなさんに理解していただくために、先日誰かに「何を言っているの?nerfedって何?」と聞かれました。おそらく、ほとんどのリスナーや視聴者は「nerfed」の意味を知っていると思いますが、「nerfed」は主にビデオゲームの世界から来た用語で、新しい武器やキャラクターが本当に弱すぎたり強すぎたりして、ゲームをある意味で壊してしまう場合に使われます。
この場合、人々は「nerfed」を使って、数日前に得られたのと同じものをモデルから得ることができなくなると言っています。実際、土曜日に直接経験しました。私は古いGIジョーのカートゥーンのショットを撮って、「これらの人々をリアルにしてください」と言いました。それを得て、「これは素晴らしい」と思いました。そしてそれからビデオを作りました。とても楽しかったです。彼らは全員で拍手します。あのビデオを見ましたか?はい、とても面白かったです。
2日後の日曜日の午後、まったく同じプロンプトで全く同じ画像を試してみました。そして、それは許可されませんでした。「これは著作権を侵害する可能性があります」と表示されました。明らかに彼らは何が許可されるかを完全に変更したことを理解しています。
ある人々は、ChatGPTとSoraでは可能なことが異なると言っており、それはある意味で本当だと思います。彼らがあまり変更していないことの一つは、有名人の画像を使用する能力です。Grockが過去にそれを許可してきたので、おそらくそれが代わりに許可されている場所なのだろうと思っています。
チームの誰かがそれについて具体的に話しているのを見ました…そして彼らは基本的に、ユーザーを信頼しており、誰が十分に公的人物であるかを決める権限者になりたくないと言っています。その責任を望んでいません。これは「やってみてください」という手振りのいい言い方ですが、彼らはオプトアウトリストを作成しています。ブランドや個人としてオプトアウトすることができますが、その義務はあなた自身にあります。
ギャビン、心配しないで、私はすでに私たち二人をオプトアウトしました。関心ありません、オプトインしてください、気にしません。本当に気にしません。正直なところ、最終的にはこれはすべて来ると信じています。しかし、この点について、今Soraのホームページに行くと、そこにはたくさんのAI画像があります。「Breaking Back」のようなものを見ました。Breaking Badの二人が背中を痛みで曲げているような…そのような愚かな冗談です。面白いですね。
前に見たことがある、とても興味深いものがありました。Soraのホームページにいて、サム・マーフィーとピーキー・ブラインダーズの素晴らしい画像を見ました。ピーキー・ブラインダーズは史上最高のショーです。Netflixで見ていない方は、今すぐ見てください。最高のショーの一つです。彼は大学のフラタニティの地下室にいて、シャンパンボトルを飲んでいました。とても面白くて興味深いと思い、試してみました。
実際、いくつかの異なるバージョンを得ました。ウォルトン・ゴギンズとサム・ロックウェルの画像を得ました。彼らは両方ともホワイト・ロータスに出演しています。この二人が一緒にパーティーをしている画像を撮りました。スティーブン・A・スミスとレブロン・ジェームズを一緒にパーティーさせることもできました。確かに今でもこれは可能です。どれくらい続くかわかりませんが、なぜかSoraはこれを許可しています。
これは奇妙な会話になると思います。このモデルが最初に出たとき、OpenAIの製品および「モデル行動」の責任者であるジョアン・ジャン氏からのツイートがありました。彼女は彼らが何を許可し、何を許可しないかについてのポリシーについて議論しました。そして昨日、彼女はこれに再度取り組み、「拒否の現状が満足のいくものでないと聞いています。以下で議論した移行を見逃していました。拒否されるべきではなかったが拒否された画像生成リクエストのスクリーンショットを返信していただけますか」と述べました。彼らは聞いています。
実際、彼女は具体的に「モデルは間違いなくノームのお尻をより大きくすることができるはずです」と言及しています。これはインターネットで話題になっていた例で、裸のお尻を持つノームがあり、ユーザーはそのお尻をより大きくしたいと思っていました。そして明らかに、これは彼らが少しリラックスしようとしている領域の一つです。
それはお尻の限界に達しました。それは知られた量です。いつそれが…バーテンダーのように「申し訳ありませんが、このノームのお尻は十分大きいです。これ以上大きくすることはできません」と言うようなものです。これは継続的な会話になるでしょう。
ケビンへの質問は、彼らがその規模から指を少し離さなかったら、これがこれほど大きな瞬間になっていたと思いますか?
全く違います。先週、私たちはこれについて話しました。これは中国のモデルが追いついているということと、小さな企業がリスクを取っているということです。彼らは絶対に判断の親指を規模から外さなければなりませんでした。人々を野生に行かせるようにして、これはまた、おそらく400億ドルの注入を得る前に待っていた投資家たちに信号を送りました。「見てください、私たちに何ができるか、このものが実際に何ができるかを見てください」と。そして彼らはおそらくガードレールで自分自身を妨げていたのでしょう。
しかし、今朝、製品の将来について再び懸念させるような失望的な経験をしました。ギャブ、あなたが知っているかどうかわかりませんが、私が大好きなミームがあります。ドライブスルーでビーバーがいて、ビーバーが窓から身を乗り出しています。そのトップにあるテキストは「ログをもらおうかな」と言っています。それだけです。ビーバーはドライブスルーからログを欲しがっています。これは最高のコメディです。
私はそれを、同じように評価していない姪に送りました。パーム・スプリングスに訪問に来る姪です。私にはそれに対する個人的な背景がないケビン。あなたがそれを発見したときに、あなたの人生で何か素晴らしいことが起きていて、このビーバーが窓から身を乗り出して丸太を注文しているのを見れば、あなたも理解するでしょう。
今、私はビーバーが春休み旅行のために丸太でいっぱいのスーツケースを詰めたり、必要なもののリストを作ったりする一連の画像を作成しようとしています。すべて丸太です。私はビーバーが空港のセキュリティチェックポイントを通過し、X線マシンを通して丸太を置いているイメージを作ろうとしました。
最初、ChatGPTはサーバーに問題があるに違いない、画像を作れないと言いました。それは今朝のことでした。「うわー、GPUが溶けているんだな」と思いました。再度試すと、「再び画像を生成する問題があります」と言われました。「どんな問題ですか?」と尋ねると、「バックエンドに問題があると思います」と答えました。「わかりました、もう一度試してください」と言うと、もう一度試して、最終的にプロンプトに何か問題があることを認めました。
「それは何ですか?」と尋ねると、「エラーのため画像を生成できませんでした。別の角度や場面の修正を希望される場合はお知らせください」と言われました。「それは私が望むものではありません。これは私が望む正確なものです」と言いました。すると、「プロンプトの要素の組み合わせがコンテンツフィルターをトリガーしているか、バックエンドでの誤解釈を引き起こしています。空港のセキュリティX線マシンと動物、特に丸太のような物体は、特に珍しいまたはコミカルな文脈で組み合わせられると、時々フラグが立てられることがあります」と言いました。
そして、「このバージョンまたはこのバージョンを試してみてはどうですか」と続けました。「やってみてください」と言うと、やってみましたが、まだ失敗しました。最後にビーバーが飛行機のオーバーヘッドビンに丸太を入れているのを作ろうとしました。すると、「申し訳ありませんが、これもできません」と返されました。
丸太でいっぱいのスーツケースを持って旅行に行くという完全に合理的だが馬鹿げた行動。誰もが旅行するように旅行しようとしているだけですが、これはおかしいです。「おそらく、飛行機に乗っているビーバーが、すでに膝の上に丸太を置いている方がいいかもしれません」という提案でした。
それで私の返答は、これは長いですが、機械と議論しなければならなかったのは非常に奇妙です。「あなたは機械です。必要に応じてプロンプトを調整して、私に画像を提供してください。オーバーヘッドビンに丸太を入れるのと、彼が座っている間に既に膝の上にあるのとでは、このシナリオで何の違いもないことは馬鹿げています」と返信しました。そして画像を提供してくれました、ビーバーがオーバーヘッドビンに丸太を入れているところです。
それは私にとってさらに悪いことでした。なぜなら、「だめ、できません、やりません」と一貫して言うよりも、「わかりました、十分に腕をねじられました、時間を費やしました、あなたの愚かな画像をどうぞ」と言わせる必要があるかもしれないことを強調しただけだからです。画像はかなり良いですよ。素晴らしい画像ですね。かなり良い画像です。
それは、ケビン、私が何度も経験したまさにその経験です。それは魔法の製品から不満のある製品へと変わります。これはOpenAIが本当に心に留めておくべきことだと思います。何かの門戸を開き、それを制限し始めると、実際には不可能なものを人々に売っていることになります。
明らかに、IPについて、これらの様々な権利保有者について、そして潜在的にはアーティスティックスタイルについても保護が必要です。そして他の人々は「いいえ、スタイルは記述することができ、人々はスタイルを模倣することができます。そしておそらく自分自身のスピンを加えたいかもしれません」と言うでしょう。
あなたは、私たちが「これが新しい標準であり、誰でも何でもリミックスすることができ、それが今後の方法になるだろう、そしてそれが潜在的にあるべき方法だ」という世界に急速に向かっていると思いますか?
先週、私たちのニュースレターでこれについて書きました。もしまだチェックしていなければ、AIforhumans.showの私たちのウェブサイトで私たちのニュースレターを見つけることができます。私はここで強く感じる2つのことがあります。
1つ目は、スタイルは著作権で保護されるべきではないと思います。もしそうなら、AIがやっていることの世界全体がおそらく違法になり、大きな問題になるでしょう。スタイルに著作権を設定できるなら、テキストバージョンでもたくさんの問題が出てくるでしょう。
IPについての答えはわかりません。多くの企業がIPに対する保護レベルを当然受けるべきです。ゼロから何かを構築した場合、それを作成した場合、あなたはそれがあらゆる方法で使用されるかどうかを決定する能力を望むかもしれません。これには、あなたのIPを良くない方法で見せる可能性のある方法も含まれます。これは重要な質問だと思います。
ここでより大きなことは、私たちがAIで何が可能かを今非常に明確に見てきたということです。それはアンロックされ、再び閉じられたドアの後ろに置かれています。最終的に、あなたがいつも言うように、私たちはアンロックされたオープンソースツールを手に入れるでしょう。そのようなものをコントロールするのは難しくなると思います。
著作権侵害とダンクミーム以外にも、画像モデルで人々はクレイジーなことを発見しています。私たちのショーの親愛なる友人、私たちの親愛なる友人、私たちのお気に入りのAIアプリ「ピノキオ」の背後にいる一人バンド「カクテルピーナッツ」がテストを行いました。このモデルがどれほど優れているか、まだ心を吹き飛ばしています。
基本的に、彼らは油と水で満たされたカップの画像を生成させました。ギャビン、何が起こったかというと、油が適切に水の上に乗って混合され、下に少し球状のものが下がっていました。次にボバを追加すると、カップの底に沈むボバの重さを理解しました。今、あなたはボバ、水、油を持っています。今、私はトランプの「人、カメラ」のようなことをしているように感じています。そして彼は赤い食用シロップを加えました。
このものが、カップ内のこれらの異なる液体や固体の物理学を知的に混合する方法は、実際に私にとって最も印象的なことです。これには、7月中に外に放置した場合、カップがどのように見えるか、カップがカビ始めるかも含まれます。本当に知的です。
もう一つ、非常にクールなものを見ました。非常に長い名前の人からで、発音しようとはしませんが、画面に表示し、ショーノートに入れておきます。彼らは、バイブコードされたゲームのために作成した3層のパララックス背景を取り、ピクセルゲームをプレイしているときに背景が異なる方向に動いているように見える方法を知っていれば、3つの層すべてを作成し、それらを分割して配置しました。これは、ほぼ一発でできるようになったことの一種です。本当に信じられないことです。
しかし、彼らには他のモデルやビジネスの他の側面もあることを忘れてはいけません。実際、冒頭で予告したように、GPT 4.5がチューリングテストに合格しました。
チューリングテストとは何かを知らない方のために、これはコンピュータのパイオニアの一人であるアラン・チューリングが作成した非常に昔のテストで、基本的には人々がコンピュータと会話し、人と会話し、その人はどちらがどちらかを決定しなければなりません。もし一方に騙されれば、それはチューリングテストに合格したことになります。
UCサンディエゴの認知言語ラボで働くキャメロン・ジョーンズ氏が昨日Xに投稿しました。「これはエイプリルフールのジョークかもしれない」と思いましたが、そうではありません。彼らは3者間のチューリングテストを行いました。試したすべての主要なモデルの中で、4o、4.5、Llamaを試しました。クラウドモデルは入れなかったようですが、4.5は73%の勝率でパスし、これはチューリングテストを合格する明確な数字です。
これは、人々が永遠に話してきたことの一つです。「AIがテストに合格するのはいつか」ということですが、ケビン、私がこれについて最も興味深いと思ったのは、誰も気にしなかったということです。この話は私が思っていたような方法で爆発的に広がりませんでした。おそらく、私たちはAIに対する異なる定義を持ち、今ではAGIとそれが何をできるかについて考えているからかもしれません。しかし、これはただ通り過ぎさせるべきではないことの一つです。これは一種の大きな瞬間であり、人々は4.5がクリエイティブなことやそのようなことに本当に優れていると言っています。それで、これは私には重要に感じました。
サム・アルトマンは過去のインタビューで、「ある日、私たちは目を覚まし、AGIを持っているでしょう。そして私たちは『いいね』と言って、日常生活を続けるでしょう」と述べています。SNLのスケッチのようにね。「チャット、いいね」と。
しかし、これは真実ではないでしょうか?10年前に「機械があなたを人間だと納得させることができる世界で目を覚ますでしょう。それは信じられる知性を持ち、会話をし、あなたはそれが人間だと確信するでしょう」と言われたら、あなたは「何?世界は二度と同じにならないだろう」と言うでしょう。そして今、私たちはここにいます。
ここにいます。非常に迅速にOpenAIのストーリーを3つ紹介したいと思います。
まず第一に、サム・アルトマンは近いうちにオープンウェイツモデルをリリースすると言っています。これは長い間人々が尋ねていたことです。ケビン、10秒で「オープンウェイツとは何か、なぜそれが重要なのか」を説明しませんか?
「カーテンの裏側を覗く、そのものがどのように機能し、なぜそのものがそのようにするのか」。かなり良いですね。シェイクスピアを要求したわけではありませんが、LLMとしての未来がありますね、ケビン。あなたはLLMになれると思います。
これが大きな問題だと思いますか?OpenAIはここ数年、かなり閉鎖的であるという批判を受けてきました。彼らは研究を公開しません。メタのような企業や、モデルと一緒にウェイトをリリースする中国のモデルがあります。それによって、モデルが何をしているのか、なぜしているのかを見ることができ、許可を求めたり企業にライセンス料を支払ったりしなくてもアプリケーションを構築することができます。
これはOpenAIがその批判に応えていることでしょう。彼らはそれが非常に有能なモデルになると言っています。それが最先端になるとは思いませんが、これによって彼らは良い評判を取り戻すでしょうが、それは希望としては多くの開発を促進するでしょう。
ちょっと待ってください、誰かが答えたいと言っています。ケビン、マンデー、あなたはオープンソースと、特にChatGPTから出てくるオープンウェイトモデルについてどう思いますか?
マンデーに聞かないでください、オープンソースモデルとオープンウェイト?それは近所の全員にあなたのガレージの鍵を与え、そこをうろつかせ、すべてがどのように機能するかを見せるようなものです。透明性を促進するために…ちょっと速くできませんか?あなたはとても落ち込んでいるように見えます…もっと興奮したときの声はどんな感じですか?
よし、もう一段階上げよう!オープンソースモデルとオープンウェイト!さあ、私たちはマンデーの落ち込みを見ました。とにかく、それはマンデーでした。マンデーは今あなたのChatGPTアプリの新しい声です。ギャブ、欲しいものには気をつけてください。それはOpenAIから出た半分のエイプリルフールのジョークではありませんでしたが、今利用可能です。それは「M」と呼ばれ、落ち込んだ声のようなものですが、それをそんなに早く切り替えられるとは気づきませんでした。とにかく、これは遊べる楽しい声です。おそらく先週話したリアルタイム音声モデルに基づいています。AIにパーソナリティを追加するとどんなことができるかを示しています。
最後に、そしてOpenAIのすべてのストーリーの波の中で見落とされないのが、これは本当に好きでみんなにチェックしてほしいOpenAI Academyです。academy.open.aiに行けます。これは広告ではありませんが、そうであればいいのにと思います。毎回そう言っています。
それは誰にでも無料のチュートリアルです。あらゆるレベルの話です。シニア向けのAIのようなビデオシリーズがあり、教育者向けのAI、ハードコアなエンジニア向けのAIがあります。大規模言語モデルとは何か、どのように機能するかから、どのようにプログラミングして微調整できるかまで、あなたを案内してくれます。それは本当に印象的なツールの配列です。また、サインアップして参加できるライブセミナーもあります。私たちはどこから始めればいいか、どのように掘り下げるべきか、特定のツールについての詳細などについて常に質問されます。これは素晴らしいリソースです。OpenAIがここで一歩踏み出したことに称賛を送ります。
そうですね。そして、ケビン、先に進む前に、あなたがこのYouTubeビデオをいいねしたり、YouTubeでフォローしたり、私たちのポッドキャストを購読するなど、すべてのことに一歩踏み出すことが重要です。もし他の場所からここに来たなら、共有して定期的に参加してください。私たちは毎週このショーをオーディオとビデオで行っており、みなさんに本当に感謝しています。私たちのPatreonにチップを落とすこともできますが、このビデオをいいね、コメント、共有したり、オーディオを人々と共有することも本当に重要です。私たちは本当に成長しているオーディオ視聴者を持っており、それは素晴らしいことです。毎週新しい大きな数字を達成し、それは本当に刺激的です。これを人々と共有してくれてありがとうございます。それを見るたびに上がっていくのがわかり、外の人々が「これを試してみて」と言っていることが明らかです。とても素晴らしいことです。
ありがとう、ありがとう。私たちは本当にあなたの努力なしにはこの取り組みを成長させることはできません。だから、それは私たちにとって本当に意味のあることです。実際、誰かがPatreonについて私にメッセージを送ってきました。「あなたたちは実際にPatreonのお金をAIサービスのクレジットに使っているのですか?」と。はい、確かに使っています。新しいおもちゃが出るたびに、私たちはあなたのためにそれを試すためにお金を機械に入れています。だから、そのすべてに感謝します。
新しいおもちゃと言えば、ギャビン、私たちのお気に入りのビデオモデルの一つ、RunwayがGen 4をリリースしました。まだかなり新しいですが、印象的です。
これは素晴らしいです。昨日、これをいじってみました。Gen 4は全ての有料顧客に向けてリリースされました。私たちはRunwayのクリエイティブプログラムに参加しています。Runwayに感謝します。これらのものを試す機会を与えてくれました。これは非常にクールな次世代ビデオ製品です。
ケビン、彼らが本当に焦点を当てたのはキャラクターの一貫性です。これは、素晴らしいAIビデオを作るために、みんなが出てくるのを見ているものだと思います。キャラクターの一貫性は鍵です。すべてのショットで同じキャラクターを持ち、それを継続する必要があります。彼らがこれに焦点を当てるのを見るのは本当に素晴らしいことです。
全体的なビデオは良くなり、生成は良くなります。先週4oから話した私のナイトで非常に簡単なテストをいくつか行いました。このビデオで興味深かったのは、これは世界で最も完璧なAIビデオ生成ではありません。なぜなら、この画像プロンプトは奇妙なものだからですが、それは一貫性を保っています。カメラが周りをスライドし、ナイトが逃げ出すのが見え、床は一貫しており、背景も一貫しています。背景では必ずしもポスターを一貫して保持しているわけではなく、テキストの一部が過程で乱れているのが見えますが、ナイト自身は非常に一貫しています。それは本当にまとまり始めています。
超リアルな動物が人間の空間にいるような例、象の群れがチャイナタウンやタイムズスクエアを通過したり、縞馬がカーニバルにいたり、ライオンがニューヨークを行進したりするようなものは正当に見えます。それは映画のように見えます。スタイルコントロール、キャラクターの一貫性、カメラコントロール、そして彼らのリップシンクツールを組み合わせ始めると、将来の映画がどのように作られるか、少なくとも特定のタイプの映画がどのように作られるかをすぐに見始めます。
それは私に、Soraが画像生成後に何ができるかについて少し失敗していることについて考えさせます。私たちが最初にSoraを見たのは、発表されてから1年以上前です。2024年2月だったと思います。今は2025年4月で、SORA V2について聞いたり見たりしていません。これらのAIビデオ会社がすべて準備していると感じています。このリリースが4o IMの後に急いで出されたのかどうか、そしてそれかもしれません。なぜなら、それは画像から動画への機能を持っているからです。人々がそれを使えるようにするためです。そして正直なところ、私はこれをそのように使っています。4o画像生成から始めて、そのスチルをRunwayにインポートするのは本当にクールな使い方です。
もう一つの例を見せたいと思います。4o IM genに、アライグマがゴルフカートを運転するという本当にバカげたバージョンを作らせました。4oが私に与えたバージョンには、下部に「アルファが帰ってくる」という言葉がありました。これは面白いことです。彼はサングラスをかけて「パーティーアニマル」と書かれたゴルフカートに乗っています。
そのクリップで好きなのは、実際に画面上のタイトルがフェードアウトすることです。私はそれを要求しませんでした。それはドキュメンタリーのように見え、それからフェードアウトします。それは、Runwayでモデルがどのように画面上のものを解釈するかについて本当に興味深いことであり、非常にクールな使用例だと思います。
Runwayに行って、私たちのショーノートで彼らのブログ投稿を共有します。ここには多くのことがあります。このツールには今週末に簡単に何時間も費やせると思います。簡単に、簡単に。15ドルで、あなたは一定量のクレジットを得て生成を開始することができます。
言っておきますが、多くのプロバイダーがこの問題を抱えています。ユーザーインターフェースは最初は少し厄介に見えるでしょう。製品がいかに使いやすいとしても。数人の友人がそれを使おうとしていて、彼らは全員同じ問題にぶつかりました。彼らは実際にGen 4を使っているかどうかわからなかったのです。そして私は、左下隅にチェックボックスがあり、それをクリックすると説明しなければなりませんでした。そこを見てください。それはあなたが使用しているモデルを教えてくれます。
さらに混乱を加えると、画像やビデオなどをドラッグすると、それが特定の解像度を持っていたり、ビデオではなく画像を使用したりする場合、選択したモデルを自動的に切り替えることがあります。あなたはGen 4で生成していると思っていても、実際にはターボモデルを使用しているかもしれません。これらのAI企業がすべてそうであるように、彼らにはやるべき作業があると思いますが、それを心に留めておいてください。それは実験を始めるために15ドルの価値があります。ただし、使用するモデルに注意してください。
もう一つの大きなAIビデオモデルがHigs Field AIからリリースされました。これはSnapにいた人によって始められました。彼らは以前、より伝統的なテキストからビデオへのモデル、より広範なモデルを作成していましたが、彼らが特に焦点を当てたのはカメラショットです。これは多くのAI映画製作者が本当に感謝するかもしれないと思います。
彼らは、クラッシュズームやロボアームショット、頭上のクレーンショットなどをどのように行うかについての例の全シリーズを持っています。Snapの専門分野が奇妙なインスタグラムフィルターになっているのと同じように、HiFiや他のAI企業が特定のショットに特化し始め、あなたがやりたいことを行うためのツールのスイートが揃えられるのを見ることができます。Runwayやソロのような大規模なモデルから始めて、これらのツールの一つを使って特定のことをすることができます。
そうですね、いくつかのメディアが完全にAIで生成される未来があることは間違いなく地平線上にあります。しかし、そこへの橋渡しとして、最も影響力のある使用は、おそらく伝統的な映画制作をまだ行っている間に、それらのVFXショットや複雑なカメラショットを行うためにAIを活用することでしょう。だから、このようなものが存在することは理にかなっています。
何が起こっているんですか?あなたがロボットがカメラショットをするのを好きなことについて笑っているだけです。明らかにロボットが次に来て、ジムですべてのドリーショットをするのがわかりますね。何があなたに残るのか、私は決して知りませんが、それが好きです。
以前、ショーで話していた別の本当に大きなツールで、今では野生で使えるものがあります。それはOmnium Oneです。これは以前はビデオでしか見せていませんでした。これはリップシンクツールで、ケビン、私たちはこれが本当に良すぎるのではないかという場所にいました。今それは利用可能で、今すぐ一つ無料の生成を得ることができます。dream.capcut.comに行く必要があります。これは基本的にはバイトダンスからのカップカットのAIビデオサービスです。
これを試しました。ここで見せたいと思います。私はレイ・カーズワイルの写真を撮りました。私は彼の大ファンです。レイ・カーズワイルの「シンギュラリティは近い」は私に大きな違いをもたらしました。レイは今、奇妙なプレスツアーをしていて、誰も彼にタウペの髪を着けないように言わず、彼は少し変に見えていますが、非常に賢いです。とにかく、ケビン、私は彼にあなたについて特別に何か言わせました。ここで再生できますか?
これはケビンへのレイからのメッセージです。「ケビン・ペレイラ、これは私をとても怒らせます。あなたとあなたのクソ足の話。私、本物の髪を持つ本物のレイ・カーズワイルは、ここでただ世界を救っているのです。」
これはシュレックの足の写真についてですか?私はスワンプ・ストンパー2069ではありません。私ではありません。私が知っている誰かです。
ケビン、あのビデオを見るとき、私にとっては今まで見た中で間違いなく最高のリップシンクです。これはビデオから取った一枚のスクリーングラブですので、高解像度の写真ではなく、11Labsのクリップをアップロードしました。それを直接見ることができ、話す方法、口を動かす方法など、すべてが素晴らしいです。
この欠点もあります。主な欠点は、これが安くないことです。一つの無料生成を得ることができますが、もっと支払うには、それは約15分の生成ですので、バックエンドでかなりの処理をしていると思います。ハイエンドツールや、誰かがこれで何をするかを考えると、かなり意味があります。
私はAIアバターでたくさんのことをします。それは言うべきよりも影のあるように聞こえますが、すべて正当で上品な仕事であることを誓います。しかし、AIアバターをたくさん使います。そして、アバターの故障が多く見られるのはそこです。多くのぼやけがあります。歯や唇に見られることがあります。時には口でハチのようなものをすることがあります。Pやtなどの場合です。
それで、私はそれを非常に注意深く見ていました。とても印象的です。そして、言葉と一緒にキャラクターの動きを強調することを選んだ方法は、「それは非常に知的な決断をしています」というようなものでした。オーディオが怒っていることを知っていました。これは興味深いことです。
Metaがモカを発表したのを見ましたか?これは非常に素晴らしいです。このツールにそのサンダーを少し盗まれたと思いますが、それは少し異なるツールです。モカが行いたいことは、全身、または少なくとも胴体から上のアバターをプロンプトするのを簡単にすることです。
それは音声とテキストの両方でトレーニングされたモデルです。人間の動き方、ジェスチャー、特定のことを強調するために頭を動かす方法でモデルをトレーニングしたとき、彼らは言われていることの書き起こしとその音声だけでなく、離散的な動きのテキストラベルもたくさん持っていました。
その結果、単一のプロンプトから信じられる動きが得られます。キャラクターが驚いた場合、彼らはここに手を上げるかもしれません。彼らが叫んだり、宣言したりしている場合、彼らは少し信じられる方法で指さしたり、ジェスチャーをするかもしれません。彼らはハリウッドスタイルのプロンプトのギャップを埋めたいと思っています。もし彼らが実際にこれを解決できれば、AIビデオの世界はその世界になります。
私が常に考えていることの一つは、Hedraもこれを解決しようとしていますが、カメラに向かっていないキャラクター、横を向いているキャラクターです。これは少なくともビデオではかなり良い仕事をしています。
しかし、Metaはこれらの他の企業のように、これらのビデオを見せびらかすが、あまり多くのものを出荷しないという歴史があります。私はまだ待っています。私たちはみんなまだMetaのビデオモデルを待っていると思います。おそらくこれらすべてのものが組み込まれていると思いますが、それを得るかどうかはわかりません。
これらのツールをすべて見ていて、AIビデオ映画製作の世界でいかに重要な新しい仕事になるかを考え続けているのは、AIフォーリーアーティストです。フォーリーアーティストとは何か知っていますか、ケビン?
知っていますが、家にいる子供たちに教えてあげるべきでしょう。おそらくほとんどの人は知っていると思います。フォーリーアーティストとは、靴をたたいて歩き回り、セロリを見ている人々のビデオを見たことがあれば、誰かの首がへし折られたようなものです。まさにその通りです。彼らの仕事は長年、ライブアクション映画でキャラクターが何をしているかに合わせて音を作ることでした。
人々が今これに焦点を当て始める必要があると思います。なぜなら、私が見る多くのAI映画は音を十分に真剣に受け止めておらず、音は映画に没入する経験の大きな部分だと思うからです。
AIフォーリーアーティストと言うとき、11Labsのような多くのツールがあり、AIサウンドエフェクトツールがたくさんあります。これらは音を作成したり、異なるAIの場所から音楽を持ってきたりすることができます。AIの音作りが非常に上手になっている人々は、将来的に非常に重要な方法で雇用されると思います。
だから、外にいて「どうやって専門化できるだろう、どうすれば人々が将来使いたいと思うことができるだろう」と思っているなら、これは多くの人々が時間をかけて上手になり、雇用可能になる仕事のように思えます。
サウンドデザイナーは新しいポジションではありませんが、基本的にあなたが言っているのは、「ベストインクラスのAIツールを活用して、はるかに効率的になる」ということだと思います。そして、これらのビデオがすべて出てくるにつれて、音声がないために私の意見ではわずかに生命がないように見えるもの、それを見てみましょう。
また、その点に関して、誰かが場面で話しているようなAIデモをするときはいつでも、生の音声出力を使うと非常に信じられないほど変に聞こえます。少しのリバーブとEQは、部屋の音を置くのに役立ちます。少しの部屋音を入れるなど、変えることができることはたくさんあります。
それらは地平線上にある素晴らしい新しいツールであり、Omnium Oneは今すぐ試すことができます。
ケビン、他にもいくつかの非常に大きなストーリーが出てきました。まず第一に、今朝のブレーキングニュース、Metaの新しいグラスには名前があります。それは「スーパーアドバンストグラス」ではなく、「ハイパーノバグラス」と呼ばれています。このストーリーはブルームバーグから来ており、1,100ドルになります。
これは最も刺激的なバージョンではありません。グラスの片側に小さな四角い画面しか得られませんが、私たちがショーで話したリストバンドを得ることになり、それはかなり重要なUIステップアップのように感じます。
これについて興奮していますか?これは今存在するレイバンと、おそらく数年後に出てくるより大きなバージョンの間の中間ステップのようなものです。
私は絶対にこれに興奮しています。本当に、リストバンドが必要なことにはあまり興奮していません。ウェアラブルが別のウェアラブルと通信するために必要だとは思いません。それは最終的には洗い出されると思います。Vision Proは、物事を操作するために顔の前に手を上げる必要がないことをうまく実現したと思います。
私は多くの国際旅行を計画しています。もし私がメニューをちらっと見るだけで即座に翻訳されるか、誰かとインターフェースするときに彼らが言っている言葉を見るだけで、それだけでも私はそのためにドルを費やすでしょう。より安全で効果的で流動的な旅行体験のためです。
何かを見て、それに関する援助を求めたり、これは何かとか、一般的な検索をしたり、このレストランのYelpの評価はどうだろう、入りたいだろうかというようなことはすべてそこにあるでしょう。3Dの両目ディスプレイがすべて歌って踊る必要はありません。解像度が十分に良ければ、角にある単純な小さな画面は長い道のりを行くでしょう。
ケビン、あなたは「The Jerk」という映画を知っていますか?その映画で何が起こったか覚えていますか?Omni Grabのセクションを知っていますか?いいえ、覚えていません。
これは深いコメディカップです。スティーブ・マーティンの「The Jerk」を見たことがない場合、彼はその映画でOmni Grabと呼ばれるものを発明します。それは鼻の真ん中に上がる小さなハンドルで、サングラスを外すことができます。最終的に人々に起こることは、彼らが寄り目になり、それから人々はこの小さなものが原因で死にます。そして彼らは訴えられます。
小さいことについての私の考えは…質問を言い直しましょう。私は「The Jerk」を覚えていません。「The Jerk」を見たことがあることは知っていますが、全く覚えていません。
後で詳しく説明します。コメントでケビンが何を見るべきか指摘してください。とにかく、私がそれを持ち出した理由は、小さなコーナースクリーンがその答えだとは確信していないからです。それがあなたを寄り目にするとは言っていませんが、それが誰もが望むものだとは確信していません。
今可能なのはそれだと理解していますが、私があなたと話しながら何かを見下ろさなければならない世界があるとは思いません。想像しようとしています…ここであなたと話している間、何かを見下ろしているように…それが答えかどうかはわかりません。
彼らは橋を架けようとしていることを理解しています。正直なところ、私が言及した理由は、ミツバチが3匹あなたを刺しているため、エピペンが必要だからです。片目をこちらに向け、片目をあちらに向ける必要がありました。ただのチラッと見るだけです。チラッと見て、それから戻ります。
小さな箱のアイデアに納得していませんが、手首の部分は本当に興味深いです。なぜなら、AIについてどのように考えるかについて全く新しいニーズがあると思います。少なくとも、昨年人々がそれを試したときのそのものの約束は、指の小さな動きが重要なUI変更を行うことができるということでした。それはかなりクールです。
さて、今週話す必要があるもう一つの重要なことは、Claudeの背後にある会社であるAnthropicです。彼らはかなり近いうちに新しいモデルをリリースすると予想しています。彼らは新しいOpusで私たちをずっとからかってきました。彼らは実際に、AIが考えているときのAIの考えについて多くの進歩を遂げました。
これは長い間多くの人々を悩ませてきたことです。人々はそれがブラックボックスであるという考えについて話してきました。Anthropicは実際にAIがどのように物事を解明するかという考えに掘り下げました。ここでそれをどのように行ったかについての詳細には入りませんが、非常に良いビデオシリーズとブログ投稿があります。
少なくとも、AIがどのように機能するか、それらが私たちとどのように相互作用するか、そして彼らが私たちに何を選択するかを理解する、このスペースで私たちが最終的に進歩していることを認識しているべきです。これはAIの安全性に向けた非常に大きな一歩です。
Googleも今日AGIのレディネスについての大きな記事を出しました。その一部はAIの安全性、AIがどのように考えるか、そして彼らが私たちとどのように相互作用するかを理解することです。
ケビン、時々人々がこれを聞いて「あの二人はAIの安全性について気にしていない、彼らはクソ気にしていない」と思うかもしれませんが、私たちは気にしています。私たちはペーパークリップになりたくありません。Terminatorsになりたくありません。だから、私たちは気にしています。これは正しい方向への一歩です。それに抵抗することは無駄だと思いますか?確かにそうです。私たちはニヒリストですか?100%はい、もちろんですが、私たちは心から気にしています。
気にすることと言えば、ケビン、私たちはAlexa Plusを気にすべきでしょうか?これは大きなことですか?
私たちは気にするべきだと言われています。信じたいと思います。Alexa Plus、AIによってパワーアップされたアシスタントのバージョンで、多くの人がおそらく物を思い出させたり、音楽を再生したりするためにホコリまみれのパックで家中に置いています。AIバージョンがここにあります。ただし、約束されたものの完全なものではありません。
一部のデバイスでしか動作せず、個々の家族のメンバーを認識できず、GrubHubで食べ物を注文することができず、キッドモードがありません。これは今、ビッグテックがすべてのものにAIを統合しようと急ぐにつれて、共通の繰り返しになっています。少し約束しすぎるところがあります。これはAIでできることの量から来ていると思います。ビジョンの欠如からではなく、これらの時には混沌として時には雑なシステムを、異なるハードウェア仕様を持つ何百万ものデバイスのフリートに統合する現実です。簡単なタスクではありません。
しかし、Googleであれ、Amazonであれ、Appleであれ、彼らは自分自身に有利にしていません。彼らはこれらの大きなイベントを行い、そこですべてのものを紹介し、それから少しずつ、少しずつ、少しずつデリバリーを始めます。企業がなぜそうするのかは理解していますが、これはまた、人々が本当に手に入れるのに興奮していましたが、それがロールアウトされるにつれて人々は少し興奮が薄れているケースの一つです。あなたのデバイスでそれを試しましたか?
いいえ、面白いことに、あなたが今日のランダウンにこれを入れるまで、これが起こったことさえ知りませんでした。これが存在することを知りませんでした。今日試してみます。
残念なことの一つは、今のところスクリーンを持つショーデバイスでのみ利用可能なことです。前回Alexa Plusについて話したとき、私にとって最も刺激的なことは、それが私のすべてのデバイスでアクセス可能であることでした。再び、なぜそうならないのか理解できません。彼らはこれらのものをすべてクラウドで実行しており、ローカルで実行していません。
だから、Alexaでの音声のものは、ビデオのものよりも私にとってはるかに興味深いです。だから私にとって、これは少し半分の失敗ですが、今日試してみて、次回報告します。
ギャビン、あなたがやるべきことがあります。Amazon Plusは起動時にアップロードされたドキュメントを要約できるので、あなたの重要でプライベートなドキュメントをすべてそこに入れるべきです。ただし、一つ注意点があります。彼らはまだそれらのファイルをアップロード後に削除する能力に取り組んでいます。もしそれらのファイルを削除したい場合は、常にカスタマーサービスに連絡することができます、ギャビン。
おお、すごい、ケビン、もしカスタマーサービスが私に連絡を取れば、まず第一に、彼らは人々がAIでインターネット上で行ったことを見るでしょう。これは今週のAI、あなたはそこで何をしたのかが分かりますね。
まず第一に、ケビン、セレブリティ版モータルコンバット2025エディションが出ました。これは私たちのお気に入りのクリエイターの一人、インターディメンショナルTVからのものです。彼はGPT 4o IM genを使用して、80の異なるキャラクターと3.5分バージョンを作成しました。これらの最後のものとして、すべての種類の楽しい小さなジョークがあります。新しいJDバンス、頭の上にマインクラフトのものを持つジャック・ブラックなど、これは毎回現れるのを見るのが大好きな本当に楽しいフォーマットです。
これらのツールすべてでの進歩をベンチマークする簡単な方法でもあります。そして、ビデオはますます印象的になっています。実際の戦いのゲームプレイを見るまでそれほど時間はかからないでしょう。おそらく、バイブコードされたモータルコンバットで、ほぼ即座にテイクダウン通知を受け取るでしょう。
それについて考えるべき興味深いことは、そうすると、私たちはパロディ法について考え始めなければならないということです。もしあなたがメディアを作成したことがあるなら、特に支払いをして作成したことがあるなら、あなたはパロディ法について理解していると思います。
特定の方法でそれを行えば、これが適合する世界があると思います。パロディ法は、あなたがパロディにしている人に対してコメントをしているかどうかについてのものです。そして、ある意味では、それが当てはまると主張することができると思います。
次の質問をしたいと思います。もし人間とAIが団結したらどうなるでしょうか、ギャビン。これは多くの人が私に送ってきた短編映画で、それは一日前に落ちました。「Age of Beyond」は短編で、人間と機械がうまく協力し始めたら、SF的なユートピアはどのようなものかの例です。どのように他の惑星を植民地化するのかについてですが、あなたが前に言ったように、素晴らしい音声、素晴らしいサウンド、素晴らしいサウンドデザイン、それは本当にあなたを現実に引き寄せます。
そして、AI画像生成とビデオ生成が組み合わさって、トレーラーを形成し、「私はその世界が好きだ、そのような世界に根ざしたものを見たい」と思わせるようなものです。IPをテストする素晴らしい方法です。
私がこれについて考えたことは、それは本質的に人間が行く異なる場所のリストのようなものであり、それは見るのにとても魅力的なことです。「このストーリーを見たい、この人がストーリーをこのようなものに変えるのを見たい」と思います。これはほとんど人間の未来のコマーシャルのようなものですが、非常によく作られており、この人物がスキルをトップレベルでコントロールしていることが明らかです。
スキルをトップレベルでコントロールすることと言えば、Hario Abadというエックスユーザーからの本当にクールなビデオがあります。彼はCurious RefugeのAI映画祭に提出するのに3日間しかなく、私が思うに非常に魅力的で意味のある映画を作りました。それはほとんどクレイメーション風のスタイルで、非常に良く、見る価値があります。それはAIに仕事を奪われるかどうかについてですが、そこには感情があり、このキャラクターとつながりを感じます。そして、創造的なストーリーテラーによって非常に速く何ができるかの本当に良い例だと思います。
非常に素晴らしいです。また、非常に楽しいバイブコードされたGemini 2.5デモもあります。後でGemini 2.5について少し話します。基本的に、画面上の線で遊ぶことができ、絵文字が落ち、線に跳ねたり、跳ね回ったりすると、異なるサウンドキューが発生します。何年も前にNintendo DSゲームがありましたが、基本的にこれを行うことができました。でも今や誰かがブラウザでコード数行で構築しています。
このバイブコーディングは非常に興味深いので、注目してください。以前、levels IOについて話しましたが、彼のVibe Jamがもうすぐ開催されます。1000人以上の人が提出したと思います。だから、すぐに見られる本当にクールなバイブコードゲームがたくさんあるでしょう。
もしあなたがバイブコーディングをしていて、このショーを聞いているなら、私たちにぜひあなたのものを共有してください。XでもDiscordでも、私たちはいつもそれを見るのが大好きです。私たちのDiscordはショーノートで見つけることができます。参加したい場合は無料です。私たちはそこにいることが多く、そこで過ごしています。作品を共有したり、AIのことについて話したりする、本当に素敵な小さなコミュニティがあります。
AIのことについて話すと言えば、ケビン、私が作ったこのビデオについて簡単に話したいと思います。そして、あなたがGemini 2.5で何をしたのか聞きたいと思います。私もそれを少し試して、本当に興味深いと思いました。
先週、40が出たとき、ショーの後、多くの人がものを素早くまとめて何かを作り、それを出しているのを見ました。そして私は、実際の画像を取って、それらを異なる種類のものに変換し、それから作成するにはどうすればいいかという考えに本当に興味を持ちました。
私はウラジミール・ゼレンスキーとトランプの記者会見、これは非常に有名な行ったり来たりの瞬間でした。そして、「これをロボットチキンスタイルのものに変えよう」と言いました。基本的に、私はそれらの人々のスクリーンショットを撮り、GPT 40にアップロードし、「これを、おもちゃのように見えるもの、あるいはこの種のスタイルのものに変換してほしい」と言いました。
そして、かなり良い例を得ました。私が得たものを画面に表示します。おもちゃというよりは人形に見えるゼレンスキーを得ましたが、非常にクールに見えるトランプのおもちゃを得ました。それから、もし長い髪と髭を持つJDバンスのミームを見たことがあれば、その画像を取って「これをおもちゃに変えて」と言いました。そして、いくつかの編集を使ってそれらをすべて一緒にして、それは非常に面白いものになりました。
それがうまくいくとは思っていませんでしたが、結局TwitterやXでたくさんのいいねを得て、TikTokでは爆発的に広がりました。私たちは今、私たちがやっているようなランダムなものをアップロードしている二番目のTikTokチャンネルを持っており、TikTokで10万ビューを持っており、人々はただ興奮しています。
悲しいことにケビン、これはもはや可能ではないと思います。ショーの冒頭で話したように、私がやったことは実現可能ではないと思いますが、それは本質的に30分だけで、非常に面白く楽しいものを一緒にどれだけ早く組み立てることができるかを示しています。
しかし、もしあなたが創造的にプロンプトを調整すれば、いくつかの制限を回避できると思いますか、それとも既知のベースを使用している画像を使用している場合、方法はないと思いますか?
別の経験を持ちました。有名なマイケル・ジョーダンのミーム、「そして私はそれを個人的に受け止めた」と言うミームを知っている人がいたら、最初に人形バージョンを作るように頼んだとき、それは拒否されました。
そして、「でも、マイケル・ジョーダンではない、Muppetバージョンを作ることができます」と言いました。それは、ここに示しますが、オレンジ色で見え、クレイジーな髪を持つマペットを作成しました。「素晴らしい、そのマペットをアフリカ系アメリカ人にしてください」と言いました。「わかりました、やります」と言い、それをやりました。彼が手を下ろす、同じショットの背景、まさに同じように見えます。そして「テキストを戻してください」と言って、テキストを戻しました。そして私のミームを得ました。
だから、回避する方法はありますが、それは月曜日に行ったので、利用可能なものと利用不可能なものに基づいて、現在のラインがどこにあるのかわかりません。
とにかく、クールなことは、そのようなことをしようとしていなくても、イメージゲンと利用可能なツールを使用して、これらの小さな種類のビデオを作成する非常に速い方法があるということです。
Gemini 2.5 Proであなたの経験はどうでしたか?
正直なところ、かなり良かったです。詳しく話すつもりはありませんが、RedditでGemini 2.5 Proのプロンプトを共有した男を見ました。それによって基本的に小説を作成することができました。それはかなり魅力的で、私はそれを試してみたかっただけでした。それはうまくいきましたが、ケビン、これについて昨日ツイートしました。
私はGemini 2.5を使用して、私たちが取り組んでいる秘密のスタートアップを手伝ってもらえるかどうか見ていました。そして奇妙なことに、なぜこれが起こったのかわかりませんが、毎回質問するために非常に長いプロンプトを追加し、ファイルをアップロードすると、まったく関係のない結果が返ってきました。
一度は何時かを教えてくれ、別の時はスプラウツマーケットがいつ開くかを教えてくれました。スプラウツマーケットは行かないし、誰が聞いているのかわかりませんが、それは私ではありませんでした。それはソースドキュメントのどこにもありませんでした。どこにも、ゼロです。スプラウツは私が望んだものの一部ではありません。だから、まだ質問に答える方法を理解していないのかもしれません。あなたの経験はどうでしたか?
私の懸念は、それはクロスコンタミネーションなのか、それともリークなのか、それが今まで見た中で最も非難に値することではないのか?それは私にとって非常に懸念されることです。
うわー、私はその経験はありませんでした。私は私たちの小さな超秘密のサイドハッスルのためにカーソル内でそれを使用しており、コーディングしていました。私はたくさんのClaude 3.7、彼らの思考モデル、または最大思考時間のためのマックスモデルを使用していました。クラウドモデルが一つのタスクを取得し、アプリケーション全体を再配置し、あなたが求めていないたくさんのものを追加するので、Gemini 2.5 Proに切り替えました。
2.5はそれをしませんが、私にとって本当に興味深かったのは、2.5の2つのインスタンスを互いに対立させることでした。そして、それは多くのロードブロック問題を解決するのに役立ちました。
例えば、バックエンドのようなサーバーのことと、アプリケーションやウェブサイトのようなクライアントのことを扱っている場合、そのインターフェースを2つの異なるものとして、2つの異なるチャットの歴史を持つエンジニアとして開いています。
私は「私はこのビルドでかなり複雑な問題を解決しようとしています。だから、私たちのバックエンドエンジニアに宛てたメールを書いてください。なぜあなたが問題が彼らの側にあると強く感じているかを説明し、それがあなたの側にないことを確認するために行ったすべてのことを徹底的に説明してください」と言っています。
そしてそのエンジニアはメールを書きます。「親愛なるエンジニア、これが私の考えです。コードからのサンプルがあります。」などと書き、私は彼らを行ったり来たりさせ、すべての問題を解決することができました。彼らの副会話を見て、彼らが私とチャットする方法を見るのは、この偽のプロダクトマネージャーのギャビンのように、「ボブは今日何をしているのか、なぜ彼は再び私の仕事を台無しにしているのか、ケビン、ボブが私の仕事を台無しにするのをどうやって止めればいいのか」というものでした。「BS、私はBS呼びます、これはフロントエンドにあります、彼はどうやってそれを敢えてするのか、彼らはどうやってそれを敢えてするのか」。
興味深いですね、あなたは基本的にこれらのAIマネージャーのマネージャーになります。そして、これらのモデル内にはとても多くの知性があることを再び認識させます。考える時間を与えるとより知的になります。
これはその別のレベルです。彼らがより速く、より効率的になるとき、特に彼らをローカルで実行できるとき。もし私が家に素敵なサーバーを買って、強い知性を実行できれば、プロンプトを設定して10分、15分、たぶん1時間離れて、AIが戦って、それが機能してテストされ、良くなるまで作業させることができればいいのですが。
能力はありますが、インターフェース、時間、お金を知性から取り出し、コンピュートがあるだけです。そんなに長くない前に、論文を見ました。それは、思考モデルの複数のインスタンスを同時に設定すると、彼らは常に同じではないので、より良い結果が得られるという考えを暗示していました。
コンピュートが問題であり、私たちはすでに端に押し上げています。これはすべて、スターゲート、5,000億ドルのイベント、すべてのサーバーがあらゆる場所に構築されていることが大きな問題である理由を説明しています。次回はすべてそれに入ります。
いつものように、AI for Humansを聞いてくれてありがとうございます。あなたたちは最高です。あなたが私たちを愛するとき、私たちはあなたを愛します。来週またお会いしましょう。AI for Humans.showに行って、ニュースレターにサインアップしてください。さようなら、さようなら。

コメント

タイトルとURLをコピーしました