OpenAIのo3がここに。あなたより賢く、そして目を持つ。

AGIに仕事を奪われたい
この記事は約38分で読めます。

22,730 文字

OpenAI’s o3 Is Here. It’s Smarter Than You. And It Has Eyes.
OpenAI’s o3 and o4-mini are here—and they’re multimodal, cheaper, and scary good. These models can see, code, plan, and ...

OpenAIは今週、効率的にコーディングし画像で思考できる新しいモデルをリリースして完全に支配しました。そう、o3と04 Miniが正式に登場したのです。ケヴィン、チャートが出ていましたね。チャートのチャートを見ましたか?これらのモデルはあらゆる面で優れており、はるかに安価です。しかし、マルチモーダル推論が実際に大きな進展である理由を説明します。
私が思うに、より大きな問題は、誰もがペットを人間に変えていることであり、それを止める必要があるということです。このような愛らしいペットを作りたいか、不気味なものを作りたいかにかかわらず、私たちは40 Image Genからの最高の画像プロンプトを共有します。映画のモンスターを可愛い子供のスターに変える方法も含めて。見てください、ケヴィン。ピンヘッドを見てください。いやいや、それは望まないでください。
さらに最先端のビデオモデル。Cling 2.0とV2を手に入れました。これらは広く利用可能になっています。これが皆さんにとって何を意味するのか詳しく掘り下げます。そして無料でコードを作成する方法もあります。ただし今すぐ行動してください。今週限りです。数量限定です。
さらに、ジェームズ・キャメロンが私たちの肉のコンピューターについて意見を述べ、AIがイルカと会話する方法も紹介します。イルカに謝罪する必要があるでしょう。ちなみに、イルカの言葉で何か間違ったことを言いました。イルカにキャンセルされる可能性がありますよ。どこかでエッコーが丁寧な言葉で抗議文を書いているでしょうね。
ちなみに、パニックする必要はありませんが、GoogleのエリックシュミットCEO元CEOは基本的に人間は終わったと言っています。ケヴィン、まあまあ、彼が正確に言ったことではありません。私たちはここでハイプビーストになりたくないんです。それはハイプではないと思います。彼が基本的に言ったことはそれだと思います。いや、彼の言葉を確認しましょう。
「コンピューターは今、自己改善をしています。計画の仕方を学んでいて、もはや私たちの言うことを聞く必要はありません。このことが起こるとどうなるのか、言葉はありません。」
ケヴィン、私たちは終わりましたね。これはAI料理された人間のためのものです。
さて、ケヴィン、私たちが待ち望んでいた日が来ました。o3モデルが登場します。うーん、私たちはこれをしばらく待っていました。昨年12月にこれらのモデルが発表されたのですよね。ガヴィン、私はOpenAIのアドベントカレンダーからのチョコレートでとても満腹です。毎日起きて、それをめくります。どこでそれを見つけたのですか?ドルストアで?ドルストアはまだ今年の2月にそれらを持っていました。そう、私はDollar Generalで買い物をしていて、驚くべきことに彼らは大規模言語モデルに非常に熱心です。いいえ、何を手に入れたのか、ガヴィン?o3、04 mini、そしてGPT 4.1を手に入れましたが、それは何年も前のようですね。それは月曜日でした。
しかし、o3モデルアップデートから始めましょう。それが最大の話題だからです。o3はOpenAIの最先端の推論モデルです。これは今日、プロとプラスユーザーに提供されます。このモデルには大きな特徴がいくつかあります。
まず最初に知っておくべきことは、これが全体的にはるかに優れたモデルだということです。冒頭でチャートについて冗談を言いましたが、ベンチマークはすべて公開されています。ここにいくつか表示します。特に数学と科学の分野でパフォーマンスが大幅に向上していることを知っておいてください。
私自身、バイブコーディングをあまりやったことがない人間として、コーディング面が本当に興味深いと思います。また、ここで認識しておく必要があり、おそらく最も注目されるのは、マルチモーダル推論の機能を持っているという事実です。
ケヴィン、一般の人々にこれが何を意味するのか説明して翻訳してみましょうか。彼らはブログ投稿で発表し、ニュース記事はこれらのモデルが「画像で考えることができる」という見出しで報じました。これは入力と出力の両方に関わります。「でも前にも見たことがあるのでは?」と思うかもしれませんが、確かに他のモデルでもできますが、これはさらに優れています。チャートのチャートを見ましたよね?
つまり、黒板のスケッチや、裏返しでぼやけたPDFを与えることができます。ちなみにこれは彼らが指摘している点ですが、このモデルにとっては問題ありません。解決できます。デスクトップやコンピューターコードのスクリーンショットを与えるのと同じくらい簡単です。画像を取り込み、ぼやけていたり品質が低くても賢く分類し、結果を吐き出すことができます。
そしてその結果も画像ベースになる可能性があります。あなたが考えてほしい問題を合成した論文の形で結果を得ることができ、それに合わせていくつかのチャートやイラストも提供できます。
今日のデモは非常に技術的でした。もし詳しく知りたい場合は、ケヴィンが話していたことを指摘したブログ投稿がありますが、コピーを見てフリップオーバーできるというこのアイデアは興味深いです。
彼らはそこで非常に面白いことをしていました。基本的に彼らは遠くから誰かの他のノートを盗み見るようなことをしていました。テーブルの向こう側から写真を撮ったようで、ノートが裏返しになっています。文字が逆さまになっているのが見えます。彼らは「これは何と書いてあるか教えてくれますか?」と尋ね、このブログ投稿ではその全過程が見られます。それを裏返し、学習し、そして言葉が何を言っているかを示す画像を生成します。
これは本当に大きな進歩です。考えて推測できることは、ただ写真を入れてジブリ風の画像を得るだけではなく(それも楽しいですが)、実世界の様々なことができるようになります。
また、ケヴィン、私は40 Image Genがまさにこの理由からこれを少し取り入れているか、あるいはこれが40 Image Genを少し取り入れているのかもしれないと思います。いずれにせよ、今後数か月以内にこれらすべてをGPT5の名のもとに統一するという目標があることを知っています。私たちやこれを聞いている皆さんが、最適な使用例に合った正しいモデルを見つけるためにドロップダウンから探す必要がなくなり、自動的に行われるようになります。
サムも「それで私を笑いものにしてください」と言っています。そう、サム、私たちはまさにそれをするためにここにいます。
これは多くの理由で私をワクワクさせます。私は写真を撮って「ジョン・カーマックは私のことを何と思っているのか」と言い、ブラインドが邪魔をしていて彼の顔の一部しか見えないような近未来が大好きです。答えは彼はあなたのことを全く考えていません、ケヴィン。彼はOpenAIのことを考えています。OpenAIがそれに意見を言う方法はありません、ガヴィン、ありがとう。
しかし第二に、拡張現実の未来、私たち全員が歩き回ることになるこれらの眼鏡のために、宇宙が常に見ているものをきれいで読みやすく、正しい向きで、傾いておらず、ぼやけておらず、まぶしくない状態で提示するわけではないという考えは、実世界ではありません。モデルが問題のある画像を解読する能力がより高くなることは、本当に興味深くなります。
このモデルについてのもう一つの簡単なことは、o1モデルを完全に置き換えることです。これは興味深いことです。ただし、o1 Proユーザーの場合、まだo3 Proがないので、それは少し後で来ると言っていました。
また、かなり大きなコーディングアップデートもあります。これは非常に技術的なことですが、基本的にコーディングターミナル内で直接使用できるターミナル内コーディングエージェントを導入しています。それでいいですか?
そうです。これはclaude codeや他のオファリングと競合するものだと思います。しかし、これはオープンが「ヘイ、開発者、あなたのコードベースで私たちと一緒に働きましょう」という水域に直接足を踏み入れているのです。
まず、これはcodeexと呼ばれています。実際にはコマンドラインエージェントです。これはオープンソースで、他とは異なります。ダウンロードして、修正して、コミュニティと一緒に改善を手伝うことができます。
彼らはいくつかの興味深い例を示しました。完全自動モードで実行できます。何かを開発したい場合、例えばビジネス用のウェブサイトを作りたい場合、あるいは彼らが行ったように、AppleのPhoto Boothを一発でコピーしたい場合などです。
Photo Boothの写真を与えました。ご存知ない場合、Photo Boothはウェブカムを起動し、ビデオフィードにリアルタイムで実行される様々なフィルターやエフェクトを選ぶことができます。かわいい写真を撮ることができます。これは知っての通り、初期の頃、スナップチャットフィルターの前に大流行しました。
要点は、Photo Boothがどのように見えるかのスクリーンショットと、数文の説明を取り、「これをブラウザで再作成してください」と言うと、一発でそれを行います。カメラが起動し、すべてのエフェクトがあり、Photo Boothの出来上がりです。
バイブコーディングや水面下に足を突っ込むということについて話すとき、コマンドラインを通じてそれを行うことは、私が言うなら排除されています。より効率的ですが、バリアは他のツールよりも少し高いです。それはまだ高いバリアですが。
OpenAIが皆を参加させるために行っている可能性のあることについて、後で少し話しますが、これは素晴らしい発表でした。少しオタク向けですが、私はそれにワクワクしています。彼らがこの分野に進出していることをうれしく思います。
o3の話を締めくくるために、「天才レベル以上」というのは、ガヴィン、あなたが私に指摘したように、サム・アルトマンがリツイートしたものですね。
これは医師からのものです。彼はこの会話の一部であり、しばらくo3を使用していました。実際、o3が発表されたとき、彼はすでにアクセスを持っていたと思います。これはDaria Unamat MDで、ダリアさん、名前を間違えていたらごめんなさい。
彼のツイートから私が興味深いと思ったのは、これがサムがリツイートしたものですが、彼は言いました、「o3に難しい臨床または医学的質問を投げかけると、その回答はトップサブスペシャリスト医師から直接来たかのように聞こえます。正確で、徹底的で、自信を持って証拠に基づき、非常にプロフェッショナルです。」
また、「決して幻覚を見ることはなく、その新しいエージェントスタイルのツールは複数のステップのタスクを難なく処理します。」と言っています。
これはハイプビーストの人のように聞こえますが、これは実際にこのツールを使って時間を過ごしている医師です。これから得られる教訓は、数日前に情報誌に掲載された素晴らしい記事があり、これらの情報の一部が少し漏れていました。
今日のライブストリームでグレッグ・ブロックマンが最初に言ったことの一つは、これは「良い、有用な、斬新なアイデア」を生み出すだろうということでした。ここで「斬新な」という言葉に注目したいと思います。なぜなら、この場合の「斬新な」は「新しい」、つまり人々がまだ考えていないものを意味するからです。
それが推論が私たちをもたらす可能性のあるものです。過去には多くの人が「AIは決して新しいものを思いつかない」と言っていました。現在、実世界には、これを使用していて、それが実際に斬新なアイデアを生み出していると言っている人々がいます。
実際、非常に有名な経済学者のタイラー・コーエンは昨日、次のモデルが出てきたとき、それらは彼よりも賢いと信じていると述べました。
これは、実際にそれらを手に入れて試してみるまで、そしてハードコアのコーディングや数学ベースではないものでそれらを使ってみるまで、私たちは確実に知ることができない、現実世界の観点から考えると興味深いことだと思います。
でも、ケヴィン、私もこれで変わった創造的なことを試してみて、何ができるか見るのがとても楽しみです。イーサン・モリックはこれを使って、宇宙での戦いを文書化したり、SFエピックでのことなどの例を持っていますが、それは私たちがそれを手に入れて、o3が斬新な観点から何を本当に解明できるのかを見るために実際に試すところだと思います。
小さな脳で理解するのも難しいですが、ある朝起きて、これらのモデルが文字通りあなたよりも賢くなっているとき、何が起こるか考えたことがありますか?
彼らはすでにあなたや私よりも賢いと思います、ケヴィン。そして、レベルを言えば、これはコメディショーで、ガヴィンは冗談を言っているだけです。でも、考えるのは難しいですね。考えるのは難しいですが、2037年までにはそこに到達するかもしれません。
また、今日の「RAM」は、04 miniが出るということで、これも楽しみですね。これはRAMでもありません。まだ非常に素晴らしいです。これは最初の04モデルです。最初の04モデルです。効率的でコスト効果が高く、スピードとスケーラビリティのために設計されています。
しかし、o3リリースの文脈でこれは何を意味するのでしょうか、ガヴィン?どちらを愛すべきなのか、私はひとつしか好きなものを選べません。
それは実際にあなたのユースケース次第だと思います。04 miniはおそらく以前のo3 miniのように動作するでしょう。コーディングをしていた多くの人々はそれが非常に有用だと感じました。いくつかの人はそうでした。また、これは安価で、物事をずっと速く実行できます。
実際に自分で深く掘り下げるまで、何に優れているかは分からないと思います。しかし、それは次のステップのように感じます。私にとって非常に奇妙なことは、ケヴィン、彼らはこの04 miniをリリースしたにもかかわらず、04製品についてまったく話さなかったことです。
それで、これは本当に04 miniなのか、それとも03 Mini Plusのようなものを見ているのか、名前の付け方が変だと感じます。知るのは難しいことです。私はここで苦労しています。なぜなら「O」という名前はどこにあるのかと思うからです。そう、それはクールエイドモデルで、私はそれが欲しいです。
「チャチBT」に行って「オー、イェア、アルトマンがたった今オー、イェア・ミニをリリースした」と作成したいのですが、それは単一のレンガを突き破るタイニー・クールエイドに過ぎません。
話は変わりますが、Apple TVで「The Studio」を見ていないなら、素晴らしいですよ。そこにはクールエイドに関する非常に面白いサブプロットがあります。
GPT 4.1について手短に話しましょう、ケヴィン。これは月曜日に出たものですが、これは何で、主にAPIにありますよね?
月曜日は一年前のようですが、はい、これは月曜日に出ました。これはAPIアクセスで、chatgptに行ってそれとインターフェースしようとしても、できません。しかし、彼らは4.1からの多くの機能が実際に現在利用可能な40モデルに組み込まれていると言いました。
OpenAIは彼らのモデルと命名、そして機能の組み込みについて多くのことをしています。基本的に、これは非常に能力のあるモデルですが、コード生成に特化しています。
私たちはベンチマークについて話すのが好きです。なぜなら、線が上がるのを見るのは、これらの物事が良くなっていることを示す簡単な方法だからです。しかし、今のところ正確にベンチマークされていないものの一つは「雰囲気」です。つまり、これらのものの実際のユースケースやそれらとインタラクションする感じ方です。
4.1の発表の際、彼らはWindsurfのクリエイターの一人を招きました。Windsurfは、AIとエージェントの力を使ってコードを作成できるプログラムです。彼が言ったことを少し再生します:
「実際に我々が発見したのは、GPT 4.1は変質行動の事例が大幅に少ないということです。ここで例を挙げると、GPT 4.1は他の主要モデルと比較して、不必要なファイルを読み込む必要がある回数を40%削減することがわかりました。また、他の主要モデルと比較して、不必要なファイルを変更する回数も70%減少しています。」
思春期を乗り越えたんですね、もう変質行動はありません。そうですね、それらの数字はそうです。これらはより大きな数字ですが、これらが重要な数字です。なぜなら、これらのツールを使い始めると(そして私たちは皆さんに奨励しています)、プログラムを作る、アプリを作る、携帯ゲームを作るなど、何をしても、不必要にファイルを呼び出す回数が多いほど、コスト、時間がかかり、変更する必要のないファイルを変更することによってエラーが発生しやすくなります。
これらの簡単な声明は過大評価できないと思います。これらは大きな問題です。逸話的に言えば、私はすぐに4.1を使って、Claude 3.7とGoogleのGemini 2.5 Pro(これらは競合他社の最先端モデルです)の両方が苦戦していた、あなたと私が取り組んでいるアプリの小さなエラーを修正する問題を投げかけました。4.1はすぐに、非常に素早く解決策を認識し、コードを書き、それは機能しました。純粋に逸話的ですが、それは素晴らしいことでした。
これらのものは毎日良くなっています。
速報です、ケヴィン。Windsurfの話に関連して、ブルームバーグは現在、OpenAIがWindsurfを30億ドルで買収する可能性があると報じています。ケヴィン、30億ドル!それはスターゲートのネジのようなものです。彼らにとっては何でもありません。
それがすべてだなんて面白いですね。この話は文字通り数分前に出たばかりです。Windsurfは、私が言うところの3〜4の大きなバイブコーディングプラットフォームの一つです。本格的なAIコーディングプラットフォームで、カーソルやラヴァブル、あるいはボルトなどの他のプラットフォームと同様です。
もし彼らがWindsurfを社内に取り込むなら、o3や04 miniのようなツールで何ができるか、そしてそれを直接そのツールに統合して「chatGPTコード」などと呼ぶことができるのは、非常に興味深いことだと思います。
ですから、それもまた起こった大きなことです。ますます狂っていっています。この400億ドルのうち30億ドルがWindsurfに向かうようですね。
簡単に言えば、バイブコーディングを試してみたい場合、WindsurfとCursorはダウンロードできるプログラムです。始め方についてはYouTubeを見てください。彼らは基本的に1週間無料で4.1アクセスを提供しています。そこに入って、好きなだけアイデアをマシンに詰め込み、それがどのように機能するかを学び、壮大に失敗し、また失敗し、そして最終的に解決策にたどり着くことができます、ケヴィン。そうです。
私は自分でこれらのツールについてもっと学ぶのが本当に楽しみです。私はそれらに飛び込んでいくつもりです。それらについて学ぶとき、アメリカが子供たちがこれらを理解するのを助けるという最前線にいることは明らかです。
最近、アメリカ政府の誰かが教育会議で次のように述べました:「今朝聞いた手紙や報告書ですが、ソースを思い出せませんが、ある学校システムが1年生や幼稚園児でさえも、その年齢から始めて毎年A1教育を確実に行うようにするつもりだということです。」
ちょっと待ってください、すみません、ガヴィン、それはきっと教育長官のリンダ・マクマホンだったと思います。それはただの、もっと多くのことがあると思います。それはただの素晴らしいことです。子供たちはスポンジのようなもので、すべてを吸収します。
そう、そんなに昔ではありませんでしたが、私たちの学校にインターネットを導入するつもりだったときのことを考えてみましょう。さて、今度はC A1をやりましょう。誰かリンダ・マクマホンにセリフフォントを与えてください。今後これが起こらないようにする必要があります。
それは人生をとても簡単にするでしょう。今後AIという言葉を言うフォントを決めましょう。そして、ケヴィン、私が本当に好きな別のフォントは「AI for humans」のフォントです。なぜなら、YouTubeチャンネル、ポッドキャスト、ウェブサイト、ニュースレターでそのフォントを見る必要があるからです。
YouTube チャンネルを購読してください。YouTubeで見ていない場合は、そちらをチェックしてください。YouTubeで見ている場合は、私たちのオーディオをチェックしてください。両方を聞いていて、YouTubeにもいる場合は、ウェブサイトにもいるべきですし、週に2回発行されるニュースレターも読むべきです、ケヴィン。私たちはすべて家にいる人々のためにやっています。そして、実際にあなたなしでは私たちはできません。だから、時間があればシェアしてください。私たちが作るものの中であなたが好きなものを共有してください。
ねえ、ガヴ、毎週YouTubeのコメントで誰かが「これは私の一週間で最高の部分です。あなたたちがやっていることが大好きです。このショーが大好きです。このチャンネルがなぜ1000億ビューを持っていないのか?」と言っているのを見ます。ケヴィン、それは私です。それは私が言っているのです。ああ、そうですか。まあ、それならあなたが責任を負います。なぜなら、答えはあなたが人々に伝えなければならないということです。私たちは怠けていて、リソースが制限されています。どうかお願いします、そしてありがとうございます。
そして、もし私たちを助けたいなら、Patreonにチップ入れがあり、そこに少しお金を入れることができます。しかし、いつものように、私たちを見てくれてありがとうございます。私たちはこれを作るのがとても楽しいです。本当にありがとうございます。
さて、ケヴィン、OpenAIの議論の次の部分に移りましょう。これは大きなものです。ここにはいくつかのストーリーがあり、それらは一緒に結びついています。そして、私たちは皆さんと共有したい本当にクールな40イメージジェンプロンプトについて話します。
まず第一に、The Vergeからの記事があり、ChatGPTがソーシャルネットワークの立ち上げを検討しているとのことです。画像を中心としたものです。これについてのあなたの最初の考えは何ですか?
何兆万長者間のマルチ十億長者間の三目並べゲームは、それが私が呼吸する空気や私が飲む水に影響を与えない場合、見るのに最も楽しいです。それが楽しくない多くのシナリオがありますが、これはイーロン・マスクやTwitterに対する素晴らしい一撃です。なぜなら今、私はTwitterと呼び直しています、ガヴィン。それは早い復帰でした。
TwitterとMetaには、リアルタイムの情報の流れがあります。OpenAIもそれを持っていますが、人々が彼らの考えをchatGPTに入力するという文脈でのみです。彼らは会話、人間から人間へのリアルタイムの反応を持っていません。彼らはモデルが少し古いため、ウェブを検索できるまで速報ニュースの場所ではありません。
だから私は、彼らの会社はリアルタイムの会話へのアクセスが必要で、MetaやXができるように、それから学習できるように、皆がそれらのことを彼らのプラットフォーム上で行うことが必要だと思います。
あなたがそのように言うのは面白いですね。なぜなら、私はそのようには考えたことがなかったからです。私が思うに、彼らが今のところ話しているのは、それが画像ベースになるだろうということです。しかし、それは良い点です。
私がこの件で考えていたもう一つの側面として、40イメージの生成を大量に行ってきた人として、モノを作る人々のフィードをフォローしたいと思っています。そして、私は人々が「なんて馬鹿げたアイデアだ。私たちは別のソーシャルネットワークを必要としない」と言っているのを知っていますが、これは実際に意味をなす可能性のある組織的なアイデアです。
なぜなら、後で話しますが、Soraからのユーザーから見つけたいくつかの本当に楽しいプロンプトのように、私はそれらの人々をフォローすることができたり、彼らがそれを行うという事実が好きだからです。
今、私はSora上の画像に「いいね」を付けることができ、もし作成した画像があれば、それが何「いいね」を得たかを見ることができますが、それは公開表示のようなものではありません。
そして、実際に賢い人がそこにいて、おそらくこれはOpenAIがクリエイターに支払いを始める方法かもしれないと言いました。なぜなら、私たちが知っているように、TikTokやTwitterなどのすべてのソーシャルプラットフォームには、コンテンツ作成のペイメントを共有する方法があるからです。それらは巨大ではありませんが、それは彼らが作るこれらの製品からの収益をクリエイター自身と共有するドアを開く方法かもしれません。
私は注意しますが、私のカスタムchatGPTからの収入で3台のサイバートラックを買うことしかできませんでした。彼らは私たちにデータをすべて与えて、これらのカスタムチャット体験を作った時、私たちが非常に裕福になると言っていましたが。
画像は氷山の一角だと思います。もし彼らがこの方向に進むなら、これは最終的に完全なるソーシャルネットワークに成長すると思います。しかし、同様に、クリエイターをフォローし、彼らのプロンプトをリミックスしたり、そういったことをしたいと思います。
そして今のところ、Soraの体験はメインページではほぼそのように感じますが、一度深く掘り下げると、それは崩れてしまいます。コメントも、ランキングも、何もありません。
しかし、従来のソーシャルネットワークの面では、ガヴィン、あなたがこのように感じるかどうかはわかりませんが、私はXで、そして時にはthreadsでも見る会話が、デフォルトでボットだと思っています。私はそのように感じます、ちなみに、私はあなたがそのように感じることを知っています。
それは興味深いですね。それはあなたのインタラクションと、あなたのハンドルがどれだけ大きいかによると思います。なぜなら、Xであなたはかなり大きなハンドルを持っているので、おそらくかなりのボットエンゲージメントを得ていて、私にとっては同じではないかもしれません。
興味深いのは、あなたが何をボットとして見ているのか、何をボット応答として見ていないのかを掘り下げてみたいと思うことです。なぜなら、私はまだそれらがどのように感じるのか、そしてそれらがどれほど本物なのかについて本当の感覚を持っていないからです。私はボットが何であるかを見分けられるはずだと思いますが。
しかし、それでも、いずれにせよ、ソーシャルネットワークは今後そのような問題を抱えており、私にとって最大のものは発見についてだと思います。なぜなら、先ほど言ったように、私たちはこれらのプロンプトに入って、それらが興味深い理由について話すつもりだからです。そして、その多くは発見に関するものです。
この話に深入りするために、Soraのホームページは今、画像タブや探索タブをクリックすると、私はあらゆる種類の魅力的なプロンプトを発見してきた場所です。そして、私が見つけて共有した先週話したものの最大のものですが、今からいくつか紹介します。そしてこれが創造性が発見される方法です。時には他の人のものをリミックスして、次のレベルに持っていくことです。
Soraでは、そのホームページに行ってこれらのものを見つけることができ、私はペットから人間へのプロンプトについて話したいと思います。おそらくこれから始めるべきでしょう。なぜなら、これは完全に主流になったからです。ニューヨークポストにまで載りました。これは私にとって面白いことです。
これを見ていない場合、これはあなたの犬の写真を撮って、それを人間に変えることができるものです。私はXで、オーリーという私の犬の非常に面白い写真を共有しました。オーリーはフィッシュというバンドのベーシストのように見えました。それがおかしかったです。
ひげを生やしたこの種の男で、そこにいました。面白いのは、彼を見つめている写真を撮り、それから彼が私のダイニングテーブルにいたとき、彼を見下ろしたとき、それはただの男の頭がそこにあるという同じ男を維持していたことです。これは完全に主流になりましたが、あなたはこれを興味深い方法で反転させることができました。
超すごいです。そして、だから私たちは何かに触発されて、それをリミックスすることについて話しています。私は同じプロンプトを取りました。私は私の小さなウェズリー博士を人間に変身させ、それが彼を私がずっと少なく好きになるようにしました。それは悪夢のようでした。
しかし、私は基本的にプロンプトを反転させて、「この人間を動物キャラクターに変身させ、毛皮、耳、ひげ、鼻、尾などの動物の特徴ですべての人間の特徴を強化してください。個性と認識できる特徴を保持してください」と言いました。それはみんなが自分のペットを人間に変えるために共有していたのと同じプロンプトでした。
そして、私は友達を動物に変え始めました。それから、有名な映画のシーンを動物に変え始めました。私はグッドフェローズのポスターを手に入れ、それは皆のために異なる動物の種類を選びました。私はウマ・サーマンを変身させ、彼女を煙を吐くような黒猫に変えました。
私たちのお気に入りの人フィエティは、明らかに興奮しやすい子犬に変わり、マーキングの問題があることがわかります。彼の小さな犬の目に見えます。それから、私はクイーンのカバーを猫に変えました。また、同じ基本的なプロンプトを取り、少し変更しただけです。
そして、多くの友人が「どうやってこれをするの?何がそのパスなの?」と言っていました。そして通常、それはPinocchioにいくつかのモデルをダウンロードするか、Comfy UIでノードを接続するか、奇妙なサービスにサインアップすることを意味します。
しかし、実際には、chat.comに行くだけで、それはchatgptに連れて行き、プロンプトをコピーしてペーストすることができます。ショーノートに記載します。そのプロンプトをそこに入れて、ペットの写真やペットの親友に変えたい親友の写真をクリックしてドラッグするだけです。それほど簡単です。
次に、これらの小さな黄金の本の画像について話したいと思います。80年代や90年代に育った場合、おそらく子供の本のようなこれらの小さな本があったでしょう。オハイオ州立大学のファンであることが明らかなOSU fan 77という人からの非常に面白いsoraの投稿を見ました。
彼はフレディのツリーハウスというプロンプトを作成しました。そのプロンプトはこうです。画面に表示しますが、聞いているだけなら、1979年の小さな黄金の本の表紙を作成してください。それは使用されて摩耗しています。タイトルはフレディのツリーハウスで、エルム街の悪夢のフレディ・クルーガーを示しています。この場合、それはツリーハウスで楽しんでいるようなものでした。
基本的に、私はそのプロンプトを取って、いくつかの部分を変更しました。タイトル、キャラクター、映画名を変更し、それが何をするかの違うことを言いました。これが追加した楽しいことは、最後に「底部にいくつかの面白い解説を追加する」とも言っていることです。
そこで私が作成したのは、同じシナリオにおける他の映画の悪役のシリーズでした。そして「ピンヘッドが友達を作る」を追加しました。底部には「彼は別の次元からのトラブルメーカーですが、彼は本当に素晴らしいです」と書かれています。そして、それは悲しそうなピンヘッドと隣に素敵な男がいるようなものです。
「レザーフェイスは除外された」というのは、テキサス・チェーンソー・マサカーのキャラクターのようなものです。そして「ジャックの悪い日」はシャイニングからのものです。
基本的に、これが素晴らしいのは、既知のIPでも、もし変革的な方法でそれを行っていると思えば、本当に創造的なことを行う方法を見つけることができることです。今後のルールがどうなるかは誰にもわかりませんが、これは一種の風刺のようなものです。そして、私たちはIP規則について話します。
あなたも私もこれらを多く知っています。ここで主張できるのは、これは風刺だということです。あなたはホラー映画を取り、それを非常に子供っぽい状況に置いています。だから、これを創造的に使って、自分のIPを使う方法があります。
もしあなたが億万長者なら、ジャック・ドーシーやイーロン・マスクなら、IPは存在すべきでないと言うでしょう、ガヴィン。それは今週言われたことです。イーロンとイーロン・エコーがあるべきだ、というのは私には面白いことです。二人の億万長者が創造的な人々とその稼ぎ方について話すべきではないと思います。
ちなみに、これについて私たちは分かれたオーディエンスを持っています。オーディエンスの中には、IPは存在すべきでないと信じている人がいます。それは理解できます。しかし、創造的な人として、創造的な人々に、彼らが創造して所有するかもしれないものには何らかの価値がないという考えを売り込むのは難しいことです。なぜなら、それが創造的な人々がお金を稼ぐことができる方法だからです。
創造的な何かをしている場合、一生ギグエコノミーの生活を送りたくないでしょう。しかし、今後数年間に起こる避けられない訴訟の波を洗い流す唯一の方法は、それを完全に許されるべき罪にすることです。IPはありません。しかし、話を逸らしました。
バービーについて話しましょう。なぜならあなたは楽しい探検をしましたから。Soraのホームページで見つけた別のもので、とても楽しかったのは、誰かがバービーの画像を再作成しようとしていました。
そこで私は「カラフルな1970年代のフルページ玩具広告の写真。マテル社のバービー・ドリーム」と言い、次の部分に夢が何であるかを入れました。隅にロゴの販売テキストがあるリアルなもので、使用されていた写真。
そこで私はバービーのドリーム・ラスベガス・カジノを作成し、バービーのドリーム・上院公聴会を作成しました。そして私のお気に入りはバービーのドリーム・ウォールストリート・ボイラールームでした。彼女は取引をしており、私がそこに入れた別の小さな子供がいて、その子供は電話を持っていて、バービーも電話を持っており、タイトルは「いいえ、彼女は高度な金融の急速なペースの世界でトップに立つことができます」というものでした。
私はそれを書いたわけではなく、AIがそれを書きました。そしてそれはAIが可能な
このビデオを見ると、ケヴィン、タイトロープを渡るレゴキャラクターの静止画をTora(Sora)で作成しました。それが本当に優れていて、Clingも成功しているのは、特別な場所でのシングルキャラクターのアニメーションです。
このビデオを見ると、それはストップモーションのように歩いて、そして私は落ちるようにしました。しかし、足が変に見える小さな部分があるのがわかりますが、残りはほとんどストップモーションアニメーションのように感じられます。それを編集することができますか。
これを信頼性があるように編集できます。実際に、左側の建物を見ると、このオーディオ版を聞いている場合は、YouTubeでこの例を見ることを強くお勧めします。レゴの手と棒の一部がレンガの一つに反射しているのが見えます。それは素晴らしい仕上がりでした。
キャラクターがロープを歩くにつれて、建物が微妙に揺れます。それはこのレゴキャラクターが存在する世界の物理的なモデリングです。足と棒のギクシャク感を許してください。彼がぼやけて落ちるとき。それは印象的です。私は衝撃を受けました。本当に感動しました。
ケヴ、今週AIビデオで起きたもう一つのことは、V2が一般に公開されたことです。試すことができますが、実際に試せる量は限られています。Geminiのサブスクライバーであれば、アプリに入っているはずですが、まだ見ることができていません。しかし誰かが私に、1ヶ月に100回の生成ができると言っていました。それは実際にはそれほど悪くないです。そして、V2も非常に優れています。
私はこのCling 2.0モデルとRunway Gen 4に対してV2を並べたいと思います。おそらくCling 2.0を一番上に置くでしょうが、V2は非常に優れています。
V2の私にとって難しい部分は、ケヴィン、いくつかのものを作成するように頼み、猫と犬の戦争のイメージを作成させようとしましたが、拒否されたことです。他の4つの事柄を作成することも拒否されました。
彼らが作る可能性のあるものと作らない可能性のあるものにフィルターをかけているのではないかと思います。GoogleはOpenAIよりも、人々が彼らのツールを何に使っているかについて少し敏感だと思います。
OpenAIはガードレールを外すことで、画像生成のユーザーベースを1週間で2倍に増やしたばかりです。おそらくGoogleはそれを見たいと思うでしょう。彼らは本当に優れたモデルを持っています。人々に楽しませてください。
明らかに、私たちはこれらのさまざまなツールを使ってAIビデオを作ることについて考えを持っています。しかし、AIツールについて考えを持つ従来のビデオで知られる誰かについてはどうですか、ガヴィン、ジェームズ・キャメロンについて聞いたことがありますか?
はい、聞いたことがあります。アバターという映画の監督であるジェームズ・キャメロンが登場し、再びAIについて話しています。特に、この引用は本当に興味深いです。彼は芸術のためのトレーニングソースという考えについて話しています。人々が聞くことができるように再生しましょう。
「最近考えていることは、ハリウッドやエンターテイメント全般での躊躇の多くが、トレーニングデータのソース素材、誰が何を受けるに値するのか、著作権保護など、そういった問題だということです。私は人々がそれをすべて間違って見ていると思います。
個人的には、私たちは皆、私はアーティストですが、アーティストである人、人間である人は皆モデルであると思います。あなたはすでにモデルです。あなたには3.5ポンドの肉のコンピューターがあります。あなたはすべてのトレーニングデータを持ち歩いているわけではありません。
あなたは人生を通じてモデルを作成し、そのモデルを通じて新しい状況を素早く処理しています。そして、脚本家として、あなたには「私は自分のソースを知っている、何が好きか知っている、何を模倣しているか知っている、また、それを自分の独立した創造物にするために十分に遠ざける必要があることも知っている」という一種の倫理的フィルターがあります。
だから、私は全体を法的な観点から、出力は何かという観点から管理する必要があると思います。」
ジェームズがここで言っていることが興味深いのは、私たちが見る視点が少し変わっているということです。彼が言っているのは、あるものでトレーニングすること、すべてこの素材でトレーニングすることは実際にはそれほどコントロールできず、また、それは私たちを私たちにするものだということです。私たちは素材でトレーニングするので、コンピューターがそれをしないようにするのは変です。
明らかにそれはその議論の単純化ですが、もっと法的な問題もあります。しかし、彼が言っていることは、出力が他の何かにあまりにも近く見える場合、それがどこで起こるのかを考え始めるところだということです。
一つの効果は、OpenAIやAI企業などの会社から負担を取り除き、個人ユーザーに負担をかけることです。ジェームズ・キャメロンは関与しています。
非常に良い指摘です。また、これはYouTubeの大きな著作権状況の基礎でもあります。YouTubeで著作権違反をするとき、それは会社のせいではなく、その物を一緒に置くことを私に許した会社ではなく、私の責任です。
これはいくつかの負担をユーザーに転嫁していますが、実際には悪いアイデアだとは思いません。まだそれがどのように強制されるのか、またはジブリのジブリフィケーションが近すぎるのか、ジブリからのキャラクターを使った場合、それが違反なのかどうかはっきりしていません。
しかし、キャメロンからのこの指摘は興味深いと思います。彼は今AIの投資家でもあります。そして、私たちの延長プレイの4時間のポッドキャストでは、表面を削り始めます。誰かがそれを欲しがるでしょう。誰かがそれを欲しがるでしょう。それらの議論が…
しかし、AIから何かを欲しがる人がいます。それは中国です。彼らはNvidiaチップを欲しがっています。そして、ガヴィン、彼らはいくつかの強力な新技術に新しい制限があるため、それらをより少なく手に入れることになります。
私たちは実際に政治的なポッドキャストではありませんが、世界で起きている大きなことがあり、これらはあなたが認識しておくべきとても重要なことだと思います。そして、私たちがいつも話しているこのAI革命を支えるチップを提供しているからこそ、Nvidiaは現在、世界で最も重要な会社の一つであり、少し掘り下げる価値があると思います。
Nvidiaで2つの大きな出来事が起こりました。まず第一に、Nvidiaが中国に特定のチップを販売することに新しい制限があります。ニュースをフォローしていれば、関税に関する多くの会話が悪い方向で行われていることを知っています。それらは多くの人々にとって多くのことを台無しにしました。
そしてこの場合、会話が本当に関わっているのは、関税についてではなく、アメリカが本質的に最大のライバルにチップを売るかどうか、そして彼らがこれらのものへのアクセスを得るのを止める方法があるかどうかについてです。
なぜアメリカがそれをしたいのでしょうか?いくつかの大きな理由があります。地政学的な理由から、あなたが何かをコントロールしている場合、同じ地政学的ライバルにそれを許可しないようにしたいでしょう。
しかし、二つ目に、私はこれが、暴走AIや中国からの別のAIが私たちよりもずっと良くなるのを制御する可能性があるということだと思います。
ケヴィン、これはNvidiaの株にとって良くありませんでした。Nvidiaがより少ないカスタマーを持つ可能性があるということで、昨日Nvidiaの株を約5%下げました。しかし、彼らは顧客に困っていますか?
私が思うに、大きなことは、Nvidiaは概念的に、チップを買う人々の数だけスケールアップできるということです。そして、もし突然、世界で人口が最も多い国全体が、それらのものを買うことができなくなり、さらには物理的にあなたが制限しているからあなたを欲しくないと言い始める可能性があるなら、それは多くの潜在的な顧客を失うことになります。
しかし、Nvidiaが行ったもう一つのことは、アメリカで5000億ドル相当のチップを作るつもりだと言ったことです。これは重要な話です。なぜなら、人々は台湾が多くのAIチップの主要な場所であるという考えについて話してきました。
そして、中国と台湾がどれほど近いか、そこにある種の政治的背景を考えると、将来的にはこの地域で紛争が起こる可能性があります。アメリカで多くのチップ製造をオンボーディングすることはおそらく賢明なことです。
これら二つの話が出てきて、o3と04 miniの話のために吹き飛ばされるかもしれませんが、これはAIがどのように前進するかにとっても極めて重要です。ただ、ペットを人間に変えるほど楽しくはありませんが、それでも大丈夫です。
私たちはすべてをカバーしなければなりません。ガヴィンを含め、あなたと私が毎日ソーシャルメディアのバブルで出会い、立ち止まり、「そうか、わかったぞ」と言うようなものも含めて。
時々、何の心配もなくスクロールしていると、突然立ち止まって叫びます。「そうか、わかったぞ。」
さて、ケヴィン、今日はAIで「そうか、わかったぞ」という非常に素晴らしいものが3つあります。まず第一に、私がAIで見た中で最も好きなものの一つ、イルカGemma、イルカGemma、イルカGemma。私が最初に言いたかったんです。イルカGemma、イルカGemma。
イルカGemmaはGoogleがイルカの研究者のために作成している新しいAIで、イルカが何を言っているのか理解するのを助けます。言語がどのように異なる方法で解釈されるかというこのアイデアについて、私たちはしばらく話してきましたが、これは多くの意味を持ちます。
実際、面白いことに、彼らは水中に潜り、手首に回路を曲げたスピーキングスペルを持っているダイバーを得ています。彼らはボタンを押してイルカと話し、彼らが言っていることを解読しようとすることができます。それはとてもクールです。
もしスタートレック4を覚えているなら、スタートレック4の映画を覚えていますか?まったく覚えていません。わかりました。
スタートレック4では、大きなストーリーラインの一つは、彼らが過去に戻ってこの時代のクジラと話して、何が起こったのかを理解する必要があったことです。なぜなら、何らかの理由で未来ではクジラがいなくなっており、彼らはコミュニケーションを取る必要があったからです。これはその一種です。私たちは実際にその装置を現実の世界で構築しています。
そして、この事の別の側面でケヴィンが私を笑わせたのは、私たちはペット翻訳者からそれほど遠くないということです。これが起これば、すぐにあなたの犬や猫の声を聞くことができるでしょう。小さなウェズリーは直接あなたと話して、彼がずっと言いたかったすべてのことを言い、おそらくあなたを自分の場所に置くことができるでしょう。
私はシャークタンクがかなり好きですが、誰もがあなたの植物と話したり、ペットと話したり、プリウスとチャットしたりできるようなラッパーを持ってくる次の4シーズンがすでに嫌いです。それは必要ありません。しかし、イルカと話すことは実際にクールです。だから、それはOKです。
イルカが最初に何を言うと思いますか?私たちが彼らを最終的に理解したとき。
うーん、「サーモンのためにトリックをするのが大好きです。もっとそれをしてくれませんか?」サーモン?イルカはサーモンを食べません。イワシです。問題ではありませんか?彼らは非サーモンを・・・サーモンは冷たい水にいます。イルカはあそこにいないと思います。彼らはいないかもしれません。
私は完全に間違っているかもしれません。完全に認めます。私は人間であってAIではありません。おそらくイルカはサーモンを食べるのかもしれません。または、おそらく私たちが発見することは、彼らが与えられている魚の選択を嫌っているということです。おそらく彼らは本当にポップコーナーズが欲しいのでしょう、ガヴィン。
そうではありません。要点は、彼らは魚の刑務所にいたくないということです。それが私が言っていたことです。ポップコーナーズ。もしあなたが私たちに無料の物をたくさん送りたいなら、私たちは受け取ります。私はポップコーナーズを食べます。あなたはポップコーナーズを時々食べます。
あなたは私を捕虜にしていても構いません。あなたが私に自然なホワイトチェダーポップコーナーズをすべて与えてくれれば。私はケトルコーンの方が好きです。しかし、とにかく次に進みます。
次に、TEDで今週、番組の友人であるジェイソン・ザダは、シークレットレベルという会社のCEOです。彼は私がよく知っている人です。彼らがコークAI広告を作ったことを覚えているなら、彼は視聴者からリクエストを受け取り、それを2日後に本当に魅力的な短編映画に変えるという非常にクールなことをしました。
それは水中に住み、妻を見るのを待っていて、靴下との関係を持つというビーバー、人間のようなビーバーを特徴としています。これは声に出して言うと変に聞こえるでしょう。ビデオを見る必要があります。それはとても魅力的です。
もし今、私たちのビデオで見ているなら、ガヴィン、私たちの愛を判断しないでください。私はその靴下と話して、それが言うことを聞くための翻訳者が欲しいです。あなたは間違いなくケヴィンの靴下と話したくありません。しかし、この場合、靴下はとても可愛いです。
それには目玉が付いていて、V2が物語を語る人の手にあるときに実際に何ができるかの力が見えます。また、これは2日間のプロジェクトです。これは大げさだと思う人がいるかもしれませんが、初期のピクサーのようなものに見えます。それはピクサーの短編映画のようになり得ると言おうとしていました。特に彼らの初期のころを考えると、それらはほとんど技術デモストーリーでしたが。
これから感じることができたこと、それが物語のように感じられたこと、AIで生成されたビデオの強みを活かしていたこと、そしてそれはすべてテキストからビデオへの変換でした。彼らは画像を生成して、それらを動きに変換することさえしていませんでした。
これは信じられないほど印象的でした。それはチームが数ヶ月と数万ドルをかけてレンダリングするような種類のものでした。だから、ジェイソンと彼のチームは間違いなくトップにいます。それは楽しい見物でした。皆さん見るべきです。
最後に、もしAIビデオをレンダリングすることを決め、オーディエンスの全員がそうするなら、サーバーファームで火災が発生するかもしれません。しかし、心配する必要はありません。もはや人間を派遣して消火する必要はありません。なぜなら、肩に装着したロボット消火器があるからです。
もしあなたがそれを買うことができるなら、80年代のアクションフィギュアの方法でそれを言ってくれませんか?おお、すごい!肩に装着したロボット消火器!信じられない!わお!これらの肩に装着したロボット消火器は最高にクールです!
これはかなりクールです。基本的には、ロボットが畑を歩いている様子が見え、その肩には消火器キャノンがあり、消火剤を押し出しています。
しかし、ケヴィン、このビデオを見たとき、私がそれ以上に考えたのは、他に何がそれらの肩に装着できるのかということです。ミサイルです。神のために、ロケットランチャーとミサイルです。これはターミネーターです。私はその映画を何十億回も見ました。
これは彼らが将来の抗議を鎮圧する方法です。人間が通りにいて、彼らは神経毒や睡眠ガスなどを持つG1ユニットを送り、ただ歩いて群衆を噴霧するのです。
ええ、もしこれがイーロンだったら、彼はおそらく肩に火炎放射器を置いて「あはは、なんてクール」と言ったでしょう。しかし、ここでのこれは役立ちますが、ええ、彼らは肩に何でも装着できるということのイメージを喚起します。発射物を含めて。だから、ええ、ロボットは魅力的であり、そして最終的には私たちはそこに到達するでしょう。
ショーの冒頭で推論マイルズを見たように、元々思われていたよりもはるかに速くそこに到達するでしょう。
ケヴィン、今週末、AIで行うことの一部として、人々が理解するために簡単に説明したかった非常に興味深い経験をしました。
先週、Gemini Pro2.5について話しましたが、astudio.google.comに行けば、実際に多くのモデルで遊ぶことができます。そして、これはGoogleに関する別のことですが、Geminiアプリは彼らのメインアプリです。それは彼らのchatGPTですが、それからastudio.google.comgoogle.comは、彼らが多くのツールを一緒に投げ込む場所です。
なぜ彼らに二つの別々のものがあるのか、私にはわかりません。おそらく、物事を試すことができる場所のようなものでしょう。
長い間前に話したことで、今週末まで本当に掘り下げなかったのは、そのページの「stream」タブです。Streamとは何かというと、あなたが何かをしている間、それを見ています。基本的に、ブラウザのタブをGoogleと共有することができ、それを行っている間にそれを見ることができます。
今週末、Premiere Proで何かに取り組んでいました。少しの編集をしますが、それほど多くはありません。特定のタイプのマスクを作る方法を学ぶ必要があり、イライラしていました。「これを試してみよう、動くかどうか見てみよう」と言いました。
それを起動し、それはあなたをステップバイステップで案内します。それはあなたの画面を見て、特定のものをハイライトすることができます。そして、リアルタイムでこのマスクを作る方法を教えてくれました。
それは変革的であることがわかりました。人々がこの特定のものを試す必要があると本当に思います。Geminiを持っていれば、それを行うことができます。ウェブサイトで見ることができる技術的なことを行う質問がある場合、それはあなたが何をしているかを教えてくれ、それから質問をすることができます。
私はマスクで「ここのボタンを押しました。それは正しいですか?」というようなことがありました。それは「いいえ、それは間違っています。このものに行く必要があります」と言いました。
イライラする瞬間が何度かありましたが、それは本当にAIがあなたが物事を行うのを助ける未来のように感じました。
そうですね、多くの人々がこの行動を近似してきました。私も含めて、スクリーンショットを取ってchatGPTやカーソルなどに送り、「これは何ですか?これをどうやるんですか?」と言っています。そして、あなたはステップバイステップの指導を得ます。
しかし、これはペアプログラミングのようなもので、リアルタイムで誰かがあなたと一緒にいるようなものです。あなたのR2-D2が助手席に座って、ブリープブループであなたに言っているようなものです。
それはまさにそのように感じました。なぜなら、私も同じことをしました。写真をアップロードして「これの方法を教えてください」と言っていました。実際、これの前にchatGPTでそれを行っていて、それが私をイライラさせました。なぜなら「なぜ私はこれらすべての別々のステップを行っているのか?」と思ったからです。
それに行き、それは本当にはるかに簡単になります。だから、皆さんにastudio.google.comに行って試してみることを本当にお勧めします。それはとても楽しいです。
ケヴ、今週AIで何か試しましたか?
いいえ、皆さん、さようなら。
さようなら。

コメント

タイトルとURLをコピーしました