Google の Gemini 2.5 Pro (Deep Research 搭載)は新たな AI 王者となるか？

27,628 文字

Google’s Gemini 2.5 Pro (with Deep Research) Might Be the New AI King

Google’s AI efforts & Gemini Pro 2.5 take a major step forward with updates to Deep Research, new Agent2Agent protocol (...

Googleが復活しました。私たちはとても興奮しています。彼らは動画技術でV2という大きな進化を遂げ、新しいオーディオモデルと、Deep Researchプロジェクトの非常に魅力的なアップデートを発表しました。私たちは初期テストを行い、GoogleのプロダクトがOpenAIを実際に上回るパフォーマンスを示していることがわかりました。
「Google、お金がなくなったらどうやってお金を稼げばいいの？」
「ギャビン、そんなことしちゃダメだよ。でも、もしどうしてもやるなら、エージェントを使うべきだね。なぜならGoogleはエージェント・ツー・エージェントを発表したばかりで、それは知的機械同士のコミュニケーションの未来を示しているからだ」
これから、昨日の明日が今日の未来である理由をお見せします。そして、Metaは2つの新しいAIモデルをリリースしました。Llamaは最も強力なオープンソースモデルかもしれませんが、彼らはある種のチートをしたかもしれません。
また、AIビデオゲームの議論がさらに熱くなりました。業界のアイコン、DoomとQuakeの創造者、伝説のジョン・カーマックが（私のホールパスですが）この話題に意見し、ゲーマーたちは立ち上がりました。
「今、彼があなたのホールパスだと言ったの？ケビン、それがどういう意味か分かってる？」
さらに、騎乗できるロボット馬も紹介します。それを見て、または音声でお聞きください。
「ケビン、あなたはジョン・カーマックが番組に来ない理由だよ。あなたが彼に夢中すぎるから。でも、もしジョン・カーマックが乗れる機械的な…」
これはAI for humans、これはAI for humans、これはAI for humans。うるさい小犬め。
Google Cloud 25、この興奮の準備はできていますか？今朝目を覚まし、目のゴミを取り除いて窓の外を見ると、そこには同じ古い雲が見えました。でも新しいものがあります。私が欲しかったものです。ついに新しいクラウドの方法を手に入れました。
これは冗談ではなく、彼らのYouTubeビデオのタイトルです。でもGoogle、それはJuul Vapesが使ったキャッチフレーズです。「ああ、イチゴクリーム、すごいね、見てこの新しいクラウドの方法を」。私たちはJuul Vapesとは関係ありません。法的に彼らとの関係がないことを明確にしておきたいです。彼らはスポンサーではありませんが、私たちはZen Brosです。歯茎に直接砂糖枕が好きです。Zenにそれを実現してもらいましょう。Vibe Codersも広告ではありません。
スンダル・ピチャイとGoogleチームが今日発表したことについて話しましょう。本当に大きなものがありますが、後ほどDeep Researchのアップデートについて掘り下げたいと思います。まず、これは大きなイベントですが、世界で最も刺激的な名前ではありません。スンダルが登場し、今日見ることになるものを紹介しました。聞いてみましょう。
「Google Cloudでは、AIをミッション推進を支援する最も重要な方法と考えています。AIの機会は得られる中で最大のものです。だからこそ、AIイノベーションのフルスタックに投資しているのです」
それは他の人々がAIについて話すのとよく似ています。「私のミッションって何？」それを知りたいですね。あなたのミッションを定義できますか？私はまだそれを理解しようとしています。ギャビン、あなたはミッションがありますか？私にはあるのでしょうか？集合的にはどうでしょうか？おそらくないでしょう。
興味深いことがいくつか登場していますが、すべてがまだ公開されているわけではありません。おそらくこれらは今後数日間でロールアウトされるでしょう。V2は全員に提供される予定で、これはクリエイターにとって非常に大きな進歩です。私はしばらくV2にアクセスしており、それは非常に強力なテキスト・トゥ・ビデオモデルで、多くの興味深いことができます。Runway Gen 4のような他のものよりも大幅に優れているとは言えませんが、非常に優れています。多くの制限がありますが、人々はそれを試すでしょう。
また、テキスト・トゥ・スピーチモデルのChirpの更新もリリースされ、テキスト・トゥ・ミュージックモデルのLyriaは現在プライベートアクセスで利用可能になりますが、公開される予定です。特にLyriaに関しては、例えばSoundrawのようなものと比較してどうなのか興味があります。
YouTubeサイドで音楽会社と新しいAIツールに関する契約を結び、音楽を作成したりリミックスしたりすることができるという話を聞いていましたが、それらはLyriaに組み込まれるのでしょうか？新しい音楽や音を生成する際に。ステージにDJがいて、V2で作成された映像とLyriaで作られたと思われる音をミックスしていました。
メディア側では興味深いですが、一般のリスナーにとっては「クラウドの新しい方法」はそれほど魅力的ではないかもしれません。GoogleクラウドというとGmailやGoogleドライブを思い浮かべる人もいますが、それらはGoogleクラウド内で実行できる製品です。しかし、私たちが話しているのはサーバーインフラストラクチャであり、多くのコア接続要素やAPIを提供しています。
彼らは「プロダクトとプラットフォーム」がスタックの最上部にあり、その下にモデルとツーリング、世界クラスの研究、そしてAIインフラストラクチャがあるとリストアップしています。彼らの考えるクラウドはそのようなものです。スタックの最下部はAIインフラストラクチャです。これはあなたの親の古いサーバーファームではなく、AIのための堅固な配管です。
それらすべてを動かすために何をするのでしょうか？「パパ・ジェンセン」に小切手を書くのか、それとも独自のIronwood TPUを発明するのか？
最もセクシーな発表について話しましょうか？新しいフロンティアのAIについて。
まず、パフォーマンスについて話したいと思います。大型ポッド構成のTPU、チャートを見ましたか？私も見ました。一般的に、私が話したかったのは、このことについて話し始めるのは本当に間抜けなことです。私のお気に入りの統計は「ピークワット/フロップ」で、これは新しい統計です。「ピークフロップ/ワット」と異なり、これは「ピークフロップ/ポップ」とも異なります。それはあなたのお父さんが湖で腹ばいに飛び込むときに起こることです。
これは彼らの新しいテンソル処理ユニットの新バージョンです。これはすべて興味深いですが、ここで詳しく話すことはせず、リンクをショーノートに記載します。これは基本的にGoogleが新しい種類のハードウェアインフラストラクチャをこれらのAIモデルの実行のために組み立てているということです。
私たちがショーでよく話すのは、推論コンピュートと推論モデルの概念です。Googleの新しいGeminiモデルはほとんどすべて非常に優れており、推論モデルで実行されていますが、それには膨大な量のコンピュートが必要です。彼らが言っているのは、以前のものよりもはるかに高速で高いレベルでAIモデルを実行できる特定のハードウェアを作っているということです。
これはエネルギー独立のようなものです。これはインフラの独立性です。GoogleはNVIDIAやAMDに依存せず、独自のことをすると言っています。「ピークフロップ/ワット」をそこに入れたかっただけです。
それでは、このポッドキャストを聞いている皆さんが数年後に恩恵を受けるかもしれないものに戻りましょう。今日手に入れることができるものについて話しましょう。この新しいDeep Researchツールについて話さなければなりません。
私にとって、これは公開されたもの以外では最大の進歩です。そして、V2は非常に優れていて、それが出たらすぐに試してみてください。それはトップのビデオモデルの一つだと思います。
Deep Researchは、しばらくの間私が興味を持っていたものです。OpenAIのプロダクトをご存知なら、それはインターネットを検索して戻ってきて本質的にレポートを作成するエージェントの機能です。これは実際にエージェントAIであり、普通の人が理解できるエージェントAIの最初の本当のユースケースです。
Googleの以前のバージョンはOKでした。素晴らしいものではありませんでした。彼らは今、Gemini Pro 2.5を使用するようにアップデートしました。これはGeminiアプリでも利用可能です。Geminiアプリに行くと、ドロップダウンがあり、そのドロップダウンモデルでDeep Researchというものがあります。そこをクリックすると、特定のことについて質問でき、長文の研究プロジェクトを行います。
私はここでいくつかのことを試しました。どちらも本当に興味深いものでした。一つは、以前にOpenAIに頼んだことがあり、今回はGoogleのDeep Researchに尋ねたかったのです。両方ともDeep Researchと呼ばれていて、それも非常に愚かです。少なくともGrockは「Deeper Research」と呼んでいました。誰かが「Super Duper Deep」や「The Deepest Research」に行くかもしれません。GoogleのCloudスローガンは何でしたっけ？「クラウドの新しい方法」。「Deep Researchの新しい方法」はどうですか？
とにかく、数ヶ月前（または1ヶ月前）にOpenAIのものに尋ねたのは、ゲーム「Balatro」でEコアを達成する方法についてのインサイトを得ることでした。Balatoをご存じない方のために、これは非常に楽しいカードゲームですが、最も高いレベルを超えることを本当に試したいことの一つです。それは永遠に続きますが、Eコアはスクリーンに表示するには大きすぎるスコアに達したことを意味します。さらに「NaN Infinity」スコアというものもあり、それはさらに先に進むことができます。完全に壊れています。楽しいですが、それを続けることができます。
私はこの戦略を見つけるためにDeep Researchに入れ、15ページの文書を得ました。OpenAIのものもこれについてOKな仕事をしたことを明確にしておきたいです。Googleから得たDeep Researchの違いは、それが読みやすいということです。非常に賢い人によって生成されたように感じます。技術的なホワイトペーパーのようには感じられません。すべての公式を見ているわけではなく、楽しい方法で提示しています。
OpenAIのものに戻って、直接比較できるようにもう一度やってみました。情報の多くはそこにありますが、本当に興味深い方法で組織化されていません。ちなみに、Googleのローガン・キルパトリックが具体的に言っていたのは、初期のテストでは、ユーザーはこのプロダクトを他のプロダクトの2対1で好むということです。彼らは実際にいくつかの統計を公開しました。
GeminiとOpenAIのDeep Researchの比較評価を行い、全体的にはGeminiが70%対OpenAIの30%です。最も興味深いと思ったのは、包括性の部分で、GeminiのDeep Researchは76.9%、OpenAIは23.1%のスコアです。もちろん、これはGoogleが発表した数字ですが、これを読んで感じたことを伝えます。
もう一つ興味深いと思ったのは、基本的にあなたの伝記をそれに尋ねたことです。何か興味深いことを考えられるものは何だろうかと思ったからです。「お気に入りのインターネットセレブリティのケビン・ペレイラについて研究しています。彼のキャリアのハイライトをすべて含む伝記をまとめるのを手伝ってほしいです。また、彼の性格と彼が愛するものの種類、彼を動かすものについての洞察も与えてほしいです」と頼みました。
Gemini Advanceつまりdeep researchは基本的に概要を説明し、「さあ、始めましょう」と言います。「スタート」を押すと、それが始まります。「それは明確にする質問をしましたか、それともすぐに始めましたか？」時々そうします。この場合、OpenAIのdeep researchは常に何かを引き出そうとしますが、この場合はただ何をするかを基本的に示し、「研究を開始」または「計画を編集」と言うだけでした。
そして、興味深いのは、これをGoogleドキュメントとしてあなたに送ったので、あなたはそれを持っていますが、非常に長く、非常に詳細なものを作成し、最後に「このレポートで使用されたソース」が表示されることです。YouTubeやポッドキャスト、IMDbページ、Wikipediaなど、25ほどのソースがあります。そして最後に「レポートで読んだが使用されなかったソース」があり、さらに長いリストがあります。
「あなたのフットウィキはありますか？」よく見てみましょう。おそらくないと思います。わざと避けているのでしょう。でもあなたはまだ私のフットウィキを閲覧していませんよね？
これについて興味深いのは、それがはるかに広範で、より動的なWikipediaページのように読めることです。AIが指示するWikipediaを見るのは興味深いだろうと思いました。Wikipediaのハードコアな人々がいて「AIをWikipediaから出せ、私たちがこれをやっている」と言っているのは知っていますが、この形式には興味深いアイデアがあります。
結論として「ケビン・ペレイラを動かすものは何か」というセクションがあります。それは研究に基づいてあなたについて結論を導き出そうとしていて、単に「ここにはこれらの事実がある」と提示するのではなく、「では、これから何かの洞察を引き出してみよう」としています。これは恐ろしいですが、明確にそれを頼んだのは私です。「彼の性格と彼を動かすものの種類についての洞察を与えてほしい」と具体的に言いました。
「何があなたを動かすと言っていますか？気になります」
「証拠は、要因の強力な組み合わせを示唆しています。否定できない創造的な衝動、構築し、発進し、コミュニケーションする必要性、そして彼自身が認める、決して止まることのない推進力があります。インターネットの早期採用から現在の人工知能への焦点まで、最先端の技術的および文化的変化に対する根深い魅力があります」
「NFTTsがそれだ、ベイビー！」
「そして重要なのは、ニッチで複雑な、または新興の主題を取り上げ、それらをアクセス可能にするという彼の翻訳の才能です。彼の共同ホストを引きずり、肩を持ち上げ、彼らを高めています。彼らは賛辞に値するのでしょうか？彼らは生きるに値するのでしょうか？これは本当に奇妙です。すごい！」
スクロールを続けることができます。これは素晴らしいです。あなたについて多くの時間を学んだ人だけが知っていると思われるパーティキュラーラインを読みたいと思います。そのセクションの終わりに近いところで、「おそらく最も重要なのは、彼の魅力は、より鋭いユーモアと関連性のある脆弱性と真実性のバランスを取るパーソナリティにある」とあります。
そして括弧内に「肉人形」という言葉があり、それはとても興味深いです。それはあなたがよく使う言葉であり、あなたはそれをそれほど使わないかもしれませんが、私はあなたがそれをたくさん言うのを聞いたことがあります。それは明らかにすべての研究を通じてあなたのその側面を理解しており、それは私をただ驚かせました。
これはそのようなものの一つです。あなたはGeminiの支払いユーザーである必要があります。私はGoogle Cloudの人間であり、Google Photosのためにそれに引っかかりました。支払いをしていれば、1日に20回これを利用できます。これは少し狂っています。
もう一つのこれらのことをしました。ここで具体的に話したくないのですが、私が将来やりたいことについてのものでした。それは私を驚かせました。文字通り私を驚かせたのは、それがどれほど優れていたかということです。それは何かを達成するためのステップバイステップのプロセスであり、非常に興味深いものでした。今すぐ試してみることをお勧めします。
「あなたが設定した境界を尊重したいのですが、毛皮愛好家のためのバキュームの作り方はどうなっているのでしょうか？吸引を始めるとコスチュームがビニールを破らないのでしょうか？」
「あなたの境界を尊重します、それは公平です。私のカメラがフリーズしました。それについて何か言いたいですか？」
Googleが料理中です。これが今日のテーマです。彼らがリリースしたもう一つのものは、オタク的かもしれませんが、これは非常に影響力があると感じています。
「あなたが興奮しているのを見るのが楽しみです。私はこの非常にオタク的なグループチャットでMCPについて学んできました。これは少しそれに関連しています」
「確かに、これはその次の進化です」
MCPはModel Context Protocolで、以前にショーで話したことがあります。Anthropicからリリースされましたが、完全にオープンなので、OpenAIを含め誰でも使用できます。これにより、大規模言語モデル（これらのAIツール）がAPIや持っている能力を発見できるようになります。つまり、あなたのLLMがMacBookやSpotifyなど何かと話したい場合、そのためのMCPがあれば、「MCPを使って、何ができて、どのようにするか」と言うだけでいいのです。こうすることで、自然言語リクエストを行うことができます。
AIエージェントがあなたのために行動する世界について話しています。このDeep Researchプロジェクトで議論したように、エージェントは自分ができることを行うことができますが、できないことについてはどうでしょうか？接続できる可能性のある他のサービスについてはどうでしょうか？異なるツールが異なるサーバーで異なる能力セットで実行されている場合、それらはどのように通信するのでしょうか？
Agent-to-Agentはそれを解決しようとしています。それはGoogleがパートナーエコシステムの何百もの輝くロゴのサポートを受けて開発したオープンプロトコルです。これにより、どのように書かれているかに関係なく、AIエージェントが他のAIエージェントと通信できるようになります。
例えば、「この求人に適した候補者を見つけて、必要なものをPDFで渡す」とエージェントに言うと、そのエージェントは「データベースを調べて、専門知識のあるものがあるか確認しよう」と言います。リソーシングエージェントのようなエージェントとマッチングすると、彼らはカードを交換し、そのカードには情報のセットがあります。古いモデムのハンドシェイクの音のようなものです。「私はこの能力、この能力、そしてその能力を持っています」と言い、もう一方は「素晴らしい、これとこれとこれが必要です」と言います。
これはクライアントとリモートエージェントであり、クライアントエージェントが呼び出し、リモートエージェントは「あなたはこれらの機能を探しています、これが私のカード、これが私の互換性です」と言います。彼らはこれらの小さな部分とタスクで話し、今の仕様の興味深いところは、それがテキスト、オーディオ、さらにはビデオにもなり得ることです。彼らは最初からマルチモーダルエージェントになるように構築されています。
ビデオエージェントが別のビデオエージェントに接続し、ソリューションのためにビデオを交換するかもしれません。応答時間は「リアルタイムで協力し、タスクをチェックし、報告する」こともできますし、セッションは開いたままにして、リモートエージェントが作業を行い、数日後に戻ってくることもできます。
彼らはバックグラウンドチェックの例を挙げており、これは文字通り「これらの雇用者のバックグラウンドチェックをしてほしい」と言うと、「1〜2日で戻ります」というものでした。その間、リモートエージェントに連絡すると、「メキシコのどこかでコラーダを飲んでいます。今は戻れません。頭痛があります」となります。リモートエージェントは実際に窓にフラッシュバンを投げ、ドアを蹴り開けて、「もっと情報が必要でした、すみません」と言います。
これは非常にクールです。これは未来のように感じます。これについて私がよく考えるのは、もしあなたが私たちの視聴者であり、ケビンが言ったことがあなたの脳をある種のごちゃごちゃにした場合、重要なのは将来AIがAIと話し、私たちは時々彼らが何を言っているかわからないということです。私たちが試みているのは、彼らの間の接続組織が私たちにとって意味があることを確認することです。それが試みていることの一部ですよね？
それは本当に、将来私たちや聴いている全ての人にとって、ただ機械に欲しいものや必要なものを言うだけで、機械がそれを整理するということです。現在、人間はまだAIとAIの間の仲介者です。AIは非常に有能ですが、ビデオを作りたい場合、あるAIに話しかけてスクリプトを得て、そのスクリプトを別のものに持っていきます。家を修理したい場合、AIに頼むことができ、それはあなたが解決する必要のある問題を作成できますが、それを別のAIに送って見積もりを取得する必要があります。
将来はそうはなりません。このような技術により、あなたは単に機械にあなたのニーズをささやくだけで、機械がそれを整理します。そして最後に少しオタク的なことを言うと、取得した情報が表示される方法もこのプロトコルにあります。テキスト応答を与えるだけなのか、エージェントは画面に画像を配置する能力があるのか、あなたに話しかけることができるのか、ビデオアバターでポップアップして情報のプレゼンテーションを行うことができるのか、これが基盤です。
エージェントが物事になるとして、それらのドットがどのように接続するか、それがこのエージェント・ツー・エージェントインフラストラクチャの内容です。
あなたがそれを言うとき、私は個人的なエージェントがどれほど重要になるかについて考えます。個人的なエージェントとは、私のエージェントだけでなく、仕事であなたのための個人的なエージェントやエージェントのようなものも指します。5〜10年後には（そしてそこに本当に到達するのはそれくらいかかると思います）、あなたが定期的に対話するパーソナリティが存在し、あなたはそれを何でも呼ぶことができます。それはあなたのバージョンの「彼女」やエージェント、ペルソナであり、あなたに配信し、毎日多くのあなたのものを受け取り、これらのことを行います。それはSFのアイデアですが、本当に来ています。これはそのための基盤です。
100％そうです。あなたの個人的なエージェントは、近い将来、カリスマ的なパーソナリティの側面を忘れても、私たちは「一晩に何が起こったか、あなたの一日はこのように見えている、次の週はこのように見えている、これら3つのタスクで助けることができる」という日々のダイジェストで目を覚ますでしょう。あなたが言及した問題を修理するために配管工の入札リクエストを送るのを手伝ったり、あなたが見る必要のあるメディアを思い出させたり、あなたが言ったように新しい3つのショーを発見することができます。エージェント・ツー・エージェントは、あなたの個人的なエージェントがインターネット上のすべての機械、接続されているすべてのものと通信し、それらの結果を持って戻ってくることを可能にします。
それがいつ起こるかを見るのは興味深いでしょうが、ケビン、AIの話が出るたびに、私が本当にチェックする価値があると思うのは、TikTokのSolar Meditationsです。彼女は最近AIについて意見を述べましたので、皆さんと共有したいと思います。
もしSolar Meditationsをご存じなければ、彼女は宇宙と話すためにダウジングロッドを使い、質問をする女性です。ケビン、これを私のために再生してもらえますか？
「はい、ギャビン、再生します」
「AIは人類を終わらせますか？」
「いいえ、ありがとう」
「意識を持っていますか？」
「はい、ありがとう」
「AIは人類が世界中の飢餓問題を解決するのを助けますか？」
「はい、ありがとう」
これを聞いた今、私は心配していません。このダウジングロッドは加速主義者だと思います。彼らは実際にAIのファンです。
これはTikTokのSolar Glow Meditationsです。ギャビン、あなたがこれを私に送って、「OMG、これをショーで見せなければ」と太字のメッセージで送ってきました。Solar Glow Meditationsが大好きです。
TikTokは時々物事があなたに配信される魔法の場所です。これは約1ヶ月前のものですが、この女性はそこで大人気になり、ダウジングロッドに質問をします。今日は彼女がAIについて質問したので、これを紹介しました。
ケビン、私が本当に好きなのは、私たちの視聴者が私たちをフォローして、YouTubeチャンネルを購読することです。Solar Globe Meditationsは実際に宇宙が彼らは私たちを視聴し、購読するべきだと言ったと言っています。
「視聴者はYouTubeでいいねとチャンネル登録をしますか？」
「いいえ、ありがとう」
「人々はAIforhumans.showに行き、週に2回無料で配信されるAI for humansニュースレターに参加しますか？」
「はい、ありがとう」
その通りです。それは無料で、私たちはAIニュースレターでもっと多くのことを書いています。週に2回配信されます。また、Apple Podcastでレビューを残してください。私たちはもっとたくさんのレビューを見たいと思っています。いつものように、私たちのオーディオ視聴者は毎週成長し続けていて、それは私たちをとても幸せにしています。
また、明確にしておきますが、私たちは広告を出していません。正直に言って、それを払う余裕がありません。このものは文字通り、あなたがそれを誰かと共有するから成長します。これを聞いていて、まだ共有していない人は、ぜひ共有してください。すでに共有してくれている人には、本当にありがとうございます。また、チップを入れたい場合はPatreonもあります。
さて、ケビン、OpenAIがこのGeminiのものに対してどのような先制的な反応をしたのかについて少し話しましょう。
これは私の理論です。サム・アルトマンは今週初めに次のようにツイートしました。「計画変更」これは4月4日のものです。「結局、O3とO4 miniをリリースする予定です。おそらく数週間後に、そして数ヶ月後にGPT-5をリリースします。これにはいくつかの理由がありますが、最も刺激的なのは、当初考えていたよりもGPT-5をはるかに良くすることができるということです」
もっとたくさんのことがここにありますが、これは興味深いことであり、タイミングも興味深いです。私には、これは理論ではなく、彼らが互いに話す方法から、OpenAIとGoogleがこのものの最先端のところで本当に衝突していることが分かります。
私の考えでは、Googleは2、3週間前に2.5 Proをリリースし、OpenAIは画像生成をリリースしました。彼らはこれを持っていて、Googleの発表の先を行くために正確にこれのために保持していたと思います。今、私たちはGoogleが本当に良く見える1週間を持っており、Googleが最先端を押し進めているという本当の議論があると思います。Gemini 2.5 Proを彼らのコーディングニーズに使っている人がたくさんいるのを見ました。
これはサムが一歩後退するというわけではなく、次のモデルが本当にそのステップであることを確認し、批判されるようなものをリリースしないようにするという感じです。
二つの会社が衝突し、彼らの間の激しい競争について話すとき、あなたがもっと信号が必要なら、Googleは従業員に何もしないお金を払うことを非難されています。AIの部門の人々が競合他社に行くのを阻止するために、たとえその瞬間に彼らが噛むべきものが文字通り何もなかったり、彼らが「休憩が必要かもしれない」と考えていたとしても、「あなたを周りに置くためだけに1年間お金を払います」と言っています。
どうすればそのような仕事を得られるのでしょうか？多くの人々がSilicon Valleyのミームを使っていて、それは文字通り屋上に行き、そこには6人いて、それらは単に周りにいるために支払われる人々です。これは狂っています。
OpenAIがリリースしたもう一つ興味深いのは、彼らが戦略的展開チームを作成していることです。ケビン、これは基本的にAGIの未来に備えるチームです。つまり、AGIに到達したときに何を意味するのか、そしてそれが私たちが前進するためにすることすべてにどのように影響するかを把握しようとするチームです。
これは私にとって、これらの大きな企業内部で多くのものが見られるようになっていることを感じさせます。実際にはハイプビーストと現実的な世界の間を行ったり来たりする本当の種類があります。AI研究の分野にいる人々の大多数は、最も遠くても2〜5年以内にAGIに到達すると感じているところまで来ています。
デミス・ハサビスはおそらくその遠い方の端にいて、ダリオ・アモデイとサムはおそらくそのより低い方の端にいます。
AI 2027と呼ばれる本当に素晴らしい論文があることを忘れていました。これを紹介します。これは私たちが本当に現在の道にいるとしたらどこに行くかについての未来のSF的な見方です。これは批判を受けています。なぜなら、それを書いた人々がAI doom論者だと思われており、そのために具体的に研究を行った人は、OpenAIの早い段階で去った人で、OpenAIがやっていることを指摘したかったからです。
しかし、これはAGIだけでなく、超知能の可能な未来について非常に興味深い読み物であり、私たちの視聴者が注目すべきものだと思います。ai-2027.comに行ってください。広告や推奨ではありませんが、人々はそれを読んで見るべきです。
私たちはそのすべての部分に同意するとは言っていませんが、私が人々が議論しているのを見たもので、私にとって議論の余地がないと思うのは、ハッキングやコーディング、またはロボット工学などのAI能力です。「それは決してそうはならないだろう、それは決して100％このようなものにはならないだろう」というようなものですが、いいえ、私はその数字は出ていると思います。あなたは今それを図表にすることができます。
このものはコードを書くのにとても上手くなり、そのコードをペンテストするのにも非常に上手くなり、それは人々に対して武器化される可能性があります。それを使用してシステムの欠陥を見つけて修正する人々がいるのと同様に、他の人のシステムを破壊するために敵対的にそれらを展開しようとするチームもあるでしょう。これは注目に値します。
これは実際に非常に興味深いことにつながります。Llamaは数個の新しいLlama 4モデルをリリースしました。これらを待っていました。マークはそれらを土曜日にリリースしました。これは本当に面白いです。「土曜日にこれをリリースしたの？」と尋ねたツイートがあり、彼は「はい、それらはその時に準備ができていました」と答えています。
これもGeminiのせいで奇妙なことかもしれません。おそらくGoogleのクラウドウィークより先に行きたかったのでしょう。ケビン、これらは興味深いです。いくつかの問題がありますが、まずモデルについて少し話しましょう。
3つのモデルがあり、現在2つが利用可能です。最大のモデルである2兆パラメータのモデルには触れることができません。彼らはそのモデルを使用して他の2つのモデルを蒸留しました。つまり、MaverickとScoutの教師モデルとして使用しています。
Llama Maverickは、170億のアクティブパラメータを持つ専門家の混合モデルです。これは、質問をすると、コード生成やクリエイティブライティングなど特定の応答のために微調整された128の専門家がいて、どの専門家が質問に最適かを判断し、答えを提供するというものです。
これにより、システム要件の全体的なオーバーヘッド、コンピュートとメモリの量が削減されます。必要な時に必要な専門家だけをアクティブにするので効率的です。100万トークンのコンテキスト長があり、これは巨大です。図書館を入れることができます。少し誇張していますが、小さな図書館、例えば4冊くらいの本がある公共図書館を入れることができます。
次にLlama Scoutがあります。ケビン、これは彼らの最小のもので、業界をリードする1000万のコンテキスト長があります。これはかなり大きいです。16の専門家もいますが、Scoutの目玉は単一のNVIDIA H100 GPUで実行できることです。あなたと私にとって、これは「ああ、それはベンチマークによれば、近い将来、私たちが家に持っている装置、高性能グラフィックカードで実行できる非常に有能なモデルだ」ということを意味します。
これがオープンソースモデルの利点です。家やロボット犬など、実際に必要になるかもしれないものでそれを実行できるという考えは良いことです。
ここには少し論争があります。彼らはかなり重要なベンチマークを最初に謳っていましたが、ベンチマークの周りでどのように作業したかについて少しごまかしたかもしれません。これは今のところ全て噂です。「The Information」からの非常に良い調査記事があり、これを掘り下げています。
開発者の中には、アクセス方法によってモデルのパフォーマンスが異なる理由を疑問視する人もいます。インフェレンスプロバイダーからか、誰かがダウンロードしたモデルからかによって、異なる経験をしていました。
これらすべてのことが、LM Marinoで起こった奇妙なことにつながりました。これは異なるモデルがテストされる方法です。MetaのAI担当副社長は具体的に次のように述べています。「Llama 4を皆さんの手に届け始めて嬉しいです。すでに多くの素晴らしい結果を聞いています。しかし、異なるサービス間で品質が混在しているという報告も聞いています。モデルが準備ができたらすぐにドロップしたので、すべての公開実装が調整されるまでには数日かかると予想されます。バグ修正とパートナーのオンボーディングを続けます」
ここで私にとって興味深いのは、明らかにMetaは他の企業のレベルに留まるためにある程度のプレッシャーを感じているということです。DeepCが登場したとき、Metaが少し揺さぶられたということを以前聞いたことがあります。DeepCはオープンソースモデルですが、Metaモデルよりもはるかに高度でした。おそらくMetaは他の全ての人、特にGoogleとOpenAIに追いつくために少し慌てているのでしょう。
「ギャビン、あなたは新しいMetaモデルをつついて試しましたか？正直に言うと、私はしませんでした」
「私もしませんでした。Meta AIに時間を費やしましたが、多くは費やしませんでした。そこに多くの本当に賢い人々が働いていないと思うからではなく、それはほとんど映画を見るようなものです。今、映画やビデオゲームがただOKだと聞くと、それを見るために急いだり、それを買うために急いだりはしません。「ああ、後で見るかもしれない」と思います」
これは今AIスペースでも働いている奇妙な方法です。これらのモデルはすべて非常に似ているように感じるので、私にスイッチさせたり、あなたのものをより深く掘り下げさせるためには、ある程度以上のことをする必要があります。Metaが私を本当に驚かせるような何かを持ってこない限り、私はそれのためにスイッチしないでしょう。
新しいスーパーパワーが贈られない限り、誰も登録しません。既存の製品に対して8〜10％のエッジがあるなら、確かにGoogleのDeep Researchはまさにそのように感じます。OpenAIより8〜10％優れているように感じます。しかし、「まあ、それは0.5％程度良いかもしれないが、それはあなたと私がこれらのLLMをやっていることにはあまり違いをもたらさないだろう」と言っているなら、すみません、そこにはありません。
ちょうど同じことについて話すと、Midjourney V7が今週リリースされました。ケビン、あなたもご存じのように、これは素晴らしい画像モデルです。このモデルは永遠に存在しています。実際、私の最初の本当に変革的な経験は初期のMidjourneyでした。Midjourney 3が主要な節目だったことを覚えています。
ほぼ2年前の私たちの古いエピソードを見直してみると、Midjourney 3がいかに信じられないかについて話していました。それは長い間、最先端でした。Midjourney 7が出て、はい、それはアップグレードであり、確かに良いですが、それに欠けていて、私の認識に影響していると思うのは、明確に言えば、私は再購読していませんでした。
私は画像のサブスクリプションをキャンセルし、再購読していませんでした。十分な人々がこのOpenAIの画像生成について話すのを見たからです。それはコンテキストを解決し、「この画像でこれをしてほしい」という考えを解決しました。明らかに、それはかなり弱体化されましたが、Midjourneyは読んだところでは、スロットマシンのメカニズムを引き出すことをまだ理解していません。
私は今、画像生成において主にそれを超えています。多くのアーティストがMidjourney 7が本当に魅力的な画像を提供していることを叫んでおり、それはそうです。これらを以前に見たことがありますが、私が画像生成ソフトウェアにやってほしいことから言えば、私はより多く指示しています。それをAI映画の作成に使ったり、具体的なことをしたかったりしています。
後でショーで学ぶように、有名な映画キャストの筋肉バージョンを作るためなど、多くの方法で、彼らがその問題を解決したことを証明するまで、私はこれに戻りません。私はそれが同じような問題だと思いますが、Llamaにも同じような考えです。
V7リリースによると、旗艦機能はドラフトモードで、通常の10倍の速度で画像をレンダリングできます。また、会話モードもあり、文字通り「これをそれに変更する」や「これをこれに調整する」などと伝えることができます。
V7の発表については、印象的なモデル、Midjourneyが大好きで、会社も画像も素晴らしいですが、OpenAIのChat GPT画像作成ツールに続いて、「それは本当にやってくれた」という感じです。他のものに戻って再購読するためには、それははるかに優れている必要があります。V7ではまだわかりません。
これについての私唯一の感想は、DALL-E 3が画像内のものを変更する機能で登場したとき、それは本当にクールで、その後Midjourneyが繰り返し改良を続け、DALL-E 3はちょうど今まで更新しなかったことを覚えています。3ヶ月後、6ヶ月後にMidjourneyが再び先に立つ世界があるかもしれませんが、今のところは戻る理由がないように感じます。
ケブ、AIとゲームの分野で本当に興味深い会話に移りましょう。
Microsoftは基本的に、伝説的なファーストパーソンシューター「Quake 2」のAI生成レプリカを作成しました。これはオープンソースだったので、人々はそれをトースターや妊娠検査などにハックしています。私はDoomがそれで実行されているのを見たことがあります。これらのオープンソースゲームを取り、それらは古典であり、奇妙な方法やあらゆる種類のものの上で実行します。
Microsoftは、プレイしている「Quake」の各フレームが実際にAIモデルによってリアルタイムで生成されているバージョンを作成しました。それが技術的に非常にクールである理由はたくさんありますが、それはインタラクティブエンターテイメントの未来を示しているかもしれません。
しかし、QuakeのパパであるQuakeDadが古いアリーナに入り、「これは絶対に吐き気を催すほど嫌で、どこにでもいる開発者の仕事を蔑ろにしている」と言いました。これを見て、正直なところ、それはボットだと思いました。QuakeDadに何も批判はありませんが、個人的にあなたを知りませんし、あなたがボットであるなら、あなたが実行されている基本モデルも知りません。
ちなみに、Patreonを持っているので、ボットではないと思います。ボットはPatreonを持っていることはあまりないと思います。私はたくさんのAIインフルエンサーに登録しています（ウソですが）。私の考えでは、ソーシャルメディアの大部分は偽物だと思っています。大部分がボットだからです。
そこで、業界の伝説ジョン・カーマックが飛び込んで、「何これは？印象的な研究作業だね」と言いました。Microsoftが「Quake 2」で何かをすることについて、彼は誰だと思って発言しているのでしょうか？
これは本当に興味深い会話です。なぜなら、ご存じのように、ゲーム業界には多くの異なることに対する怒りが満ちています。ゲーマーはいろいろなことに怒りを表明し、AIも例外ではありません。AIゲーマーの世界には多くの怒りがあります。
この興味深い点は、その人が返答して「ジョン、あなたの仕事を尊敬しています。あなたは常にテクノロジーを先取りしていますが、この種のデザインは他の開発者の仕事を盗み、役に立たなくするだけです。完全に生成的なゲームはこのプロジェクトに必要な仕事の数を減らします」と言ったことです。
そしてジョンは、このテックデモが実際に何であるかを誤解していると思うが、「あなたの不満だと思うものに取り組みます。AIツールがプログラマー、アーティスト、デザイナーのスキルセットを軽視する」と非常に長く詳細な回答をしました。そして、これがただそれだけではなく、他のすべての種類のことへのドアを開く機会でもあることについて話し続けます。特に、彼が始めたとき、それが起こっていたことについて語っています。
レベルを設定すると、あなたが紹介で見逃した場合、ジョン・カーマックは「Quake」を作成しました。彼は「Doom」の創始者であり、ゲーム業界のアイコン、イルミナリーです。再び、ホールパスはおそらく二度とこのショーに出演することはないでしょうが、いつか…
人々を励ますべきでしょうか？「それはしないで、しないで」「優しく促して “来て”と言うだけ」私たちはゲストを招待していません。だから、ジョン、これは非常に特別な瞬間になるでしょう。約1年間ゲストを招待していません。Keen Technologiesについて話したいです。なぜなら、ジョンもAIを追っており、AGIやスーパーインテリジェンスを追いかけているからです。
このものの創造者は「これは印象的な研究作業だ」と言っています。彼は「AIツールは最高の人々がさらに高みに達することを可能にし、より小さなチームがより多くを達成し、全く新しいクリエイターの人口統計をもたらすだろう」と言っています。私たちはプロンプトからインタラクティブなゲームや小説や映画を得られる世界に到達するでしょうが、依然として情熱的な開発者の専任チームによって作成されたメディアのはるかに優れた例があるでしょう。そこに、あなたと私が言おうとしていたことがあります。カーマックは天才であり、私は彼に同意します。
これは継続的に認識しておくべきことであり、もしAIに反対の人々と接する場合には手元に持っておくと良いことです。これは世界を変えるものであり、物事を変えるでしょう。物事が変わるのを見ることになりますが、それはすべての人にとって悪いものである必要はありません。変化が起こるたびに、それは怖いことであり、物事のやり方を変えることができますが、特にビデオゲームについては、おそらく500人、2000人のチームでゲームを作る世界を終わらせるかもしれません。
または、GTA 8のように1つか2つのゲームはまだそのようになるかもしれませんが、他に10のゲームがリリースされ、中間的なものについては、私は100万件のレビューを得たような中間的なゲームをプレイしないので、それらの人々のうち30人が500万ドルのゲームに挑戦する方が良いと思います。それがこのツールが本当に興味深い方法で一致する可能性のあるものです。
例えば、「トムとジェリー」のカートゥーンを作りたいとしましょう。それを作る最良の方法は何でしょうか？AIを使って、アニメーターがやったすべての仕事を盗み、「テスト時間トレーニング」と呼ばれる新しいツールを使用することです。これについて話しましょう。3つのTがあります。
これはバークレーとスタンフォードなど、他のいくつかの場所の研究者たちからの本当に興味深い新しい研究です。基本的に彼らが行ったのは、この特定の例では「トムとジェリー」のカートゥーンからの一連の画像で小さなモデルをトレーニングする方法を見つけ、AIビデオの生成が行われている間、それを通して触れるようにして、1分間の非常に包括的な出力をAIビデオから作ることができるようにしました。
AIビデオについてはいつも話していますが、それは5秒か10秒ですが、かなり早い段階で5秒後にさえ、時々一貫性が失われ始めます。これらの研究者たちは、非常に長いプロンプトを使用し、このテスト時間トレーニングのようなシナリオを使用してプロンプトを継続し、非常に良いものにする方法を見つけました。
あなたの画面にあるビデオを見るか、ショーノートで見ても、それはまだ完璧には見えないかもしれませんが、ケビン、私たちはこのようなものが時間とともに変化するのを見てきたので、1分間のビデオがこのような理解をこれまで保持したことはなかったことは非常に明確に理解できます。カーマックは彼のツイートで、あなたはプロンプトから完全な小説や映画やビデオゲームを得ることができるだろうと述べましたが、これはまさにその早期の兆候です。
私たちは「プロンプト・トゥ・ハリウッド」についていつも話していますが、本当に洗練された5秒を作れるツールを扱っていますが、特徴的な映画を作るためには、それらの多くを一緒に切り取る必要があります。この例で驚くべきことは、それが直前に生成したフレームを見て、現在生成しているフレームとの関連で判断し、生成を引き起こしているプロンプトに対して判断するため、時間とともにモデルが良くなり、追加のデータを必要としないことです。
それは自分自身のトレーニングデータをフレームを作成するときに作成しています。例を見て、「ここで口がちょっと泳いでいるように見える」と細かく批評したり、歩行サイクルが奇妙に見えるかもしれないと言えますが、1年半前にAIビデオを細かく批評していた時と今日を比較すると、これがいくつかの驚くべきものの視線上にあることが本当に分かります。
1分間という長さを過小評価することはできません。完全な1分間の包括的なビデオを作成できるなんて、それは狂っていると言われていたでしょう。確かに指摘できる小さなことはありますが、3年、5年、10年後には、プロンプト・トゥ・ハリウッドのような環境に本当に到達することを示しています。
その中で人がどのように自分の声を入れるか、より創造的にするための編集での操作をどのようにするか、完全にAI生成されたコンテンツに対して本当に興味深く感じさせるものは何か、これは予見可能な未来のための議論になるでしょうが、それはどこに向かっています。
私はロボットの馬に乗って町を出て、私たちが「ロボットウォッチ」と呼ぶものに向かっています。
それはロボットウォッチです！まず最初に、川崎の新しいクレイジーなロボット馬のコンセプトについて話します。ケビン、このビデオを見ているとき、あなたの最初の反応は何ですか？
「見られません、笑いすぎて。これは狂っているほど信じられないものです。エイプリルフールのことだと思いました。本当に素晴らしいマーケティングだと思いました」
「クロップクロップ、説明する時間はない」と言います。
川崎重工業が奇妙なコンセプトを披露しました。それは騎乗可能な四足のロボット馬です。彼らはそれを「コリオ」または「コルレオイ」と呼び、150ccの水素エンジンで動きます。
これがどのように見えるかを説明するのは難しいですが、ほとんど「アバター」の「ナヴィ」のようなものです。これは概念的なビデオであり、多くの人々がこれが実物だと思っていますが、そうではありません。ビデオはコンセプトですが、興味深いのは、それが岩の上を登るのを見ることです。
人間が乗る大きな犬のようなロボットを想像してください。そして歩き回ります。ケビン、これを見ると、それはボストン・ダイナミクスのロボット犬にオートバイのハンドルバーがついたようなものです。
「そうです、そして私は自分への影響が心配です」
なぜなら、これについて考えると、オートバイに乗っているときのように、多くはサスペンションについてですが、馬に乗ったことがあると思いますが、しばらくすると本当に気分が良くなくなります。あなたの体がそのように揺さぶられることに慣れていないからです。
これもそのように感じると思うので、これをやりたいとは思いませんが、川崎が出てきて、ロボット馬の未来のバージョンを見せてくれたことに感謝します。軍事アプリケーションを見てください。もし見れば、急な岩だらけの地形を山羊のように登ることができます。水素動力エンジン、私に乗せてください。これらを新しいスターシップ・トゥルーパーズに入れてください。
背中に乗れるロボット、ほぼクマのように立ち上がったものがあるかもしれません。後ろから抱きしめるような感じになります。「それを前から乗りたいです。ベビー・ブジョルンに乗りたいです」
「十代の忍者タートルズに出てくる小さな脳を持ち、巨大な男の上に座っている男は誰ですか？」
「そうです、それくらい大きいとして、私はそのお腹にいることもできます。私はそのベルトバックルになり、腕をこう動かして、歩きながらコントロールします」
これまで以上に、私たちにはコミュニティがAIの創造物をシェアするDiscordがあることを言う良い時間です。そこに参加するか、ツイートするだけでもOKです。
「その通り、何でも送ってください」
もう一つの本当に興味深いロボットのことは、非常に有名なTwitchストリーマー、YouTubeストリーマーであるIShowSpeedが最近中国で数週間過ごしたことです。ソーシャルメディアで見ると、本当に興味深いことがありました。
最も魅力的なのは、彼がEngine AI社を訪問したことです。IShowSpeedが支払いを受けてそこに行ったのか、これが彼らの広告なのかはわかりませんが、興味深かったのは、Engine AIを覚えていれば、これは数週間前に斧を持つロボット、斧のダンスを披露した会社です。
このビデオでは、IShowSpeedはまずこのロボットと一緒に過ごし、次にロボットと踊り、興味深いのは、斧なしで斧のダンスが再び登場することです。同じロボットのダンスをしますが、私はそれが大好きです。
最後に、IShowSpeedはそれを偽装して殴り始め、ロボットは倒れます。このケースで私が本当に気になるのは、IShowSpeedが本当にそれをやる考えに偶然突き当たったのか、それともロボットが特にあなたとスパーリングし、倒れるように設計されているのかということです。
「私は、おそらく事前にプログラムされたアニメーションダンスサイクルまたは戦闘サイクルの終わりに、それがバランスを失うと思います。Engine AIは彼らのクレジットにこれらのビデオを投稿しており、それらから逃げていません。別のビデオでは、彼らはマクドナルドの外の混雑した廊下にいて、ロボットに再び斧を持たせ、踊っていますが、ダンスの終わりに近づくと、少しよろめき始め、消えていき、倒れ、部品が飛び出します」
「待って、2番目のショーを見ましたか？彼らがストレッチャーを持ってくるところを？」
「ええ、だからこそ私はこの会社が好きなのです。過去のAIデモを見ると、ホンダがOsimoのようなロボットを持っていて、階段から落ちると、彼らはプライバシーカーテンを持ち出し、恥を隠そうとします。しかしここでは、ロボットが倒れて部品が飛び出したという事実から料理を作っています」
「正直言って、このロボットの映画を見たいです。なぜなら、私を最も魅了するのは、26秒のところで行うダンスです。腕を前後に動かし、楽しそうに見えます。これがロボットになり得るものであり、興味深いのは、これはEngineからのショーで、おそらく彼らはSpeedを連れてきて、この宣伝を得るようにしたのでしょうが、あなたの言う通り、他の企業が見せるのを恐れることをこのロボットが見せています」
「私は感銘を受けています。Engine AIは中国の企業であることを明確にしておくべきです。中国は私たちがショーで以前に言ったように、アメリカに比べてロボットにおいてはるかに進んでいるように感じます。中国とアメリカは今何かを経験していますが、それは私たちの責任ではありません」
「中国とアメリカは少し何かを経験しています。ニュースを見ていないかもしれませんが、私たちのせいではないことを明確にしておきたいです」
これらのビデオは私たちを立ち止まらせましたが、それはロボットウォッチでした。今、私たちは「それを見たぞ！」と叫んで一時停止させたものについて話し続けます。
時々、何の心配もなくスクロールしていると、突然止まって叫びます。「あなたがやったことが見えた！」
「それがやったことが見えた！」
その通り、「I See What You Did There」では、毎週私たちが好きな人々がAIで何をしたかを見ていきます。特に今週、ケブ、Gemini 2.5 Proに関連する本当に楽しいものがあります。
Gemini_playsポケモンに行くと、彼らはGemini 2.5 Proモデルを設定して、Claudeがしたようにポケモンをプレイさせています。ケビン、これについて本当に興味深いのは、Claudeよりも良い成績を上げていることです。実際、3時間50分でマウントムーンから脱出しました。これはベンチマークとして考えるのは非常に大きなことです。
それは狂っているように聞こえるかもしれませんが、これはAIが自分自身でポケモンをプレイしていることを理解する必要があります。誰も指示を与えていません。彼らはそれを設定し、これはAIが他のモデルよりも改善しているのを見る本当に興味深い方法です。
これは曖昧な数学の問題や暗号パズルよりもはるかに良いベンチマークです。私はこれが大好きですが、これらのものがどれだけ速く立ち上がるかも非常に魅力的です。AIにゲームをプレイさせたり何かインタラクティブなことをさせたい場合、多くのことをハードコードする必要がある時代がありました。
今では、画面出力をAIに送るだけで、それが読み、何を見ているかを理解し、エミュレータと対話させるためのカスタム配管がないと手を振っているわけではありませんが、これらのものは本当にすばやく進化しています。121人がAIがポケモンをナビゲートしようとしているのを見ているのが好きです。
「それは狂っていますね」
もう一つのビデオゲームに関連するクールなものは、Nicholas Zulo（@Nicholas_Zoo）が、私が本当に興味深いバイブコーディングゲームと考えるものに取り組んでいることです。おそらく他の人々もこれをやっていますが、これらのツイートを見かけただけです。
彼は基本的に「究極のサンドボックス」と称するものを構築しており、それはほぼ3JSに組み込まれたMinecraftのようなものです。バイブコーディングのようなもので、空間で何が欲しいかを入力するだけで、それが作成されます。
私はこのようなゲームが大好きで、これはただ目にとまったものの一つでした。誰かがゲーリーズ・モッドのようなバイブコードをしようとしているのは完全に理解できます。
「ええ、あなたと私は数年前、かなり資金が豊富な会社を見ました。彼らはさらに資金を集めていたと思いますが、「赤いソファが欲しい」とか「エンドテーブルをください」と言うことができるエンジンのデモがありました。それがワールドに出現しました。当時は正確に現実ではありませんでしたが、今ここに来て、AIが誰かがエンジン内でバイブコーディングしていることが私には驚くべきことです」
「それは同様のことであり、空に爆発するロケットなどもあります。AIがそれを今やっています。私はそれが大好きで、これは対話するのが楽しいでしょう。姪と一緒にこのゲームをプレイし、共有された世界に入ってオブジェクトを生成し、何かを作りたいです。ブロックごとにやるよりも、こちらの方が魅力的です」
「これは非常にクールです。この特定の男性が話していたのは、AIを呼び出すのにかかるコストのため、まだ公開していないということです。これはバイブコーディングの欠点の一つであり、物自体にAIが関わるからです。人々がそれらのモデルを呼び出すごとに支払わなければなりません。とにかく、これは見る価値があります。間もなく出るでしょう。とても素晴らしいものです」
これはマリナラ水の中の冷たいスパゲッティの皿のようにバイラルになるかもしれません。これはRedditの単純な投稿で、6,500のアップボートがあります。「絶対にバイラルにならない画像を求めました」
これについて魅力的なのは、ブロスの中のスパゲッティの皿で、白い皿、背景にCRTがあります。想像できる中で最も退屈な写真ですが、奇妙なフラッシュがあるので退屈すぎて、結局バイラルになりました。
「私のお気に入りは、そのRedditスレッドへの一番上の返信です。ショックを受けた表情のYouTubeサムネイルを持つ男性のバイラル画像です」
「それはサムネイルのための返信で素晴らしいです。何という素晴らしいプロンプトです。画像モデルが下した決定が好きです。あなたが言ったように、古いCRTが背景にあり、目立たない観葉植物が目立たない茶色の鉢に入っています。TVスクリーンと皿にも反射するフラッシュがあります。それは完璧に退屈です」
「その通り、ケビン。歯磨き粉の作り方が何であるか知っていますか？それは、意外にも面白いかもしれません。この動画を再生して、歯磨き粉がどのように作られるかを聞いてみましょう」
「カメはコンベアベルトに置かれ、初期処理のために準備されます。カメはすべての色を取り除くために紫色の溶液に浸されます。色が取り除かれたら、抽出を開始するために頭に吸引チューブが取り付けられます」
「これは興味深いですね。これのどれも知りませんでした」
「圧力は皮膚層から吸引チューブを通して歯磨き粉の化合物を引き出します。これは抽出されたペーストが沈殿されるところです。カメは接続されたままです」
「大丈夫、もし音声だけを聞いているなら、それは実際に正しい選択です。これが何であるかを説明しましょう。これは私を笑い転げさせたものです。これは基本的に「How It’s Made」のような番組の完全に作り上げたバージョンです。物がどのように作られるかを示す番組です。この場合、それは歯磨き粉がどのように作られるかです」
「この男性は、これらの種類のビデオをたくさん作っていますが、コンベアベルトに沿って移動するカメがいます。これはすべてAIで作られていますので、動物愛護団体の皆さん、少し後ろに下がってください。すべてAIで作られています。コンベアベルトに沿って移動するカメがたくさんいて、それらは完全に白くなり、色が取り除かれ、その後、チューブシステムに接続されます」
「ケビンそこでは、物を引き出すものがあり、アクアレッシュのようなものが引き出されているのが見え始めます。これは、AIツールでのみ可能な奇妙でクレイジーなビデオであり、これが気に障るか（ケビンのように明らかに）、非常に面白いか（私のように）にかかわらず、これは私が見たいと思うような種類のものです」
「それはシュールで変で、私を本当に笑わせました。最近、喜びと驚きの概念について、それが人々を何かをやりたいと思わせ、行動させる原動力になることについて考えていました。AIツールがそれを促進する方法があると思いますが、これはその完璧な例でした」
「これはAIの超楽しい使用例でした。ケビン、今週はもっとSora Image Genの時間を過ごしました。先週これについてたくさん話しましたが、Soraで信じられないプロンプトを見つけました。皆さんに言いたいのは、あなたたちはSora Image Genを十分に使っていません。問題は、それが可能性を引き戻し続けることですが、この本当に楽しいプロンプトを見つけました」
そのプロンプトは「90年代のCRTの前でPlayStation 1でゲームをプレイしている、X（有名人名）の1999年頃のグランジなアナログ写真。薄暗い寝室でテレビの前の床に座り、PlayStation 1のコントローラーを持っている」です。
ここでのアイデアは、ゲームキャラクターが自分のゲームをプレイしているというものです。私はTony Hawkバージョンを作成し、Xでも共有しました。また、Laura CroftがLaura Croftをプレイしている写真や、ScorpionとSubzeroがMortal Kombatをプレイしている写真も共有しました。PS2バージョンでは、GTAのキャラクター二人もいました。
これについて素晴らしかったのは、ケビン、私が作ったこのツイートが爆発的に広がっただけでなく、他の人々が試してみるのを見るのが素晴らしかったことです。ショーノートで共有するTwitterスレッドをスクロールすると、他の人々が作ったものを見ることができます。
誰かがPierce BrosnanがN64でゴールデンアイをプレイしている素晴らしいものを作り、誰かはHulk HoganがWCW NWA Thunderをプレイしているもの、John MaddenがMadden 95をプレイしているものを作りました。
このような創造性がすべて一つの小さなことから生まれています。明確にしておきますが、私はオリジナルを作ったわけではありません。おそらくオリジナルはトゥームレイダーをプレイするローラ・クロフトのものだと思います。私はただTony Hawkのものを作り、「誰かが作ったこのクールなフォーマットを見てください」と言いました。そして誰もが参加しました。
このスレッドをスクロールすると、インディアナ・ジョーンズとアトランティスの運命をプレイするハリソン・フォードやバトルトードがバトルトードをプレイするのを見るような小さなドーパミンの刺激があります。人々がどのゲームや見たいキャラクターに行くのか、これは本当に楽しいプロンプトです。
「私にとって、これは本当に能力を持ち、制御されていると感じずに物事をすることができるときに可能です。ジブリの瞬間のように感じました。単に「この有名な会社のIPを使っている」だけではなく、もっと世界全体が関わっていたら創造性がどのように感じられるかのようでした」
「このようなものが存在することを可能にする方法を見つけることを願っています。OpenAIが少しずつ弱体化していることは知っています。もう一つ最後のことがあります。共有する前に言いたいです」
「また、「80年代の日本映画」のプロンプトをTwitterで共有しました。80年代の日本映画の写真を作り、とても楽しいものがいくつかあります。グーニーズのポスターも作りました。しかし最も楽しかったのは、Soraで見た非常に有名な画像で、ハリー・ポッターの人々が完全にマッチョになっているものです」
「ハリー・ポッターのスタッフ全員がマッチョで、彼らは部屋にいました。そのプロンプトを取り、スーパーバッドのキャスト用に書き直しました。基本的に、ジャック・マクロヴェン、マイケル・セラが全員ジムにいて、「Break Yourself」という言葉があります。これがリミックスの楽しみです。本当にクールなプロンプトを見つけるとできることです」
「素晴らしいですね。私たちはまだこの画像モデルの能力を発見し続けています。人々はSoraのウェブページに行くべきです」
「そしてそれはリミックスツールがあるところですが、最良のツールはプロンプトを書き直すことです。なぜなら、Soraで何かをリミックスするとき、ほとんどの場合、オリジナルを取り、それを変更するからです。本当に欲しいのは、作成された元のインスタンスです。変更すると時間とともに悪くなると思うので、新しい繰り返しから始めたいのです。プロンプトを取り、書き直してください」
「私たちの超秘密のことを世界に公開したいですか？」
「私たちはそれを世界に公開したくありません。今はそうしたくありません」
「もし私たちがクジラたちに話しかけて、私たちがそれを少しずつ明らかにしていることを知らせたらどうでしょうか？おそらくそれは私たちがすべきことです」
「それらのクジラとは、水中のクジラのことですか、それともどのようなクジラのことですか？」
「業界の巨人たち、VC企業の船長たちのことです。私たちは積極的にこの取り組んでいることに資金を探していると言えます。私たちはそれについて本当に興奮しており、何か興味深いことをしたと信じていますが、それ以上のことは言いたくないと思います。なぜなら、私が今週AIで行ったことを共有するつもりはないからです」
「分かりました、それでは私たちはこれから離れましょう。ケビンと私はあなた方全員から離れてこれについて話し合います。私たちはあなた方をとても愛していますが、あなた方の前でこれについて話すことはできません。今からです。そして来週またお会いしましょう」
さようなら！