GoogleのImagen 4とGemini 3がすべてを変えた!

Google・DeepMind・Alphabet
この記事は約41分で読めます。

GoogleがGemini 3 ProとImagen 4を発表し、AI業界に大きな衝撃を与えた。Gemini 3 Proは現時点で世界最高性能のAIモデルとされ、ウェブデザイン、コーディング、動画理解など多岐にわたる能力を発揮する。特にウェブデザイン分野では既存モデルの2倍近い性能を示し、単一ショットで高品質なインターフェースを生成できる。一方、Imagen 4は正確なテキストレンダリングと4Kネイティブ出力、最大14枚の参照画像対応など画像生成において大幅な進化を遂げた。OpenAIも対抗してGPT-5.1 ProとCodex Maxを投入し、最大2時間42分の連続作業が可能となった。Metaも新たなSegment Anything 3を発表し、Sunoは2億5000万ドルの資金調達に成功するなど、AI開発競争は新たな段階に突入している。これらの進展は、AIの進歩が停滞しているという懸念を払拭し、むしろ加速していることを示している。

Google's Nano Banana Pro & Gemini 3 Just Changed Everything!
Gemini Pro 3 and Nano Banana Pro push Google into the lead in the race for AGI. Meanwhile, OpenAI isn’t far behind with ...

GoogleのImagen 4とGemini 3 Proの衝撃的発表

GoogleがImagen 4 ProとGemini 3 Proの発表で世界を驚かせました。これまで見た中で最高のAI画像モデルであるImagen 4 Proの魅力に迫ります。鮮明なテキストレンダリングから、シムズの拡張パックやトータル・リコールに登場するMr.ビーンといった奇妙なものまで生成できます。

次に、現時点で世界最高のAIモデルであるGemini 3 Proについて詳しく見ていき、その活用方法をお見せします。実際あまりにも優秀なので、番組のイントロを書かせて、それを単一ページのウェブサイトとして構築させました。つまり、私たちの仕事を代わりにやってもらうことにしたんです。ギャビン、本当にやったの? ええ、これです。AI for Humansへようこそ。幻覚を起こさない唯一の番組です。まあ、ほとんどね。ケビンとギャビンがお送りします。もうジョークを言ってますね。

まず、GoogleがGemini 3を投下しました。ウェブサイトをデザインし、ゲームをコーディングし、物理法則を無視します。アイザック・ニュートンが震えていますよ。OpenAIはCodex Maxを搭載したGPT-5.1 Proをリリースしました。文字通り数時間考え続けることができます。それは私のバッテリー寿命より長いですね。ほら、この音楽に乗ってきましたよ。

MetaがSegment Anything 3を投下しました。あなたの家のすべてのピクセルを識別できます。これは恐ろしいことです。さらにSunday RoboticsがAct Oneを発表しました。靴下を畳み、エスプレッソを作ります。もう結婚は時代遅れですね。未来は奇妙です。エピソードが始まります。さあ、本題に入りましょう。

エピソードが始まりました、皆さん。これがAI for Humansです。エピソードが始まりました。ようこそ、皆さん。AI for Humansへ。AIの世界へのすばらしいガイドです。私の名前はギャビン・ピューセルです。そして、こちらがケビン・ペレイラです。

今日はここに来て、速報についてお話しします。Imagen 4 Proが今朝発表されました。ケビンの出張の都合で昨夜遅くに収録しなければならなかったので、私が一人でこれについて少しお話ししてから、Gemini 3 Proとそこから生まれた驚くべき内容すべてに戻ります。

Imagen 4 ProはGoogleの新しいAI画像生成モデルで、とんでもないものです。この話を追ってきた方なら、Imagenが人々が話題にしていた大きな画像モデルだったことは明らかです。Googleは数日前からこれを予告していました。私たち全員、これが来ることを知っていました。今週の初めにGemini Proを投下し、今それがここにあるという奇妙な形での発表でした。

これまでに見たハイライトのいくつかを簡単に紹介してから、番組に戻る前に、これまでに見た最もクールなことについて簡単にお話しします。まず第一に、情報収集とその情報を特定の画像プロンプトに変換することに非常に優れています。多くの人々がこれを使ってインフォグラフィックスを作成しています。

スンダー・ピチャイ自身も、Imagen 4 Proに関する投稿でこれを披露しました。基本的にできることは、ウェブからリアルタイム情報を取得し、そのリアルタイム情報から実際の画像を作成することです。実際に、現在のNFLレシービングヤードリーダーについて作成してもらおうとしました。最初はうまくいきませんでした。

しかし、GoogleチームのメンバーがAI Studioではより良く機能すると返信してくれました。Geminiで何か修正しようとしているそうです。これは本当にクールなことです。これらの画像を使ってスライドデッキを作成したり、そのような非常に特定のものを想像できます。また、情報を見る本当にクールな方法でもあります。

イーサン・モリック、私たちのお気に入りの投稿者の一人が、パンをトーストする方法についての非常に複雑なインフォグラフィックを作成しました。これもここに掲載します。非常に密度の高い情報収集です。今日の最初の画像は、エイリアンが地球に近づき、たくさんの「立ち入り禁止」標識がある、フューチュラマスタイルの漫画風の絵を作成するよう依頼しました。

この画像を見ると、ここに20以上の標識があります。それらすべてにユニークなテキストがあり、そのほとんどが完璧だと思います。少し不正確なものが1つあるかもしれません。ほとんどが完璧で、これは大きな出来事です。これまで、AI画像モデルはこの正確なことで大失敗していたでしょう。つまり、これは大きなアップグレードです。

Imagen 4 Proが得意とするもう一つのことは、画像転送です。明らかに、このことは番組でしばらく話してきました。ある画像を取って別の画像に転送できるという考えです。レゴで人々がこれを行っている例や、その他あらゆる種類のものがあります。これは、AI画像生成で以前見てきたバージョンからのステップアップに過ぎません。最初に試したときから非常に優れています。

他にもいくつか簡単なことがあります。ネイティブ4K画像生成を備えており、特にグラフィックや画像の詳細を求める場合に素晴らしいです。実際、画像モデルと非常に密度の高いテキストを使って何かを試してみました。4Kで良いと思いました。実際、ダンジョン・クローラー・カールのダンジョンの6つのレベルのインフォグラフィックを生成するよう依頼しました。

ご存じない方のために説明すると、これは私が読んだ本で、すべての人にお勧めします。かなり良い仕事をしましたが、単語の一部が見えます。この単語の密度を見てください。単語の一部が少しぼやけており、いくつかは間違っていました。4Kにアップグレードしたとき、それは実際には問題を解決しませんでした。

しかし、クリエイティブ専門家で、4Kの人物画像などが必要な場合、ネイティブ4K出力を持つことは本当に良いことです。ここで理解することが本当に重要なもう一つのこと、これはちょっとクレイジーですが、Imagen 4 Proに最大14枚の参照画像をアップロードでき、それらを認識して使って何かを作成できます。

ここに非常にクールな画像があります。ある人が14の異なる小さなマペットのようなキャラクターをアップロードし、それらを1つの画像にまとめています。それは私を驚かせました。なぜなら、一般的には3つか5つ、多分6つの異なるキャラクターでこの種のシナリオをうまくやれるかもしれないからです。

その例では、それらすべてを取って1つの特定のルックにまとめることができました。これは巨大なアップグレードです。今すぐ試すことができます。Gemini ProやPlusやUltraの購読者でなくても、200ドル払う人がいるかわかりませんが、無料で試すことができます。購読者でない場合は、通常のImagenにすぐに切り替わると思います。

これまでのところ、このモデルでの私の経験は驚異的でした。おそらく今後数日間、もう少し時間を費やすでしょう。来週には、これについて非常に具体的なチュートリアルビデオを作成するかもしれません。通常の番組スケジュールに戻る前に、これまでに見たいくつかの本当に面白い使用例を紹介したいと思います。forhumans.behive.comでこれについてさらに書きました。

今朝1つ掲載しましたが、本当に楽しいものが2つあります。まず、サナン・ヘルヴァシ、Xのサナン・ヘルヴァシが、シムズの拡張パックの画像を投稿しました。繰り返しますが、これらはここから生まれる創造的なものです。いくつか異なるものが見られます。

私が本当に気に入っているのは、ねずみ講拡張パックで、それを見てください。そして、これまでに見た中で私のお気に入りのもので、どのくらいの間許可されるかわかりませんが、Tom likes robotsは、Xで素晴らしいフォロー対象ですが、実際にMr.ビーンを取り上げてトータル・リコールに入れました。これも、AI画像生成でできる楽しくてクレイジーな種類のもので、本当に良く見えます。

とにかく、あなたが作った楽しいものをDiscordやXで共有してください。それらを見てみます。そして今、通常のプログラミングに戻ります。ケビン、Gemini 3 Proが発表されました。お伝えしたいのですが、あなたの最初の感想を聞きたいです。私の最初の感想は、これは非常に良いモデルだということです。これまでのところ非常に感銘を受けています。すべてについて詳しく説明します。

非常に多くのことができます。しかしまず、あなたは時間を費やしました。あなたの考えは? 最高のモデルです。皆さん、見てくれてありがとう。さようなら。つまり、私は特に反重力、Googleの新しいコーディング用IDEを使って時間を費やしました。それについては詳しく説明できますが、非常に気に入ったので、クレジットを使い果たしたとき、取り組んでいたプロジェクトで作業を続けたくありませんでした。

通常、レート制限や他のモデルで何かがある場合、別のモデルに切り替えるだけです。それらはすべてかなり良いので、回避できます。これは非常に優れているので、48時間前の時点で最高クラスのモデルに切り替えることで、プロジェクトに不利益を与えているように感じました。そうですね。

それでは、これが何であるか、何を見ているかについて少し話しましょう。これはGoogleの新しい最先端モデルです。ベンチマークはおそらく私たちの視聴者にそれほど意味を持たないと思いますが、もしそうなら、これらは非常に良いです。実際、いくつかの巨大な数字があります。本当に興味深いものの1つは、humanity’s last examベンチマークで、これは非常に難しい数学と科学の問題で、人々がもはや役に立たないであろうことを私たちが知るために作成されました。これは現在、deep thinkバージョンでは全員には公開されていませんが、そのdeep thinkバージョンでは47%です。

このモデルができることの純粋な観点から、それは素晴らしいですが、それはあなたがそれを使用したときの感覚を過小評価していると思います。そこにいる皆さんに理解してもらうことが重要だと思うのは、今後6か月で何らかの形で最先端のジャンプがあると予想していたということです。これは私にとってそのように感じます。

遊んでみた経験と、今すぐ試せる具体的なものについて話しますが、私たちは今AIの次世代にいます。この番組でGPT-5について長い間話してきたことは知っていますし、それについて議論しました。多くの人々が、ああ、それはより最適化されたモデルだったかもしれない、OpenAIがドアの外に出すための方法だったかもしれないと感じていたと思います。

それが悪いというわけではなく、5.1で更新されました。後で5.1 Proについて話します。しかし、これは私にとって、あの次のレベルに移行したような初めての感覚です。ああ、わかった、壁はない。ここには減速はない。より大きなものに移行しているように感じます。そうですね。

つまり、進歩をグラフ化すると、上がり、すべてのもので非常に高く上がります。右肩上がりです。おめでとう、Googleチーム全体。展開として、私はこれが検索結果のインターフェースを動的に生成するために統合されているのを見ました。アニメーション、インタラクティブなものを作成する。これは創作文章やバイブコーディングだけではありません。これはGoogleが自社製品に自社のインテリジェンスを使用する方法のパラダイムシフトだと思います。

しかし、すべてを見ました、ギャビン。人々がAIのために行う、幾何学的形状の中で跳ねるボールのテストを見ましたが、ボールが跳ね回る単一の六角形をやるのではなく、異なる設定の千の異なる形状のマトリックスアーキテクトのようなパネルをやっており、すべてが跳ね回っており、それはデジタルのまつげを動かすことなくそれを処理します。

私は、非常に自然な言語のように感じられる大規模なブログ投稿を書いているのを見ました。いわゆるAIによって生成されているようには感じられません。書かれたロジックパズルを解いています。コードから太陽系を動的に作成しています。物理学の問題を解いています。これはメジャーリリースのように感じられます。そして、繰り返しますが、私はほとんどそれでバイブコーディングをしました。

あなたが何をしたか聞きたいですが、もう一度次の数か月の進歩について非常に興奮しています。そうですね。そして、他のクールなものについて話す前にここに飛び込みたいことの1つは、Googleの全AI DeepMindの世界を担当しているデミス・ハサビスが今週Hard Forkに出演し、この特定のモデルについて話したことです。

デミスについて興味深いことの1つは、彼がAIのタイミングに関して常に同じ道を歩んできたということです。しかし、この瞬間、彼にとってもこの瞬間は、かなり大きな出来事のように見えました。このクリップを簡単に再生してください、ケブ。私は、もしあなたがどういう意味かわかれば、完全に軌道に乗っていると思います。この進歩に本当に満足しています。

これは絶対に驚くべきモデルだと思い、私が期待していたこと、そしてGeminiの始まり以来過去数年間私たちが歩んできた軌道にまさに乗っています。これは業界の誰よりも最速の進歩だったと思いますし、その軌道を続けるつもりで、それが続くと予想しています。

しかし、それに加えて、汎用知能から期待される一貫性と、推論、記憶、そしておそらくSimmerやGenieで取り組んでいるワールドモデルのアイデアのような改善を本当に得るためには、あと1つか2つ必要なものがあると思います。それらはGeminiの上に構築されますが、さまざまな方法で拡張されます。

そこでデミスについて興味深いのは、彼はAGIに到達するまであと数個のものがあると言って少し控えめに演じているようなものですが、今日このモデルで遊んで、過去1、2日それに多くの時間を費やしたとき、初めてそこへの道筋にいるように本当に感じます。過去6か月間ほど少し減速しているように感じましたが、これは飛躍であり、私たちがやったことに飛び込む前のもう1つの本当に興味深いことだと思いますが、他の人々がそれを使って行ったクールなものもあります。

これはすべてGoogleのTPU、つまりテンソル処理ユニットで訓練されました。これは少しオタクっぽい用語ですが、これはすべてGoogleチップで行われたため、テンソル処理ユニットです。Nvidiaチップは使用していません。これはすべてそこで行われました。

そして、これは7兆パラメータモデルであるとされています。つまり、スケーリング、スケーリング法則の両方、これは常にAIシステムにより多くの計算を追加できるというもので、推論訓練でのポストトレーニングだけでなく、人々が計算に時間を費やすことができる場所ですが、プレトレーニングでは、実際にはるかに大きなプレトレーニングセットがありました。つまり、これらのいくつかがそこから来た可能性があると言っています。

それについていくつかの背景を説明する前に、人々が作った驚くべきものに飛び込む前に、それを過小評価すべきではありません。これは、Googleがこれらのものを訓練するために使用されるハードウェア自体からスタック全体を指揮することです。そして、彼らはこのモデルに大量のデータを投入することができました。そして、彼らは少なくとも比較的コスト効果的に、ほとんどのGPUよりもエネルギー使用量が少なく、これらのTPUチップを使用してこれを作り出すことができました。

これは彼らにとって信じられないほど大きな堀になるかもしれません。彼らは、モデルを訓練するためにそれらのNvidia GPUを手に入れる他の誰にも恩義を受けないかもしれません。それは彼らにとって大胆な賭けでしたが、報われているようです。これはTPUで完全に訓練され、これらのTPUによって提供されており、高速であり、それも大きな差別化要因です。

私がそれをいじる限られた時間と、他のすべての人が持っている反応を見ると、最高のモデルであるように思われます。しかし、それはまた最速のものの1つでもあり、それは信じられないほど印象的です。そうですね。それでは、それでできることのいくつかに飛び込みましょう。

Gemini 3 Proの実用的な活用例

私が見た最も魅力的なことの1つは、3JSインタラクティブWebデザインであり、ケビンがトップで行ったもので、それらはすべてGemini 3によって完全に生成されました。本当に注目すべきことの1つは、私たちが見てきたさまざまなバリエーションを見ることで、その中のいくつかを見ると、人がそのウェブサイトを作れなかったはずはないと思いますよね。デザイナーのウェブサイトのように感じられます。いいえ、これは実際にすべてGeminiによってコーディングされ、多くの場合、単一ショットで行われました。

実際、design arenaベンチマーク、これはデザイン、LLMがウェブサイトなどをどれだけうまくデザインできるかについての特定のベンチマークで、このグラフを見ると? チャートは狂気です。Gemini 3は以前のモデルのほぼ2倍になっています。だから、それは本当に興味深いです。ワインのウェブサイトを再設計した人の本当にクールな例があります。これはあなたが見ないであろうランダムなものの1つです。

Replitには、Webデザイン専用に自分たちで構築した新しいツールがあります。私自身でも小さなテストを行いました。ヴェイパーウェイブサイトを作ろうとしただけです。クレイジーなのは、本当に興味深いデザインを得るために実際にやらなければならないことがほとんどないことです。視聴者のデザイナーの友人たちに言いたいのではありません。あなたの仕事がなくなるとは言いません。

しかし、今興味深いのは、構成要素がそこにある今、人々ができることを見ることです。人々がWebデザインに関してどれだけ飛躍できるか、かなり印象的だと思います。

モデルはネイティブでビデオも理解できます。YouTubeをそれに投げることができ、特定のタイムスタンプでビデオ自体の中で何が起こっているかの具体的な説明を求めることができ、すぐにそのビデオを取り込んで理解します。

ロボット工学や自動化データがそこに供給されたという噂がいくつかあります。他のモデルが行わない方法で世界のナビゲーションを理解しているようです。3JSを再度使用した、しかしボクセルを行いアートを構築するクールなマルチモーダルテストがいくつかありました。その一部を選択して、ここに木を追加し、ここに滝を追加し、これを行い、カメラで回転させることができます。

これは、私たちはこの出てきたものに比較的言えば数分しか経っていません。人々はそれをさまざまなことに使用しており、それが非常に有能であることを発見しています。基本的なゲームをバイブコーディングするだけでなく、ゲームのすべてのグラフィックとスプライトを生成してください。

実際、人々が作った本当にクールなゲームがたくさん見られました。たくさんのバイブコーディングされたものです。デミス・ハサビスは実際に彼の有名なテーマパークゲーム、テーマパークをGoogle Gemini内で再作成しました。すべて小さなブロック状のキャラクターですが、彼は実際にそれに時間を費やしました。

そして、彼らがやった本当にクールなことは、ケブ、YouTubeで今、Geminiでコーディングされたゲームのいくつかをプレイできます。これらは超複雑ではありませんが、YouTubeゲームで再生可能な要素としてこれらを作成したことは驚くべきことです。そこに行けば、小さなタンクゲームを試すことができ、この他のものを試すことができます。

特に若い人々にとってですが、誰でもが何かをかなり迅速に作成することを想像し始めました。バイブコーディングされたゲームになるとそれを公開できるようになると、それは非常にクールなことです。私は今、キャプテンズコインをプレイしています、ギャビン。海賊船として3D Mazerunnerのようなゲームをプレイします。

ええ、高校でサーフィンしていますが、楽しいですよね? そして、クールなのは、YouTubeが実際のパイプラインとしてそれを統合する世界を想像できることだと思います。コードからゲームへ、公開へのような、それはYouTubeにとって大きな可能性のあるビジネスですが、非常にクールな機会でもあります。

Gemini 2.5 Proが出てきたときにこれを覚えているかどうかわかりませんが、実際にベアジャンプゲームを作成しました。昔やったときを覚えていますか? だから、基本的にそのコードを取りました。古いGeminiのものを探しに行って、文字通りコードをGemini 3にダンプし、これを良くしてくださいと言いました。そして、Quantum Bear Jumpを作りました。

これについて素晴らしいのは、ゲームがそれほど変わらないようなものではありませんが、本当にうまく機能するということです。グラフィックははるかに優れています。はるかにクリーンです。そして、ジャンプするたびにインスピレーションを与える引用のような小さな引用さえ追加しました。だから、皆さん今すぐそのゲームをプレイできます。

ショーノートにリンクをドロップしますが、完全な非コーダーとしてできることの良い例です。私の元のベアジャンプゲームは、スペースバーを押すとベアがジャンプしてスコアを獲得しなければならないゲームを作りたいというようなものでした。少し行ったり来たりしましたが、今回は、それを良くしてくださいと言っただけです。そして、それはそうしました。

それこそがこのAIができることの素晴らしい約束です。しかし、私たちの視聴者にとっては、それで何ができるかではなく、実際にどのように使用するかを指摘する必要があると思います。Geminiをどのようにいじるかについて。それを食べるリーシーズのように、正しい方法も間違った方法もなく、どこにでもあるようなものはありません。

gemini.google.comにアクセスでき、持っているアカウントのタイプによっては、高速またはシンキングバージョンにアクセスできる場合があります。コードで遊んでその方法でいじりたい場合は、AI Studioにアクセスできます。

GoogleのAI deep diveモードにアクセスでき、新しいGemini 3 Proにアクセスできる場合があり、検索に基づいてWebページを生成するような、私が先ほど話したダイナミックインターフェイスの1つを実行できる可能性があります。それを通じてアクセスできる可能性があります。アクセスできない可能性もあります。したがって、最新モデルにアクセスできることを確認するために、ページを探し回る必要があります。

そして、コーディングを具体的にいじりたい場合は、Googleの新しいコーディングアプリであるAnti-Gravityをダウンロードできます。現時点では完全に無料です。そして、昨日または今日の私の経験と同じなら、使用上限に達してイライラする前に数分間無料で使用できます。そうですね。

まあ、後でそれについて話すつもりでしたが、今すぐ飛び込むかもしれません。そこで起こっていることは本当に魅力的なことだからです。これはanti-gravity、Googleの実際の新しいコマンドラインインターフェイスですよね? これはCodexへの彼らの答えです。これはClaude Codeへの彼らの答えです。面白いことに、ちょっとした内輪ネタがあります。

覚えているかどうかわかりませんが、Windsurf買収の失敗のようなものが全体的にありました。まあ、Windsurfの創設者を連れてきたとき、Windsorfコードをフォークして、それをこのものに入れたことがわかりました。そうですね。Anti-GravityはMicrosoftのVS Codeのフォークです。

かわいそうなMicrosoft、皆が略奪して数十億ドルを稼ぐために使用した最高のものの1つをリリースしました。しかし、その通りです。いくつかのWindinsurfコードが含まれているようです。人々がアプリの深部で見つけていたWhimserve機能への参照がありました。しかし、その核心では、VS Codeのように感じられます。これはあなた方の大半には何の意味もないかもしれませんが、エージェントマネージャーモードがあります。

それを押すと、基本的にワークスペースが得られます。したがって、複数のアプリと複数のチャットを同時に開くことができます。ベアジャンプゲームを作ってください、または単一のWebページとしてポッドキャストのイントロを作成してくださいと言えます。そして、これらの複数のチャットを実行でき、基本的に受信トレイがあります。

彼らは実際にそれを受信トレイと呼んでいます。エージェントが完了したとき、または注意が必要なとき、または計画をレビューする必要があるとき、または必要な権限が何であれ、通知されます。そして、それとコメントして、それを引き裂くことができ、複数のプロジェクト内で複数のチャットを持つことができます。

そして、これは、作業しているさまざまなリポジトリ、異なるプロジェクトで進行中のさまざまなチャットを持っている特定のレベルのエンジニアリングの生産性の未来が何であるかの非常に早い垣間見です。物事を承認しています。

また、重要なのは、エディターモードにいるときに右上にChromeアイコンがあることです。そして、ギャビン、このものは基本的にあなたのためにWebブラウザを実行および分析できます。他のツールがあります。cursorやcloud codeと接続できるもの、または劇作家があります。一緒にハムストリングしようとすることができるあらゆる種類のものがあります。

しかし、ワンクリックでそれを実現できること、私のアプリを実行して機能するかどうかを確認してください。それに対してテストを実行して壊れるか見てください。この非常に初期の段階でもChromeと複雑に機能することは、他のいくつかのアプリに対する驚くべきアドバンテージのようなものです。

そして今、厄介なレート制限に達しない場合、昨日達しましたが、彼らはそれを配っています。彼らはあなたにそれを使ってほしいので、プロモードを使用できます。罠を仕掛けます。彼らがやることは罠を仕掛けることです。彼らはあなたを彼らのシステムに閉じ込めます。ちなみに、これまでにも言いましたが、ある意味ではこれらすべての企業がやろうとしていることはこれと同じで、誰もが最初、$200の価格タグがGoogle UltraでもChat GBT Proでもクレイジーだと思っていました。

6か月から1年後に、多くのアメリカの家庭が個人的にアカウントにお金を払い、多くの企業がアカウントにお金を払っているとしても驚かないでしょう。これらの新しいモデルがどれほど有用になるかがその理由だと思うからです。

そして、これらの企業の財務上の収益にとってそれが何を意味するかを過小評価できないと思いますが、自宅でこのようなことを実際に行うためには、あなたにとって価値があるようになるでしょう。そして、必要な計算量が必要になります。視聴者の多くの人々が、それは狂気だ、$200は決して払わないと思うかもしれません。

昔、ケーブルに$160を払うとは思わなかっただろうと言ったでしょう。あるいは、ケーブル代がいくらであれ。そして、最終的には、それからどれだけの価値を得るかという問題になります。そして、ケビンはビジネスとコーディングの観点から、少なくとも即座に導き出せる価値がたくさんあると非常に明確に言っていると思います。最初のレート制限に達したとき、最初にやったことは、より多くのクレジットを得るためにもっと支払えるかどうかを確認するためにページに行くことでした。それは格段に優れていたからです。

古いアプリケーションや、取り組んでいた小さなバイブコーディングのようなデモやゲームやものの問題をすぐに解決していました。最新のClaudeができなかった、最新のGPTモデルができなかった問題をすぐに解決していました。すぐにそれらを処理していました。そして、素晴らしい、すべてにこのモデルを使いたいと思いました。

制限に達したとき、オンラインで調べました。Googleは月に200数ドルでサインアップできるウルトラプランのようなものを持っています。現在、Anti-Gravity内のコーディングには適用されないようです。そして、多くの人々が不満を言っていました。本当に? なぜ? ええ。クレイジーです。彼らはそれを修正すると確信しています。このポッドキャストが公開されるまでに修正されるかもしれませんが、現時点では人々は、なぜレート制限されているのかと言っていました。

私もそれを受けていて、5時間後に戻ってきてください、そして制限をリセットしますと言われる程度でした。文字通りタイマーをセットして離れて、怒って歩き回り、戻ってきて、いくつかのコマンドを実行し、すぐに別のレート制限に達しました。だから明らかに何かが起こっています。彼らはそれを解放するために取り組んでいると思いますが、私の意見では、現時点でコーディングに最適なモデルであることは間違いありません。

ベンチマークは気にしません。私自身のベンチマークは、機能しないものがあり、それがワンショットのようにそれらを処理したということです。だから、アイデアを持ち、それを現実にしたいと思う非常に非常にエキサイティングな時期です。

そのすべてが起こりました。クレイジーな週でした。しかし、今日から起こる最も重要なことは、あなたがAI for HumansのYouTubeチャンネルに「いいね」をして購読したことです。

ここにいます。また来てくれました。いつもあなたが現れてくれることを感謝しています。あなたがここにいることは非常に素晴らしいことです。オーディオを聴いている場合は、ポッドキャストに5つ星のレビューを残してください。今日は小さな業務が1つあります。

来週、アメリカで聴いている場合、または国際的に聴いているかもしれません、オーストラリアのリスナーがたくさんいます。シャウトアウト。私たちは一週間休みます。感謝祭の週です。親指ダウンをクリックしてください。コメントを削除してください。明らかに、この2人はあなたのことを気にしていません。

彼らは感謝祭を休んでいます。その通りです。しかし、12月に再び始まる1週間後に戻ってきます。しかし、一週間休みます。うまくいけば、何もクレイジーなことは起こらないでしょう。きっと起こるでしょう。さて、ケビン。今週取り上げなければならない他の大きなニュースがあります。

OpenAIのCodex MaxとGPT-5.1 Proの登場

OpenAIは、先ほど述べたように、このGoogleのものを座って見ているつもりはありませんでした。先週話したように、彼らはGPT-5.1を導入したばかりです。まあ、彼らは今、2つの大きなものを導入しました。まず第一に、Codex Max。そして、これはAI空間内で人々が大騒ぎしているものです。

CodexはOpenAIからのFrontier Agentic codingモデルです。これは新しいバージョンですが、ここで大きなことは、ケビン、それが非常に長い時間働くことができるということです。そして、これはOpenAIとコーディングモデルやそのようなものすべてについて人々がいつも話していたことで、コーディングモデルが自分で働くことができる時間の量とそれが解決できる問題の種類が最大の取引でした。

OpenAIといくつかの人々がこれについて話していることによると、これは最高の最先端モデルであり、それは良くなるだけだとされています。これらのベンチマークを見ましたか? つまり、私は、はい、再び線を見ました、そして、このものが行くことができる時間の量を見ました。

つまり、彼らは何百万ものトークンにわたって作業できるようにするcompactionと呼ばれるものを使用していると思います、そしてそれがそれを助けるものです。それはデータを圧縮するような派手な方法だと思います。私は、これに手を入れる機会がありませんでした。なぜなら、知っているように、Gemini 3のすべてで遊んでいたからです。これも文字通り出たばかりです。とても面白いですよね。

知っておくべき重要なことの1つは、Meterは、AIが自分で作業できる時間、つまりAIが自分で作業できる時間を追跡する会社のようなものです。GPT-5.1 Codex Maxの時間は2時間42分です。それは、文字通り6週間前に出たGPT-5より25分長いです。

Jerry Torrekからのツイートがありました。彼はMillillionintとしています。彼のプロフィールはOpenAIのBarry Farmerですが、彼は彼らの主要な研究科学者の1人です。彼はずっと起きています。そして、彼は実際にこれを引用ツイートして、私たちは月に行くと言いました。なぜなら、このメーターチャートを見ると、それは右肩上がりのバーだからです。それは頭打ちになっているように見えるものではありません。上昇し続けています。

コーディングエージェントがより長い問題に取り組むことができるようになることについて知ることが本当に重要なことの1つは、それがより難しい問題に取り組むことができるということです。なぜなら、物事を続けることができれば、以前20分または10分しか費やすことができなかった場合、より大きな問題を通過できないだろう方法でそれらの問題を解決できるからです。これがその種の自己再帰的なものです。

まだ自分でそれをやっていませんが、これは私たちをAIが時間の経過とともに自分自身を改善し始めることができる場所に連れて行きます。しかし、待ってください、ギャビン、もっとあります。超吸収ウィング付きGPT-5 Pro Ultra Pro Plus。新しいモデルがあります。実際に新しいモデル、GPT-5.1 Proがあり、今出ています。Matt Schumerがそれを手に入れました。彼はそれについて本当に本当に素晴らしい投稿を持っていますが、私が直接盗むだけのTLDDRは、基本的にそれは引用、絶対的なモンスターですが、間違ったインターフェイスに閉じ込められているということです。だから、GPT-5.1 Proを使用できます。

これは非常に遅いですが、非常に重量級のモデルで、非常に賢く有能で、時間をかけ、物事を考え抜き、非常に有能なエンジニアのように振る舞いますが、Chat GPTインターフェイスのような中で今それをやります。まあ、これについての私のことは、私が読んだからです、私はそれを読みました。うーん。GPT-5.1 Proはおそらく何らかの形でCodex Maxだと思います。Codex Maxがそのものの中に存在するバージョンだからです。

そして、Mattがその実際のCodex Maxものへの実際の接続を持っていたかどうかわかりません。ここで、先週すべてが混乱したのは、このようなものがすべて異なる方法で出てきたからです。しかし、ええ、Mattの5.1 Proのレビューは本当に良いです。

それについて本当に興味深いと思ったもう1つのことは、実際に5.1 Proで少し遊んだことです。私が抱えている問題は、それを与えるのに十分強力な問題があるかどうかわからないことです。これは、このような優れたコーディングツールに遭遇したときに直面する問題です。何を与えることができるか考えなければならないのです。

Mattがその投稿で言った1つのことは、あなたのために計画を立てるものを与えることができるようなものだということでした。通常の生活を送っている場合、5.1 Proを持っている場合、GPT Pro購読者であればそれを持っているはずですが、長時間考えることができるものを与えることができ、はるかに良い答えが返ってきます。

5.1 ProはOpenAIのGemini 3 Proへの答えでした。誰かが、Gemini 3 Proには依然としてこのdeep thinkバージョンがある世界があると言いました。もう混乱しましたか? 名前で混乱し始めていますか? しかし、物事について考えることを可能にするGemini 3 Proの別のバージョンがあり、それはGPT-5.1 Proよりもさらに良いかもしれません。

だから、私たちはこれら2つの企業間の非常に大きな戦いに入っています。これらのシステムに考える時間を与えると、その推論時間の計算がより良く機能することがわかっているように感じます。だから、これが新しい軍拡競争であるなら、誰かが回すことができる大きなノブがあります、ねえ、ラリー、行って、行って、ノブをつかんで、少し上げてください、そして、彼らはただそれをやるだけで、それにさらに10万のトークンと時間とその他何でも与えます、そして、彼らはチャートのトップになれるようにただ流出するでしょう。しかし、つまり、それは私たちにとっての勝利だと思います。そうですね。

まあ、つまり、繰り返しますが、それは番組の冒頭で言ったのと同じことに戻ります。このようなものは今再び前進していますよね? そして、そこにいる多くの人々が自分自身を納得させていたと思います、わかりました、それは減速しました。もうそのようにはなりません。ここで物事が奇妙になります、皆さん。

物事がクレイジーになり始めるのを見始めるのはここです。これらの改善がホッケースティックするにつれて、そのホッケースティックのものが続くことができ、番組で話してきたすべてのビルドアウト、すべてのインフラストラクチャトーク、私は知っています、あなたは知っています、人々、一部の人々は、すべてのデータセンターやそのようなものについて話している私たちの番組で聞くのが大好きです。一般的に、それらすべてがこれらのものが続くことを可能にするでしょう。

今、私は未来を予言する人ではありません。それが確実だと誰にでも言えるわけではありません。しかし、今週に基づいて確かにそのように感じます。だから、今から1か月後にどこにいるか見てみましょう、ケビン。しかし、今のところ、かなり速く動いているように感じます。Metaがまだここにいることを忘れないでください。

ギャビン、彼らが多くの才能を引き抜き、何十億ドルも物事に支払い始めたことを覚えていますか? 私にとって本当に面白いのは何ですか? そう、そう、ええ、MetaにはSegment Anything 3と呼ばれる新しいものがあります。覚えているなら、Segment Anything 2、おそらくSegment Anything 1さえも番組で取り上げました。今、それらは使用可能ではありませんでしたが、これが基本的に可能にするのは、ビデオの一部を取り、そのビデオまたは画像内で。

さまざまな形状を簡単に切り取り、どの形状がどれであるかを見つけ出すのに非常に優れています。だから、入って、わかりました、ここにビデオがあります。ダンスしている女性を分離したい、そして、悲しそうに脇に一人でいる男性を残したいと言えます。だから、ダンスしている女性を取り出したいのです。

そして、それを排除し、引き出すことができます。しかし、最も重要なことは、その周りを切り取ることができるので、それで何かをすることができるということです。私にとって興味深いのは、Metaが今週何かを出す必要があったということだと思います。たぶんそれがこれでした。非常にクールで、あなたはそれをすることができます。実際に自分で試しました。実際にビデオの一部のショットを撮り、ビデオ内のこの一人の男を回しました。

それはただの普通のAIビデオで、男を白黒にし、天井を白黒にしました。そして、やるのは超簡単です。今、Adobeのツールやそのようなものなどの高級ビデオツールでこれを行うことができますが、これは誰でも試すのに死ぬほど簡単にし、実際に今すぐそれで遊ぶことができます。

SAM 3がありますよね? ビデオセグメンテーションツールがあり、それからSAM 3Dがあります。それは別の獣です。それが私の心を吹き飛ばしたものです。それは、私はそれがトリックを知っているPen and Tellerの行為のようなものです。トリックを以前に見たことがあります。大丈夫です。カップとボールです。

それが行っていることを可能にするオープンソースのもののタイプを見ました、しかし、彼らは本当に鮮明に感じる方法でそれを実装しました。だから、自分の画像をアップロードできるプレイグラウンドに行くことができます。3Dシーンを作成することも、持っている事前選択された画像の1つを選択することもでき、文字通り画像内のオブジェクトをクリックし続けてそれらに追加できます。

そして、満足したら、3Dを生成することを押すことができ、2D画像から選択したものは何でも3Dモデルを提供します。明らかに動き回ることができる方法でレンダリングされています。極端な頭上のビューまたはオブジェクトの下から見ることができます。

そして、多くの画像で、それは信じられないほど魔法のように機能する方法でただ機能します。ゲームのスカイボックスを構築できるようにする他のアプリを見るとき、または単なるフラットな2D何かである世界を生成して出かけることができます。わかりました、このようなツールに入れて、オブジェクトが何であるかを伝え、それらを3Dに生成すれば、今歩き回ることができる世界があります。

まあ、私にとって面白いのは、これがGemini 3のような統合されることを愛するだろうことの1つですよね? しかし、そうはなりません。そして、Metaが最後にいつだったか見るのは興味深いでしょう、あなたが知っている、実際のチャットボットのようなものでした。この時点で数か月経っていますが、これらの企業のそれぞれが自分のツールセットを構築しようとしているのと同じです。

これは本当にクールなツールです。このようなものが簡単に機能しているのを見ることもできます。実際、Instagramでやっていることから、これをリールと彼らの編集スイートに統合するつもりだと思います。しかし、これらすべてのツールが何らかの形で広がることを願っています。それはただの非常にクールなもののもう1つだからです。

ツールと言えば、Kev、Sunnoの仲間たちはちょうどもっとたくさんのお金を集めました。彼らは2億5000万ドルを調達しました。Sunno、あなたは知っています、彼らがやった音楽の法的制限に問題がありました。実際、V5でSunnoで時間を費やしています。超楽しいです。妻が今週いなかったので、夜に曲を作るのに時間を費やします。

そして、AI音楽について本当に興味深いことがあります。先週これについて話したかもしれませんが、話したかもしれません。物がAIであってもあなたが作成しているとき、そして、AIを嫌う人々のほとんどはこのように感じないと思いますが、物を作成しているとき、自分自身について有機的に本当に良いと感じる何かがあるのです。あなたの脳が興味深いことをやっているように感じます。

しかし、AI創作について興味深いのは、非常に多くの人々が創造できるようになるということです。何かを出して人々が聞くものを作っていることを確認するのではなく、創造する経験を楽しむレベルがあると思います。そして、Sunnoは本当に良い例だと思います。何かを作ることは本当に楽しいからです。

そして、繰り返しますが、AI音楽に興味がない人々は、クラフトという言葉を笑っているかもしれませんが、何かを入れると、それが出てきて、それから一緒に作業し始めます。それがSununoについて私にとってエキサイティングなことです。とにかく、それについての長い議論ですが、かなりクールなことです。

Gorillasの曲は、彼らの大ヒット曲のようなものでしたか? バッグの中の太陽。それは何でしたか? いいえ、フィールグッドではありませんでした。バッグの中の太陽でしたか? それは何でしたか? ええ。ええ。だから、そのドラムビートと一部の、それはカシオキーボードプッシュワンデモでした。彼らはただ少しスローダウンしただけです。誰も、ああ、これはこれは総体的だと言いませんでした。彼らはこのビートを盗んだ。

彼らはいいえ、彼らはそれに触発されて、それとともに行きました。だから、ただ存在に曲をプロンプトする誰かを陰にしたいなら、わかりました、それはあなたの特権です。しかし、プロンプトから始めて、その後反復し、マッサージし、構築し、自分自身のフレアを追加する、あるいは機械に歌い、機械にピッチを修正させる人、それらすべてのものは非常に美しい経験に積み重なることができます。

しかし、これらのもののいずれかを始めることは時々最も難しい部分です。そして、ノートがキーボード上にあるものを理解し、チュートリアルを見ることに固執することに高貴さと勇敢さがあります。確かに、素晴らしい。しかし、機械にそれをプロンプトしたので、少し先から始めて、それに固執するように触発される誰かにも素晴らしいものがあります。そうですね。

そして、指摘したかったことの1つは、この会社がこれらの法的問題を抱えているにもかかわらず、今非常に価値があるかもしれない理由は、人々が出版するためだけでなく、楽しみのためにSunnoのようなプラットフォームで作成し始めると思うからです。人々は楽しみのためにゲームを作り始めるでしょう。

人々は楽しみのために映画を作り始めるでしょう。異なる種類のものになるでしょう。今、それはそれらのことを専門的に行う人々が止まるという意味ではありません。彼らは、そこに非常に多くの洪水があるので、それについて悪く感じるかもしれないので、そう思うかもしれません。

とにかく、Sunoがたくさんのお金を集めたことにおめでとうございます。きっとその一部は法律費用に充てられるでしょう。それがどのように着地するか見てみましょう。ケビン、今日話すべきもう1つのことは、Sunday Roboticsという会社の新しいロボットです。これはMimoです。そして、Mimo、実際、繰り返しますが、しばらく前にMimoについて話しましたが、これはプレミアビデオです。

少し1Xビデオのように見え、家の中にいるように設計されています。このMimoビデオを見て、それは非常にかわいいと言わなければなりません。しかし、脚を持つ代わりに転がります。だから、小さな転がるものの上にあります。自宅で家事をするために特別に設計されています。

機能するロボットのフォームファクターを見たとは確信していません。このビデオを見たとき、それについてのあなたの最初の考えは何でしたか? つまり、ええ。もし階段があるなら、申し訳ない。息子のあなたがかわいそうです。これは、ペデスタル、小さな転がる足のペデスタルを使うことによってバランスの問題と複雑さを減らしたと確信しています。

だから、それは興味深いデザインです。ええ、外観、外観は印象的です。彼らはそれがテーブルを片付けるデモを持っています、ギャビン。ゴミに屑を入れ、食器洗い機を積み込む。そして、彼らが強調するもののいくつかは、誇示、完全に自律的です。

ワイングラスを繊細につかんでいます、単一のパスで複数のグラス。そして、食器洗い機を開けると、それらをワイングラスが行くべき上部トレイの茎のある小さなプラスチックのものに入れます。そして、それはそれをやります。今、彼らはビデオを5倍または時には10倍の速度で再生しています。

私が離れていて、ロボットが私のために皿をやっているなら、それが45分または1時間かかるかどうか気にしないと思います。気にしますか? キッチンも必要ない限り。それに自分のことをさせてください。長期的なタスクのために、それは印象的です。しかし、繰り返しますが、どの製品のV3も通常良いものだと言いました。

これはV1のように見え、いくつかを家に入れようとしたことに賞賛します。それは他のロボットが持っていなかった方法で機能するかもしれないように見えますが、V3が到着するまで、おそらく傍観席から応援するでしょう。

つまり、聞いてください、ヒューマノイドロボットは確実に来ています。今日話したばかりの他のすべてのものほど速くは来ていませんが、来ていますし、他のすべてのものがそれらを動かすでしょう。それが持っている小さなロボットキャップが好きではありませんか、ギャビン? それはちょっと、いいえ、それは好きではありません。ロボットがどのように見えるべきかを理解しようとしています。たぶん、あなたが知っている、描くことができる何らかの奇妙な磁器の顔のようなものがあったらどうでしょう? あなたになりたい人に変えることができるような、リアルなマスクをロボットに置くことができたらどうかと考えようとしています。人々は間違いなくこのロボットでもそれをやるでしょう。

私は、全身と腕がe-ディスプレイであるべきだと思うので、その時点で欲しい病気のタトゥーを何でも入れることができます。それはかなりエキサイティングに聞こえます。それは良さそうです、皆さん。今週あなたがAIで何をしたか見てみましょう。それはAIです。そこであなたが何をしたか見てください。それから突然あなたは止まって叫びます。

AI See What You Did There – Gemini 3特集

さて、ケビン。今日は特別なGemini 3エディションがあります。そして、いくつかの本当に興味深いことをした人々を何人か称賛したいと思いました。これはScorenoからです。最初に見たものの1つでした。これはPeter Scorenoです。彼はかなり有名なXユーザーですが、彼はGemini 3 Proを使って、ワンショットで3D Legoエディターを作成しました。UI、空間論理、そしてすべての機能を完璧に決めました。

だから、これを聴いているだけなら、これは基本的に彼が自分自身のために小さなLegoプレイセットのようなものを作ったということです。色を変えることができ、ブロックを変えることができ、Gemini 3の単一ショット内ですべてLegoを構築できます。これがこれでできるクレイジーなことのもう1つの良い例です。

そして、彼のGoFundMeに貢献することができます。彼は現在LEGOによって存在から訴えられています。だから、彼に最善を祈ります。そして、それは真実ではありませんが、非常に非常に興味深いアプリです。そして、ただの、つまり、Geminiが本当に優れているのはインターフェースとデザインです。

コードは機能し、良く、非常に思慮深いですが、Gemini 3の出力を文字通り他のモデルと比較すると、プロのアプリのように見えます。そうですね。それはもう1つの良い例です。Matt Vid Pro AI、素晴らしいAI YouTuberです。彼に馴染みがないなら、チェックしてください。彼は言いました、現実的な水の物理学デスクを作ってください、完全な3D。

反射波と相互作用できます。水にレモンを落とすためにどこでもクリックしてください。レモンは彼のもののようなものです。しかし、それを見るとき、それは驚くべきです。だから、Kev、私たちが見ているものを人々に説明したいですか? ええ、それはこの青いシートのような3D平面のビューですが、その後、マウスが上を通過し、クリックが起こると、レモンが水に落ちます。そして、これがXbox上のCrimson Tideのようなものだったら、うわー、どうやってそれを引き出したのかと言うでしょう。

つまり、これはWebブラウザで実行されているだけで、ワンショットだったと思いますが、水へのレモンの3D simのような液体シミュレーションで、1年前だったらあごを落とすようなもので、今私たちは、ええ、もちろんそれをすることができます。

他に何がありますか? と言っています。それと言えば、Seb Krer、Google DeepMindのAGIポリシー開発リードなので、これに時間を費やす機会があったかもしれません。彼は実際に原子力発電所のツーショット動作シミュレーションを作成しました。

だから、これの教育的使用例について考えるとき、またはあなたが知っている、必ずしも教師が作るようなものではないかもしれませんが、学生として、あなたはこれを作ることができます。これが科学フェアの未来かもしれません、Kev、前進して、人々が単一ショットで物の3Dモデルを生成し出すのを見て、これが楽しい出発点であるとき想像するとき、しかし、あなたがその原子力発電所を取って何か悪いことを起こさせたらどうなりますか、あなたはそれすべても物の中で起こるのを見ることができました。

三つ折りディスプレイでバッテリーとして使用できるジャガイモを生成するプロンプトが待ちきれません。まあ、実際には作りませんでしたが、これが私が存在にそれをプロンプトするために使用するものです。

ちょっとしたボーナスロボティクスシャウトアウト、ギャビン。それがAIに属するかわかりませんが、Sourceを見ましたか? 知っています。奇妙に見えます。巨大なゴミ箱のように見えます。見えるようです。ええ、R2-D2のようです。奇妙なように、ディズニーランドのゴミ箱にコネクトの目とこれらの小さな3Dプリントされたロボットハンドがあるようなものです。しかし、ギャビン、彼らはそれがあなたの個人的な家庭用ロボットだと言います。見て。

良いですか? 何をしますか? ただ興味があります。聞いてください、Sourcey、あなたは非常にかわいいです。そして、それは間違いなく外観だと思いますが、ここで見ているように感じるのは何かわからないものです。これは何かがあるはずです。オープンソースのようなものですか、それともオープンソースキッドのようなものですか?

ウェブサイトによると、誰かを侮辱しませんでした。それができないとは言っていません。これを作ることができません。はっきりさせておきましょう。完全にオープンソースです。カスタマイズ可能です。Lero互換です。だから、あなたが望むことをするためにそれを訓練することができます。これは、いじくり回す人々のようなもののためです。

これはコンピュータークラブやそのようなもののためです。しかし、非常に非常にかわいいと思いました。興味深いアプローチです。しかし、大量生産を追いかけているOptimusフィギュア、世界のユニットトライのようなものがあるのは奇妙だと思います、あなたは知っている、家庭内ボット。

しかし、誰かが主が何を知っているかをSourcey互換のアタッチメントとして作るオープンソース3Dプリンターハッカーコミュニティがあるでしょう。そして、たぶん私たちは皆、自宅で自分の小さなロボットを3Dプリントできるでしょう。面白いです。SourceyのWebページに行きましたか? Gemini 3の魔法をこのWebページで使用できそうに見えます。これがバイブ、コーディです。非常にです。

しかし、繰り返しますが、Sourceを愛しています。そのために彼らを愛しています。それは非常に手作りのウェブサイトですが、Sourceyにおめでとうございます。さて、皆さん。それで終わりです。皆さん全員に会います。Gemini 3 ProまたはGemini 3または新しいOpenAIモデルのいずれかと時間を過ごしてください。これはAI空間で大きな瞬間のように感じます。

私たちは間違いなく次世代に移行しました。愛する人と時間を過ごさないでください。いいえ、Geminiと時間を過ごすと思います。それは来週です。来週愛する人と時間を過ごしてください。今週はGemini 3と時間を過ごしてください。さて。さようなら、皆さん。さようなら。

コメント

タイトルとURLをコピーしました