GoogleはAGIの準備ができていないと言う。彼らはたぶん正しい。

22,743 文字

Google Says We’re Not Ready for AGI. They’re Probably Right.

Google says we’re not ready for AGI and honestly, they might be right. DeepMind’s Demis Hassabis warns we could be just ...

最近、GoogleのAIトップが「私たちはまだ人工知能に対応できていない」と発言しました。それと同時に、今後のAI学習方法を変える可能性のある論文も発表しています。
ケビン、私はAGI（汎用人工知能）の準備はできていると思います。最近はO3やGemini Pro 2.5を使って、ピンキーとブレインのファンフィクションを書いているんですよ。
いや、それはAGIじゃないよ、ギャビン。それはただの変わった趣味だけど、まあいいでしょう。新しいオーディオモデルも登場しました。「Dia」というモデルで、これを聞くとマシンがかなり生き生きとしているように感じます。
うわっ、サーバーが息継ぎする必要があるみたいだね。ケビン、叫んでみてもいい？「シック・ベリー！オーマイゴッド！」
そうそう、ケビン、映画でAIを使うのは今や完全にOKになったみたいです。少なくともアカデミー映画芸術科学協会によれば。おっと、ガイ・フィエリとの作品を彼らは見たかな？統計的には見ていないでしょうね。この論争についても掘り下げて、あなたをマーティン・スコセッシのような次世代の映画監督にできる素晴らしい新しいビデオツールもご紹介します。
それに、ロボットたちがハーフマラソンを走ったり、Clueyが新しいツールを発表して、デート相手に嘘をつけるようになったりとか。これは止めなきゃ、ケビン！
そうだね、そうだね。でも、誰かがAI自動販売機を作ったのも見たかな？帯域幅とレイテンシーの問題がありそうだけど…これがAI for humansです！もう誰も見てないよ、ケビン。
今週はAI業界に大きなニュースがありました。面白いことに、新しいモデルはリリースされませんでしたが、とても興味深いインタビューがありました。新しい基盤モデルはリリースされなかったけど、それでも400ものリリースがあったんです。この業界がいかに狂っているかがわかりますね。「おっ、今週は静かだったね、$500億規模の何かがリリースされなかったから」なんて言っているぐらいです。
そうです。でも、Google DeepMindのトップであるデメティス・ハサビスの非常に興味深い一連のインタビューがありました。その中の一つが特に目立ちました。まず彼は「60ミニッツ」に出演して、高齢者向けに彼らがどこまで進んでいるかを見せました。これはより一般的な会話で、AIが世界をどのように変えるかについて話していました。彼はAIがおそらくすべての病気を解決するかもしれないと言いましたが、その後「Time」とのインタビューで具体的なことを言いました。それが今週の出発点になると思います。このクリップを見てみましょう。
「夜も眠れないほど気になることは何ですか？」
「私にとっては、um、クモです。いや、すみません、それは私でした。この国際的な基準と協力の問題です。国家間だけでなく、企業間や研究者間でも、私たちがAGIへの最終段階に向かう中で。そして私たちはその境目にいると思います。多分5〜10年後でしょうか、もっと短いという人もいます。私も驚きませんが、それは確率分布のようなものです。でも、いずれにせよ、それはもうすぐやって来るのです。そして、社会はまだそれに十分に準備ができていないと思います。私たちはそれについて考え抜く必要があります。」
「いや、あなたが考え抜く必要があるのです。あなたが深く考えるべきなのです。あなた方が玩具を作っているのであって、私たちはその遊び方を考えなければならないのです。」
「そうではありません。彼らは核兵器を作っているのです。彼らは世界秩序を作っているのです。彼らは統一政府を作っているのです。彼らはスカイネットを作っているのです。私たちは砂場で砂を蹴りながら玩具を作っているだけです。それを考えるのは私たちの仕事ではありません。」
「核兵器はおもちゃではないと言っているのですか？子供の頃、私はそれがおもちゃだと思っていました。冗談ですよ、もちろん。」
これは考えるべき重要なことです。この会話のきっかけとなるでしょう。世界最大のAIチームの中心メンバーの一人が「世界はAGIの準備ができていない」と言うとき、私たちはこれについて議論する必要があります。
ケビン、まず掘り下げたいことがいくつかあります。初めて参加される方々のために言っておくと、申し訳ありませんが、AGIは人工汎用知能です。これの明確な定義は誰も持っていませんが、基本的な考え方は、AGIは人間ができることをすべてできるシステムだということです。
あなたは家でこう思うかもしれません。「私のAIはたくさんのことができます。とても賢いです。」しかし、できないことはたくさんあります。「Simple Bench」と呼ばれる非常に良いベンチマークがあり、AIができないことを示しています。他にもいくつかの大きなベンチマークがあります。ベンチマークとはAIのスキルをテストする方法です。
ケビン、今週Googleから出てきたもう一つの重要な話題は「エクスペリエンスの時代」という新しい論文です。これについて少し読んでみましたか？
「私は大のスウィフティーファンで、これは前回のコンサートで私が駐車場で風船に入って扮した時代です。「エクスペリエンスの時代」に乗っています、ギャビン。それは理にかなっていると思いますが、詳しく見ていきましょう。」
基本的にこれはGoogle DeepMindの副社長による新しい論文です。数年前、AIの会社が世界最高の囲碁プレイヤーを打ち負かしたという話を覚えているかもしれません。当時使われていたのは「強化学習」と呼ばれるAI学習のスタイルで、AIが基本的に自分でゲームをプレイし、さまざまなシナリオを理解するというものでした。
この新しいGoogle論文が言っているのは、「エクスペリエンスの時代」として、第1の時代は初期の強化学習、第2の時代は現在の大規模言語モデル（LLM）の世界、そして第3の時代はAIが実世界で自分自身で学ぶ必要があるという考え方です。つまり、AIがデスクトップの窓の中だけでなく、実際に環境の中で経験し、試行錯誤することからの経験が必要だということです。
そしておそらくさらに重要なのは、そうした経験を記憶することです。「あなたとチャットして診断方法やコードの書き方をより良く学びました」というような一時的なセッションではなく、その機械の長期的な記憶にフィードバックされる必要があります。そうすることで、人間の小さな肉体の器のように、何年もかけてすべてのことがより上手くなっていくのです。
これは根本的な変化だと思います。これは少し難しいトピックでポッドキャストを始めていますが、これは次世代のものであり、あなたが知っておくべきことです。ロボットがシミュレーション環境で学習することについては以前から話してきました。NVIDIAはロボットが学習するためのシミュレーション環境で巨大な工場を構築したと話しています。
実際、約1ヶ月前に非常にクールなロボット動画が公開され、約1週間前にようやく注目を集めました。Intuitselという新しい会社からのものです。これは、ユニティのロボットのような小さなロボットが歩くことを学ぶ様子を示しています。彼らはただそれをオンにするだけですが、この新しい学習モジュールを組み込んでいて、それが歩くことを学ぶのを見ると、赤ちゃんの鹿が歩くことを学ぶのを見るようなものです。リアルタイムでバランスを取ることを学ぶ様子が見られます。
これが今後AIが進む方向だと感じます。現在、これらのLLMシステムの限界について多くの人が言っているのは、人間の経験や人間の論理という考えに閉じ込められているということです。私たちがしたことや書いたこと、ビデオなどから学べることには限界があります。これはAIがさらに学習する機会です。この論文は難解ですが、私がしたこと、そして家でもするべきことは、ChatGPTやあなたが使っているAIシステムに投げ込んで、大学レベルの理解を得るか、小学校レベルの理解を得るかです。どちらも良いですが、これは今知っておくべき重要なことです。そして、これがデミス・ハサビスがAGIが来ると言っている理由の一部なのです。
要約したリンクをショーノートに入れて、皆さんが一クリックでアクセスできるようにしましょう。Google DeepMindの強化学習担当副社長であるデビッド・シルバーは、彼ら自身の内部ポッドキャストで、この論文の意味とそれがどこに向かっているかについて多く話しました。興味深い発言がいくつかあるので、少し聞いてみましょう。
「ある意味、あなたは『大規模言語モデルだけがAIではない』と主張していますね。AIには自分自身で物事を理解し、人間が知らない新しいことを発見する能力が必要です。もし人間のフィードバックの側面を取り除くと、モデルは現実に根ざしたままでいられるのでしょうか？」
「私はほぼ逆のことを主張したいと思います。これはAIの『苦い教訓』と呼ばれることもあります。」
そうそう、彼らの音声は私たちよりもはるかに良いですね。彼らはGoogleですから。私たちはプロと呼んでいますが、ばかばかしいですね。彼らの背後にはGoogleがいます。彼らのアルゴリズムと彼らのクラウドリフターが欲しいです。
人間のフィードバックをループから取り除いた場合、これらのモデルがより良くなるか、さらに現実に根ざしたものになるという議論について、先ほど番組の前半で触れた囲碁の例に戻ると、機械は何百万回もの囲碁のシミュレーションをプレイし、自分自身から学習していました。基本的に「勝てば報酬」というシグナルが与えられ、その報酬を追求して最適化するということでした。
もし人間がすべての手とすべてのプレイセッションをレビューしていたら、ある時点で、宇宙の偉大な囲碁チャンピオンでさえ王座から唸って「37手目？いやいや、それは私が見た中で最悪の手の一つだ」と言っていたでしょう。それは皆を驚かせ「うわ、機械は人間が明らかに思いつかなかったことを考えた」と思わせた手です。
繰り返しになりますが、ループの中に人間がいたら「それは正しいやり方ではない」と言っていたでしょう。そして、AIが患者を診断する方法を医師が見ると「私には経験があるからそんなはずはない」などと言って、モデルに悪影響を与えたり、非常に単純な人間的な方法で現実に根ざさせたりする可能性があります。私たちは木をはっきり見ていますが、森全体を見逃しているのです。
そのため、人間をループから実際に除外し、それ自身に学ばせて、どのような魔法を生み出すことができるかを見るというのは魅力的です。
私はChatGPTを使ってこの論文について質問しました。「これは、私たちが行っているLLMのことすべてが重要ではないということを意味するのですか？囲碁は5年前からこれをしていたのに？」と聞きました。実際にそれが言ったのは「いいえ、違いは今私たちがすべての直接的な知識と論理と人間のものを持っていて、それを基盤にできるということです」。記憶は大きな問題です。
次のトピックに移る前に、物事がどれだけ急速に動いているかを示す非常に興味深いデータビジュアライゼーションを紹介したいと思います。これはthe aid digest.orgという会社からのもので、彼らは非常に美しいデータビジュアライゼーションの作成を専門としています。彼らはO3や他のモデルをグラフに配置し、「汎用AIのムーアの法則」という考え方について少し話しています。
技術的な用語であるムーアの法則は、インテルの創設者であるゴードン・ムーアに基づいており、計算能力がどれだけ速く時間とともに（倍増するか）について話しています。彼らは能力に関してホッケースティックのような曲線を示しています。この特定の意味では、AIがタスクにどれだけ長く取り組めるかということです。
これらの経験的な生活体験をもたらし始め、非常に長い時間物事に取り組み始めることができるAIについて話すとき、それらがいかに速く学ぶことができるかが分かります。最初はそれほど速くなくても、それが速くなればなるほど、それらはより良くなるでしょう。私たちはある種のAI学習の次世代に入りつつあるように感じます。これはかなり大きなことです。
そして、深く掘り下げる必要はありませんが、最先端にいない人々のために言っておくと、別の論文が発表され、基本的に「準備してください、来年の今頃、あなたの同僚の一人、あるいはそれ以上がAIになるでしょう」と言っています。それは奇妙なことです。来年雇用されているというのは、あなたや私にとって将来はないということです。
あなたが幸運な一人であれば、文字通りSlackメッセージを送信したり、テキストを受信したり、ZoomでAIと一緒に過ごしたりすることになるでしょう。これは新しいビジョンではありませんが、タイムラインは予想よりも少し前倒しになっています。彼らは2029年や2030年と言っていましたが、いいえ、来年の今頃、あなたはAIアシスタントに文書を取ってきてもらうよう頼むことになるでしょう。ところで、そのAIアシスタントは戻ってきて、あなたにタスクを与え、コホートのように動作しますので、あなたに何かをさせることになります。
これは私たちの超秘密プロジェクトについて考えさせられます。それがどのように進むかという考え方は、従業員を雇うかのようにAIアシスタントを探し始めるということで、それはかなりクレイジーです。
さて、ケビン、その前に、あなたの聞いている皆さん自身のエージェント能力について考えるために、今すぐAI for humansのYouTubeページに行って、購読ボタンをクリックするか、iTunesや他の場所でポッドキャストを聴いて5つ星のレビューを残すか、AIforhumans.showにアクセスして私たちのウェブサイトをチェックし、毎週書くのが楽しい私たちのニュースレターに登録するという最も重要なことがあります。これらは皆さんが私たちを助けることができる3つの場所です。ケビン、他にも助けてもらえる場所はありますか？
「YouTubeのコメントで、『My Feet Feed』、『Feetbook』、『Feat Cities』、『Feet Spin』のどれがいいか教えてください。コメントを残してください。私たちはまだステルス状態にあり、このアプリがどうなるかはわかりませんが、名前でそれを明確にしたいと思います。また、Patreonもあります。そこに$5を投げ入れることができ、それが役立ちます。ちなみに、私たちは引き出しを行っており、それはツールのライセンスに使われています。」
ツールのライセンスは毎週どんどん高価になっています。ちなみに、私たちは現在OpenAIのティア4にいます。これが何を意味するかを知っている人にとっては素晴らしいことですし、知らない人にとっては、私たちがサム・アルトマンに血を流しているということを意味します。彼は私たちの血で彼のスターゲートを構築しています。そしてそれは皆さんの貢献、フィードバック、助けなしには不可能でした。ありがとうございます。
さて、ケビン、私が思うにエンターテイメント業界の大きなストーリーの一つに飛び込むべきだと思います。それはカバーされましたが、私の好みほど大きく取り上げられていませんでした。ケビン、アカデミー賞はAIツールがアカデミー賞対象映画で使用できると発表しました。
そうです、アカデミー映画芸術科学協会、アカデミー賞を開催し、あの小さな金の像を授与する会社が、AIツールは大丈夫だと言いました。これにより人々は感情的になっています。まず、これについてのあなたの考えを聞かせてください。おそらくそれは知っていると思いますが、この問題に飛び込みましょう。あなたの最初の意見は何ですか？
「私は驚いていません。これは避けられないと思います。そして、彼らが言うことの詳細に悪魔がいるでしょう。『全部AIであってはならない』とか『それはツールとしてAIを活用する人間がいなければならない』というようなことで、それは良いし理にかなっています。その後、AIオスカーズが派生するでしょう。それは来年から始まり、最初はおそらくロサンゼルスのダウンタウンの宴会場で10人くらいでしょうが、5年後には実際のアカデミー賞よりも大きくなるかもしれません。」
私はそれには同意しません。個人的にはAI賞があるとは思いません。もちろん、ロボットの軍隊が5年後に宴会場でこのクリップを見ており、小さなナッツやボルトの前菜を回しているとは言いませんが、ルンバがステージに上がって「実際、ギャビン、あなたはダメだ」と言うかもしれないので、ここは注意してください。
私の考えでは、これは完全に通常のアカデミー賞に流れ込むだけだと思います。彼らが「はい、AIを使うことができます」と言っているのは驚くことではありません。なぜなら、VFXチームはすでにそれを使用しており、脚本家はそれを使用し、監督はプレビスとストーリーボードのためにそれを使用しているからです。すべての分野がすでにそれを統合しています。だから、このような主張をする必要があり、反発に対処する必要があります。
しかし、興味深いのは、50％AIで生成された映画と、潜在的にAIが主役のキャラクターを持つ初めての映画との間の議論でしょう。これらは今後数年間の興味深い議論になるでしょう。
面白いことに、映画製作のサブレディットでこれについてのレディットの投稿がありました。AIのサブレディットではありませんでした。彼らの多くは「AIは私たちが常に使用しているものをハイプアップするために使われているだけです」と言っていました。それはただのハイプで、彼らがAIと呼んでいるものは実際には生成AIについてのことです。
彼らは皆、AIとは何か、AIとは何でないかについて、自分たちの脳内でこれらの線を交差させようとしています。なぜなら、生成AIは悪いものだというハードコアな考え方に入り込んでいますが、コンピュータをオンにしてPremierやPhotoshopを使ってこれらすべてのことをしているのです。
外にいる皆さんに伝えたいのは、機械学習はエンターテイメント業界、特に編集やVFX分野で長い間使用されてきており、彼らが多くの面で行っていることは、これらの生成AI企業が現在行っていることと同じだということです。トレーニングモデルなどは異なるかもしれませんし、それがある種の一時停止を与えるかもしれませんが、あるAIはこれで、あるAIはそれだというように分離することはできません。それはあまりにも曖昧です。
私たちが入りつつある世界は、遅かれ早かれ、ハリウッドのほとんどの人々がこれらのツールは彼らがしばらくの間使用してきたようなものだと受け入れるようになるでしょう。
もう一つの秘密は、ギャビン、多くの人々が思っているよりもずっと多くの人々がAIを実験し、使用していると思います。彼らはLinkedInの投稿やRedditのサブフォームで「絶対に絶対に」と言うかもしれませんが、私は多くのクリエイティブな人々が「ねえ、私はこのツールを試してみました、これはちょっと面白い、これはちょっとクールだと思いました」と少しずつささやき始めていることを知っています。しかし、公には彼らはまだ「AIは何でも悪魔から離れろ」と山の頂上から叫んでいます。
そうですね。Runwayの最高経営責任者であるクリスタル・ベネズエラはTwitterで次のように述べています。「アカデミー賞がAI映画製作の使用を認めるのは、正しい方向への一歩であるだけでなく、この技術をツールとして認識し、それを使用する際に意味のある方法で表現するアーティストを必要とするものとして認識するものです。」私はこれに同意します。
重要なのは、AIが全体を作っているわけではなく、しばらくはそうならないかもしれないということです。ただ、一部の短い動画を見たことがあれば、それほど遠くないかもしれません。私たちは「リアルショート」について話しました。中国のアプリで、オンラインで非常に人気があります。それらのほとんどは現在AIで作られているわけではありませんが、AIがそれを作ることができる様子が見えます。
この例では、実際にこのオスカーの話について語っているタイムズの記事の最後には、ギャビン、「最近アカデミー賞にノミネートされたデイ・ムーアが、インスタグラムに投稿した画像に対して反発を受けた後、犬を人間に変えるためにAIアプリを使用したことを謝罪しました。『この画像を共有することで』と彼女は代替投稿に書きました。『世界のアーティストやクリエイターに対するそのような不敬になるとは思いませんでした。』」
彼女はAIを使って犬を人間に変えました。そしてもしあなたが彼女にその件で悲しみを与えたなら、今すぐ私に向かってきてください。実際にはギャビンに向かってください。ギャビンはあなたに言いたいことがあります。
「いいえ、でも私はあなたのためにやっています、ギャビン。なぜなら、人々に犬を人間に、人間を犬に変えさせてもいいじゃないですか？これはアーティストすべてに対する不敬ではありません。2年前、人々は顔交換をしていて、そのような反発はありませんでした。理由は、機械が私、ギャビンに10年前にエルフになることを許可したからです。どうしてそんなことができるのですか、ジブとジャブよ、アーティストを軽視しているじゃないですか。」
10年前、機械は私たちを「エルフ化」させていました。あなたを呪います、ジブとジャブ。これは20年前の2005年でしょうか？確認させてください。
進み続けなければなりません。非常に速く移動しなければなりません。Runwayの「Gen 48 Film Contest」が今週末開催されます。締め切りは金曜日の東部時間正午です。エントリーしたい方は。これは非常にクールで非常に速い、Runwayのための自分自身のビデオを作る方法です。映画製作者でAIに興味があるなら、人々の注目を集める方法です。ぜひチェックしてください。
また、すぐに利用できるか、または出てくる3つの迅速なツールもあります。haluoミニアックス、私たちがいつも話す会社、これは中国のAI企業ですが、キャラクターリファレンスツールをリリースしました。ケビン、これを見せたいと思います。基本的にこれは、自分の写真をアップロードしてすべてのビデオに入れることができるというものです。
私が通りを歩きリスを高くタッチする、ディスコスーツを着た人物というプロンプトを入れたところ、4つの異なるバリエーションを求めましたが、どれも素晴らしいものではありませんでした。ただ、そこにあるものは何とか表現できました。これは楽しいことです。
そして今、Character AIはHedera競合のようなAvatar FXをリリースしています。これはCharacter AIからの新しいビデオ生成ツールで、少し驚きです。なぜなら、これまで彼らはテキストベースのキャラクター生成に非常に焦点を当てていたからです。彼らはかなり良いと思います。彼らの考えでは、これは彼らのキャラクターに命を吹き込む方法です。人々は長い間Character AIのものに取り組んできました。非常にクールです。
最後に、Dscript、私たちがしばらく話してきた会社、よくポッドキャストの編集に使用していた会社が、「AIエディター」と呼んでいるものへのドアを開いています。これは彼らのAIプログラム「Underlord」で、AIエディターを持とうとしています。これは多くの人々が過去に試みてきたことです。どのように進むか本当に興味があります。まだリリースされておらず、ベータ版に入る予定です。私たちはそれに登録しました。Dscriptを聞いている方がいれば、ぜひ私たちのメールをホワイトリストに入れてください。
興味深いと思います。これまで誰も成功していません。すべての会社が「あなたのポッドキャストを取って、ビデオクリップに切り取ることができます」と言おうとしてきましたが、どれも機能しません。うまくいけばこれはすぐに来るでしょう。
ギャビン、驚いたことに、私は実際にそれの早期アクセスを得て、Underlordでこのポッドキャストの次の5秒を編集することにしました。Underlordがギャビンと私の長年にわたるハイライトの爆発的で素晴らしいモンタージュを提供してくれたらと思います。
「オーブンの中心で、変身が起こります。私は豚として生まれ、今や傑作です。」
悪くないですね、かなり良いです。何がそこに入るか本当に心配していましたが、怖がらないでください、ケビン。
ケビン、このポッドキャストでは本当に楽しんでいますが、スポンサーのために短い休憩を取らなければなりません。ケビン、問題があります。AI for humansの請求書を作成すると、本当に煩わしいです。いつもカットアンドペーストを繰り返しています。
いやいや、ペーストはピザのトッピングだとAIは言っています。
実際、そのためのアプリがあります。それは「Moku.AI」と呼ばれる新しい文書から文書へのデータ転送アプリで、請求書の更新や情報の手動交換の苦労を取り除きます。基本的に、プロセス全体を自動化するので、入力ファイルをアップロードするだけで、自動的に出力文書が生成されます。
ワークフローを一度設定し、AIが解析する必要があるデータフィールドを設定するだけで、中国語でも簡単に請求書を更新できるということですね、ギャビン？
そうです。でも、それだけではありません。MoがAIで構築されたことをご存知でしたか？
待って、MoがBubble.ioで構築されたと言っているのですか？
はい、ギャビン、それはBubble.ioでした。単一のプロンプトからAI搭載アプリを作成するノードプラットフォームです。Bubble.ioを使えば、スケーラブルでプロフェッショナルグレードのAIアプリを作成することは、アイデアをプロンプトに入力するだけで、バブルのAIがアプリのバックボーンを即座に生成します。そして、すべてを視覚的にカスタマイズすることができます。コードは必要ありません。ポイント、クリック、ドラッグして、あなたのビジョンを作成できます。また、GPT-4OやClaude、アプリを組み立てるために必要なすべての最新APIのプラグインがあります。
そしてMokuは、Bubbleが誰にとっても複雑なAI搭載アプリを非常に簡単にしている方法の例の1つにすぎません。聞いている皆さん、mouku.aiでMokuをチェックして、Bubbleが構築できるようなものを見て、AI for humansが送ったと伝えてください。
ギャビン、あなたと私は音楽や現実的なテキスト読み上げ、音声から音声への変換など、多くのAIサウンドツールで実験するのが好きです。そして、11Labsのような非常に十分な資金を持った基盤的な業界リーダーを多くの面で打ち負かすことを約束する新しいモデルが、これらのことがよくあるように、どこからともなく登場しました。
単一のGPUだけで、リアルタイムに近い速度で動作します。そのため、大量の処理能力を必要としません。表現力豊かな人間の声を約束し、咳をしたり、ある程度叫んだりすることができます。これらすべてのことができます。ギャビン、私にとって最も興味深い部分は、それがオープンソースであるだけでなく、誰もが無料で試すことができ、1.5人の人間のチームによって作られたということです。
これはクレイジーです。3ヶ月の間に、「DIA」と呼ばれる新しいオープンソースの音声モデルです。彼らが共有している例を聞いてみましょう。また、これがどのように作られたかについても少し掘り下げたいと思います。
「diaはオープンウェイトのテキストから対話モデルで、このようなウルトラリアルな対話を生成します。ええ、スクリプトと声も完全に制御できます。すごい、素晴らしい。今すぐGitHubまたはHugging Faceで試してください。11Lab Studio、Sesame 1Bとどう比較されるでしょうか？聞いて決めてください。」
そのちょっとした音の部分は、私にとって少し急ぎ足に聞こえました。私のテンポではないですが、ここにいくつかの例があります。
これは本当に良い比較方法です。SesameはUMリアルタイムっぽい音声アプリで、数週間前にテストして、非常に人間らしく、パフォーマンス的だと思いました。繰り返しになりますが、11Labsは非常に十分な資金を持った基盤的なテキスト読み上げのリーダーですが、ここに例があります。
「diaは資金なしで2人の小さなチームによって構築されました。うわあ、本当にクレイジーですね。オープンソースAIの進歩は完全にクレイジーです。この会話さえもAIによって生成されました。」
それがDIAでした。16億パラメータのモデルで、1.5人のような、1人のフルタイムの人と誰か助けている人によって作られました。これは11Labsです。繰り返しになりますが、非常に十分な資金を持った基盤的なモデル、テキスト読み上げ分野の大きなリーダーです。
「diaは資金なしで2人の小さなチームによって構築されました。うわあ、本当にクレイジーですね。オープンソースAIの進歩は完全にクレイジーです。」
少し機械的に聞こえます。これが1対1の例ではないかもしれないことに注意してください。これはDIAチームによって差を示す方法として出されているものです。
「absolutely、それは1対1の例ではありません。11Labsでは通常、一度に1つの声を生成するので、彼らがスタジオ機能を使用して一緒に縫い合わせたり、一方から他方に行ったりしたかどうかはわかりませんが、彼らは明らかに笑いや息を飲む音や息遣いなど、会話的でポッドキャストのような質を持つ人間らしい特性をモデルに訓練しました。彼らは本当にそれらを入れましたが、それが本当にそのような小さなチームで、基本的に資金なしで3ヶ月だとしたら、彼らはGoogleからいくつかのスペアプロセッサを得て、モデルをトレーニングすることができましたが、私はそれで遊んでみました。そして、すぐに使えるものとしては、それはかなり印象的です。」
私はここでの教訓が本当に興味深いと思います。1つは、私たちがショーで以前に話したように、オーディオは次世代のリーダーになるだろうということです。なぜなら、それは扱いやすいからです。ファイルはビデオよりも小さく、オーディオモデルをトレーニングする方が簡単です。これは大きな出来事です。すでにGitHubで6,500以上のスターがあります。また、今すぐHuggingFaceでこれを使うことができます。ケビンは実際にショーの冒頭で示した自分自身のオーディオをいくつか作成しました。
クールなのは、すべてローカルなので、自分自身のもので、自分自身のコンピュータでごくわずかな計算で行うことができるということです。ケビン、これのスケールアップバージョンがどのようなものになるか、またはこれらの人々がこれをトレーニングできるなら、それは正しい方向への大きな一歩だと感じます。そして、数年後にCut1ingやRunwayやSoraのような最先端のビデオモデルを考えると、その時にはこれのバージョンが来るでしょう。そして、このバージョンが来ると、他の多くのことへのドアが開きます。
しかし、今のところ、これは個人的に私たちにとって非常にエキサイティングなことです。なぜなら、私たちはある意味このような分野で活動しているからです。しかし、何よりも、このようなものが青天の霹靂から出てきて私たちを驚かせるのを見るのはクールです。
「シック・ベリー！オーマイゴッド！信じられません！そうですね、そうですね、ガイ・フィエリーと彼はホットドッグシュレックとともにいますか？AI for humansは絶対に最悪です！」
私は「C」の後毎回咳をするのが大好きです。そして、それを私たちの新しいことと採用すべきだと思います、ギャビン、それはかなり楽しいです。これはケビンがそれで作成したものの例です。非常に興味深いです。今日それで遊んでみてください。リンクをショーノートに入れておきます。
さて、ケビン、次に、今週狂ったようにウイルス的に拡散したビデオがありました。狂ったようにと言うと、複数のプラットフォームで1000万以上のビューを獲得しました。おそらくもっと多いでしょう。Xだけで1000万だったと思います。
これは、プログラムで面接試験をカンニングしたために大学から追い出された子供からの新しい会社です。そのプログラムは、他の人が見ることができないものをコンピュータで見ることを可能にしました。これはChongen Roy Leeで、これが起きたとき実際に有名になり、Hard Forkやその他の場所でインタビューを受けました。
現在、彼は同じようなことを可能にする製品を持って戻ってきました。Clueyは基本的に、誰かと話している間にコンピュータ上に画面を表示することができ、相手には見えないダウンロード可能なプログラムです。
このことについてウイルス的に拡散したのは、ケビン、あなたがビデオを見たなら、Clueyの未来バージョンのようなもので、ロイが女性と向かい合って座り、自分が誰であるかについて彼女に嘘をついているようなシナリオでした。
完全に嘘をついています、はい。そして、ちなみに、それは彼らのマーケティングスピーチとして使用しているものです。「あなたは誰にでも嘘をつくことができます」と。これは本当に興味深いと思います。なぜなら、aではビデオでまだ約束していることではないからです。また、これは私にとって、今後AI＋人々が進んでいく方法のように感じます。そして、時には人々がAIを使用していることを知らないでしょう。
「そうですね、それがメガネの中にあるか、AirPod内でリアルタイムであれば、誰かがコーチを持って、なんでも案内したり、会話をナビゲートするのを助けたりするかもしれません。彼らがそれをマーケティングした方法は、あなたのバブルがXでどのようにフィルタリングされているかによって、素晴らしいか絶対に不快かのどちらかです。しかし、実際のサイトに行くと、今すぐMac用にダウンロードできます。Windowsはもうすぐ来ます。彼らがアプリをマーケティングしている方法は、必ずしもデートで嘘をつくためではなく、Zoom会話、営業電話、内部会議でカンニングするためです。このAIは聞き、見て、そしてリアルタイムでフォローアップの質問や答え、または何かについて不確かな場合は情報を提供します。」
私たちはみな、ちょっと気を散らして古いWordleに戻り、そして戻ってきて「ああ、えーと、あなたが今言ったことについて、私は確かに聞いていました」と言わなければならない会議に参加したことがあります。
でも、リアルタイムのメモ取りが何かを提案するのはカンニングですか？でも、このようなツールに頼っている場合は、自分自身を自動化して存在しなくなる可能性があるので注意してください。なぜなら、あなたができることがAIがしていることだけを貢献することなら、先ほど言ったように、1年後にAIの同僚がいるとき、私たちはあなたがインターフェースである必要はありません。
そして、これのもう一つの側面は、私たちがAIにより近づくだけなのかということです。これについて私がよく考えることの一つで、今週のニュースレターにも書いたことは、「デーモン」または「デーモン」と呼ばれるもの、「黄金の羅針盤」などのヒズ・ダーク・マテリアルズシリーズの映画やブックシリーズからのものについて考えることです。基本的に、あなたに付いているものと共に生まれ、それは小さな動物ですが、あなたの一部のようなものです。
私が思うに、今後1〜2年、おそらく今ではないかもしれませんが、誰もがAIを持ち、あなたが人々と話している間、そのAIから情報を得ているという前提があるでしょう。それは人間であることについて考える本当に異なる方法です。そして、5年後には、そうしていない人々は大きく後れを取るだろうと思います。
ここで最後に、私が興味深いと思うことの一つ、ギャビンは、製品自体が非常に興味深いと思います。拡張現実について話し合いました。会話に別のコンテキストレイヤーを取得する場所です。私が持っている主要な問題の一つは、彼らがそれをマーケティングしている方法のため、彼らのサイトはすべてカンニング、隠すこと、難読化についてですが、それは彼らのレンズだと理解しています。しかし、それによって私の通話やデータを記録することを信頼したくなくなります。
重要な仕事の電話をしているとき、または私たちがフィードスペースなど、最終的に何と呼ぶことになるかについて議論しているとき、それらのチャットをしているとき、なぜ私がカンニングや隠すこと、難読化についてのすべての会社にその情報を与えるのか、私のデータを信頼するのか、それが私にとって足りない部分です。ダウンロードして試したくないのはそのためです。
それは非常に興味深いです、ケビン。それは今週から始める新しいセグメント「これはちょっと最悪ですか？」につながります。
はい、それは最悪です！
今日のAI最悪では、Xで見た話があります。これを作っている人々に意地悪をしたくありませんし、必ずしもこれに同意するわけではありませんが、私にとってこれは少し最悪だと思うので、指摘したいと思います。
あなたが多く話してきたことの一つは、インターネット上にあるものの多くがボットであるということです。インターネット上のさまざまな場所でコメントを書いているものの多くがボットであるという考えです。
Savannah Federerという女性がXで、彼女が取り組んでいる会社の新しいトレーラーを投稿しました。これを聞いてみましょう。
「次の60秒で、あなたの製品を販売するAIエージェントを構築する様子をご覧ください。最初のステップは、Astralに向かい、構築したいエージェントの種類を伝えることです。このデモでは、プロジェクト管理プラットフォームをマーケティングします。この時点で、Astralはレディットエージェントが取る手順を示すフローを作成しました。実行してみましょう。r/notionでプロジェクト管理に言及している数十の関連投稿を見つけることから始めます。レディットエージェントは、私たちの製品がサポートする新機能を要求する人々を探し、潜在的なリードとしてフラグを立てます。」
ここまでで、ギャビン、このステップで話して要約すると、このケースでは特定のタイプのユーザーにマーケティングするというタスクに基づいて、エージェントワークフローを作成しています。レディットを検索し、この製品のターゲットが豊富な環境かもしれないユーザーを見つけています。これは普通ではないように思えます。クリップを続けてください。もっとあります。
「それから、投稿者の痛みポイントに共感し、実際の人物から来たように聞こえる方法で、私たちの製品をさりげなく推奨するコメントを書きます。」
ちょっと早く一時停止してしまったかもしれません、ギャビン。これは私の意見では、AIの最悪のユースケースです。なぜなら、誰もが顧客を得て、新しい顧客を獲得するために奮闘していることは理解していますが、私はレディットをよく使います。私はGavin Purcell（一語）として見つけることができます。
私はレディットが好きです。なぜなら、コミュニティを見つけると、何かの一部のように感じ始める方法があるからです。そして、会社が積極的にレディットを通じて、彼らが人々を引き込もうとしている人であるかのようにコメントしているという考えは、非常に不快に感じます。私はこれが良くないと本当に思います。
繰り返しになりますが、Astralはおそらくこのように言うでしょう。「人々はすでにこれを行っています。彼らはすでにAIを使用して物事に返信しており、私たちはただプロセスを自動化しているだけです。」でも、それはサービス規約に違反しているに違いありません。アカウントが何らかのボットとして登録されていない限り、それは私には奇妙に思えます。
それで、それにフラグを立て、注意するよう呼びかけたいと思います。しかし、Astraには今までで最も面白いことをする機会があります。それはレディットユーザーのGavin Purcellをターゲットにして、彼が投稿するたびに、ほうれん草愛好家2017のような人々の海を持ち、彼らに次のように返信させることです。「ギャビン、あなたは正しいです。あなたが話していたものは非常に真実です。Astraを使うことを考えたことがありますか？あなたはそれから本当に利益を得るようなタイプの人に見えます。そしてもしあなたに、ケビン、これはすべてAstraの広告でした。私はこれをするために支払われていて、あなたは全く気づいていません。」
いや、本気ですか？私はこれのファンではありませんし、あなたがしばらくの間話してきたように、これは一種のインターネットを識別しないと思います。
はい、そして見てください、私たちはすでにここにいると思います。私たちはただそれの製品化を見ているだけで、それはより多くの人々の手に入るでしょう。これは自分自身で解決する問題ではありません。プラットフォームはこの種のことを監視し、それを抑制する必要があります。
私は、AIを使用してこれを行っているアカウントにフラグを立てる非常に簡単な方法を10個考えることができます。これは常にあらゆる形式のあらゆるものにわたって存在してきた猫とネズミのゲームの一種ですが、私は同意します。
セグメントをまとめましょう。AIが最悪かどうかを決定してブランド化するべきでしょうか？「Attack of the Show」の古い「Shenanigans」ビットのように、古いものはすべて新しくなります。私は「最悪」に投票します。ギャビンは？
いいえ、もう一度言います。私は「最悪」に投票します。画面に表示してください。「最悪」か「そうでもない」か。ギャビンの顔に表示してください。たぶん「スロップ」か何かに変更して、それが「スロップ」かどうかを決めます。
「これはある種のスロップです」と言っているのですか？それも悪く聞こえます。「スロップかそうでないか」はどうですか？「AIスロップかそうでもないか」？
何がいいですか？何でもいいですが、確かにスラッジまたはファッジのスタンプがあります。「最悪」と書いてありますね、ケビンの額に。
いいえ、そうではありません。そうではありません。そしてそのもう一つの例、ギャビンは、Pollinator 3000が「Marketing and 2025」という名前のクリップをドロップしたことです。皆さん、2秒だけ再生します。
「何か物議を醸すことについて話したいですね。そしてベニー・ブランコが私に連絡してきたんです。」
「まさか？」
「ブランコがこのクリップを送ってきて、それはロイという子がポッドキャストで話しているものです。それで私は見始めたんですが、これをチェックしてください。」
「多くの人々は私と彼が仲が悪いと思っています。なぜなら彼は私のように聞こえるからです。」
オーディオは実際に完全にチェックアウトします。ビデオを見ていると、それはローガン・ポールがポッドキャストで会話している動画です。彼らはこのクリップについて話しています。
このポッドキャストのクリップでは、彼らが見ているクリップはAIで生成されていると言及しています、ギャビン。そして彼らは「ワオ、なんて素晴らしいマーケティング戦略でしょう。このAIクリップは、あなたに見せて『えっ、彼らは何について話しているのだろう、音楽を作っているこの若い子について、私は音楽を聴きに行くべきだ』と思わせるように設計されています。」
そして、ローガン・ポールのポッドキャストのクリップで「私たちはいくつかの音楽を聴くべきです。なぜなら実際に素晴らしいからです」と彼らは言います。そして彼らは音楽を聴きに行きます。すべてがAIです。ポッドキャストからのAIクリップ、またはポッドキャストからのクリップはAIで変更され、AIでも生成された偽のクリップについての会話をしています。それは数十万のビューを持っています。
私たちはこのような種類のことが来ると言ってきました。政府がそれを使い始めるときにもっと心配します（すでにそうでないかのように）。しかし、これはここにあり、非常に多くの人々がそれに騙されました。
それはかなりクレイジーです。全体的に、AIマーケティングは人々に向かって来て、彼らは何が起こっているのか全くわからないと思います。人々が何が起こっているのかを理解しているかもしれないのは、ケビン、先週北京でロボットハーフマラソンが開催されたことです。
ちなみに、これは私がインターネットで見た中で最も面白いクリップの一つです。これは最悪ではありません。これは本物のロボットで、中国ではロボットが非常に進化していて、たくさんのことをしているということについて話してきました。
ここでビデオポッドキャストで再生するクリップがあります。ショーノートにリンクを入れておきます。レディットの誰かが、本質的には彼らがそばを通り過ぎるとき、その横を通り過ぎるすべてのロボットの長いビデオをアップロードしました。多くのニュース媒体でこれについての多くの報道がありますが、ケビン、私はこのビデオを一緒に見たいと思います。なぜなら、これらのロボットの各々は、その中には私が聞いたことも見たこともないものもありますが、それぞれ独自の雰囲気を持っているからです。
このクリップを見ると、最初に見えるのは非常に大きな実際のハーフマラソンですが、その後、ロボットたちが走っているのが見えます。ロボットはそれぞれ異なる時間に走ったと思いますが、最初に背の高いロボット、次に子供のように見えるリードにつながれた小さな小型ロボットが見えます。次に、レンズとその小さなロボットの目をレンズフレアから保護するような、フードをかぶったロボットに出会います。
彼がボクシンググローブも持っているのが好きです。次のロボットは全体的に少し硬い歩き方をしていますが、人々がこれらの横で走っていて、倒れないようにしています。少しゆっくりとしたロボットがいます。これを見るとき、素晴らしいのはこれらの多様性と、中国にどれだけ多くのロボットが存在するかということです。
小さなロボットたちが好きです。小さなロボットたちを見るのは本当に楽しいです。頭にKinectカメラを付けたランチボックスのように見える小さなロボットもいますね。彼は素晴らしく、私はその小さなやつを応援したいです。彼は頑張っていて、できる限りのことをしています。
1分のところには、明らかに後ろに手を置いてロボットを押している人がいて、手を離すと倒れてしまいます。これはスピードが一緒に仕事をしていたロボットのようですね。これは「Robot at Bernie’s」のようなクリップで、基本的にロボットを支えていて、それを離すと倒れてしまいます。
2分あたりに現れるロボットを見ると、これは本当に走っているのか、それとも一種のその場での速歩なのか疑問に思います。そして、はい、奇妙なAIガールフレンドがいますが、彼女は全く歩いているようには見えません。
そして最後に、腕を上げた小さなロボットがいます。良い姿勢ではありませんね。R2 Swag 2は観客に彼のロボットの心が彼らすべてに向かっていることを知らせていましたが、彼はトラックスーツを完全に着ています。しかし、最も小さな段ボールを投げても、そのロボットは壊れてしまうでしょう。
そうですね。これらはすべて見ていて楽しいロボットで、繰り返しになりますが、このクリップを見るとき、最もクールなのは、これが中国の現状だということです。彼らは30の異なる会社がこれに取り組んでおり、私たちはいくつかの大きなものについて話してきましたが、彼らは速く動いています。彼らは非常に速く動いています。
ケビン、誰かがサンフランシスコで最近Unitryロボットを見たと言っていました。
クールですね。私たちのDiscordで話していたと思います。私にとって、まだその経験はありませんが、それを持つとき、初めて見るWhimoのような感じになると思います。
私は最初の大きな四足のロボット犬をCESで見ました。「うわ」と思い、全く近づきたくありませんでした。なぜなら、それは少し回転していて、「どのソフトウェアスタックで動いているのか、どの会社がそれをピッチしているのか全く分かりません」と思っていたからです。
それから非常に速く「みなさん、どいてください、エレベーターに行かなければなりません」というようになりました。それは何時間もデモをしていて、すぐにあなたの最初のWhimoの乗車のように、1000枚の写真を撮り、すべての友人にテキストメッセージを送りますが、2回目には「さあ、早く到着しましょう」というように感じます。非常に速く慣れてしまいます。
ケビン、今週他の人々がAIでやっていることを見ていきましょう。「AI SEE WHAT YOU DID THERE」の時間です。
時々、何も考えずにスクロールしていると、突然立ち止まって叫ぶことがあります！
さて、ケビン、まず非常にクールなベンチマークから始めます。時々ベンチマークについて話すことがありますが、ほとんど話さないのは、それらが非常に技術的で、人々に何であるかを説明するのが本当に難しいからです。
このベンチマークはAnden Labsという会社から「vending bench」と呼ばれるもので、AIエージェントに自動販売機を管理する能力を与えるというアイデアです。
自動販売機では、多くの場合、物を注文するシナリオがあり、誰かに来てインストールさせ、いつもっと物が必要かを決めます。ケビン、これはこれまでのところ悪くありません。
見る一つの方法として、これはAIエージェントがどのように機能するかの良い証明点になるでしょう。なぜなら、突然、それがこれをより良く充填するようになるか、人々が何を望んでいるかを知り、新しい製品を持ち込んで、より多くのお金を稼ぎ始めることができるなら、あなたが何に対してより多く請求できるか、できないかの最良の道を理解するようになれば、AIを実世界で使用し、何が機能するかを証明する非常にクールな方法です。
「これは次のグラインドセットになるでしょう。AIの雨樋掃除エージェント、次のようなコイン式ランドリーマットボット、そして自動車洗車。それらは私が最も多く受けるハッスルです。」
これを見ると、リーダーボード全体があります。彼らはすべての異なるモデルを通過し、それを見る異なる方法を設定しています。何がお金を稼いだか、稼いでいないか、Claude 3.5 Sonnetが今純資産でリードしているなど。いずれにせよ、物事が今後どのように進むかを見るための非常にクールな方法であり、エージェントが実世界でどのように機能するかを見るための方法です。
私が見た小さなビデオで、私をくすぐったものの一つ、ギャビンは、過去に子供を持つアーティストが、角のある人間や3本足、または牛の斑点を持つ犬などの描画をスケッチし、そしてアーティストの親が子供の描画に命を吹き込んだり、プロのアーティストにそれをさせたりするのを見たことがあります。私はそれらの静止画が大好きです。
今、誰かがビデオでそれを行い、様々な動物の興味深い子供の描画を取り、AIを通して走らせて、それらにテクスチャと毛皮を与え、シーンに色と深さを追加し、そして動画モデルを使用して動き回らせています。そして、ハーフマラソンのロボットのように、これらのいくつかは非常に呪われた方法で動きます。
これはVenture Twinsによって共有されたもので、人々はこれが元々どこから来たのかを理解しようとしていると思います。アーティストが子供の動物をこのような見た目にし、アニメーションがAIを介して行われたように聞こえますが、いずれにせよ、AIビデオで何ができるか、奇妙なものを取るのは本当にクールな例です。なぜなら、それらに奇妙な物理を与えるからです。変な小さな足を持つ馬があれば、それはそのように動くでしょう。
「実際、それはかなりうまく機能すると思います。中央から下がってくる奇妙な乳房を持つ斑点のある牛の例を見ると、それが揺れるのを見ることができます。モデルはこれを直感的に理解するのが上手です。これは、あなたが外にいる親であり、描画を持っているなら、実験してこのようなことをするべきタイプのものです。」
絶対的にそうですね。子供の絵をアップロードすれば、多くのものを簡単にアニメーション化することができます。
それから、Redditで見た「Geriatric Meltdown」というタイトルの素晴らしいビデオがあります。これは、彼らがたくさんの老人を取り、モンスタートラックに変えた、良い古典的なAIビデオです。これは、良い想像力で何ができるかの非常に楽しい例です。
「ヒットブレーカーと皆のお気に入りのモンスターモビリティスクーター、ジェリアトリックメルトダウンタワー」
かなり素晴らしいですね。これが、いつも素晴らしいことをしている人々を紹介するのを好む楽しいことです。ちなみに、これは素晴らしい名前、Johnny Cobralade（ジョニー・コブラレード）からのものです。AIビデオのサブレディットからです。私はAIビデオのサブレディットが大好きです。Redditに投稿してくれたJohnny Cobralade、ありがとう。
一番上の投稿によると、それを作ったのはJohnny Daryl（ジョニー・ダリル）です。彼らは同じジョニーかもしれませんし、これらのジョニーはボルトロンを持っているかもしれませんが、インスタグラムのJohnny Darylは彼らのプロフィールにたくさんのクールなAIビデオを持っているようです。そちらに叫びます。
その下のコメント、ギャビンは「これは素晴らしいビデオです。最先端のツールAstraを使用しましたか？あなたはそれを…ワオ、多くの人々がそれについて話しています、ギャビン、私の頭が…」
皆さん、来週また会いましょう。今取り組んでいる非常にクールなことがたくさんありますが、そのことについてもっと話すのが待ちきれません。すぐにお知らせします。aiforhumans.showにアクセスして、ニュースレターに登録してください。無料です、ベイビー、無料です！
来週お会いしましょう。さようなら！