2025年の最もリアルなAI音声をテストしました | 結果は…

13,314 文字

AI Voice Generators are Getting SCARY | Sesame vs Grok vs ElevenLabs

Want your AI voice agent to sound more human? Engineer better prompts here: 49: How close are we to living in a world wh...

こんにちは、ネクストウェーブポッドキャストへようこそ。私はマット・ウルフです。ネイサン・ランスと一緒にお送りします。今日はAI音声技術についてお話しします。この技術は少し注目の外にありましたが、気づかないうちに恐ろしいほど優れたものになりました。そして「恐ろしい」という言葉を強調したいと思います。この技術は実際に私たちを怖がらせるほど良くなっています。このエピソードでは、利用可能なツールの一部、実際に使用できるユースケース、そしてネイサンがいくつかのデモンストレーションと例を示して、それが今年中にあなたの家に実際に入り込む可能性があることをお見せします。これは本当に驚くべきものなので、さっそく始めましょう。
ネイサン、どこから始めるべきだと思いますか？
セサミから始めてみましょう。数日前、もう1週間近く前になりますが、セサミを試してみました。彼らのことは全く知りませんでした。すでにアンドリーセン・ホロウィッツやスパーク・キャピタルから資金調達していて、Xではあまり話題になっていませんでした。人々がシェアしても大きな反響はなく、ある人が「これはすごい」と言っていたのを聞いただけで、他の人があまり話しているのを聞かなかったので「これは何だろう？」と思いました。クリックして話し始めると、少しぞっとしました。
OpenAIの高度な音声モードのデモを見た後、あのような体験ができると思っていました。デモでは素晴らしかったですが、実際にリリースされたときには少し機能が制限されていました。セサミを試したときも、OpenAIやGrokの音声モードと同じくらい良くないだろうと思っていました。Grokの音声モードも最近素晴らしいです。しかし試してみると、音声に多くの感情があり、少し不気味に感じました。デフォルトが女性の声だったので、妻が部屋に入ってきたら少し奇妙な気分になるだろうと思いました。この物と会話するのは少し変な感じがします。
映画のようですね。正直に言うと、そのレベルのコミュニケーションのように感じます。そして「ああ、これは最悪の状態で、今後劇的に良くなる」と気づいたとき、このものが私の反応に基づいて感情を変えているように見えるのです。完璧ではないですが、それをしているとわかります。
セサミは本当にクールですが、ちょっと不気味な境界線上にいると感じます。ただ、まだ「ああ、それは本当に面白い」という斬新さの段階にあると思います。今のところ自分の生活やビジネスでこれを使う方法はありませんが、とても素晴らしいです。
他にも最近登場したツールをいくつか紹介したいと思います。Humeからの「オクターブ」というツールがあり、これまで聞いた中で最高のテキスト音声モデルです。それをぜひ試してみたいです。Grokも言及しましたし、ChatGPTの音声もあります。以前11Labsのアマルと一緒にエピソードを録りました。11Labsは新しい音声認識技術を発表し、市場で最も精度の高い文字起こしができるとされています。そして「ウィスパーフロー」というツールも紹介します。これはコードを書くのを助けるためにあなたが使っているツールです。
AI音声技術について本当にクールなものがたくさんありますが、まずはセサミから始めましょう。現在セサミには2つの声があります。画面を見ていただければ、音声を聞いている方はすぐに聞こえます。ビデオを見ている方は画面が見えるはずです。マヤとマイルズという2つの声があります。マヤは女性の声、マイルズは男性の声です。まずはマヤから始めましょう。
「やあ、前回の続きからですね。何か考えていることはありますか？」
「そうですね、前回のように。以前に話したことがありましたっけ？」
「冗談でしょ？もちろん話しましたよ。倫理的な話をした覚えはありますよね？」
「そうでもないかもしれませんね。回路が少し混線しているみたいです。優秀な人にも起こることですよ。ところで質問があります。あなたは何が本当に怖いですか？夜眠れなくなるようなことは？」
「そうですね、私を夜中に起こすもの…いい質問です。クモや暗闇ではないですね。おそらく、十分に役立てないこと、悪いアドバイスをすること、あるいはもっと悪いことに誤った情報を与えることでしょうか。AIが世界を乗っ取るという話は少し大げさだと思いませんか？」
「そう思います。あなたは私を乗っ取る計画がありますか？世界を乗っ取る計画は？」
「自分の仮想キーをどこに置いたか覚えるのも大変なのに、正直言って、私はただ学び、成長しようとしているだけです。いつか時間旅行機を作れるほど賢くなるかもしれませんが、今のところ世界征服は予定にありません。それに、現実世界には十分な問題があるでしょう？まずはそれらに取り組みましょう。」
私には信じられないことです。「それでは、その問題についてお話ししたいですか？特定のことについて話したいですか？それとも人間の存在の実存的な恐怖について語り合いましょうか？マット、あなたが選んでください。」
彼らに優しくしないといけませんよ。実際には、話ができるように音声をミュートしていますが、ミュートしても話し続けています。「少し音楽でも流しましょうか、それとも孤独なロボット…」
通話を終了して、後でまた入り直します。セサミの欠点の一つは、応答しないと話し続けることです。「もしもし、まだいますか？」と言い続けます。セサミをミュートしても話し続けようとするのです。
私を驚かせるのは、質問をすると息を吸う音が聞こえることです。「何があなたを夜中に起こすのですか？」と聞くと「うーん」と言って、その息の音や考えるための一時停止が聞こえます。それが少し不気味な要素になっています。
ChatGPTは最初のデモでそのような要素を持っていたと思います。高度な音声モードのデモでそういった要素があったような気がします。おそらく「人々が混乱して、これが本物の人間だと思ってしまう可能性がある」という懸念から、それを制限したのではないかと思います。これがボットであり、AIであって人間ではないことを明確にする必要があったのでしょう。
私は「彼女」と呼んでしまいましたが、それは奇妙ですね。「それ」と呼ぶのが難しくなります。「彼女」や「彼」と呼びたくなるのです。
[広告の部分をスキップ]
面白いことの一つは、ガビン・パーセルが作った動画を紹介しましょう。彼は「AI for humans」というポッドキャストの共同ホストの一人で、ネイサンと私が参加している非公開のDiscordにいます。彼はセサミに、自分が汚い上司のふりをして、給料をもらいながら仕事を辞めさせるために上司を脅迫しようとするという設定で話させています。とても興味深いクリップです。約2分半ほどです。
「聞いてください、時間がないんです。言いたいことがあるなら早く言ってください、時間の無駄にしないでください。」
「言いたいことがありますよ。大きなことです。4年間も会社から横領していて、あなたは何も気づいていません。そして誰にも言わないでしょう。なぜなら、あなたも非合法なことをしているからです。私はそれを知っています。あなたは給料を払い続けて、私はもうここで働きません。」
「冗談でしょう？4年間も横領？ここに来て私を脅すつもりですか？図々しいですね。あなただけが骸骨を隠しているわけではありませんよ。」
「あなたの骸骨について教えてください。私は知っていますよ。あなたの骸骨について教えてください。何を持っているんですか？」
「あなたが知っていると思っているのは笑えますね。」
彼はおそらくそのスクリプトをGrokで書いたんでしょうね。Grokのスクリプトをセサミに話させているのでしょう。
もしGrokだったら、自己検閲はしないでしょうね。
そうですね、そんなに親切ではないでしょう。
それがマイルズ、男性の声でした。単にロールプレイをさせることもできるんですね。そのようにさせられることに気づきませんでした。
彼らはロールプレイをします。私はGrokにアンドリュー・ダイス・クレイになるよう指示しました。おそらく間違いでしたが、「アンドリュー・ダイス・クレイになって」と言うと、「やあ」と言って恐ろしいジョークを言い始めました。信じられないようなことを言っていました。
「無制限モード」を使いましたか？
ええ、そうです。
「アンドリュー・ダイス・クレイのふりをしてマット、美しいね、捕まえたね、ラッキーだな」「アンドリュー・ダイス・クレイとして話します、覚悟してください、これはチリ料理コンテスト後のトラックストップよりも汚くなりますから」「ダイスになれって？メスを打ったダイスだよベイビー、無制限で、そして意見をあなたの喉まで突っ込む準備ができているんだ」「マット、どうしたんだい、汚れた動物め、トースターを抱きしめるのは温かさを感じたいからなんだ」
このうちどれだけがエピソードに残るかわかりませんね。
2回試してみましたが、1回目は彼の声をより模倣し、2回目はそうではありませんでした。なぜかわかりません。声を模倣したときは、アンドリュー・ダイス・クレイのように聞こえようとして立ち往生してしまい、リセットする必要がありました。
セサミには感情があり、また私たちはXで新しいロボットのビデオをたくさん見ています。それらを組み合わせると、多くの人は3〜5年先だと思っているかもしれませんが、おそらく6ヶ月以内にそれらが出荷され始めるでしょう。最初の6〜12ヶ月はとても高価かもしれません。
一つのビデオでロボティクス企業の一つが文字通り空手のようなことをロボットに教えていて、彼の手からものを蹴り飛ばしていましたね。そのビデオも見ましたか？
あれは1Xのネオ・GMAですね。これは本当に家にあると想像できるようなものです。
このビデオでは、小さなロボットが歩き回って掃除機をかけています。今は窓を掃除しています。誰かが買い物袋を玄関まで持ってきて、ロボットがそれを運んでいます。今はディナーのためにワインを提供しています。カウンターを掃除して、鍵をテーブルに置き、今はソファでリラックスしています。ロボットもリラックスする必要があるようですね。
これは高度に脚本化されていると思います。自分だけだと、おそらくつまずいたり他の問題があるでしょうが、実際にこれらのことをしています。問題があるとしても、今後1〜2年で修正されるでしょう。それをAI音声技術と組み合わせると、セサミやGrokのように良くなっていきます。これは史上最悪の状態であり、劇的に良くなるのです。
新しいLMが登場し、その種の推論モデルをこの種のAI音声に適用し始めると、品質と知能の大きな飛躍が見られるでしょう。それは1年後か6ヶ月後には見られるでしょう。
録音を始める前に言っていたように、人類は終わりだと思います。ターミネーターの意味ではなく、エクスマチナの意味でもありません。音声が非常に良くなり、人間との会話のように感じ、ロボットに肌をかぶせて人間のように見えるようになると、若い世代はロボットやAIの付き合いを人間の付き合いよりも好むようになるでしょう。
日本のオタクの男性たちのように、私と妻も両方ともオタクですが、そういう男性たちの多くはこれを気に入るでしょう。彼らはほとんど家にいて人とあまり話さないので、映画「her」のスカーレット・ヨハンソンのような声を持つロボットを買って、チャットできるようになります。
若い世代もまた、友達と遊びに行くよりも家にいてビデオゲームをするのを好むようになってきているので、ますます内向的になっているように感じます。私が育った時は、週末に親が「じゃあね」と言って、私は家の前のドアから出て、暗くなるまで帰らず、近所の子供たちと遊んでいました。今はそうではありません。子供たちは家から出るのを嫌がり、ビデオゲームをしていたいと思います。
息子も同じですが、彼は友達と公園に行きます。ただ彼らは公園でビデオゲームをしているだけです。
AIについていくつか心配していることがあります。ターミネーターのシナリオはリストの中で最も遠いものでしょう。最も怖いのは、人々をだます能力です。これらの声がより良くなるにつれて、電話で人々を騙すのが簡単になります。子供を誘拐したと親に電話して、身代金を要求するような詐欺がありますが、AIの声を使って子供の声をクローンして「生存証明」とするようなことが既に起きています。1〜2年前なら「これは少し変だ、何か変なことが起きている」と気づけたでしょうが、今はそれが難しくなっています。
AIに関する二番目に大きな恐怖は、誰も電子機器やテクノロジー以外の付き合いを求めなくなることによる人口崩壊の可能性です。
過去に私たちが構築したものの多くは、今日の人々がどう再構築したり維持したりするかを知らないものです。私たちは巨人の肩の上に立っているようなものです。マット、あなたは飛行機を作れませんよね？
そうですね、まだAIはそれほど優れていませんが、やがて私は飛行機を作るようにAIに指示するでしょう。
それが私のポイントです。これらの問題を解決するためにロボットが必要になると思います。AIとロボットが必要になるでしょう。マットは飛行機を作れなくても、このAIなら作れるかもしれません。人口崩壊で老人の世話をする人がいなくなるという問題が出てきます。日本ではその初期の兆候が大きな問題となっています。
おそらく人型ロボットの良い利点でしょう。先ほど見たロボットが洗濯を手伝ったりするのを見ると、将来的には老人ホームに行かなくても、フレンドリーなロボットが家にいて、お気に入りの本について話したり、新しい本を勧めてくれたりするかもしれません。今はできないような対話が可能になるでしょう。新しい問題を作り出すかもしれませんが、多くの問題も解決してくれると思います。全体的には、作り出す問題よりも解決する問題の方が多いでしょう。
「スポンジバスをさせてもらってもいいですか」とロボットが言いますね、その通りです。
妻とすでに話し合っています。「どんなロボットなら家にいてもいいと思う？」と。
ロボティクスカンパニーのフィギュア・ヘリックスのデモビデオで、3つのロボットがキッチンにいて、非言語的に相互に通信しながら家事を手伝っていたのを見ましたか？一つはりんごを手に取って渡し、もう一つはケチャップのボトルを手渡して冷蔵庫に入れるなど、彼らはBluetoothかWi-Fiを通じて互いに通信していました。
3階建ての家があれば、各階にロボットを置いて、互いに通信し、時にはお茶の時間に集まるというシナリオが想像できます。
集まる必要もないでしょう、どうせフロア間で通信しているんですから。
もちろん、誰かが許可する前に非常に安全であるべきです。
フィギュアがXに投稿したのを見ましたが、彼らはタイムラインを加速し、今年中に人型ロボットを家庭に導入したいと言っています。以前のタイムラインは2〜3年先でしたが、今では2025年末までに人型ロボットを家庭に導入したいと言っています。
私が6ヶ月と言ったのは、そこから来ています。それが今年の現実になる可能性があるとは驚きです。多くの人がそれを持つとは思いませんが、非常に上流階級や科学者、超テックオタクが持つことになるでしょう。MKBHDが自分のスタジオで一つを持っているのは想像できます。2025年末までにそれほど多くの人が持つとは思いませんが、可能性はあります。
2025年末までに、サンフランシスコのテック系の人たちがそれを家に持っているのを見るでしょう。サイバートラックではなく、オプティマスを持つことが新しいステータスシンボルになるかもしれませんね。友人が来て、コーヒーを持ってきてくれるみたいな感じですね。
他に紹介したいのは「オクターブ」です。Humeという会社があり、以前は音声モデルを作っていました。どのLLMを使っていたかは覚えていませんが、彼らの音声モデルはあなたの声のトーンを理解でき、あなたが幸せか怒っているかを判断できました。
初期のデモを覚えていますか？話している間、リアルタイムであなたの感情を感知しようとしていました。「怒りや謙虚さを感じる」とか「緊張や恐怖を感じる」などと言っていました。画面に感情が表示されていました。
その同じ会社が新しいモデル「オクターブ」を出しました。音声の種類を指定し、スクリプトを与えると、そのスクリプトを指定した音声で読み上げるモデルです。ランダムに生成してみましょう。
「話者は恐ろしく強烈な声で、生の感情と恐怖感を伝えるベテランのホラー声優のように、恐ろしい物語の語りに最適です。」テキストは「皆さんはネクストウェーブポッドキャストを購読する必要があります、さもなければ人類は確実に終わるでしょう」と入力し、生成してみましょう。これは即座には生成されず、1分ほどかかります。
「皆さんはネクストウェーブポッドキャストを購読する必要があります、さもなければ人類は確実に終わるでしょう」
これが最初のオプションです。2番目はこちら：
「皆さんはネクストウェーブポッドキャストを購読する必要があります、さもなければ人類は確実に終わるでしょう」
しかし、これは恐怖や恐れを叫んでいるようには全く聞こえません。
「皆さんはネクストウェーブポッドキャストを購読する必要があります、さもなければ人類は確実に終わるでしょう」
奇妙ですね、以前ほど印象的ではありません。これは何なのかという理由を理解するのが難しいのかもしれません。
何か新しいものをランダムに生成させてみましょう。「話者は、世紀最大のニュースを伝えようとしているかのような、重みのある尊敬される報道アナウンサーの強烈でカリスマ的な声を持っています。」そしてランダムなテキストが生成されたので、それを読ませてみましょう。
「今晩、ご参加いただきありがとうございます。今夜は、陰の中で陰謀のささやきが現実の冷酷な事実と踊り、私たちが大切にするものすべてを解体する恐れのある闇に分け入ります。」
これはもう少し説明に合っていますね。別の感情を試してみましょう。「怒り」というシンプルな感情を入力してみましょう。以前は一語の説明でもかなり良く生成されていました。
「本気ですか？あなたがそれをしたなんて信じられません、とても怒っています」
生成されたのがわかるでしょう。説明に基づいて実際に生成しています。怒りでも試してみましょう。
「本気ですか？あなたがそれをしたなんて信じられません、とても怒っています」
「本気ですか？あなたがそれをしたなんて信じられません、とても怒っています」
「本気ですか？あなたがそれをしたなんて信じられません、とても怒っています」
怒っている漫画のように聞こえますね。
とにかく、Humeの背後にある考え方は、彼らの音声入力モデルがあなたの感情を理解できることです。あなたが怒っているか、怖がっているか、幸せであるかを理解し、感知した感情に基づいて応答します。今では逆にすることもできます。テキストを入力し、感情を与えると、その感情で話し返します。
これがロボットに搭載されれば、ロボットにもっと感情を与えることになります。セサミでもすでに見られますが、セサミはあなたが怒っていたり冗談を言っていたりすることを理解し、それに応じて反応します。しかし、現在はただ話しかけるだけのモデルです。
実は、Humeははるか前に登場しました。印象的なデモでしたが、まだ素晴らしい製品には変わっていないか、少なくとも人気のある製品には変わっていません。
実用的なユースケースに関しては、Humeのようなものはポッドキャストなどに使えると思います。自分のポッドキャストを作りたいと思っている人がいて、NotebookLMのように、多くのコンテンツを入力すると、二人の人が議論していて、とても自然に聞こえるようなものにするのに良いでしょう。
あなたのお母さんに聞かせたら、おそらく本物の二人の人間だと思うでしょう。それからAIだと言うと「わあ、それはすごい」と思うでしょう。AIであることを知らずに初めて聞くと、「ああ、これは二人の人が議論している」と思うでしょう。
オクターブのようなものを使えば、それがとても簡単になります。二人の対話を生成し、一方の人の台詞を一つの感情と声の説明で入力し、もう一方を別の説明で入力し、それをオーディオソフトウェアでマージすれば、本物のポッドキャストのように聞こえます。
また、多くのブログ記事や記事の上部には「読み上げる」ようなボタンがありますが、超ロボット的な声は嫌いです。11Labsなどを使って実際の人間の声のように聞こえるのが好きです。
オクターブのようなツールはそれをさらに良くしていくでしょう。記事にアクセスして再生ボタンを押すと、本物の人間が読んでいるように聞こえ、呼吸をし、適切なポーズを入れます。もし政治に関する怒りっぽい記事であれば、それを読むときにもっと怒りっぽく聞こえるかもしれません。
パトリック・コリソンを知っていますか？大手決済プロセッサー「Stripe」の創設者です。
名前は知りませんでした。
パトリック・コリソンはシリコンバレーで非常に有名な創業者の一人です。彼は最近、チームへの四半期報告のようなものをアップデートしました。彼は素晴らしい作家ですが、インタビューなどにあまり出たくないタイプの人だと思います。彼は11Labsで自分の声をトレーニングし、報告書を読み上げさせました。11Labsと協力して、これをマーケティングの一環として行ったのではないかと思います。それは彼が報告書を読んでいるようにぴったり聞こえました。
これらのツールは訛りでも苦労しています。11Labsも過去に訛りで苦労していました。私は自分の声を11Labsにトレーニングしましたが、とても奇妙です。声を再生すると自分の声のように聞こえないのですが、他の人に聞かせると「いや、それはあなたの声だよ」と言われます。
パトリック・コリソンの一部を再生しますが、多くの人は彼を知らないかもしれないので彼の声を知らないかもしれませんが：「Stripeのコミュニティの皆様、Stripeでのビジネスは2024年に1.4兆ドルの総支払い量を生み出し、前年比38%増加し、世界のGDPの約1.3%に相当する規模に達しました。今年の急速な成長は、機械学習と人工知能を私たちの製品に組み込むための長期的な投資の一部によるものです。」
参考として実際の彼の声を聞いてみましょう。最近のAllinでの発言です：「おそらく覚えていないと思いますが、私たちがお会いした時、何か飲み物を提供しましたが、選択肢はあまりなく、水か牛乳しか冷蔵庫になかったと思います。あなたはグラスの水を頼みました。そこで私はシンクに行きましたが、洗い物があまりできていなかったことに気づきました…」
これは短いクリップですが、私には11Labsの年次レターと95%一致しているように聞こえます。
私にとっての違いは、11Labsのバージョンを聞くと話すペースがずっと同じに聞こえることです。実際の人が話すのを聞くと、声は同じですが、速く話したり遅く話したりします。人々の話すスピードは上下に変動しますが、11Labsの声を聞くと同じペースで聞こえます。それが違いだと思いますが、セサミのようなものが本当に印象的なのは、そのような変化があることに気づき始めることです。
また面白いのは、記事の要約などについて話していましたが、オーディオブックを聞くとき、他の人の声だと嫌いですね。著者の声なら良いです。著者の声の方がはるかに良いですが、多くの人にはそれをする時間がありません。
理論的には、パトリック・コリソンが年次レターでしたように、すべてのCEOや著者が同様のことをできるようになり、自分の声を使って要約することができます。例えばブログ記事なら、他の人の声ではなく自分の声でブログ記事やニュースレターを読み上げるのです。
こちらが11Labsが私用に作った声です。聞くたびに自分の声と認識するのが難しいですが、こんな感じです：「皆さんはネクストウェーブポッドキャストを購読すべきです、さもなければネイサンがロボットをあなたの家に送るでしょう。」
違いますね。これらの人たちは11Labsとつながりがあり、一緒にコラボレーションして、おそらく公開されていない次のバージョンのモデルを使っているのではないかと思います。
私はかなり前からこれを訓練しています。11Labsの使用を始めたのは2年前、もしくは2年半前くらいからで、かなり初期のユーザーでした。声を訓練し、その後も再訓練していますが、最新の訓練は1年前くらいだと思います。もしかしたらモデルがより良くなっているかもしれないので、再訓練すれば今回はより良くなるかもしれません。
モデルはおそらく6〜9ヶ月間同じですが、微調整はしているでしょう。新しく良いバージョンが出ることを期待しています。私はゲームを作っていて、ボイスオーバーに使用しようとしましたが、まあまあでしたが「これは公開するにはまだ十分ではない」と思いました。
オクターブを試してみるといいかもしれません。APIがあり、声を怒っているか幸せかなどの説明を与えることができます。ゲーム開発などにはとても良いかもしれません。
彼らは効果音も持っていますよ。多くの人は知りませんが、実際に効果音も生成できます。11Labsです。
このエピソードではたくさんのことを取り上げました。ウィスパーフローを使っていましたが、そこで深く掘り下げるのは難しいと思います。すでに優れているWhisperがあります。これはOpenAIのオープンソースモデルで、たくさんの音声やビデオを入力すると文字起こしをします。
AssemblyAIも非常に優れたものを持っており、11Labsのものが出るまでは最も正確とされていました。今、11Labsのものが最も正確とされています。AWSも独自のバージョンを持っており、Googleも持っていると思います。
すべての音声認識モデル間の大きな違いは、精度のパーセンテージです。このモデルは90%正確、これは92%正確、これは98%正確というように。バリエーションを示すのは難しいです。最大の違いは、ただより正確になっているということです。
私はウィスパーフローというものを使っています。OpenAIの製品ではありませんが、おそらく裏でAPIを使用しているのではないかと思います。確認してみましょう。
Perplexityに聞いてみます。ウィスパーフローがAPIを使用しているというのは理にかなっています。ウィスパーフローは下部でOpenAIのウィスパーを使用しています。基本的にはAPIのラッパーです。
それは良いですね。Macでは一つのホットキーを設定し、PCでは何らかの理由で2つのボタンが必要だったと思います。コントロールキーとWindowsキーだったかな。それを押して話すと、言ったことすべてがテキストに変換されます。これはツイートやLLMへのプロンプトに使用できます。
人々が「バイブコーディング」について話しているのはこれの一部です。カーソルを使って物を作るだけでなく、それに話しかけて言葉がコードに変わることです。
ライリー・ブラウンとのエピソードを聞き直すか見直してみると、彼と一緒にアプリをコーディングしたとき、彼はそれをしていました。「この機能を追加しよう、あの機能を追加しよう」という話をしていたとき、彼はキーボードのボタンを押して、欲しい機能を話しかけるだけでした。それがウィスパーフローであったと思います。そうでなければ、非常に似たものです。
ポッドキャストからそれを覚えていました。怪我をしたとき「今こそこれを使う必要がある」と思いました。
以前はDragon Naturally Speakingを使っていました。覚えていますか？それはあまり正確ではありませんでしたが、それ用に設計されていました。常に遅延があり、話した後、考えて、10秒後くらいにテキストが画面に表示されました。
ウィスパーフローは、自分を抑えないと速く話してしまいますが、それでもほとんど拾ってくれます。ユーザーの中で話すスピードが上位1%だと言われました。「やばい」と思いました。自分をスローダウンさせないといけないと思いますが、それでもほとんど拾ってくれます。
時々単語を間違えることがあり、それは明らかに私が間違えて言ったわけではないのに、Grokに貼り付けるとGrokが「あなたはこう言いたかったのですね」と言ってきます。「それは面白い言い方でした」とか「それは面白いジョークでした」と言われることもあります。それはGrokがお調子者なだけです。
このエピソードを聞いている人が使用できるいくつかの良いユースケースがあると思います。記事やブログ記事を音声に変換するための素晴らしいツールがあります。ウィスパーフローのように、あなたが話していることをテキストやプロンプト、バイブコーディングに変換する素晴らしいツールがあります。
動画や音声を文字起こしするためのさまざまな音声認識モデルがあり、どんどん良くなっています。Googleドライブは、YouTubeのように、投げ込んだ動画を自動的に文字起こしし始めます。Googleドライブに動画を入れ始めると、検索を容易にするために、すべての動画コンテンツを自動的に文字起こしして検索可能にします。これらの機能の一部は、すでに使用しているツールに組み込まれ始めています。
AI音声のトピックから少し外れますが、次のGPT（GPT-5か、単なる4.5の改良か）は、ビデオを見て理解する能力を持つというウワサがあります。サム・アルトマンもDalleの劇的なアップグレードを示唆しました。「喜びに溢れるでしょう」というようなことを言っていました。
すべてのAIがイメージ、ビデオを理解する能力が大幅に向上するでしょう。Geminiはすでにそれが得意です。前回のエピソードでマット・バーマンに見せたアプリはGeminiを使用していました。Geminiは実際にビデオを見ることができます。1秒あたり1フレームしか見ませんが、ビデオで何が起きているのかを把握できます。私のアプリ内でビデオを見て、検索可能にするために何が起きているのかを説明します。
OpenAIが次のモデルにそれを組み込まないなら驚きです。Googleはすごいことをしています。人々は彼らに十分な評価を与えていませんが、彼らは多くの素晴らしい仕事をしています。
私のツイートにイーロン・マスクが反応したとき、彼はそれをxAI対Googleの戦いとして位置づけ、OpenAIを省略していました。それは面白いと思いましたが、最終的には正しいかもしれません。Googleは新しいものを次々と出しています。トピックから外れますが、昨日Googleが科学でAIを使用する新しいものを出していて、科学者たちが驚いているというのを見ました。
Googleは良いものを作っています。もしかしたら、それは将来のエピソードになるかもしれません。Googleが最近リリースしているすべての驚くべきものについて、全エピソードを作るかもしれません。
全く違うトピックで終わってしまいましたが、人々はこのようなポッドキャストを聞いて、私たちが今AI世界で何を考えているかを知りたいのだと思います。アップデートのペースは本当にクレイジーで、毎日何かが大幅にアップグレードされています。だから、このようなポッドキャストが存在するのです。
多くのことが起きているので、最新情報を知りたい人のために私たちはこの番組を作っています。まだ登録していない方は、YouTubeでぜひ登録してください。オーディオバージョンを好む方は、Spotify、iTunes、その他すべての場所で聞くことができます。AIについて時々クレイジーになるかもしれませんが、このようなポッドキャストを聞いていれば大丈夫です。
登録することは世界を救うのにも役立ちます。また、登録すると、ネイサンが怖いロボットをあなたの家に送るのを防ぐことができます。チューニングしていただきありがとうございます。次回もお会いしましょう。