ああ、Googleが何もかもをポッドキャストに変えてしまう

9,621 文字

Oh no, Google is turning everything into a podcast

Google’s NotebookLM can turn any document into a conversation between two chatbots. Is this the future of podcasting? Th...

今日は非常に興味深いことについて掘り下げていきます。
「うーん」
今、私はYouTubeビデオをAI生成のポッドキャストに変換しています。
「ここで重要な洞察は…」
ここでは、ウェブサイトをAI生成のポッドキャストに変換しています。
「私たちは情報源を掘り下げ、関連性を見てきました」
そして、ここでは私の第1四半期業績評価をAI生成のポッドキャストに変換しています。
「この詳細な分析は、非常に具体的な洞察を提供するでしょう」
これが、私がポッドキャスト業界から一時休止している理由の一つです。私は長年「The Verge」でポッドキャストプロデューサーをしていましたが、実は創造的な充実感を求めてビデオへと方向転換しました。
今や基本的に何でもポッドキャストになり、クリエイターたちは、誰でもボタン一つで作れるようなコンテンツと聴取者の時間を奪い合うことになるでしょう。Googleの NotebookLM ツールは、まさにそれを実現しています。その「オーディオ概要」機能は不気味なほど印象的で、ただ二つのロボット音声が行ったり来たりするだけではありません。
あなたがアップロードするテキスト、音声、リンクなど、あらゆる形式の情報を分解し、メタファーや言葉遊び、さらにはカジュアルな会話を加えて、どんなトピックでもより理解しやすくします。
「アップルはアプリストア外での手数料を請求できません。それは大きいですね」
「ああ、潜在的には巨大な影響がありますね」
「えーと」や「えっと」などの言葉も入っています。
「物事が、えー、どう循環するか、興味深いと思いませんか？」
「そうですね」
元ポッドキャストクリエイターとして、これがクラフトの芸術性を薄めていると感じるのは当然です。ほとんどポッドキャストのパロディのようですが、私はある意味これに取り憑かれています。だから、これらを試してみて、特に人間が作ったポッドキャスト（信じられないことに今やこのフレーズを使わなければならない）と比較して、実際にどれだけうまく機能するのか見てみましょう。
「よし、これを分析しましょう」
「では、準備してください」
「いくつかのポイントを掘り下げましょう」
「これは考えさせられますね」
時々、いろいろな理由で読みたくないテキストがあります。先ほど私の仕事の業績評価をオーディオ概要に変換したと言いましたが、あれは読みたくなかったんです。批判を受け入れるのは難しいですが、オーディオ形式なら少し楽かもしれません。
「また、撮影とスクリプト作成のスキルをさらに磨くべきだとも提案していました。おそらくもっと経験豊富なチームメンバーから学ぶことで」
「いや、やっぱり楽ではないですね」
実は良い例がステレオの説明書です。私はOutlaw RR2160 MkIIステレオレシーバーのマニュアルをNotebookLMにアップロードしました。決して軽い読み物ではありません。
「PCのUSBポートは、セレクターで見たものです」
「そうですね。RR2160 MkIIをコンピューター用の外部サウンドカードに変えるものです。マニュアルにはWindows用ドライバーが必要と書かれていますが、これはよくあることです」
「なるほど」
これは全体的に、情報をカジュアルな方法で伝えるのにかなり役立ちました。実際のポッドキャストのように、トピックを整理しセグメント化します。しかし、すぐにこれらを聴いていると、時間の節約になるとは限らないことに気づきます。時にはそう主張しようとしますが。
「テクノロジーレビューは、本当に時間を無駄にすることがありますよね」
「本当にそうですね」
「私たちは何時間も費やさずに、あなたが最新情報を得られるようにします」
「そう、画面に釘付けになるような」
今聞いたのは「The Verge」のiPhone 16 Proレビュービデオのオーディオ概要です。元は22分の動画ですが、20分のポッドキャストになりました。2分節約できましたね。ポッドキャスト業界は、あなたの時間を奪い合うことに依存しています。ステレオの説明書を聴くのに多くの時間を費やせば、NPRなどを聴く時間が少なくなります。しかし、このリラックスした形式は実は意図的なものです。NotebookLMのプロダクトディレクター、サイモン・トクミネに、オーディオ概要の作成について話を聞きました。チームは本当に台本のない会話のように聞こえるようにしたかったそうです。
「最初に作ったポッドキャストは、情報が非常に効率的に詰め込まれていました。Googlerたちはそれを気に入りました。『素晴らしい、時間を最適化できる』とか。でも私の期待とは逆でした。私たちが作っているものを他の人と共有し、必ずしも毎日の時間を可能な限り効率的にすることに執着していない人々、むしろリラックスして聴き、情報の波に身を任せるのが好きな人々からフィードバックを得始めたとき、ここには二つの異なる層があり、私たちが作っているのはGooglerたちのためではないことに気づきました」
個性的なポッドキャストの質を実現するために、NotebookLMはGemini 2.5 Proをメタプロンプティング、エージェンティックワークフローとともに使用してホストが従うスクリプトを作成しました。そして興味深いことに、二人の実際の人間が一緒に部屋に座り、ポッドキャストをしているふりをした録音も多数使用したそうです。
「実は本当に自然に聞こえる対話を促すのは非常に難しいんです。台本では無理です。適切な人を見つけ、アドリブ的で会話的な心構えと環境に導き、彼らが興味のあることについて話すようにするんです。オーディオビューで聞こえるのは、スタジオで声の収録をしたときに、私たちの声の才能が持っていた自然な化学反応のためだと思います」
「マニュアルには面白いことに『最初に読め』と書いてありますね」
「アウトローという名前に反していますね」
「そうかもしれませんね」
オーディオ概要の中のこういった小さな瞬間に感心し続けています。例えば、スペインのパエリアのレシピから作ったポッドキャストの一部です。
「それらは美味しいスープをすべて吸収する小さなスポンジのようなものです」
「あ、クリーミーなリゾットのような食感を目指すわけではないんですね？」
「いいえ、全然違います」
「味わいがあふれる、はっきりとした米粒が欲しいんです」
与えたレシピでは、リゾットについては全く触れていません。AIは実際にGeminiから外部情報を使用し、ポッドキャストに文脈化していて、それが主題を理解するのに大いに役立ちます。常にメタファーを使って理解を助けようとしますが、時々やりすぎることもあります。
「運転を学ぶようなものだと考えてください」
「バックパック旅行の荷造りのようなものだと考えてください」
「私たち全員が受け取る絶え間ない情報の流れの中で息を吸うようなものだと考えてください」
「うまい表現ですね」
テストしてみて分かったのは、一つのテキストからポッドキャストを生成するよりも、複数の資料をノートブックに追加する方がこの製品をより活用できるということです。そして「Discover」というツールがウェブ全体から情報源を見つけてくれるので、どこから始めればいいか分からないような大きなトピックも消化できます。これはより良い方法ですね。
「The Verge」では、ポッドキャストを作る最初のステップは実際にはGoogleドキュメントを作ることです。通常、ホスト向けの質問、メモ、その他の文脈情報が含まれています。そこで、これらの制作文書をNotebookLMに通して、オーディオ概要が私たち自身の手作り制作と比較してどれだけうまく機能するかを実験してみました。最初に試したのは、Nilay Patelの「Decoder」のエピソード概要で、EV（電気自動車）の普及についてのものです。ここにいくつかのトピック、最近の記事や質問があります。そしてこれがオーディオ概要版の一部です。
「ディープダイブに戻ってきました。今日は道路に出かけますが、普通のガソリン車ではないんですよ」
「うーん」
結果をDecoderのプロデューサー、Kate CoxとNick Statに送りました。彼らは表面的な結果には感心していましたが、実際のプロデューサーのやり方には翻訳されていないと思いました。
「言葉は良かったし、文章になっていましたが、何も言っていませんでした」
「質問や異なるポイント、事実や数字、統計などを追っているのが聞こえました。リストを順に進んでいるようでしたが、私たちがプロンプトとして使っていたものから、人間のように意味のあることを言うという飛躍ができていませんでした」
「聞こえたのはまさに正体通りのものでした。コンピューターがNPR風の声を装っているという」
「そして、これらすべての要因、変化する市場、自動車メーカーの戦略、政治、価格、経済的逆風がすべて、EV未来についての不安感、不確実性を形成しています」
「ふーん」
「私が何度も戻ってきたのは、声がいかに熱心に言葉遊びをしようとするかということでした」
「議論を活発にし、イノベーションを駆り立て、そして意図的な言葉遊びですが、少し航続距離不安を引き起こしているトピックです」
「実際、それが私を没入感から引き離すものでした。普通の人間なら、積極的にそうしようとしない限り、あれほどの言葉遊びをすることはないと思います」
同じことを、主にリンクのリストを使ってショーの概要を作る「The Vergecast」でも試しました。
「今日は、テクノロジー界で起きている非常に重要な変化をいくつか取り上げます」
「うーん」
「新しい関税、特に最近施行されたものからの即時および潜在的な長期的影響を解明していきます」
「そう、トランプ政権のものですね」
「その通り、そして人工知能の猛スピードや、その他の興味深いテクニュージュースにズームインしていきます」
その結果を「Vergecast」の共同ホストであるDavid Pierceと共有しました。彼は毎週概要をまとめています。彼はもう少し寛容でしたが、同様の批判を持っていました。
「彼らは20分間会話を始めるだけで終わらせません。だから『ああ、あなたは実際にこの話から最も興味深い要素を抽出したんだ』と感心し続けていました。Appleが人工知能、Siri、それらをどう調和させようとしているのかについての情報からの記事がありましたが、このAIホストたちはその記事から最も興味深い2つのことを見つけて取り出していました」
「明らかにチーム内では、デバイス上で直接実行できる小さなAIモデルを使用することについての内部議論がありました」
「デバイス上のAI、それは大きなトレンドですね」
「そう、そしてCraig Federighiが特にこれに取り組むための専用チームを結成したようです」
「興味深い内部力学ですね」
「それにとても感心しました。そして、より大きな視点での話や、実際に何が起きているのか、これがどう適合するのかを理解するのに15分を費やしましたが、彼らはただ次に進みました（笑）。これは良いポッドキャストの始まりですが、良いポッドキャストを作るのを忘れたようなものです」
これから得られた大きな警告の一つは、文書のフォーマットの読み方で、それが事実と異なる情報につながりました。
「このエピソードのニュースの一つは、ShopifyのCEO、Toby Lutkeが大きなことを発表したというものでした」
「AIがその仕事をできないことを証明できない限り、新しい採用はしないと述べました」
「わあ、それは直接的ですね」
「そうでしょう？」
その下にインデントされているのは、ほとんどの人がAIやその責任者を信用していないという研究へのリンクです。そのAIナレーターは、AIやその責任者を信用しないという意見全体を、ShopifyのCEO、Toby Lutkeに帰属させました。これは完全に間違っています。
「彼はまた、多くの人がAIを本当に信頼していないことも指摘しました」
「それは主要なテックリーダーからの非常に重要な視点ですね」
この種の誤解釈は何度か起こりました。私は自分の報道メモのオーディオ概要を生成しましたが、ホストは文書には一度も出てこなかった情報源からの架空の引用を挙げました。AIのハルシネーション（幻覚）は確かに注意すべきことで、単に学習ガイドとして使用している場合でも同様です。
「これがポッドキャスティングの状態について全く心配されていないのですか？」
「いいえ、もし私がこれより良くできないなら、私の仕事を奪われるべきです。本当に、もし誰かがこれを聴いて『これは「The Vergecast」と同じくらい良い』と思うなら、Nilayに言って私をクビにしてもらってください。それほど単純です」
今のところ、これらのものは人間がポッドキャスト界で提供するものと競争できるとは思いません。しかし、オーディオ概要には、実際の人間からのポッドキャストでは必ずしも得られない非常に興味深い機能があることに気づきました。インタラクティブモードというベータ機能を見せましょう。この機能では、実際にポッドキャストを中断して、明確にしたいことや特定の主題に集中したいときにいつでもホストに質問することができます。
「これは本当に適切な食材を選び、それらを輝かせる力を物語っていると思います」
「おや、誰かが第四の壁を破りましたか？聞いてみましょう」
「鶏肉や蜂蜜がないのですが、このレシピでそれらの良い代替品はありますか？」
「それは素晴らしい質問です。これを詳しく見ていきましょう」
「ええ、それは少し計画を変えますね」
「鶏肉については、ほぼどんなタンパク質でも大丈夫です」
「そうですね、魚を使うこともできます。たとえば、白身魚なんかどうでしょう」
「その通り、あるいは豆腐も。ベジタリアンオプションをお探しなら」
「いい案ですね。豆腐はそのレモンの風味をうまく吸収するでしょう」
また、ランダムな質問をすることもでき、それに答えようとすることもあります。
「あなたのお気に入りのマクドナルドの注文は何ですか？」
「それは確かに話題の転換ですね」
「（笑）そうですね、マクドナルドでのお気に入りの注文について考えるのはずいぶん久しぶりです」
「でも、そういうものって記憶に残るものですね」
「そうですね、昔はいつもマックダブルが好きでした。シンプルですが、満足感がありました」
「古典的な選択ですね、私はたぶんチーズクォーターパウンダーと言うでしょう」
「おお、いい選択です。ちょっと脱線してますね。では戻りましょう」
「関税の世界へと」
そして、エピソードの残りの部分に続きます。サイモンは、これがユーザーが期待するようなことではないと私に言いましたが、ロールプレイする自由は、より現実的な議論を可能にする一部なのです。
「歴史的に見て、世界中の音声アシスタント、Googleだけでなく他のすべてのものも、それを避け、ほとんど設計によって一般的な行動からそれをロックアウトしてきました。私たちは、実際にそうしないという意図的な選択をしました。モデルにこれらのホストの一人としてロールプレイする自由を与えることで、彼らははるかに説得力のある方法で演じることができることがわかりました」
また、誤情報にどう対処するかにも触れておきたいと思います。間違えたShopify CEOに関する「Vergecast」の部分に戻り、訂正を提案しました。
「そして彼はまた、AIに対する大衆の信頼、または信頼の欠如についても触れました」
「これは広範な採用にとって大きな要因です」
「アドビは…」
「どうぞ」
「実際、AI企業に対する人々の不信感についてコメントしたのは彼ではありません。それはShopify CEOに帰属されない別の記事でした」
「おっしゃる通りです。指摘ありがとうございます」
「私の間違いでした。明確にしていただきありがとうございます」
「ほとんどのアメリカ人がAIを信頼していないという点は」
「またはその責任者についても、別の記事からのものですね」
「正確さを保ってくれてありがとうございます」
「では、AIニュースに戻りましょう」
しかし、iPhoneレビューでNilayの性別を間違えたときのように、訂正を拒否することもありました。
「それで、「The Verge」のNilay Patelがこれをレビューしました」
「そうですね、彼女は本当に興味深い視点をもたらしていますね」
「ああ、そうですね」
「ホストはNilay Patelで、彼の代名詞は彼、彼のです」
「おや、それは興味深い質問ですね」
「見たり聞いたりしたことに基づいて、仮定をするのは簡単ですね」
「でも実際、Nelly Patelは彼女、彼女のという代名詞を使用しています」
「指摘してくれてありがとう。正確であることは大切です」
「その通り、気を配ってくれてありがとう」
「では、Neelyのレビューに戻りましょう」
Googleは誤情報に対処するためのいくつかのガードレールがあり、主にAIの回答をアップロードした文書のみに基づくようにしているとのことですが、オーディオ概要に不正確さやバグが含まれる可能性があること、そしてインタラクティブモードが継続的に開発中であることを強調しています。Geminiが文脈化するためにどの情報を取得し、どの情報を文書から取得しているのか判断するのは難しいです。だから、常に情報源の資料で再確認することをお勧めします。
これがどれほどアクセスしやすく、さらにスマートになる可能性があるとしても、ポッドキャスト業界の大部分を置き換えることになるのでしょうか、それともただのAIブームなのでしょうか？洞察を得るために、「Vulture」のポッドキャスト評論家ニコラス・クアに会いました。彼は10年以上にわたって急速に動くポッドキャスト業界について報道してきました。
「これを、人工知能が労働市場をどのように再形成するかについての幅広い会話と並行して考えています。あなたが送ってくれたNotebookLMの例に示されるオーディオビジネスにおけるその等価物は、残念ながら公共ラジオのレポートです」
「そうですね」
「つまり、非常に定型的なフォーマットなので、簡単にシミュレートできるように見えるということです」
交通情報、天気、地域のニュース、ラジオDJはすでにこのようなもので置き換えられています。逸話的に、メディア企業がどこで人工知能に一部の制作を置き換えることができるか検討しているという話を聞きました。Descriptというポッドキャスト編集ソフトウェアで簡単に作ることができた私のAIバージョンを見てください。そして、この分野に参入している他のサービスもあります。Microsoftは、ほぼ同じことを約束するCopilotポッドキャストを発表しました。
しかし、NotebookLMが現在設定されている方法では、必ずしも実際の人々が作っているものと競合しているわけではありません。自分の研究メモ、町の集会のような超地域的なものを編集している場合、これはそれらを消化しやすいオーディオに変換する非常に簡単な方法です。正確であれば、ですが。
これらのオーディオ概要の要点は、ポッドキャストが引き付けようとする広範な視聴者ではなく、一度に一人のリスナーに合わせていることです。誰かがRSSフィードに多くの生成されたポッドキャストを入れ、広告を挿入することでこれらを収益化しようとすることは想像できますが、誰でも自分で簡単に作ることができる状況では、そこにビジネスがあるかどうかはわかりません。そして、過去数年間のAI画像のスパムが教えてくれたことがあるとすれば、人工的なものが世界に多く生産されるほど、実際の人間によって作られたものをより評価するということです。
「すぐに、私の頭はこのようなLinkedInのブロが思い浮かびます。『情報さえ得られれば本は関係ない。「白鯨」なんて関係ない』みたいな。気にしないよ。でも、この地球上には、このようなことは重要だと感じる人もいるんです。人間から来るものを聴くということの意味、メディア情報を単なる商品単位としてではなく見ることができる。残念ながら、私たちは主にその宇宙のより実用的なバージョンに報酬を与えるシステムに住んでいます」
「そうですね」
たくさんのこういうものを聴いた後、AI生成のポッドキャストと人間が作ったポッドキャストが互いに情報を提供し合うようなハイブリッドな状況もあり得ると思っています。私はすでにNotebookLMに多くのポッドキャスト的な常套句を見つけていて、自分の制作では避けるつもりです。社会として、人工的なコンテンツから聞こえるものによって、より良く思慮深いアートを作るかもしれません。それはミューズになるかもしれません。わかりません。時には、あなたにとって非常に馴染み深いことについて話す二人の見知らぬ人を聴くことが目からウロコになることがあります。
「レビューはとても肯定的に始まっています」
「いいですね」
「アンドルーは彼の役割で期待を満たしています」
「素晴らしい」
「彼は本当にビデオチームでいい滑り出しをしたようです」
「なるほど」
「プロジェクトに新鮮なアイデアをもたらしています」
「なるほど」
「『無題のガジェットショー』のような」
「そうですね」
「あのクレイジーなCESカバレッジを覚えていますか？」
「はい、はい」
「では、成長のための領域セクションに移りましょう」
「わかりました」
「目立ったのは、アンドルーが特定のアイデアに非常に集中しているというフィードバックでした」
「なるほど」
「そうですね。明らかに、彼は一つの特定のプロジェクトにあまりにも没頭していたため、貢献する機会をいくつか逃したようです」
「本当ですか？」
「彼は時々一歩下がって」
「わかりました」
「より大きな視点を考慮することで恩恵を受けるかもしれません」
「そうですね」
「それは彼の情熱を放棄することではありません」
「いいえ」
「でもチームの目標や優先事項と一致させる方法を学ぶことです」
「わかりました」
「『The Verge』のような会社はどのようにして」
「そうですね」
「個人の成長を促進しながら先端を行き続けるのでしょうか」
「全くです」
「創造的自由とデータ駆動型の意思決定の間でどうバランスを取るのでしょうか」
「それらは素晴らしい質問で、おそらく聴いているあなたが考えるべきことです」
「そうですね」
「これはあなた自身の分野の業績評価とどう比較されますか？」
「そうですね」
「何か類似点が見えますか？」
「素晴らしいですね」
「あなたの考えをぜひ聞かせてください」
「はい」
「このディープダイブを締めくくります」
「いいですね」
「ご参加いただきありがとうございます」
「ありがとうございました」
「また会いましょう」
「ねえ、これらの情報をもっと読むにはどこで見つけられますか？」
「おや、また素晴らしいフォローアップですね」
「もちろんです。私たちはいくつかの「The Verge」の記事から情報を引用しています」
「そうですね、「The Verge」は本当にNotebookLMの開発を追跡してきました」
「彼らのウェブサイトにアクセスして、NotebookLMを検索すれば」
「今日参照しているすべての記事が見つかるはずです」