隠されたトリックを持つ唯一のLLM！！！

3,880 文字

This video shows how you can do audio transcrition along with speaker Diarization using Gemini on Google AI Studio.This ...

この時点で他のLLMやチャットボットにはできない、最も過小評価されているGeminiの機能があります。最近、11 Labsはスクライブをリリースし、誰もが熱狂しました。なぜなら、話者分離付きの文字起こしができるからです。つまり、音声内で2人が話している場合、話者1と話者2を分けることができます。この機能はGeminiの中に隠れていて、Geminiのマーケティングチームの一部さえもこれについて話していません。
この動画では、Google AI StudioとGeminiを使って、話者分離を含む音声文字起こしを行い、それ以上のことをする方法をお見せします。まず、私のGoogle AI Studioを開き、すでにサティア・ナデラがポッドキャストに出演した動画をアップロードしています。これは4分57秒のクリップです。ご覧のように、Google AI Studioが最初に行ったのは、このビデオクリップを取り込み、LLM用のトークンに変換することです。LLMにとってはすべてがトークンです。この動画を取り込み、動画を理解し、その背後の音声を理解して、トークンに変換しました。
これは87,616トークンを消費しました。モデルは100万トークンに対応しているので、さらに多くの動画コンテンツを入れることができます。私がしたのは、「文字起こしを教えてください。別々の話者ごとに分けることもできますか？ありがとう」と言っただけです。話者が何人いるかさえ言及していません。これが解決策です。
ここまでは2人の話者でしかテストしていませんが、3人の話者でもできるか見るのは非常に興味深いでしょう。また、機械学習の専門家であれば、k-means（Kミーンズ）クラスタリングのようなものを使ってこのような作業ができます。顧客セグメンテーションや他の種類のタスクにk-meansクラスタリングを使ったことがあれば、k-meansクラスタリングを使って話者分離を行うことができます。Whisperでやった動画があったと思いますが、今回はLLMが完全にこれを行ってくれます。動画をアップロードして、これを言うだけで、LLMが文字起こしをしてくれました。
「もちろん、話者ごとに整理された動画の文字起こしはこちらです」と表示され、サティアが話し、ホストが話し、サティアが話し、ホストが話すというように全てが表示されています。これらのLLMで重要なことは、常に幻覚を起こしていないことを確認することです。異なるLLMにこれを与えたとき、タイムスタンプが完全に間違っていることがありました。タイムスタンプは表示されるけれど、確かではないのです。
そこで確認したいと思いました。ポッドキャストを用意しました。4分57秒のもので、サティアが出てくるクリップを一つ取り上げます。2分30秒のところにサティアがいます。「あの、そうですね、企業は…」と言っています。ここで2分30秒に移動します。2分30秒の少し前で止めましょう。「だからそれが契約です。あの、そうですね、企業は…」
ご覧のように、「あの、そうですね、企業は…」というところで、彼が一時停止してからサティアが再び話し始めた間隔さえも、字幕やタイムスタンプでは別々の例として分類されています。これは、TikTokスタイルのダンシングキャプションやズームインキャプションを作ろうとしている場合にも非常に役立ちます。
戻ってサティアではなくホストが話しているタイムスタンプを見つけましょう。4分39秒でホストが「もしマイクロソフトを離れるとしたら、どんな会社を始めますか」と質問しています。それは非常に興味深い質問です。4分39秒にあるか見てみましょう。「もしマイクロソフトを離れるとしたら、どんな会社を始めますか」はい、そこにあります。そして答えは「始める会社はね、う～ん、私は…」という感じです。素晴らしいです。
どのように行われたかご覧いただきましたが、実際にライブで行ってみたいと思います。どれくらい時間がかかるか、正確なプロセスはどうなっているかをお見せします。Google AI Studioを開きます。これまで使ったことがない方のために、別の動画で基本的なことを説明していますが、その動画では触れなかったユースケースです。もっと詳しく、より高度なものを見せて欲しいというフィードバックをいただいたので、これが一つの高度なユースケースです。
「新しいプロンプトを作成」をクリックし、任意のモデルを選択できますが、Flash 2.0を選びます。Flash 2.0は利用可能な最速のモデルの一つであり、非常に優れています。これをコードに変換したい場合、実際に動作するコードにしたい場合は、Flash 2.0がコスト効率が良いでしょう。Flash 2.0を選びます。合計100万トークンが使えます。ここにポッドキャストやクリップをドラッグして貼り付けるだけです。以上です。
動画クリップをアップロードした後、これは音声だけでもできますし、音声とビデオの両方でもできますし、音声なしでフレームとしても扱えます。多くの異なることができます。この場合、3分18秒のクリップが58,000トークンを消費しています。前回は4分57秒のクリップで87,000トークンでした。既存のコンテキストウィンドウにどれだけのトークンを入れられるか理解できると思います。同じことを200万トークンのモデルでもできますが、Gemini 2.0 Flashでより速く行う方法のデモをお見せしています。
では、「音声の文字起こしを作成してもらえますか」と入力します。「話者別に」とは言っていませんが、「JSONフォーマットで出力してください」と言ってみましょう。これは興味深いことで、まだ試したことがありません。初めて実行するので、何か問題が発生するかもしれません。
ビデオクリップの処理にどれくらい時間がかかるか、そしてどれくらいの時間がかかっているかが分かります。JSONを要求したためタイムスタンプがないようです。「タイムスタンプが抜けていますよ」と言いましょう。Googleが「bro」と呼ばれることを気にしないといいのですが…気にするなら、8秒かかったことがわかります。謝罪があり、複数のタイムスタンプがあります。
0:00でホストが質問し、0:10でマークが答え、1:25でホストが再び質問しています。まず0:00を確認してみましょう。「大きな視点から見て、AIに関してこれから数十年で何が起こるのか」という質問です。マークは0:10で答えています。0:09に移動してみましょう。ホストが話し、「私はそれが非常に基本的なものになると思います」と言っています。良いですね。
1:24あたり、1:23を見て、「私は思うんです」という発言で終わるか確認しましょう。彼は本当に「I」を3回言ったのでしょうか？確かめてみましょう。1:24に移動します。「私は思うんです、それは人々が望むことをより多くできるようになるものだと思います、それが私の見方ですが、私たちの働き方を本当に変え、人々に様々なことをするための創造的なツールを与えるでしょう、私は、私は思うんです…」
彼が実際に「I I I」と言ったように聞こえます。この場合、JSONを信頼できそうです。1:25で1秒間、ホストが話しています。「それが私の見方ですが、あなたの見方としては…」
実験とライブデモは実際にうまくいきました。そして先ほど言ったように、もっと多くのことができます。例えば、JSONで出力するよう強制したので、これを解析して、ホスト1だけ、または他の話者だけを抽出することができます。実際、これがマーク・ザッカーバーグだとモデルが理解したのは興味深いことです。私は言っていませんが、おそらくビジョン言語モデルがこれはマーク・ザッカーバーグだと理解したのでしょう。同様に、サティアについても言ったかもしれませんが、ファイル名から理解したのかもしれません。
このようなことができ、取り出して要約することもできます。例えば、「サティアが言ったことを取り出して、ツイートとして要約してください」と言うことができます。可能性は膨大です。なぜなら、単なる音声からテキストへのモデル、音声認識モデルだけでなく、他の多くのことができるマルチモーダル大規模言語モデルを扱っているからです。
この場合、サティアが言ったことを取り出して、シンプルなツイートとして要約することができます。これらすべてを1円も払わずにできます。私がこれに使用しているデータをGoogleが使用することになるという意見もあるでしょうが、11 Labsやdescriptなど、ポッドキャスト制作者が特にこの特定の部分のために使用する様々なツールに対してお金を払わなくても、無料でGemini 2.0 Flashやその他多数のモデルを利用できるなら、エディターもポッドキャストツールも必要ありません。必要なのはGoogle AI Studioと、Gemini 2.0 Flashのような非常に優れたモデルだけです。
Googleがこれについてあまり話していないのは不思議ですが、ここにあります。Googleさん、ありがとうございます。というか、Googleさん、どういたしまして。また別の動画でお会いしましょう。ハッピープロンプティング！