OpenAIが提供する音声認識モデルWhisperのリアルタイムストリーミング機能の紹介動画である。実際のデモを交えながら、モデルの概要やビジネスシーンでの具体的な活用事例、多言語対応の仕組み、APIの利用料金やコストパフォーマンスについて詳しく解説している。

OpenAI Whisperのリアルタイム機能について
私が大好きな音声文字起こしモデルの一つであるWhisperが、現在リアルタイムのストリーミングエンドポイントとして利用できるようになりました。この動画では、このモデルの使い方、モデルの概要、そしてこのモデルからどのような結果が得られるのかを探っていきます。リアルタイムのデモも用意していますので、後ほど実際にご覧いただきます。ですがその前に、もしWhisperについてよくご存知ない方のために説明しますと、Whisperはオープンソースです。つまり文字通りオープンソースの音声文字起こしモデルなのです。ASRモデルですね。音声ストリームなどを送信すると、モデルがそれを文字起こししてくれます。翻訳機能も備えていますが、今回は文字起こしに焦点を当てましょう。このモデルは複数の異なる言語を検出し、文字起こしをすることができます。多言語対応の文字起こしモデルなのです。例えばYouTubeの動画を見ていて、それを英語で文字起こししたい場合、このモデルがその役割を果たしてくれます。しかし今回の新しいモデルの特別なところは、これがリアルタイムのストリーミングエンドポイントだということです。最近リリースされたリアルタイムエンドポイントの一部として、GPT realtime whisperが公開されました。数日前に私が公開した動画をご覧になった方はご存知かもしれませんが、彼らは3つの異なるリアルタイムエンドポイントをリリースしました。GPT 5.5をベースにしたモデルであるGPT realtime 2、音声モデルでありながら翻訳を行って送り返してくれるGPT realtime translate、そして3つ目がGPT realtime whisperです。今回はこの3つ目のモデルについて詳しく見ていきます。
リアルタイム文字起こしのデモ
モデルの詳細に入る前に、これがどのように機能するのかデモを簡単にお見せしたいと思います。その後実際のデモ画面に移りましょう。ここにYouTubeの動画を用意しました。画面に出ているのはアンドレイ・カルパシーで、彼はとても早口で話します。普段YouTubeで動画を見るとき、私は大抵1.25倍速や1.5倍速にして見ています。でも彼を見る時は、おそらく速度を落とさないといけません。それくらい彼の話すスピードは速いのです。ではこれからここでサーバーを起動してみます。サーバーを起動すると音声の聞き取りが始まり、その様子をお見せします。彼が何を話しているのかが分かるはずです。それでは始めましょう。セッションが開始されました。画面にもセッションが開始されたと表示されていますね。ここでアンドレイ・カルパシーの動画を再生します。ちなみに私がWhisperを気に入っている理由の一つとして、一般的な音声文字起こしシステムの多くはインド系の言語で失敗することが多いのですが、Whisperは私の声であっても素晴らしい結果を出してくれているという点があります。それでは再生してみましょう。
ええ間違いなく両方が混ざったような感じです。まず第一に皆さんの多くと同じように私もここ1年くらいリリースされてからずっとコーディング周辺の自律型エージェントツールを使ってきました。まとまったコードを書くのにはとても優れていて時々失敗するので修正が必要になったりもしましたがかなり役に立っていました。そして私にとって12月が明確なターニングポイントになりました。その頃私は休暇を取っていたのですが。
ご覧の通りこれは信じられないほどリアルタイムに処理されています。彼が話しているのとほぼ同時に、このモデルは非常に素晴らしい精度で文字起こしを行っています。
多言語でのリアルタイム文字起こし検証
では次に別の言語の動画を共有してみましょう。ヒンディー語のインタビュー動画にしてみます。ヒンディー語のインタビュー動画を用意して、実際に文字起こしができるかどうかを確認してみます。もう一度サーバーを起動しますね。ご覧のように音声がヒンディー語になった瞬間にヒンディー語で文字起こしされました。もちろん私にはこれを読むのはとても難しいのですが、英語になれば英語で出力してくれます。例えば今度は私の母語であるタミル語という別の言語を話してみます。するとテキストが変わるのにお気づきになるでしょう。
ご覧のように私が話している言葉を何でもリアルタイムで文字起こししてくれています。まるでSF映画のようで本当に驚きです。
ビジネスでの活用法と価値
皆さんはただの文字起こしなのにどうしてそんなに大げさに騒いでいるのかと思うかもしれません。トークンを無駄にしないようにここで一度停止しておきますね。文字起こしというのは皆さんが思いつくビジネスアプリケーションの中で最も役立つものの一つなのです。なぜなら人間はずっと昔から会話をしてきたからです。YouTubeや他の多くのプラットフォームには膨大な量のデータが存在しています。また例えばあなたが企業で働いていて、ZoomやMicrosoft Teamsのミーティングに参加しているとします。そこで話された内容を文字起こしして要約しアクションアイテムとして作成し、場合によっては他のツールと連携させたいと思うこともあるでしょう。このモデルを使えばそれをリアルタイムで行う機能が手に入るのです。政治家のスピーチでもインタビューでもポッドキャストでも構いません。ポッドキャストの収録が終わる頃にはすでに要約が完成しているというわけです。タイムスタンプを取得することだって可能です。つまりこれがリアルタイムで機能し存在しているという事実自体が、計り知れない可能性をもたらしてくれるのです。
コードの実装と利用料金について
実装方法についてですがコードはとてもシンプルです。おそらくClaudeやCursorに聞けばすぐに分かりますが、一応ここでも説明しておきますと、言語を英語に指定して呼び出しているにもかかわらず様々な言語を理解してくれます。文字通りGPT realtime whisperを呼び出すだけです。これはWebSocket通信を利用しており本当に簡単に実装できます。さてこのモデル自体についてですが、これはほんの数日前にリリースされたばかりの新しいモデルです。先ほども言いましたが私の別の動画をご覧になっていればそこでGPT realtime 2を取り上げています。それと同じモデルシリーズの一環として彼らはGPT realtime whisperをリリースしたのです。これは低遅延の音声認識に特化して構築された新しいストリーミング文字起こしモデルです。人が話すと同時に音声を文字起こししてくれますし、それは実際の動作を見ていただいた通りです。このモデルの速さを実感していただけたと思います。このモデルを使えばリアルタイムで進行する音声をそのままビジネスワークフローに組み込むことができます。会議や教室、放送、イベントなど様々な場面で役立ちます。ではこのモデルの利用料金はどれくらいなのでしょうか。このモデルは非常に高速で素晴らしいパフォーマンスを発揮します。音声とテキストの両方を入力として受け付けますが、今回は主に音声を扱っています。そしてこのモデルは他のOpenAIのモデルのようにトークン単位での課金ではなく、音声モデルつまり音声文字起こしモデルであるため1分単位での料金設定になっています。具体的には1分あたり約1.7セント、およそ2セントかかります。つまり1分間送信するごとに2セント課金されるということです。正直なところかなり費用対効果の高いモデルだと言えます。大量の音声データを文字起こしすることができますからね。
モデルの詳細と今後の展望
先ほども言ったように多言語に対応したモデルです。一つOpenAIが明言していない点があります。オープンソースのWhisperモデルには様々なサイズがあり、tiny、small、medium、large、large v2などがあります。しかしOpenAIはここでどのバージョンのモデルを使用しているのかを明確にしていません。彼らはただこのモデルがストリーミングや低遅延のユースケースのために特別に設計されたものであると言っているだけです。私たちが知っているのはそれだけです。この動画の最後で私のGitHubにあるこのリポジトリを共有し、YouTubeの概要欄にもリンクを貼っておきます。皆さんもこのモデルで遊んでみてください。ご自身のOpenAI APIキーを追加するだけでこのモデルを試すことができるはずです。このモデルについてどう思ったかぜひコメント欄で教えてください。私はこのモデルのパフォーマンスを見てとても嬉しく思いました。最後にもう一回だけやってみたいと思います。開始します。
モデルは私が韓国語を話していると思っているみたいですね。いや私は韓国語を話しているわけではありません。私が話しているのは。
ご覧のようにモデルが私の言っていることをすべて理解できるのを見てとても驚いていると話していました。そして私がえーっとと口ごもってポーズを取ったときでも、それをとてもうまく捉えているのがお分かりいただけると思います。私はWhisperの大ファンなんです。このチャンネルでもWhisper関連の動画をたくさん公開しています。ですからGPT realtime whisperの登場をとても嬉しく思います。このモデルについてどう感じたかぜひコメント欄で教えてください。もしこのモデルの活用アイデアなどがあれば教えてもらえると嬉しいです。それではまた別の動画でお会いしましょう。ハッピープロンプト。


コメント