OpenAIが次世代AIオーディオを発表！ – TTS、音声認識、音声統合エージェントなど！

6,751 文字

OpenAI Unveils NEXT-GEN AI Audio! - TTS, Speech-to-Text, Audio Integrated Agents, and more!

Experience AI-powered system administration with Admin Companion – sign up for your free trial now! My Newsletter for...

OpenAIが多数のオーディオモデルのアップデートを発表しました。彼らのライブストリームを見て、私の考えをお伝えします。
今日は本当にエキサイティングな日です。私たちはテキストを超えて音声エージェントに進化しています。音声は非常に自然な人間のインターフェースであり、今日私たちは開発者とビジネスが音声エージェントを構築できるようにします。
私も完全に同意します。音声は間違いなく将来のAIインターフェースになるでしょう。現在、音声はかなり活用不足です。実際には理解できないくらいです。私たちはすでに非常に高性能なテキスト音声変換、音声認識、音声から音声へのモデルを持っているので、開発者はもっと音声優先のインターフェースについて考えるべきだと思います。そこで、私たちは多くの新しいモデルとツールを発表します。
「ありがとう、オリビア。皆さん、こんにちは。私はシェンといい、OpenAIのリサーチチームで働いています」
「こんにちは、私はヤロスラフです。OpenAI APIチームのエンジニアです」
「私はジェフ・ハリスで、OpenAI APIのプロダクトチームで働いています」
「今日、私たちは3つの新しいモデルと、開発者が豊かで人間らしい音声体験を簡単に構築できるようにする多くの新しいツールと機能をリリースします。私たちは2つの最先端の音声認識モデルを提供します。これらはテストしたすべての言語で以前のモデルのWhisperよりも優れています。また、開発者が初めてモデルが何を言うかだけでなく、どのように言うかもコントロールできる新しいテキスト音声変換モデルも提供します。そして、テキストベースのエージェントを簡単に音声エージェントに変換できるよう、エージェントSDKの大きなアップデートも行いました」
音声エージェントとは何か、そしてどのように構築するのでしょうか？
「素晴らしい質問です。私たちは一般的にエージェントを、ユーザーまたは開発者に代わって独立して行動できるAIシステムと考えています。テキストエージェントの例としては、ウェブサイトを訪れた際に右下にチャットボックスがあり、商品カタログや最近の注文について質問できるものがあります。これはテキストベースですが、同じことを音声でも行えます。電話をかけてAI音声と話すことができます。音声エージェントの使用方法は他にもあります。私のお気に入りの一つは言語学習体験で、発音を指導し、レッスンプランを作成し、学習している言語でモック会話をするような音声エージェントを持つことができます。音声エージェントの構築方法は非常に多様です」
私はまだよく高度な音声モードを使います。iPhoneのアクションボタンに割り当てており、画面を使えないときに常に使っています。運転中や、質問をタイプしたくないときには、情報を得る最速の方法です。スピードの面ではまだ改善の余地がありますが、ここからどんどん良くなっていくでしょう。
彼が今から説明するのは、2種類の音声モデルについてです。より洗練された最近のアプローチである音声から音声へのモデルは、音声を入力して音声を出力するモデルで、途中で文字起こしをしません。一方、より伝統的なアプローチは、AIモデルが音声を取り込み、テキストに変換し、処理をしてから最後に再び音声に変換するというものです。Chat GPTの高度な音声モードを使用すると、それは音声対応モデルであり、私の意見ではずっと優れています。それはあなたの抑揚、気分、言い方、特定の単語に置く強調などをよく理解し、また特定の単語の強調などを使って反応することもできます。
「私たちは開発者が取る主な2つのアプローチを見ています。1つ目はより未来的な音声から音声へのモデルを使用することです」
ここで一瞬止めましょう。このメソッド1は、より最近の、より先進的なアプローチで、中央に単一のモデルがあり、音声を取り込んで音声を出力します。伝統的な方法は、音声を取り込んでテキストに変換し、そのテキストで何かを行い、それから音声に戻すというものです。彼らが今から言おうとしているように、メソッド2のより伝統的なアプローチはモジュール式で便利ですが、2つの主な問題があります。
1つ目は、異なるモデルを使用して音声とテキストを行き来する変換が必要なため、レイテンシーが大きくなることです。これには時間がかかります。2つ目の本当に最大の問題は、音声をテキストに変換すると多くのものが失われることです。単語の強調、トーン、声に込められた感情のすべてがテキストに変換されると失われてしまいます。
興味深いのは、インターネット上に非常に豊かなテキストベースの文化があり、特定のテキストにより強調を置く方法を見つけたことです。友人や家族とテキストメッセージを送るとき、RedditやTwitterなどの投稿を書くとき、そうするためのさまざまな方法があります。イタリック体、太字、絵文字などです。さらにミーム文化はそれをさらに発展させました。しかし、私が見た限りでは（コメントで私が間違っていれば訂正してください）、これらのテキスト装飾を活用して、通常のテキスト転写で失われるものを含める音声認識モデルは本当に見たことがありません。
そして、他に何がOpenAIモデルによって動いているかというと、今日のビデオのスポンサーであるAdmin Companionです。Admin CompanionはLinuxシステム用のAI搭載の共同管理者です。これは、高レベルの自然言語を使用して詳細な実行計画と実際のLinuxコマンドを作成し、Linuxシェル内ですべてを実行できることを意味し、Linux管理者として行う必要のある作業を大幅に簡素化します。また、ユーザーの承認なしにAIがコマンドを実行することを防ぐ組み込みのセキュリティレイヤーも備えています。このクイックデモをご覧ください。これは一文でDockerとOracleデータベースコンテナをインストールする例です。こちらはトラブルシューティングとログファイルの迅速な分析を高速化する別の例です。
Admin Companionを無料でお試しください。サインアップリンクを下に用意しますので、説明欄でクリックしてチェックしてください。そして、再度Admin Companionに今日のビデオのスポンサーになっていただき感謝します。では、ビデオに戻りましょう。
「開発者はチェーンアプローチを好むことが多いです。まず、モジュール式であるため、さまざまなコンポーネントを組み合わせることができます。そのため、ユースケースに最適なモデルを使用できます。また、非常に高い信頼性を得るための最も簡単な方法でもあるため好まれます。インテリジェンスのゴールドスタンダードは依然としてテキストベースのモデルですが、音声から音声へのモデルも急速に追いついています。そして、彼らがそれを好む3番目の理由は、始めるのが簡単だということです。テキストベースのエージェントで行ったすべての作業を取り、一方に音声認識モデルを前置き、もう一方にテキスト音声変換を配置すれば、音声エージェントができあがります」
より現代的な音声対応モデルを使って何かを構築する場合、それを念頭に置いて最初から構築する必要がありますが、彼が言ったように、最先端のモデルであるClaude 3.7、O3基本的にすべての大規模言語モデルはまさにそれだけです。それらはテキストベースのモデルであり、より伝統的な転写方法を使用することで簡単に音声を追加できます。
「今日は主に、チェーンアプローチで音声エージェントを構築するための新しいツールについて重点的に説明します。まず、音声認識から始めましょう。GPT-4 TranscribeとGPT-4 Mini Transcribeという2つの新しいモデルがあります」
GPT-4.0は、O1、O3、GPT-4.5があるので、今の時点ではやや古いです。これらの新しいモデルにこの古い命名法をまだ使用しているのを聞くのはちょっと驚きです。
「私たちの新しい音声認識モデルの技術的な詳細をさらに紹介したいと思います。以前の世代のモデルであるWhisper 3と比較して、新世代のモデルは私たちの大規模音声モデルに基づいています。これは、この新しいモデルが数兆の音声トークンでトレーニングされたことを意味します。また、私たちの最新のテクノロジーとモデルのアーキテクチャも活用しています。また、大きなモデルをGPT-4.0 Mini Transcribeという、はるかに小さなサイズのモデルにも縮小しました。このより小さなモデルは高速で効率的であり、より大きなモデルと比較してできるだけ良い転写能力を維持しています。」
モデルの性能がどれほど良いか見てみましょう。私たちは転写の精度を単語エラー率で測定します。単語エラー率は、モデルが間違える単語の割合です。もちろん、単語エラー率が低いほど、モデルの実際のパフォーマンスが高いことを意味します。そして、濃い青が最新の4.0で、その隣が4.0 Miniです。ご覧のように、以前の世代のモデルであるWhisper 2およびWhisper 3と比較して、私たちの最新のモデルはテストしたほぼすべての言語で全体的に優れたパフォーマンスを示しています。
そう、これらはかなり大きな改善に見えます。Whisper Large V2とWhisper Large V3でもエラー率はすでにかなり低かったですが、特定の言語では大幅な改善が見られます。GPT-4.0 TranscribeとGPT-4.0 Mini Transcribe、4.0は今日APIで利用可能で、わずか0.6セント/分です。Whisperと同じ価格です。そして4.0 Mini Transcribeは0.3セントなので、半額です。本当に素晴らしい最先端のオプションです。また、音声認識APIも強化しています。
これらは本当に良い価格ですが、正直に言って、音声認識やテキスト音声変換を行う場合、オープンソースモデルは事実上無料です。もちろん、本番規模で実行する必要がある場合は、それをサポートするGPUが必要ですが、それらはすでに本当に優れています。そのため、数パーセントのエラー率の違いについて話している場合、多くのユースケースでは違いがないかもしれず、突然、オープンソースモデルを使用するとおそらくその一部の費用で済むのに対して、0.3または0.6セント/分を支払うことになります。そして、これらのテキスト音声変換や音声認識モデルの多くは完全にローカルで実行できるため、コンピューター上で実行する必要がある場合、ホスト型オプションを使用することは実際に最悪のオプションかもしれません。
「開発者はモデルに連続的な音声ストリームを渡し、連続的なテキストストリームをレスポンスとして受け取ることができます。これにより、本当に高速な体験を構築することが容易になります。また、これらのAPIには、開発者が音声体験を構築するために解決する必要がある多くの難しい問題が組み込まれています。ノイズキャンセレーションが含まれているため、モデルは背景音に惑わされません。また、新しいセマンティック音声アクティビティ検出器も含まれており、ユーザーが実際に話し終わったとモデルが判断した時点で音声をチャンク分けします。そのため、開発者は半分話された考えを処理することについて心配する必要がありません。」
それらは本当にクールな機能です。ノイズキャンセレーション自動的に、音声チャンク分け自動的に、それは本当に素晴らしいです。それらの機能が必要な場合、おそらくそれに対して支払うことになるでしょう。これらの機能はすべて、音声認識APIだけでなく、リアルタイムAPIでも利用可能です。ぜひチェックしていただきたいと思います。次の機能は、新しいテキスト音声変換モデルGPT-4.0 Mini TTSです。これがどのように機能するか見せていただきたいと思います。
「はい、これをお見せします。これはOpenFMです。これは私たちが構築したウェブサイトで、この新しいモデルを簡単に試すことができます。ご覧のように、選択できる多くの音声があります。事前に生成したさまざまなプロンプトがありますが、自分でもタイプできます。これは基本的に私たちが追加した新しいフィールドで、モデルにテキストをどのように話して欲しいかを指示するフィールドです。マッドサイエンティストのような感じでやってみましょう」
ご覧のように、基本的に私たちはどのように伝えたいか、どのようなトーンで伝えたいかをプロンプトしました。読み上げるように指示するときに、これらの追加の指示を与えることができるのは本当に素晴らしいです。しかし、方向と文章を与えていても、それでもまだ何かが失われています。トーンと感情を伝えることが特に重要だと思うのは、音声からテキストへの変換の過程です。人間の声を取り込んでテキストに変換し、その感情やトーン、リズムなどすべてを維持することが重要な部分です。そして、少なくとも近い将来、彼らはそれを解決できないと思います。実際のテキストの横に、各音節や各単語、各文がどのように話されるかを示すメタデータレイヤーが必要です。
「星々は私の天才の前で震える。亀裂は開き、エネルギーが不安定に高まっている。おそらく危険だ、最も確実にライランド船長、これは本当に強烈だ」
そうですね、それはかなりのものです。同じ声で試してみると面白いですね。「このライブストリームはとても順調で、あなたはとても上手くやっていますよ」とか。
「このライブストリームはとても順調です。あなたはとても上手にやっています。ありがとう」
はい、どちらも本当に良い響きです。
次に、最近発表されたエージェントSDKを使用して、テキストベースのエージェントを音声ベースのエージェントに変換する方法を紹介します。これはコーディングの一部であり、ライブで見るのはそれほど興味深くないので、その部分はスキップして、実際の動作を見せます。
「最後の注文は何でしたか？」
「ツールコールを行っています。はい、あなたの最後の注文は2024年2月9日でした。オリーブ色のパタゴニアのショーツを注文し、すべて履行されています。何かお手伝いが必要ですか？」
「注文番号は何ですか？」
「パタゴニアのショーツの注文番号はA507です。他に何かご質問があれば、お気軽にお尋ねください」
これらの新しいAPIを使用して、既に持っているAIワークフローに簡単に音声を追加できるのは本当にクールです。これを本当に評価しています。そして、改めて言いますが、音声は人工知能の将来のインターフェースだと本当に思います。しかし、最も良い点は、両方のオプションを持つことができるということです。テキストを使うこともできますし、音声を使うこともできます。開発者として、音声エージェントを構築した場合、どのようにデバッグし、それがうまく機能しているかをどのように判断するのか疑問に思うでしょう。
「非常に良い質問です。これは先週デモンストレーションしたトレーシングUIで、今回は音声をサポートするようにアップデートしました。これが私の最近のチャットのようです。たくさん練習しました。そして、ここには最近の会話からのトレースが表示されています。更新してみましょう。これが最近のチャットです。ご覧のように、ここにはさまざまなイベントが表示されています。例えば、これをクリックすると、これは私がエージェントに最初にリクエストしたものです。再生してみましょう。」
「最後の注文は何でしたか？」
そう、音声と統合されており、再生したり、メタデータを調べたり、異なるタイムラインを見たりできます。これはかなり洗練されたデバッグとトレーシングのインターフェースです。私はこれが本当に気に入っています。実際に自分ではまだ試していませんが、試す予定です。
これらが主な発表です。音声モデルの多くのクールなアップデートと、開発者向けの多くの素晴らしい新機能があります。ぜひチェックしてみてください。OpenFMでこれらの音声を試すこともできます。このビデオをお楽しみいただけたなら、「いいね」とチャンネル登録をぜひ検討してください。次回の動画でお会いしましょう。