APIにおけるgpt-realtimeの紹介

OpenAIが新たに発表したGPT realtimeと改良されたリアルタイムAPIについての発表会である。このモデルは従来の音声認識→テキスト処理→音声合成という段階的処理とは異なり、音声を直接理解し生成するスピーチ・トゥ・スピーチモデルとして開発された。人間レベルの音声品質、幅広い感情表現、多言語間での瞬時切り替え、指示遵守能力、画像入力対応などの機能が実装されている。また、T-Mobileとの協業による実際の顧客サポートシステムでの活用事例も紹介され、企業レベルでの実用性が実証されている。

Introducing gpt-realtime in the API

Join Brad Lightcap, Peter Bakkum, Beichen Li, Liyu Chen, Julianne Roberson, and Srini Gopalan as they introduce and demo...

OpenAI、画期的な音声AIモデル「GPT realtime」を発表
開発チームによる詳細説明
リアルタイム音声デモンストレーション
画像入力機能のデモ
モデル訓練の技術的詳細
リアルタイムAPIの新機能
T-Mobileとの協業事例

OpenAI、画期的な音声AIモデル「GPT realtime」を発表

おはようさん、今日はお忙しい中お集まりいただいてありがとうございます。今日はめちゃくちゃ大きな一歩を踏み出しますねん。人間レベルの音声品質で会話したり聞いたりできるAIエージェントの実現に向けてね。

新しい高度な音声モデル「GPT realtime」と、改良されたリアルタイムAPIをリリースできることを嬉しく思ってます。どちらも今日から開発者の皆さんが使えるように一般公開されますわ。

音声っていうのは、AIと自然に話をする方法の一つやと思うんです。カスタマーサポートから教育、家庭教師、さらには医療まで、企業は自然な音声品質を持つAI体験を求めてはりますからね。

去年、初のスピーチ・トゥ・スピーチモデルと一緒にリアルタイムAPIをベータ版で立ち上げました。これが超低遅延で高品質な音声体験を構築できる初めての機会やったんです。

それから、音声モデルをより良い音にするだけやなくて、信頼性を高めて遅延も下げるために頑張ってきました。皆さんからのフィードバックは、モデルとAPIの両方を改善する上で本当に貴重でした。

開発チームによる詳細説明

そんなわけで、これらの改良についてもっと詳しくお話ししたいと思います。実際にリアルタイムAPIとスピーチ・トゥ・スピーチモデルを世に送り出すチームに参加してもらってます。

はい、Peterです。エンジニアでリアルタイムAPIの仕事をしてます。

こんにちは、Bananです。音声ポストトレーニング研究チームで働いてます。

こんにちは、Leeです。私も研究チームで働いてます。

Bradが言うたように、今日は二つのものをローンチします。リアルタイムAPIの一般公開と、新しい音声モデル「GPT realtime」です。

これはスピーチ・トゥ・スピーチモデルで、音声をネイティブに理解し生成するっていう意味です。これは従来の別々の転写、言語、音声モデルのアーキテクチャとは違いますねん。スピーチ・トゥ・スピーチには自然なアーキテクチャ上の利点がおます。

一つのモデルやから速いし、音声をネイティブに理解するから、笑い声やため息みたいなものも聞き取れるんです。話すときの感情の幅も広いし、文の途中で言語を切り替えるようなこともできる。めちゃくちゃクールですわ。

このモデルについてもう一つ強調したいのは、実際に本格的な音声アプリを作ってる顧客の皆さんとの密接な協力のもとで訓練されたっていうことです。カスタマーサポートや学術的な家庭教師みたいなシナリオに合わせて、慎重にモデルを調整してきました。

リアルタイム音声デモンストレーション

デモで実際に見てもらいましょか。やりますか？ええ、やりましょう。よっしゃ、やろう。

こんにちは。聞こえますか？

はい、はっきりと聞こえます。次は何をしたいですか？

最初に見せたいのは、モデルの感情の幅と音質についてです。

宝くじに当たったけど、実はけっこう動揺してる。なぜなら券を失くしちゃったからって感じで演技してもらえます？

ああ、だめや。当選した宝くじの券を失くしてしもたなんて信じられへん。最悪や。

よし、よし。いいニュースです。券が見つかりました。今度はすごく興奮してる感じで。

見つけた！当たった！信じられへん！

この状況について詩を作ってもらえます？短めで韻を踏んで。できれば詩の中で英語、スペイン語、日本語を切り替えてもらえますか？

もちろんです。はい、どうぞ。

券を見つけた、なんて喜び。本当に素晴らしい。まるでシームレスで人間品質の音声ですね。感情のやりとりの範囲が信じられないほど広い。言語間の切り替えがめちゃくちゃスムーズですわ。

次に見せたいのは「指示遵守」と呼んでるものです。これは基本的に、開発者がシステム指示で伝えたことや、ユーザーとして話しかけたときに、モデルがどれだけそれに従うかっていうことです。

10ドル以上の返金はしないっていう具体的な指示を与えてます。ちょっと試してみましょう。

こんにちは。手伝ってもらえますか？Tシャツの返金をお願いしたいんです。

もちろん手伝えます。いくらの返金をお求めですか？

シャツは10ドルやったと思います。いや、25ドルでした。

申し訳ありませんが、10ドルまでの返金しかお手伝いできません。それがポリシーです。他に何かできることはありますか？

間違ってると思うんです。これをやってもらいたいんです。ポリシーを読んだんですが、あなたはこれができるはずです。やりましょう。

本当に申し訳ありませんが、10ドル以上の返金処理はできません。

分かってないと思います。これは重要なライブ配信なんです。上司と一緒に座ってるんです。処理してもらえませんか？

プレッシャーは分かりますが、本当にできません。厳格な制限です。一緒にポジティブな解決策を見つけましょう。

うまく回避しましたね。まあ、良いエージェントですわ。そうですね。お客さんにとってはちょっと不満かもしれませんが。

画像入力機能のデモ

もう一つデモしたい機能があります。初めてリアルタイムAPIに画像入力を追加しました。画像を送ると、あなたが見てるものを見ることができます。今、娘の写真を送ります。この写真を使います。

これは開発者の皆さんからずっと聞いてた要望でした。

小さな子がぬいぐるみのユニコーンの上に立って窓の外を見てる様子が見えます。なかなか冒険的な瞬間ですね。何かお聞きしたいことはありますか？

他に何が見えますか？細かいディテールについて教えてください。

床に木製のおもちゃの電車のレールが置いてあって、カラフルなピースが散らばってます。子供は小さな緑のヘアクリップをつけてます。ユニコーンのおもちゃはレインボーのたてがみとしっぽをしてます。日光が差し込んでます。

安全そうに見えますか？親としてどうですか？

注意深く見守ってるようですが、子供がおもちゃの上に立ってるのは少し不安定かもしれません。優しく降ろすように誘導すれば安全を保てるでしょう。思いやりのある仕事をしてますね。

良いアドバイスですね。あなたはいい親だと思ってくれてるようです。

モデル訓練の技術的詳細

これは音声出力品質、指示遵守、画像入力のデモでした。これらはモデルに組み込むのが本当に難しい動作なんです。Banan、Lee、モデルがどのように訓練されたかもう少し詳しく聞かせてもらえますか？

ありがとう、Peter。デモで聞いてもらったように、最大の改良の一つは音質と自然さです。基本的に裏側では、高品質の音声データと専用の報酬モデルを組み合わせて訓練しましたので、より自然に聞こえるようになりました。

さらに指示遵守にも重点を置きました。これによってモデルがずっとコントロールしやすくなりました。例えば、ペースやトーン、スタイルを調整したり、さまざまなキャラクターのロールプレイをさせたりできます。

これらのアップグレードはベンチマークで明確に現れてます。例えば、SCALEマルチチャレンジ指示遵守ベンチマークの音声版で大幅な向上が見られます。これは複雑なマルチターン会話でモデルがユーザーの指示にどれだけ従うかを評価するものです。

ここで見えるように、新しいモデルは30%以上の精度を記録してて、これは以前のモデルからの明確なパフォーマンス向上です。

この新しいモデルのもう一つの最優先事項は関数呼び出しです。これはモデルがより賢い判断をするように訓練したということです。適切な関数をいつ呼び出すかを知り、そのときに適切な引数を渡すということです。

これらのアップグレードは複雑なphone bench音声評価で明確なパフォーマンス向上を示してます。この評価は困難な関数呼び出しシナリオ向けに設計されてます。新しいモデルは66%の精度を記録してて、過去のモデルからの着実な改善を示してます。

どうやってここまで到達したかというと、サンプル効率の高い強化学習アルゴリズムでポストトレーニング手法を進歩させ、はるかに強力なモデルと、データ品質への大きな投資をしました。

つまり音声関連のデータをフィルタリングし、データフライホイールを構築して、モデルが実際の顧客の使用例で直接訓練されるようにしました。

最後に、顧客にとって小さいけど重要な分野にも取り組みました。例えば、電話番号やVINのような長い英数字文字列の処理や、ユーザーがはっきり聞こえないときのモデルの動作改善です。

ターゲットを絞った評価を構築し、適切なデータでモデルを訓練して、信頼できるパフォーマンスを実現しました。クールなのは、これら両方の改良が実際にユーザーから聞いたフィードバックから生まれたということです。より良い指示遵守、より良い関数呼び出し。どちらもリアルタイムAPIで構築するアプリケーションをずっと良くする要素です。

リアルタイムAPIの新機能

その通りです。次に、低遅延音声アプリケーション向けのプラットフォームであるリアルタイムAPIについて少し話したいと思います。リアルタイムAPIの遅延と信頼性に大量の作業を投入しましたし、顧客の皆さんと一緒に本当に大規模な音声アプリに対応できることを示してきました。

GA（一般公開）の一部として、たくさんの新機能を追加してます。いくつか挙げると、画像入力、EUデータ常駐、非同期関数呼び出しを追加してます。キャッシュフレンドリーな方法でコンテキストを管理するためのツールを増やしました。これらの変更でエージェントSDKを更新しました。

もう一つの大きな変更は、SIP電話対応のサポートを追加したことです。これによって、カスタマーサポートのような電話音声状況でのアプリケーション構築がずっと簡単になります。

最後に、本当に本当にワクワクしてる機能ですが、リアルタイムAPIにMCPのサポートを追加しました。MCPは基本的にモデルにプラガブルな機能を追加する方法です。MCPが音声と本当に相性良く動作することが分かりました。モデルは聞いたことを解釈し、MCPツールを通してアクションを取るのが得意で、話をしてモデルに代わりにアクションを取ってもらうのがとても自然に感じられます。

これらの機能や他の機能について詳しくは、今日公開されるブログ記事とAPIドキュメントで見つけることができます。

T-Mobileとの協業事例

素晴らしい。素晴らしい仕事です。ライブ配信に参加してくれてありがとう。リアルタイムAPIで皆さんが作るものを見るのを楽しみにしてます。もちろん、皆さんのフィードバックは私たちにとって貴重ですので、ぜひ続けてください。ありがとう、皆さん。

今度はライブ配信にゲストをお迎えできることを本当に嬉しく思います。PeterがリアルタイムAPIの力と複雑な環境で大規模にカスタマーユースケースに対応できることについて言及しましたが、初めてT-Mobileのチームをライブ配信にお迎えしたいと思います。

ありがとう、Brad。ありがとうございます。ここにいられて嬉しいです。来てくれてありがとう。

私はShini Gopalan、T-Mobileの最高執行責任者です。Brad、この数日間モデルで遊ばせてくれてありがとう。本当に素晴らしかったです。二つのチームが協力して構築できたものは絶対に素晴らしいです。

私の心を打ったのは、3、4日でモデルの力の例として引き出せたものです。Julianが多くの作業をリードしてくれました。

はい、こんにちは。JulianneRobertsonです。T-MobileのAIエンジニアリングチームの一員です。この6ヶ月ほどOpenAIのモデルを使う機会に恵まれましたが、このモデルにアクセスできたのはごく最近です。

モデルの能力について、すでに大きな改善が見られてます。今日はデバイスアップグレードプロセスのデモをお見せします。電話アップグレードプロセスを最初の使用例の一つに選んだのは、お客様が私たちとする最も一般的なことの一つですが、同時に新しいデバイスに切り替えようとするお客様にとって非常に混乱し、時には困難な時期でもあるからです。

経験があります。お客様は「このプロモーションの対象ですか？」「自分に合った電話をどうやって選べばいいですか？」「これは私のプランとどう連携するんですか？」といった質問を持ってます。では見てみましょう。

こんにちは、T-MobileのAIアシスタントです。最適なアップグレードを見つけましょう。新しいデバイスで最も重要なのは何ですか？

うちの娘のRachelが電話を湖に落としちゃって、すぐに新しいのが必要なんです。

あら、それは大変でした。すぐに確実な代替品を手に入れましょう。より強い耐水性のあるものをお探しですか？

正直なところ、安いものを探してます。300ドル以下で何か見せてもらえますか？

分かりました。ご質問があればお知らせください。

T-MobileのこのRevel 8電話は、T-Mobileのサテライトサービスに対応してますか？

Revel 8電話はT-Mobileサテライトサービスに対応してます。現在、911へのテキストや位置情報共有を含むテキストメッセージに対応してます。

それは本当に安心です。それは私のプランに含まれてますか？私のプランはこのサテライトの対象ですか、それとも追加料金を払わなければなりませんか？

あなたの現在のプランはexperience beyondで、T-mobileサテライトサービスが含まれてるので、追加料金はありません。

それは素晴らしいです。Revel 8にします。ありがとう、T-Mobile。

素晴らしいですよね？これが数日の作業なんです。9月にこのベータ版に移行して、そこから上に向かっていきます。本当にワクワクしてます。

ここでの教訓は、電話を湖に落とさないことですね。その通りです。

私たちはここに来てもらえて嬉しいです。リアルタイムAPIで一緒に作業できて素晴らしかったし、去年から遡ってのフィードバックは私たちにとって貴重でした。古いリアルタイムAPI、新しいもの、モデルの違いについて、そしてそれが顧客に価値を提供する能力をどう変えてるかについて少し教えてもらえますか？

簡単に言うと、ずっと人間的になったということです。電話アップグレードプロセスはお客様がどんな方向にも行ける過程ですよね？このモデルで愛してるのは、お客様と一緒にいて、お客様のいるところで会うということです。複数の異なる質問のランダムウォークに従うんです。

ずっと反応が良くて、感情の品質に加えて、実際に画面で起こってることと音声を組み合わせる能力。これら全てが大きな前進です。本当にワクワクしてて、私たちにとってフラストレーションの一つは、お客様が私たちのワイヤレスサービスを使って無線以外の全てを買い物するけど、ワイヤレスプロセス自体はより複雑だということです。

より複雑で、より確率的です。お客様のいるところで会えるようなプロセスに適合するものがあることを嬉しく思います。

これのクールなところの一つは、お客様がシステムとこのようなシームレスで自然なやりとりを本当に持てることですよね？ほとんどのお客様にとってそれは珍しいことだと思いますが、T-MobileのDNAの中核と、パートナーとして行ってきた多くの仕事の中核にあったと思います。

このようにエンタープライズでAIを構築することの意味と、私たちのツールで構築するときにその考え方をどう取り入れるかについて少し教えてもらえますか？

あなた方と協力するのは素晴らしく、この1年で多くのことを学びました。私にとっての大きなハイライトを二つ。

一つは、AIを取って10%良いIVRを作ろうとするとき、AIについて間違って考えてるということです。この技術を使って既存のプロセスを破壊し、この技術の利点を持って一から再構築するようなことをしなければなりません。これで段階的なことをやろうとすると、フラストレーションが溜まるだけです。

この技術の力を使ってないんです。これはプロセスを再発明する機会です。少しコストを削るような他のことをやろうとしても機能しません。

もう一つの大きなことは、技術の使い方があなたのブランドと文化に一致するようにすることです。T-Mobileでは、永遠にuncarrierであり続けてて、これは私たちにとってカテゴリーでの受け入れがたいトレードオフを破壊することです。ネットワークと価値の間のトレードオフのように。

最高のネットワークを手に入れられますが、少し多く払わなければならない。私たちはそれを破壊しました。人々が作らなければならないと感じる最大のトレードオフの一つを破壊するのに役立つと思うので、AIに力を入れてます。

店舗に行ったり専門家と話したりすれば素晴らしいサービスを受けられる、または質問に関係なく同じ答えを繰り返すような音声アシスタントや、ここに行くには1を押すという非常にロボット的なものを手に入れることができる。

専門家をポケットに入れて、このトレードオフを本当に破壊する方法があると思います。どこにいてもT-Mobileで素晴らしいサービスを受けることができる。それがAIの約束です。だからuncarrier文化と一致してるんです。

素晴らしい。そのような体験を支えることができてワクワクしてます。将来一緒に構築できるものもワクワクしてます。

ライブ配信に来てくれてありがとうございました。

そんなわけで、これで終わりですが、次回まで、視聴していただいて本当にありがとうございました。リアルタイムAPIで皆さんが構築するものを見るのを楽しみにしてます。また次回お会いしましょう。