OpenAIが主催する「ビルドアワー」にて、新たにリリースされたGPT-Realtime-2モデルを中心に、リアルタイム音声APIの最新機能と構築手法について解説する動画である。多言語対応の翻訳機能や、推論能力を活用したEコマースの検索エージェント、製品分析ダッシュボードを音声で操作するデモを実演している。また、カスタマーサービスAIを提供するSierra社のチームをゲストに迎え、本番環境で大規模かつ高精度な音声エージェントを運用するためのインフラストラクチャや、複雑な音声通話における評価方法についての知見を共有している。

ビルドアワーへようこそ
皆さん、こんにちは。別のビルドアワーへようこそ。今日はお集まりいただき本当に嬉しいです。私の名前はサラ・アーボナスで、OpenAIでスタートアップマーケティングを率いています。社内では紹介するまでもないほどの絶対的なレジェンド2人とご一緒しています。お二方、自己紹介と先週の活動について教えてもらえますか。
もちろんです。私はテリーです。ここでマルチモーダルAPIのプロダクトマネージャーをしています。
私はテクニカルサクセス部門のソリューションエンジニアとして、最大のデジタルネイティブ顧客が私たちのAPIプラットフォーム上でスケールするのを支援しています。そして今日は、先週リリースしたばかりのGPT-Realtime-2についてすべてお話しします。
ビルドアワーの目的は、OpenAIのAPIやモデルを使用して会社をスケールさせるためのベストプラクティス、ツール、そしてAIの専門知識を皆さんに提供することです。創業者の皆様にも、大企業のエンジニアの皆様にも、今日学んだことを実際に製品化し、より迅速なスケールに役立てていただければと願っています。以下のリンクからすべてのビルドアワーにサインアップできますし、YouTubeでもご覧いただけます。たくさんの素晴らしいコンテンツを用意しており、今回は内容が盛りだくさんなので、早速本題に入りましょう。
今日はまず、先週リリースした内容の概要を説明し、具体的に何を構築できるのか、どこに焦点を当てるべきかについてもう少し詳しく共有し、さらにいくつかの具体的なデモをご覧いただきます。最初に音声駆動の検索エージェント、次に製品分析ダッシュボードを紹介します。ビルドアワーではいつものように、これらをライブで構築しますので、すべてがうまくいくよう音声デモの神様に祈っていてくださいね。そしてその後、Sierraのチームをお迎えできることを本当に楽しみにしています。彼らはリアルタイムモデルを使用した構築方法や、一般的な音声エージェントの構築に関するプロからのヒントを共有してくれます。最後にはいつものようにQ&Aの時間も設けています。画面にQ&Aボタンがありますので、今日のセッションの進行中、自由に質問を書き込んでください。スタジオにいるメンバーがリアルタイムで回答し、最後には私たちやSierraチームが直接質問にお答えする時間を取ります。それでは、始めましょう。素晴らしいですね。
新たな音声モデルのリリースと翻訳デモ
先週の木曜日に3つの新しいモデルを含む大規模な音声関連のリリースがありましたので、今日はそれらについて説明します。ここで現在進行中のすべての概要を簡単にお見せしますが、実際には皆さんにその体験を直接お見せして没入していただきたいと思っています。いくつかデモを行いますが、次のスライドに進む前に、皆さんがどこから参加しているのか知りたいです。どこから電話をかけているのか、あるいはどこからダイヤルインしているのか、国旗の絵文字などを落としてみてください。この言語の可能性を示す翻訳モデルをお見せしたいと思います。そうですね、いつもスペイン語を話す方がたくさん参加されていますので、翻訳にはスペイン語を選びましょう。翻訳デモの画面に切り替えますね。このデモを試してみてください。
いいですよ。こんなに早く起きると、お腹が空いているので朝食のメニューについて話したいです。朝食よりも素晴らしいのは、もしかすると新しいオープン…様子を見てみましょう。左側にトランスクリプトがあり、出力された翻訳のトランスクリプトが表示されているのがわかりますね。
間違いありません。第一に、すでにお見せしているのがリアルタイム翻訳モデルです。これは言語の壁が消えたかのように感じられる会話を実現します。70以上の入力言語と13の出力言語をサポートし、低遅延のストリーミング翻訳を提供します。ビデオ通話、ライブストリーム、カスタマーサービスに最適です。そして第二に、この体験を裏で支えているGPTリアルタイムWhisperモデルもご覧いただいています。80の入力言語に対応し、わずか200ミリ秒という調整可能な低遅延のストリーミング機能を確認できます。これにより、より早い関数呼び出しやより良い指示追従が可能になり、キャプションや会議のメモ、アンビエントエージェントのコンテキストにおいて、ライブ製品がより速く、より応答性高く感じられるようになります。
そして、私たちがリリースした第三のモデルがGPT-Realtime-2です。ここにあるように、これは私たちの最もインテリジェントな音声モデルです。GPT-5クラスの推論能力を音声にもたらします。プロンプトへの忠実さ、ツール呼び出し、多言語パフォーマンスに非常に優れており、これらはすべて音声の生産ワークフローにおいて不可欠です。これで、構築のための3つの異なる方法が手に入りました。ハンズフリーの音声駆動アプリのような音声からアクションへのアプローチ、音声による首席補佐官のようでありながら話された音声に整理されるシステムから音声へのアプローチ、そして世界中でT-Mobileのような企業が使用しているカスタマーサービスコールのような音声から音声へのアプローチです。チャットでスペイン語でコメントしてくれた人がいて、すごい、これはいいねと言っています。アサイーボウルとオートミールラテと翻訳されたのだと思います。心配していたのですが、実際には皆さんに聞こえていたことを願っています。これにはダイナミックな音声クローニング機能が含まれています。複数の話者を設定でき、誰が話しているのかを実際に聞き分けることができるので、本当に素晴らしいと思います。ダイナミックなトーンマッチングも間違いなく素晴らしいです。
そうですね。そしてリアルタイム2にはたくさんの新機能があります。音声から音声へのやり取りで得られる感情の調整だけでなく、推論する前に人間のようにもう少し確認させてくださいと言えるプリアンブルのような機能もあります。コンテキストウィンドウも拡大されました。これは私たちが受けていた大きな要望で、現在は4倍の12万8000トークンに増えています。これは大体1時間弱に相当しますが、偶然にもこのセッションの時間と同じくらいですね。途中で切り捨てる必要がないため、指示への追従性やインテリジェンスが本当に向上します。
はい、その通りです。また、並列でのツール呼び出しも可能になりました。ツール呼び出しをウォーターフォールのように順次行う必要はもうありません。ヘルスケアやAIの専門用語など、ドメイン固有の語彙の理解も向上しています。さらに、コンテキストを越えた用語の理解によりエージェントの振る舞いが向上し、表現力も制御可能になりました。ささやいたり、興奮したり、嫉妬したりと、さまざまな表現を試すことができます。皆さんがどんなものを作り出すのか見るのが楽しみです。ベンチマークでも、インテリジェンス、指示への追従、ツール呼び出しのいずれにおいても大きな飛躍が見られます。よりグローバルでハンズフリーになり、世界中の誰もがアクセスしやすくなるAGIの次の波に、私はとてもワクワクしています。それでは、実際に裏側でどのように動いているのかをお見せします。
Eコマースでの音声検索エージェントデモ
最初のデモをお見せできることを本当に楽しみにしています。これは音声駆動の検索エージェントを備えたEコマースサイトです。このデモでは、リアルタイムAPIが単なるチャットではなく、ツールを使用して実際にUIを操作する検索を駆動しています。これは、私たちの推論モデルと並列ツール呼び出しの力を本当に強調していると思います。それでは画面を切り替えますね。
私は太平洋岸北西部へのハイキング旅行を計画していて、すでにお気に入りのトレイル用品会社でいくつか購入したのですが、まだ買い物を続ける必要があります。そこで、Supply Coのショッピングアシスタントを使って買い物を手伝ってもらいたいと思います。ねえ、どこまで進んだか思い出させてくれますか、この旅行のためにまだ何を買う必要がありますか。
買い物計画を呼び出して、何がまだ足りないか確認しますね。まだテントとハイキングシューズが必要です。デイパック、トレイル用ソックス、断熱ボトルはすでに揃っています。最初にどれを探したいですか。
テントから始めましょう。3人から4人用で450ドル以下のテントを見たいです。
テントを検索して、予算内のオプションに絞り込みます。2つの良いオプションがハイライトされています。1つはより評価の高い3人から4人用のテントで、価格は419ドル85セント、明日無料配送されます。もう1つはより早く設営できるタイプで357ドルですが、在庫が十分にあるとは表示されていません。
実際に、より高価なテントの星1つや2つのレビューについて教えてもらえませんか。
そのテントの低評価のレビューを確認します。低評価のレビューでは主に、最初の設営が予想より遅くなる可能性があることや、典型的な太平洋岸北西部の週末に見られるような激しい嵐や強風、土砂降りには向いていないと書かれています。軽度から中程度の雨を予想しているならこれらの不満は致命的ではありませんが、荒天を予想している場合はより嵐に対応できるテントに変更することをお勧めします。
なるほど。実はしばらく天気をチェックしていなかったのですが、再来週の週末のシアトル地域の天気予報を調べてもらえませんか。
その週末のシアトルの天気予報をチェックして、嵐のリスクを検討します。嵐のリスクは中程度のようです。いくらかの雨と風の強い期間はありますが、明らかな嵐ではありません。通常の雨の週末であればそのテントでおそらく大丈夫ですが、フットプリントと丈夫なペグを使用することをお勧めします。
それは良いアドバイスですね。よし、それをカートに追加してください。それから、防水ハイキングブーツも見てみましょう。
テントをカートに追加します。次に、保存されているサイズを確認して防水ブーツを探します。USサイズの10で送料無料の防水ブーツを探し、テントをカートに追加しました。評価の高いものと価格の安いものをハイライトしました。評価の高いものと安いもの、どちらを開きたいですか。
まず安い方を見てみましょう。その製品ページを見せてくれますか。
詳細を確認できるよう、安い方のブーツの製品ページを開きます。このペアは224ドル85セントで、星4.5の評価があり、送料無料です。足に馴染むまで数回のハイキングが必要と書かれていますね。
次の2週間は忙しくなるのですが、それ以外はここで少しお金を節約したい気分です。なので、これをカートに追加して、私のカートを表示してくれますか。合計額を見たいです。
この商品をUSサイズ10で追加します。その後、合計額を確認できるようカートを開きます。カートにはテントとブーツが入っており、合計は644ドル70セントです。ここではチェックアウトのお手伝いはできません。他に何かありますか。
そうですね、これらの追加オプションについて少し教えてください。
おすすめの追加オプションは、レインウェアのレイヤーとテントのフットプリント、またはペグのキットです。これらは雨や風の強い条件で役立ちますからね。
レインレイヤーについては後で戻ってくるかもしれませんが、今のところはこれで十分だと思います。買い物を手伝ってくれて本当にありがとう。
どういたしまして。素晴らしい旅行になることを願っています。レインレイヤーが必要になったらいつでもここにいますよ。
素晴らしいですね。ここで本当にワクワクするのは、私たちのモデルがとても良い音で、非常に自然に聞こえることです。声は非常にコントロールしやすいのですが、最もエキサイティングなのはこの知能です。ツールを通じてUIを操作しているのです。ここでは15から20個のツールを渡していると思いますが、それは以前のリアルタイムモデルでは期待できなかった、あるいは推奨できなかった規模のことです。モデルはそれらのツールの中から選択し、現在のページを調べてどのアクションが必要かを判断できます。必要に応じて複数のツールを連続して呼び出しているのがお分かりいただけたかと思います。これには天気のような外部ツールも含まれており、どのような商品を購入すべきかを理解するためにSupply Coのサイトを離れる必要はありませんでした。これは、以前の単一のアクションを出力するような音声ワークフローよりもはるかに自然な結果をもたらすと思います。会話しながらこれらすべてのツールにわたって推論し、視覚的な体験を更新できる本物のショッピングアシスタントのようです。
プロダクト分析ダッシュボードの音声操作デモ
次にお見せしたいのは、この反対側のアプローチです。私は先ほどEコマースサイトのSupply Coでただの買い物客でしたが、今度はSupply Coのプロダクトマネージャーとしてデモを行いたいと思います。これが非常に興味深いのは、他の音声モデルや音声から音声へのソリューションを使ったことがある人なら、私が話してモデルが話し返すというような体験は理解できると思うのですが、実際には私たちは音声からアクションへのアプローチを新しいワークフローとして考えているからです。モデルはツール呼び出しに非常に優れており、誰もが常にモデルに話し返してほしいわけではありませんからね。では、私の製品分析ダッシュボードに切り替えます。私はSupply Coのプロダクトマネージャーです。このダッシュボードには本当にたくさんの情報が表示されていますが、この分析を手伝ってほしいのです。これを手伝ってくれるAIアシスタントがいればいいのに。最近耳にしているのはヨーロッパに関する問題です。それではセッションを開いて話し始めましょう。ヨーロッパで絞り込みましょう。今問題になっていると聞いているのはそこなので。
了解しました。過去7日間を見て、その前の7日間と比較しましょう。
なるほど。そこに大きな落ち込みが見られますね。Safariが問題のようです。強調してくれてありがとう。この調査に関連すると思われる他のフィルターがあれば指摘してくれませんか。
わかりました。音声検索、初めての購入者、そしてフットウェアで絞り込んで、そこから始めましょう。
よし。これは巨大なアクティベーションの離脱ですね。次は何でしょうか。実はここで根本原因の調査を開始してもらえませんか。そしてモバイルSafariとChromeを比較したいだけなのです。これらの問題の多くが発生している場所のように見えるので。
完璧です。Safariが本当にここでの問題ですね。よし、これをもう一度開いてみましょう。エンジニアリングチームに説明できるように、この根本原因の調査について声に出して2文で概要を教えてくれますか。
調査の結果、モバイルSafari特有のリグレッションが見られ、製品詳細ページのサイズ選択のバリデーションが正しく更新されていないことがわかりました。そのため、ヨーロッパでフットウェアを初めて購入する人がサイズを選択した後に動けなくなり、カートに追加できなくなっています。Chromeはベースラインに近い状態であるため、広範なトラフィックの品質や検索の問題ではなく、Safariでの製品詳細ページのリリース時の挙動に問題があることを示しています。
素晴らしいです。これは非常に役立ちます。これをチケットにしてエンジニアリングチームに渡します。本当に助かりました。ありがとうございます。よし、なぜこれが素晴らしいと思うのか。モデルの指示への追従性が非常に高いため、私が求めたときにしか話さなかったのです。フィルターをかけるたびに確認してもらう必要はなく、ただそのアクションを取ってほしかっただけで、自分でクリックして回る必要はありませんでした。いつでもクリックしてその推論を確認でき、トランスクリプトを見てチャットで対話することもできます。私にとって、これはインテリジェンスと指示への追従における大きな前進であり、モデルがループの中のアナリストのように振る舞えることを意味します。Eコマースサイトの時のようにたくさんのツールを渡し、大量のモックデータにわたって推論するようモデルに求めたのですが、これがとてもエキサイティングなのは、推論能力があるからです。実際にコードを書いたり、ダッシュボードを作成したり、アーティファクトを作ったりできます。私たちの以前のモデルは簡単な音声コマンドを処理していくつかのツールを呼び出すことはできましたが、このデモがより耐久性のあるパターンを示していることを願っています。これは、ツール間をルーティングし、調査の状態を維持し、データやUIに対する開発者のコントロールを失うことなく、このライブ分析のワークフローを会話型のものに変えることができる、本物のリアルタイムエージェントなのです。それでは、音声のユースケースについてお話しするためにテリーにバトンタッチします。
音声インターフェースのユースケース
はい。私たちが目にしている音声インターフェースを使ったエージェントやアプリの構築について、皆さんにお見せできることを本当に嬉しく思います。これらは皆さんにぜひ見ていただきたいユースケースのほんの一部です。スマートデバイスとの統合など、タスクを迅速かつ簡単にするさまざまなコーディングアシスタントや音声体験が考えられます。モバイルアプリに音声ボックスを追加してあらゆる音声体験を提供したり、ビデオゲームで上、下、ジャンプといった操作を音声で制御したりすることもできます。パブリックスピーキングのコーチ、メモ取り、金融向け音声アシスタント、本物のような音声ビデオ通話などもあります。これらすべてが今や音声レイヤーで実行できるようになりました。将来の子供たちは、AIにタイピングする方法を知るよりも先に、あるいはそれ以上にAIに話しかけて学ぶようになるでしょう。私たちはその波に向けて構築する準備ができています。そしてちょっとした補足ですが、これらはすべてGPT image 2で作成されました。もしアイデア出しの段階でさらなるブレインストーミングが必要な場合は、GPT image 2が様々なコンセプトのモック作成などを行ってくれます。本当に素晴らしいですね。
そして次は、カスタマースポットライトに移ります。Sierraチームをお迎えできることを本当に嬉しく思います。ケンとソハムが繋がっていると思います。彼らの声は聞こえますか。
はい、聞こえますか。こんにちは。
こんにちは。さて、私はSierraの音声チームのエンジニアであるケン・マーフィーです。SierraはAIを活用して、企業がより良く、より人間的な顧客体験を構築するのを支援しています。実際には、単に質問に答えるだけでなく、実際のカスタマーサービスの問題を最初から最後まで解決できるAIエージェントを構築しています。私たちの顧客の多くはFortune 100企業を含む大企業であり、これはこれらのエージェントが大規模に機能する必要があることを意味します。複雑なシステムと統合し、ニュアンスのあるビジネス・ポリシーに従わなければなりません。このスライドには、私たちが協力している素晴らしいブランドの例と、私たちが運用している規模の大きさがいくつか示されています。技術的に難しいのは、エージェントが単に応答を生成するだけでなく、いつ行動すべきか、どのツールを呼び出すべきか、大規模な知識データベースからどの情報を使用すべきか、そして特定の行動が許可されているかどうかを決定しているという点です。顧客と対面する環境では、わずかなエラー率がすぐに実際のビジネスリスクになります。そのため、ポリシーを聞き逃したり、間違った行動をとったりするエージェントは、たとえ0.1%の確率であっても全く出荷できません。課題は、エージェントを自然に聞こえるようにできるかどうかだけでなく、企業が顧客と直接やり取りする上で信頼できるエージェントを構築し、評価し、制約を設け、運用できるかどうかということです。それでは、この規模でエージェントを運用するために私たちが何を構築したのか、そしてリアルタイムAPIをどのように使用しているのかを見ていきましょう。
Sierra社による本番環境での音声AI活用
こんにちは、Demo Loansのジェイドです。素晴らしいお知らせがありますが、その前に、いつでも口頭でオプトアウトできることをお伝えしておきます。品質向上のためこの通話は録音される場合があります。前回3月にお話しした時はノイバレーを検討されていましたが、そこから変更はありましたか。
ええと、はい、まだサンフランシスコで探していますが、今はサンセットを検討しています。
サンフランシスコに留まりサンセットに移行するのは、多くの購入者にとって理にかなっています。一戸建てをお探しですか、それともコンドミニアムですか。
はい、一戸建てを探しています。
わかりました。サンセットの一戸建ては条件に合うかもしれませんね。ご予算や最高購入価格はどれくらいですか。
大体35万ドルくらいです。
公認の住宅ローン担当者であるサラがサポートいたします。安心してお任せください。
よし。これが私たちがテストしてきたデモエージェントの一例です。全体として、私たちはリアルタイム2に非常に興奮しています。遅延、ターンの交代、推論、そして音声の品質など、私たちが直面している本番環境での最大の音声の問題に直接対処してくれますからね。音声は非常にシビアで、たとえ0.5秒のポーズでも気まずく感じられたり、壊れているように感じられたりします。だからこそ、音声から音声へのアーキテクチャは非常に魅力的なのです。独立した音声テキスト変換やテキスト音声合成を持つ必要はありません。その代わり、リアルタイムは従来の段階的なスタックの一部を切り取り、やり取りをより速く、よりスムーズで、より人間的なものにすることができます。しかし、リアルタイム2は私たちに強力な基盤を与えてくれますが、Sierraではモデルはその周りの一つのピースに過ぎません。私たちは依然としてエージェントハーネスを実行しており、これがエージェントを本番環境で確実かつ安全に実行するために必要なすべての追加インフラストラクチャを処理しています。そのハーネスを使用して、個々の顧客に必要なワークフローを定義します。それには、エージェントが使用できるツール、従うべき言語とブランディング、必要なガードレール、そして顧客の特定のポリシーと整合性を保つために必要なグラウンディングが含まれます。また、ユーザーがいつ話し終えたかを判断するために、独自にカスタマイズされたVADモデルを使用しており、これによりターンの交代をより細かく制御できるようになります。実際の音声はしばしば乱雑で、多くの背景ノイズ、アクセント、割り込み、話の途中で方向を変える人々が含まれるため、私たちのユースケースではこれがより良く機能することがわかりました。そして、このハーネスはまた、機密情報の伏せ字、PCI準拠の支払いフロー、およびエージェントが正確で安全であり、ブランドイメージを保つことを保証するのに役立つその他の幅広い本番環境機能などのトレースを処理します。リアルタイム2のような強力なベースモデルを、世界最大級の企業が顧客と接する上で信頼できるほど制御可能で、監視可能で、安全なシステムへと進化させているのは、この本番環境レイヤーなのです。これまでのところの影響としては、私たちが主に求めているのは、より速く適切な音声、より自然な会話、強力なツール実行、そしてエンドツーエンドでのタスク成功率の高さです。初期のテストのいくつかでは、間違いなく遅延の改善が見られました。私たちの段階的なシステムと比較して、通話はP50で約30%速くなり、P90では最大200%速くなりました。ですから、全体的な自然さに本当に貢献しています。音声の品質も高く、社内評価によれば、私たちが使用している専用の合成プロバイダーのいくつかと競争力があります。そして、速度と音声の品質だけでは十分ではありません。従来のスタックでは、文字起こし、エージェントハーネス、合成を別々に評価しなければなりませんでしたが、音声から音声へのモデルでは、聞く、推論する、行動する、話すといった通話全体を評価する必要があります。そのために、各顧客のワークフローに合わせてカスタマイズされたリアルな顧客通話を再現するシミュレーションも使用し、エージェントが良く聞こえるかどうかではなく、実際にタスクを完了できるかどうかを測定しています。これが、単に人間のように聞こえるだけでなく、仕事を任せられると信頼できるエージェントであるという、本番環境の音声に対する真の基準です。それでは、ソハムにバトンタッチして、音声の評価について、そしてSierraがエンドツーエンドで音声モデルをどのように評価しているかについて話してもらいます。
音声モデルの評価と課題
こんにちは。私はSierraの音声リサーチチームを代表しているソハムです。エリカが音声はお気に入りのモダリティだと言い、ケンが音声は非常にシビアだと言っていたのを知っていますが、その両方が同時に真実であるというのは本当に面白いですね。よし、音声エージェントに関する最初のポイントは、彼らは自分たちの音声を選べないということです。カスタマーサービスの通話は洗練されていて、ニュアンスに富んでおり、ケンが言ったすべてのことが当てはまります。そして通話は、私たちが望むような理想的な通話に見えることはめったにありません。理想的な通話はテキストに似ていて、ターンの境界が明確で、話されている内容を区別するのが簡単です。情報は明確に伝えられ、欠落がありません。しかし、本番の通話はほとんど決してこのようにはなりませんよね。常に割り込みがあり、アクセントがあります。そして私たちが本当に自問自答しているのは、音声エージェントが、高速道路の脇にいる顧客や子供と一緒に車にいる顧客からの通話を処理できるかということです。あるいは、非常にせっかちで攻撃的に割り込んでくる顧客を処理し、同時に彼らが達成しようとしているタスクを進めようとすることができるでしょうか。これは難しいことです。そしてこれが、このようなエージェントで見られる一般的な失敗のパターンにつながります。次のスライドに進めるとありがたいです。
さまざまな形の失敗のパターンがあります。エージェントの中には会話の側面に非常に優れているものもあれば、物事を成し遂げたりツールを呼び出したりすることに優れているものもあることがわかりました。そしてその両方を一緒にすると、エラーのパターンが本当に複合し、これらの状況でパフォーマンスの低下が多く見られます。非常に一般的なエラーの形式のいくつかは、名前や番号のスペルを伝えるときのようなものです。これは非常に厄介で、1文字間違えた場合、そこからうまく回復できるでしょうか。もし回復できたとして、それを記憶にとどめておけるか、後で私の名前でツールを呼び出すときに正しいスペルを使うか、それとも最初からの間違ったスペルを使うかということです。エージェントは時々自分自身のミスに泥沼化し、そこから先に進めなくなることがあるのがわかります。同時に、論理的な面での別の形のエラーもあります。たとえば、あなたがフライトをキャンセルしたかったのに、エージェントがどのフライトか誤解してしまった場合です。航空会社のような場合は非常にリスクが高いですよね。自分がいたくない都市や国で身動きが取れなくなり、音声エージェントが間違ったフライトをキャンセルしたせいで足止めを食らうような、悲惨な状況に陥る可能性があります。これは絶対に避けたいことです。また、会話の中には処理が難しい部分もあります。私たちは気づいていないと思いますが、人間はよく「うんうん」とか「あはは」とか「はい、その通りです」といった相槌を打ちます。私たちの音声モデルの多くは、私たちが言うことすべてに応答するように訓練されています。人間はこの点に関して取捨選択するのがはるかに上手です。エージェントにとって、「よし、これは無視すべきシグナルだ」「これは応答すべきシグナルだ」と判断するのは難しい場合があります。
私たちは、段階的なモデルがこれらの状況で本当に輝くことを見出しました。なぜなら、これらの条件に本当に特化させることができ、顧客は複雑であり、ブランドを代表するようなエージェントにしたいからです。音声から音声へのモデルが今やその複雑さを吸収し、推論とコミュニケーションを本当に向上させることができるのを見るのは本当に楽しいことであり、とてもエキサイティングです。これが今日のテーマである推論モデルにつながります。
推論モデルは、音声から音声へのモデルにおける真のステップアップとなりました。私たちの音声リーダボードは推論モデルによって独占されています。音声の会話の中で考えるのはそう簡単なことではありません。考えている間、ただバッファリングのループを回すことはできず、「よし、ちょっと待ってください」とか「それについて考えさせてください」と言わなければなりませんし、これらの状況で遮られることを許容し、状態を維持しなければなりません。このような状況で遮られたとしても前に進み続けることができるべきです。そしてこれらの問題はすべて多言語環境で爆発的に増大します。OpenAIがここで非常に大きな進歩を遂げ、リアルタイム2が大幅に良くなっているのを見るのは本当に楽しいことです。天井は高いですが、私たちは本当にそこに到達しつつあります。音声から音声へのモデルをしばらく待っていた人間にとって、主流の音声から音声への技術を見るのは非常にエキサイティングです。
私からは以上です。サラ、ありがとう。
一緒に仕事をするのに素晴らしいチームでいてくれてありがとうございます。皆さんは私のお気に入りの会社の1つです。皆さんが進化し続けるのを見ることができて素晴らしいです。それでは、Q&Aに移りましょう。
Q&Aセッション
デッキを終了するかエスケープして更新していただければ、いくつか質問を用意しています。チャットを通じて素晴らしい質問がたくさん寄せられました。割り込みとそれがどのように処理されるかについての質問が多かったです。まずこれから始めたいと思います。Sierraチームは、リアルタイム2の上に独自の割り込み検出をどのように階層化しているかについて少し共有してくれましたね。組み込みのターン検出に依存すべきか、アプリ側で割り込みロジックを追加すべきか、そしてそこでのベストプラクティスは何かという質問がいくつかありました。
特定のユースケースによると思います。箱から出した状態のリアルタイム2には、先ほど話していたようなセマンティックなものとサーバーベースの独自のVADモデルが付属しており、それらはかなりうまく機能していることがわかりました。私たちはカスタマーサービスの通話音声に非常に特化した独自のカスタマイズされたVADモデルを持っています。背景の雑音が非常に大きい場合、つまり背景に子供がいるとか、テレビの音がするとか、そういった状況に対応するためです。お二方からの推奨事項はありますか。
さまざまなパディングの推奨事項があります。しかし、どのようなデバイスから電話をかけているか、どのような環境にいるかといった状況にも大きく依存します。実際に何がうまく機能するかを確認するためには、チューニングと最適化が必要です。セマンティックなものとそれ以外のものについて、何か共有したいことはありますか。
その部分だけでなく、人々が必ずしも知っているわけではないことの一つとして、ターンごとにそれを無効にできるということがあります。免責事項のようにモデルに言わせる必要があるものがある場合、そのターンのVADを実際に無効にすることができます。そうすればモデルは確実にそれを話し、割り込まれることはありません。そしてその後、再び有効にすることができます。これは単に指示に従うことに依存しているのではなく、実際にユーザーが割り込むのを防いでいるという点で、かなりクールな機能だと思います。
はい、クールですね。次の質問はまさにSierraチームへの絶好のパスであり、開発者がリアルタイムモデルを探索し、製品により多くの音声モダリティを導入し始めるにつれて常に尋ねられる質問です。役に立つAIアシスタントと、現実世界のビジネスワークフローを実際に改善できるAIシステムとを分けるものは何でしょうか。この行間を読むと、モデルがより高性能になり始めている中で、特に現実世界のやり取りにおけるリアルタイムの特有の課題について聞いているのだと思います。
おそらく私が最初に答えて、それからSierraチームにパスします。これらの高速なキャプチャと高速な意図の抽出において、素晴らしいユースケースがたくさん見られます。音声で物事を進める方がテキストよりも簡単で便利な場合です。どちらで構築する場合でもトレードオフがあります。テキストの場合、当然情報密度が高くなります。しかし音声の場合、運転中やモバイルで移動中、あるいは自分が何をしたいのかという一般的なアイデアしかない場合でも、モデルがそれをより首尾一貫したプロンプトとして解釈してくれます。間違いなくさまざまなユースケースが見られます。特に若い世代の中には、場合によってはテキストよりも音声を使う人が多いかもしれないと思います。さまざまなユースケースがありますが、Sierraチームにお渡しします。
カスタマーサービスの面では、私たちは割り込みやノイズ、アクセントなど、本番のトラフィックで見られる多くの要素を音声に焼き付けようとしました。しかし、それはベンチマークであり、本番のトラフィックではありませんし、それにはさらに多くの複雑さが伴います。ケンはこのことについてもっと詳しいと思います。
本番のエージェントについては、少なくともSierraでは、通話全体をどのようにオーケストレーションするかに多くの労力が注がれています。リアルタイムはターン内で応答し、何をすべきかを理解するのには優れていると思います。しかし、Sierra側で費やされている労力の多くは、エージェントが処理する必要のあるさまざまなワークフローをどのように定義するかということです。返金ポリシーがどのようなものかなどを把握し、リアルタイム2に対して適切なタイミングで適切なコンテキストをどのように提供するか、私たちは個々の顧客と直接協力しています。
根本的に、音声とテキストの最大の違いは、タイピングするよりも4倍速く話せるということだと思います。それだけでも多くのユースケースを解き放ちます。指摘の通り、例えば買いたい家や車について、意識の流れのままに話すことに心地よさを感じる人はたくさんいます。ですから、これは誰かがアプリケーションとやり取りし、実際にタイプしなければならない場合よりも多くの文脈を提供するための、より親密でカジュアルな方法だと考えることができます。
私たちは一種のグローバルなライブストリームを行っているので、間違いなく音声を第一とする国々があります。ブラジルやインドなどは、音声を通じてアプリとやり取りすることを好むかもしれない国々です。さまざまな考慮事項がありますね。
私たちのオフィスを歩き回っていると、ますます多くの人がコンピュータに話しかけているのを聞くのはクールです。この準備をしている間にも、制作チームはヘッドセットを通して実際にコーデックに話しかけるように、リアルタイムモデルを通してコーデックを使用していると共有してくれました。これは本当にクールで、社内でこれらのリアルタイムモデルを使ってどのように自分たちの製品を使い込んでいるかを見るのは素晴らしいことです。
さて、1時間以上の音声セッションの場合、どのようなアプローチを試すべきかという質問がありました。何かお考えはありますか。
そんなに早く質問を理解できたことに驚いています。はい、設定にはさまざまな方法があると思います。複数のセッションを同時に実行できるのであれば、異なるセッションを次々と連鎖させるようにステージングすることもできます。最大のことというか、これはセッションが1時間以上になるというだけでなく、誰かがかけ直してきたり、通話が途切れたり、例えばユーザーが誤って電話を切ってしまったりする場合でも、何が起きていたかの状態を実際に保存し、次のセッションを再構築できるようにすることがおそらく最も重要です。ですから、1時間を超える場合は、新しいセッションを開始し、前の1時間のすべてのコンテキストでそれを満たす必要があります。ウィンドウが12万8000トークンに拡張されたため、その最初のセッションでより多くのコンテキストを提供できるようになりました。おそらく私が推奨するのは、新しいセッションを開始し、最初の1時間の状態をすべて保存していることを確認する必要があるということです。
素晴らしいですね。メールに基づくアドバイザリーパターンのようなものを介して、いつGPT-55にエスカレーションしますかという質問です。これについてはSierraチームがおそらく話せると思います。私たちの古いリアルタイムモデルでは、根本的に推論能力がなかったため、基本的には推論を伴うあらゆるものに対してそれを推奨していました。リアルタイムモデルには、おそらく小さくて扱いやすいツールのセットを処理させ、それ以外のものは最先端のモデルにエスカレーションさせるという具合です。しかし、それは常に評価に基づくことになります。Sierraチームに、特定の種類の複雑さを処理するためのモデルの評価についてどのように考えているかを話していただきましょう。
アドバイザリーパターンというのは、この場合おそらくもっと徹底的な推論が必要になるかもしれない、といったような意味だと思います。研究側としてしばらくの間考えていたのは、この会話をちょっと保留にして、テキストモデルを使ってこれについて考え、後で戻ってこようかということでした。しかし、リアルタイム2と推論モデルの登場により、モデル自身がそれを行うのを見るのは本当にクールでした。モデルは「ちょっと待ってください」と言って考え、そして答えを持って戻ってきます。本番環境ではどうしていますか。
本番側では2つのアプローチをとっています。1つは、エージェント内にスーパーバイザーを配置し、進行中の会話を非同期でレビューして、軌道を戻すために追加の情報をコンテキストに注入する必要があるかどうかを決定するというものです。そして2つ目のアプローチは正直なところ、リアルタイム2とすべてをGPT-54経由で処理させることの両方をサポートしているということです。そのため、エージェントの複雑さに応じて、本当に高速に処理したい場合はリアルタイム2を使用し、より複雑なエージェントの場合は従来のテキストベースのモデルを使用し続けます。
それ、素晴らしいですね。会話アイテムの作成を使えば、モデルの応答をトリガーすることなく、いつでもコンテキストを注入することができます。その点については、バックグラウンドでツールの呼び出しを実行させたままでも、モデルは話し続けることができます。このような非同期のツール呼び出しが行われている状態でもまったく問題ありません。バックグラウンドの長時間実行されるプロセスが完了したときに、そのツールの呼び出し結果を注入すれば、リアルタイムモデルはそれを把握し、実際に応答を作成することができます。
はい、一般的に私たちはオーケストレーションとコンテキスト管理をたくさん行っています。
以前の小さなコンテキストウィンドウを扱っていたときは特に重要でしたが、ここでもこのウィンドウは最先端のモデルよりは小さいので、間違いなく非常に重要ですね。
それは、私たちがライブで回答する最後の質問への素晴らしい導入になります。リアルタイムエージェントは、複数のツールとやり取りする際に、どのようにしてそのコンテキストと決定の一貫性を維持するのでしょうか。
私たちがブログなどで公開しているリソースの1つに、Perplexityが本番環境のレベルに到達するためにコンテキスト管理をどのように使用しているかについての記事があります。ぜひ読んでみることをお勧めします。リアルタイム1.5の設定の時には、トランケーションの最適化がたくさんありました。現在ではリアルタイム2とより大きなコンテキストウィンドウにより、さらに多くのことが可能になっています。
はい、間違いありません。そして、これは推論モデルであることを強調しておきたいです。通常のメインラインモデルから推論モデルに馴染みがあるなら、このモデルには思考のプロセスがあります。このモデルはプリアンブルのアイデアを持っているという点で少し動作が異なりますが、最先端のモデルと同じようにその推論を提供してくれます。並行してツールを呼び出してもコンテキストを見失うことはありません。他の最先端のモデルと同じようにツールを呼び出しているだけです。他の何らかのコンテキストや決定の一貫性というよりは、既存のモデルで得られる体験と同水準に引き上げているのだと思います。唯一の注意点として、ターンのたびに状態を維持する必要はないということです。動的にコンテキストを設計することもできますが、デフォルトではすべての情報をターンごとに渡すため、状態とコンテキストは自動的に維持されているようなものです。
はい、その通りです。そして、このモデルについて強調したいのは、指示追従の部分がいかに優れているかということです。プロンプトの中に相反する指示があった場合、両方をやろうとします。ですから私たちが非常に役立つとわかったことの1つは、基本的にモデル自身に、相反するアドバイスやこのプロンプトを最適化する方法はないかと尋ねることです。するとモデルは、より最適化されたバージョンを提示することにかなり優れています。
素晴らしいですね。ソハム、ケン、ご参加いただき本当にありがとうございました。非常に素晴らしい質問がたくさん寄せられ、チャットで回答してきました。この後、いくつかのリソースをお送りします。テリーが言及したブログでは、実際のユースケース、ベストプラクティス、ドキュメント、プレイグラウンドを見ることができますし、いつものようにビルドアワーのリポジトリでは、皆さんが試し始められるコードスニペットを共有します。次のビルドアワーは5月28日になります。最近ローンチしたエージェントSDKについて取り上げます。いつものように、今後のすべてのビルドアワーは以下のリンクから確認できますし、録画されたセッションはYouTubeでご覧いただけます。本日はご参加いただきありがとうございました。この後、さらに学びたいトピックに関するフィードバックをお願いするアンケートをお送りします。私たちは常に、何が興味深いか、皆さんが構築する上で何が最も影響力があるかをもとにこれらのセッションを企画しています。次に取り上げてほしいトピックがあればぜひ教えてください。ご視聴ありがとうございました。


コメント