APIに3つのオーディオモデルを導入します

AIエージェント
この記事は約5分で読めます。

OpenAI APIに新しく導入されるリアルタイムオーディオモデルの機能を紹介する解説動画である。70言語間で遅延のないライブ翻訳を実現するGPT Realtime Translateと、複雑な推論やシステム操作を行いながら人間と自然に会話を継続できるGPT Realtime 2の2つのモデルについて、実践的なデモンストレーションを交えながらその強力な機能と可能性を提示している。

We’re introducing three audio models in the API
We’re introducing three audio models in the API that unlock a new class of voice apps for developers. With these models,...

新しいリアルタイムオーディオモデルの紹介

皆さんこんにちは、OpenAI APIに新しいリアルタイムオーディオモデルを導入します。このデモでは、そのうちの2つをご紹介します。ライブ翻訳用のGPT Realtime Translateと、指示に従ってアクションを実行できる音声エージェント用のGPT Realtime 2です。まずはとても魔法のように感じられる翻訳から始めましょう。私はフランス語を話しますが、世界中の聴衆に向けてプレゼンテーションをする必要があるとします。これからお聞きいただく英語は、文字起こしとともにこのノートパソコンから直接キャプチャされた、モデルによるライブ音声出力です。私がフランス語で話し始めると、私のマイクの音量を下げてモデルの音量を上げるので、実際の雰囲気をしっかりと感じていただけるはずです。音声の編集は一切していません。では、試してみましょう。

GPT Realtime Translateによるライブ翻訳のデモ

本当に驚くべきことは、私が話している間にモデルが私の声を聞いて翻訳できることです。動詞のようなキーワードを待って、すぐに翻訳を開始します。その結果、まるで2人の人間が対話しているかのような、はるかに自然な会話が生まれます。私がドイツ語で割り込んでも、モデルは私のドイツ語とあなたのフランス語の間を難なく切り替えてくれます。さらに、GPTリアルタイム、OpenAI、コンピューターユースのような専門用語を含めても、モデルはまったく問題なく処理できます。

GPT Realtime 2とインテリジェントな音声エージェント

素晴らしいと思いませんか。このモデルは、すべての文の形にしっかりと従いながら、70の異なる言語間でリアルタイムに翻訳することができます。メディアプラットフォーム、カスタマーサポートのツール、教育ツールのいずれを構築している場合でも、これが言語の壁を打ち破るのに役立つと私たちは信じています。そしてこのモデルは、私たちが音声インテリジェンスを向上させている方法のほんの一つに過ぎません。では次のデモとして、音声エージェントに知的な推論をもたらす新しいモデル、GPT Realtime 2についてお話ししましょう。私のスマートフォンを取り出して、私個人の音声アシスタントを見てみましょう。

こんにちは。

またお会いしましたね、どうしましたか。

もうすぐ顧客との会議があるんです。私のカレンダーを確認してくれますか。

12分後にSable Crust Roboticsとの会議が入っています。そして、同社のCTOであるアレックス・キム氏と会う予定です。

素晴らしい、ありがとう。あ、私がデモに戻ると言うまで少し静かにしていてくださいね。

プリアンブルの重要性とコンテキストの保持

ラモン、これらのモデルには推論や並行したツール呼び出しのような機能が備わっているので、プリアンブルのようなものを使うことがさらに重要になっていることを忘れないでください。これにより、モデルは自身を説明し、ユーザーに最新情報を伝えることができます。

素晴らしい指摘をありがとう、ジェイソン。とても重要なことですね。もちろん、アクションの実行には数秒かかることがあるため、モデルがそれを認識することは非常に重要です。GPT Realtime 2を使えば、推論やツール呼び出しの最中に直接コミュニケーションをとることができるので、ユーザーは状況を把握し続けることができます。ちなみに、今の音声エージェントがとても自然なのは、彼らが会話の中にとどまっているからです。ジェイソンと私が話している間も、モデルはずっと聞いていましたし、今も聞いていますが、私がデモに戻ると言うまで私たちの会話を遮ることはありません。

デモを続ける準備ができたら、私はここにいますよ。

すごくかっこいいですよね。では、先ほどジェイソンが言及したプリアンブルについて強調しておきましょう。別のタスクを頼んでみます。ねえ、今からCRMを更新して、今日の会議を概要と次のステップとして入力してくれませんか。

最新のコンテキストを取得してCRMを更新しますね。Sable Crustは今朝、倉庫の自動化を開始しました。拡張は進行中です。セキュリティレビューが障壁となっています。

わかりました、ありがとう。これで準備万端です。これをまとめる間、また静かにしていてくださいね。

システム連携と音声インターフェースの未来

ここでエキサイティングなのは、モデルをあらゆる種類のシステムに接続できるようになったことです。ダッシュボードや使用しているサービス、さらには接続されたデバイスなど、さまざまなものに接続できます。以上が、OpenAI APIに導入される新しいリアルタイムオーディオモデルの簡単なプレビューでした。バックグラウンドで考えながら会話を続けるエージェントを作成できるようになりました。70の言語間でライブ翻訳を行い、コンテキストを保持し、すでにお使いの製品内で行動することさえできます。音声は今や本当に主要なインターフェースになり得るものであり、皆様がこれらの新しいモデルを使って何を構築するのかを見るのが待ちきれません。ご視聴ありがとうございました。ねえ、デモに戻るよ。どうでしたか。

スムーズで明確でした。自然でデモにぴったりな感じがしましたね。

コメント

タイトルとURLをコピーしました