OpenAIが新たにリリースしたGPTリアルタイムAPIの大幅アップデートに関する解説動画である。新モデルGPTリアルタイムは音声特化型で、プロダクション対応の高性能を誇る。MCP(Model Context Protocol)サーバーへの接続機能と電話通話対応機能を備え、カスタマーサポート分野での活用が期待される。従来モデルと比較して指示遵守率が向上し、感情表現や多言語切り替えなどの高度な機能を搭載している。料金面でも20%の値下げが実現され、より実用的なソリューションとして位置づけられている。

OpenAIの新GPTリアルタイムAPIが登場
OpenAIがGPTリアルタイムAPIの大型アップデートをついにリリースしたで。新しいモデルのGPTリアルタイムっていうのは、めちゃくちゃすごい音声対音声モデルなんや。まずはデモを見てもらおか。
おい、宝くじに当たったけど、チケットをなくしてもうて、めっちゃ落ち込んでるっていう設定で演技してくれへんか。
あかん、勝った宝くじのチケットなくしてもうた。最悪やわ。
よし、よし。朗報や。チケット見つかったで。めっちゃ興奮してや。
見つけた!当たったんや!信じられへん!
そやな、この状況について詩を作ってくれるか?短めで韻を踏んでや。それと、英語とスペイン語と日本語を切り替えながら作ってくれる?
もちろんや。いくで。チケット見つけた、なんて嬉しいんや。
GPTリアルタイムモデルの詳細機能
GPTリアルタイムができることを見てもうたところで、このモデルについてもうちょい詳しく学んでいこうや。これはOpenAIの最も進歩したプロダクション対応モデルで、音声専用なんや。このモデルがプロダクション対応やっていうことを強調してるのには理由があるねん。というのも、このGPTリアルタイムモデルは、他のAPIエンドポイントではあんまりできひん2つのことができるからや。
一つ目は、リモートMCPに接続できることや。もしも組織内にMCPサーバーがあったり、使ったことのある他のMCPサーバーに接続したいんやったら、このモデルが接続の手助けをしてくれる。例えば、RDBMSもMCPになれるし、チケッティングシステムもMCPになれる。
そやから、こういうもん全部が文字通りこのモデルに接続できるっちゅうことや。二つ目は、SAP電話通話にも対応してることや。つまり、電話番号を持って、お客さんがその番号に電話をかけたら、このモデルがその電話に接続できるっちゅうことや。この二つは違うけど、どっちもカスタマーサポートで大きな可能性を秘めた重要なユースケースやと思うわ。
指示遵守能力の大幅向上
このモデルのカスタマーサポートに関してもう一つ言えることは、前のモデルと比べて指示遵守が厳格にできるようになったことや。GPT-4oやリアルタイムプレビューは、音声に特化したマルチチャレンジ指示遵守で26%やったけど、このモデルは30%なんや。
そやから例えば、カスタマーサポートエージェントに「20ドル未満の割引は絶対に提供したらあかん」っていう指示を出したとしよう。このモデルは前のモデルよりもずっとその指示を守ってくれるっちゅうことや。
ベンチマーク性能と機能
全体的に見て、これはベンチマーク面でも優秀なモデルや。音声のベンチマークであるビッグベンチで、このモデルは82.8%のスコアを記録してる。指示遵守では30.5%を記録してるんや。
エージェントにとってめっちゃ重要なユースケースである関数呼び出しでは66%を記録してる。エージェントがコンピューターサイエンスでいうプロセスを呼び出したい時、これを関数呼び出しっていうんやけど、前のモデルが58.9%やったのに対して、このモデルは66%なんや。
全ベンチマークを通して、このモデルは優秀やで。でも一番重要なのは、このモデルが感情的な文章を作る能力があることや。例えば「あかん、小さなロボットが暗い森に迷い込んでもうて、震えとる。座り込んで、回路がしくしく泣いて、一人ぼっちで忘れられた気分になってる。でも待てよ、あの茂みの向こうの不思議な光は何やろ?」
モデルに怒ってもらいたいって言うたら怒ってくれるし、ただ文脈を与えるだけで、モデルは文脈をちゃんと理解して、そういう感情を表現してくれるんや。
多言語対応と価格設定
それに、このモデルは文の途中で言語を切り替えることもできる。新しいリクエストを出す必要がないんや。一つの文を言うて、「英語で始めて、スペイン語に行って、それから日本語に来て」って言うたら、このモデルができるんや。
総合的に見て、これはOpenAIの素晴らしいリリースや。最後に価格の話やけど、このモデルは一般公開されてる。GPTリアルタイムっていうIDでリアルタイムAPIがもう利用できるようになってて、前のモデルから価格も下げてくれてる。
前は性能がちょっと劣るモデルでもっと高い値段を払わなあかんかった。今は性能の良いモデルで、価格を20%下げてくれてるんや。100万オーディオ入力トークンに対して32ドル払う必要があって、それもキャッシュ入力トークンやとさらに下がる。100万オーディオ出力トークンには64ドル払う必要がある。
例えば、発展途上国からカスタマーサポートエージェントを雇ってる会社がいっぱいあるやろうけど、そういう会社にとってはこれは素晴らしいソリューションやと思うで。これを基盤にして構築するスタートアップがいっぱい出てくるのが見えるわ。
この特定のモデルについてどう思うか、そしてこのモデルの上に何か構築したいユースケースがあるかどうか教えてくれや。また別の動画で会おうや。ハッピープロンプティング!


コメント