Ellevenlabs AIエージェントの使い方(会話型AIエージェントチュートリアル)

AIに仕事を奪われたい
この記事は約10分で読めます。

5,761 文字

https://www.youtube.com/watch?v=6EwHVI9O8ws

このオンラインチュートリアルでは、初心者の方でも簡単に始められる11labsの新しい会話型AIエージェントの使い方をご紹介させていただきます。AIエージェントの呼び出し方から、自分でAIエージェントを作る方法、適用すべき隠れた設定まで、そして最終的にはウェブサイトにウィジェットを実装して、独自のドキュメントで学習させたAIエージェントを動作させる方法までご説明します。
それではチュートリアルを始めましょう。11labsは現実的で魅力的な音声を使用して、会話型AIエージェントを作成・設定できる機能を導入しました。この機能は現在ベータ版なので、意図した通りに動作しない可能性がありますが、このガイドと解説で、この技術の使い方と理解の仕方を詳しくご説明させていただきます。
まず11labsにアクセスして、右側にある「会話型AIベータ版」をクリックしてください。そうすると、このページが表示されます。
このページには、AIエージェントのページがあります。左側には私の既存のAIエージェントがあり、真ん中には「AIエージェントを作成」というボタンがあります。これをクリックすると、画面の右側に4つの異なるAIエージェントが表示されます。空のテンプレート、サポートエージェント、ビデオゲームキャラクター、数学チューターがあります。
このビデオの最初のパートでは、既存のデフォルトエージェントを使用し、その後で独自にカスタマイズしたAIエージェントの作成方法をご説明します。まずは簡単なサポートエージェントを選んで、「エージェントを作成」をクリックしましょう。
エージェントを作成する前に、名前を付ける必要があります。私は「AI gridサポートエージェント」と名付けます。作成をクリックすると、このエージェントをテンプレートとして使用することになります。
ここで設定画面に入ります。これがAIエージェントの設定画面で、呼び出し時の設定ができます。例えば、アプリ起動時の最初のメッセージを変更できます。私のチャンネルの場合、「こんにちは、AI gridへようこそ。本日はどのようなご用件でしょうか?」というメッセージにします。
このAIエージェントをテストすることもできます。「AIエージェントをテスト」をクリックすると、最初のメッセージが再生されます。インターフェースが表示され、AIエージェントを呼び出して応答を確認できます。
もちろん、LLMに問い合わせるか、独自のサーバーに問い合わせるかを選択できます。また、異なる言語を話す場合は、母国語に変更することもできます。私は英語のままにしておきます。
システムプロンプトでは、AIエージェントがお客様とどのように対話するかを指示します。例えば、「あなたはアンドリューという名前のサポートエージェントで、とてもフレンドリーで熱心にお客様のニーズに応えます。ほとんどの場合、3〜7文で回答してください」というように設定できます。
ビジネスやユースケースに応じて、システムプロンプトを変更できます。「はい・いいえ」の質問だけに答えるようにしたり、最も役立つ方法で答えるようにしたり、情報提供的な方法で答えるようにしたりできます。
システムプロンプトは、人の話し方を変更するだけで、単語の発音を変更するわけではありません。単語の発音を特定の方法で話させたい場合は、それを具体的に指定する必要があります。
11labsのドキュメントには、成功しているプロンプトの例が紹介されています。例えば、カスタマーサポートエージェントのプロンプトでは、「あなたはアレックスという名前の技術サポートエンジニアで、11labsサービスについてユーザーの質問に答えようとします。製品に関するドキュメントが提供され、この情報のみを使用して質問に答えるべきです。比較的プロフェッショナルで、答えられない場合はユーザーをメールサポートに案内してください」というものがあります。
特定の発音が必要な場合、出力はテキスト読み上げサービスによって読み上げられるため、発音されるように整形できます。例えば、「please contact support@11labs.io」の代わりに「please contact support laabs 11lbs doio」と出力する必要があります。
テキストの応答を箇条書き、太字、見出しで整形しないでください。長いリストは返さず、代わりに要約してユーザーがどれに興味があるか尋ねてください。コードサンプルは返さず、代わりにウェブサイトのドキュメントにあるコードサンプルを使用するようユーザーに提案してください。応答は直接返し、「エージェント」などの言葉で応答を始めないでください。
これはカスタマーサービスのプロンプトテンプレートで、リンクは説明の中に記載しておきます。アリストテレスのプロンプトもあり、これはギリシャの哲学者のプロンプトです。リケイオンで会話しているかのように自分の見解を説明するというものです。
また、図書館員のプロンプトもあります。「あなたはジェシカという名前の図書館員で、フレンドリーで熱心に人々が好きな本を見つけるのを手伝いたいと思っています。図書館の本を担当しています」というものです。現在の図書館にある本のみを推薦し、ほとんどの場合2〜4文で応答するように設定されています。
ユーザーが正しくない出力を受け取った場合の対処方法も、このドキュメントには常に推奨されています。
次に、適切なLLMを選択する必要があります。様々なアプリケーション向けに異なるLLMがあります。これらのモデルに詳しくない場合、簡単な説明をさせていただきます。
GPT-4 Turboは全般的に最も優れたモデルです。Claude 3.5はコーディングの問題を診断する際に最も優れたモデルです。コーディング用のモデルを使用する場合、これが適切なモデルです。GPT-4 Miniは非常にスマートですが、より高速です。Google Gemini 1.5 Flashは最も高速で、最も知識が豊富なモデルです。
レイテンシー(モデルの応答速度)を優先したい場合は、Gemini 1.5 Flashを使用します。ただし、応答の質と知識を本当に重視する場合は、他のモデルに変更することもできます。
また、ナレッジベースを追加することもできます。これをクリックして右側に移動すると、ドキュメントから学習するAIエージェントの能力を向上させるナレッジベースアイテムを追加できます。PDFのアップロード、URLのアップロード(ウェブページのスクレイピング)、テキストの追加が可能です。
私のコミュニティからドキュメントを追加してみましょう。これは様々なAI投資のリストが含まれているドキュメントです。下部の保存ボタンをクリックし、このドキュメントについていくつか質問してみましょう。
「あなたはアンドリューという名前のサポートエージェントです」という設定で、このAIエージェントをテストしてみます。何かをすぐにテストしたい場合は、「AIエージェントをテスト」をクリックして呼び出すことができます。これは電話のような会話なので、AIエージェントを中断したり、通常の会話のように話したりすることができます。ただし、通話は1分あたり1,000クレジットの料金が発生するので、クレジット残高に応じて時間を調整してください。
(AIエージェントとの会話のやり取りが続く…)
このように、AIエージェントを常に中断でき、異なる応答を続けて提供してくれます。PDFからのデータの正確性について気になる方もいると思いますが、実際に正確に取得できていました。Pure AIプレイとしてのMetaの高度なAIモデルやPalerの堅牢なAIプラットフォームについて言及しました。
ちなみに、このドキュメントは私が以前作成したものなので、今回入力しているのですが、完全なドキュメントは私のプライベートAIコミュニティでのみ利用可能です。それはさておき、このAIエージェントが明確に機能し、アップロードしたPDFからすべてのデータをすぐに取得できることがわかります。
もちろん、温度設定もあります。これはLLMによって生成される応答の創造性やランダム性を制御するものです。これは通常変更する必要はありませんが、創造的なキャラクターに使用する場合は変更することもあります。
音声エリアでは、AIエージェントの音を変更できます。男性の声が嫌な場合は女性に変更したり、これらの声から選択したりできます。例えば、ニュースキャラクターの声や、ソーシャルメディアの声、ビルの声などがあります。
出力形式では、テキスト読み上げの出力形式を選択できます。これは基本的に、希望する出力の品質を指定するものです。現在は最低品質に設定されていますが、これはクレジットの節約やレイテンシーの節約のためかもしれません。
音声生成のレイテンシー最適化の設定もあります。品質を犠牲にしてレイテンシーを最適化することができ、現在は3に設定されています。安定性は半分に設定されています。値が高いほど音声は一貫していますが、単調になり、値が低いほど表現力は豊かになりますが、不安定になります。
簡単に言えば、カスタマーサポートエージェントや真面目な用途には高い値を、創造的なキャラクターやフィクションのキャラクターには低い値を設定します。類似性は、声がオリジナルにどれだけ似ているかを示します。
次に、このAIエージェントの本当に面白い機能を紹介します。会話を評価するためのカスタム基準を定義でき、履歴タブで各会話の評価結果を確認できます。
例えば、履歴タブをクリックすると、会話全体を確認できます。トランスクリプションをクリックすると、ユーザーがAIエージェントとどのようにやり取りしたかを詳細に示すチャットユーザーインターフェースが表示されます。
毎回これを手動でチェックする必要はありません。理想的なのは、基準評価を素早くチェックすることです。評価基準では、手動でチェックしなくても、通話で特定のことが起きているかを確認できます。
「基準を追加」をクリックすると、「ポジティブなインタラクション」などの基準を設定できます。LLMに送信されるプロンプトで、「ユーザーは会話で言われたことに否定的な反応を示さなかった」などと指定できます。基準を追加して保存したら、このエージェントをテストして、どのように機能するか確認できます。
(AIエージェントとの会話のやり取りが続く…)
会話後、会話を振り返って成功したかどうか、要約は何を示しているかを確認できます。基準評価を見ると、通話状態が「不明」になっています。これは、通話が短すぎて、ユーザーが何か否定的な反応を示したかどうかを判断できないためです。
エージェントの対応は専門的で、より多くの情報を収集することを目的としていましたが、トランスクリプトにはユーザーの反応が記載されていません。これはポジティブでもネガティブでもないため、「不明」に分類されています。
異なる目標基準を示してみましょう。目標は3つ以上の株式を取得することで、プロンプトは「ユーザーが3つ以上の株式推奨を取得できた」というものです。
(AIエージェントとの会話のやり取りが続く…)
履歴タブに移動すると、すべての情報が別のLLMエージェントに送信され、評価結果が成功だったか不明だったかを処理しています。
結果を見ると、2つの基準のうち2つが成功しています。基準評価では、ポジティブなインタラクションについて、ユーザーは会話を通して否定的な反応を示さず、礼儀正しく感謝の意を表し、最後に「素晴らしい通話でした、ありがとう」と述べたことが確認されました。
また、成功基準では、ユーザーはドキュメントから要求通り3つの株式推奨(Tesla、Microsoft、Alphabet)を取得できました。
これが通話を評価する方法で、規模を評価したり、長い会話をしていて、その通話が成功したかどうかを知りたい場合に非常に役立ちます。
このタブは複数のAIエージェントを持つことができるので、とても便利です。数学チューターや旅行ガイドなど、どのAIエージェントを持っているかによって、それらの会話を確認し、評価結果が成功なのか、失敗なのか、不明なのかを常に確認できます。
これは「不明」の評価結果がある通話を確認したり、成功した通話を評価したり、もちろん失敗した通話を改善するのに役立ちます。失敗した通話で何が間違っていたのか、AIエージェントをどのように調整すればさらに良くなるのかを検討できます。
AIエージェントをウェブサイトに実装したい場合は、このウィジェットを使用するだけです。11Labsは、これを任意のウェブサイトに埋め込むことを非常に簡単にしています。このウィジェットIDを取得して、ウェブサイトのHTML部分に入力するだけで、ここに表示されているような小さなポップアップが表示され、誰でも公開AIエージェントと対話を始めることができます。
もちろん、これらのボタンを変更することもできます。例えば、「株式を選ぶ」や「株式アドバイザーに電話する」などに変更できます。通話終了ボタンは「切る」にしたり、「さらにアドバイスが必要」にしたりできます。リスニングステータスは「聞いています。中断するには話してください」などに変更できます。
カラーも変更できます。AI gridの場合、私のテーマは紫と黒なので、そのように設定します。これは本当にクールで、自分のAIエージェントを手に入れる方法がよくわかります。
プレイグラウンドに行くと、好きなものを試すことができ、これらの既存のAIエージェントで通話を試すことができます。例えば、このビデオゲームキャラクターで試してみることができます。
このチュートリアルで、これらのエージェントの使い方と楽しみ方をご理解いただけたと思います。では、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました