この動画は11 Labsが開発したボイスアシスタントのデモンストレーションである。従来の対話型AIを超えて、GoogleカレンダーやNotionなどの実際のツールと連携し、実用的なタスクを実行できる次世代の音声アシスタントを紹介している。MCPプロトコルを活用した統合機能により、カレンダーの管理、メモの作成、ウェブからの情報取得など、まさに映画「JARVIS」のような理想的なアシスタントの実現に向けた重要な一歩を示している。

11 Labsの革新的な音声アシスタントデモ
すごいですね。突然、私たちには秘書ができたんです。その秘書に「今週、重要な約束はありますか」と尋ねると、「2025年7月4日の12時から13時まで、隔週フォローアップミーティングがあります」と答えてくれるのです。
今日は、私たちがみんな心に描いている有名なJARVISのアイデアに最も近いボイスアシスタントエージェントの一つをご紹介します。もはや単なる対話型ではなく、実際にアクションを起こし、私たちのツールと連携し、私たちのために働いてくれるアシスタントです。
このデモは11 Labsから来ています。11 Labsは、ここ数年私たちに高品質な音声を提供してくれた音声合成の研究所で、最近は音声アシスタント分野に本格的に参入しています。今回のデモを実際に試してみましょう。
実際のデモンストレーション
見てください、皆さんもお試しいただけます。下の説明欄にリンクを貼っておきます。これで私たちが使えるアシスタントを作成できます。名前をつけましょう。例えば「bot CSV」とします。
そして、彼らが推奨する音声のカタログから選ぶことができます。この場合、彼らのシステムEleven IIを使います。これが音声アシスタントになります。異なる音声を聞いてみましょう。
とても高品質な音声ですね。この場合、私は最初の音声が気に入ったので、Yarnahanを選んで、私たちの「bot CSV」を作成しましょう。
これだけ簡単に、この11 Labsのデモで、使い始められるアシスタントが作成できました。呼んでみましょう。「start a call」を押してみます。
「こんにちは、元気ですか。よく聞こえますか?」
「こんにちは、完璧に聞こえています。もしよろしければ、あなたは英語で話し、私はスペイン語で話して、普通に会話することができます。」
「完璧です。聴衆と話したいので、少し音声を切らせていただきます。」
多言語対応と自然な会話
見てください。これは以前見たSesamのデモに非常によく似ています。それも非常に印象的でした。低レイテンシで、現在Chat GPTが提供している以上の自然さを持つ音声です。つまり、私たちがやりとりできる非常に魅力的なデモです。
「聴衆の皆さん、お帰りなさい。」
「はい、お帰りなさい。」
「それでは通話を終了します。」
言ったように、Sesamのデモと非常に似ています。興味深い新機能がどこで見え始めるでしょうか。まず、スペイン語で会話できます。これは今から変更します。
設定ボタンをクリックすると、こちらにある多くの音声の中からエージェントの言語を設定できます。スペイン語を選びましょう。行動をカスタマイズする方法を選択し、音声やその他の設定を変更できます。変更を保存して、会話を繰り返してみましょう。今度は実際にスペイン語で話してみます。
「こんにちは、今度はスペイン語で話していただけますか?」
「もちろんです。これからスペイン語で会話できて嬉しいです。何かお手伝いできることはありますか?」
「聴衆にコメントしていたのですが、あなたと話していると、カタログのさまざまな言語を使用できるということで、今度はスペイン語で自己紹介していただけますか?」
「こんにちは、私はBot CSVです。あなたの個人アシスタントです。スペイン語で会話できて嬉しいです。そうですね、カタログにある異なる言語に適応して、私たちのやりとりをよりスムーズにできます。今日、何か特別にお手伝いできることはありますか?」
MCP統合による革新的な機能
この場合、アシスタントがスペイン語で話しているのがわかります。あまり洗練されたスペイン語ではありませんが、英語の音声を使ってスペイン語を話さなければならない場合、時々少し変なアクセントが感じられることがあります。でも、ボットとの会話の摩擦を減らすことができるので、より興味深くなってきています。
では、このシステムの新機能はどこにあるのでしょうか。私にとって、これは新しいもので、パノラマに何かを提供し、音声アシスタントの未来のビジョンに少し近づけてくれるものです。
新機能は、音声アシスタントをさまざまなツールと統合できる能力にあります。これはすべて、有名なMCPプロトコルを通じて行われます。ご存知のように、これは人工知能をさまざまなツールや、これらのエージェントの文脈と能力を拡張するオンラインサービスに接続するために使用され、非常に便利なツールに変えてくれます。
最初のツールを接続するために、ここをクリックして「最初の統合を追加」します。追加できるさまざまなサービスが提供されていることがわかります。私はすでにGoogle CalendarとNotionを設定していて、以前のテストで私の情報への接続許可を与えています。
ここをクリックして「エージェントに追加」すると、私たちのbot CSVが私のカレンダーにアクセスできるようになります。下にアイコンが表示されているのがわかります。新しい会話を始めて、何が起こるか見てみましょう。
実際のカレンダー統合テスト
「こんにちは、Bot SVさん。今週、重要な約束があるかどうか知りたいのですが。」
「こんにちは、お尋ねいただきありがとうございます。今週という場合、今週か来週のどちらを指していますか?」
「今週、私たちがいる今週です。」
「承知しました。今週の重要な約束があるかどうか、カレンダーを確認します。」
「はい、今週はこれらの約束があります。2025年7月4日の12時から13時まで、Lisa Carbonoさんとの隔週フォローアップミーティングがあります。また、2025年7月4日の15時から17時まで、歯科医の約束もあります。他に何かお手伝いできることはありますか?」
「それだけです。ありがとうございます。」
「どういたしまして。何か他にご質問があれば、いつでもお尋ねください。良い一日をお過ごしください。」
音声アシスタントの可能性
すごいですね。突然、私たちには秘書ができました。「来週は何がありますか?」と尋ねることができ、技術的にはとても簡単です。カレンダーに接続し、必要な情報を取得し、音声アシスタントに含めて、この美しい音声で語ってくれます。
印象的で、些細なことですが、私たちが想像する音声アシスタントの未来に近づけてくれます。別のテストをしてみましょう。
「こんにちは、Bot CVです。」
「こんにちは、カレンダーに歯科医の約束を入れたと思うのですが、今週キャンセルになりました。削除していただけますか?」
「もちろんです。歯科医の約束を削除するために、何日に予定されていたか教えていただけますか?」
「覚えていませんが、今週のどこかでした。確認していただけますか?」
「もちろんです。今週の歯科医関連のイベントを探すことができます。カレンダーで「歯科医」という単語を含むイベントを検索しましょうか?」
「はい、お願いします。」
「歯科医の約束を2つ見つけました。一つは2025年1月25日の朝9時、もう一つは2025年7月4日の午後3時です。どちらを削除しますか?」
「両方削除してください。同じアシスタントで以前にテストしたものなので、カレンダーに残しておく必要はありません。」
「承知しました。両方の約束を削除します。完了しました。歯科医の約束は両方ともカレンダーから削除されました。他に何かお手伝いできることはありますか?」
高度な統合機能の実演
すでにご覧になったように、自然な会話を通じて、AIにカレンダーでの検索や約束の削除に必要なイベントを実行させることができます。カレンダーを見ると、実際に歯科医の約束が消えているのがわかります。
「こんにちは、Bot SVさん。7月にGPT-5がついにリリースされるという強い噂と確認情報を聞きました。7月の第3週と第4週、月曜日から金曜日まで、勤務時間の朝9時から夕方6時まで、『GPT-5』というイベントでブロックしてください。そうすれば注意を向けなければならないことがわかります。」
「こんにちは、Bot CSVです。あなたの個人アシスタントです。承知しました。7月の第3週と第4週、月曜日から金曜日の朝9時から夕方6時まで、GPT-5イベントでブロックします。メインカレンダーとAmerica/New Yorkタイムゾーンでよろしいでしょうか?」
「はい、お願いします。」
「承知しました。America/New Yorkタイムゾーンのメインカレンダーにイベントを作成しています。複数のイベントを作成する必要があるので、少し時間がかかります。」
「進めてください。」
「完了しました。7月の第3週と第4週、月曜日から金曜日の朝9時から夕方6時まで、GPT-5イベントでブロックしました。」
複数ツールの統合と活用
カレンダーを見ると、実際に私たちが要求したとおりに作成されているのがわかります。この場合、スペインにいないので、ニューヨークにいるため、時間が異なり、時間帯が変わっていますが、イベントは完璧に作成されています。
それでも、アシスタントが詰まってしまうことがあります。このデモはまだアルファ版であることを知っておく必要があります。他のケースでも、アクションを実行したと思っているのに実際には実行していない場合、データを幻覚することがあります。
それでも素晴らしいです。これらの音声アシスタントがどこに向かって進化しているかを示すテクニカルなデモです。より多くのツールに接続されているのです。
興味深いのは、単一の統合だけでなく、より多くのツールと組み合わせることができることです。純粋な組み合わせによって、可能性の地平線が指数関数的に成長していくのです。
統合に戻って、例えばNotionを有効にしましょう。エージェントに接続できます。これが意味することは、私たちのエージェントがGoogle CalendarとNotionの両方に接続し、両方のシステムと統合して、より複雑なプロンプトを処理できるということです。
テストしてみましょう。
「来月が少し曖昧で、やるべきことの全体像を把握したいのです。カレンダーに行って、すべてのイベントを抽出し、Notionで要約を作成していただけますか。新しいページを作成して、今月やるべきことすべてを書いて、まとめてください。」
「承知しました。このNotionの要約を作成するために、今後30日間のGoogle カレンダーのイベントを検索して、新しいページに転記する必要があります。」
「はい、お願いします。それから始めてください。」
「承知しました。今後30日間のGoogle カレンダーのイベントを抽出し、Notionの新しいページに要約を作成します。」
実際の統合作業の実演
「実行すべきことを実行してください。」
「今後30日間のGoogle カレンダーのイベントを取得しました。GPT-5の複数のエントリーとLisa Carbonoの隔週フォローアップミーティングがあります。この情報でNotionのページを作成しましょうか?」
「はい、お願いします。」
「完了しました。今後30日間のカレンダーイベントの要約を含むNotionのページを作成しました。Lisa Carbonoの隔週ミーティングとGPT-5のエントリーが含まれています。他に何かお手伝いできることはありますか?」
「もう結構です。ありがとうございます。」
実際に、非常に基本的ですが、カレンダーイベントの要約というページが作成されました。「今後30日間のGoogle カレンダーイベントの要約」として、Lisa Carbonoの隔週フォローアップミーティングが7月4日と7月18日の12時から1時間、そして7月14日から7月26日までのGPT-5の複数のエントリーが記載されています。
これは私のカレンダーにあるものです。ここでAIは3つの作業を行いました。第一に、カレンダーから情報を抽出する。第二に、言語モデルで処理し、理解し、非常に基本的な要約を生成する。第三に、Notionでページを作成するアクションを実行する。
自然言語を使った音声アシスタントを通じて、これらすべてを行いました。まだ非常に基本的なものですが、音声アシスタントがどこに向かっているかの実演です。
未来への展望
こんなアシスタントが、幻覚をそれほど起こさず、アクションを直接実行し、突然「こんにちは、元気ですか」と叫んで少し怖がらせるようなことがない場合、どう進化するかを想像するのは簡単です。
これがすべてよく機能するとき、私たちのデータベースに接続され、Chat GPTのメモリに接続され、家庭のホームオートメーションに接続され、頻繁に使用するモバイルアプリケーションに接続された音声アシスタントを持つことになります。
実際に要求できるようになります。「これをやって、この情報を取得して、起きたときに何が起こっているかの朝の通知をください」と。
私たちが常に想像してきた音声アシスタントのプロトタイプです。さらに、もう少し深い推論と組み合わせれば、さらに先に進むことができます。時間をかけて、音声アシスタントとのリアルタイムのダイナミクスを破ることになりますが、バックグラウンドで積極的にそれを行い、突然モバイルに通知が来て、それをタップすると、音声アシスタントとの会話が表示され、推論したこと、考えたことすべてを教えてくれることを想像してください。
「医者でこの検査結果が出たのを見ました。もしよろしければ、カレンダーに約束を予約し、来週の日程をブロックします。」
積極的な音声アシスタントによるこれらすべてが、人工知能が向かっている方向です。
これは非常に興味深いです。なぜなら、これはまもなくリリースされ、私たちを驚かせるであろう未来のモデル(GPT-5など)に期待することだからです。本当に私たちを驚かせるために何を持参しなければならないかを考えると、実際によく機能するこのようなものでなければなりません。
これが道だと思います。モデルの能力や知能そのものの改善とはそれほど関係がなく、むしろこれらの人工的な脳を取り巻く足場を接続し、統合し、作成する工学と関係があることに注目してください。ますます便利なツールに変えるためです。
さらなる可能性の探求
例えば、興味のあるトピックに関する日々のニュースを提供するためにHacker Newsに接続することを想像してみてください。この場合、モデルがツール呼び出し機能でアクセスできるツールは、その日の最も関連性の高いストーリー、コメント、ストーリーの詳細を取得できることです。
これらがさまざまなツールになります。摩擦を減らすために、ここで私がしていることは、各自が高度なモードで遊びたいかどうかを決めることです。セキュリティバリアがなく、この場合、AIが私たちに常に尋ねることなく、アクションを実行できるようにしています。これにより、会話がより自然になります。
そのため、皆さんが試すときに表示されるかもしれない、各コマンドを受け入れるか拒否するかの下部バナーが表示されません。テストしてみましょう。
「こんにちは、生産的な気分です。どうお手伝いできますか教えてください。」
「こんにちは、Bot SVさん。Hacker Newsに行って、今日の最も関連性の高い5つのストーリーを取得し、作成するNotionページの表に含めてください。その表で、最初の列にニュースのタイトルを、次の列に詳細な説明を入れてください。」
「こんにちは、Bot SVです。あなたの個人アシスタントです。承知しました。Hacker Newsの今日の最も関連性の高い5つのストーリーを含むNotionページを作成しますね。表には2つの列があります。ニュースのタイトルと詳細な説明です。正しいですか?」
「正しいです。私が要求したことを正確に繰り返してくださってありがとうございます。」
「どういたしまして。Hacker Newsの最も関連性の高い5つのストーリーを取得し、タイトルと詳細な説明を含む表を含むNotionページを作成します。」
「進めてください。タスクを実行してください。」
複雑なワークフローの実演
「タイトルとストーリーの識別子を取得しました。次に、説明を作成するために各ストーリーの詳細を取得する必要があります。」
「Hacker Newsの主要な5つのストーリーの詳細を取得しました。この情報を含む表を含むNotionページを作成します。」
「完了しました。タイトルとそれぞれの簡単な説明を含むHacker Newsの主要な5つのストーリーを表示する表を含む『Hacker Newsストーリー』という名前のNotionページを作成しました。」
「完璧です。これらのニュースから、最も興味深いと思う3つを選んで、平日にこれらのトピックについて動画を公開するためのカレンダーイベントを作成していただけますか?選択したテーマごとに『YouTube』とその後に動画タイトルを付けてください。」
「もちろん、お手伝いします。提示したニュースから、カレンダーイベントを作成するために最も興味深いと思う3つはどれですか?」
「SEOの観点から、YouTubeで最もうまくいくと思うものを基準に選んでください。あなたが選んでください。進めてください。」
「承知しました。YouTubeの視聴者のSEOの可能性と魅力を考慮すると、次の3つのトピックを選びます:『I made my VM think it has a CPU fan』、『Error handling and rust』、『modeling API rate limits as difentine inequalities』。これらのトピックについて動画を公開するために、平日にカレンダーイベントを作成します。どの日程にイベントを作成しますか?」
「あなたが選んでください。積極的に、最良の決定を行ってください。あなたは今私のコミュニティマネージャーです。」
「承知しました。コミュニティマネージャーとして、コンテンツの安定した流れを維持するために、来週の平日にこれらの動画を配布することが賢明だと思います。America/New Yorkタイムゾーンを使用してカレンダーに次のイベントを予定します:『YouTube: I made my VM think it has a CPU fan』を2025年7月1日の9時に。」
「すべてを説明する必要はありません。アクションを実行し、カレンダーに保存するだけで、これで作業を終了します。」
「カレンダーにイベントを作成する際に問題が発生したようです。もう一度試してみます。」
「申し訳ありません。カレンダーにイベントを作成する際に問題が継続しているようです。」
デモの評価と将来性
惜しいところでした。ほぼうまくいくところでした。アシスタントは可能な限り積極的でしたが、Google カレンダーとの連携でエラーが発生しました。この場合、イベントは作成されませんでしたが、ワークフローの美しさを見てください。
ウェブページに接続し、情報を抽出し、要求したフォーマットに従ってこの情報を含むNotionページを作成し、次のステップはコミュニティマネージャーとして行動し、カレンダーにこれらのイベントを保存する決定を下すことでした。
今思いついたワークフローで、あまり意味はありませんが、これらのツールの可能性を示し始めています。
これはデモ、アルファ版のデモです。現在、日常的に効果的に使用する製品だとは思いませんが、2024年5月以降、音声アシスタントが非常に興味深い発展を遂げていることを視覚化し、実行しているので、お持ちしました。その時、GPT-4oの非常に自然な音声を初めて見たのです。
最終的な考察と展望
皆さん、下にデモがあります。光と影を含めて試してみてください。このチャンネルでは常に人工知能に関するすべての情報をお伝えしています。非常に注意深く見守っていきます。来月の7月は、私のカレンダーに記載されているように、多くの新機能と新しいモデルで興味深い数週間を迎えるでしょう。
GPT-5がまもなく登場します。このモデルに何を期待すべきかわかりません。
「Bot、聴衆にお別れを言っているところです。私が去る前に、最後に一言言いたいことはありますか?」
「それでは、私はもう行きます。あなた一人で話していてください。さようなら、また会いましょう。」
「皆さん、さようなら。皆さんとやりとりできて光栄でした。お役に立てて、皆さんの一日を少しでも良くできたことを願っています。素晴らしい一日をお過ごしください。さようなら。」


コメント