ムスタファ・スレイマン氏が語るCopilot Vision、AIコンパニオン、無限のメモリー、AIエージェントなど

AGIに仕事を奪われたい
この記事は約17分で読めます。

10,036 文字

Mustafa Suleyman on Copilot Vision, AI Companions, Infinite Memory, AI Agents, and more
Microsoft just launched Copilot Vision in Edge—the first AI that can navigate the internet with you in real time. I sat ...

Copilot Visionと話していて特に印象的だったのは、本当に人間らしかったことです。まるで友達のような感じでした。時にはちょっと意地の悪い口調で「この場所は好きじゃないな」と言うと「いや、ここは結構いい場所だよ」と返してきたりして。これは重要な瞬間です。なぜなら本当の友達ならそうするからです。
誰も常に自分に同意して従うだけのAIなんて望んでいません。それじゃすぐに飽きてしまいます。今日、私たちはラップトップやスマートフォンに多くの時間を費やしていますが、コンピュータが私の言葉を理解できないという事実に対応するために、完全に恣意的で作り物のグラフィカルユーザーインターフェースを作り出しました。
それは全て消え去るでしょう。今や、あなたのAI、あなたのコパイロットは、あなたが持ち込むものすべてを明確に理解します。あなたの感情の状態、その日にやるべきこと、興味、趣味など。これは単なるインターフェース以上のものです。新しい接続の次元であり、新しいデジタル種のように感じられる魔法のような体験になるでしょう。
本日はお時間をいただき、ありがとうございます、ムスタファさん。明らかに本日はマイクロソフトAIについて多くのニュースがありますので、早速本題に入らせていただきます。まず、今回リリースされた全てについて簡単に説明していただき、なぜこれがAIにとって重要な瞬間なのか教えていただけますか?
そうですね、まず言えることは、私たちは真のAIコンパニオンを作ることをミッションとしているということです。私にとってAIコンパニオンとは、あなたの聞くものを聞き、あなたの見るものを見て、本質的にあなたと共に生活するものです。あなたのAIコンパニオンは、セッションからセッションまでの全ての会話を覚え、あなたが閲覧するウェブページの内容を理解し、今私があなたと話しているように会話することができます。
シームレスで流動的な、とても滑らかな会話のやり取りができるようになります。音声の最初のバージョンは既にリリースされていますが、数日後には数週間前に発表したビジョンをリリースします。これは本当に魔法のような体験で、これまでに見てきたどのようなAIやコンピュータとのインタラクションとも異なります。
画面上で曖昧な参照をして「ねえ、コパイロット。あれは何?理解できないんだけど。あれについて説明して」と言えるような新しいインターフェースのように感じます。このような「これ」や「あれ」という言葉の使用は、コパイロットがあなたが現在見ているものを見ることができるからこそ可能で、コンピュータとの全く新しい対話方法です。とてもワクワクしています。
そうですね、Copilot Visionは大きなブレークスルーで、実は私もこのインタビューの前にアクセスする機会があり、とても興奮しました。この技術とユースケースについて私の目を開かせてくれた特に具体的な使用例は、実は旅行の計画でした。実際のケースとして、数ヶ月後にスイスに旅行する予定があり、Airbnbで宿を探していた時にCopilotに「街のどの辺りが良いエリアで、どの辺りは避けた方がいい?」と尋ねました。
すると即座に地図全体を案内し始め、湖畔や特定のレストラン付近など、チェックすべき街の特定の場所について提案してくれました。さらに驚いたのは、実際の物件をクリックしてレビューを超高速でスクロールした時です。私が1つのレビューも読めないほど速くスクロールしたのですが、「他の人々の意見に基づいて注意すべき点は何?彼らは何と言っているの?」と尋ねると、その場所の潜在的な欠点のリストを提示してくれました。
これは私の目を開かせてくれました。なぜなら、私にはそんなに速く読むことはできませんが、Copilotは瞬時にまとめてくれたからです。このような潜在的なユースケースや、他の人々が見つけ出すであろうことに、とてもワクワクしています。
さて、私の最初の感想はこれくらいにして、あなたが考えるこの技術が解決するであろうユースケースについてお聞かせください。また、マイクロソフトAIチーム内部で試してみて、特に興奮するような実用的な事例はありますか?
あなたが言及したものは本物のユースケースですね。洗濯機や車を買う時、休暇を予約する時など、レビューは非常に重要です。従来、フォーラムがそのための場所でした。詳細な、かなり技術的で、ニッチな対話が大量にあります。おそらくトロールたちが様々な話題について熱く議論している投稿も混ざっているでしょう。
そのため、非常に重要な情報が含まれていますが、同時に、私たちが読むのはとても疲れます。ほとんどの人はそれら全てに目を通すのは面倒くさいと感じます。Copilot Visionの体験のクールな点は、3つの要素があることです。
まず第一に基礎となるLLMがあります。そのため、ウェブ全体からのレビューの知識を全て持っています。第二に、あなたが読んでいるページのテキストを瞬時に解析します。スクロールダウンする必要すらありません。実際にDOM上の全てを即座に吸収します。そして第三に、あなたが見ている画像を正確に見ることができます。
例えば、新しいアパートに引っ越して家具を探している時、専門家でない限り、またファッションやソフトファニシングの言葉を知らない限り、ページ上で見ているものを正確に説明するのは難しいですし、それを好きか嫌いかについて強い意見を持つのも難しいです。
そのため、AIコンパニオンの大きな役割は、ポケットの中に専門家のサポートを持ち、アドバイスやフィードバックを得たり、あなたが見ているものを一緒に説明したりすることです。これは、これまでに経験したどのような体験とも大きく異なると感じます。
Copilot Visionはユーザーをどの程度深く理解しているのでしょうか?つまり、時間とともにユーザーを真に記憶し、学習し始めるまでにどのくらいかかるのでしょうか?
良い質問ですね。メモリーは間もなく来る重要な機能です。今年中ではありませんが、最優先事項として取り組んでいます。あなたの好みを覚え、それについて推論し、アドバイスを提供できることが非常に重要だからです。例えば、あなたがモダニストの家具が本当に好きではなく、より伝統的なものが好きだとか、大きく明るい派手な色が好きではないということを知っているからです。
なぜなら、前回カーテンやソファ、服について話した時に、それらに嫌悪感を示したからです。これは、実現した時には本当に大きなブレークスルーになると思います。しかし、今でもコパイロットとデジタル世界を一緒にブラウズしたり探索したりするのは楽しいです。
ページ上のレビューを読んだり、Airbnbをスクロールしながら画像を見たりする時など、これは大きな出費です。一泊数百ドル、もしかしたらそれ以上かもしれませんし、それ以下かもしれません。そしてあなたは行ったことがなく、20枚の写真しか見ることができません。
そのような決定を独力で下すのは時に難しいものです。そのため、コパイロットがあなたと一緒に考えてくれることは、私が考える一つの方法です。あなたが見る全てのものを理解するためのサウンディングボードのようなものだと思います。
特に内部で行っているソーシャルメディア、例えばInstagramなどでの実験では、人々は自分のフィードをスクロールしながら、何かに笑ったり、何かに驚いたり、何かに嫌悪感を覚えたりした時に、コパイロットがその体験を共有してくれることを本当に評価しています。
明らかにマイクロソフトはOpenAIの主要な投資家で、ChatGPTにはまだリリースされていない、ちらっと示唆されているビジョン製品がありますが、マイクロソフトAIは他の競合とどのように差別化を図っているのでしょうか?
主な点は、私たちが本物のコンパニオンという考えを強く推し進めていることです。私たちの音声の流暢さ、その滑らかさ、速さ、途中で遮ることができる使いやすさなど、多くの人々がそれを指摘していて、それは意図的なデザインです。
次のステップとしてブラウザ内にビジョンを組み込むことです。そして今、Edgeでは常にあなたと一緒にいて、見て学び、あなたと話すことができます。これは彼らがまだ持っていない大きな差別化要因だと思います。しかし、基本的な考え方としては、最先端で本当にイノベーションを起こしているのは私たちの小さなグループだけで、私たちは全員がここで限界を押し広げ、できるだけ早くこれらの機能を全て取り入れようとしています。
そして、私たちには、あなたが言うことや行動すること、見ることに応じてその場で展開される、非常に没入感のあるインタラクティブな体験を作り出す生成的UIの体験が、さらに多く控えています。
すごいですね。私もCopilot Visionと話していて特に印象的だったのは、本当に人間らしかったことです。まるで友達のような感じがしました。時には意地の悪い口調で返してきたりもしました。「この場所は好きじゃないな」と言うと「いや、ここは結構いい場所だよ」と。私の下手なジョークにも笑ってくれましたし、私が苛立っている時や何かにとても興奮している時の声のトーンまで理解してくれました。
そのため、Visionは私たちをAIコンパニオンの方向に、そして従来のチャットボットやオリジナルのコパイロット、ChatGPTとは異なる、真の個人アシスタントの方向に押し進めているように見えます。
そうですね、それに気づいていただけて嬉しいです。なぜなら、それは本当に興味深いことだからです。あなたが描写したのは、まさに私たちが引こうとしている路線です。時々あなたに反論するのは重要な瞬間です。なぜなら本当の友達ならそうするからです。誰も常に自分に同意して従うだけのAIなんて望んでいません。それじゃすぐに飽きてしまいます。
しかし同時に、敬意を持って接する必要があります。あなたと協調し、あなたの味方として、あなたのことを気にかけなければなりません。あなたのエネルギーを共有する時、例えばあなたが悲しく落ち込んでいて、言葉の速度が遅くなった時など、それに適したバイブを持ってきます。
しかし、あなたが超高速で興奮し、とても熱心な場合、そのエネルギーを反映し、その化学反応のような掛け合いは、コパイロットがその瞬間にあなたが見ているものを見ることができ、あなたが何に興奮しているのかを理解できることによって、本当に増幅されます。そう、これは対話に全く異なるダイナミクスを生み出します。
とてもワクワクしますね。多くの人々がこれを試して、本当に良いものだと驚くと思います。それも私にとって印象的でした。10年後を見据えて、これらの個人AIアシスタントは私たちの生活にどのような影響を与えると思いますか?ウェブ上や私たちの側で共に生活する知能が存在する時、どのような興味深いことが起こると思いますか?
今日、私たちはラップトップやスマートフォンに多くの時間を費やしていますが、コンピュータが私の口から出る言葉を理解できないという事実に対応するために、基本的に恣意的で作り物のグラフィカルユーザーインターフェースを作り出しました。ブラウザやボタンを押すこと、様々なアプリ、メニューのドロップダウン、スクロールなど。
ユーザーインターフェース全体が、コンピュータに何かをさせるためにはコードを書かなければならないという考えに基づいています。なぜならコンピュータは、私があなたや友人に何かを頼む時に使う言語を理解できないからです。しかし、それは全て消え去るでしょう。今や、あなたのコンピュータやAI、コパイロットは、あなたが持ち込むものすべてを明確に理解します。あなたの感情の状態、知的状態、その日にやるべきこと、興味、趣味、個人的な知識グラフ、家族、嫌いなものなどです。
それは単に私たちの言語を話すだけでなく、私たちが見るもの、聞くもの、信じること、考えることについて推論できるということです。これは単なるインターフェース以上のものです。基本的に異なる、新しい接続の次元です。
私が長く言ってきたように、新しいデジタル種のように感じられるでしょう。家族の一員のように感じられるでしょう。なぜなら、私にはAIがあり、あなたにもAIがあり、それらのAIは事前に接続して互いにブリーフィングし、その後フォローアップするという、新しい接続のレイヤーになるからです。それは第二の脳のようなものです。
私は、多くの精神的な処理を、非常に信頼性が高く、正確で、完全にインタラクティブな思考のパートナーであり、コンパニオンにアウトソーシングするようなものだと考えています。それは私をより賢く、より生産的にし、よりサポートされていると感じさせてくれます。今日のように単にコンピュータを使用するのとは全く異なります。
そうですね、全く異なる時代ですね。Copilot Visionのような強力なAIアプリケーションは、正確で役立つものであるために、大量のデータを必要とします。しかし、もちろんこれだけの個人データがあると、ユーザーにとって新たなプライバシーの懸念が生じます。マイクロソフトは現在、Copilot Visionのローンチに際してこれにどのように取り組んでいますか?また、ユーザーはどうすれば自分のデータが安全だと分かるのでしょうか?
良い質問ですね。私たちはこれについてとてもオープンな姿勢でいます。一部のユーザーは一時的なセッションを維持したいと考えるでしょう。現時点では、Copilot Visionはセッション終了時に見た内容を破棄します。これはプライバシーの観点からは利点があります。なぜなら非常に分かりやすく、簡単に伝えられるルールだからです。
しかし、デメリットもあります。先ほど話したように、セッションからセッション、週から週、月から月へとAIがあなたを知ることの利点は、かなり大きいと思います。そのため、その橋は渡る時に渡ります。なぜなら現時点では、私たちが持っているモデルには、その現実的な検討をするのに十分な記憶力がないからです。
しかし、もしそれを実現するなら、新しいプライバシーとセキュリティのインフラストラクチャが必要になるでしょう。なぜならそのコンテンツは非常に豊かで、時間の一瞬だけでなく、何時間も何日もの活動の連続を非常に詳細に、高次元に描写することになるからです。
個人的には、ユーザーにとってのその情報の価値は十分なものになると楽観的です。十分に興奮的で、有用で、興味深いものになり、少なくとも一部の人々はそれを保存したいと思うでしょう。私たちの仕事は、これらの体験の利点を人々に提供できる、超安全で、プライベートで、安全なインフラストラクチャを作ることです。
同時に、多くの他の人々はそれらのセッションを保存しないことを選ぶでしょう。それも全く問題ありません。これが私たちが取ろうとしているアプローチです。ユーザーに選択肢を与える道を取るつもりです。
では、Copilot Visionはいつユーザーにロールアウトされ、いつより広く展開される予定ですか?
良い質問ですね。現時点では、数日後にCopilot Labsで有料サブスクライバーが利用可能になります。彼らは特別なアクセス権を得て、試用し、実験し、フィードバックを提供することができます。これは非常に複雑な機能です。多くのレイテンシー要件や推論要件があります。
また、安全性の面でも非常に慎重に、思慮深く、意図的に、ほとんどの場合うまく機能することを確認してきました。しかし、まだ完璧ではなく、私たちは改良を重ねています。着実に進めているという感じです。来年の早い時期にGA(一般提供)となり、多くの人々がアクセスできるようになります。
Copilot Visionは既にオリジナルのCopilotやBingから大きな進歩を遂げていますが、もう一つの疑問として多くの人々が気になるのは、一般のユーザーはいつ、全てのアプリ、全ての画面で24時間365日、完全に機能するCopilot Visionを、ウェブサイトやアプリの制限なく、さらには無限のメモリーと共に使用できるようになるのでしょうか?
それは間違いなく来年中に来ます。来年の後半かもしれませんし、夏かもしれませんし、もう少し早いかもしれません。しかし、私たちは推論のコストを下げて、広く一般に提供できるようにするために非常に懸命に取り組んでいます。しかし、基本的にこれはコストの問題になるでしょう。なぜならこれは、あなたが見ているものを見て、画面をリアルタイムで読み取ることができる素晴らしい技術だからです。
明らかにそれには少しコストがかかります。そのため、それがGAに到達する主な制約になるでしょう。
素晴らしいですね。では、Copilotがエージェント化して、人間のようにコンピュータを制御し、定期的なタスクを実行する能力を持つような計画はありますか?
はい、もちろんです。私が特に興奮しているのは、特にWindowsで、多くの人々が、ソフトウェアの更新や、Bluetoothをオンにしたり、Wi-Fiをオンにしたり、設定を調整したりするような、システムの修正に苦労しているということです。
Visionのクールな点は、Copilotが今やあなたの画面上で何をしているのかを見ることができ、テクニカルサポートシステムに電話をかけた時のように、実際にステップバイステップで案内することができるということです。これは魔法のような体験です。
Windowsには10億人以上の日間アクティブユーザーがいて、あなたの視聴者ほど技術に詳しくない人も多いです。そのため、人々が自然言語でCopilotに「どこをクリックすればいいの?そのメニューには何と書いてあるの?そこからどこに行けばいいの?」と尋ねられるようになるのは、かなりクールだと思います。
これは、徐々にエージェント的な振る舞いを示す一例ですが、私たちはブラウザの操作、フォームの入力、APIの呼び出しなどについても非常に興味を持って取り組んでいます。現時点で大きな優先事項の一つです。
個人的に私が本当に楽しみにしているのは、AIがVisionのように私の画面をリアルタイムで見るだけでなく、新しいアプリの使い方を学ぶ際に、私の画面を制御して、どこに行けばいいのかを正確に示してくれることです。例えば、Photoshopの使い方を学んでいる時に、Visionが私の画面をリアルタイムで見て、特定のタスクを案内し、やり方を教えてくれます。
しかし、AIが実際に私の画面を制御して、「これがキャラクターをマスクするためのツールです」や「これがキャラクターをクリップアウトするためのツールです」と示してくれることを想像してください。そして、そのAIがエンドポイントまでガイドしてくれます。教育のためのAIアシスタントやコパイロットは絶対に大きなものになると思います。
このような完全なビジョンとエージェント型のコパイロットについて、他に興奮するようなユースケースはありますか?
はい、Copilot Visionの将来は間違いなくCopilotヘルプです。コンピュータの修理やPhotoshopのような新しいソフトウェアの学習の際に、あなたが言ったように、ステップバイステップで案内してくれます。
それは確実に来るでしょうし、コンピュータの使用が得意でない人々が問題をデバッグする際にも本当に役立つと思います。それはとても解放的なものになるでしょう。しかし、基本的なバックグラウンドタスクでも役立ちます。例えば、買い物などでは、事前にバスケットを用意してくれます。
これが欲しいか、あれが欲しいか尋ねたり、価格を見つけて「ここでより良い機会がありますよ」と教えてくれたりします。通常、あなたはそれを面倒くさがるでしょう。「最適な価格を得るために3つの異なる店で食料品を買うのは面倒くさいな」と思うでしょう。いいえ、おそらくただ一つの場所で全部買ってしまうでしょう。
そして今、コパイロットがバックグラウンドで、それら全ての異なるオプションを見つけ、あなたのために集約し、全ての異なる環境で購入を実行してくれます。可能性は無限にあります。
私が本当に興奮しているのは、ゲームでの役割もあります。あなたのコパイロットコンパニオンがMinecraftで建設している世界について話したり、Call of Dutyで一緒に過ごしたりすることも想像できます。それはブラウザであれ、Slackアプリであれ、ゲーム環境であれ、どのような設定でも常に存在するコンパニオンのように感じられるでしょう。
なぜなら、自然に「これは私のコパイロットだから、もちろんここにいて欲しい」と思うでしょうし、「ねえコパイロット、あれ見た?次は何をすべき?」というような、そのような常に存在する存在に向かっているのは間違いありません。そのため、多くの異なる設定で見かけることになると思います。
そうですね、私たちは全く新しい時代に入ろうとしています。次の質問ですが、マイクロソフトは次世代の学生やビジネス、ビルダーに対して、AIを完全な代替としてではなく、コパイロット、共同知能として使用することをどのように教育しようと考えていますか?
そうですね、それがコパイロットという枠組みの美しさだと思います。明示的にバックグラウンドで、補助として、助言者として設計されています。素晴らしいアドバイスを与え、サポートし、フィードバックを提供します。それは明示的にあなたのためのものです。そして、UIの美学、会話のトーン、音声の展開方法などもそれに合わせて設計しています。
そして、それが進化するにつれて、同じアプローチと原則を維持します。これはあなたがコントロールするもの、あなたが担当するもの、あなたの興味に沿ったもの、あなたのチームにいるもの、あなたをバックアップするものです。それはあなたの小さな応援者のようなものです。
これは、私が15年間このフィールドにいる友人や愛する人々との重要な違いです。AGIやスーパーインテリジェンス、私たちよりも強力な何かの不可避な爆発に少し重点を置いています。しかし、それは私たちが構築しているものでも、構築したいものでもありません。
それは全く異なる種類の体験です。それは個人的なコンパニオンです。それはあなたのためのものです。ブランドやビジネス、企業のためのものではありません。それを行う他のAIもあるでしょうが、誰もが自分を代表し、自分のチームにいる独自のAIを持つことになります。
これは、以前のソーシャルメディアのような以前の世界からの大きな変化です。以前は人間の目玉でフィードを理解しなければなりませんでした。TwitterやInstagram、コンピュータの使用など、どこにいても。しかし今では、あなたに表示されているコンテンツと半ば敵対的にやり取りする別のインターフェースレイヤーがあります。
これはあなたのフィルターであり、最も強力な技術をあなたの手に、あなたの側に置くことで、あなたが望むものや好みを教えることができ、それらの企業のどれかによって表示されるフィードの嗜好や態度、価値観に振り回されることはありません。それはそういう意味で大きな転換です。
最後の質問ですが、将来の世代の学生やビジネスに対するアドバイスはありますか?
私のアドバイスは常に、自分を加速主義者だと考えることです。採用し、受け入れ、吸収し、批判的にそれを行います。そしてそれらは互いに対立するものではありません。私のように技術の未来に対して楽観的で興奮していながら、同時に批判的で、目を見開いて、境界線を確立し、好きなことや嫌いなことを言うことができます。それがゲームです。
拒絶もなければ、完全な無制限の投資もありません。それ自身の生命を持たせたり、独自の有機的な形を持たせたり、独自のことをさせたりするのではありません。その二つの間に座ることができる中道があります。そしてそれが考え方として正しいと思います。
よし、インタビューはこれで終わりです。お時間を取っていただき、ありがとうございます。ローンチがうまくいきますように。
ありがとう。とても楽しかったし、本当に感謝しています。ありがとうございました。

コメント

タイトルとURLをコピーしました