この動画では、AI検索エンジンPerplexityの共同創設者兼CEOであるアラヴィンド・スリニヴァスが、同社の新しいエージェント型ブラウザ「Comet」について詳しく語っている。Cometは従来のブラウザを超えて、AIがユーザーに代わって様々なタスクを自動実行できるプラットフォームとして設計されており、将来的にはAI向けのオペレーティングシステムとして機能する可能性を秘めている。スリニヴァス氏は、AI研究者としての背景を活かしながら企業経営にも情熱を注ぎ、Google、OpenAI、Anthropic、xAIといった競合他社との差別化戦略についても語っている。

- Perplexity CEO アラヴィンド・スリニヴァス、Comet、検索、そしてAIの未来について語る
- Comet体験とAIエージェントの可能性
- コンテキストエンジニアリングの重要性
- ブラウザ中心のアプローチの利点
- 破壊的革新者としての優位性
- 新しいブラウザ市場の形成
- 新しいコンピューティングパラダイムの到来
- 日常的な使用での気づき
- シームレスな統合の重要性
- セキュリティとプライバシーの考慮
- モバイル展開の課題
- iOS特有の技術的制約
- ハードウェアへの取り組みについて
- プライバシーとセキュリティの懸念
- ハードウェア戦略の見直し
- モバイルブラウザの将来
- ビジネスモデルとインフラの課題
- エバリュエーションシステムの構築
- AI研究バックグラウンドの価値
- 実践的なデバッグ能力
- Googleの現状評価
- ビジネスへの情熱と哲学
- ブランド広告とマーケティング戦略
- ソーシャルメディア戦略
- M&A活動について
- AI分野の競争環境
- 自動運転の定義拡張
- 収益化戦略の展望
- 高額サブスクリプションの可能性
- 競争戦略と専門化
- 新興AI企業の評価
- 今後の展望
Perplexity CEO アラヴィンド・スリニヴァス、Comet、検索、そしてAIの未来について語る
こんにちは、私の名前はリード・アルバーグです。Semaphoreのテクノロジー・エディターをやっとります。ジャーナリストとしてテクノロジーを取材して10年以上になりますわ。パンデミック以降、一日の大半を電話やビデオ通話で過ごしとるんですわ。
そんな記事の多くは印刷記事用なんで、ボツになる部分がぎょうさんあるんです。そこで思ったんが、どうせやる予定のインタビューやったら、動画で録画してYouTubeに投稿したらどうやろうかということでした。今日は、AI検索エンジンのPerplexityの共同創設者兼CEOのアラヴィンド・スリニヴァスとの動画をお見せします。
彼らは今、大きな野心的なアイデアを持っとって、それは本質的にはCometブラウザと呼ばれるブラウザなんですが、これがAI向けのオペレーティングシステムのようなものになりうると信じとるんです。私も試してみましたが、本当に強力なツールで、これからの方向性がよく分かります。
AIが本当に私たちの生活で有用になり始める時代において、会話にはいくつか素晴らしいポイントがありますので、楽しんでもらえると思います。
Comet体験とAIエージェントの可能性
この2、3週間の休暇中にCometを試してみたんですが、気に入りました?いや、もう本当にすごいことができるんです。ツイートもしたんですが、Unitedで飛行機の予約を変更するのに、サイドカーに頼んでやってもらったんです。
そういうことができるのを見ると、本当にすごいなと。つまり、あなたのビジョンでは、これがオペレーティングシステムになるということですよね?
そうです。もしそれが定期的なタスクや非同期プロセス、リアルタイムで実行する必要がなく、リアルタイムで更新する必要もないようなプロセスができるなら、それはオペレーティングシステムのように感じ始めると思います。というのも、基本的にオペレーティングシステムの特性は状態とバックグラウンドプロセスを持つことやからです。
タスクがどこまで実行されたかの状態や、それを自動的に再開すること、状態を保持すること、お互いに競合しないこと、明確なメモリ管理、そしてユーザーに何が起きているかの完全な可視性を提供すること、依存関係など、これらはエージェントレベルで構築する必要があることです。
ハードコードされたシステムではなく、自然言語で動作するタスク用にね。そうすると、ブラウザ自体がコンピュータの中の小さなコンピュータのように感じ始めます。そして、ブラウザがコンピュータ上の他のアプリと接続できるようになり、それぞれにローカルMCPが設定されると、ブラウザがメインアプリのように感じられ、他のアプリは周辺機器のようになります。
それが目標というわけではありません。Cometだけを開いてほしいわけではないんです。iMessageを開いて自分でテキストを送るのも全然構いません。いつもCometを通す必要はありません。でも、必要な時にiMessageへのアクセスが設定されているのは素晴らしいことです。そうすればCometもそれを考慮に入れることができます。
コンテキストエンジニアリングの重要性
例えば、あなたとiMessageでやり取りしているかもしれませんが、ポッドキャスト録画の調整のためにメールのやり取りもあるかもしれません。テキストでメモを落としてくれるかもしれません。メールにはそのアクセス権がありません。
だから、この会議の準備をする前に「リードとの次の会議の準備をしてくれる?」と言えば、カレンダーやメールから情報を引っ張ってきます。Cometにはそのコネクターがネイティブで付いているからです。
でも、テキストに書いたことは必ずしも引っ張ってこないでしょう。ユーザーがいつもGmailを使わないからといって、ユーザーを責めるわけにはいきません。ユーザーはWhatsAppでもSignalでもiMessageでも、何でも使えるべきです。AIがすべてを自分で把握して、必要なコンテキストをすべてオーケストレーションする必要があります。それが多くの人が「コンテキストエンジニアリング」と呼ぶものです。
それは重要で、2つの軸があるんです。知能と、そしてコンテキストと個人化です。この軸は3.5、4.5、GPT-5やClaude 3.5、Claude 4、Claude 4.5のように上がっていきます。高校レベルから博士レベル、独自の発明まで。これらが水平軸の基本的なマイルストーンです。
垂直軸では、メールの下書きから実際にあなたのためにやってくれること、個人的な連絡先を引っ張って、長期間の反復的なタスクを自動化することまで。参加したくない会議や自分でやりたくないタスクの代理人にもなれます。それが垂直軸で向かっている方向です。
私の意見では、コンテキストのGPT-5や6は基本的にブラウザです。なぜなら、私たちがするすべてのことにアクセスできるからです。仕事でも生活でも、私たちが使って住んでいる製品なんです。
ブラウザ中心のアプローチの利点
ハードコードされたメモリのようなことはできますが、ブラウザが究極のコンテキストなんです。だから、この両方を自然で混合された、シームレスで、UIがすべて馴染みのあるものに感じられる方法で成功させることができれば、エージェントと個人化を解決したことになります。
そう言ってましたね、コンピュータの他の部分をコントロールすると。でも今は多くのものがウェブベースか、少なくともウェブベースのオプションがありますよね?iMessageでさえウェブでできると思います。
それは一つのことで、ブラウザ間で遊んでいて問題に遭遇するところです。経費をやらせていて、クレジットカードの明細を見て、カレンダーとつなげたいと思うんですが、まだそこまでは到達していません。
それはモデルなのか、それともあなたがその周りに構築しているすべてなのか?
両方です。モデルにも特定の制限があります。私たちは明らかに、現在のモデルの状態でブラウザ上で達成できるタスクの面で制限されています。でも、初めて会った時、perplexityはGPT-3.5で動いていて、当時はすでにかなり興味深い製品と考えられていました。
でも振り返ってみると、あの製品は今日の製品と比べて大量にハルシネーションを起こしていました。だから、今日のCometのエージェント能力は、GPT-4以前の2022年終わりか2023年初めのperplexityの回答エンジン能力に例えることができます。
O3よりもやや有能なモデルで、より良い長いコンテキスト能力があり、信頼できる指示フォローやチェーンアクションやツール呼び出しができて、より安価で、多くのオープンソースの代替案があるモデル、それは確実に起こります。
それが起こった時、Cometはもっとスケーラブルで手頃で信頼できるものになります。だから、それが起こるのを待ってCometを構築し始めるのではなく、AIにおいてすべては、モデルが最終的に素晴らしくなり、手頃になるという前提で製品と技術、現在のスタックを配置する必要があります。
破壊的革新者としての優位性
それがここでの破壊者としてのあなたの優位性ですよね?明らかにGoogleと競争していて、OpenAIも競合製品を構築しています。でも、あなたは「まだ完全ではない製品でも出す」と言っているわけですね。
小さな会社であること、スタートアップであることがそれを可能にしていると思います。それがイノベーターのジレンマの側面ですね。
でも「まだ完全ではない」とは言いたくありません。完全にプロトタイプだとは思いません。すでにかなり多くの人にとって有用だと思います。ローンチ初日からエージェントクエリを増やしている人の割合や、Cometをデフォルトブラウザとして使うようになった人の割合は実際に増加しています。
つまり、ChromeやEdgeや市場の他のブラウザからマーケットシェアを奪えるだけの準備ができた製品だということです。でも、レガシー向けに競争するのではなく、エージェントブラウザという新しいエコシステム、新しい製品カテゴリを作ることを目的としています。レガシー市場はどうせなくなると思っているからです。
新しくて最初の時は、明らかに最先端で、荒削りな部分もあります。ウェイトリストは100万人に近づいていて、ブラウザをローンチしてから倍になりました。すべての不完全さと一緒に試して住んでみることに興味を持っている人の数はかなり高いです。
新しいブラウザ市場の形成
それが人々に価値があり、刺激的だと認識されている程度です。OpenAIがブラウザを開発していると噂されているように、より多くのプレイヤーがこの新しい市場に参入することで、これが成長するだけだと期待しています。Chromeも何かしようとするでしょう。
より多くの人、特に大きなプレイヤーがこの市場に参入することで、一般的な人々の間でエージェントクエリを実行するということの意味についての認識レベルが高まります。人々はブラウザのプラットフォームを通して、仕事や私生活の一部を自動化し始めるでしょう。
ブラウザはみんなにとって違う意味を持つようになります。もはやフロントエンドを通してインターネットを消費するのを助けるものと見られなくなります。「ああ、これは私のOSだ。iOSやAndroidやWindowsやMac OSにいることは知ってるけど、これらのプラットフォーム内のこの一つのアプリが、私の生活と仕事を運営するために必要なプロセスの大部分を基本的にオーケストレーションしている」と感じるようになります。
だから他のバックグラウンドプロセスは、これらのメインプロセスほど重要ではなくなります。それが私たちが内部で持っているバーで、目指すべきCometの姿です。
新しいコンピューティングパラダイムの到来
確かに有用で、インターネットの初期の頃を思い出しますね。検索バーに何か入力すると、行きたい場所に連れて行ってくれる前の時代のように。
人々は「www何とか」と入力していましたよね。それは「そういうふうにインターネットを使うべきではない」という感じでした。今のAIでもそんな感じです。コンピュータでやっていることの多くで、やりながら「これはバカげてる。AIでやるべきだ」と思うんですが、習慣になってしまっています。
私も同じです。伝統的な方法でやる理由は2つあります。一つは慣れているから、もう一つは実際に長年やってきて上手になったからです。
例えば、私はメールを引っ張るのがかなり上手なんです。記憶力が良いので、リード・アルバーグとのこのトピックについての最後のやり取りを探す代わりに、だいたいいつ頃か、関連するキーワードを正確に知っていて、引っ張ってこれます。
でも、それは来る時代において失われるスキルになると思います。電卓ができる今、3桁の数字の掛け算が得意である必要がないのと同じように、誰もこのスキルを必要としなくなります。AIができるんですから。
同様に、楽しみにしているスポーツのどの選手の統計も思い出せる能力も、友人グループでかっこよく見せるためのものでしたが、今は誰も気にしません。GoogleやPerplexityで数字を調べるだけですから。
トリビアや事実を答えたり、この年の大統領が誰だったかを覚えたりすることも、もはや集まりでかっこよく見せるものではありません。だから、私たちは現在のAI世代にとってのブーマーのように感じることになると思います。明らかに私たちが再発明する方法は、新しいスキルや新しいやり方を習得することです。
日常的な使用での気づき
私にもこういう問題があります。まだ時々筋肉の記憶で、YouTubeビデオに行って見たい正しい部分を抽出しようとして、転写を表示してCommand-Fを使います。Googleの転写はかなり間違いが多くて、見つけられません。再生コントローラーを使って正しい場所を見つけようとしています。
Cometに「リードがPerplexityについて話している部分に連れて行って」と文字通り聞くことができたのに。そうすれば、かなり早くそこに行けて、新しいタブでタイムスタンプ付きURLを開いて、見るだけです。終わりです。
もう一つの例を挙げると、時々採用を検討すべき人々のGoogleシートが渡されて、LinkedInに行って手動で名前を全部入力して、彼らの経歴を引っ張ってきます。Cometに「この人たちそれぞれについて、LinkedInを読んで、過去の経験に基づいてPerplexityにどう適合するか教えて」と文字通り聞くことができます。そうすれば私のためにやってくれます。そんなに時間もかからません。
LinkedInが自分でそれをやっていないのは驚きです。つまり、Cometからの大きな気づきは、これらの個別のウェブサイトが自分のサイト用に実際に機能するAIを構築するのを待つ必要がないということです。それぞれに別々のフロントエンドを構築する必要もありません。それぞれに別々のコネクターを構築する必要もありません。人々が独自のカスタムAIエージェントに依存させる必要もありません。
常にサイドカーにいる一つのユニバーサルエージェントがあります。そして、あなたがいるウェブサイト、Notion、LinkedIn、Linear、GitHub、Slack、Salesforce、DataBricksやSnowflakeでSQLクエリを書いているような場合でも、それに適応します。CometにそれをOptimizeさせることができます。Slackにコピー&ペーストして誰かに助けを求めて、戻って変更して編集してデバッグする必要はありません。
本当に特別に感じます。どこでも助けてくれる一つのアシスタントという、みんなが持っていたビジョンのようなユニバーサルAIのようです。
シームレスな統合の重要性
それはモデルが良くなることだけではありません。AIがシームレスに統合されているのと同じ環境で、人間であるあなたがそれを消費するための適切な環境にパッケージングすることでもあります。あなたとAIに別々のフロントエンドがあるわけではありません。
あそこにいるブーマータイプの人々にとって、コンピュータの使い方を見てワークフローを提案するAIが必要なように感じます。
基本的に「毎日これをやってる。時間を大幅に節約できる」と言うように。
私たちがすべきところは、時々AIがあなたがつまらなくて退屈で非効率的な方法でやっているのを見て、うんざりして「おい、実際にこれを試してみない?」と言うようになることです。それはユーザーが「AIが自分にアップセルしようとしている。お金を払わせようとしている」と感じるようなものであってはいけません。
だから、それが難しい部分です。プロアクティブな時、スパムのように感じられてはいけません。アップセルのように感じられてはいけません。来て言う時は、本当に魔法のように感じる必要があります。
それがプロアクティブAIが本当に普及しない理由だと思います。プロアクティブになる適切なプロンプトを見つけるのは難しくありません。プロアクティブでありながら魔法のように感じさせる適切なプロンプトを見つけるのが難しいんです。
もし魔法的でなく、プロアクティブで、ユーザーにこのAIを使うよう告げようとしているなら、正しくやらないと、ユーザーが将来のプロアクティブアラートをすべて無視する良いチャンスがあります。
セキュリティとプライバシーの考慮
信頼の問題もあります。AIに情報だけでなく、パスワードなどでも信頼することです。Cometは、少なくとも私が使った限りでは、パスワードを知りたがりませんでしたよね?
知る必要がありません。それがブラウザの魔法です。以前使っていた他のブラウザからクッキーをインポートする限り、それぞれにデフォルトでログインしています。サードパーティアプリにログインする時、AIのためにサードパーティアプリにログインしているわけではありません。AIがあなたのためにやってくれるようにログインしているわけでもありません。
人間がするようにやっているだけです。一度ログインすると、AIはあなたがするように、ログインしたバージョンのサイトを消費します。でも、あなたの代わりにログインして物事をやって、あなたのものを乗っ取ることはできません。そんなことは全部できません。
それがChatGPTのエージェントやoperatorのようなものに対するブラウザアーキテクチャの最大の利点です。それらは彼らのサーバーや仮想サーバーを通してログインすることを強制し、セキュリティ的に必ずしも良いとは言えません。
それは興味深いですね。1passwordを使っていて、常にその拡張機能を使っているから、軽い問題だと思っていました。
できますよ。そうです。まだ完璧ではなかったり何かあったと思いますが、修正します。iCloudパスワードはまだ保留中です。Appleからのサポート承認をまだ得ていないからです。
モバイル展開の課題
Appleといえば興味深いんですが、これはChromiumベースです。AppleはiOSでは基本的にWebKitしかブラウザエンジンとして使えません。これをモバイルで動かす方法はありますか?異なるアプローチを取る必要があるのか、モバイルは設計上対象外と見ているのか?
WebKit以外ではiOSでレンダリングはできません。基本的にiOSのすべてのブラウザはSafari風のWebKitレンダリングエンジンを持つ必要があります。
できることは、Kotlin Compose Multiplatformのようなもので構築するマルチプラットフォームアプローチです。ほとんどのコードをJavaScriptのバージョンのようなもので書きます。簡略化していますが、Swift UIでコードを書くのではなく、それをSwift UIコードに変換するコンパイラを持つことができます。そしてそれがApp Storeに入ります。
このアプローチの不利な点は、すべてを最も最適な方法ではやらない可能性があることです。利点は、iOSとAndroid用に別々のコードを書く必要がないことです。AndroidはChromiumをサポートしています。だから、Mac OSとWindows用にすでに構築したコードの多くを再利用することから多くの利益があります。
iOS特有の技術的制約
iOSには他にも制限があります。アプリがバックグラウンドにある時、クライアントでバックグラウンドプロセスが実行できません。サーバーとクライアントが2〜3分の作業で頻繁にやり取りする必要があるエージェントタスクを実行する場合、エージェントが作業を実行している間、誰もアプリを開き続けることはできません。情報がクライアントから解析されてサーバーに送られて戻ってくるのです。
30秒で仕事を終えられない場合、適切なアプローチは何でしょうか?YouTubeやNetflixに戻って他のことをしている間も、エージェントがバックグラウンドで動き続けるためには。それが建築的な課題です。
解決策は、バックグラウンドで実行したい場合はクラウド上で仮想ブラウザを動かすか、プライバシーを本当に気にするならジョブが完了するまでアプリにとどまるかです。2つ目は少し迷惑だと思います。
だからAppleも政策をより柔軟にする必要があります。エージェントを実行している人が、私たちが望む方法で実行している限り、アプリがバックグラウンドにある時でもバックグラウンドプロセスを実行できる時間を増やすことです。
彼らは明らかにセキュリティリスクを心配しています。ハッカーがこれを使ってiPhoneにハッキングしたり、バックグラウンドアプリを使って他のアプリをコントロールしたり、クライアントから情報を引っ張ったりするかもしれません。明らかにセキュリティリスクがあり、彼らが心配しているものです。
彼らと一緒に何かを見つけることを期待し、その間は次の数ヶ月でサポートできることをサポートします。
ハードウェアへの取り組みについて
iOSやAndroidエコシステムに関するこれらの問題のどの程度が、あなたや他の人がハードウェアについて話したがる理由なんでしょうか?
私がハードウェアに興味を持ったのは、Appleの政策と制限があるからではありません。これは私の意見で、間違っているかもしれません。ZuckerbergやSam Altmanは異なる考えを持っていることを知っていますが、私の意見では、本当にハードウェアを目指すなら、電話を作る必要があります。電話を作る必要があります。電話から逃れることはできません。
例えば、Appleが決して許可しないような方法で人々を追跡できるものを構築しようとすることもできます。例えば、Appleは24時間365日バックグラウンドで実行され、あなたが参加するすべての会議を聞くアプリを決して許可しないでしょう。ほとんどスパイレコーダーのようなものです。
でも、それがJohnyとSamが構築したがっているようなデバイスです。少なくとも私が聞いたインタビューからは、「ここで話していて、MacBookを開いてChatGPTプロンプトをしたくない」という感じでした。すでにそれはする必要はありません。文字通りiOSでボイスモードのアクションショートカットを取って、質問をさせることができます。
電話を超えてできる唯一のことは、質問をする必要すらないことです。文字通り、AIがあなたと私を聞いていて、「AIどう思う?」と言うことができます。コンテキストがあるので尋ねる必要すらありません。もっと自然で混合された感じがします。
でも、それはレコーダーをオンにしている場合にのみ機能します。そして、ずっと聞いている場合です。
もしiOSがそれをさせてくれないなら、他のペンダントやチェーンやスピーカーやマイクやイヤバッド、いろんな形のファクターを構築する必要があります。でも、それでも他のアプリを実際にコントロールすることはできません。そのためにブラウザを構築する必要があります。
サードパーティアプリをコントロールするか、MCPサーバーを通してこれらすべてのサードパーティアプリへのAPIアクセスを持つか、そして彼らがそれをさせてくれる必要があります。だからハードウェアは実際にはこれらの問題を解決してくれません。
プライバシーとセキュリティの懸念
ハードウェアは、デバイス上にあるもの以外のユーザーの日常生活と活動に関する追加のコンテキストを得るという一つの問題を解決するだけです。私の意見では、実際にコンテキストを得るためにブラウザを構築するほど有用ではありません。
ブラウザはコンテキストを得るためのより安全でユーザーフレンドリーな方法でもあります。あなたがすることすべてを聞くという、ある種不気味な方法ではなくね。一度オンにすると、友人と非常にプライベートな会話をしている時に、このAIがそれを聞いているというのは、そんなにコンテキストを与えるのは怖く感じます。
少なくともブラウザには、シークレットモードのようなコントロールがあります。シークレットで閲覧すると、AIだけが聞くのではなく、あなたを聞くことができるのは雇用主かインターネットサービスプロバイダーだけです。
だから私はブラウザを好みます。ゼロ保持の方法があります。シークレットでクエリを実行できます。シークレットで閲覧できます。ゼロ保持にできます。クエリを削除することができます。一方、あなたの周りのすべてでオーディオが録音され、サーバーに送信されて転写されるというのは、誰かにあなたの人生にそんなに権力を与えるのはもっと危険に感じます。
そうですね。でも、人々がどうなのか気になります。10年前と今日喜んでやることを見ると驚きます。
私は、電話を超えた便利なAIデバイスを持つ未来に反対しているわけではありません。例えば、医者との会議に行って、両方とも会議を転写し、自動的にノートにして、すべてのシステムに集中化するようなデバイスを持っていて、私が別の医者に記録を持っていけるような場合です。それも電話に持っています。Oracleのデータベースのようなサードパーティアプリを使う必要はありません。
そんなのは素晴らしく感じます。私の唯一の懸念は、なぜこれらがiPhoneのアプリではいけないのかということです。例えば、ジャーナリストが使うインタビュー録音用の特定のアプリがあり、自動的に転写し、整理して、記事を書くための準備ノートに変換できます。レコーダーデバイスが必要だったことは決してありません。
録音デバイスはありましたが、iPhoneがそれらを無用にしました。懐かしさでそれらのデバイスを使う人もいますが、今日ではユーティリティ要素はありません。
ハードウェア戦略の見直し
あなたはハードウェアをやりたいと言っていましたが、考えを変えたのか、電話を作るつもりなのか?
いえ、電話は作りません。今はハードウェアプロジェクトには取り組んでいません。私の意見では、ソフトウェアがハードウェアを特別に感じさせるものです。
電話での最大の制限は、電話外のコンテキストへのアクセス、リスニングデバイスのようなものではなく、実際にサードパーティアプリを呼び出してあなたの代わりにアクションを実行できるエージェントAIを見つけることです。
ちなみに、これでみんながAppleを批判するんですが、AndroidはAppleよりも多くのことで制限が厳しいです。少なくともAppleには、Apple Mail、Podcast、Apple Music、Notes、Calendarなど、自分のネイティブアプリにアクセスできるSDKがあります。AndroidはGmailやカレンダーがネイティブアプリなのに、Google Cloud経由でアクセスしなければならないようなものは何もありません。
私の意見では、最大の制限は実際にはUber、DoorDash、Amazon、呼び出せない他のすべてのアプリです。ファイアウォールがあります。だから、モバイルウェブブラウザでタブとしてこれらのサードパーティアプリにアクセスして開けるブラウザが必要です。
課題は、ほとんどの人がもうモバイルウェブメンテナンスを気にしないことです。アプリのためだけに構築しています。だから開発者はそれを維持するのに時間を費やしません。だからエージェントがそれを消費するのが難しくなります。
しかし、エージェントは情報がすべてそこにある限り、ひどいUIでも対処できるという利点があります。唯一の問題は、ワークフローが実際に機能する必要があることです。ボタンをクリックすると何かが起こる必要があります。それがバギーで、JavaScriptコードがバギーで、メンテナンスされていないなら、問題があります。
モバイルブラウザの将来
このビジョンでどこまで行けるか見てみますが、モバイルブラウザに取り組んで、これらすべてのクライアントサーバーハイブリッドアーキテクチャ、プライバシーとセキュリティ保証、ボイスベースコントロールを見つけることが、より大きな挑戦だと感じています。そのクロスプラットフォームで非同期なソフトウェアを完成させることで、ハードウェアは大きな邪魔者です。
モバイルブラウザが解決されて、それがとても良くて、電話でそのアプリにほとんど行くだけになり、電話のすべてのアプリになるなら、電話でのコンピューティングの中心的な部分がブラウザである電話を夢見ることは意味があります。それは面白くて刺激的だと思います。次のステップに卒業したらそこにアプローチします。
電話を、電話の外に出るようなことで他のアプリをコントロールできるようにすることもできますね。以前言っていたように、クラウドに出るか、どこかの仮想コンピュータ、ある種のコンテナで実行して、ウェブインターフェースを使うような。
基本的にモバイル外でですね。サードパーティアプリがバックエンドAPIやMCPサーバーとして自分自身を抽象化する、他の方法を予見することもできます。それも別の未来でしょう。私たちはここでかなり柔軟で実用的です。
「この一つのビジョンがあって、みんながこの方法で働くべきだ」ということを購読したくありません。それがMCPアプローチについて好きでないことです。それを購読するか、しないかで、複数の代替案と互換性がありません。
私たちにとってCometはかなり互換性があります。すべてのモデルがMCP互換になるように後訓練されているので、サポートするつもりです。エージェントがそのプロトコルの下でより良く動作するなら、これらのプロトコルがサードパーティアプリがモデルに接続する方法であることを確実にする必要があります。
ビジネスモデルとインフラの課題
コンテキストがコンピュータでエージェントを使って引っ張られるか、直接バックエンドAPIで引っ張られるかは関係ありません。今の私たちのビジョンです。将来がどう展開するかについてはほとんど洞察がありません。「みんなが私たちのビジョンを購読して、これがアジェンダだ」みたいなゲームをするのに時間を無駄にしたくありません。
人々が仲介されたくないと思って構築するなら、それは構いません。ユーザーが私たちに代わりに何かをする許可をくれるなら、やります。私たちは実際にアグリゲーターとしてサーバー上でやっているわけではありません。ユーザーが文字通り私たちに代わりに行動する許可を与えています。
だから、サードパーティサーバーとしては、ユーザーがやったように感じるべきです。それでも問題があるなら、ユーザーにより良いサービスを提供することというより、ビジネスモデルの問題だと思います。カスタマーサポートや他のことについて、ユーザーは私たちではなく、あなたのところに戻ってきますから。
ビジネスモデルといえば、ウェイトリストに100万人いると言いましたが、これはまだ本当にトークンを大量に使って、本当に高価だからですか?
いえ、複数の理由があると思います。その一つは確実にコストですが、嘘はつきませんが、主な理由は実際に、エージェントをネイティブでサポートするために私たちの側で書き直す必要があるインフラがたくさんあることです。
これは多くのクライアントサーバー通信を含むからです。Uber Eatsで注文を出したり、Instacartで食料品配達をしたりするタスクを起動する時、まずウェブサイトをコントロールし、レシピを引っ張り、すべての材料を引っ張って、注文を出すためのすべてのアイテムを見つけます。それからInstacartを一つずつコントロールして各アイテムを追加し、現在の状態をサーバー上のエージェントに伝えます。
それは多くのインタラクションとログです。これを行うには、バックエンドAPIが途中で壊れた場合の安定したインフラが必要です。「接続制限を超えました」のような愚かなエラーメッセージやレッドフラッグを見て、ひどい体験を作りたくありません。
多くのフォールバックを配置し、現在の状態から軌道を再開し、ステートフルMCPのようなものの等価物を持つ必要があります。コストとは関係なく、バックエンドとインフラレイヤーで私たちが解決する必要がある多くのことがあり、途中でしかできない未知の未知がたくさんあります。
エバリュエーションシステムの構築
人々が私たちに明示的にフラグしたバグを見て修正し、回答用ではなくエージェント用の厳密なエバルスイートを構築します。回答用はすでにやりました。エージェント用のエバルは実際の進歩を追跡する唯一の方法です。
タスクの完了を検証することは非常に困難で、自動化されたエバルを実行する方法を持つことです。一つの決定論的な正しい答えがあるコーディング問題のようではありません。ブラウジングタスクを達成する複数の方法があります。
自動化された厳密なエバルセット、常に拡張するエバルスイート、壊れないインフラ、入ってくる新しいモデルに適応すること、各ユーザーが実行するエージェントクエリの量に基づいてユーザーあたりのコストを予測すること、そして実際にアクセスを広げる方法を見つけることです。
私たちがすでにChromeより優れていると思うコアな基本ブラウジング機能があり、それからすべてのAIネイティブ機能、エージェント、パーソナル検索があります。パワーユーザーがこれらの機能をたくさん使う人の使用量を予測し、その後適切なアップセルを考え出すことです。
これだけのパーソナル検索やエージェントクエリの後は購読するか、通常のブラウザとしてブラウザを使い続けるか、毎日無料ユーザーの束があるが、その後購読する必要があります。だから、これらすべての数字を見つける必要があり、ここで間違いを犯した人がたくさんいます。
CursorやClaude Codeのように、使用量について楽観的すぎて、人々が思っていたよりもはるかに多く使い始めて、ダウングレードして、人々が本当に怒った例があります。こういった失敗を避けたいです。
だから、よりゆっくりと着実に進む方が良いです。だから私たちは徐々にアクセスを増やすことにしました。毎日数万の新しい招待を送っています。毎日、ウェイトリストにサインアップする人も増えています。
毎日、より安価なモデルが同じ仕事や少なくともその一部をできるかどうか見ることでコストを削減しようと働いています。また、信頼性を高め、インフラをよりスケーラブルにすることにも常に取り組んでいて、これには時間が必要です。
AI研究バックグラウンドの価値
真のAI研究者のバックグラウンドを持つことが、モデルの進歩の速さや、いつどんな製品を提供できるかを理解するのにどの程度役立っているのでしょうか?
確実に大いに役立ちます。私だけでなく、共同創設者のDennisもその背景から来ていて、バックエンドとインフラに非常に強いです。実際、私よりもはるかに強いです。彼は検索の背景もあって、最初の仕事はMicrosoft Bingでした。だから、それについての深い知識があります。
他の共同創設者のJohnnyと一緒にKoraのレコメンデーションフィードアルゴリズムも構築しました。だから彼らはスケーラブルなバックエンドシステム、AI、ニューラルネットインフラ、トレーニング、推論、コスト品質のトレードオフでの適切な決定、短期的なハックや修正ではなく時間のテストに耐える方法での決定を理解しています。
彼らはここで非常に多くの知識をもたらし、私は実際に彼らと働くことから多くを学びました。同時に、博士課程で開発した、あらゆる問題について良いシステム思考をする経験、問題を本質的なコアに根本的に煮詰めることは、私が開発したスキルです。
だから、AI研究スキルというより、問題解決スキルや推論スキルだと思います。もう個々のモデルに何が入っているかにそれほど近くないからです。研究論文は追跡してフォローしますが、批判的に言うと、O3やSonnet 4のようなシステムの訓練に入った個々のトリックは知りません。
拡張思考はどう働くのか?長いコンテキスト推論はどうやるのか?コンテキストウィンドウが増えても指示フォローが劣化しないことをどう保証するのか?後訓練や事前訓練に入った詳細はもう知りません。
GPT-4までは追跡し続けることができましたが、その後に行われた進歩の量と、そのほとんどがクローズドソースなので、非常に難しいです。中国は論文を発表し、ベンチマークとエバルについて多く話しますが、実際に訓練するデータセットについてはあまり話しません。後訓練に何が入ったかについても話しません。だから理解するのは非常に困難です。
実践的なデバッグ能力
でも、クエリが動作しない場合、ユーザーがバグをフラグした場合について、非常に良い理解があります。私と会社の技術的なトップの人々は、それが検索インデックスの問題で起こったのか、クエリが適切に再定式化されなかった問題なのか、エージェントルーターが適切な個別ステップに分解しなかった問題なのか、要約担当者が他のすべてのステップにもかかわらず間違いを犯した問題なのか、すぐにトリアージできます。
だから、物事をトリアージして修正する非常に良い方法があり、実際にそのプロセスが好きです。基本的に会社のカスタマーサポート担当者のようでありながら、エンジニアリングマインドセットを持つことで、現在の制限と、物事がどこで壊れ、どこで壊れないかを把握できます。
本当に私を助けてくれる他のことは、ユーザーとしてあることです。自分の製品を執拗に、宗教的に、定期的に使うことです。テスト用だけでなく、ユーザーとして使って、うまく動かなければ私はユーザーのように欲求不満になります。
私の妻も私の製品をよく使って、「欲求不満なプロユーザー」という言葉を使います。「こんなに定期的にバグに遭遇するなら、なぜ誰かがあなたの製品にお金を払うの?」最初の数ヶ月はバグに遭遇しても大丈夫ですが、2年後にバグに遭遇するのは大丈夫ではありません。これらのことを修正した方が良いです。
非常に公正なフィードバックです。難しいことは理解していて、すべてのエンジニアは20のことに取り組む必要があり、誰も毎日目を覚まして1000のバグを修正し続けることを好みません。新しくて刺激的な製品を構築する楽しさを殺しますが、一日1000のバグを修正することでのみ競争に勝つことができます。
人々が「Perplexityは動く、なぜGoogleはこれができないの?」と言う時、それは数万のバグがあって、これらはGoogle検索で働いている時に遭遇したことのない新しいバグだからです。これは違うスタック、過去のためではなく未来のために構築することです。過去にスロットして箱から出てうまく動くものではありません。
だから時間がかかり、彼らもAIオーバービューとおかしなハルシネーションの時のレッスンを学んだと思います。彼らももはや王ではないことを学んだと思います。謙虚になって正しいやり方で物事をやりましょう。
Googleの現状評価
ちなみに、Googleについてどう思いますか?彼らは困難な立場にあると思います。素晴らしいAI研究があり、分野のリーダーですが、ビジネスモデルは、ある時点でそれを共食いすることを考える必要があります。Sundarがそこでどうやっているかについて、どう思いますか?
彼は本当によくやっていると思います。もし私が彼の立場にいたら何をすべきかわかりません。簡単ではないと思います。クラウドをビジネスとして成長させるという正しいことをやっていると思います。Thomas Kurianにも多くのクレジットが必要だと思います。
彼は世界クラスのCEOに見られるような、マニアックで容赦ない効率性でGoogle Cloudを運営しています。Sundarが彼を雇い、このレベルで実行するために必要なすべてのレバレッジを与えたことを評価します。Google Cloudで年間500億ドルの売上、YouTubeが400億ドルかそこら、YouTube全体とGoogle Oneでの購読が数百億ドルだと思います。
だから、Google、Google Cloud、YouTube、購読を合わせると、彼らにとってかなり大きなビジネスです。とはいえ、マージンは検索広告のこの売上ほど高くないし、それは依然としてリスクです。彼らは数年間の苦しみを通り抜けて、より強く戻ってくることを認める必要があります。
もし彼らがより強く戻ってくるなら、彼らは会社としてMicrosoftのようになるでしょう。これは何か軽蔑的な意味で言っているわけではありません。つまり、彼らは多様化したビジネスを持つということです。MicrosoftはWindowsだけではありませんよね?WindowsとAzureとSQL Serverサービス、ゲーミング、LinkedIn、GitHub、Bingなど、多くのものです。
だから、Googleも同様になると思います。ビジネスのポートフォリオを持つでしょうが、検索マージンは下がり続けるでしょう。質問はないからです。AIのようなエージェント検索は最終的にユーザーに忠実でありたいからです。それがここで勝つ方法です。広告主に親切になることで勝つつもりはありません。
ユーザーは明らかに価値を提供すれば支払うでしょうが、広告主が支払うほどには支払わないでしょう。みんなのポケットは限られていて、広告主は使うお金がたくさんあるからです。だから、失われたマージンすべてをどう補うかですが、まともなマージンを持つより多くのビジネスを構築する必要があります。
市場は高いマージンではなく、多様性のために売上を尊重するでしょう。それが良い株価収益率を得る方法です。その戦略はかなり明確です。収益コールの転写を読むたびに、明らかに焦点は「我々は非常に多様化したビジネスで、検索はその一部に過ぎない」ということです。それが戦略だと思います。
ビジネスへの情熱と哲学
あなたがAI研究者のバックグラウンドを持っていながら、ビジネスや会社、組織の運営にも真の情熱を持っていることは、多くの人が理解していないと思います。
結局、ビジネスは行って接待したり、カリスマ的な発言をしたり、Steve Jobs的なマーケティングをやったりすることではありません。いえ、自分でいればよくて、結局は問題解決なんです。
スタートアップとして、私たちは非常に多くの制約があります。ブランドがありません。すべてが配信についてだと理解しています。配信があると、異なる制約のセットがあります。Perplexityのように狂ったように速くなることはできません。10億ユーザーの規模でのバグは本当にブランドを傷つけるので、本番で毎日20のバグを持つことはできません。
だから、その規模で必要なシステムとプロセスがあり、その規模で持つ利点があります。認知度がなく、誰もあなたがやっていることを気にしない時の不利益があります。他の人が7ヶ月前に出荷した小さな機能でも、10億ユーザーがいるので、みんながあなたを真剣に受け取るという利点があります。
結局、制約最適化、制約問題解決だと理解しています。それは研究に特有のスキルではありません。人生のあらゆることに適用されます。家庭の問題があれば、特定の予算があり、みんなが自分の解決策を見つけるのに創造的です。
でも、あなたはそれに対する真の情熱も持っています。それは成長して持っていたものか、学ばなければならなかったものか?
習得しました。習得しました。そして、Googleが大きな理由でした。会社をかなり深く研究しました。「In the Plex」とか全部読みました。
それだけではありません。実際、みんながそれについて書きますが、彼らが持っていた製品のテイストで私が好きなものがあります。例えば、Kevin Kromがどこかのポッドキャストで言ったことで、忘れましたが、彼はInstagramを始める前にGoogleのプロダクトマネージャーで、Gmailプロジェクトで働いていました。
ユーザー名とパスワードを入力してEnterを押したときに、他のメールクライアントが持たない、メールが本当に速く読み込まれることを確実にするために彼らがやったことは、Gmailウィンドウでメールを入力している時でさえ、自動的に先回りして楽観的に、あなたがログインするだろうと仮定して、パスワードを入力している間にメールを引っ張り始めることでした。どのユーザー名かはクッキーで知ることができるからです。
それは、ユーザーがレイテンシを感じないようにバックエンドを最適化する程度です。それは、本当にユーザーを喜ばせ、求める前にそれを与えようとすることからのみ来ます。それが私たちがここでやっている小さなことに適用しようとする哲学です。
ボイスモードをオンにする時、アシスタントボタンにマウスを置いているだけでも、サーバーへの接続リクエストを自動的に開始できるかなど、これらが私がここのエンジニアと一緒に取り組みたい挑戦の種類です。
ブランド広告とマーケティング戦略
ブランド広告もやりましたね。テレビコマーシャルを見ました。Appleにかなりインスパイアされていますね。どうでしたか?効果的でしたか?
イ・ジョンジェの広告、『イカゲーム』の主演俳優がやったものは、信じられないほど良かった。基本的に、それが良くないと言った人に会ったことがありません。Googleの人たちは気に入らなかったかもしれませんが、他のみんなは愛しました。
Instagramでは数千万ビューを獲得し、実際に広告を作るのにはほとんどお金をかけませんでした。
クリエイティブ会社を雇ったんですね。プロセスにどの程度関わりましたか?
かなり関わりました。私と会社の別の役員のDimitri Shelenovと、ブランドチームの何人かがいます。『イカゲーム』の人だから、ゲームのように感じなければならないと伝えました。質問に答えて、レベルを通り抜けるような。
それからDimitriが設定のいくつかを思いつきました。「Severance」と『イカゲーム』スタイルのセッションの結婚のように感じなければならない。それから私たちがいくつかの質問を思いつき、明らかにスタジオのSandwichが高レベルのアイデアのいくつかを取って、実際に具体化するかなり素晴らしい仕事をしました。
ピザの質問のチーズは私が選びました。それはどこから来たんですか?
私かDimitriかわかりませんが、基本的に、少なくともここで遊び心を持とうと決めました。AIオーバービューがその面白い間違いをしたのを覚えていますか?「のりを使う」と入力すると言われたので、正しい答えを与えますが、「のりを使わないでください」みたいなことも言います。過去への言及です。
それから、今ではChatやGoogleも、ソースやAIオーバービューを追加してより良くなったのを知っている、わかりやすい質問を選びました。でも、「PerplexityでウクライナとウガンダのGDPを比較してみて」みたいな質問は選びたくありませんでした。Instagramで商業を見ている人で、誰がそんなことを気にするでしょうか?
一般の人に届く必要があります。Mr. Beastのおかげです。実際に一度彼と会議をしました。彼と繋がって、このコンセプトについてフィードバックを求めただけです。他にもたくさんのコンセプトがあって、彼は「インターネットのIQレベルはそんなに高くないことを本当に理解する必要がある。だから本当に大衆に向けるなら、数億人の人々に向けるなら、極めてシンプルに保つ必要がある」と言いました。
Perplexity対Google、みんなが知っている2つのツール、Googleが何かはみんな知っている、リンク対回答、明確な差別化、そして非常にシンプルな日常的な質問。シャツにシミがついたらどうしたらいいか、ピザがうまくいかなかった、チーズがよくくっつかないとか、非常にシンプルなものまでです。
だから本当にうまくいったんだと思います。それが、以前やった他の商業からの教訓です。それはとても微妙で、Perplexityが何かを控えめに表現して、根本的なテーマについて話そうとしたんですが、誰も理解しませんでした。バイラリティとオーディエンスの王様が教えてくれたなら、それに従った方がいいです。
ソーシャルメディア戦略
それが面白いのは、Twitterでもとても上手だからです。でも、それは自分自身でいることです。深く人として自分自身を装ったりしたくありません。人々と対峙したり、人々についてミームを作ったりはしたくありません。
それはアルゴリズムです。アルゴリズムがそれをすることで報酬を与えるからです。Twitterでは、100%正しいことをツイートすべきではないと、Marc Andreesenが教えてくれました。誰もTwitterでは気にしないからです。50%正しくて50%間違っていることをツイートすべきです。
でも、正確に半分正しくて正確に半分間違っている文を特定するのは本当に難しいです。そんな文はそんなに存在しません。だから、そのスペクトラムのどこか、60-40、70-30で、かなり良いエンゲージメントを得られると思います。
もちろん、「Nvidiaは地球上で最も価値のある会社で、素晴らしい仕事をしている」みたいなことでは、エンゲージメントは得られません。それは本当ですよね。
ジャーナリストにとって「50%間違いたい」と言うのは難しいですね。
でも、ジャーナリストで興味深いことをやっている人を見たことがあります。Mark Gurmanのように、リークすることでエンゲージメントを得る方法がありますよね?ブレイキングニュースが基本です。
実際に彼があなたたちがアプローチされたという話を破ったんですよね。Benic Evansやそういう人たちは「PerplexityがリークしてM&A活動を起こそうとしている。本当に苦戦している」みたいなことを言いました。いえ、私たちはMarkにリークしませんでしたし、その記事にはM&A活動を認識していないという声明もはっきりとあります。
それは公式声明です。MetaとAppleの記事が一緒に来たのは偶然のタイミングで、M&Aには興味がないことを明確にしました。CNBCのDear Dreとのインタビューでも、小さなテックの勝利を確実にしたい、続けていきたいと言いました。
それより明確に興味がないと言えることはありませんよね?その時まではCometをローンチしていませんでした。だから人々は「この会社は何をやっているの?ChatGPTやGoogleと競争できるつもりはないでしょう」と思っていました。
でも、Comet後は、私たちがどこに向かっているか、なぜそれが大きな問題なのか、誰かがCometにログインしたら、Perplexityでやるクエリの数が何倍にも増えることを人々は明確に理解しています。乗数効果があるし、Cometの配信をスケールするのは、Perplexityよりもずっと簡単なゲームです。
コマース側でたくさんのことができるからです。だから、Googleにとって、GoogleツールバーをGoogle Chromeより前にやったような、会社にとっての新しい章にとても興奮しています。Googleツールバーの配信方法は、デスクトップソフトウェアをインストールするたびに、他のデスクトップソフトウェア会社に、ブラウザにGoogleツールバーもインストールしてもらうためにお金を払うことでした。
Microsoft Internet ExplorerはGoogleのためにそれをやらないからです。だから、Internet Explorerにツールバーがパッチされて、ツールバーからのクエリが7倍か8倍増えるのを見て、増加したクエリの広告収益を、それをオファーしてくれたデスクトップソフトウェア会社と共有しました。それが彼らが多くの配信を成長させた方法で、そのプロジェクトを運営していたのがSundarでした。
だから自然にChromeも彼が運営しました。人々は配信がどれほど重要かを理解していません。配信は、検索バーにあなたを載せるために一堆のウェブサイトにお金を払うというようなものではありません。それはすべて古いゲームで、そこでGoogleと競争することは決してできません。彼らはすでに広告ネットワークとマフィアを持っているので、あなたよりもクエリあたりはるかに多くの収益を生成するからです。クリックベースのシステムですよね。
だから、自分の道筋を見つける必要があり、私たちにとってはエージェントとコマースとブラウザがその道になります。
M&A活動について
本当ではないんですか?Metaがアプローチしたんじゃないんですか?
彼らがアプローチしたかどうかはコメントできませんが、私たちは現在、どんなM&Aにも興味がないということです。私たちは、誰にとってもそのような危険な賭けです。
Metaがブラウザを構築したいとしても、ブラウザで私たちと競争しているわけではありません。Googleと競争しているんです。そして、Googleはたくさんのリソースを持っています。GoogleはOkです、私たちをそれほど真剣に受け取らないかもしれませんが、OpenAIもブラウザゲームに参入したとしましょう。彼らは少し汗をかき始めるでしょう。
それから、Metaが突然ブラウザを構築したがったとしたら、さらに競争が激しくなります。だから、ここでのリスクは、それがrunwayかmetaかperplexityかということではありません。もっと、大兄貴が強すぎて、大きなテックでも小さなテックでも、誰も試そうとさえしたくないということです。
少なくとも私たちは試したくて、ここには2つの可能性しかありません。勝って出てくるか、死ぬかです。勝利は非常に特別です。極めて手強い相手に対してやったからです。
AI分野の競争環境
Iliaがもう一つ言ったことがあります。AIと製品に同時に取り組める方法は2つある、自動運転車と検索だと。まだそれは本当だと思いますか?今はブラウザ空間にいるので。
実際、私は同じだと思います。でも、検索と自動運転の融合である第3のカテゴリができたかもしれません。それは、ブラウザ上のエージェントです。ブラウザは車のように感じます。エージェントはオートパイロットやFSDのように感じます。今日はオートパイロット段階だと思います。FSDではありません。
そして、FSDが機能しても、懐かしさや楽しさのために車を運転したくなるでしょう?ハンドルがあるのは良い感じです。ハンドルがない車を買うまでにはしばらくかかるでしょう。車の外の車輪ではなく、ステアリングホイールのことです。人々はそれが本当の車だという感覚を持ちたがるからです。そうでなければ、あなたを運ぶ箱のように感じます。
ブラウザも同じように感じるでしょう。エージェントが完全に信頼できるようになったら、サイトをブラウズする必要はないかもしれません。クレジットカードの請求書を支払わせ、銀行明細を読ませ、フライトチケットを予約させ、席を選ばせ、食事を注文させ、すべてをやらせることができます。
でも、まだx.comに行って他のジャーナリストの熱い意見をブラウズしたくなるかもしれません。それもAIに委任できますが、ウェブで見つけるこれらの可愛い小さなものを発見することから得る人間のドーパミンはどこで得るのでしょうか?
自動運転の定義拡張
だから、自動運転の定義を拡張しているんですね。
自動運転は物理的な移動だけでなく、Elonが言うように、デジタル労働にも適用されます。Teslaの次の章であるOptimusヒューマノイドは、点Aから点Bへの移動のために構築したすべての技術を、実際にあらゆる形の物理労働を達成するために取ることです。
私たちがやっていることは基本的にそれだと思います。マルチステップ検索のために構築されたすべての技術を、マルチステップアクションに、そしてあらゆる形のデジタル労働に取ることです。
それは面白いですね。
これは人々を置き換えたり何かをするためのものではありません。人々を補強し、オートパイロットのようになり、多くの時間を取り戻すためのものです。今日のAIの大企業で働いている人で、3〜4日の労働週に文句を言う人は世界にいません。スタートアップと同じくらい速く動いています。
だから、AIの助けで多くのことを成し遂げ、家族や子供ともっと時間を過ごしたり、友人とつながったりするより多くの時間を得ることに、世界の誰も文句を言わないでしょう。一部の人々は、より多くのエンゲージメント時間を得てより多くの広告を売るためにAI友達を構築したがります。私たちはそれをやりたくありません。
収益化戦略の展望
これには触れていませんでしたが、実際のビジネスモデルについて少し話しましたが、広告についてはどう考えていますか?広告付きでこれらの製品を無料で提供する方法はありますか?それとも、そのアイデアは他の形のコマースや収益化に置き換えられると思いますか?
ここで何かを言うには早すぎると思います。一つ言えることは、サブスクリプション市場を過小評価してはいけないということです。それが今までの私の間違いです。
OpenAIが世界に、100億ドルの収益をほぼサブスクリプションだけで構築できることを示してくれたことに感謝します。完全にではありません。1000万から1500万の有料サブスクライバーがいると思うので、年間30億から50億ドルは人々がポケットから払っているお金だけから来ています。誰もそれが可能だと想定していませんでした。
月額20ドルにお金を払う人がどれだけいるかと人々は思っていました。月額200ドルについても過小評価していると言いたいです。1000万人がBloomberg terminalにお金を払っていて、それは100億から120億ドルの収益製品です。Bloombergが会社として存在する唯一の理由は、他の収益がないからです。Bloomberg terminalから92%のお金が来ていると思います。
月額200ドルを本当に過小評価していると思います。そして月額2000ドルも。AIの使用のトップファンネルが週に、または日にベースで数億人の人々を使うまで拡大し、それから数千万人が月額20ドルを払っている。数百万人が月額200ドルを払っている。数十万人が月額2000ドルを払っている。
単一の広告なしで、年間数百億ドルを稼ぐことになります。それは構築する価値のある会社ですか?間違いなくそう思います。最近構築されたほぼすべてのエンタープライズソフトウェア会社よりも価値があります。Airbnb、DoorDash、Uber、Stripeよりも価値があります。
高額サブスクリプションの可能性
それ自体で広告なしに年間1000億ドルの収益会社になれるでしょうか?TBD。もう一桁スケールする必要があります。わかりません。
消費にも収益化できる可能性があります。サブスクリプション料金だけでなく、時々あなたがやった仕事に対して支払いを受け、その価値は同じタスクに人間を雇うコストで決まります。TaskrabbitやUpworkで人々に多くのお金を払いますよね。
AIがやって、週末にできて、いつでもできるなら、雇って話して食事して身元調査をする必要がありません。多くの時間が節約されます。だから、これらすべてのものがますます価値を感じるようになります。「なぜこのチャットボットにお金を払っているの?」を超えて、実際にこのエージェントに物事を成し遂げるためのお金を払っていると合理化するようになります。
それから、ビジネスがエージェントにコマースを促進するために直接支払うという別の収益化形態もあります。これはBooking.comスタイルのお金の稼ぎ方です。Expedia、OpenTable、ShopifyがマーチャントとやっていることもMerchantとやっています。
それもエージェントが可能になります。DoorDashにレストランがお金を払います。だから、多くのものがエージェントによって仲介を外されることができます。それが起こった時、ユーザー以外からエージェントがお金を稼ぐ代替収益形態になり、エージェント会社が稼いだ収益をエージェント会社とユーザーで分割することができます。
PayPalや他の決済プロバイダーとの取引が進んでいて、Perplexityを通して人々が実際に買い物をしているのを見ていますか?
PayPalとの統合作業はまだ実際には完了していません。作業中です。だから、Cometがプレイなんです。Perplexityだけでコマースを促進するのは難しいです。一方、Cometでは、AIとして買うか人間として買うかに関わらず、ブラウザを使って買います。
ブラウザに入ったら、ブラウザで買い物をし、ブラウザでクエリをします。ブラウザを使わないわけではありません。それが私が内部でさえ主張した主要なポイントです。ブラウザはコア製品よりも大きいです。AIを気にしないTAMを得るからです。
そうですね。航空券を変更して、Perplexityのエージェントがアップグレードやプレミアムシートの購入を提案し、Unitedかそういうところからカットをもらったり、リードにポイントとして一部を返してくれて、次のフライト予約で使えるというようなことが見えます。
そうです。Perplexityがそのための追加コマースを促進したことでUnitedからカットをもらい、それをリードに、次のフライト予約で使うポイントとして与える。これらすべては、コマースを促進する素晴らしい方法だと思います。
マイクロトランザクションやそういう線に沿ったものもあると思います。とても興味深いです。
月額200ドルプランもありますか?人々がOpenAIプランとPerplexityの両方を持っているのか、それとも片方かを見ていますか?
私のMaxサブスクライバーがOpenAI Plusにもお金を払っているかどうかを知るのは非常に難しいです。Proと呼ぶんでしたっけ。Claude Max、Perplexity Max、OpenAI Pro、Gemini Ultraのようなすべてのツールを試すために持っている人がいても驚きません。
これはすべて新しくて刺激的で興味深いからです。でも、最終的にはすべてのツールにお金を使うことはできません。だから、特定の使用例のためのツールと、他のツールがあるでしょう。少なくともClaudeはコーディングツールとして他とは差別化しています。Perplexityについては、日常的なエージェントワークフローのものとして計画しています。それがCometのサブスクリプションの主な焦点です。
ChatGPTは、みんなが知っているデフォルトのもののような感じです。GoogleについてはストレージやGoogle Photos、AIと一緒に追加するその他のもの、すべて中心とした価値提案をしようとしていると思います。
今は、これらの異なるツールのためにProサブスクリプションを持つべき理由について、すべて非常に差別化されたメッセージングです。でも、時間が経つにつれて、物のバンドルだけでなく、あなたが優秀で、他ができないコア要素に変換し始めると思います。
競争戦略と専門化
もしOpenAIがすべてを提供し、ブラウザも持っているなら、私のコーディングもやってくれるというようになりますね。つまり、人々のためにすべてになる必要があるのでしょうか?
私たちはすべてをやることは決してできないという事実と平和にしています。すべてをやることは難しいでしょう。すべてを合理的にやることはできますが、すべてを驚くほどうまくやることはできません。
私たちにとって、検索に関することなら何でも、ウェブを使ってアクションを実行することなら、これらのことで最高になりたいです。ここで数百億ドルの収益を得ることができると思います。
コマースや収益、その他すべてがどう展開するかわからなくても、マルチハンドレッド億ドルの会社を構築することができます。でも、サブスクリプションだけで大きなビジネスを構築することができるということです。
だから、それに非常に焦点を当てています。なぜ今会社を売るのでしょうか?ここにマルチハンドレッド億ドルの機会があり、実際にそこに到達したら、1兆ドルの機会も夢見ることができます。
最後に1兆ドル企業が構築されたのはいつでしたか?Facebookが最年少の会社だと思います。Metaが最年少ですか?Broadcomも1兆ドル企業になりました。Teslaも1兆ドル企業ですが、技術的にはすべてその頃に設立されました。だから、2010年代以降に設立された新しい会社が1兆ドルになってからは長い間経っています。
OpenAIが最初になると推測しています。
でも、彼らは2015年に設立されました。私たちよりもずっと古い会社です。人々はトランスフォーマーがローンチされた年に設立されたと思いがちです。それは本当ではありません。彼らはしばらく存在しています。
最初は非営利としてですが、それは全く別の話です。まだ非営利ですよね?営利団体によって運営される非営利です。実際にそれがあなたに少し優位性を与えるのかどうか気になります。
いえ、私は彼らが転換すると思います。MicrosoftとSam Altmanが両方にとって機能する構造を見つけると思います。実際に、彼らが続けることは重要だと思います。彼らは今、AI自体という言葉と当然に同義語です。彼らは続けるべきで、私たちもその技術を多く使っているし、多くの他の人も使っています。
新興AI企業の評価
Grokについてどう思いますか?これらすべての異なるモデルを見て、最近Grokが、これらのベンチマークは眉唾物で受け取る必要があるとわかっていますが、すべてのベンチマークで勝ったという話です。かなり速い軌道ですね。何もないところから…印象的ですか?
確実に、新しいモデルを構築している速度は非常に印象的です。すべて自分のクラスターでやっていて、AzureやOracleのようなものを使っていないという事実も。開始してから実際に主要ラボと同等になるまでの時間、そしてそれをやっている速度は、まったく異常です。
それはElon Muskのリーダーシップと、緊急性の意識と物事を成し遂げること、そしてそれについて効率的であることの真の証明だと思います。彼はたくさんのお金を使いましたが、人々が必要だと思うほどは確実に使っていません。
一回のリリースだけでなく、それが最も重要なことです。Grok 2はそれほど良くありませんでした。Grok 3は本当に良かった。それから4、だから、どんどん良くしていく増分リリースです。会社として非常に手強いです。
プレイヤーでは、誰が、フロンティアラボで、誰がトップに出ると思いますか?ハンディキャップをつけるとしたら?Google、今やxAI、Metaが追いつこうとしている…どう思いますか?
言うのは難しいです。勢い的に、OpenAI、Anthropic、xAI、Googleです。これらが主要プレイヤーだと感じます。
順序はないんですね。xAIをそこに入れるのはかなり注目に値します。
いえ、ここに順序はありません。勢い的に技術的に言えば、開発者のマインドシェアはClaudeとGPTが主要モデルで、Geminiもそこで本当によくやっています。
xAIは、Grokアプリを使う人はいますが、APIはそれほどではありません。でも、能力的には確実に追いついています。マルチモーダルはまだそれほどではないかもしれませんが、コア推論と数学、そういうことは本当によくやっています。
だから、これら4つが主要プレイヤーに見えます。Qwenを忘れてはいけません。Alibaba、Alibabaのモデルです。Deep Seekも別のモデルを出すのは時間の問題だと確信しています。
だから、これらがあまり評価されていないものです。中国のモデルは実際に本当に良くて、オープンソースです。実際に使うことができます。
だから、これら6つが、Deep SeekとQwenを含めて主要なものに見えます。一つのモデルだけでなく、複数やったからです。彼らも非常に速く追いつくという点で重要だと思う理由です。
それは魅力的ですね。あなたは良い窓を持っていると思います。Proバージョンではドロップダウンができるので見えますね。
私たちは、perplexityで人々がどのモデルを使っているかについて良い洞察があり、誰も使わないモデルは取り除きます。サポートするのは時間の良い使い方ではないからです。市場が決めるようなものです。
ベンチマークが明かさないことで、私たちが可視性を得ることは、人々が実際にあなたのモデルを使っているかということです。良くなければ、うまく動く他のものに切り替えるからです。
私たちは、オープンソース上に構築している独自のモデルもあり、これらのベンチマークで競争したくありません。純粋に、私たち自身のユーザーがGPTやClaudeよりもそれを採用するかどうかのためのものです。そこでも良い採用を見ています。
それは魅力的ですね。文字通り超簡単だからです。ドロップダウンを押すだけで、コストもかかりません。でも、人々は慣れてしまって、ある時点で忘れてしまうのか気になります。
そうですね。ちなみに、多くの人は一度それが強力なモデルだとと、ChatGPTがアプリとしてうまく動くので、滞在します。だから、他のアプリがChatGPTからユーザーを取るには多くのことが必要です。誰かがすでに素晴らしい仕事をしている時、本当に優秀である必要があります。
そして、noveltyものではなく、repeat使用例で特定の使用例で優秀である必要があります。例えば、Grokがやったアニメやwaifuキャラクターは、ChatGPTと違うからアプリをインストールしてもらう一つの方法だと思います。
でも、そのようなものを必死に必要とする少数の人以外は、必ずしもリピート使用例ではありません。
だから、それはmarket leaderが設定した基準で、差別化し続ける必要があることです。だから私たちはこれがラットレースだと感じ、これらすべてを玩具のように感じさせるより重要な能力は、実際にユーザーのためにやって、フロントエンドで動作し、チャットボットよりも大きくて異なる抽象化であることです。それがブラウザです。
今後の展望
時間を超過していることは知っていますが、何か他に触れられなかったことで、言いたいことやアップカミングなニュースはありますか?
今後の発表については連絡を取り合いましょうが、あなたとチャットするのは素晴らしかったし、戦略についてあなたとチャットするのはいつも楽しいです。あなたは一般的に非常に好奇心旺盛な人で、それが私たちがアピールしたいユーザーの種類なんです。それはジャーナリストにとって良い属性だと思います。でも、いつもチャットするのは楽しいです。また近いうちに話しましょう。
会話を楽しんでもらえたでしょうか。semaphore.comで印刷でもっと読むことができます。Seaphone Techニュースレターにサインアップして、テクノロジーに関するすべてのコンテンツを入手してください。週2回の無料ニュースレターです。またここでお会いできることを願っています。


コメント