パープレキシティCEOのGoogle打倒への全面的な賭け | アラビンド・スリニヴァス

この動画では、AI検索エンジンPerplexityのCEOアラビンド・スリニヴァスが、好奇心を軸とした新しいインターネット体験について語っている。従来のブラウジング体験を根本から変える同社の戦略として、AIがつまらない作業を代行し、人間がより創造的で楽しい活動に集中できる未来を描いている。特に注目すべきは、同社が開発したAIブラウザCometの革新性と、最終的にはAIネイティブなOSの構築を目指すという壮大なビジョンである。

Perplexity CEO’s All-In Gamble to Take Down Google | Aravind Srinivas

🌌 LIMITLESS HQ: LISTEN & FOLLOW HERE ⬇️ CEO Aravind Srinivas joins the show to explo...

パープレキシティとの出会い – 好奇心がもたらす未来のインターネット
予測不可能な未来への挑戦
エージェントが変えるインターネット体験
楽しさと好奇心が中心の未来
好奇心が導く人間の役割
インターネットの進化と創造性の解放
新しい検索体験の構築
新しい学習スタイルの登場
批判的思考の重要性
パーソナライズされたブラウジング体験
現在のスキルから未来のスキルへ
未来の広告とエージェント保護
アクティブ対パッシブなユーザー体験
パープレキシティの独自性と強み
バックエンドの魔法
Cometブラウザ – フルスタックへの挑戦
ブラウザ vs エージェント – フォームファクターの選択
ブラウザの進化と未来
AIアシスタントのフォームファクター競争
競合他社への対応と差別化
未来への展望 – OSという最終ゴール

パープレキシティとの出会い – 好奇心がもたらす未来のインターネット

パープレキシティのアラビンド・スリニヴァスや。リミットレスにようこそ。ありがとうございます。

アラビンド、君から何か学びたいねん。リミットレスでは一般的に、未来は今日とは全然違うもんになるって理解してるんや。多分インターネットから始まってな。

せやから、5年後にインターネットがどう変わってると思うか、そしてその考えが君のパープレキシティのリーダーシップにどう影響してるかを聞かせてほしいねん。

予測不可能な未来への挑戦

5年後の世界を想像するのは、普通の状況でも簡単やないで。しかも今は、AIが今まで慣れ親しんだペースとは全く違う速さで進歩してる世界に住んでるからな。

正直に言うと、5年後の世界がどうなってるかを本当に知ってるって言うたら嘘になるで。実際、誰も本当には分からんと思うねん。AIの能力が数ヶ月ごとに絶えず進化してるシナリオを考えるのは、めちゃくちゃ難しいからな。

3ヶ月前は、アジェンダの能力やチェーン・オブ・アクションズ、チェーン・オブ・ツール呼び出しが信頼できへんかった。輪郭は見えてたけど、今日ほどはっきり定義されてへんかった。そして今日でも、本当に一人につき一つのAI従業員を持つのに必要なほど信頼性があるわけやない。

エージェントが変えるインターネット体験

せやから確実に言えるのは、ウェブを閲覧してインターネットをサーフィンし、人々のためにタスクを実行するエージェントがたくさん出てくるってことだけや。もう楽しくないことのためにインターネットを閲覧することはなくなるで。

例えば、誰もクレジットカードの支払いなんて好きやないやろ。銀行口座間でお金を移すのも好きやない。レガシーなウェブサイトを使ってホテルを予約するのも好きやないし、レンタカーを探したり、新しい街で急に医者の予約を取ったりするためのこういう古臭いUIを使うのも好きやない。

こういうのは全部、実際にはいいウェブサイトがない分野なんや。バグが多いし、カスタマーサポートもない。電話番号をどこかで探さなあかんし、4つか5つの違う場所から詳細を見つけなあかん。弁護士を探すのも同じように難しい。今日のウェブがこういう難しい作り方をされてるのに、AIはまだこれを解決できてへん。

AIは今のところ、いろんなソースから情報を集めて要約することはできるようになった。それがパープレキシティが基本的に始めたことや。でも次のステップは、本当にあなたのために実際の作業をする、つまらなくて退屈な側面を取り除くことなんや。

楽しさと好奇心が中心の未来

そうなると、楽しいと感じるウェブサイト、喜びを感じるウェブサイトで、楽しむためだけにインターネットを閲覧するようになるで。そしてウェブサイトのオーナーたちも、AIがたくさんのコードを書けるから、実際にウェブサイトを魅力的に作ることができるようになる。

未来への賭けは、それが素晴らしいものになるってことや。めちゃくちゃ楽観的な見方をしてるねん。人々はもっと楽しむようになるし、エンターテインメントが今後数年でさらなるマネタイゼーションの手段になっていく。

君らみたいなポッドキャスターや他の多くのコミュニケーション・情報共有の形態を持つクリエイターたちが広がっていくで。そして人々は手に時間をより多く持つようになる。

AI企業が自分たちのツールをモチベートする方法の多くは「人々には時間がほとんどないから、AIに作業をやらせよう」っていうもんやけど、これは部分的にしか真実やない。人々は実際にはたくさん時間を持ってる。ただ、その作業が退屈やと感じてるだけなんや。だから時間がその隙間を埋めるために延びてしまう。

15分しかかからへん作業に2時間を割り当てても、その15分の作業がめちゃくちゃ退屈で、たくさんの退屈なワークフローを扱わなあかんかったら、結局2時間かけてしまうんや。それが人々が仕事を嫌う理由や。疲れてしまって、もう何もしたくなくなってしまう。

その部分がなくなってほしいと思ってるし、それは私たちがみんなでもっと楽しい時間を過ごし、自分たちのパーソナライズされた方法でウェブを消費することを意味する。AIが積極的に何を消費しに行けばいいかを教えてくれるし、自分たちでも消費できる。人生でどれくらいAIに依存したいかを調整することもできる。

せやから、めちゃくちゃ高い主体性と好奇心に駆動された世界になるで。だからこそ私たちは好奇心を中心としたブランドを構築してきたんや。好奇心こそが、AIの時代においてさらに重要になる人間の特性やと思ってるから。AIの使い方を知ることと同じくらい、AIが私たちがかつてやっていたたくさんのことをできるようになった世界で何をすべきかを知ることが重要なんや。

好奇心が導く人間の役割

もう少し詳しく話してもらえる？インターネットをナビゲートする上での人間の主要な推進力としての好奇心について。なぜ好奇心がそんなに重要なのか、そしてこれらの素晴らしいツールが手元にあるとき、人間の好奇心はどう変わっていくのか？

世界には、今日それを活用するのに必要なスキルの量よりもAIが多いと思うねん。ほとんどのAIはかなり優秀や。そう、すべてのAIが間違いを犯すことはあるし、幻覚もあるし、チャットボットが時々過度に媚び諂うこともある。タスクを確実に完了できないこともあるけど、現在の状態でも、コードを書いてくれたり、ウェブサイトを作ってくれたり、リサーチをしてくれたり、どんな質問にも答えてくれる能力は既に信じられないものや。

でも日常的にそれを使っている人の数と比べると、それほど高くない。ほとんどの人はまだ従来のやり方で仕事をしてるねん。

私たちにはCometっていうブラウザがある。基本的に、AIの助けを借りてYouTube動画を見ることができるんや。もうフル動画を見る必要もない。メール、LinkedInの投稿、採用メール、採用メッセージの下書きを手伝ってくれるし、連絡を取る候補者を探してくれたり、読みたくない古いメールを引っ張り上げてくれたり、スパムから配信停止してくれたりする。

こういうことを全部手伝ってくれるんやけど、まだ試したことのない新しい使い方を実際にどうやって作るかについて、時々好奇心を持つ必要がある。それは私の創造性にかかってるし、それが与えてくれる余分な主体性を実際にどう活用するかは私次第なんや。

せやから短期的には好奇心がそういう意味で役に立つと言えるで。長期的には、すべてのことでAIと一緒にいるのが当たり前になった状態を想定してみよう。その状態でも、何に取り組むか、次にどんなプロジェクトを始めるか、AIにタスクを手伝ってもらうとしても、どんな種の質問をするか、どんなオリジナルなプロジェクトを最初に始めるかについて好奇心を持つ必要がある。

それは想像力や。例えば、アインシュタインがすべての科学的ツールを持っていたとしても、光の速度で旅行したらどうなるか、すべてのニュートン力学がその領域で破綻するのか、世界の完全に新しい理解を構築すべきなのか、なぜこれが有用な質問を問うことなのかと疑問を持つのは彼次第やった。

答えを知らなくても、こういう質問をして深く掘り下げたり、アインシュタインの知恵に疑問を持って素粒子レベルで粒子と波の性質を区別したりすることは、物理学者たちが純粋な好奇心からやってきたことや。

ジェフリー・ヒントンも、脳をシミュレートするコンピュータを構築したらどうなるかについて多くの好奇心を持っていた。コンピュータサイエンスが決定論的プログラムについてだったのに、根本的にAIは基本的に確率的プログラムなんや。AIでは出力を保証することはできない。今日でも、LLMのデコーディングは常に同じではない。

人々は自分なりの好奇心のサインを持って物事を探求してきた。でも今までは純粋に学術的な練習やった。これらすべてのAIツールへのアクセスがあることで、もはやエリートに制限されることはなくなる。教授や科学者に制限されることもなくなる。

子供のような好奇心を持つ誰でも、家族に子供がいて一緒に時間を過ごすと、彼らは君をつまづかせる最も基本的な質問をしてくるやろ？それに答えられるのは素晴らしい気分やけど、同時に「うわ、実際には深く考えたことがなかった。人から言われたことやインターネットで読んだことを当然のこととして受け取っていただけや」って感じる。

そういう世界に向かってると思うねん。そしてより深く、より多くの質問をして、AIが実際に質問に答えるだけでなく、より多くの質問をするのを手伝ってくれて、ハイパーリンクやWikipedia、埋め込まれたウェブページで初期のウェブ採用者が得たような喜びを味わえるウサギの穴に連れて行ってくれる。

インターネットの進化と創造性の解放

インターネットは実際に司書や歴史家、知識人、学者を引きつけるものとして始まったんや。だからAmazonも本の販売から始めた。知識人や学者だった初期のインターネット利用者に応えたかったからな。

今日、AIが私にとってどう感じられるかというと、ティンカラーやプログラマー、知識人や学者である初期採用者によって大量に使われているんや。でもツールがますます使いやすくなって、ツールがより多くの主体性を持つようになると、好奇心のある普通の人が実際にたくさんのスーパーパワーを持つようになる。それがうまくいけば世界を非常にポジティブな方向に変えていくで。

AIとインターネットを好奇心と創造性を追求する手段として捉える君の考え方が大好きや。初めてCDROMをブートロードしたときや、初めてRunescapeに行ったときのことを思い返すねん。この新しいインターネットネイティブな世界をただ探索できた。

AIは通常、世界を自動化するものとしてブランディングされてるけど、君の好奇心と創造性のピッチみたいなのがある。AIが個人が見て探索し検索できるものを制約することと、創造のツールとして使えるものとの間には細い線があると思う？君が作る製品を構築するときに、その線をどう歩んでるのか気になるねん。

新しい検索体験の構築

私たちの製品は、整理された10個の青いリンクを消費するよりも効果的にウェブをナビゲートし検索するのを手助けするために構築されてるねん。

私の意見では、質問をするスキルすら存在しなかった。機械学習の専門用語を使えば、私たちは皆、キーワードを2つ入力して、リンクを開いて、それらのリンクを読んで、関連情報を頭の中で統合・要約し、元の質問に対する結論に到達するスキルに過適合してしまってたんや。それが過去20年間に私たちがやってきたことや。直接質問を投げかけられるツールがなかったから。

今はそれがある。だから私たちがより多くやってることは、より多くの質問をすることや。最初の質問だけやなくて、たくさんのフォローアップ質問もな。だから全く違う方法で物事を始めるようになってる。

新しい学習スタイルの登場

例えば、私自身の人生がどう変わったかを説明しよう。以前は、トピックを読んで理解したいとき、論文やブログ投稿を非常に線形的に読んでいた。文献レビューをして、その特定の資料を読むためのリソースを集めて、それを全部読んだ後で自分なりの結論に到達していた。まだたくさん質問はあったけど、これが私のやり方やったし、みんながそうしていた。

今は全然違う。例えば、私は会社のCEOで、もうどんなことにも深く入っていく時間がない。でも、みんなが話してる新しいことを学びたいとは思う。MCPがバズワードになったとき、それが何なのかを知りたかった。

Anthropicのドキュメントやブログ投稿を読んでて理解する必要はないねん。実際、書き手の視点を無視して、直接パープレキシティに行って「このMCPってのは何やねん？」って聞けるんや。「これってバズワードなのか？これってサーバーとモデルの間でJSONを移動させる違う方法に過ぎないのか、それとももっと何かあるのか？なんでみんながこれをAIやインターネットのUSBCって呼んでるんや？何がそんなに大騒ぎなんや？」

5つの異なるページを読んだ後でもたくさんの質問が残ってしまうんやから、質問から始めて、20の質問の後にたくさんのことを得てから、完全に資料を読みに行けばいいんちゃう？順序を完全にひっくり返してるんや。

これは個人的な好みや。みんなにこうしろとは言わんけど、時間がないからこうやって物事を学んでるねん。

批判的思考の重要性

同じことが私の体に起こることにも当てはまる。ワークアウトや食べる食べ物についても、ボディビルダーが推奨するダイエットや、筋肉を失わずに脂肪を減らす方法みたいなYouTube動画を20本見る必要がないねん。Cometブラウザを使って動画について批判的な質問をして、「実際にここで対照的で新しいことは何なのか教えて」って聞ける。一連の論文を参照チェックするよう頼むこともできる。

だから、私が知識を消費する方法が全く違ってきてるねん。そして、これは今後さらに素晴らしくなっていくと思う。子どもたちは、私たちが子どもの頃にしたような方法でウェブやインターネットを消費する必要がなくなる。そして音声モードのインタラクションがそれをさらに自然に感じさせるし、見てるものから文脈を引っ張ってきて質問する能力が、さらにデバイスフリーで自然に感じさせる。

次の世代にとってもっとエキサイティングやと思うねん。彼らは本当に運がいい。君らの年齢は知らんけど、多分私と同じ年代やと思う。私たちは大丈夫やった。少なくとも初期のウェブを楽しめた。

私たちの次の世代は、ソーシャルメディアの押し付けで本当に影響を受けてしまった。リールやショートを見ることで多くの知識を得るようになって、それはあまり良くないと思う。根本的にネガティブやから。

その次の世代は「私のためにリールを見て、私にとって興味深いものを教えて」って言うようになるで。私を本当に理解し、私の好みや目標・目的を知っているエージェントとの関係を信頼してるから、インターネットを消費して、私が欲しい方法で私に伝えてくれるんや。

その主体性と、AIとの信頼関係で、物事をやってもらい、ノイズをフィルタリングしてもらい、真実を求めるのを手伝ってもらい、好奇心を維持するのを手伝ってもらう。それが私たちがこの会社の製品を通じて作り上げたい世界なんや。

パーソナライズされたブラウジング体験

本質的に新しい種類のオンラインやブラウジング体験を描写してるのがいいねん。マークとリーズンにCometを見せたときに、彼が知りたがったプロンプトは「x.comに行って、私のフィードの100のツイートをスクロールして、私のブラウジング履歴に基づいてノイズをフィルタリングして、関連する20個だけを見せて」やった。素晴らしい仕事をしたで。

これがほぼリアルタイムだったらどうやろう？ウェブサイトに行って、ボタンをクリックして、このプロンプト全部を書く必要もなく、私が消費したい方法でウェブサイトをレンダリングしてくれるんや。

ウェブサイトのオーナーやアルゴリズム構築者は、すべての人に細かいレベルでカスタマイズする時間がないやろ？イーロン・マスクがXのアルゴリズムを変更すると、突然大量の政治的投稿やミーム、ランダムな動画やアニメコンテンツが表示されるようになる。なぜ突然こんなものを見てるのか全然分からない。

でも、それは彼の責任でもない。彼は会社のため、あるいは自分のために数個のメトリックスを最大化しようとしてるだけや。それは彼の財産やし、そういう世界に住み続けたくない。私たちが望む方法で物事を行う主体性を持つ必要があるねん。

現在のスキルから未来のスキルへ

現在オンラインでブラウジングや検索する世界が、今必要のないスキルに過適合してるって感じで説明してるけど、それなら今その新しい若い世代のために、どんな重要なスキルに集中すべきやと思う？

批判的思考やと思うねん。

時間をかけて身につけたスキルがある。誰かの本や伝記を読むときは、かなり中立的な人が書いたものでない限り、通常はその人のヨイショ記事なんや。通常は彼らが協力したもので、会社や彼ら自身を非常にポジティブに見せることを意図してる。だから非常に偏った視点を得ることになってしまう。

本を一緒に読んでるときに、AIに任意の章を批判的にレビューしてもらって、著者が持ってるものと対照的な視点を教えてもらいたいねん。

今、本を読むときにそうしてるねん。ブラウザにサイドカー・アシスタントを持ってて、「私と一緒にこの章で読んだことに基づいて、著者がここで間違ってる可能性があることで私が注意すべきことを教えて」って頼む。これは私がより多くの視点を求めてるだけや。ピーター・ティール的な対照的イデオロギーやな。対照のために対照してるわけやない。すべての可能なことを知りたいだけなんや。

その批判的思考は絶対に不可欠になるで。そして、欲しい方法ですべてを消費できるという理由で、エコーチェンバーに入らないようになる。だから、それがほとんどの人の心を開いて、ウェブで見るたくさんのことに疑問を持つようになることを願ってるねん。

ウェブはたくさんのAIスロップで満たされることにもなるで。AIが素晴らしい技術やから座ってライドを楽しめばいいっていう印象を与えたいわけやない。たくさんのスロップがある。たくさんのAI生成偽情報がある。本物かどうか分からないほどフォトリアリスティックなAI生成動画がある。そして、コンテンツはインターネット上で人間よりもAIによってずっと多く書かれるようになる。

これと戦う唯一の方法は、実際に私たちのようなAIや他の人が構築してる、真実を求めるのを手助けし、あまり努力しなくても適切な種類のプロンプトを通じてそれに導いてくれるものの助けを借りることなんや。

未来の広告とエージェント保護

エージェントが買い物や旅行予約をしてくれる世界を想像してみ。このようなことをする会社が、ユーザー自身ではなくエージェントの注意を引こうとする広告主を抱え込もうとする世界があるかもしれん。エージェントレベルでの広告や。そのとき、それを望まないユーザーをどう保護するんや？

潜在的に機能する方法は、ユーザーとエージェントが独自の契約、握手を持つことなんや。それはすべてシステムプロンプトの形になってて、そのプロンプトは保護される。注入することはできない。これは今日は存在しない。今日は何にでもプロンプトインジェクションができるから、今日は機能しない。でも、私たちが確実にこれを行える未来を想像してみ。

そうなると、広告主がエージェントに他の商人よりも自分たちを優遇させようとしても、ユーザーのエージェントへのプロンプトがそういう広告メカニズムから彼らを守ってくれるんや。

せやから、現在のシステムのこういう発達したバージョンがすべて必要なんや。今日はまだ生まれたてや。インターネットの初期のような感じや。でも、AIスロップや広告やその他すべてに対して人々が今後も保護されるように確保したいと思ってるねん。

アクティブ対パッシブなユーザー体験

UXデザインには、より良いUXは人間のクリック数を少なくすることを意味するという概念がある。欲しいものを得るためのタップ数を減らせばいいってのが、一般的にいいUXやと考えられてる。

AIエージェントにも同じような感情が適用されてるのが見えるねん。「ユーザーの代わりにAIエージェントが実際に物事をやってくれる」ってな。それは人間を非常に受動的な役割に置いてしまう。それにはプロとコンがあると思うで。時々、そんなに深く考えたくなくて、ただエンターテインメントを受けたいときがある。それは気分をよくしてくれる。

でも、デフォルトモードとして脳がより頻繁にオフになることのコストも心配してるねん。パープレキシティをデザインするとき、このアクティブ対パッシブな人間がドライバーシートにいることについてどう考えてる？物事を自動化できるときと、でもこれらのツールを管理する際により積極的なドライバーを奨励したいときのトレードオフをどう考えてる？

いい質問やな。プロセスでユーザーをアクティブに保つという意味でそれについて考えてるねん。少なくともGLP1について深いリサーチをしてもらうようにパープレキシティに頼むエージェントクエリでは、エージェントが戻ってきてユーザーに明確化質問をして、ユーザーがより多くの入力を提供できるようにしてる。

Chat GPTも同じことをしてると思う。Chat GPTはユーザーに返答を明示的に強制する。パープレキシティはユーザーに返答を強制しない。私たちの方がいいデザインやと思う。なぜなら、トピックについて何も知らないときは、返答するのに十分な知識がないから、返答が重要やないことがある。だからユーザーの返答でブロックされる必要がないねん。

でも、これは少なくともエージェントを一緒に連れて行って、欲しいことをするように導く一つの方法や。それから、例えばCometブラウザで何かを買うように頼むと、進行する前にまだ確認を求めてくる。「これは100ドルになりますが、本当に使いたいですか？」のような警告を出してくれる。だから、作業をしながらでも脳をアクティブに保ってくれるんや。

でももっと哲学的なレベルで君の質問を見てみると、エージェントをある時点で信頼して、彼らが君より賢くなったとしよう。それは君より賢い人を雇ったようなもので、なんでもうその人をマイクロマネージメントする必要があるんや？そしたら脳力をどこに使うんや？

それは会社を運営してて、2人の人を雇って、彼らが世界クラスで、すべてをやってくれて、君が仕事に現れなくても会社がうまく回るようなものと大差ないねん。そしたら何をする？別の会社をするか、現在の事業をさらに成長させるのに役立つ現在の事業に隣接する別の事業を始めるか、または同じ会社内で異なる人々を雇ってより多くの賭けをして、会社内でできることを拡大しようとするんや。

もしじっとしてて何もしなかったら、確実に認知機能の低下が起こると思うねん。そして、AIが私たちのためにたくさんのことをできて、それを当然のこととして受け取ってしまうAIの時代では、それがさらに当てはまると思う。

ビル・ゲイツは、AIが本当にうまく機能する世界では、人々が週3日や2日の労働をするって言ってるけど、それはオーケーやと思うねん。ちなみに、人々が週に2、3日しか働かずに残りの4日はくつろぐような未来に反対してるわけやないで。週5日ってのは産業革命が私たちにもたらしたもので、ヘンリー・フォードが主要な理由の一人やった。その時は、生産効率を最大化する唯一の方法が人々が工場に現れて作業することやったからな。

その後、機械がより多くのことをするようになって、人々は異なる種類の仕事を見つけるようになり、ソフトウェアやインターネット、すべてのこれらのことが、私たちがこれらすべての変化に対処するために進化してきた方法なんや。

だから、私たちが自分たちを忙しく保つためのより多くの方法を見つけるのは確実やと思うねん。同時に、ハイキングや写真、コンテンツ創作、ポッドキャスティングなどの他の情熱を追求してただリタイアする人々もいるやろう。多くの異なる方法で自分の人生を持つことができる。そして、それが世界をより多次元的にしてるんや。

サンフランシスコは一次元的すぎるって言う人がいる。ここに来ると、テック兄ちゃんにしか会わない。みんなカフェでAIについて話してて、誰も楽器を演奏する人やアーティスト、ステージショーやスタンドアップコメディをする人に会わない。ニューヨークやロンドンに住んでる人は、バーに行くといろんなタイプの人に会える。そしてエンジニアもいる。ニューヨークにはたくさんの異なるタイプの人がいて、それが多くの人をその都市に惹きつけるんや。

AIがますます良くなることで、社会が世界的にそんな感じになるかもしれんと思うねん。いくつかの都市だけに制限されるんやなくて。

パープレキシティの独自性と強み

アラビンド、人々はパープレキシティを愛してるねん。友達に君が来るって言ったら、みんな興奮してた。スポーツスコアや天気、ギャンブルの提案にいつも使ってるねん。

人々がパープレキシティに親近感を抱いてる理由を理解するのを手伝ってほしい。もし私がユーザーで、このポッドキャストを聞いてる人で、Chat GPTやGeminiを使ってるけど、パープレキシティの利点が何なのかよく分からないとしたら、あなたのサービスを使いたくなる独自の利点や、その約束を実際に果たすためにバックグラウンドで何をしてるかを説明してもらえる？

第一に、私たちは正確性と知識を中心としたブランドを確立してる。だから、あらゆることについて君とチャットすることを意図したAIチャットボットではないねん。Chat GPTに行って「今日は悪い日だった、やる気を出してくれる？」って言えるけど、パープレキシティはそのためのものやない。

だから私たちは、検索とリサーチと知識と事実に優れた製品と、チャット相手やコンパニオンとして優れた製品を一つにまとめようとはしてない。GeminiやChat GPTはそれをやろうとしてる。だから本当に一つのこと、つまり知識と事実とリサーチに最適化した結果、ピクセルあたりの情報帯域幅という面で最も消費しやすい形でユーザーに答えを提供するのがより上手になったんや。

それに、同じ答えを出すのもより速い。だから、ユーザーが非常に精密なプロンプトを書く必要がなくても、私たちは彼らの意図を理解して、より速くより良い答えを出すことを本当に気にかけてるねん。

君が言ってたスポーツスコアについては、ゲームのスコアを尋ねるときは、答えをテキストの壁で返すわけにはいかんから、たくさんの作業をしたんや。それは楽しくない。ウィジェットが欲しい。君の脳はそのピクセルを消費することに慣れてる。ライブアップデートが欲しい。株式グラフも欲しい。時々、会社の売上や財務について深く掘り下げたくない。そのためのダッシュボードをたくさん作ったんや。2つの異なる株式を比較できるようになりたい。過去のスコアについてより深く調べたり、フォーミュラ1の場合は、ゲーム中のライブアップデートを追跡できるようになりたい。

だから、可能な限り最高の情報帯域幅で情報を提供するために多くの作業をしたんや。消費可能なピクセルでな。まだ完成してない。テニスではまだ良い仕事をしてないと思うし、サッカーでもまだ遅れてると思う。

まだやるべき作業がたくさんあるけど、少なくともこれについて十分気にかけてて、世界の何でもかんでもについて質問するために人々が私たちのところに来れるようにしたいと思ってるねん。それが究極の回答エンジンを構築する私たちの考え方や。

バックエンドの魔法

どうやってこれをやってるんや？パープレキシティでクエリを入力するとき、舞台裏で何の魔法が起こってるんや？異なるモデルにクエリをルーティングするOpen RouterのCEOと最近話したけど、君らはただデータを集約してるだけなんか？ウェブをスクレイピングして自分のモデルと一緒に提供してるんか？検索ボックスでエンターを押すと何が起こってるんや？

すべてのクエリが分類されるねん。時々はスポーツクエリ、時々は天気、金融、またはウィジェットを必要としない通常のクエリや。すべてのクエリが分類されて、分類器によって、私たちがジェネレーティブUIと呼ぶ異なるUIが、クエリごとに生成される。

そして、本当に正確な事実を必要とする特定のクエリについては、ウェブリンクだけを使いたくない。リアルタイムのデータダンプを提供するデータプロバイダーを実際に使いたいねん。それが金融、スポーツ、天気に必要なものや。だからそれをやってる。

いくつかのクエリでは、実際にマーチャントやホテルの在庫、そういうものが必要や。だから旅行やコマースでそれをやってる。いくつかのクエリでは、地元のレストランのデータプロバイダーが必要や。例えばYelpでそれをやってる。他のクエリでは、一束のリンクを引っ張ってきて、その中のコンテンツを要約する通常のウェブが必要なだけや。だから、ほとんどのクエリでそれをやってる。それがロングテールや。

そして、マークダウンやテーブル、または1段落か2段落でフォーマットするか、クエリが電話から来たかウェブから来たかを決めたい。電話から来た場合は、人々は電話でたくさんのテキストを読みたがらないから、もう少し簡潔にしようとする。

それから、少し曖昧な特定のクエリについては、より長く推理して考えたいかどうかも決めたい。例えば、トップ5の億万長者と彼らの妻の年齢差を尋ねたいとしよう。トップ5の億万長者は誰か？彼らの妻は誰か？この10人の年齢、誕生日は？そして違いを計算したい。だから実際にいくらかの推理をしてから、テーブルの形で答えを出す必要がある。

だから、モデルはクエリに基づいて、どの程度の推理と何ステップの推理を適用するかを自動的に適応しなあかん。それもすべて分類器の決定に基づいてるねん。

だから、私たちは基本的に、人類の好奇心と知識のニーズのための、この巨大で複雑な情報ルーターを構築してると考えてもらえばいい。それが基本的に私たちがやってることや。そして、これをすべての言語、すべての種類のクエリ、すべての種類の縦割り、すべての種類の基本的な日常タスクで規模を拡大できれば、そこには途方もない価値がある。モデルを所有してるかどうかは関係ない。

どのクエリにどのモデルを使うか、どんなUIを使うか、クエリごとにどの程度の計算を適用するか、答えの大部分を正しく取得し、楽しい遅延とUIでそれを行うことを知るルーターの価値こそが、基本的に私たちの目標なんや。

Cometブラウザ – フルスタックへの挑戦

今、私たちはこのツールセットを持ってる。複雑さを取り込んで一つのデータセットにまとめてるし、いくつかのことで本当に優秀やと思える。スポーツについて言及したし、たくさんの人がTwitterで実際に、チャートをたくさんやってくれるから、金融面でパープレキシティがBloombergに取って代わることを懇願してるのを知ってる。これらのカテゴリーのいくつかで本当に強いようやけど、実際に時間と努力を注いでるのはCometというブラウザ自体なんや。

Cometについて人々に紹介したいねん。知らない人のために説明すると、これは君らの新しいAIブラウザなんや。しばらくの間、パープレキシティは借り物の土地に住んでるような感じやった。パープレキシティを使うには、通常ChromeやSafariに行ったり、君らにネイティブやない別のブラウザを使わなあかん。でも今やってることは、実際にフルスタックを作ることなんや。デスクトップからブラウザを作って、アプリケーションを実行して、スタック全体をコントロールする。

Cometとは何で、どう機能するかを紹介してもらえる？

Cometは基本的に思考の速度のブラウザと呼んでるねん。ブラウザにいる間にたくさんの考えを持つけど、頭の中にあるすべてのタスクに時間がかかりすぎるから、実際にはそれらすべてを完了することができない。

だから、Cometは非常にネイティブな方法でパープレキシティとブラウザを統一することを意図してる。パープレキシティは答えを与えるだけから、君のためにアクションを実行することへと進化する。そして、パープレキシティはウェブからコンテキストを引っ張るだけから、ブラウザ履歴、Google Calendar、Gmail、以前に開いたことがある他のタブ、Slack、他のワークスペースツールなど、すべてのコンテキストを引っ張ることへと進化する。

だから、関連するすべての個人的コンテキストとウェブコンテキストを引っ張ってきて、検索バー、サイドカー、新しいタブページで、君と一緒にどこでもアクションを取る代理権を持つことができる。どのウェブページにいても、コンテキスト的に君を助けるねん。それが最も重要なことや。

君の仕事は何らかのコンテキストから始まる。Google Docにいて、そのドキュメントを編集するのに助けを求める。Google Sheetsにいて、ウェブから情報を調達してシートを埋めるのに助けを求める。何らかの作業をしてて、何かを下書きするのに助けるために、同僚とメールで交換した過去の関連コンテキストを引っ張ってこようとしてる。誰かとインタビューしようとしてて、彼らのすべての背景資料を引っ張ってきたい。

「明日の日のために私を準備して」ってただ頼みたいだけで、プロンプトの一部としてそれを君のためにやってくれるんや。私たちはただもっと直感的で、もっと個人的な検索で、もっと個人的なコンテキストで、実際に退屈なウェブサイトを扱うつまらない側面を取り除きたかっただけなんや。

それがCometが意図してたことで、本当に素晴らしいスタートを切った。ほぼそこまで来てるけど、まだ完全やない。そして、それこそが君がいたい場所やと思うねん。モデルがより良くなる波に乗って、完全な信頼性でループを閉じたいからな。

ブラウザ vs エージェント – フォームファクターの選択

知能について、時間とともにどう改善されるか、そしてもっと重要なことに、この成長曲線を上っていく中で私たちがそれとどう関わっていくかについてよく考えるねん。そして、私が到達した結論は、ブラウザとは少し違うようなんや。

ブラウザについて考えるとき、君が前に言ったように、基本的に2つの用途がある。2つのバケツがある。生産性とレジャーや。生産性は君がする仕事の種類で、エピソードのアジェンダ準備をしたり、洗剤を買ったり、旅行を予約したりすることや。

それからレジャーは、YouTube動画を見たり、Netflixを見たり、Xのタイムラインをスクロールしたりすることや。それは私にとって非常にユニークで人間的に感じられるし、それを保持したいと思う。それは私にとって特別に感じるねん。

だから、生産性のバケツはエージェントを通じて抽象化されると想像してるねん。数週間前はちょっと非現実的に思えたけど、OpenAIのエージェントを試してみたら「おっ、これはちょっとクールやな」って思った。ブラウザのすべてのインターフェース、複雑さを明らかに取り除いて、ただ答えをくれるねん。私の好みスタックを理解して、すべてを知ってる。

すべてのインターフェースや広告を取り除いて、探してる答えを提供するエージェントワークフローに直接行くのではなく、実際にブラウザのフォームファクターを保持するという設計決定について興味深いねん。

作業は君がいる場所から始まるねん。空のチャットボットからやない。例えば、君が実際にメモの下書きの途中で、Slackで同僚と既に議論したことからコンテキストを引っ張ってきたいとする。

メモをコピーペーストして「DavidとYasと議論した過去のコンタクトを引っ張ってきてくれる？」って聞きたくないやろ。君のすぐ隣にアシスタントがいて、「ここで私が見落としてる関連コンテキストを引っ張ってきてくれる？」って言いたいだけや。Slackから引っ張ってこいとか言う必要もない。何を引っ張ってくるかを自動的に知って、その場で君のために編集してくれるんや。

他の利点は、このタブを絶えず切り替えて、ここからコンテキストをコピーペーストして、あそこから出力を取って別の場所に戻すという作業が、君がいる場所にネイティブに組み込まれてるときに節約されることや。

アーキテクチャ的決定という面では、チャットエージェントはCometブラウザよりもはるかに遅いねん。人々が比較をしてて、チャットエージェントで11分かかることが、Cometでは恐らく1分未満でできる。クライアント側で情報を解析して、フロンティアモデルの推理にはサーバー側を使うけど、クライアントブラウザの完全なサーバー側セッションを作成して、そこですべての計算をする必要がないという利点がたくさんあるからなんや。

モデルが実際にホストされてる場所との間にまた別のラウンドトリップがあって、結果をクライアントに送り返すのは、非常に遅くて信頼性がなくて、時々リトライで詰まって何が起こってるか分からない状態になる。

クライアント上で完全にコントロールを持つのに比べて、それははるかに安全やねん。パスワードを伝える必要がない。すべてがローカルに保存される。すべてのコンテンツがローカルや。サーバー側で君がやってることのセッションについて心配する必要がない。そして、クライアント上の情報とサーバーで実行されてるモデルとの間の双方向通信だけがあるから、すべてがはるかに速いねん。それだけや。

例えば、XやNetflix、YouTubeでも助けを求めたいかもしれんやろ？YouTubeにいて、「この人たちがアラビンドとやったポッドキャストがあって、アラビンドがChat GPTエージェントについて言ったことを正確に取得したい。彼がこのことについてだけ話してる部分を正確に編集してクリップを出して、別の動画としてYouTubeにアップロードして見るのを手伝って」って言いたい。

まだこういうことすべてはできないけど、起こることの地平線上にある。正確な時間スタンプから引っ張ってきて、Chat GPTエージェントをコマンドFで検索して、私がいつ話し始めたかに関してプレイバックスライダーを動かす必要がない。そんなのは必要ないねん。はるかに良いんや。

YouTube全体のトランスクリプトを引っ張ってきて、後で君の次のことに使ったり、誰かに素早く送ったりする個人的なタスクも手伝ってくれる。YouTubeを見ながら、サイドでディナーの予約を取りたいかもしれん。すべてができるし、エージェントが進歩してるかを見たいかもしれんし、コンテンツを消費することもできる。すべてが一つの環境でもっとシームレスで統合されてるねん。

ここ20年、30年近くで人類が構築した中で最も粘着性のある製品なんや。ブラウザを使ってきた。確かに少し変わった。Firefoxはタブの概念を革新した。Googleは個別のプロセスとしてのタブの概念を革新したけど、それ以外はあまり変化がなかった。

初めて、慣れ親しんだフロントエンド、慣れ親しんだUIで、でももっと多くの代理権を与えることができるようになったんや。それが基本的に私たちが決めたことや。

最終的に代理権が非常に信頼できて、実際にブラウザを全く開く必要がなくて、新しいタブページに入力するだけですべてをやってくれるようになっても、それは完全に構わない。でも、人々がまだ仕事をするけど、もっとたくさんのAIの助けを借りて仕事をし、でもすべての代理権を保持する未来を考えてるねん。そういう未来を信じてるし、AIをブラウザに直接組み込むのがより良いアプローチやと思うねん。

ブラウザの進化と未来

ブラウザは35歳、1990年からや。だから長い間使ってきた。明らかにめちゃくちゃ粘着性がある。Cometブラウザを使うことの特典を君が言うとき、同感やねん。実際に優雅にもアクセスをもらって、テストして試すことができたけど、すべての統合が組み込まれてるから、エージェント機能を使うよりもはるかに速かった。私のGoogleアカウントがあったし、すべてのログイン統合があった。

でも君への質問は、最終的に彼らが実際に速くなって、エージェントがその時間と遅延を崩壊させて、仮想マシンをスピンアップする必要がなく、それほど時間がかからず、本当に真にブラウザレスな体験になったとき、どうなるかってことや。

人々がそれを現実にもたらして、多くのインターフェースを取り除くハードウェアデバイスに取り組んでるのを知ってる。ブラウザが今後も継続的なフォームファクターになると思う？それとも最終的にCometがトップに小さなタブがついたボックス以上の、もう少し抽象的なものに進化すると思う？

情報消費のフロントエンドとしてブラウザが関連し続ける必要があるとは特に思ってない。ブラウザが関連性を保つために必要やとは思わんねん。それが全体のポイントや。

エージェントが実際に君のための作業をする抽象化されたエージェントが作業をするのにかかる時間は、モデルがより知的になることによるボトルネックやない。それは純粋に、君のブラウジングタブや第三者サービスのそれぞれに対してサーバー側セッションをスピンアップするというアーキテクチャ的選択なんや。

モデルはこれらのウェブサイトをコントロールする面でより知的で信頼できるようになるけど、根本的に起こってることは、サーバー側でブラウザセッションをスピンアップしてるだけなんや。それが起こってることすべてや。

そして、クライアントでもサーバーでも、ヘッドレスでもフロントエンドありでも、これを行うブラウザのインフラが必要やねん。これを行うためのインフラすべてが必要なんや。

Cometで「Door Dashでこれを買って」って頼むとき、実際にDoor Dashを開いてエージェントにピクセルでレンダリングさせて、エージェントにクリックさせてるわけやない。JavaScriptを直接消費してそこでアクションを取るという、はるかに効率的な方法でやってるねん。何が起こってるかを見るために進歩バーという形でフロントエンドを提供してる。それは透明性とユーザーの信頼性のためやけど、エージェントは君が消費する方法で消費する必要がないねん。

だから、それは本当にサーバーかクライアントかの決定やない。もっと実際にどこから始めるかや。ほとんどの時間をどこで過ごすつもりなのか？ほとんどの時間をチャットボットで過ごすつもりなのか？その場合は、ブラウザをクラウドに戻してチャットに留まってもらうのが理にかなってる。でも、それが私たちのあり方やない。実際にほとんどの時間をブラウザで過ごしてる。チャットボットを別のタブやGoogleを別のタブ、パープレキシティを別のタブとして開いてる。でも主にブラウザにいるねん。

君と私は今Riverside上にいる。Riversideを今Cometで録画してるねん。以前はChromeでしか動かんかったけど、今は動く。バグを修正したからな。

だからここがポイントや。Riversideにいる。話してる。Cometに私たちが話してる間に聞いてもらって、私たちの会話に組み込んでもらいたいかもしれんし、一緒にポッドキャストに来てもらったり、君たちが見逃すかもしれない質問に答えてもらったりもできる。ずっと単一のチャットボットウィンドウに留まってると、こういう体験すべてを見逃してしまうねん。空っぽに感じるし、新しいコンテキストがいつもないねん。

一方で、ブラウザでは、TwitterやLinkedInを開いて、いくつかのフィードをスクロールするだけで、君の世界は既に混沌として興味深くなってるねん。ずっとチャットボットに留まって、いつもチャットボットに何のプロンプトを追加するかを考えなあかんのでは、そういうのを全部見逃してしまうねん。

だからこそブラウザの方が興味深いと思うんや。コンテキストが絶えず入ってくるから。だから、それでできることについて好奇心に限界がないねん。

AIアシスタントのフォームファクター競争

ここで起こってると思うことは、AIがただやってきて私たちの生活のあらゆる異なる方法を改善し、それがこれらのアシスタントを通じてやってくるという概念があることや。

ブラウザモデル、このコメットモデルで私が見てることは、パープレキシティでやってることは、ブラウザフォームファクターがOpenAIやその他のところからのこれらのLLMモデルの無制限の知能を取って、最も有用なアシスタントフォームファクターやっていう賭けをしてるってことや。「よし、アシスタントを実際にただのブラウザにしよう」って賭けをしてて、ブラウザのフロントエンドを保持するかどうかに関係なく、ブラウジングを必要としない他の競合他社がいるかもしれんってことや。

そしてモバイルでは、実際にユーザーとしてウェブで使わないと思うねん。モバイルでは、実際にモバイルブラウザでタブを開くことはない。x.comをモバイルブラウザで開くことはない。Xをアプリとして開くねん。

だからモバイルでは、アシスタントがブラウザ機能を利用する方法は、第三者アプリを呼び出すことや。OSが第三者アプリを呼び出すことを制限してるから、他のアプリとして、Door Dashを開けない、Uber、Amazon、Twitter、LinkedInを開いてそこで君のために作業をすることができないねん。OSがそれを許可しないからな。

Siriは潜在的にそれができるけど、それはアプリでさえないからや。OSにネイティブなんや。だから、ブラウザを明示的なスタンドアロンアプリとして持って、そのクラウドサーバー側を実行させるか、クライアント上でバックグラウンドプロセスとして実行することで、ただ質問に答える以上にアシスタントにできることに関して多くの柔軟性があるねん。

そして、こんな感じの製品がいくつかあると思うねん。君の周りで有用なAIのフォームファクターを作ろうとしてる製品が。その一つがブラウザや。君が言ったように、私たちはブラウザでとても多くの時間を過ごすから。

もう一つは、人々が直感的に競合相手として考えてないかもしれんけど、私は同じカテゴリーで見てるのは、ペンダントのようなもの、物理的なデバイスや。それもただ別のフォームファクターで、AIを使って君をアシストすることになってる。これはブラウザやないけど、現実の生活で君と一緒にある何かや。デスクトップから離れてる。電話から離れてる。電話はポケットにあるけど、君をアシストして人生をより良くするはずの別のフォームファクターなんや。

君が構築してるカテゴリーをそんな風に見てる？有用なAIアシスタントツールを作るために可能な限り最高のフォームファクターを作ろうとしてるだけなんか？

確実にそうや。ブラウザから引っ張ることができるメモリとコンテキストは、私の意見では二番手に回るものがないねん。

人々がペンダントや、チェーンのネックレスにつけられるものを信じてるのは、主に君が話してることすべてを記録するようなものを改善してると思うからや。でも根本的には、君の電話やMacBookのバッテリーを利用するブラウザがやることと比べて、物事を保存する効率の悪い方法で、バッテリーを消耗するねん。

ブラウザはバッテリーとメモリをより少なく消費するように作るためにたくさんのエンジニアリングリソースが投入されてるし、コードもよく理解されて最適化されてる。チップもはるかに強力や。それがペンダントに欠けてることや。電話のBluetoothを絶えず消耗させて、サーバーに物事をアップロードし続けなあかん。電話のインターネット接続を使い続けなあかん。

だからそのためのものやないし、それほど多くを記録する必要すらないかもしれん。やり過ぎに感じる。一方で、君が行ったすべてのウェブサイト、メールやカレンダーへのアクセス、参加したすべてのミーティング、フライト、ディナーの予定を持つことで、ブラウザのコンテキストを通じて君を助けるために既にとても多くのことを知ってるねん。

それに、常にこのデバイスを持ち歩いて人々の許可なしに録音することに関して、私にはより気味が悪く感じる。一方、ブラウザは君自身の個人的なコンテキストだけを取得し、しかも君自身の許可でのみや。ちなみに、シークレットモードで物事を選択することもできる。それがブラウザが持ってると感じる別の利点や。

特定のミーティングを電話に録音してもらいたい場合は、いつでもそれを選択することができる。かなり簡単やねん。録音アプリ、既存のアプリに録音ボタンがあって、すべてのコンテキストをログして、ローカルドライブ、アプリ自体に投げ込むことができる。ローカルにクライアント上に保存できる。サーバーにプッシュする必要がない。そこからコンテキストを引っ張ることができる。ブラウザはこういうことすべてができる。こういうことすべてをするのはかなり簡単やねん。

だから、ハードウェアをそんなに信じてないんや。ハードウェアがAirPodsレベルに到達したとき、非常に興味深いと思う。AirPodsを持ってて、歩きながらそれに話しかけることができて、カメラがあって、レストランやメニューについて質問できて、オンラインショッピングをする全く新しい方法を与えてくれるとき。

グラスやAirPodsで多くの利点がある。グラスは物事をレンダリングするのを手助けしてくれる。AirPodsは見て話すのを手助けしてくれる。だからそういうのは信じてる。

でも、君が話したり言ったりすることすべてを録音して、それをすべてコンテキストとして取って、サーバー上のチャットにプッシュする必要があるデバイスは信じてない。それは必要やないと思うねん。

競合他社への対応と差別化

ジョシュは前に異なるフォームファクターについて行ったり来たりで話してて、カメラ付きのAirPodsですべてを見て感じることができるものを予想してたな。

アラビンド、パープレキシティは最初の主要なAI企業でAIブラウザを出したよな。そして、OpenAIやGoogleが新しいブラウザや強化されたブラウザをリリースしようとしてることはもう秘密やない。君が以前Y Combinatorでのポッドキャストで言ったと思うけど、GoogleがAIを検索エンジンに直接統合せずに、別の種類の検索エンジンを作ったりしなかった理由は、同じように機能しなかったり動作しなかったりするからやったよな。

私の質問は、もしOpenAIが明日ブラウザをリリースしたら、パープレキシティCometが他のみんなよりも持ってる主要なモートは何やと思う？君が描写するこれらの自然で直感的な人間のフローなのか、それともこれらのエージェント的なフローなのか？どこで最もうまくプレイするつもりなのか理解するのを手伝ってくれる？

ブラウザに取り組むつもりやってのは、既にプレスで伝えられてるからな。

モートは明らかに、より良い製品を持つこと、より速く動くこと、私たちが既に出荷したものだけやなくて、日常的なブラウジングタスクのためのClaude Codeに相当するような長時間実行プロセスに関係する新しい物事を出荷することになると思うねん。

ブラウザを人生のためのIDEとして考える人もいて、そうするとコーディングエージェントが根本的に欠けてる部分かもしれん。今はリアルタイムでその場で物事をしてくれる同期エージェントがある。

でも、バックグラウンドで物事をしてくれたり、もっと長い時間をかけるけど、もっと長いコンテキスト管理、ステートフルメモリを必要とする、一緒に縫い合わせる必要があるより困難なタスクを引き受けることができる非同期エージェントは、まだ欠けてる。だからそれを構築する必要がある。彼らもそういうことすべてに取り組みたいと思うやろう。だから、モートは誰がより良く実行するかから来ると思うねん。

そして、機能を出荷するだけのチャットボットとは違って、ブラウザは、マルチプラットフォームで、絶えずアップグレードして、たくさんのバグ修正をして、OSの多くの異なるバージョンを扱わなければならないという、モバイルとデスクトップの両方での大きなコミットメントなんや。

クライアントとサーバーの間で何が残るかのたくさんのアーキテクチャ的決定。セキュリティ、プライバシー保証、職場で安全に使うための企業版。たくさんのコンテキスト処理のバグとエラー。新しいモデルと絶えず対処しなあかん。一つだけやなくて、複数のモデルを使う能力を持つこと。だから、異なるモデルでのアジェンダ能力はいつも同じになることはない。

計算クラスターの構築やStargateやSora動画生成、チャットボットコンパニオンシップ、画像生成、検索など、20から30の異なるプロジェクトをやってるモデル会社と、超製品集中型の会社である私たちとの間には多くの利点があるねん。ブラウザは彼らにとってはそのうちの一つに過ぎんけど、私たちにとってはすべてなんや。だから、家を賭けてるんや。

もし私たちが資金調達がほとんどない非常に小さなスタートアップやったら、明らかにまだ負けるやろう。でも幸いなことに、そうやない。合理的な流通があるし、たくさんの資金調達もある。だから、たくさんの素晴らしい人材がここにいる。だから、OpenAIのような確立された会社が同じことに取り組みたいと思っても、非常に自然な賭けやと思うねん。それは私たちのテーゼをさらに検証するだけや。

そして、オープンソースモデルがフロンティアモデルの能力に追いつくし、今日やってることについてはクローズドモデルから移行できるようになるって事実にも賭けてるねん。今日できないことについては、まだクローズドモデルを使うやろうけど、新しい最先端のことについてはな。

未来への展望 – OSという最終ゴール

君たちは最初にAIまたは主要なAIブラウザをローンチした。もし未来に向けてフォームファクターについて考えるとしたら、ハードウェアデバイスはあまり好きやないって言ったけど、もしブラウザを将来的に拡張するとしたら、次に何を構築する？

前にも言ったことやけど、ブラウザの次の唯一のステップはOSやと思うねん。それが最終的なフロンティアや。

多くのエージェントをするためにブラウザを構築する理由は、iOSやAndroidをコントロールできないからなんや。面白いことに、Androidはオープンソースやからコントロールできると思うかもしれんけど、違うねん。フォークして、Androidを望む通りにできるけど、Googleからの承認を得ずに、電話メーカーに君のバージョンのAndroidを出荷してもらうことは本当にできないねん。

そして、彼らがデフォルト検索やないなら、Play Storeや、Google Maps、YouTube、Gmail、Calendarなどの主要なGoogleアプリなしで、Androidのバージョンを出荷させてくれることはない。そして、彼らが自分たちのアプリを出荷させず、他の人が君のAndroidバージョンで自分たちのアプリを出荷させないなら、電話メーカーはどの市場でもそんな電話を売るインセンティブすらないねん。

だから、基本的にはアプリストアを必要としないように、他のすべてのアプリを呼び出すことができるスーパーアプリを構築しなあかん。でもそれが、ブラウザが必要な理由なんや。ブラウザが本質的にすべてのアプリになって、Uberを呼んだり、Amazonで物を買ったりできるようになって、ジェネレーティブUIがすべて速くて機敏で、アプリを見逃してるように感じないようになったときでも、人々にメッセージを送るためにX、Instagram、WhatsAppのようなものがまだ必要やねん。アプリがないことを回避するのは非常に難しいねん。

だから、Play Storeを無視して、君と一緒に新しいバージョンのAndroidにアプリを出荷するよう、実際にソーシャルメディア会社や他の人々を納得させなあかんっていう、ブラウザを出荷することよりもはるかに大きなビジョンやと思うねん。そして、Samsung、MotorolaやOEMの中で最大のところに、実際にこの電話を市場に出荷するよう納得させなあかん。

それが究極の終着点で、私たちがそれに取り組む準備ができてるとは思わんねん。そこに到達して、それを試す権利に値するための最良のステップは、本当に素晴らしいモバイルブラウザを出荷して、これで多くの流通を得て、製品の信頼性と遅延を、人々がブラウザをすべてのアプリのように感じ、それ自体でOSのように感じ、新しいバージョンのAndroidを持つ新しい電話を実際に試してみる気になる程度まで、本当に改善することなんや。

それが軌道の最後のステップを完了したとき、それが私の意見ではGoogleの独占の真の終わりになると思うねん。彼らはここで何もコントロールできないからな。Androidでは、何がデフォルト検索かをコントロールしてるし、彼らの収益の68%はモバイル広告なんや。

だから、Googleをデフォルトから削除して、すべての検索ニーズにアシスタントを使わせて、シームレスな方法でウェブと情報、すべてをナビゲートできるようにしたら、検索広告での収益のほとんどが結果的に急落するねん。だから、電話での流通を通じて実際に市場シェアを得る必要があって、それにはSamsungのような大きな電話メーカーが君をバックアップする必要がある。

だから、エージェントの周りで良いビジネスモデルを構築しなあかんし、この新しいフォームファクターを通じてインターネットやサービスを体験したい人々のための購読収益もな。だから、これらのことが起こるために世界はかなり変わらなあかんねん。

パープレキシティを短期的なプロジェクトとして取り組んでるわけやない。これすべてを実現するのに10年はかかるし、その過程でのベビーステップがある。Cometはそれに向けた最初のステップなんや。

この回から学んだ大きな収穫が一つあるとしたら、AIネイティブなiOSやOSソフトウェアが最終的にAIファーストでなければならないという概念の理由やな。それが最終的に私たちが行き着く場所なんや。

WindowsやMac OSに対抗するもの、Windowsそのものやないけどな、として構築することも考えられるけど、結局同じ問題に行き着くねん。MicrosoftがOffice 365アプリのような自分たちのアプリを君のOSに出荷したがらないかもしれん。ライバルを奨励したくないからな。だから、すべてのMicrosoftアプリ、Office 365アプリがLinux上では酷いんや。それがLinuxが流通を得ることに失敗した理由の一つなんや。

もし私たちが最終目標がAIネイティブなオペレーティングシステムやとしたら、何がより可能性高い？AppleがついにクソをまとめてiOSをAIネイティブに変換するか、MicrosoftがWindowsを持ってWindowsをAIネイティブにする方法を見つけるか、あるいはChat GPTやOpenAIのようなスタートアップが試してこのゲームに参入するか、パープレキシティのような若いスタートアップか。

これらがゲームのプレイヤーや？それとも、Googleもまだ関連してるし、どう思う？Googleは関連してる。でも、もしAIネイティブなオペレーティングシステムを見ることになるなら、これらのプレイヤーの一つから来るんやろうな。Apple、Microsoft、Chat GPT、Google、そしてパープレキシティ。そう思うな。あるいはMeta。分からんけどな。

でも、そう思うねん。これらが主要なプレイヤーや。そして、このリストに考慮されることですら幸運やと思うねん。他のみんなは10倍から100倍、もしかしたら1000倍も多くの資本を持ってる。だから確実にそうやけど、でも構造的制限という面で主要な利点があるのはAppleやと言えるねん。

彼らは基本的に、検索とSafariの動作方法を変えると、Google広告収益のシェアを失うことになる。でも、それはDOJの事件で判事がそのような効果を裁定した場合、とにかく失うかもしれないもんなんや。

だから、とにかくそれを失うつもりなら、このビジョンにオールインして、iPhoneをもっとAIネイティブに変えるかもしれんねん。一方でGoogleは、Androidの電話でそれを速くできないやろう。配布が小さいPixelの電話で試して、市場を感じてから、他のOEMでより深くやろうとするかもしれんけど、ここではもっと制約と制限があるねん。

そして、OpenAIは独自のデバイスを構築する能力を持ってない。私たちと同じ問題を抱えてて、Samsungにこれを一緒にやるよう説得しなあかんねん。Metaも同じ問題を抱えてる。検索を持ってない。ブラウザを持ってない。素晴らしいモデルを持ってない。そして、Microsoftはな、Windowsには電話みたいな抽象化がない。だから、GoogleやAppleができるようなマルチプラットフォームにはならないやろうな。

まあ、アラビンド、ありがとうと言いたいし、テーブルに席を持ってることにおめでとうと言いたいねん。それは簡単なことやない。5億ドルから18か月で180億ドルとか、そんなとんでもない成長をしたんやろ？だから、すべての成功におめでとう。

今日話したことに興味を持ってる聞いてる人々のために、パープレキシティに到達する最良の方法は何やと言う？君の製品を使ってもらうのに、どこに行くべきか、どう紹介したい？

Perplexity.aiや。それがウェブのランディングや。モバイルアプリでは、iPhoneとApp Store、Play Storeで、Play StoreやApp StoreでReplexityと入力して。上部の広告は無視して。GeminiやClaudeが広告を出してるから。直接私たちのアプリに行って。

素晴らしいな。まあ、アラビンド、今日時間を取って参加してくれてありがとう。本当に感謝してる。