AIがブラウザを自律化する – Perplexity CEO アラビンド・スリニバス

Perplexity
この記事は約39分で読めます。

この動画は、PerplexityのCEOであるAravind Srinivasが、AIの現状と将来について語ったインタビューである。現在のAIはツールの段階にあるが、ワークフローの段階へと進化する必要があると主張し、新しいCometブラウザを通じてブラウザを認知オペレーティングシステムとして再構築する構想を説明している。また、検索分野での挑戦、投資家との関係、そして大手テック企業に対抗する独立企業の必要性について詳しく語っている。

AI Will Make Browsers Autonomous - Perplexity CEO Aravind Srinivas
Is search dead? In this episode of the Superhuman AI Podcast, we sit down with Aravind Srinivas, CEO of Perplexity AI, t...

AIの現状とワークフローへの進化

今日のAIはツールの状態にあります。AIをワークフローの状態へと進化させる必要があります。日常的なプロセスの多くはブラウザ上で実行されています。私たちが毎日何時間も使用している製品の一つは、本質的に同じままです。

夢は、AIが私が何を欲しがっているかを既に知っていて、私が尋ねる前にそれを提供してくれることです。それは魔法のように感じるでしょう。わあ、本当に私を理解してくれているようだと。

初期のGoogle躍進時代に、誰もがGoogle Forexのような会社に投資したがりましたが、それらの会社はすべて失敗しました。GoogleがそれらをM&Aするか、Googleが破壊したかのどちらかでした。MicrosoftはOpenAIの50%を所有しています。独立企業ですらありません。他に誰がいるでしょうか?いつも大手テック企業ばかりです。誰かがその状況を変えて会社を築かなければなりません。私たちは勝たなければならず、それを実現するのは私の責任です。

Perplexityの立ち上げ時の最大の恐怖は何でしたか。私の最大の恐怖は…

Perplexity の新ブラウザ「Comet」について

アラビン、お越しいただきありがとうございます。本当にここにお迎えできて嬉しいです。まず、大きなニュースから始めましょう。Perplexityから登場する新しいCometブラウザについて教えてください。他のブラウザと比べて何が新しいのでしょうか?

そうですね、Chromeが登場して以来、おそらく2008年頃からですが、確実により高性能で高速になり、メモリ効率も良くなりました。もちろん、人々は今でもRAMの消費量について文句を言いますが、基本的に各タブが独自のプロセスになる以外に革新はありませんでした。

そして、私たちが毎日何時間も使用している製品の一つであるブラウザは、使い方において本質的に同じままです。私たちは今でも各サイトを見て、リンクをクリックして、あるサイトから情報を取得して別のサイトに貼り付けて、手動でファイルをアップロードして、簡単なデータクリーニングや変換に何時間も費やし、メールを送信し、メールに返信し、パーティーの招待を手動で承認し、アプリケーションをスキャンしています。これは人々が行い、時間を費やしている多くの作業であり、AIが存在するにもかかわらず、これは根本的に変わっていません。

人々は今でもこれらの異なるAIツールに行って、コピーペーストして、従来の方法で同じことを行っています。つまり、今日のAIはツールの状態にあります。AIをワークフローの状態、そしてプロセス自動化へと進化させる必要があります。

日常的なプロセスの多くはブラウザ上で実行されています。では、ブラウザがもう一つのブラウザではなく、認知オペレーティングシステムとして、すべての思考と作業のためのスイスアーミーナイフとして再構築されたらどうなるでしょうか?

検索ボックス、つまりブラウザの聖杯であるオムニボックスにそれがあります。これがほとんどのエントリーポイントです。サイドにアシスタントとして配置されています。ウェブページを見ているときに、一人でブラウジングする必要がありません。このアシスタントの助けを借りることができ、それが文脈的に画面を解析して、フォームの記入を手伝ったり、質問に答えたりしてくれます。

そして、新しいタブページにもそれがあります。それを呼び出して新しいタスクを命令し、一連のタスクを開始できます。たとえば、「この会社で働いている5年の経験を持ち、スタンフォード大学で学んだエンジニアを採用してください。彼らをシートに入れて、ハッサンにメールしてください」といったことを自律的に行うことができます。

失敗したとしても、ブラウザ環境ですべてが行われているため、介入して自分の方法で行うのを手伝ってくれます。これがCometで構築しようとしているものです。思考の速度でブラウジングするという考え方です。すべての仕事と生活のための新しいオペレーティングシステムと考えています。そして、AIが私たちの日常生活に深く組み込まれたと感じる初めての体験になると思います。

ブラウザテクノロジーの成熟について

素晴らしいですね。最近、RepletのAmjad Masadと1週間前に話をしましたが、彼が非常に興奮していることの一つは、ブラウザ使用とブラウザ使用技術についてでした。あなたは明らかに、この分野で起こっているすべてのことに非常に近い位置にいます。これらの技術が成熟に近づいていると感じますか?そして、それらは近いうちにブラウザに登場する可能性があるでしょうか?

はい、100%それは起こります。そして、それがブラウザを構築することが重要だと決めた理由の一部です。AGI品質のモデルが到着したとしても、すべてのコンテキストが存在し、オンデマンドで引き出すことができ、あなたの代わりにコントロールが行われ、作業が登録され、活動が登録されサーバーに保存される方法で、それらと相互作用する方法が必要です。

しかし、インテリジェンスはサーバーサイドに存在し、すべてのデータはクライアントサイドに存在し続けることができます。AIを活用して退屈で平凡な作業や生活プロセスの多くを自動化するためには、そのようなメカニズムが必要です。ブラウザはそのための素晴らしいフロントエンドとバックエンドを提供します。

ブラウザなしで真のエージェントを構築するのは困難だと言っても過言ではありません。何らかの形で構築する必要があります。ヘッドレスか、フロントエンドを備えたステートフルバージョンかのどちらかです。

ヘッドレス方式で行わないことの多くの利点があると思います。たとえば、既に存在するユーザーセッションがあります。人々は既にログインしています。これはすべて、よく理解されオープンソースであるブラウザのセキュリティに関係しています。

同時に、AIはあなたの画面上にあるものを何でも解析します。途中であなたを助けることができます。ウェブサイト上で、あなたが望む特定の部分だけで作業を行い、残りの部分はあなたが引き継ぐことができます。この種の人間とコンピューターの相互作用の共生は、ブラウザで行う方がはるかに優れており、また、使い方を学ぶ必要のないツールでもあります。私たちは既にそれに慣れ親しんでいます。

すべてのAIチャットアプリが検索エンジンのように見えるようになったのと同じです。ちなみに、これは私たちが最初に行ったフロントエンドです。20代のほとんどの人にとって、2十年間検索エンジンを使用することに慣れ親しんでいると思います。Googleのようなものを使って育ちました。

同様に、ブラウザはインターネットを使用するときに最初に使用するツールです。インターネットを使用し始めた子供の頃から使用しているツールです。新しいAIブラウザの使い方を学ぶ必要はありません。持っているすべてのフロントエンドを保持しながら、実際にインテリジェントになり、はるかに効率的にブラウジングを支援できるため、異なると感じます。

ブラウザでのAI活用の具体例

はい、100%です。インターネット上で行うほぼすべてのタスクがブラウザから始まるということについて正しいと思います。ブラウザ以外で毎日使用するアプリがいくつあるか考えてみましたが、正直言って、あまり思い浮かびません。Slackかもしれませんが、Slackでさえブラウザ内です。私が行うほぼすべてがブラウザ内で起こります。これを聞いているほとんどの人も同じ感覚を持っているでしょう。

そうです、それが利点です。AIにあなたの代わりにSlackメッセージを送信させたい場合、それができるのです。デスクトップ上のアプリにアクセスするために、ローカルMCPクライアントとリモートMCPサーバーをAI用にセットアップする必要はありません。そのすべては必要ありません。

ログインしている限り、Slackをタブとして開いて、あなたから引き継ぎ、すべての未読メッセージを読んで要約を提供し、特定の人に特定の方法で返信するよう指示したり、単にオフラインにマークしたりできます。

病気で、電話を開いて「今日オフラインにマークして、オフィスにいなくて病気だと言えますか?」と言うとします。Slackに行って、それを手動で行う方法を考えたくないでしょう。ブラウザエージェントがあなたの代わりに行うことができます。そのような最もシンプルなことについて話しています。

より複雑なことについては、誰かがオンラインでバグを投稿したり、あなたの製品のこの部分がバグがあるというメッセージをPMに送ったりした場合、適切な人にそれを振り分けて、Linearチケットと一緒にSlackメッセージを送信したいとします。エージェントはこれをすべてあなたの代わりに行うことができます。コンピューターに戻る必要はありません。

たいていの場合、「わかった、AFKだけど、キーボードに戻ったらブラウザで自分で行うつもりだ」と言うでしょう。ブラウザが携帯電話上にあり、音声アシスタントで呼び出すことができれば、すべてがはるかに簡単になります。

私たち全員にとっての真の個人および執行アシスタントとしてのAIの真の約束は、ブラウザでのみ実現できます。

音声インターフェースと未来のビジョン

これは本当に興味深いですね。個人的なユニバーサルアシスタントの考え方は、ブラウザがユーザーのインターフェースのようなもので、音声、メディア、テキストがある程度ブラウザと相互作用する媒体になり得るということですね。

その通りです。フォームファクターは理想的には音声であるべきです。つまり、本当にアシスタントを持っているように感じたい場合、彼らにテキストを送ったり、電話をかけたり、音声メッセージを残したりできるべきです。

Successionの最初の息子の男のミームを見たことがありますか?彼は薄着を着て、AirPodsを付けて、ただ命令を出している。お金がたくさんあるときの人生がどのように感じるかのミームがあります。ヘリコプターや船にいて、AirPodsで話しているだけで「今日やってください」と言えるとき、人生がどのように感じるかということです。

それは贅沢だと思います。それを行うのはかなり困難です。イーロン・マスクなら可能かもしれませんが、普通の人にはできません。しかし、モバイルブラウザがあり、音声モードで呼び出して、あなたのために何かをするよう頼むことができれば、それが可能になると思います。それがどのように感じるかです。

確実に動作すれば、それは挑戦ですが、確実に動作するには、ここで2つのコンポーネントが必要です。1つは推論モデルのようなモデルがかなり信頼できる必要があることです。そして、オーケストレーション。モデルは単なるエンジンのようなものです。あなたが持っているすべてのコンテキストと、あなたが自由に使えるツールでそれをどのようにオーケストレートし、あなたから引き継いであなたの代わりに行動し、サポートが必要な場合は明確な質問を持ってあなたのところに戻り、あなたの代わりに実行するかです。

実際には、2番目の部分の方がはるかに困難だと私は思います。しかし、それを成功させてクロスプラットフォームにすれば、魔法的になるでしょう。

AIをチャットアプリをはるかに超えたものとして考え始めるでしょう。チャットは単なる相互作用ですが、ブラウザは文字通りワークフローです。AIが実際に私たちの仕事の一部を開始できる場合にのみ、GDPを動かすことができるでしょう。ブラウザはそれにとって十分な条件ではないかもしれませんが、必要な条件だと感じています。

メモリーとプロアクティブなAI

今年、メモリーはAIにおいて非常にホットなトピックでした。この問題がどのように解決されるかについて、多くの異なる理論を聞きます。アプリ層で解決されるかもしれないと言う人もいます。perplexityやGemini、ChatGPTのような最もよく使われるアシスタントなどです。OS レベルで解決されるかもしれないと話す人もいます。Mac OSやiOSなどで、そのレベルで保存されるかもしれません。ブラウザがすべてのメモリーが保存される場所への答えだと思いますか?

そう思います。それが最も強力なものです。それよりも強力なものが1つだけあります。おそらくiOSやAndroidです。なぜなら、ブラウザでは得られないモバイルアプリでの活動があるからです。そして、それがおそらく最も強力なものです。

しかし、デスクトップや電話で行うことのほとんどに、ブラウザはアクセスできると思います。そして、それはチャットアプリでの相互作用よりもはるかに広範囲です。

これが欲しいとか、今日このように感じているとか、エッセイを書くのを手伝ってくれとか言うことです。ある程度あなたをプロファイルできます。あなたはこの分野で働く人で、これがおおよその年齢で、これがあなたです。これらがあなたの興味です。人としてのあなたの大まかな感覚は得られますが、あなたが本当にやりたいことは何ですか?実際にどのように仕事をしますか?何を購入したいですか?

広告を表示するためではなく、本当にあなたのワークフローを引き継いで、多くのことを自動化し、プロアクティブにあなたに情報を提供するためです。たとえば、ウェブサイトに行ったとき、あなたが興味を持ちそうなことを既に知っています。ウェブページ全体を消費する必要はなぜあるのでしょうか?あなたが望む方法でそれを読むことができます。

あなたに合わせて調整できます。ショッピングサイトに行ったとき、多くのスパムを削除できます。実際、広告の逆を行います。ジャンクを削除します。サイトからすべてのジャンクを取り除き、あなたが見たい方法でページをレンダリングします。あなたについて本当に理解していることに基づいて、最も関連性の高いものをハイライトし、より速く作業を完了できるよう支援します。

ユーザーレベルで生産性経済を作成します。人々が「わあ、この製品を使ってとても嬉しい。本当に私の人生をより良く感じさせてくれる」と本当に感じるところです。ドゥームスクローリングのように感じません。広告を売りつけられているように感じません。本当に私を理解してくれて、私の人生をより良く、より簡単にしたいと思ってくれているように感じます。

今日、AIが誰にも与えていない感覚です。それは主にAIがプロアクティブではないからです。AIをプロアクティブにするための1つの基準は何ですか?メモリーです。だからメモリーが大きな役割を果たすと思います。それがプロアクティブなインテリジェンスを解明する唯一の方法です。

ブラウザが素晴らしい方法のようですね。多くのユーザーがブラウザを使用するからです。ブラウザ層に浸透し、所有できれば、それは正しいです。

そして、アンビエントになり、どこにいても必要なときにそこにいて、尋ねることなくそれを提供するのは非常に簡単です。Larry Pageの全体的なビデオがあります。彼はそれについて話しています。Googleの究極のビジョンは人工知能で、彼らは私が何を欲しがっているかを既に知っていて、私が尋ねる前にそれを提供すべきだと言っています。

夢は、新しいタブをクリックすると、新しいタブが既にあなたが欲しいものを知っていることです。提案された次のタスクやプロンプト、ワークフロー、質問が既に生成されてそこにあります。それは魔法のように感じるでしょう。わあ、本当に私を理解してくれている。そして、それは異なる人に対して異なる動作をします。私に対して異なる動作をし、あなたに対して異なる動作をし、本当にあなたを理解しています。

そのようにして、タブの概念さえなくなる可能性があります。なぜタブが必要なのでしょうか?常に新しい単一のインターフェースにいることができ、それが私が欲しいものを知っています。知らない場合は、私がそれに伝えることができ、そうすれば私のために作業を行い、私は完了です。コンピューターをシャットダウンして立ち去ることができるか、携帯電話で使用するだけで済みます。ラップトップで使用する必要さえありません。

それが私たちが到達したい場所です。魔法を感じる必要があると思います。それが困難な部分です。これらのモデルはすべて、それぞれ独自の方法で知的です。人間のような知能ではありませんが、確実に知能です。

しかし、その知能をユーザー、彼らのワークフロー、彼らのツールを中心としたコンテキストに組み込み、至福に感じる方法で彼らに役立つように工学することは困難です。しかし、少なくとも特定の使用例で、いくつかの使用例でそれを成功させることができれば、次のiPhoneのように感じるものを構築するための素晴らしい出発点になります。

perplexityの創設とビジョン

素晴らしいアイデアですね。エージェントが本当にオーケストレートして実行できるなら、タブが存在しないということです。インターフェースは完全に異なる可能性があります。今何をする必要があり、何が優先されるかというタスク指向のインターフェースで、そのワークフローを進めることができます。バックエンドでそれを工学し、ユーザーに適切なユーザーフローと体験を構築できれば、それは素晴らしいUI/UXになるでしょう。

明らかに、perplexityは過去数年間のこの生成AI波の最前線にいました。巨大なビジネスを構築してきました。そもそもなぜ検索に焦点を当て、perplexityを作ることにインスピレーションを得たのですか?

それは本当に解決されるまで永遠に取り組み続けることができる問題の1つです。非常に高い天井、おそらく無制限の天井を持つ会社を始めたいと思います。

法律のAIのようなものを始めて、上位10社や20社の法律事務所に販売し、そこでパラリーガルを自動化したり、彼らのコパイロットになったりしたい場合、明らかに作成できる価値にはある程度の制限があり、おそらく垂直方向に拡張するAmazonスタイルに従う必要があります。

しかし、それがこのために構築した水平的なものではないことに気づくでしょう。それは非常に垂直化されており、実際にサプライチェーンと配送を構築したAmazonとは異なります。だから、一般的に非常に大きなDAM、信じられないほど高い天井、AGIへの重要な経路上にある何かをターゲットにしたいと思います。AGIの進歩によって製品が役に立たなくなることはありません。実際には製品をより良くします。

perplexityにとって一貫して真実だったのは、より良いモデルが私たちの製品をより役に立たないと感じさせたことは一度もないということです。実際には、deep researchやテキストの壁を超えた回答を消費するためのlabs機能など、新しい素晴らしいものを出荷できるようになりました。

文字通りインタラクティブなチャート、ダッシュボード、フローチャート、マルチモーダルな回答、そして今では回答を提供するだけでなく、ウェブ上でタスクを完了するブラウザのようなものを作成しています。これらすべてを行うことができる唯一の理由は、事実上スケーラブルな非常に困難な水平問題に取り組み始めたからです。

そうでなければ、時間が限られているときにお金のためだけに働いていることを知って、毎日起きて会社で一生懸命働く意味がありません。お金のためだけに働いているのです。本当に目的のために働いているわけではありません。自分より大きな何か、人生より大きなプロジェクトのために働いているわけではありません。

それが検索を選んだ理由の1つです。それはAI完全です。より良いAIが製品をより良くし、製品を通じて収集されるより多くのデータがAIをより良くし、それがデータフライホイールと自己実現予言になります。それ自体でスケールします。

明らかにTAMは巨大です。検索を構築し、その体験を本当に改善できれば、誰もが何らかの方法でそれを試みているからです。

perplexityの初期の課題と成功

この問題を解決し始めたとき、perplexityが何かを掴んでいる、製品を理解したと気づいた最初の瞬間は何でしたか?

LLMがどのように検索に革命をもたらすことができるかを実験したかったのですが、Twitter、GitHub、LinkedInでの検索など、多くの狭いものを構築しました。LLMがコードを書き、SQLを実行し、取得した内容を要約し、それが会話型であるという方法で、検索と要約を組み合わせることを誰も想像したことがなかったので、それを行うのは非常に楽しかったです。過去の質問を参照でき、深く掘り下げることができます。

その体験を作ったとき、それは非常に魔法的でした。あらゆるデータベースと話すことができるように感じました。世界中のあらゆるウェブサイトと話すことができるように感じました。

今では、ragやツール使用など、これらの概念にはすべて名前がありますが、私たちがそれを行っていた当時、それはすべて完全に新しいものでした。それで、なぜウェブサイトごとにこれを行うのか、より一般的なものにしてはどうかというアイデアがありました。なぜなら、一般的に苦い教訓は、アプローチがよりスケーラブルであればあるほど、長期的であるからです。

だから、ウェブをツールとして使用し、リンクを取得し、上位数個を選んで要約し、適切なものを参照するべきだと言いました。これは学者としてのバックグラウンドから来ています。AIは正確である必要があります。好きなことを言うだけではいけません。何らかの形の真実に基づいている必要があります。

ウェブは知識と真実の大きな源です。もちろん、ウェブ上のすべてが本当ではありませんが、少なくとも常に真実と知識を求めている人間によって導かれています。社会として、私たちは広く受け入れられている真実であり、科学的裏付けがあるものに向かって収束します。

だから、事実に基づく知識を求めるAIを構築することは、やるべき重要なことでした。それが私たちがそれを構築した理由です。

初めは多くの人が懐疑的でした。彼らは私に「AIの全体的なポイントは幻覚することだ。AIが幻覚し、物事を作り上げるのを見るのが楽しいし、それが人々が好むものだ。それがTwitterでバイラルになるものだ。AIが間違いを犯すスクリーンショットを撮り、人々はそれを笑ってシェアする。他にどうやって成長するのか?正確でいることによって成長ループを作るつもりはない。面白い方法で間違っていることによって成長ループを作るのだ」と言いました。

あなたの製品は常に正確であるように設計されています。幻覚は実際にはコストがかかります。なぜなら、人々があなたの検索エンジンを信頼しなくなり、Googleに戻るからです。だから、事実とリンクのみのGoogleモードか、幻覚やモデルが物事を作り上げておしゃべりで興味深いChatGPTモードのどちらかでいたいのです。

あなたは誰も望まない中間のどこかにいます。それが初期の友人や投資家の間での懐疑論でした。

しかし、最終的にAIは非常に有用になり、ウェブを使用することがその有用性にとって最重要になると信じていました。だから、それをうまく行う能力、ウェブをオーケストレートする能力、コア推論と要約スキル、会話スキルは非常に価値があるでしょう。短期的には悪くても、長期的には非常に価値があるでしょう。それがperplexityを構築した理由です。

検索と検索、そして情報を合成し要約できることは、それ自体が非常に困難な問題です。perplexityが過去数年間で達成したことは素晴らしいです。

投資家との関係と水平戦略

資金調達と投資家との関係について、このプロセスを経た際の経験について聞かせてください。巨大な会社に対抗しています。Googleは検索で98%以上の市場シェアを持っており、投資家は「どうやって成功するつもりですか?」と言ったでしょう。

多くの投資家は、名前を明かすことなく言いますが、常に私に垂直化するよう押し付けてきました。垂直を攻撃しなさい、リスクが少ないと。小さな市場を取って、そこでリーダーになり、生き残ることができます。Googleは法務のための素晴らしいAIアプリを構築しようとはしないでしょう。それは彼らにとってそれほど大きな市場ではありません。そこで10億ドルの収益を上げ、100~500億ドルの会社を構築できるでしょう。誰も気にしません。Googleの時価総額には無関係です。

しかし、言ったように、私の夢は困難な問題に取り組み、本当に優秀なエンジニアと働くことです。狭くて退屈な問題に取り組んでいる場合、最高のエンジニアを惹きつけるのは困難です。

これらの会社が解決する問題がより低いレベルだという意味ではありません。彼らは確実に価値を創造しています。しかし、必ずしも最上位のエンジニアを惹きつけるわけではありません。なぜなら、彼らはお金を超えた何かを求めているからです。それは真の知的充実感です。

だから、最初からそれを知っていました。Larry Pageの講演をたくさん聞いていました。彼は、初期段階の会社として困難な問題に取り組む方が簡単だと言っています。なぜなら、それが才能ある人々を惹きつける唯一の方法だからです。

だから、それを失いたくありませんでしたが、投資家は確実に私に押し付けてきました。「Amazon、Yelp、Pinterest、インターネット初期に登場した他の垂直市場を見てください。あなたも垂直に行く必要があります。視覚的、ローカル、健康、医薬品のようなものを選ぶ必要があります。Good RXのようなウェブサイト、タブレットを手に入れることができるもののようなもの」と。

なぜこれをするのでしょうか?なぜこれにLLMが必要なのでしょうか?これらは既に解決済みの問題で、数億ドルの収益を上げています。これらの小さな市場を攻撃する意味がありません。

同時に、もう少し深く考えてみると、垂直市場は実際には検索を中心に構築されていません。他のものを中心に構築されています。Pinterestは物をピンできるから価値があります。他の人が投稿しているものをフォローできます。それはソーシャル体験で、それを取ってボードに載せることができ、ほぼあなたのコレクションになります。物を整理し、人々と共有し、インテリアデコレーション、結婚式、新しい家などを計画できます。

アイデアを提供します。それは視覚的探索プラットフォームであり、検索プラットフォームというより少ないです。実際にはタイプしません。デコレーションのようにタイプするかもしれませんが、その後は検索というより少ないです。より多くのインタラクティブなクリック体験です。

同様に、Yelpは主に他の人間が投稿しているものを見ているから有用です。ローカルビジネス、彼らの営業時間を取得しています。これらの人々、これらのビジネス、レストランにデータをあなたに載せて最新に保つよう説得する多くの作業があります。それがビジネスです。ローカル検索についてはそれほどではありません。

だから、これらのことを理解すると、これらのVCはすべて間違っていることがわかります。彼らは深く考えていません。

実際に、たとえ負けることを意味しても水平のままでいるよう私に言った1人は、Mark Andreessenでした。なぜなら、私たちが立ち上げた後に彼との初期の電話があり、彼がそれについて聞いて製品を使ったからです。彼は「それを作るのにいくらかかりましたか?」と言い、私は「50,000ドルです」と言いました。私たちは250万ドルを調達していましたが、作るのに50,000ドルしか使いませんでした。

彼はショックを受けました。なぜなら、その時点で多くの人がAIモデルを構築するために資本を調達しており、これらのVCに数億ドルを求めていたからです。現在では、人々が100億ドルを調達しているとき、それはジョークのように見えますが、2022年にいた瞬間でした。

だから、「ヘイ、50Kしか使わず、既存のAPIのみを使用してこの体験を構築しました」と言ったとき、それはMarkにとってショックでした。それで私はアドバイスを求め、彼は言いました。「検索はすべて配布についてですが、あなたに一つ言います。それを恐れず、垂直会社を構築するようなことはしないでください。なぜなら、Google が立ち上がっていた初期の日々に、誰もがGoogle Forexに投資したがり、それらの会社はすべて失敗したからです。

GoogleがそれらをM&Aしたか(旅行検索エンジンの束のように)、Googleが破壊したかのどちらかでした。しかし、Google finance、Google sports、Google weather、彼らが行ったこれらの垂直市場のように、彼らは完全にGoogle mapsを破壊できます。だから、水平であろうとしてください。そこから価値が生まれます。最終的にすべてのクエリがあなたを通って流れ、すべての価値があなたを通じて作成され、規模の経済が作用するでしょう」

だから、確信はありませんでしたが、インターネットOGからそのアドバイスを得ることは、私にとって非常に役立ちました。

perplexity Labsと高度な機能

水平的戦略と垂直的戦略のあなたの分析が大好きです。2022年に始めたとき、それは対照的でもありました。多くの人が垂直化された戦略について考えていました。なぜなら、それがある程度成功していて、既にいくつかの成功例があったからです。その時点で主流に逆らうのは困難で、そのアドバイスを得てperplexityを構築し、素晴らしい検索製品と新しいブラウザを構築することに成功したのは良かったです。

Arvin、Perplexityは多くの人がAIで持った最初の大きなアハ瞬間の1つでした。それを言うのは議論の余地がないと思います。現在、他の多くの大きな製品もPerplexityでそれを行っているのを見ます。

ブラウザとは別に、Proplexity Labsから出てきたもう一つの大きなものがあります。あなたがそれについて多くツイートしているのを見ます。多くの他のユーザーが私のタイムラインにポップアップし、スプレッドシートの自動化、ダッシュボードの作成などを行っているのを見ます。

perplexity labsを使ったことがない、聞いたことがない人のために、それが何かを少し教えてもらえますか?

はい、perplexity labsは基本的にperplexityの検索バーでの使用モードです。3つのモードがあります。速い回答を提供する通常の検索、少し遅い(3〜4分の調査価値)深い調査モードで、かなり調査レポートのようなものです。そして、10〜15分かかるlabsがあります。

labsが他の2つのモードでできないことは、文字通りウェブサイト、ダッシュボード、分析チャート、図、学習ガイド、スライドデッキ、プレゼンテーションをウェブからの情報を使用して構築し、それについて徹底的な調査を行い、コードを書き、HTML資産、JavaScriptファイルを含むこれらのファイルを生成するために使用したすべての資産を提供し、それらをローカルでエクスポートしてこれらすべてを自分で構築できることです。

それは信じられないものでした。AIの価値は本質的に、AIがバグなしで何時間分の作業をできるかがすべてだと感じています。labsのようなモードで、AIが本当に1〜2時間分の作業をできる点に到達していると感じており、他の何よりもエージェント的に感じます。

正直に言うと、まだCometをリリースしていませんが、Cometは文字通りブラウザを使用し、さまざまなサイトであなたの代わりに実際にアクションを取り、これらのことを組み合わせることができるので、これの上にもう一つのレベルに感じるでしょう。

私たちが興奮していることは、ブラウザを通じてあなたの個人的なコンテキストを取得し、あなたの仕事と生活のための独自の内部ダッシュボードを構築し、自分自身と時間を最適化し、欲しいアラートと更新を設定することです。タスクを設定します。あなたのためにフルタイムで実行されている一連のAIプロセスであるタスクマネージャーを持ち、すべて並行して非同期に実行されています。

それは信じられないですね。それは完全なオペレーティングシステムのように感じます。それが私たちが作成しようと推進していることです。

金融市場への参入戦略

それについてのフォローアップ質問もあります。あなたがBloombergについてツイートしたり投稿したりしているのを見ました。そこで代替案を構築したいと。あなたのチームの何人かもそれについて話しているのを見ました。私は金融業界で働いておらず、Bloombergターミナルユーザーでもありません。そこでの機会と問題について少し教えてもらえますか?

はい、機会は明確です。基本的に、Perplexityのようなツールはすべて意思決定を支援することです。1日に数兆ドル相当の意思決定が行われています。20〜100兆です。正確な数字を特定するのは困難です。そのお金のほとんどは、国家間でのお金の移動、通貨間でのお金の移動、市場の動き、債券など、さまざまなことにおける金融取引所にあります。

これらは数兆ドル相当の意思決定であり、AIがあなたの質問に答え、調査を行い、アナリストが行うような何時間もの作業を実際に行うことによって、これらの意思決定を下すのに役立つことができれば、節約された時間とより良い意思決定の面でその価値を確実に返すことができます。

だから、AIが1日により多くの兆ドルを稼ぐのを手伝い、1%の価値を得られれば、それは多いです。1日100億ドルです。Googleが1日100億ドルを稼いでいるとは思いません。年間2000億ドルを稼いでいます。それは1日10億ドルでさえありません。

しかし、世界のすべてのコンテキストとブラウザのすべてのタブを持つAIネイティブ検索調査labsが確実に動作すれば、AIはすべての金融調査を飲み込むと感じています。現在、金融調査のツールはBloombergターミナルです。

人々がそれを使用する方法は、MS DOS時代のままです。彼らは単にレガシーインターフェースを使用し、他のアナリストが異なる株について書いたことや、将来の株価収益率の予測を読んで、それに基づいて見積もりを行い、そこでアナリストと話しています。

それを行うことにはいくつかの利点があります。それは規制されたプラットフォームなので、彼らに連絡を取るのは簡単です。しかし、AIが人間のアナリストができるよりも良い分析ができると想像してください。そうすると、ターミナルの価値は何でしょうか?基本的に何もありません。

そのすべての情報をはるかに良いUI/UXで無料で入手でき、年間20,000ドルを支払う必要がありません。アルファを商品化でき、そうするとアルファは、labsのようなモードでより良い質問をし、より多くの計算を費やすことを望む人に行きます。

私たちの希望は、より多くの人々がより良い金融意思決定を下し、市場を理解できるようにすることです。市場は理解するのが最も困難なもののいくつかです。CNBCを見たり、フィナンシャルタイムズを読んだり、ウォールストリートジャーナルを見たりします。これらすべての購読料を支払い、一日の終わりには、最初よりもはるかに混乱しています。アルファはありません。ただより混乱しているだけです。

それがperplexityのようなツールを通じて変えたいことです。

情報消費の変化とパブリッシャープログラム

LLMが成長し、perplexityのような製品を通じて検索が進化するにつれて、ウェブページへのトラフィックがある程度減少するという多くの議論があります。それについてのあなたの考えは何ですか?パブリッシャープログラムも立ち上げたと知っています。全体的な視点を聞かせてください。

それがまさに私たちがやりたいことです。パブリッシャープログラムを通じてパブリッシャーをサポートし、彼らがエコシステムにもたらす価値を認識したいと思います。新しいニュースの報告において、正直に言うと、AIは彼らがリアルタイムの知識で最新の状態を保つことができればはるかに興味深いものになります。それはパブリッシャーが経済的にインセンティブを与えられた場合にのみ起こり得ると思います。だから、私たちの収益の一部を彼らに還元したいと思います。それが基本的にプログラムです。

これが新しい世界だと思います。誰もがGoogleは良い人で、トラフィックを逸らしたくないと言いましたが、ユーザーが求めているため、彼らもAIオーバービューとAIモードを出荷しました。ただし、Googleはパブリッシャーと収益を共有したくないのに対し、perplexityはそれにオープンです。

私たちが成長するにつれて、パブリッシャーも成長でき、既にすべての配信を持つ既存のツールと働くのではなく、次の大きなツールで早期に参加できることを願っています。それは彼らが望むことを何でもするよう彼らをいじめるようなものです。

AIの未来と情報消費の変化

2〜3年後に、AIが私たちが情報を発見し消費する方法をどのように変えるかについて、特に専門分野と消費者の両方で、どのように見ていますか?

ブラウザは、人々がより多くのAI使用を費やす大きな領域の1つになると感じています。彼らは既にそれを行っています。ChatGPTやPerplexityを異なるタブとして使用していますが、検索バー、サイドバー、いるウェブサイトでよりネイティブに使用していると思います。その種のワークフローと統合が起こるでしょう。

エージェントは明らかに、人々がAIを使用する大きなメカニズムです。メールの送信のような、より直接的なもの。メールを受け取って、「ヘイ、応答してください」と言うことができます。他のウェブサイトで何か新しいことを学んで、「ヘイ、これらの人にメールとして送り、このトピックについてフォローアップしてもらい、彼らの新しい回答について私に最新情報を教えてください」と言うことができます。

この種の小さくてシンプルなワークフローは今年始まり、来年初めにはより多くの人がこれらを採用するでしょう。しかし、私がより興奮しているのは、人々がタスクを割り当てることです。「この会社について調査を行い、そこから雇用できる人を教えてください」や「SpaceXに参加した最初の5人のエンジニアは誰でしたか?彼らの背景は何でしたか?」のような。

次のイーロン・マスクになりたいとしましょう。「SpaceXの最初の10人のエンジニアをどこから雇ったのか?」といったすべての質問をしたいでしょう。最初の2〜3人かもしれませんが、10人や20人ではないため、ウェブ上に既にこの情報を持つ文書化されたリソースがないため、どのAIチャットアプリでもそれを行うのはかなり困難です。

100人としましょう。100人を引き出してその分布を分析し、それらのチャートを分析したいとします。それから、その後で、この学校の人々に連絡を取りたい、彼らを雇いたい、それが良いアイデアかどうか教えてくださいといった、その種のワークフロー統合は今日は不可能です。ブラウザがあれば、これすべてが起こると思います。

それから、多くの個人的な健康最適化、過去1か月でどこで時間を無駄にしたかを教えて、あなたの履歴にアクセスし、各サイトで何分費やしたかを正確に教えてくれます。15分以上ここで費やすたびにリマインダーを受け取るようにできますか?

スクリーンタイムなどでこれらのことの一部を行うことができますが、純粋な自然言語による完全に統合された体験、AIがあなたのアシスタントのように感じる体験が欠けており、それが消費者と仕事の両方で人々に感じてほしいことです。

Slackメッセージの送信、要約。私は何百ものSlackチャンネルの一部で、物事を追跡するのはかなり困難です。物事が隙間から抜け落ちたときに思い出させる。すべてのメールを読む必要がない。起こっていない基本的なこと。退屈な作業を行い、それを実現する必要があります。

perplexityの個人的な使用例

perplexityをどのように使用するかについて、視聴者や読者と共有したい1つか2つのヒントはありますか?素晴らしいヒントがあれば大好きです。

金融をよく使います。perplexityには定期的に自分で実行できるタスクという機能があります。毎日最大7つの株式の動きを、一日の終わりと始まりの開始価格で教えてくれるタスクがあります。

追跡している数社に関連するすべてのニュースの要約をプッシュするタスクがあります。それから、興味のある1つのトピックについて書かれた新しい研究論文があるたびに教えてくれるタスクがあります。

愚かな質問によく使います。今日、Nikita BeerがXの製品責任者として雇われたと思いますが、以前の責任者は誰だったか聞いていました。LarryはOracleの何パーセントを所有していますか?Mark Benofは昔エンジニアでしたか?Netscapeブラウザの最初のいくつかのアイコンを見せてもらえますか?Meta Super Intelligence Labsの最近の発表の要約をもらえますか?

私自身についていくつか質問しました。私について知っている予想外のことは何ですか?なぜPalentryの株は常に非常に高い株価収益倍数で取引されているのですか?Duck Duckgoは1日にどれくらいのトラフィックを得ていますか?天気はどうですか?

非常に特定的で、独特で、これらは今日の私のすべての質問です。私はライブラリから読み上げています。これらを作り上げているわけではありません。

iPhoneが構想から現実まで何年かかりましたか?何人の人が作業しましたか?主要な人物は誰ですか?歴史的なプロジェクトがどのように実現したかについて好奇心を持つことがあり、本を読んだり、ポッドキャストを聞いたりする時間がないので、Perplexityに行って聞きます。

新しい研究方向についてもっと学びたいことがあります。アーカイブ論文全体を読むのに膨大な時間がかかり、もうその時間がないので、説明してもらうためにperplexityに行きます。

タスクを通じてこれらの多くを自動化することもあります。今日のブラウザでは、簡単に見つけることができなかった古いツイートを引き上げるよう頼みました。人間が検索できるようにウェブサイトを見て検索できるので、それを行いました。

信じられません。基本的にそれなしでは生きていけません。perplexityの多くの採用者も同じことを言うでしょう。私たちはユーザーの間で最も高い使用密度を持つ製品の1つです。1億人のユーザーはいませんが、数千万人います。しかし、使用する人は誰でもたくさん使用し、それが私たちが持つ力で、最終的には成長と大規模な配信を理解するだろうと信じさせてくれる1つのサインです。

使用法がない偽の製品ではありません。大手テック企業のいくつかは配信で私たちと競争しようとしています。彼らはエントリーポイントのためのより大きな表面積を持っています。ChatGPTについて話しているのではありません。彼らは本当に本物の使用法を持っていますが、他のいくつかのアプリは実際にはリテンションがありません。

Sensor Towerなどからリテンション統計を抽出できます。リテンション統計は本当に貧弱です。だから、彼らができることは他のアプリを使用して多くのインストールを促進することですが、できないことは、ユーザーがアプリを何に使用するかさえ知らないため、本当にユーザーを保持することです。私たちにはその問題がありません。

ユーザーはperplexityが異なるツールであることを明確に理解しています。それは調査と知識と情報のためのものです。

それは素晴らしいです。このAI波で戻ってくるユーザーを持ち、製品を使い続けることは素晴らしい成果だと思います。

他のAI製品の使用と競合分析

perplexity以外で、AIを活用した仕事や個人生活で使用している他の製品やガジェットで、共有したいものはありますか?

すべてのAIアプリをテストします。この会社の責任者として、ライバルがどこにいるかを理解することが重要です。ChatGPT、Gemini、Claude、Grokを使用します。これらすべてをテストし、特にライバルの中では、彼らが行う多くのことに感銘を受けているため、ChatGPTを最も使用します。製品革新の面で私たちの真のライバルだと言えるでしょう。

彼らは確実にdeep researchをいくつかの面で私たちよりも良く、いくつかの面で悪く実装しています。そこで答えを得るのにはるかに時間がかかりますが、彼らが行ったUX要素のいくつかはわずかに良く、時には答えの深さが良いです。

私はその深さを求めていないことが多いので、ユーザーが望むものを理解し、彼らが望まないときに過度に深く行かない自律性スライダーをどのように理解できるかを見るのは興味深いです。

他のアプリから相互作用パターンを学び理解し、そこから何を取ることができるかを見ようとすることが多く、彼らが私たちから何を取ったかも見ます。エージェントUX、マルチステップ推論UX、引用の方法など、私たちが構築した多くのものが今やすべてのアプリの一部になっています。

だから、製品構築者として健全な学習体験です。

他に何を使用しますか?すべてのAppleデバイスを使用します。Siriは実際には使用しませんが、それがどこで失敗するかを理解し、それらの欠点をperplexity音声アシスタントに組み込もうとするために確実に使用します。今日、電話で質問に答えるだけでなく、実際にメールを送信し、YouTubeビデオを再生し、曲を再生し、ポッドキャストを再生できます。

非常に便利で、Appleはいつかリリースするでしょう。しかし、テストするデバイスです。

良いAIハードウェアデバイスはまだないと信じています。だから、テストするものはあまりありません。Ray-Ban Meta眼鏡で遊んでみました。まあまあです。今日、彼らは良いAirPodsの代替品だと言えますが、AIにとってはまだ本当に有用ではありません。しかし、AirPodsを忘れた場合の真の代替品とは言いません。それは使用できます。

ハードウェア機会と起業家への助言

このポッドキャストを聞いている建設者がいれば、ハードウェア分野には機会があります。それは確実に困難です。それを構築するよう誰かをプッシュしているわけではありません。大規模なハードウェアの配信で競争しています。ソフトウェアよりもさらに困難で、Metaは数十億ドルを燃やすことができ、Appleは数十億ドルを燃やすことができます。非常に困難です。

多くの人がSteve Jobs時代をロマンチックにしています。「Wozniakを見つけるつもりだ」「多分私がWozniakで、Jobsを見つけるつもりだ」「Appleを構築するつもりだ」と。困難です。誰かがそれを試みたいなら非常に感銘を受けるでしょう。IBMのような多くのライバルを持ったことがなかったため、はるかに困難です。彼らはIBMの教訓を学んでいます。それを繰り返すつもりはありません。

Jobsは最初にIBMに殺されました。MacをクラッシュさせたIBM PCのように、彼は戻って来て全く新しいものを構築し、Blackberryをクラッシュさせました。だから、可能性があります。眼鏡、時計、リング、ペン、誰が知っているでしょうか?新しいデバイスを構築できます。可能性は無限です。

生成AI波が私たちに本当に素晴らしい可能性を与えてくれたと思います。

恐れ、学習、そして動機

Arvin、いくつかのワンライナーで締めくくりたいと思います。20〜30秒の回答で、あまり詳細に入りたくありません。Perplexity立ち上げ時の最大の恐怖は何でしたか?

最大の恐怖は、誰も気にしないということでした。新しい製品を立ち上げるときに誰もが持つ恐怖です。誰が気にするのか?誰が来て使用するのか?

通常の研究職をやめて、このラッパー製品を作り、誰も気にしなければ、私はバカのように見えるでしょう。数百万ドルの資金調達をしたのに、それをすべて返すのは恥ずかしいでしょう。それが私の恐怖でした。

本当に、perplexityの最初の発表のツイートを書いているとき、私の手は震えていました。応答を見たくなかったので、シャットダウンして、ライブクエリトラフィックを見ていました。それが私のドーパミンが現実的でないときでした。

実際のクエリストリームが見えたからです。リフレッシュ、リフレッシュ、常にリフレッシュしていました。素晴らしかったです。その日は4,000〜5,000のクエリしか得られませんでしたが、4,000人がテストするのに十分気にしてくれて、成長し続けました。それは現実的でありませんでした。

今日、若い野心的な人々は何を学ぶのに時間を費やすべきですか?

今日はジェネラリストの日だと言います。万能選手という間違った仮定ではありません。むしろ、詳細への執念のようなものです。本当に物事について自分独自の視点を理解します。この世界で自分自身とアイデアをどのように位置づけたいかについて、独自のユニークな視点を持ってください。それはすべてについて深く考え、物事を深く理解することを要求します。

スポットライトを追いかけたり、人気のあるものを追いかけたりしないでください。明らかに、私もこの質問を受けたことがあります。若いときにインタビューを見て、ほとんどの人が今私が言っていることを言い、私は「ああ、この人はすべてを得たから今これを言っているんだ」と思っていました。

しかし、それは正直に一定だったことです。人気があって人々がそれを追いかけたときはいつでも、結局他の何かがはるかに有用になりました。Perplexityを始めたとき、暗号通貨がはるかに人気で、多くのVCが実際に暗号通貨のAIをやるよう私に言いました。LLMとウォレットをどのように理解できるかのような、アイデアを理解することさえ困難でした。なぜなら、それが無関係なものを組み合わせる程度だったからです。

しかし、根本的に検索は時代を超越していることを知っていました。暗号通貨でも、NFTでも、映画でも、エンターテイメントでも、Netflixでも関係ありません。常に知識を検索する必要があります。

お気に入りのSF本や映画は?

Hitchhiker’s Guide to the Galaxyの本が好きです。映画Interstellarが好きです。非常にインスピレーショナルです。他の多くの映画も好きですが、Interstellarはおそらくトップに置くものです。

どのようにして自分を動機づけますか?

多くの普通の人が行うことをたくさん行います。Y Combinator の質問で聞かれたとき、イーロン・マスクのロケット失敗のYouTubeビデオを見るようなことをすると言いましたが、これらすべてのことを行いますが、根本的に私は個人的に非常に困難な時期を経験しました。

私の旅は既に私の動機です。非常に困難な瞬間から立ち直ることができることを知っています。インドの中下級、または下級と中級の間のどこかの家族から、アメリカの基準では中下級でさえない、そこから学位を取得し、IITを取得し、ここでPhDを取得し、OpenAI、DeepMindでインターンシップを取得し、そこから会社を始め、資金調達をし、常にOpenAIやGoogleと競争しています。

それは既に多くの自信を与えてくれ、多くの困難な挑戦に対処できます。外部からの動機を特に探す必要はありません。主に、落ち込んでいるときに何があなたを続けさせるかは、あなたが本当に信じていることです。闘争は価値があるべきです。なぜ大手テックがいつも勝ち続けるべきなのでしょうか?

誰かがその物語を変えて会社を構築しなければなりません。たいてい、人々は諦めます。100〜200億ドルの評価に達すると、諦め始めます。少なくとも紙上でたくさんのお金を稼いだと感じ、プロジェクトを少しデリスクし、IPOの計画を始め、会社を運営する他の幹部を探し、より多くのことを委任し始めます。

そうすると、それで終わりです。彼らがあなたの機能を地獄のようにコピーし、あなたが最適化していたものでさえ持てなくなります。だから、常にグラインドし続け、これが本当に価値があると信じ続けなければなりません。そうでなければ、世界は私が信じる代替案を持たないでしょう。

本当に私たちが存在しなければ。MicrosoftはOpenAIの50%を所有しています。独立した会社でさえありません。非営利団体です。他に誰がいますか?いつも大手テックばかりです。だから、私たちは本当に重要だと思います。勝たなければならず、それを実現するのは私の責任です。

これはポッドキャストを終了するのに最適な場所だと思います。Arvin、時間を取ってくださってありがとうございました。視聴者が完成したときに本当にこのエピソードを楽しんでくれると思います。本当に感謝しています。

コメント

タイトルとURLをコピーしました