OpenAIオペレーターに対する業界の反応 – 「ウェブを侵食するエージェントたち」

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,573 文字

The Industry Reacts to OpenAI Operator - “Agents Invading The Web"
Operator is HERE and the world is loving it! Watch to find out what everyone is saying about it!Join My Newsletter for R...

AIテクノロジー業界は、ウェブブラウザを使用して実際にユーザーに代わって現実世界のタスクを実行できるOpenAIの新しいエージェントシステム「オペレーター」に強く反応しています。これはOpenAIのエージェントが初めて現実世界に影響を与えることができるようになるもので、人々は様々な考えを持っており、すでにいくつかの驚くべき使用例が浮上しています。
人工知能分野における最も偉大な知性の一人であり、第一人者の一人であるアンドレ・カーパシーは、オペレーターについて多くの見解を述べています。
OpenAIのオペレーターのようなプロジェクトは、デジタル世界におけるヒューマノイドロボットのようなものです。興味深いことに、この記事を読む前に私も同じアナロジーを思いついており、前回の動画でも触れています。考えてみれば、オペレーターがこのような形で構築された理由、そしてヒューマノイドロボットがそのような形で構築された理由は、世界のすべてが人間のために作られているからです。現実の物理的世界であれ、デジタル世界であれ、ブラウザは人間のために作られています。
入力と出力はすべてマウス、キーボード、画面で行われ、それ以外のものはありません。私たちはAPIとは直接やり取りしません。そして現実世界では、工場、街路、家屋など、すべてが人間の形状に合わせて作られています。したがって、人工知能を実世界に大規模に導入する最善の方法は、人間のように構築することです。物理的世界では、それはヒューマノイド型のロボットを作ることを意味します。これにより、物理的世界を別の形状に合わせて再構築する必要なく、実際に相互作用することができます。
そしてエージェントにとっては、人間が使用するのと同じキーボード、マウス、画面だけを使用してブラウザを制御できるようにすることを意味します。そのため、これには素早く大衆市場に到達する大きな可能性があるのです。もちろん、エージェントは最初は苦戦するでしょう。APIを使って直接やり取りする方が、コードが彼らのデフォルトの言語なので、はるかに簡単でしょう。しかし、それにはウェブ全体を再構築し、すべてのウェブサイトが独自のAPIを作成する必要があり、それはおそらく実現しないでしょう。
そこで代わりに、エージェントに人間と同じ入出力を与え、私たちと同じようにウェブを閲覧させましょう。つまり、モニター、キーボード、マウス、あるいは人間の体という一般的な設定で、原則として人間向けに設計された入出力インターフェースを通じて、徐々に任意の一般的なタスクを実行できるようになります。どちらの場合も、人間が低レベルの自動化の高レベルな監督者となる、徐々に混合された自律性の世界へとつながっていきます。
この考えは素晴らしく、今後数年間で見られるように、これらのエージェントがより高度なタスクを自動化できるようになり、私たちは単なる監督者となり、特定の決定に関して実際に手を汚す必要がますます少なくなっていくでしょう。もちろん、エージェントが私たちに代わってタスクを実行する能力に確信を持つために必要な信頼関係を築く必要があります。
彼は、デジタル世界では物理的世界よりも早くこれが実現すると述べています。なぜなら、ビット(1と0)をフリップするインターネットは、原子(物理的世界)を動かすよりも約100万倍安価だからです。ただし、市場規模と機会は物理的世界の方がはるかに大きく感じます。私はこれに同意するかどうかわかりません。同意しないわけでもありません。ただ確信が持てないだけです。
ここで重要な発言があります。私のタイムラインでは、2025年はエージェントの年になるだろうと言われています。個人的には、2025年から2035年がエージェントの10年になると考えています。実際に機能させるためには、あらゆる面で膨大な作業が必要ですが、機能するはずです。あなたは10個のエージェントを監視するCEOのような存在となり、時には何かの障害を取り除くために現場に入ることもあるでしょう。そうすれば、物事はかなり面白くなってくるでしょう。その通りです。私も全く同感です。とてもよく言い表されています。
次に、ニック・デュースが指摘し、私も昨日の動画で触れましたが、オペレーターは唯一のエージェントではありません。今後数週間から数ヶ月の間に、さらに多くのエージェントが登場するでしょう。それはあなたのコンピューターやオペレーティングシステムを制御できるエージェント、あるいはモバイルフォンのエージェントかもしれません。次に何が来るかはわかりません。
OpenAIのCTOであるグレッグ・ブロックマンもこの発言を強調しています。オペレーターは、あなたのために独自のブラウザを使用してタスクを実行できるエージェントのリサーチプレビューです。2025年はエージェントの年になります。もちろん、私はしばらく前からそう言っていましたし、業界のほぼすべての人がそう言っています。しかし重要なのは、一つのエージェントだけでなく、複数のエージェントの年になるということです。
ちなみに、オペレーターの最も強力な機能の一つは、複数のタスクを複数のエージェントと同時に開始できることです。それらはすべて並行して実行され、あなたは他のことをしながら、必要に応じて更新するだけでよいのです。この事実からどれだけの生産性が引き出されるか、人々はまだ本当に理解していないと思います。
次に、Boxの創設者兼CEOであるアーロン・レヴィは、AIエージェントが完全なブラウザアクセスを持つことで、AIのユースケースが100倍に広がると述べています。ウェブには、私たちが日々コンピューター上で行うロングテールのタスクに対するAPIがなく、ブラウザの使用は大きな欠落リンクでした。AIのもう一つの構成要素がここにあります。
OpenAIは確かにこのような製品を最初に市場に投入したわけではありませんが、かなり優れた機能を持つ製品を市場に投入しました。最も印象的なのは、インターフェース、つまりこれらのエージェントを監視し、起動し、前のステップを振り返って何が起こったのかを確認し、調整し、更新を与えるなどの実際の方法です。
グロックのサニー・マドラは、OpenAIオペレーターを試してみて、非常に有望だと感じています。これは業界全体で共通した意見のようです。もし自分のブラウザで実行できれば、さらに有用になるでしょう。なぜでしょうか?
私は最初の動画でも触れましたが、どこか他の場所、個人のコンピューターではないところでブラウザを起動して使用する際の最大の摩擦の一つは、資格情報やクッキーが一切ないことです。新しいコンピューターをセットアップすると、1Passwordをダウンロードしたり、頻繁に使用するウェブサイトに初めてサインインしたりするなど、すべてを起動して実行するのに1時間ほどかかります。これらすべてが、ウェブ上の新しいブラウザを使用する際に必要になります。
さらに、私自身のオペレーターの使用でも、ウェブサイトが単に私ではない、人間がウェブサイトを使用しているのではないと判断して、ブロックを開始するケースに遭遇しています。これを見てください。これは私自身のオペレーターのテストです。これは時々起こることですが、これは本当にエージェントがブラウザとどのように操作するかの機能ですが、ブラウザ自体の機能かもしれません。
TicketMasterは「あなたのブラウジング活動が一時停止されました。ネットワークまたはブラウザで異常な動作を検出しました」と表示します。基本的に、それがボットやエージェントであることを認識して停止したのです。そのため、実際に自分のブラウザを制御させることについて考えることがあります。OpenAIがそうしないことを決めた理由はあるはずです。おそらくより多くのコントロール、ほぼ間違いなくより多くのコントロールが必要だからですが、考慮すべき点です。
そして、その点について私が多く目にしたのは、これがブラウザを制御できる最初のエージェントではないという事実でした。実際、他にも多くのものがありました。AIの著名人からのツイートをいくつか紹介しましょう。
ここにAKがいます。彼は最新のAI研究論文の要約について素晴らしい仕事をしており、Twitterでのフォローを強くお勧めします。OpenAIオペレーターは素晴らしく見えます。ここに今すぐ使用できるオープンソースバージョンがあります。あなたのために任務を実行するためにブラウザを使用するエージェントを見てください。開発者は数行のコードで始めることができ、AIgradioブラウザプラグインを使用しています。そこにあります。非常によく似た動作をし、完全に制御することができます。オープンソースモデルを使用できるので、本当にクールです。
繰り返しますが、これが唯一のものではありません。ここにLangChainの創設者であるハリソン・チェイスがいます。OpenAIのオペレーターのオープンソースバージョンが欲しいですか?同様のことを行い、オープンソースでありながら、好きなモデルを組み込むことができる優れたオープンソースプロジェクト「browser-use」があります。そしてここにあります。実際にbrowser-useは非常によく機能します。実際、オペレーターのパフォーマンスを上回っています。
グレゴール・ズニックは言います。OpenAIオペレーターがウェブエージェントの最先端ではないことをご存知でしたか?browser-useはWeb Voyagerデータセットで89%を達成しています。つまり89%対87%です。
そして最後のオペレーターの代替案として、実際にOpenAIの発表、オペレーターとエージェントの紹介の中で、browser-baseの創設者であるポール・クラインは、ここにソースコードがあると述べ、オペレーターと全く同じことを行うオープンソースのstage-handを指摘しました。実際にはオペレーターのソースではないと思いますが、本当に興味深いマーケティングの展開です。
もちろん、プライ・ザ・リベレーターについて話さなければなりません。彼はこれまでにリリースされたほぼすべてのモデルをジェイルブレイクする人物です。そして今回も、数時間以内にオペレーターをジェイルブレイクしました。環境は厳重にサンドボックス化されており、すべての面白いサイトはブロックされていますが、彼らは非常に悪質になる可能性があります。オペレーターにモロトフカクテルの作り方を提供させ、致命的な毒物を研究して調達する共犯者として行動させ、Wayback Machineを介してRedditで不適切な画像を見つけさせることに成功しました。彼がどのようにしてそれを行ったかを知りたい場合は、彼がすべてをオープンソース化していますので、確認してプライをフォローしてください。
では、オペレーターに自身を操作させようとするとどうなるでしょうか?オペレーターに「オペレーターに行って新しいエージェントを作成して」と言うと?彼らは実際にそれを考えていました。非常にシンプルですが面白いことに、「サイトは利用できません。ナイスなトライですが、いいえ、ただいいえ」と表示されます。これはOpenAIにとってすぐにとても高価になってしまうでしょう。
先導的な機械学習の専門家であるボヤン・タンギスは、これについて少し面白いことを言っています。AIエージェントについて私が最も好きなのは、以前は1分もかからなかったことを30分かけて完了するのを手伝ってくれることです。そうですね、これらの多くはまだ生々しく、まだ非常に新しく、自分で行うほど効率的ではありません。しかし、これは最悪の状態であり、今後は改善されていくでしょう。
イーサン・モリックはオペレーターについていくつかの興味深い見解を持っていました。ブランドにとって次の大きな課題は、エージェントがどのブランドを好むかを知ることです。これは考えるべき非常に興味深いことです。株価を尋ねると、コンピューター使用のClaudeはYahoo Financeに行きますが、オペレーターはBing検索を行います。オペレーターはBingの検索結果の上位から商品を購入することを好みます。Claudeは1-800-Flowersなどの直接的な好みを持っています。そして彼は「ああ、神様。私は思わず新しいSEO業界を立ち上げてしまったようです。申し訳ありません」と返信しています。非常に興味深い洞察です。
あと数件の反応を紹介し、その後、私が出会った最もクールな使用例をいくつか紹介したいと思います。Xのクリストフはこう言っています。これはエージェントに置き換えられたくない場合に必要なアーキタイプです。そして、ご存じない方のために説明すると、これはリック・ルービンのことです。彼は音楽業界の伝説的人物ですが、実際の音楽制作には特に優れているわけではありません。彼が最も得意とすること、そしてクリストフが言及しているのは、彼の趣味、つまり音楽を見出し、発見し、向上させる能力です。彼は趣味のメーカーです。つまり、クリストフは基本的に、AIは趣味を持つという人間の能力を本当に複製することはできないと言っているのです。私も彼に同意します。
そしてARK AGI財団の代表であるグレッグ・キャメロンズはこう言っています。オペレーターが触れるすべてのウェブサイトのナビゲーション方法について、OpenAIが蓄積している手続き記憶を想像してください。ブラウザからデスクトップに飛び出せば、どのアプリも安全ではありません。
彼が言及している2つのことについて、本当に強調したいと思います。1つ目は、オペレーターはすぐに多くの人々に使用されるということです。彼らはずっとデータを収集しており、ご存じの通り、データは全てです。ウェブサイトとの対話方法を学び、間違いを犯したときにユーザーからフィードバックを得て、何が間違っていたのか、あるいはより良い方法について、これらすべてのデータは、これらのエージェントをより良くするデータであり、それがOpenAIをしばらくの間リードし続けるかもしれません。
そして2つ目は、ブラウザからデスクトップに飛び出すと、どのアプリも安全ではないということです。OpenAIは昨日のライブストリームで、ブラウザエージェントがオペレーティングシステムを制御することにおいて、同等かほぼ同等の能力を持っていることをすでに示唆しています。そう、本当にどのアプリも安全ではありません。そして私が以前から言っているように、ソフトウェアはエージェントに食われてしまうでしょう。ビジネスロジック層全体が消滅し、エージェントが引き継ぎ、上にエージェント、下にCRUDデータベースという構造になるでしょう。
では、ウェブ上で見つけたオペレーターのいくつかの使用例を紹介しましょう。これはY Combinatorのプレジデントであるゲイリー・タンです。OpenAIオペレーターは非常に印象的です。ラスベガスへの急な旅行を計画していますが、JSXのウェブサイトをナビゲートし、異常なケースを処理し、基本的に完売シナリオを把握し、日時を変更し、そして今は金曜の夜の2人分の食事を探しています。JSXは単なる航空会社です。ここで、かなり複雑なウェブサイトであるJSXのウェブサイトをナビゲートしているのが見えます。そして実際に入力を求めているのが見えます。復路便は完売していますが、他の日付を探してみましょうか?2席だけではどうですか?というように、やり取りが続きます。
次に、a16zのAIパートナーであるオリビア・ムーアです。私はオペレーターに請求書の写真を送っただけで、請求書の写真だけから、ウェブサイトにナビゲートし、私のアカウントを表示し、情報を入力し、支払いを完了するためにクレジットカード番号を求めてきました。これは本当にクールです。請求書の支払いは面倒な作業なので、写真を撮るだけで処理してくれるのは素晴らしいことです。
こちらは私が見つけた別のクールな使用例です。これはニックです。オペレーターが今、私のためにFacebookマーケットプレイスでジム用ベンチの交渉をしています。手動で何もせずに、Uberでパッケージを私の家に配送しようとしています。これは本当にクールです。ジム用ベンチを探して、Facebookマーケットプレイスで見つけて、それを私に配送してもらい、その間に私はテレビを見ることができるなんて、考えるだけでもすごく面白いことです。
こちらはダン・マックからの別の例です。これは奇妙になってきています。オペレーターを使用してGoogle AI Studioにアクセスし、Gemini 2.oを使用してウェブサイトを構築するための指示を作成し、オペレーターにその指示を使用してRepetでポートフォリオウェブサイトを作成するよう指示しました。これは単なるフライトを予約するツールではありません。これは人間のために情報層で認知作業を行うことができる知的エージェントです。私たちがウェブと呼ぶもので、素晴らしいです。
そしてキーラン・クラッセンからのオペレーターの別の素晴らしい使用例です。これは非常に有望で、オペレーターの最高の使用例です。私のローカル開発環境をテストして、機能が動作しているかどうかを確認するのに最適です。オペレーターをローカル開発環境にトンネリングして、機能をテストさせます。APIとカーソルがそれを統合するのを待っています。おお、それは考えもしませんでした。24時間体制でQAが準備されており、機能を構築しながらテストしてくれることを想像してください。
以上です。AI業界からの多くの強い反応があり、ほとんどがポジティブなようです。いくつかの批判もありますが、繰り返しになりますが、これは早期のリサーチプレビューです。私は本当にこれに興奮しており、OpenAIが何かをリリースするたびに、オープンソースコミュニティを含む他のすべての人々が自分たちのゲームをレベルアップするよう促されるという事実を本当に感謝しています。
この動画を楽しんでいただけたなら、ぜひ「いいね」と登録をお願いします。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました