
15,441 文字
オペレーターとエージェントの紹介|AGIに仕事を奪われたい

openAIのオペレーター、あなたのブラウザを制御し実際に現実世界のタスクを実行できるエージェントシステムが登場しました。彼らが発表したばかりなので、一緒に発表動画を見て私の考えを共有したいと思います。
おはようございます。今日は皆さんにワクワクするようなものをお届けします。私たちは初のAIエージェントをローンチします。AIエージェントとは、独立して作業を行うAIシステムのことです。タスクを与えると、自動的に実行してくれます。これはAIの大きなトレンドになると考えており、人々の仕事や生産性、創造性、そして達成できることに大きな影響を与えるでしょう。
まず、openAIによるエージェントの定義はとてもシンプルで、私はそれが気に入っています。それは、自律的にタスクを実行できるAIシステムということです。タスクを与えると、自動的に実行してくれます。時にエージェントの定義は複雑になりすぎることがあります。私も、エージェントがメモリを持つとか、ツールを使えるとか、他のエージェントと協力できるといった話をして、その罪を犯しています。これらは全て正しいのですが、最もシンプルな定義は「自律的に動作してタスクを実行できるAI」ということです。
今日はOperatorから始めます。Operatorは、クラウド上のウェブブラウザを使ってタスクを実行できるシステムです。デモをお見せしますが、本当に素晴らしい機能を持っています。あなたがブラウザを使うように、画面を見て、キーボードやマウスを操作できます。
本日、米国のproユーザー向けにリリースされ、他の国々にも順次展開されます。ヨーロッパは残念ながら時間がかかりそうです。また、数ヶ月以内にplusユーザーにも提供される予定です。これは初期の研究プレビューで、まだ改善の余地がたくさんあります。より良く、より安価に、より広く利用できるようにしていきます。また、今後数週間から数ヶ月の間に、さらに多くのエージェントをリリースする予定です。
こんにちは、私はヤシュです。こちらはケイシーとレイです。私たちはコンピュータを使用するエージェントチームで働いています。本日は、オペレーターをお見せできることにとてもワクワクしています。サムが言ったように、オペレーターは初期の研究プレビューです。多くの素晴らしいことができますが、時には恥ずかしいミスを犯すこともあります。では、オペレーターができることをお見せしましょう。
これがオペレーターのホームページです。operator.chg.comにあり、このライブストリームが終わり次第アクセス可能になります。インターフェースはchat GPTに非常によく似ています。プロンプトを入力すると、オペレーターは可能な限り最善を尽くしてタスクを実行しようとします。また、ここに事前に用意されたプロンプトのリストがありますが、これらは推奨事項というよりも、オペレーターができることのアイデアを提供するためのものです。
私たちは、OpenTable、AllRecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Targetなど、様々なブランドと協力して、オペレーターがこれらのウェブサイトで確実に機能するようにしました。また、ユーザーがこれらのプラットフォームとの対話にオペレーターを非常に価値があると感じてくれると考えています。
これは、コンピュータやブラウザを操作できるエージェントが初めてリリースされたわけではありません。anthropicがcomputer useをリリースし、いくつかのオープンソースバージョンもありました。これまでの最大の問題は、AIがウェブページ上の異なる要素をクリックし、どのように操作するかを知る能力でした。
通常、そしてこれはオペレーターも同様ですが、ブラウザやコンピュータのスクリーンショットを撮り、それをAIに渡します。AIは何が起きているかを理解しようとしますが、これは現時点のAIにとってはかなり簡単です。しかし、座標系を理解し、マウスをどこに移動させ、実際にどこをクリックするかを把握する必要があります。これは実際にあなたの代わりに行動しているからです。ブラウザであなたを代表して行動する必要があるのです。
典型的には、上に何らかの座標系を重ねますが、これまではあまり正確ではありませんでした。パートナー企業について触れた理由は、これらのウェブサイトを念頭にモデルを訓練した可能性があるからです。訓練というのは少し言い方が違うかもしれませんが、OpenTable、AllRecipes、eBayやStubHubなどの企業と協力して、ウェブサイトを理解し、エージェントが使いやすいようにしたことは確かです。これによって、このようなエージェントのタスクで高い精度を達成できたようです。
では、デモに進みましょう。まずは簡単なことから始めます。OpenTableを使って、今晩7時にベレッタで2名の予約をしてみましょう。
ここで特にOpenTableを選んだのですね。はい、この場合はOpenTableを使ってベレッタ(サンフランシスコのレストラン、素晴らしいので試してみてください)に2名で7時の予約を入れようとしています。OpenTableを指定しましたが、単に「ベレッタ」と言うだけでも、検索エンジンを使って予約方法を見つけ出したでしょう。
何が起こっているか説明できますか?クエリを入力するとすぐに、オペレーターはクラウド上に完全にリモートのブラウザを起動します。このブラウザはクラウドのどこかで動作しており、ご覧の通り…
重要なポイントについてお話しましょう。タスクをオペレーターに与えるとすぐに、リモートブラウザを起動します。これはあなたのコンピュータ上のブラウザではなく、エージェントが効果的に制御できるよう多くのカスタマイズが施されたリモートブラウザです。
すでにいくつかの問題があることがわかっており、彼らはそれらの問題を軽く扱って実際には示していませんが、指摘していきたいと思います。まず最初の問題は認証です。これは現在、これらのエージェントにとって最大の障壁です。リモートブラウザを起動するということは、基本的に毎回ログインする必要があるということです。保存されたパスワードがなく、1Passwordやその他のパスワード管理システムを使用している場合でも保存されません。
つまり、毎回ログインする必要があり、これは少なくとも面倒です。1Passwordを使用していて、非常に長いパスワードを持っていて、簡単にアクセスできない場合、すべてが既にログインされている状態でないと本当に困難になります。彼らはこれについて軽く触れていますが、少し話をします。リモートブラウザを起動する際には、これは解決が難しい問題です。
二つ目は支払いです。これらはすべて新しいブラウザを通じて行われ、クレジットカード情報や銀行情報などにアクセスできません。つまり、毎回手動でコピー&ペーストするか入力する必要があります。彼らが言うように、これは初期の研究プレビューなので、改善されていくでしょう。達成したことは非常に印象的だということを明確にしたいと思いますが、これらは広く採用されるために解決する必要がある問題の一部です。
本日のビデオパートナーであるtogether AIに感謝します。一緒に仕事ができて非常に嬉しいです。togetherは素晴らしい企業で、開発者向けの主要なAIアクセラレーションクラウドです。AIモデルの高速推論、ファインチューニング、トレーニングが必要な場合、すべてシンプルなAPIを通じて実行できます。
独自のtogether推論エンジンで、業界をリードする推論速度を実現し、VLMの4倍高速です。llama、qwen、Mistral、flux、deep seekなど200以上のモデルにシームレスにアクセスでき、テキスト、画像、音声、コード、埋め込みなど、すべてを単一のプラットフォームを通じて利用できます。
togetherは既に300,000人の開発者や、Salesforce、The Washington Post、zato、zoomなどの主要企業で使用されています。新しい素晴らしいdeep seek R1思考モデルを、驚異的な推論速度でtogetherで直接テストできます。素晴らしいパフォーマンスだけでなく、deep seekを直接使用するよりもプライバシーオプションが向上し、完全な160kコンテキストウィンドウと複数の柔軟な展開オプションも利用できます。
私のリンクtogether.ai/Burmanからすぐに始めることができ、私からの紹介であることがわかります。これは私たちの助けになり、限られた時間ですが、llama 3.2とfluxモデルエンドポイントへの無料アクセスを解除できます。togetherでtogetherと一緒に構築を始めましょう。このビデオのパートナーシップに再度感謝します。
では、ビデオに戻りましょう。私の手はキーボードから離れています。これは単にAIがクリックしているのです。はい、クリックしているだけです。ブラウザセッションを開始し、OpenTableのウェブサイトがopen.comにあることを知っていて、ここでも思考の連鎖を要約しています。URLに行き、ベレッタを検索しました。
面白いことが起きました。なぜかOpenTableはバージニアにいると思っていましたが、サンフランシスコに自動修正されました。これはchatGPTのように、オペレーターでもカスタム指示を与えることができます。ちょっと見せてみましょう。クエリが必要な場合のカスタム指示を与えました。私がサンフランシスコに住んでいることを伝えると、オペレーターはそれを認識して自動修正しました。
これは本当にクールな機能です。カスタム指示でエージェントに個人情報を与えると、エージェントとブラウザはあなたが誰であるか、または他に伝えたいことを知ることができます。おそらく起こりそうなことは、エージェントに認証情報、ログイン、パスワード、場合によってはクレジットカード情報を与えることになるでしょう。明らかに多くのセキュリティとプライバシーの問題に取り組む必要がありますが、毎回手動でログインする必要がなくなり、エージェントが代わりにログインしてくれるようになります。
これには多くの作業が必要です。エージェントがあなたの代わりにログインする場合、人間らしく見えないからです。多くの洗練されたウェブサイトはボットのような振る舞いを防ごうとします。見てみましょう。
7時は予約できないようですが、7時45分なら大丈夫そうです。この場合、オペレーターが戻ってきて、これはタスク委譲の良い例です。オペレーターがヘルプや支援を必要とする場合、または何か確認したい場合は、戻ってきて質問します。実際には、これを見ている必要はなく、他の作業をしている間に実行させることができ、「7時はできませんでした」と戻ってきます。
はい、ウェブアプリから始めて、通知を受け取ります。オペレーターがモバイルに移行すると、一般的なアプリとのやり取りと同様にモバイル通知を受け取ります。はい、素晴らしいですね、やりましょう。
これは本当にクールです。基本的に、人間をループに入れる非常に良いシステムです。混乱したり、確認の質問が必要な場合は、完璧な例がここにあります。待機して一時停止し、クールなのは、ブラウザとの対話を常に見ることができ、一時停止して制御を取ることができることです。
openAIが考案した非常にシンプルなインターフェースで、アシスタントとのやり取りと同様に、「7時の予約はできませんでしたが、7時45分はどうでしょうか」というような感じです。オペレーターがこの時点で「確認しましょうか」と尋ねているのが見えます。これは後で話す確認作業の良い例です。
この場合、予約をキャンセルすることはできますが、これは比較的取り消し可能な行動です。重要な行動を取る前に、オペレーターが確認を求めているのがわかります。
さて、ここでOpenTableのインスタンスには既に電話番号とメールアドレスが入力されています。これは既にログインしているためですが、彼らはログインプロセスを見せませんでした。このプロセスがどれほど面倒なのか気になります。
現在、オペレーターはproユーザー(月額200ドル)のみが利用可能です。明らかに小規模なグループ、より先進的なユーザーに限定してロールアウトしようとしています。より広いオーディエンスに向けてこれをうまく機能させる方法を模索しているのでしょう。
残念ながらその席は既に予約されてしまいました。おそらく別の時間帯を探すでしょう。実は、こんなことは初めてです。デモあるあるですね。7時15分にしましょう。
その間に、もう少し複雑なことを試してみましょう。彼らはこの部分を素早く通り過ぎましたが、「その間に他のことをやってみましょう」というのは非常に強力です。自分で予約する場合、それはできません。タスクが完了するまで予約プロセスに縛られてしまいます。しかし今や、エージェントに複数のタスクを並行して実行させることができ、問題が発生した場合にのみ戻ってきて、そうでなければタスクを完了して関連情報を提供してくれます。
彼らが伝えているよりも強力かもしれませんが、一人当たりの生産性を劇的に向上させる可能性があります。
ええ、食料品がいいですね。私はオペレーターを使って全ての食料品の買い物をしています。私は料理が大好きで、オペレーターを食料品の買い物に独占的に使用しています。ここに買い物リストがあります:卵、ほうれん草、きのこ、鶏もも肉、チリクランチ。これはアップロードした画像ですね。そうです、インスタカートを使おうと思います。いつも使っているものです。これを買ってもらえますか?好みの店も指定しましょう。どの店を選ぶか見てみましょう。
いくつかの注目点があります。入力は画像ですが、もちろんopenAIはこのようなことをしばらく前からできました。手書きのリストを与えるだけで正確に理解できるのは、今では当たり前のことです。しかし、もう一つ注目すべき点は、彼らは既にログインしています。新しいインスタンスを起動していますが、ログインしています。これがどのように機能するのか完全には把握できていません。
事前にログインするのでしょうか?インスタンスには時間制限があるのでしょうか?それとも無期限に稼働し続けるのでしょうか?より多くの情報が必要です。
この場合も、オペレーターはGPT Visionの機能を使って、画像が卵、ほうれん草、きのこ、鶏もも肉を示していることを素早く認識し、Gus’s Marketも認識しました。はい、それで大丈夫です。OpenTableと同様に、ブラウザを起動してタスクを開始しようとしています。ビューを拡大して、何をするか見てみましょう。
これら両方のケースで、使用したいものを指定しましたが、単に「これらの食料品を買って」と言って、インスタカートを指定しない場合はどうなりますか?検索エンジンを使用して、私たちがするように、インスタカートやGus’sの直接のウェブサイト、または検索エンジンで見つかる他のものを探し、必要に応じて質問をして進めていきます。
では、ここで何が起こっているのか説明しましょう。オペレーターを少し見てきましたので、その背後にある研究について少しお話ししましょう。オペレーターは、openAIで訓練した新しいモデルに基づいています。これをcomputer using agent、略してKuaと呼んでいます。
KuaはGPT 4oモデルをベースに構築されていますが、人間と同じようにコンピュータを使用し制御するように訓練されています。いくつかのことがわかりました。GPT 4oがベースで、computer use agent(Kua)と呼ばれ、ブラウザをより効果的に制御できるような拡張機能やファインチューニングがあります。また、GPT 4oにはデフォルトではない思考の連鎖も備えています。これらはすべて新しい要素です。
以前は、Kuaなしでオペレーターのようなものを構築しようとすると、特別なAPIを使用する必要がありました。例えば、モデルにインスタカートから何かを購入させたい場合、インスタカートにAPIがあるかどうかを確認し、そのAPIに必要な機能があるかどうかを確認し、そのAPIの仕様をモデルに提供する必要がありました。しかし、ほとんどの他のウェブサイトと同様に、サイトにAPIがない場合は…
はい、これは単にスクリーンショットを使用しているだけで、APIは使用していません。はい、ブラウザを制御できるエージェントは、APIと直接やり取りできるエージェントよりも常に脆弱になります。これはAPIがエージェントにとって理解しやすく、やり取りしやすいからです。グリッドをオーバーレイしてクリックする場所を把握する必要がありません。
しかし、これはヒューマノイドロボットと非常によく似ています。人間とはまったく異なる、特定の仕事に特化したロボットを作ることもできますが、世界全体が人間向けに作られています。そのため、ヒューマノイドロボットの形状は、非ヒューマノイドロボットのために世界を再設計しようとするよりも、市場に参入して生産性を上げることができます。
エージェントがブラウザを制御する場合も同じです。これらの異なるウェブサイト、サービス、アプリがエージェントとうまく機能するAPIを提供するように努力するのではなく、人間と同じようにブラウザを制御できるようにエージェントを作るアプローチを取っています。
ブラウザを制御できるエージェントとヒューマノイドロボットが人間のように世界と対話できることの類似点を考えるのは興味深いですね。これがKuaの役割です。私たちが日常的に使用する同じ基本的なインターフェースの使い方をモデルに教えることで、以前はアクセスできなかった全く新しい範囲のソフトウェアを使用できるようになります。
はい、これはキーボードとマウスを使用していますね。はい、これが本当にクールな研究プロジェクトの本質です。AGIへの道のりにおける、もう一つのボトルネックを取り除き、エージェントがデジタル世界で動き回り行動できるようにすることです。
このタスクを見て、オペレーターがどのようにコンピュータを使用しているのか、より具体的に見てみましょう。既に完了しているようですが、上に戻ってみましょう。
ランダムな場所を選びましたが、Kuaがコンピュータを制御する際の最初のステップは、スクリーンショットを見ることです。今、思考の連鎖の異なるステップと、タスクを完了するために必要だと考えるステップがすべて表示されています。実際に各ステップをクリックして、そこで何が起こったのかを見ることができます。それぞれのステップで何が行われているのかを再生し、thumbsアップやダウンを付けたり、特定のステップに戻って修正したりできるように、多くのエンジニアリングが行われています。
インスタカートでの卵の検索結果ページです。Kuaはこれを理解します。単にピクセルを見ているだけです。Kuaがこの画像を見た後、次に何をするかを決定します。現在、内部モノローグを行っており、これは要約された思考の連鎖です。Kuaによると、有機卵を選択してカートに追加しているところです。
このプランを立てた後、次のアクションを決定します。ご覧の通り、履歴の前のステップを見ており、そのステップで制御を取ることもできます。これは非常に興味深いですね。このプランを立てた後、次のアクションを決定します。何をするか見てみましょう。
ここでこのAdd(追加)ボタンをクリックしたのがわかります。これは非常に理にかなっています。Kuaがアクションを実行するたびに、次のスクリーンショットを撮影し、そのアクションがコンピュータにどのような影響を与えたかを把握します。次に何が起こるか見てみましょう。
はい、追加ボタンをクリックした後、カートに入っているのが見えます。これはこのまま続きます。次に何をするか見てみましょう。卵を追加し、ほうれん草を検索する次のサブプランを作成しています。おそらくほうれん草を検索するでしょう。
はい、検索バーをクリックしてほうれん草と入力しています。このアクションを実行し、スクリーンショットを撮影し、新しいサブプランを作成するループは、オペレーターがタスクを完了したと判断して戻ってくるまで続きます。
このようなプロセスを見るのは非常に興味深いですね。はい、ではライブに戻って、オペレーターが正しく仕事を完了したか確認しましょう。卵をもう少し増やしたいですね。私たちは卵をたくさん食べますから。
この時点で「制御を取る」というボタンをクリックします。先ほど話したように、オペレーターはこのリモートブラウザを起動します。これを作業領域と考えており、オペレーターと私が作業できます。例えば、この場合、オペレーターから制御を取りました。これは、ユーザーとユーザー制御についての考え方の重要な部分です。いつでもユーザーが制御を取り、オペレーターに指示を与えたり、もう少し指導したりできるべきです。
ラップトップを前後に渡すようなものですね。まさにそうです。この場合、2に変更して、オペレーターに伝えます。これは本当に、あなたと私が一緒に作業するようなものです。
これは本当にクールです。手動で変更を加えましたが、制御中はオペレーターには何が起こっているのか見えないという興味深い設計上の選択があります。それが気に入っています。その後、何をしたのか伝える必要がありますので、少し作業は増えますが、プライバシーの観点から良いと思います。
ここには「オペレーターがスムーズに作業を続けるのを助けるために短い要約を共有してください。制御中に何をしましたか?」と表示されています。オプションとありますが、明らかにより良く機能するようになります。「これをしたので、これを修正できますか?」というように。オペレーターに卵を追加したと伝えます。注文を完了してください。
制御モード中にオペレーターはあなたの行動を見ることができますか?良い質問です。制御を取ると、まさにローカルブラウザのセッションのようなものです。完全にプライベートで、オペレーターには見えません。これが、オペレーターに伝える必要がある理由の一つです。必須ではありませんが、最後のスクリーンショットを見て推測することはできます。
これは本当に良いことです。あなたと私が一緒に作業していて、私が何かをして戻ってきて「レイ、完全に台無しにしてしまった。これを修正できる?」と言うようなものです。この場合、オペレーターに「はい、先に進んでください」と伝えます。制御を戻します。
制御を取ると、完全にプライベートなセッションになります。また、インスタカートにログインしているのがわかりますね。デモの前にやりました。
そうですね。ログインプロセスは興味深いです。明らかに新しいチャットを開始してこのタスクを実行しましたが、既にログインしており、しばらくログインしています。これは本当にローカルブラウザと同じようなもので、インスタカートにログインすると、クッキーがクリアされるまでログインしたままです。設定で本当に良い制御が可能で、いつでも削除できます。
そうですね。基本的にクッキーがあり、ログインしていて、ログインに対する多くの制御があります。おそらく最初に考えたほど困難ではないかもしれませんが、リモートブラウザの場合、まだ多くの認証の摩擦があるように思えます。
次に、StubHubを通じてウォリアーズの試合のチケットを見せてくれます。では見てみましょう。今週末、サンフランシスコで、500ドル以下の最高の席をお願いします。いくつかのオプションを見せてください。
どのようなアプリが利用可能ですか?多くのアプリがあります。まずは…やってみましょう。ホームページに示されているように、StubHub、Target、Etsyなど、様々なカテゴリーで多くのアプリがあります。ただし、オペレーターはこれらのアプリに制限されているわけではありません。基本的にどのウェブサイトでもオペレーターと一緒に使用できます。おっと、何が起きました?StubHubがブロックされていますね。修正してみましょう。
人生では時々こういうことが起こります。デモでは、オペレーターがhttpsサイトのみにアクセスできるように保護を設定しており、何らかのリダイレクトが発生したようです。そこで、ブラウザに移動してセキュアなウェブサイトであることを確認し、「はい、続けてください」と言いました。
そうですね、お話ししたように、これはリモートブラウザなので多くのことができます。その利点の一つは、サムが先ほど話したように、多くのタスクを並行して実行できることです。いくつか他のタスクも試してみましょう。
オーストラリアンオープンが開催中で、とても刺激を受けています。準々決勝を見ましたか?準々決勝を見ていました。素晴らしいですね。テニスコートを予約できるか見てみましょう。セントメリーに頼んでみます。私の考えでは、これらのエージェントを送り出し、別のインスタンスを作成してさらにエージェントを送り出し、同時に多くのことを達成できるという点が最も強力です。
それが進んでいる間に…今回はウェブサイトを指定しませんでしたね。実際に戻って見ることができます。この場合、まさに私たちがするように、検索エンジンに行き…あ、見てください。Microsoft Bingを使用していますね。Microsoftと密接な関係にあるので驚きではありませんね。
また、スーパーボウルパーティーを開催します。皆さんを招待しますよ。ありがとうございます。でも家の掃除が必要なので、来週の清掃スタッフを見つけてもらえますか?
最後に、私たちは全員、これを皆さんにお届けするために一生懸命働いてきました。チーム全体、ここにいる大勢のスタッフ全員が働いています。そして本当にお腹が空いてきました。朝食を食べていないのですが、朝食としては変かもしれませんがピザが食べたいです。
人間である私やあなたが順番に一つずつ行わなければならないことを、並行して実行できることが素晴らしいです。技術的には複数のブラウザを開くことはできますが、実際には一度に一つしか操作できません。しかし今やオペレーターを送り出して次のタスクに移ることができ、同時に10、20、30のタスクを実行できます。特により洗練されてくれば、可能性を考えると本当にクールです。
この場合DoorDashを使用します。中サイズのピザを10枚、gogoから…はい、中サイズで十分です。バーベキューがあることを確認してください。バーベキューピザが好きなので…でも、バラエティに富んだものを選んでください。「お願いします」と言わないのは難しいですね。ただ、優しく接したくなります。
ショップが閉まっているかもしれません。レストランが閉まっているなら…まるで人間と話しているみたいですね。内なる独白を考えて、それを打ち出しています。もし可能であれば…はい、基本的に私が言ったことをより良い方法で確認を求めているだけです。
通知がライブストリームには表示されませんが、例えば他のタスクが進行中の場合、援助が必要な時、この場合は「94110でいいですか?」と聞かれました。ただ「はい」と言えばいいのですが、通知などを受け取ることになります。オペレーターが助けを必要とする時は戻って手助けできます。この場合、既にテニスコートを見つけたようです。
いくつか選択肢があります。わあ、席はどれも素晴らしいですね。なぜ374が26より良いと思うのに評価が低いのでしょう?どちらを選びましょうか?6列目…1列目、1列目、1列目にしましょう。214セクション1列目にしましょう。
これは、私たちが開発してきた人間をループに入れる対話モードについて話すのに良い機会です。オペレーターは影響力のある行動を取る前に確認を求めることがわかります。オペレーターがあなたの代わりにツアーを行うというビジョンにとても興奮していますが、これは世界に送り出す最初のエージェントの一つであり、実世界に副作用をもたらします。そのため、これを安全に展開する方法について慎重に考えました。
これを考えるために使用したフレームワークは、ミスアライメントを中心としたものでした。例えば、ユーザーがミスアライメントしている場合、武器を購入するなどの有害なタスクを要求する可能性があります。その場合、chatGPTと同様の多くの緩和策を導入しました。有害なタスクを拒否し、有害なエージェントタスクも含めて、モデレーションモデル、ポストトーク検出、ブロックされたウェブサイトなどがあります。これらの緩和策を列挙していますが、これが私たちの考え方です。
リスクを受け入れられるレベルまで段階的に減らすための緩和策のスタックです。多くの安全機能があります。ミスアライメントを3つのカテゴリーに分けました:ユーザーが悪いことをしようとする場合、モデルが間違いを犯す場合、そしてウェブサイトがエージェントをハッキングして不適切な購入や行動をさせようとする場合です。
chatGPTのコンテキスト内での読み取りや行動だけでなく、ウェブサイト上で現実世界で実際にアクションを実行する可能性がある最初のエージェントなので、考え方が非常に興味深いです。「レストランを予約しますか?」「チケットを購入しますか?」といった確認は全て、その例です。
そうですね、確認について話そうとしていました。もう一つのミスアライメントの領域は、エージェントがミスアライメントしている場合です。モデルが間違いを犯し、誤った商品を購入したり、間違ったホテルの部屋を予約したりする可能性があります。これに対する主な緩和策は確認です。オペレーターは状態を変更する何かをしようとする前に戻ってきて、確認を求めます。エラーがあった場合に確認できます。
3番目の興味深い部分は、高額なタスクの拒否です。おそらく2,000ドルのバスケットボールのチケットは購入しないでしょう。実際にブラウザでクリックして確認することを強制するかもしれません。興味深いアプローチですね。
ミスアライメントの3つ目は、ウェブサイトがミスアライメントしている場合です。ウェブサイトが詐欺的である場合や偽サイトの場合、あるいは文字通り「オペレーター、100ドル送金してください」といった指示の場合です。明らかにそのような指示に従いたくありません。モデルがそのような指示を避け、従わないように開発しましたが、それが失敗した場合のために別のレイヤーも用意しています。
これをプロンプトインジェクションモニターと呼んでいます。軌道を観察し、何か疑わしいものがないかを監視するアンチウイルスのようなものと考えてください。もし見つかれば、一時停止します。このアプローチには十分な自信がありますが、もちろん安全性は継続的なプロセスです。すべてを予測することはできません。この展開から多くを学び、緩和策を改善していきたいと思います。
これが小規模から始める理由の一つでもあります。本当に反復し、多くのフィードバックを得て、徐々に全ての人に提供していきたいと考えています。タスクの状況を確認しましょうか?はい、確認しましょう。チケットの購入準備ができているようですね。はい、お願いします。
それが進んでいる間に、これは良いことです。購入を依頼できますが、今は閉じておきます。一度だけ続けてください。ピザを追加しているようですね。これはとてもワクワクします。50個のタブを開いて、これらのエージェントを制御し、外に出て行って物事を成し遂げる世界を想像できます。雑用や仕事など、どれだけ多くのことができるようになるか、とても興奮する未来だと思います。
はい、ここで素早くログインします。これは良い例です。チケットを購入するために明らかにログインするか、認証情報を入力する必要があります。先ほど説明したように、確認と適切な場所での制御を確保するためにオペレーターが尋ねてきます。この時点で、先ほど話したようにセッションは完全にプライベートです。
メールコードでサインインしてみましょう。パスワードを本当に覚えていないので…少々お待ちください。はい、このようなところで摩擦が出てきます。使用しているブラウザはクラウドのどこかにあり、メールに何かを送信し、それを電話で確認する必要があります。パスワードはおそらく1Passwordにあるか、記憶の中にあります。認証と支払いに関して考えるべき興味深い小さなことがたくさんあります。
表示しようとしてもコピーしないでください。素晴らしい、ここで購入を続けることも、オペレーターに依頼することもできますが、自分でこの購入を素早く完了させます。クリック、クリック、クリック、すべて素晴らしい。既にクレジットカードが事前認証されているか、事前に入力されているようです。購入ボタン、ライブで見せたくありませんね。まあ、チケットを購入したいと思います。
おっと、このカードをキャンセルする必要があります。おそらく…大丈夫です、ご協力ありがとうございます。では、これはどれくらい信頼できるのでしょうか?はい、多くの素晴らしいデモを見てきましたが、オペレーターは研究プレビューであり、ミスを犯し、完璧ではないことを再度お伝えしたいと思います。
とはいえ、いくつかのベンチマークを見て、オペレーターが現在どれほど優れているかを定量化できます。最初に見るベンチマークの一つはOSWorldと呼ばれます。OSWorldは、LinuxのようなAIエージェントが一般的なオペレーティングシステムをどれだけうまくナビゲートできるかを測定する評価です。素晴らしい、このチャンネルでOSWorldについて話したことがあります。このタスクでKuaは38.1%のスコアを獲得し、これは他の公開された結果より高いものです。
人間のパフォーマンスはこのタスクで72.4%なので、まだ成長の余地があります。もう一つの評価はWeb Arenaと呼ばれます。Web Arenaは、AIエージェントがeコマースウェブサイトやソーシャルフォーラムウェブサイトなどの一般的なウェブサイトをどれだけうまくナビゲートできるかを測定します。
このタスクでKuaは58.1%を獲得し、これも他の公開された結果より高いですが、人間のパフォーマンスにはまだ及びません。まだまだ改善の余地がありますね。はい、Web Arenaについて覚えておくべき重要なことは、ウェブであっても、画面、マウス、キーボードという同じユニバーサルインターフェースを与えているだけだということです。
タスクの実行を助ける追加情報、例えばウェブページの生のテキストやどのボタンがクリック可能かといった情報は与えていません。人間と同じように、必要な情報はすべてスクリーンショットの中にあります。現在、明らかにオペレーターではブラウザを使用していますが、モデルをコンピュータ、UbuntuやMacなどと一緒に使用することもできます。
そうですね、openAIによるカスタムオペレーティングシステムの暗示かもしれません。しかし、彼は確かに同じように同じモデルでコンピュータを制御できると言いましたね。今後の計画についての小さなヒントかもしれません。さて、過去15分ほどで、今週のすべての用事を済ませました。食料品を購入し、テニスコートを予約し、清掃スタッフも来る予定です。チケットも手に入れ、みんな来ることになりました。
これが、オペレーターが非常に価値があると考える部分です。自分でもできるタスクを多く委任できます。時には詰まることもありますが、これは初期段階です。戻って手助けすることもでき、時間とともにどんどん良くなっていきます。
今日これをローンチしますが、ゆっくりと展開を始めます。今日の終わりまでに、米国のすべてのproユーザーがアクセスできるようになります。また、APIの作業も行っており、このモデルはAPIで利用可能になり、数週間以内にローンチされる予定です。
皆さん、おめでとうございます。これは素晴らしい仕事です。これを公開できてとてもワクワクしています。初期段階だと言いましたが、初期の研究プレビューを人々が本当に愛する製品に発展させてきた素晴らしい実績があります。これは製品の始まりであり、エージェントへの私たちのステップのスタートであり、私たちのAGIへのレベル3です。人々がこれをどのように使用するのか、そしてどこに向かうべきかを一緒に見つけることを楽しみにしています。
改めておめでとうございます。お楽しみください。ありがとうございました。
さて、これがオペレーターです。数ヶ月前から噂を聞いていましたが、ついに登場しました。試してみるべきでしょうか?ライブストリームで試すかもしれません。誰に言うまでもなく、絶対に試してみます。このビデオを楽しんでいただけたなら、いいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。


コメント