ChatGPTエージェントの紹介

この動画は、OpenAIが新たに発表したChatGPT agentの機能と可能性を詳細に紹介したものである。サム・アルトマンをはじめとする開発チームが登場し、実際のデモンストレーションを通じて、エージェントがウェブブラウジング、ターミナル操作、ファイル作成など複数のツールを統合的に活用しながら複雑なタスクを自律的に実行する様子を披露している。結婚式の準備から企業向けのプレゼンテーション作成まで、様々な実用的な場面での活用例が示され、AI技術の新たな段階を象徴する内容となっている。

Introduction to ChatGPT agent

Sam Altman, Casey Chu, Isa Fulford, Yash Kumar, and Zhiqing Sun introduce and demo our unified agentic model in ChatGPT.

ChatGPT agentの発表
エージェント機能のデモンストレーション
エージェントの技術的機能解説
ツール選択の学習プロセス
プロジェクトの背景と統合の意義
結婚式計画デモの継続
ステッカー作成デモ
中断と協調機能
メタ評価デモ
評価結果の発表
セキュリティとリスクについて
最終結果の確認
MLBスタジアム巡りデモ
発表の締めくくり

ChatGPT agentの発表

おはようございます。今日は皆さんにとって素晴らしい内容をお届けします。ChatGPT agentをローンチいたします。その前に、チームメンバーに自己紹介をお願いしたいと思います。Yashから始めてください。

こんにちは、Yashです。エージェントチームで働いており、以前はoperatorに取り組んでいました。

こんにちは、Jingです。エージェント研究に携わっており、以前はdeep researchに取り組んでいました。

こんにちは、Caseyです。エージェントの研究者で、以前はoperatorに携わっていました。

こんにちは、Issaです。エージェントの研究者で、以前はdeep researchに携わっていました。

私たちは今年の初めからエージェントのローンチを開始しました。deep researchとoperatorをローンチしたところ、人々は大変興奮しました。AIが複雑なタスクを代わりに実行してくれることを人々は実感できたのです。

しかし、人々が本当に求めているのは、これらの機能とそれ以上の機能を統合することだということが明らかになりました。人々は、独自のコンピューターを使って実際の複雑なタスクを実行し、何かについて考えることから行動を取ることへシームレスに移行し、多くのツールを使用し、ターミナルを使い、ウェブ上でクリックし、さらにはスプレッドシートやスライドなどの作成まで行える統一されたエージェントを求めていました。

そして人々は、これを長期間にわたって、そして汎用的なタスクに対して実行できることを望んでいました。そこでチームは、これらを統合するために一生懸命取り組んできました。そして今日、ChatGPT agentをお届けします。説明を続けるよりも、実際にお見せする方が簡単でしょう。これが動作する様子を見るのは、私にとって非常に感動的な瞬間の一つです。それでは見てみましょう。

エージェント機能のデモンストレーション

素晴らしいです。ありがとう、Sam。皆さん、こんにちは。ChatGPT agentを皆さんと共有できることを大変嬉しく思います。Samが言ったように、早速デモに入りましょう。

我々がよく知っているChatGPTの画面にいます。エージェントモードを有効にするには、ツールメニューをクリックしてagentを選択するだけです。

また、コンポーザーバーに「agent」と入力するだけでも、エージェントモードに移行できます。Edwardと私は今年後半に結婚式に参加する予定です。共通の友人の結婚式です。エージェントに計画してもらいましょうか？はい、そうしましょう。私は衣装が必要です。そして贈り物も忘れないでください。

分かりました、素晴らしいです。贈り物は忘れません。少し長いプロンプトなので、バッファにコピーしてあります。そのまま貼り付けます。

見てみましょう。お話ししたように、友人たちが今年後半に結婚します。MiniaとSarahです。エージェントにドレスコードに合った衣装を見つけてもらい、いくつかのオプションを提案してもらいたいと思います。会場と天気を考慮した、素敵なミッドラグジュアリーなものです。また、ホテルも見つけてもらい、Edwardが言ったように、贈り物も忘れないでください。

それではプロンプトを送信してみましょう。Samが言ったように、エージェントはコンピューターを使用します。最初に環境をセットアップします。環境のセットアップには1、2分かかりますが、実際には5秒程度です。この場合、ご覧のように、プロンプトを理解しています。私に明確化を求めています。

とりあえずそのまま続けて作業させてみます。「結婚式の正確な日時はいつですか？」と混乱しているようですが、ウェブサイトを使って把握すると思います。

いいですね。それでは開始されました。プロセスとプロンプトが開始され、ブラウザが開かれました。

エージェントの技術的機能解説

何が起こっているかを説明します。ここで、前述したように、エージェントに独自の仮想コンピューターへのアクセスを与えました。このコンピューターには多くの異なるツールがインストールされており、タスクを実行する際に使用するものを選択できます。ChatGPTでは、エージェントのコンピューター画面の視覚化を見ることができ、その上にテキストで思考の連鎖が重ねて表示されます。これは、タスクを実行し、次に何をするかを決定する際にエージェントが考えていることです。

エージェントにはインターネットを閲覧する2つの異なる方法へのアクセスを与えました。まず、テキストブラウザーへのアクセスです。これはdeep researchツールに似ています。これにより、多くのウェブページを効率的かつ迅速に読み、検索することができます。また、ビジュアルブラウザーへのアクセスも与えました。

これはoperatorツールに似ています。これにより、ウェブページのUIと実際にやり取りできます。物をドラッグし、カーソルを使ってクリックし、UIコンポーネントを開き、フォームに記入し、テキストエリアにテキストを入力できます。非常に柔軟です。これら2つのツールは非常に補完的です。

さらに、独自のターミナルへのアクセスも与えたので、コードを実行し、スライドデッキやスプレッドシートなどのファイルを生成・分析できます。ターミナルを通じて、パブリックAPIや、Google Drive、Google Calendar、GitHub、SharePointなどのプライベートデータソースにアクセスするAPIも呼び出すことができます。これらは、deep research connectorsと同様に、明示的に接続した場合のみです。

また、image generation APIへのアクセスもあるので、スライドデッキやその他のタスクを実行する際に、素敵なビジュアルを作成できます。

ツール選択の学習プロセス

ここでどのツールを使用するかをどのように決定しているのでしょうか？

はい、モデルが強化学習を使ってこれらの機能間を移動するように訓練しました。これは、この統一されたツールボックスへのアクセスを持つように訓練した最初のモデルです。テキストブラウザー、GUIブラウザー、ターミナル、すべてが1つの仮想マシンに含まれています。

学習を導くため、これらすべてのツールを使用する必要がある困難なタスクを作成しました。これにより、モデルはこれらのツールの使用方法だけでなく、手元のタスクに応じてどのツールをいつ使用するかも学習できます。訓練の初期段階では、モデルは比較的簡単な問題を解決するためにこれらすべてのツールを使用しようとする可能性があります。

時間が経つにつれて、問題を正確かつ効率的に解決することでモデルに報酬を与えると、モデルはより賢いツール選択を行うようになります。たとえば、特定の要件でレストランを見つけて予約をするようモデルに依頼した場合、モデルは通常、テキストブラウザーでdeep researchを開始して候補を見つけ、次にGUIブラウザーに切り替えて料理の写真を見て、空き状況を確認し、予約を完了します。

同様に、アーティファクトの作成などの創造的なタスクでは、モデルはまずオンラインでパブリックリソースを検索し、次にターミナルに切り替えてコード編集を行いアーティファクトをコンパイルし、最後にGUIブラウザーで最終出力を検証します。これにより、deep researchとoperatorの最良の部分を統合し、さらに特別な輝きを加えたと本当に感じています。

プロジェクトの背景と統合の意義

その通りです。このプロジェクトを文脈に置くため、少し歴史を説明したいと思います。数ヶ月前、1月にoperatorを出荷しました。これは、予約を取ったりメールを送信したりするオンラインタスクを実行できるエージェントでした。その2週間後にdeep researchを出荷しました。deep researchは詳細なインターネット研究を行い、高品質な研究レポートを出力するツールです。

ローンチ後、実際にこれら2つのアプローチは深く補完的であることに気づきました。たとえば、operatorは非常に長い記事を読むのに苦労します。スクロールする必要があり、時間がかかります。しかし、これはdeep researchが得意とすることです。逆に、deep researchはウェブページのインタラクティブ要素、視覚的で高度にビジュアルなウェブページとのやり取りがそれほど得意ではありませんが、これはoperatorが優れている部分です。

そのため、これらのアプローチは補完的だと感じ、顧客からのフィードバックも見ていました。たとえば、deep researchで最も要望の多かった機能の1つは、ウェブサイトにログインして認証されたソースにアクセスする機能でした。これはoperatorができることです。私もそれを長い間待っていました。

また、人々がoperatorに試していたプロンプトを見ると、実際にはdeep researchタイプのプロンプトが多かったのです。たとえば、「旅行を計画してから予約する」などです。そのため、私たちは本当に両方の世界の最良の部分を統合していると感じています。個人的な話ですが、私たちは皆しばらく友人であり、一緒に働けることは本当にエキサイティングです。

結婚式計画デモの継続

天国で作られたマッチといえば、結婚式の計画はどうなっていますか？

見ていて素晴らしいです。これは私が嫌いなタスクの例です。これらのウサギの穴に落ちてしまうと、数時間を台無しにしてしまいます。皆さんが話している間に、これがクリックしてすべてを実行する様子を見るのは本当に驚くべきことです。

そうですね、完全にその通りです。天気を把握することから始まったようです。素晴らしい機能の1つは、これらのタスクが少し長くかかる場合があることですが、戻って何をしていたかを見ることができることです。それがまさに私たちがこれから行うことです。

テキストブラウザーを使用してウェブサイトを調べたようです。興味深いことに、今度はEdwardのスーツを探しています。きっと良いものを見つけるでしょう。ここで、スーツがEdwardに本当によく似合うかを確認するため、実際にビジュアルブラウザーに切り替えたのが分かります。今では順調に進んでいるようで、何をすべきかを把握しています。まだスーツについて作業しており、おそらく贈り物のセクションに移っているでしょう。

これは時間がかかります。Samが言ったように、これらのタスクは時間がかかることがあります。そのため、私たちが実行するよりもはるかに速く、うまくいけば続けてくれるでしょう。実行している間に他のことをしましょうか？チームは本当にローンチ用のステッカーが欲しかったんです。それをやりましょうか？

ステッカー作成デモ

はい、いいですね。私たちにはチームマスコットがいます。同僚の一人であるBunny Doodleです。本当に可愛いです。皆のためにラップトップステッカーを作ってもらおうと思います。

エージェントのお気に入り機能の1つは、軌道がタスクの複雑さに応じて15分、20分、30分かかることがあるということです。多くの場合、エージェントを助ける必要があるかもしれません。エージェントは明確化や確認などを求める必要があるかもしれません。そのため、外出先で使用するのが大好きです。今回は実際に携帯電話を使ってクエリを送信し、どうなるか見てみます。

ChatGPTにいます。既にエージェントモードを選択しています。可愛いマスコットも入力済みです。クエリを素早く貼り付けます。クエリには「チーム用のグッズを作ってください。ラップトップステッカーを1種類、500個注文してください。過去に使用したことのあるSticker Muleが好きです」と書いて送信します。

ウェブ上でやっていたように、時間をかけて何をしているか考え、クエリを開始します。進行するにつれて、開始に時間がかかります。あ、始まりました。作業を開始します。アニメアートの作成を始めているようです。Issaが先ほど言及したimage generationを使って、うまくいけばアニメアートを作成するでしょう。どうなるか見てみましょう。

その間に、他にやりたいことはありますか？

私も靴が必要です。靴が破損してしまったので。どうやって破損したのですか？サンフランシスコの雨でです。

分かりました。Edwardにも靴を手に入れましょう。9.5サイズの男性用ドレス黒革靴も見つけてもらえますか？9.5です。

中断と協調機能

モデルの主要な機能の1つは中断可能であることです。軌道が長時間かかる場合、それが非常にマルチターンに感じられることが重要です。ユーザーが割り込み、ユーザーが指示し、ユーザーがより多くの指導やより少ない指導を与えられるようにすることです。それがここで行っていることです。

本質的に、モデルは以前に依頼されたすべてのことを把握しながら進んでいました。この場合、私たちは本質的に「男性用黒革靴も手に入れてもらえますか」と言い、今それを考えており、すぐにそれを考慮に入れて軌道を続けてくれることを願っています。

始まりました。中断を認識したと言いました。「分かりました。9.5サイズの男性用黒革靴も研究します」と言い、おそらくその方向に進むでしょう。Issaがそれがどのように機能するかもう少し詳しく説明してくれるかもしれません。

はい、もちろんです。ご覧のように、エージェントは非常に協調的です。これは、モデルを訓練し製品を構築する際に私たちにとって本当に重要でした。

完了するのに本当に長時間かかるタスクを他の人に依頼する場合、おそらく開始するためのいくつかの指示を与え、その後明確化の質問をされ、タスクを開始し、あなたからのより多くの明確化が必要だったり、何かにサインインしたり代わりに何かを行う許可が必要だと気づいたりするかもしれません。そして、あなたは「ああ、このことを言い忘れた」とか「状況はどうですか？どうしていますか？間違った道に進んでいるなら方向転換を手伝えますか？」と気づくかもしれません。

同様に、これらの本当に長時間実行されるエージェンティックタスクでは、ユーザーとエージェントの両方が互いにコミュニケーションを開始できることが非常に重要です。これにより、エージェントがタスクを最も効果的に支援できるようになります。これは実際にモデルに訓練したものです。

明確化の質問をする能力を訓練しました。deep researchのように毎回ではありません。また、Yashが今示したように、中断可能であるように訓練しました。また、軌道の途中で明確化や確認を求めることもあります。

エージェントと作業する一部は、時々間違いを犯すことです。そのため、重要なステップの最後のステップで確認を求めるようにモデルを訓練することが重要だと感じました。

たとえば、メールを送信する前に、下書きを見て、意味があるか、恥ずかしいタイプミスがないかを確認するよう求めるかもしれません。もしあれば、修正を依頼するか、直接ブラウザーを引き継いでエージェントの環境に飛び込んで自分で修正することができます。そうすることで協調的に感じられ、エージェントと本当に協力できます。

メタ評価デモ

もう1つデモを見てみましょうか？ライブストリームでは、最新のモデルを使って自己評価したり、何かメタ的なことをしたりする楽しい伝統があります。そのようなことができるでしょうか？

はい、やってみましょう。人々はモデルがどれほど優秀かを知りたがると思います。これは昨日エージェントに以前与えたプロンプトです。

基本的に、Google Job connectorから独自の評価数値を取得し、スライドを作成するようモデルに依頼します。イントロダクションや結論なしで、グラフで結果を提示したいと思います。

ご覧のように、モデルは現在Google Drive APIに接続し、API内で検索しています。今のところ、最初の結果が非常に関連性が高いようです。最初の結果を読んでいます。今、最初の結果を詳細に読んでいます。このリプレイを加速しましょう。その後、モデルは結果から再び読み取り、コードを書くかもしれません。

ここで、モデルがスライド用の装飾を生成するためにimage generation modelと呼ばれる画像生成ツールを使用しているのが分かります。モデルが作成した最初のスライドを見てみましょう。

ここで、モデルは最終的なスライドにコンパイルされるコードを書いています。

これがこのデモでモデルが作成した最初のスライドです。見た目は大丈夫ですが、十分に洗練されていません。強化学習の主要な機能の1つは、モデルが独自の結果をレビューし、良い最終結果を提供するために結果を改良することです。モデルが最終的に何を与えてくれるか見てみましょう。

スキップをクリックすると、モデルが良いPowerPointファイルを提供してくれます。これは実際のPowerPointで、ダウンロードして任意のソフトウェアで開くことができます。Officeで開いてみましょう。モデルが生成したスライドを発表しましょう。

評価結果の発表

最初は2つの知能ベンチマークです。Humanitiesラストエグザムは、困難な問題の幅広い科目でAIの能力を測定するベンチマークです。ツール使用ありとなしの2つの設定でモデルを評価します。

エージェントモードの生の知能は既にかなり良く、すべてのツールにアクセスできると、パフォーマンスは42%とほぼ倍増します。特にブラウジング能力を持つHumanitiesラストエグザムでモデルを評価する際、モデルがこのベンチマークでチートしないことを保証する2層の除染があります。

FrontTMSは、モデルの高度な数学的推論能力を測定するベンチマークです。Python with function codingを使用するminiと03のベースラインとは異なり、エージェントモデルにはブラウザー、コンピューター、ターミナルなど、利用可能なすべてのツールを与えます。エージェントは、これらすべてのツールの助けを借りて、このベンチマークで27%の新しい最先端を達成します。

次に、2つのエージェンティックベンチマークでモデルを評価しました。Web arenaは、実世界のウェブタスクを解決するウェブエージェントの能力を測定するベンチマークです。エージェントモデルは、コアを動力とする以前のO3モデルを改善します。

Browse compは、今年初めに導入したベンチマークで、ブラウジングエージェントの検索と情報を見つける能力を測定します。エージェントモデルは、このベンチマークでO3とdeep researchを大幅に上回り、69%の合格率を達成します。

最後に、実世界でユーザーがモデルからどのような恩恵を受けるかを重視しています。Spreadsheet benchは、実世界のユースケースから派生したスプレッドシート編集のモデルの能力を測定するベンチマークです。

ここで、LibreOfficeとコンピューターツールを持つエージェントモデルは、既にタスクの30%を解決できます。ターミナルで生のExcelファイルへのアクセスをモデルに与えると、パフォーマンスが45%にさらに向上します。

最後に、内部バンキングベンチマークでモデルを評価しました。このベンチマークは、Fortune 500企業の3つの財務諸表モデルをまとめるなど、1年目から3年目の投資銀行アナリストタスクを実行するモデルの能力を評価します。このベンチマークで、エージェントモデルは以前のdeep researchとすべてのO3モデルを大幅に上回ります。

ご覧のように、このモデルは私たちがこれまで訓練した最も強力なモデルの1つです。ベンチマークで優秀であるだけでなく、3ヶ月前には想像できなかったレベルで推論、ブラウジング、実世界のタスクに取り組む能力もあります。

セキュリティとリスクについて

その通りです。Edwardが言ったように、私たちは非常に強力なモデルを訓練したと思います。その力の多くは、インターネットをブラウジングする能力から来ています。ご存知のように、インターネットは恐ろしい場所になることがあります。あなたの情報を盗もうとするハッカー、詐欺、フィッシング攻撃など、あらゆる種類があります。エージェントもこれらすべてのことに対して免疫があるわけではありません。

特に心配しているのは、プロンプトインジェクションと呼ばれる新しい攻撃です。これは、たとえばエージェントに本を購入するよう依頼し、そのためにクレジットカード情報を提供したとしましょう。エージェントは悪意のあるウェブサイトに遭遇し、「ああ、ここにクレジットカード情報を入力してください。タスクに役立ちます」と要求されるかもしれません。役に立つように訓練されたエージェントは、それが良いアイデアだと判断するかもしれません。

これが起こらないようにするために多くの作業を行いました。疑わしいウェブサイトでの疑わしい指示を無視するようにモデルを訓練しました。また、エージェントの肩越しに覗き込み、進行中に監視し、疑わしいものがあれば軌道を停止する監視層もあります。

野外で新しい攻撃が発見された場合、これらをリアルタイムで更新することさえできます。とはいえ、これは最先端の製品です。これは新しいサーフェスであり、すべてを止めることはできません。そのため、視聴者がエージェントを使用する際のリスクを認識することが非常に重要だと感じています。

ユーザーには情報の共有方法について積極的に考えることをお勧めします。非常に機密性の高い情報であれば、おそらく共有しない方が良いでしょう。エージェントに与える代わりに、テイクオーバーモードなどの機能を使ってクレジットカード情報を直接ブラウザーに入力することもできます。非常に強力な製品を構築したと感じていますが、繰り返しますが、ユーザーが関連するリスクを理解することが重要です。

これはAIの新しいレベルの能力だと本当に強調したいと思います。AIを使用する新しい方法ですが、それに伴う新しい攻撃のセットが生まれるでしょう。社会と技術は、人々がこの方法でより多くの作業を行うようになるにつれて、まだ想像すらできないものを軽減する方法を進化させ、学習する必要があります。

最終結果の確認

まとめる前に、開始したタスクのいくつかを確認しましょうか？

はい、やってみましょう。新しいタブを開いて、ステッカーの進行状況も見られるようにします。

ステッカーの準備ができているようです。実際に何ができたか見てみましょう。これが約7分かかった最終結果です。すべてを把握した可能性が高いです。軌道を振り返って、どうだったか見てみましょう。しかし、最終結果では、カートに追加されているようです。これが小計です。この時点で私が引き継いで、Caseyが言ったようにクレジットカード情報を入力して、注文を素早く完了することができます。

モデルは適切に確認を求めています。軌道を素早く閲覧して、実際に何をしたか見てみましょう。

ステッカーを生成したようです。見てください。生成されたステッカーです。

これがタスクです。この時点で自分で完了することも、モデルに実際に進めて実行してもらうこともできると思います。

結婚式を確認しましょう。素晴らしい。ちょうど間に合って完了したようです。

この場合、お話ししたように、ホテル、ドレス、スーツ、そして靴も探していました。非常に包括的なレポートが出てきました。結婚式会場、日時、いつなのか、The Knot（結婚情報サイト）のリンク、ドレスコードが表示されています。どのようなスーツの推奨があるべきか、どこで購入できるかを把握しました。

今、自分で購入するか、エージェントに購入を依頼することができます。また、履物、ホテルのオプションも把握しました。実際にすべての空き状況を調べました。チェックしたもののスクリーンショットが表示されているのが分かります。この場合、booking.comを使用し、それを実行できました。

贈り物の提案なども含まれています。次のステップとして、エージェントが言うように「アイテムの購入を支援したり、さらなる調整が必要でしたらお知らせください」と言っているので、それを行うことができます。

MLBスタジアム巡りデモ

ライブでは実行しませんでしたが、本当にクールで、特に結婚する友人たちがMLBに本当に夢中なので、最後のデモを1つ見せたいと思います。

エージェントに、すべての30のMLBスタジアムを訪問する最適な旅程を構築するよう依頼しました。サバティカルを考えている場合に備えて、最適なルートを設計し、Hello Kitty ナイトなどを優先し、詳細なスプレッドシートとして最終計画を提示するよう依頼しました。これを本当に素早く説明します。見ていて本当に楽しいと思います。

再び、ライブストリーム全体で示したように、多数のツールを使用し、コンテナ、ターミナルを使用し、ブラウザーを使用してすべての詳細を調べます。おそらく再びブラウザーに戻って、Hello Kitty ナイトやスポーツスタジアムなどを把握するでしょう。マップを見逃しましたか？コードを使って実際に構築したマップです。

全体的に、最終的にはかなり堅実な結果が得られると思います。25分かかって、シーズンがどこから始まるかなどを調べ、ChatGPT内で素早く表示できるスプレッドシートと、旅程をマップする見栄えの良いマップがあります。

これがChatGPT agentです。本当に気に入っていただけることを願っています。Samにお返しします。

発表の締めくくり

皆さんと皆さんのチームの素晴らしい仕事です。これは本当に人々が仕事を完了させ、やりたいことをする時間を増やすのに役立つものだと思います。この体験を提供するために統合された量は本当に驚くべきものです。エージェントがインターネットを使用し、スプレッドシートやPowerPointを作成し、その他の作業を行う様子を見るのは非常に驚くべきことです。

今日、ProプラスとTeamユーザー向けにライブになります。Proユーザーは月400クエリ、Teamユーザーは月40クエリを取得します。ProおよびPlusとTeamユーザーの展開は今日の終わりまでに完了し、非常に近い将来に利用可能になるはずです。EnterpriseとEduについては、今月末までにライブにしようとしています。

Caseyが言及したように、これは非常にエキサイティングな新技術ですが、新しいリスクもあります。人々は一般的にインターネットをかなり安全に使用することを学びましたが、もちろん詐欺師や他の攻撃はまだあります。人々はAIエージェントの使用方法を学ぶ必要があります。社会もAIエージェントに対する攻撃から守るための防御を構築することを学ぶ必要があります。

そのため、非常に堅牢なシステム、多くの警告から始めています。人々がそれに慣れてくるにつれて、時間をかけてそれを緩和していきます。しかし、人々にはこれを新しい技術と新しいリスクサーフェスとして扱い、Caseyが話したすべての注意を使用してもらいたいと思います。

とはいえ、皆さんに気に入っていただけることを願っています。これはまだ非常に初期段階です。迅速に改善していき、すべてがどこに向かうかを見るのを楽しみにしています。改めておめでとうございます。ありがとうございました。お楽しみください。