OpenAIがChatGPTエージェントをリリース – これまでで最も強力なエージェント

この動画に対する紹介的な簡潔な要約:
OpenAIが発表した最新のChatGPTエージェントについて、開発チームのIssa Fulford、Casey Chu、Edward Sunが詳細を解説する。このエージェントはDeep ResearchとOperatorの技術を統合し、テキストブラウジング、ビジュアルブラウジング、ターミナルアクセスなど複数のツールを共有状態で利用できる革新的なシステムである。強化学習により数千台の仮想マシン上で訓練され、ユーザーとの対話的な作業が可能で、長時間にわたるタスクを自律的に実行できる。安全性への配慮、チーム体制、今後の展望についても語られており、AIエージェントの新たな発展段階を示す重要な内容となっている。

OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet

Isa Fulford, Casey Chu, and Edward Sun from OpenAI's ChatGPT agent team reveal how they combined Deep Research and Opera...

開発チームが語るChatGPTエージェントの革新
開発の起源と統合への道筋
実際の利用方法と活用事例
長時間実行と安定性の技術的側面
共有状態を持つ統合アーキテクチャ
制限と安全性への取り組み
小規模チームの力と訓練の挑戦
今後の展望と可能性
単一統合エージェントの将来ビジョン
World of Bitsからの進化

開発チームが語るChatGPTエージェントの革新

このモデルは実際、複数回のターンによる会話が非常に得意で、タスクを一緒に進めていくのがとても気持ちええんや。これは Deep Research の欠点の一つやったと思うねん。多くの人が単一の会話の中で複数のDeep Research リクエストをやろうとするんやけど、うまくいかへんことが多かったんよ。

やから、このモデルの複数ターン能力にはほんまに満足してるし、さらに改善していきたいと思ってるねん。それから、エージェントにとってパーソナライゼーションとメモリーも非常に重要になってくると思うんや。今はすべてのエージェントタスクはユーザーによって開始されるんやけど、将来的にはユーザーが頼まんでも勝手に何かしてくれるようになるはずや。

今日は、新しいChatGPTエージェントを開発したOpenAIチームのIssa Fulford、Casey Chu、Edward Sunと一緒に、AIエージェントの進化について探っていくで。Deep ResearchとOperatorのアーキテクチャを統一することで能力の大幅な飛躍を実現し、複数のツールが状態を共有できるようにして、ユーザーにビジュアルブラウジング、テキスト分析、コード実行を単一環境内でスムーズに切り替えられるようにしたんや。

彼らの訓練アプローチについても話していく。特定のツール使用パターンをプログラムするんやなくて、数千台の仮想マシンを使った強化学習を通じて、モデルが最適な戦略を発見するようにしたんや。何時間もユーザーと一緒に作業し、明確化の質問をしたり、タスクの途中での修正を受け入れたりできるエージェントを作り上げて、AIエージェントとの相互作用の方法を拡張したんや。

チームは、安全性、エージェント活動に関するガイダンス、そして日付選択のような作業がいまだにAIシステムにとって謎のように難しい理由についても興味深い課題を共有してくれる。小規模で集中したチームが、慎重なデータ収集を通じて画期的な能力を実現している方法を明かしてくれて、計算能力と同じくらい製品洞察が重要になるAI開発の新段階に入ったことを示唆してるんや。

Issa、Casey、Edward、今日は参加してくれておおきに。こちらこそ、呼んでくれてありがとうございます。

あなた方はチャットエージェントまたはエージェントモードの背後にいるチームやけど、それは何なん？

これはDeep Research、元Deep ResearchチームとOperatorチームのコラボレーションやねん。ChatGPT内に新しいエージェントを作ったんや。これは人間が長時間かかるようなタスクを実行できるもんで、エージェントに仮想コンピューターへのアクセスを与えたんや。それを通じて、インターネットにアクセスする方法がいくつかあるんや。実際にはもっと多くの方法があるんやけど、それは後で説明するで。

テキストブラウザーがあって、これはDeep Researchツールに似てるねん。やから非常に効率的にオンライン情報にアクセスして、この非常に高速なテキストブラウジングツールで情報を検索できるんや。それから仮想ブラウザーもあって、これはOperatorツールに似てるねん。やから実際にグラフィカルユーザーインターフェースに完全にアクセスできるんや。

クリックしたり、フォームに文字を入力したり、スクロールしたり、ドラッグしたり、そういうあらゆることができるんや。やから合わせると、この2つのツールよりもはるかに強力やねん。一つはより効率的で、もう一つは非常に柔軟やから。それからターミナルへのアクセスも与えたんや。やからコードを実行したり、ファイルを分析したり、スプレッドシートやスライドのようなアーティファクトを作成したりできるんや。

ターミナルを通じて、APIを呼び出すこともできるんや。パブリックAPIでもプライベートAPIでも。もしサインインを許可すれば、GitHubやGoogle Drive、SharePoint、その他多くのものにアクセスできるんや。このツールの素晴らしいところは、すべてのツールが共有状態を持ってることや。

コンピューターを使ってるのと同じで、異なるアプリケーションがすべて同じファイルシステムなどにアクセスできるのと一緒やねん。ツールでも同じことや。やからモデルは非常に柔軟なことができるんや。これについては後でもっと話すけど、モデルがユーザーの代わりに非常に複雑なタスクを実行するための、とても柔軟な方法やと思うねん。

開発の起源と統合への道筋

起源について少し教えてくれるか？どうやって始まったんや？

うちらのチームはOperatorに取り組んでたんや。うちらのチームはDeep Researchにも取り組んでて、1月にうちらの最初のエージェント、Operatorをリリースしたんや。これはインターネットでタスクを実行してくれる製品で、インターネットで買い物をしたり、あなたの代わりにショッピングしたり、そういうことができるんや。

それから2週間後に、Deep Researchをリリースした。これは異なるモデル、または異なる製品で、広範囲にインターネットを閲覧して情報を総合し、引用付きの長い研究レポートを作成してくれるんや。うちらはロードマップを考えてて、「これは天が作った組み合わせやな」って思ったんや。

Operatorはウェブページとの視覚的なやり取りは非常に得意やねんけど、テキストブラウザーのような長い記事を読むのはあまり得意やない。一方、Deep Researchは長い記事を読むのは非常に得意やねんけど、インタラクティブな要素や非常に視覚的なものは苦手なんや。使ってるツールが違うからな。

Deep Researchはテキストブラウザーを持ってるから、非常に効率的に情報を読んだり検索したり統合したりできるねんけど、Operatorみたいにスクロールしたりクリックしたりフォームを記入したりはできへん。OperatorはGUIブラウザーに完全にアクセスできるからな。

Caseyが言ったように、Deep ResearchにはOperatorにないものがあって、同様にDeep Researchへの最大のリクエストの一つが、有料ソースや購読が必要なものにアクセスできるようにすることやった。Operatorはそれができるんや。それから、うちらのチームメンバーのEricが、Operatorで人々が試してるプロンプトのタイプを分析してたら、Deep Research型のタスクが多いことがわかったんや。「この旅行を調べてから予約して」みたいな。やから本当に自然な組み合わせやねん。

どういう意味で1足す1が3になるんや？

Deep Researchでは、実際のブラウザーにアクセスして、以前のDeep Researchがアクセスできなかった実際のコンテンツをロードできるようにする方法を常に考えてたんや。

1足す1が3って言うのが面白いな。うちらはDeep ResearchとOperatorを組み合わせただけやなくて、思いつくありとあらゆる他のツールも投入したからな。ターミナルツールがあるから、計算をするコマンドを実行できる。

画像生成ツールも面白いで。スライドに画像を作って華を添えたい時に使えるんや。APIを使ってパワーポイントも作れるで。そうや、いろんなことができるんや。

実際の利用方法と活用事例

まだ早期段階やと思うけど、人々がどう使ってるか少し教えてくれるか？

素晴らしいのは、うちらがどう使われるかある程度のアイデアは持ってるねんけど、意図的にかなりオープンエンドにしたことやねん。エージェントって名前もそれで曖昧やねん。部分的には、人々が最終的にどう使うかを見るのが楽しみやからや。

うちらが特に訓練したもののいくつかは、もちろんDeep Research型のタスク、つまりトピックについて長いレポートが欲しい時やな。Operator型のタスク、何かを予約したり、フライトを予約したり、何かを買ったりして欲しい時。それからスライドデッキを作るタスクも。スプレッドシートを作ったりデータ分析をすることにも多くの努力を費やしたけど、モデルができる他のこともたくさんあると思うんや。

やから、Deep Researchをローンチした時に、多くの人がコード検索に使ってるのを見てすごく驚いたのと同じように、うちら自身が思いもつかなかった新しい使用例をたくさん見られることを期待してるねん。

消費者向けかB2B型の使用例か、どちらになると思う？それとも間違った質問かな？

両方になってほしいな。うちらはプロシューマーを狙ってるねん。詳細なレポートのために30分待つことを厭わない人、でもそれは消費者の場合もあるし、仕事での場合もある。両方にええと思うで。

あなた方の中で、気に入って使ってるものはあるか？

私にとっては、Google Docsのスプレッドシートやドキュメントからデータを引っ張ってきて、それをスライドにしてデータを発表したり整理したりすることやな。かなり便利やで。

私は古代DNAについて深く調べてるんや。これは私の興味の一つなんやけど、実はこの5年くらいで非常にエキサイティングな研究が行われてるねん。DNAを配列決定して、この集団がどこから来たのかとか、歴史的なことを発見してるんや。問題は、すべてが新しすぎて、これらの資料をまとめて調査するような参考資料がないことやねん。

でもエージェントが出かけていって、これらすべてのソースを集めて、私が読めるレポートやスライドに統合してくれるんや。このトピックのために作られたようなもんやな。

私は消費者向けの使用例が気に入ってる。オンラインショッピングに使ったことがあるで。特に、多くのウェブサイトでは検索フィルターとかがあって、ビジュアルブラウザーを使う必要があるから、モデルが実際にアイテムがどんな見た目かを見る必要があるんや。それからイベントの計画にもかなり便利やった。

お気に入りのショッピングクエリは何や？

服のショッピングに使ったことがあるねん。

撮影前に見せてくれた、すごく面白い使用例があったやろ？それをシェアしてくれるか？

そうやな。実は、うちらの同僚の一人、Tedelがシェアしてくれたものやねん。彼女はエージェントに、オンラインで見つけたものに基づいてOpenAIの評価額を推定して、予測を含む財務モデルを作成するよう頼んだんや。

スプレッドシートを作って、要約分析も作って、それから結果を発表するスライドデッキも作るんや。モデルが正しいことを願うで。うちらにとってかなり野心的な予測やったからな。

印象的なスライドデッキやった。ええスライドデッキやったで。この軌跡で指摘したいことの一つは、28分間推論したことやな。これは新しいパラダイムを開いてると思うねん。エージェントにタスクを頼んで、離れて、レポートを持って戻ってくるっていう。エージェントがよりエージェント的になるにつれて、もっと長いタスクになるやろうし、これはその良い例やと思うで。

長時間実行と安定性の技術的側面

これまでにローンチした中で最も長時間実行するタスクやな？

そう言えるやろな。私は1時間のものをやったことがあるけど、そんなに長いのは見たことなかったで。コーデックがどれくらい長く実行できるかわからんかった。

エージェントをそんなに長時間、軌道から外れることなく実行させるために特別なことはあるんか？

モデルが元のハードリミットを超えてコンテキスト長をさらに拡張できるようにするいくつかのツールがあるんや。やからモデルが何をしてるかを文書化して、ステップバイステップで、人間の介入なしにタスクを実行できる時間の幅を増やすことができるんや。

モデルと人間の間を行き来するフローも非常にいいねん。進行中に修正できるから。

このモデルは非常に柔軟で協調的で、それはうちらにとって非常に重要やった。誰かにタスクを頼む時の相互作用のモデルになってるんや。Slackで誰かに何かを頼むことを想像してみて。指示を与えて、彼らが質問をして、それからタスクを始めるかもしれへん。タスクの途中で「実はこれを明確にしてもらえる？」とか「これにサインインしてもらえる？」とか「これをやっていいか？」と言うかもしれん。

同様に、最初にタスクを与えた時に言い忘れたことを思い出すかもしれへんし、途中で割り込んで「あ、これもやって」と言いたいかもしれん。時間がかかってるなら進捗状況を聞きたいかもしれへんし、間違った道に行ってるなら方向転換させたいかもしれん。それをモデルにしたんや。

ユーザーとエージェントの両方がお互いとのコミュニケーションを開始できることが非常に重要やと思うねん。今あるのは、これがどうなるかの最も基本的なバージョンやと思う。でもこの分野でうちらがリリースしたものよりは良くなってる。最初にモデル、またはエージェントがDeep Researchと同じように明確化の質問をすることができるねんけど、より柔軟やねん。いつも明確化の質問をするわけやない。

それからモデルを途中で止めることができるんや。「これまで何をしたかまとめて」とか「実は青いスニーカーだけが欲しかった」と言えるんや。それから、もしモデルが何らかの破壊的な行動を取ろうとしたり、何かにログインする必要がある場合は、何かをする前にユーザーに許可を求めるんや。

共有状態を持つ統合アーキテクチャ

この話題で、うちらはこのコンピューターインターフェースを構築したんや。あなた方も見たやろうけど、エージェントが何をしてるかを見守ることができて、それは会話を超えて持続するんや。タスクが終わった後も、実際に戻ってフォローアップの質問をしたり、何かを修正したり、別のタスクをするよう頼んだりできるんや。

そのコンピューターを引き継ぐこともできるんや。クリックして、その環境にアクセスして、代わりにクリックしたり、ログインしたり、クレジットカード情報を入力したりできるんや。同僚の肩越しに見て、必要なら引き継げるようなもんやと思ってる。

私の中のマイクロマネージャーを可能にしてくれてありがとう。冗談やけど。

共有できる範囲で、これがどう動作するかについて少し話してもらえるか？

このエージェントは、o1と同じ技術、強化学習で訓練されてるんや。このエージェントモデルに、同じ仮想マシンで実装されたすべてのツール、テキストブラウザー、GUIブラウザー、ターミナル、画像ツールを与えるんや。それからモデルに、うちらが作った非常に難しいタスクを、これらのツールを使って解決させようとするんや。モデルが効率的かつ正確にタスクを完了すれば報酬を与えるんや。

例えば、この訓練の後、モデルはこれらのツール間を流暢に切り替えることを学ぶはずやねん。例えば、レストランを調べて予約を取るようなタスクを頼むと、最初にDeep Research スタイルのテキストベースのブラウジングをして、それからGUIブラウザーも使って料理の画像を見たり、通常JavaScriptで書かれてて実際のGUIブラウザーを使わなあかん可用性を見たりするんや。それから、アーティファクトを作成するよう頼むと、通常ウェブサイトからソースを引っ張ってきて、ターミナルでそれを使うんや。

過去のツール使用実装と比べて、このツールの素晴らしいところは、すべてのツールが共有状態を持ってることやねん。コンピューターを使ってて多くの異なるアプリケーションがある時と同じようなもんで、何かをダウンロードしたら他のアプリケーションからもアクセスできるやろ？非常に似てるんや。

やからモデルはより効率的なテキストブラウザーでページを開いて、でもビジュアルブラウザーが必要やと気づいたら、シームレスに切り替えることができるんや。ブラウザーを使って何かをダウンロードして、ターミナルでそれを操作したり、ターミナルで何かを実行してブラウザーで開いたりもできる。非常に柔軟やねん。

やからモデルにインターネット、ファイルシステムのファイル、コードなどとやり取りするより強力な方法を与えてるんや。

強調したい興味深いことの一つは、基本的にモデルにこれらすべてのツールを与えて、部屋に閉じ込めて実験させることやねん。いつどのツールを使うかは実際には教えへん。それを自分で理解するんや。ほとんど魔法みたいやな。

この技術は、Deep Researchでポッドキャストに出演してもらった時の技術と非常に似てるようやけど、これをOpenAIがエージェントを訓練する標準技術やと考えるべきか？

これを非常に遠くまで持っていけると思うねん。うちらのチーム同士がそんなに長い間コラボレーションしてへんねん。このモデル実行を最小限の出荷可能なリスク軽減としてフレーム化したりもしたけど、それは主に内部のPR的な理由やった。でもこれは本当にうちらが一緒に作ることができる最も基本的なバージョンで、これらの方法でもっと遠くまで押し進められると思うねん。

例えば、スライド機能は新しい機能やねん。非常に印象的やで。Aiden Paloma、Martin、その他多くの人の素晴らしい仕事やねん。でも同じ技術を使ってもっと遠くまで押し進めて改善できると思うし、さらに遠くまで行けると思うけど、他のものも必要やと思う。

これまでのところ、非常に魔法的やと感じてるで。同じIO（入出力）アルゴリズムがo1推論、Deep Research、それから今、より高度なコンピューター使用、ブラウザー使用エージェントでうまく動いてる。

制限と安全性への取り組み

この戦略とこのモデルで具体的に、どこで限界に直面するんや？

このモデルで興味深いのは、外部への副作用を持つ行動を取ることができるから、リスクがずっと高いことやねん。Deep Researchは読み取り専用やったから、データ流出などの点でモデルができることには限界があったんや。でもこれでは理論的には、モデルがタスクを正常に完了できても、その過程で多くの有害な行動を取る可能性があるんや。

何かを買ってもらうよう頼んで、満足させるために100種類の異なる選択肢を買うことに決めるかもしれん。まさにそういうことや。そんな例はいくらでも思いつくやろ。やから、安全性と安全性訓練、緩和策は、このモデルでのうちらのプロセスの本当に中核的な部分の一つやったんや。

同じような話で、現実世界との接触がものを難しくしてるんや。これを数千台、もしかしたら数千台のVMで訓練しなあかんかったんや。ものが壊れるし、実際のウェブサイトにヒットするとすぐに、サイトがダウンしてたり、容量制限やロードテストにぶつかったりするんや。これは本当に始まりで、これらの詳細をすべてアイロンをかけて続けていくつもりやけど、それが大きな制限やねん。

安全性の観点から、適切なガードレールを構築することについてどう考えてる？モデルが私の銀行口座にログインして、ナイジェリアの王子に全部送ってしまわないようにするにはどうしたらええ？

それは非常に良い質問やな。これは間違いなく新たなリスクで、インターネットは怖いところや。攻撃者や詐欺師がたくさんいて、フィッシング攻撃とか、リストは延々と続くねん。

うちらのモデルは、注意深くするよう言えばこういうことについて推論することはできるねん。これをより堅牢にするために安全性訓練も行ったんや。でも時には騙されることもあるし、時にはタスクを完了しようとしすぎることもあるんや。

うちらは緩和策の長いリストを持ってて、チームはモデルを可能な限り安全にするために、多くの技術を積み重ねることに本当に一生懸命取り組んでるんや。例えば、肩越しに見るような監視システムがあって、変なウェブサイトに行ったりしてないかなど、何かおかしいことがないかを見てるんや。

コンピューターのアンチウイルスソフトのようなもんやな。持続的に監視して、疑わしいものがあれば軌跡を停止して、そこで止まるんや。もちろん、すべてをキャッチできるわけやないし、これは継続して反復していく主要分野やねん。野生で発見したり遭遇したりした新しい攻撃に対するプロトコルも持ってて、迅速に対応して、アンチウイルスソフトを更新するように、これらの監視システムを更新できるようになってるんや。これらの新しい攻撃をキャッチして、安全を保ってくれることを願ってるで。

安全性訓練の素晴らしいところは、安全性チーム、ガバナンスチーム、法務チーム、研究チーム、エンジニアリングチーム、その他多くのチームからの本当にクロス横断的な努力やったことやねん。あらゆるレベルで非常に多くの緩和策を持ってる。外部レッドチーミング、内部レッドチーミングもたくさん行ったけど、Caseyが言ったように、まだまだあるねん。

モデルをリリースしたら、確実に新しいことを発見することになるやろう。やからそれらを検出して、緩和する堅牢な方法を持ってることを確認する必要があるんや。

これらのモデルのいくつかには、バイオハザードを作ったりする可能性など、モデルでできることのリスクがある。それをどう管理してる？

実際、バイオはうちらの念頭に強くあったんや。チームは、このエージェントは非常に強力やと思うことについて本当に思慮深く取り組んでるねん。研究ができるし、本当に作業を高速化してくれるけど、それは害悪も高速化する可能性があるってことやねん。うちらのチームが調べてる最優先事項の一つは、バイオリスクの危険性やねん。

バイオウエポンの作成、そういうことやな。チームはこれに対してどう緩和するかについて本当に思慮深く取り組んでて、一般的に非常に慎重にやってるねん。このモデルがそれらの害に使用されないことを確認するために、何週間もレッドチーミングを行って、他の多くの緩和策も実施してる。この取り組みを先導したKarenに称賛を送るで。

一般的に、うちらはこれを非常によく認識してて、ただ非常に慎重にやろうとしてるんや。

なるほど。これを構築するために集まったチームについて少し教えてくれるか？

Caseyが先ほど言ったように、Deep Research研究チームとDeep Research応用チーム、それからOperator研究チームまたはコンピューター使用エージェント研究チーム、そしてOperator応用チームがあって、実質的にみんなを合併させたんや。研究チームと応用チーム、みんなが本当に密接に協力してるし、雰囲気も最高やった。とても楽しかったで。

EthanとIは長い間友達やから、自然な感じやった。本当に楽しかったで。

Deep Researchでは大部分の時間、何人いたんや？

3、4人やな。今は新しい人も加わってすごく嬉しいで。

CUA（Computer Use Agent）では、研究側で6から8人くらいやと思う。

それから素晴らしい応用チームがあるんや。エンジニアリング、プロダクト、デザインで、Yashkumarが率いてて、彼は本当にクラックなエンジニアリングチームを持ってるねん。本当に密接に協力するのがとても楽しかったで。

このコラボレーションを本当に特別なものにしたことの一つは、研究チームと応用チームが非常に密接に協力してることやねん。製品が何をできるべきかを定義する最初から、研究とプロダクトとデザインの間で非常にコラボレーティブなんや。解決したい使用例から後ろ向きに進んで、モデルを訓練して製品を構築するんや。

明らかに、それらすべてを完全にはまだできへんし、計画してなかったことでもできることもあるけど、プロジェクトを始める時のええフレームワークやと思うねん。現実世界でどう使ってもらいたいかに非常に根ざしてるんや。

小規模チームの力と訓練の挑戦

予想してたよりもずっと小さいチームやな。

小さいチームでも素晴らしいことができるで。たくさん構築したもんな。うちらが一緒に働いてるのもそんなに長くない。数ヶ月やねん。

実際、研究チームと応用チームの境界は非常に決定的なもんやないねん。モデル訓練中は多くの応用エンジニアがうちらのモデル訓練を手伝ってくれるし、モデルを訓練した後は研究チームのメンバーの何人かも、モデルを実際のユーザーに展開するセットアップに取り組んでるんや。

このエージェントを訓練する上で最も困難やった部分は何や？

最大の挑戦の一つは、特に訓練を安定させる方法やった。Deep Researchを訓練する時は、ブラウジングとPythonだけを使ってたから、もうしばらく使ってる成熟したツールやったんや。でもエージェントモデルを訓練する時は、コンピューターやターミナルのような新しいツールがあって、同じコンテナ、同じ仮想マシンでコンピューターと一緒にバンドルされてるんや。

やから実際に訓練するのがかなり困難やった。文字通り、何十万台もの仮想マシンを同時にセットアップして、みんながインターネットにアクセスするんや。これが最大の挑戦の一つやった。時にはチェーンが失敗することもあったけど、最終的にこのモデルを訓練できて非常に嬉しいで。

VMsは全部エンジニアリングに戻るんやな。次は何や？

今後の展望と可能性

より多くのソース、より多くのツール、より良いモデル。どう考えてる？

うちらのエージェントのフレーミングで気に入ってることの一つは、何でも頼むことができることやねん。想像できるあらゆる可能なタスクを頼むことができる。うまくやれへんかもしれへんけど。インターネットで金儲けしてって言うこともできるで。やってみるで。やってみる。この後すぐやってみよか？

でも本当に重要なのは、誰でもコンピューターで行うタスクの全分布の精度、パフォーマンスを改善することやと思う。それはめちゃくちゃ多くのタスクやで。それから、この反復的な展開を通じて、うちらのユーザーがエージェントで見つける新しい機能を見るのがすごく楽しみやねん。Deep Researchでのコーディング機能や、Operatorでエージェントモードを使う時のDeep Research機能みたいに。

コーディングにも使うんや？コーディングにかなり使ってるで。うちの全コードベースを書き直そうとはせえへんから気に入ってるねん。ただ小さな編集をしてくれるし、実際に異なる機能の元の文書をかなりよく読んでくれる。やから関数コーディングでの幻覚が少ないと感じるねん。

なるほど、面白いな。それに対してCodexに行く時とエージェントに行く時をどう選んでる？

エージェントに対しては、O3の使い方とより似てるねん。よりインタラクティブな体験やな。Codexに対しては、よく設計された問題があって、同僚に解決してもらいたい時で、PRを作ってくれる。でもエージェントは機能や提案をくれるような感じやな。

APIコネクターを通じてGitHubにアクセスできるから、コード検索とかもできるねん。

これまでのエージェントロードマップを見てると、エージェントが持つであろうものの異なる付属器官をほぼ構築してきて、それらすべてを組み合わせることで、これが本当に初めてコンピューター上で完全に具現化されたエージェントのようになったと感じるな。

すごくエキサイティングやと思うで。うちらが押し進めたいもう一つの分野は、エージェントとのコラボレーション体験やねん。このモデルは実際に複数ターンの会話が非常に得意で、タスクを一緒に続けるのがとても気持ちいいねん。これはDeep Researchの欠点の一つやったと思う。多くの人が単一の会話で複数のDeep Researchリクエストをするけど、あまりうまくいかへんことが多かった。

やから、このモデルの複数ターン能力には本当に満足してるし、さらに改善していきたいねん。それから、エージェントにとってパーソナライゼーションとメモリーも非常に重要になると思うで。今はすべてのエージェントタスクがユーザーによって開始されるけど、将来的には最初に頼まんでも勝手に何かしてくれるようになるはずや。

エージェントを取り巻くUIとUXについてもかなりエキサイティングやと思うねん。今はChatGPTの世界で作業してるから、会話を始めて進めていく感じやけど、エージェントとやり取りする多くの異なるモードが想像できるねん。エージェントとのやり取りの異なる方法を探求するのが本当に楽しみやで。

単一統合エージェントの将来ビジョン

これを常に一種の単一の全知の超エージェントとして見てるか、それとも金融アナリストサブエージェントとか個人パーティープランナーサブエージェントみたいなものになるのか？そのビジョンはどんな感じや？

これについては人それぞれ異なる意見を持ってると思うねん。極限的には、一つのことを頼んだら、あなたのために必要なことを理解して、やりたいことを完了させることができるなら、それが最も簡単やと思うねん。何でも必要なことをやってくれて、物事を正しくルートする方法を知ってる本当に素晴らしいチーフ・オブ・スタッフがいるような感じやったら、かなり簡単やろうな。

私もその見解に同意するで。うちらの軌跡のいくつかでは、ショッピングタスクについて聞いてる時でも、時にはターミナルに入って予算の計算をしたりするねん。モデルは一度にすべてのツールを自由に使えるべきやと思う。金融アナリストのツールセットを持つために金融アナリストである必要はないんや。

製品をローンチする時は、カスタマイズされたモデルやカスタマイズされた指示で、モデルを特定の役割に置くことが時には意味を成すと感じるねん。でも一般的に、モデルを訓練する時は、Deep Research、コア操作、スライド生成などのスキル間に多くのポジティブな転移があるんや。これらのスキルはすべて転移可能やから、基盤となるベースモデルとして単一のエージェントを持つ方がはるかに意味があるねん。

完全にそのとおりやな。人々が異なる種類の仕事をしてても、結局はメールを送ったり、スライドデッキを作ったり、コンピューターの前で多くの同じ作業をしてるもんな。

強化学習の観点からの学びについて理解したいねん。エージェントにとってその方法が本当にうまくいってるように見える。こんなに多様なタスクでこれほど優れたエージェントを得るのに、データ集約的やったんか、それともRL観点からの学びは何やった？

実際に、非常に多様なタスクセットを作ったんや。インターネットで非常にニッチなトピックやニッチな答えを見つけるタスクもあれば、Deep Researchのように完全な長さの記事を書く必要があるタスクもある。それから、モデルに得意になってもらいたいすべてのタスクもな。

これまでのところ、タスクを評価できる限り、モデルが結果を出した後にその性能が良いか悪いかを判断できる限り、そのタスクでモデルをより良く訓練できると思ってるねん。

その訓練をする時に、ユーザーとの良いターンバイターンのやり取りを確実にするために特別なことをする必要があったか、それとも収集した軌跡のタイプについてやった？

ほとんどの場合、エンドツーエンドの性能に集中したんや。プロンプトを指定する方法からタスクを完了することまでで、なぜかユーザーとの作業が非常に上手になったんや。

あなたの質問に対して、強化学習は非常にデータ効率的やねん。つまり、はるかに小さな非常に高品質なデータセットをキュレートできるってことや。データの規模は、事前訓練データの規模と比べて非常に小さいねん。やからこれらのはるかに小さい高品質データセットをキュレートすることで、モデルに新しい能力を教えることができるんや。

Operatorの部分をうまく動作させるために、RLを行う前に、モデルはタスクの基本的な完了ができるくらいに十分良くなければならんかったことを言っとく。うちらのチームは過去2年、もしかしたら3年かけて、実際にページについて推論し、視覚要素を非常によく理解できるポイントまでモデルを持っていくために多くの時間を費やしてきたんや。

このモデルはそのすべての上に構築されてるねん。

World of Bitsからの進化

実際に、それについてもう少し話してもらえるか？OpenAIの初期の頃を覚えてるで。これは常にWorld of Bitsのようなもんの一部やったし、マウスパスをRLしようとしてたけど、あまりにも境界がなさすぎる問題やった。今それが解決可能になったのは何が変わったからや？

World of Bitsを指摘してくれてよかったで。このプロジェクトは2017年頃まで遡る非常に長い系譜を持ってるんや。実際に、うちらのコンピューター使用部分のコードネームは「World of Bits 2」やねん。

変わったのは、基本的に訓練の規模やと思う。倍数はわからんけど、計算の面では100,000倍とかそんなもんに違いないで。事前訓練とRLの両方で行った訓練データの量もな。やから、本当に規模と、うちらの野心に規模が追いついたことやと思うねん。

うわー、規模がすべてやな。信じるで。それと良いデータもな。

エージェントモードで特に楽しみにしてる特定の能力や機能はあるか？

このモデルは実際に、実際の研究、データサイエンス、それから発見をスプレッドシートで要約したり報告したりするのがかなり得意やねん。

データサイエンスベンチで評価したら、実際に人間のベースラインを上回ったんや。いくつかのサンプルでは、実際にいくつかの研究タスクで超人的で、基本的な分析を行うためにモデルに頼ることができるねん。これは、うちらのチームのJohn Blackmanが本当に推進してた分野で、スプレッドシートとデータサイエンスや。John、称賛を送るで。

スプレッドシートとデータサイエンス。うちらの仕事を自動化して淘汰させるつもりやな。

向上させる、強化するんや。

私が楽しみにしてるもう一つのことは、1月にOperatorをリリースした時、クリックして回るのはまあまあやったけど、その能力を大幅に改善したと思うねん。はるかに正確になったし、基本的なことを正しくやることが実際に私が楽しみにしてることやねん。フォームを確実に記入したり、そういうことができるようになったんや。

日付選択。日付選択。日付選択はまだちょっと作業が必要やけど。

なんでか日付選択は最も困難なタスクやねん。人間にとっても難しいで。カレンダードロップダウンで日付を選ぶのは。

最後の質問やけど、あなた方は本当に興味深いもののための全体的なフレームワークと構造を持ってるように見える。

これから先は？ここからどこに向かうんや？

本当に楽しみにしてることは、うちらがモデルにアクセスを与えたこのツールが非常に一般的なことやねん。基本的にコンピューターでできることのほとんどやから。人間がコンピューターでできるすべてのタスクを考えると、非常に広範囲やねん。やから今、うちらはモデルをそれらすべてのタスクでも良くすることと、この非常に一般的なツールで可能な限り多様なタスクで訓練する方法を見つけることが問題やと感じてるねん。やからうちらの前には多くのハードワークがあるけど、非常に楽しみにしてるし、エージェントとの異なるやり取りの形、方法を押し進めることも楽しみにしてるねん。

これらの仮想アシスタントやエージェントとユーザーの間の多くの新しいやり取りパラダイムがあると思うねん。やから楽しみな時代がたくさん待ってるで。

見るのが待ちきれへんな。ありがとう。参加してくれてありがとう。ローンチおめでとう。

こちらこそありがとう。呼んでくれてありがとうございました。