
11,969 文字

このフィールドで人々が何度も学ぶ教訓の一つは、「私たち人間は自分たちで書いた方がモデルよりも賢いことができると思っているが、フィールドが進歩するにつれて、モデルは人間よりも優れた解決策を生み出してくる」ということです。機械学習における最も重要な教訓は「最適化したものが得られる」ということです。そのため、求めている結果に直接最適化できるようにシステムを設定できれば、エンドツーエンドで最適化されていないモデルを組み合わせるよりも、結果ははるかに優れたものになります。長期的な見解としては、強化学習やモデル上でのチューニングが、最も強力なエージェントを構築する上で重要な要素になるでしょう。
私たちはOpenAIのDeep Researchプロダクトを率いるIssa FulfordとJosh Tobinを歓迎します。Deep Researchは3週間前に発表され、業界分析から医学研究、誕生日パーティーの計画まで、多くのテック業界の著名人を含む多くのユーザーに使われている注目のプロダクトになりました。Deep Researchは困難なブラウジングや推論タスクに対してエンドツーエンドの強化学習を使って訓練され、OpenAIからのエージェント発表シリーズの二番目のプロダクトで、最初はOperatorでした。IssaとJoshに、Deep Researchのユースケースから、技術がどのように動作するか、そして将来のOpenAIのエージェント発表で何を期待すべきかまで、あらゆることについて話を聞きました。
Issaさん、Joshさん、番組へようこそ。
ありがとうございます。参加できて嬉しいです。
お招きいただきありがとうございます。
それでは、Deep Researchとは何かから始めましょう。その起源と、このプロダクトが何をしているのか教えてください。
Deep Researchは多くのオンラインウェブサイトを検索できるエージェントで、非常に包括的なレポートを作成できます。人間が何時間もかかるようなタスクを実行でき、ChatGPTに組み込まれていて、回答には5〜30分ほどかかります。通常のChatGPTの応答よりもはるかに詳細な調査を行い、より詳細な情報と特定のソースを用いて質問に答えることができます。これは私たちがリリースした最初のエージェントの一つで、最近Operatorもリリースしました。Deep Researchは二番目のエージェントであり、将来的にさらに多くのエージェントをリリースする予定です。
Deep Researchの起源について教えてください。いつ開発を決めたのか、何がきっかけだったのか、何人で作業したのか、製品化するまでにどのような努力が必要だったのかを教えてください。
良い質問ですね。これは私が参加する前の話なので…
そうですね、たぶん1年ほど前に、内部的に新しい推論パラダイムで多くの成功を収めていて、モデルが応答する前に「考える」ように訓練していました。私たちは数学や科学の領域に焦点を当てていましたが、この新しい推論モデルレジームが可能にするもう一つのことは、エージェンシー能力を含む長期的な視野を持つタスクを実行する能力です。多くの人々がオンライン調査や大量の外部コンテキストを必要とするタスクを行っていて、それには多くの推論やソース間の区別が必要で、そのような作業には創造性も必要です。そして、私たちはついに、そうしたタスクに取り組むことができるモデルやモデルを訓練する方法を手に入れたと考えました。そこで、まずはブラウジングタスクに対してモデルをトレーニングすることにしました。推論モデルを訓練するのと同じ方法を使って、より実世界のタスクに適用したのです。
それはあなたのアイデアだったのですか?Josh、あなたはどのように関わり始めたのですか?
最初は私とYos Ptilで、OpenAIで同様のプロジェクトに取り組んでいて、そちらもいずれリリースされる予定です。とても楽しみにしています。私たちは最初のバージョンを構築し、Thomas Dimsonも加わりました。彼は素晴らしいエンジニアで、何にでも飛び込んで多くのことを成し遂げる人です。とても楽しかったです。
私はもっと最近参加しました。約6ヶ月前にOpenAIに再入社しました。以前はスタートアップを経営していて、OpenAIの初期メンバーでした。再入社後にプロジェクトを見回していて、このプロジェクトを含むHMT(Human Feedback)の取り組みに非常に興味を持ちました。そこから関わるようになりました。
素晴らしいですね。このプロダクトは誰のために作られたのでしょうか?
これは本当に、日常業務や生活の一部として知識労働を行う人なら誰でも使えるものです。現在の利用状況を見ると、多くの人が仕事で使っています。仕事の一部として調査を行ったり、市場、企業、不動産を理解したり、科学的調査や医学的な例も多く見られます。また、楽しみにしているのは、多くのウェブ検索をして情報を集めなければならないというスタイルのタスクは仕事だけではなく、ショッピングや旅行にも役立つということです。そのため、Plusのローンチで多くの人がDeep Researchを試せるようになり、新しいユースケースも見られるのではないかと期待しています。
これは過去数週間で私が最も使ったプロダクトの一つです。仕事でも、楽しみのためにも素晴らしい体験でした。あなたはどのような用途に使っていますか?
私ですか?ああ、新しい車を買おうと考えていて、次のモデルがいつ発売されるのか調べようとしていました。憶測のブログ記事がたくさんあり、メーカーからのパターンもあったので、Deep Researchに「この車に関するすべての噂を分析して、メーカーが以前何をしたのか、事実を教えてほしい」と頼みました。すると素晴らしいレポートを作成してくれて、数ヶ月待った方がいいけど、今年中に、おそらく数ヶ月以内に発売されるだろうと教えてくれました。
それが本当に素晴らしいのは、単に幅広く情報を集めるだけでなく、非常に曖昧な奇妙な事実をインターネット上で見つけるのが得意なことです。検索結果の最初のページには出てこないかもしれない特定の情報を知りたい場合にも役立ちます。
驚いたユースケースはありましたか?
一番驚いたのは、コーディングに使っている人が多いことです。ユースケースとして考えていなかったのですが、Twitterやフィードバックをもらう様々な場所で、コーディングやコード検索、特定のパッケージに関する最新のドキュメントを探したり、スクリプトを書くのを手伝ってもらうために使っているのを見ました。ChatGPTユーザーにとっては当たり前のユースケースだと思いますが、私たちがユースケースとして考えなかったことが恥ずかしいですね。それがどれだけうまく機能するか印象的です。
ビジネスユースと個人ユースのバランスが時間とともにどう変化すると思いますか?Plusのローンチについて言及されましたが、1年後や2年後には、これは主にビジネスツールになるのか、それとも主に消費者向けツールになると思いますか?
できれば両方だと思います。かなり一般的な能力を持っていて、仕事でも個人生活でも行うことだと思います。両方に期待しています。魔法のような点は、人々の時間を大幅に節約することです。何時間も、場合によっては何日もかかったかもしれないことを、ここに入力するだけで、自分で調べた場合の90%程度のものが得られます。ビジネスではそのようなタスクが個人生活よりも多いと思いますが、確実に人々の生活の両方の側面で役立つでしょう。
実際、私のChatGPTの使用の大部分がDeep Researchになりました。通常のChatGPTではなく、いつもDeep Researchを選んでいます。消費者の使用例について何か見えていることはありますか?また、何に期待していますか?
ショッピング、旅行の推奨事項など多いですね。私自身、数ヶ月間このモデルを使ってそういったことをしています。Deep Researchの発表時に日本にいたので、特定の要件を持つレストランを見つけたり、通常は見つけられないかもしれないものを見つけるのに非常に役立ちました。
高価なものを買う時や、特別な旅行を計画するとき、多くの時間をかけて考えたいときに役立ちます。例えば、購入したい製品についてインターネット上のすべての情報を読むために何時間も費やしたり、すべてのレビューやフォーラムを調べたりすることがありますが、Deep Researchはそのようなものを非常に素早くまとめることができます。そういった用途に非常に役立ちます。
このモデルは指示に従うのも非常に得意です。多くの異なる部分や質問を含むクエリがある場合、製品に関する情報だけでなく、他のすべての製品との比較や、Redditなどからのレビューに関する情報も欲しい場合、さまざまな要件を与えることができ、すべてを実行してくれます。
もう一つのヒントとしては、テーブル形式でフォーマットするように頼むと良いです。通常は自動的にそうしますが、調査したいカテゴリーごとに引用付きのテーブルがあると非常に役立ちます。
また、まだ製品に組み込まれていない機能もありますが、基盤となるモデルは画像を埋め込むことができるので、製品の画像を見つけることができます。これは消費者向けユースケースではありませんが、グラフを作成して応答に埋め込むこともできます。これらの機能がChatGPTにも搭載されることを期待しています。
オタク向けの消費者ユースケースとしては、パーソナライズされた教育も興味深いユースケースです。学びたいトピックがある場合、生物学の知識を再確認したい場合、あるいは世界的な出来事について学びたい場合、理解していないと感じる点や調査したい側面について情報を入力すると、きれいなレポートをまとめてくれます。
私の友人の一人はCPG(消費者向けパッケージ商品)会社の立ち上げを検討していて、類似の製品を見つけたり、特定の名前やドメインが既に使われているかどうか、市場規模など、様々なことを調べるのに多用しています。彼がレポートを共有してくれるので読んでいますが、見るのが楽しいです。
もう一つの楽しい使い方は、インターネット上の単一の曖昧な事実を見つけるのが非常に得意なことです。例えば、マニアックなテレビ番組の特定のエピソードを見つけたい場合など、深く掘り下げてウェブ上の一つの参照を見つけてくれます。
私の弟の友人のお父さんが、非常に特定の事実について質問していました。それはある戦いでの誰かの死に関する、ある時期に権力を持っていたオーストリアの将軍についての非常に専門的な質問でした。以前ChatGPTは間違った答えを出していて、彼はそれが間違っていると確信していたので、公共図書館に行って記録を見つけ、間違いだと確認しました。Deep Researchは正しい答えを出すことができたので、彼に送ったところ、喜んでいました。
今日のDeep Researchが優れている点と、O(Opus)シリーズのモデルを使うべき場面、Deep Researchを使うべき場面について、大まかな心理モデルを教えてください。
Deep Researchが本当に優れているのは、欲しいものの詳細な説明があり、最良の答えを得るためにインターネットの多くを読む必要がある場合です。もっと漠然とした質問がある場合は、あなたが何を望んでいるのかを明確にするのを手伝いますが、特定の情報セットを探している場合に最も力を発揮します。遭遇した情報を統合するのが非常に得意で、特定の見つけにくい情報を見つけるのも得意です。遭遇した情報から新しい洞察を生み出すこともできますが、まだ新しい科学的発見をしているわけではありません。
Oシリーズのモデルについては、コーディングに関する質問をする場合、通常はモデルが事前トレーニングから既に知っている知識以外の知識を必要としないので、通常はO1 ProやO1、あるいはO3 Mini Highを使います。
Deep Researchは、OpenAIの新しい製品方向性の素晴らしい例です。共有できる範囲で、これがどのように機能するのか教えていただけますか?
Deep Researchを支えるモデルは、O3(最も高度な推論モデル)のファインチューンバージョンです。特に収集した難しいブラウジングタスクや他の推論タスクでトレーニングしました。またブラウジングツールとPythonツールにもアクセスできます。これらのタスクに対してエンドツーエンドでトレーニングすることで、それらを解決するための戦略を学習し、結果としてオンライン検索と分析に優れたモデルになりました。
直感的に言えば、あなたが詳細な要求をすると、モデルはそれについて懸命に考え、情報を検索し、その情報を引き出して読み、要求にどう関連するかを理解し、最終的な答えに近づくために次に何を検索すべきかを決定します。そして、見つけた情報を元の情報源に戻る引用付きの、きちんとしたレポートにまとめるようにトレーニングされています。
エージェント能力としてDeep Researchの新しい点は、エンドツーエンドでトレーニングできるため、調査プロセスで行う必要があることの多くは事前に予測できないことです。ライブのウェブ情報に反応し、見たものに基づいて戦略を変更するような、言語モデルのプログラムやスクリプトを書くことは不可能だと思います。実際に私たちは、モデルが非常に創造的な検索を行っているのを見ています。思考の連鎖の要約を読むことができますが、次に検索するものを考え出す方法について、非常に賢いことがわかります。
John Carlsonは、Deep Researchの魔法がどれだけウェブコンテンツへのリアルタイムアクセスにあるのか、どれだけ思考連鎖にあるのかについてのツイートを投稿しました。それについて教えていただけますか?
確かに組み合わせだと思います。他の検索製品がエンドツーエンドでトレーニングされておらず、情報に対して柔軟に反応したり、特定の問題を解決するために創造的になったりすることができないのを見ることができます。特定の目的のためにトレーニングされていないからです。確かに組み合わせですね。O3のファインチューンバージョンで、O3は非常に賢く強力なモデルです。分析能力の多くも基礎となるO3モデルのトレーニングからきています。なので、確かに組み合わせです。
OpenAI以前は、スタートアップで働いていて、エージェントの構築に取り組んでいました。インターネット上で多くの人がエージェントの構築について説明しているような方法で、基本的に操作のグラフを構築し、そのグラフの一部のノードが言語モデルです。言語モデルが次に何をするかを決定できますが、一連のステップの全体的なロジックは人間によって定義されています。
これはプロトタイプを素早く作るには強力な方法ですが、実世界ではすぐに限界に達します。モデルが直面する可能性のあるすべてのシナリオを予測し、取りたいかもしれない異なるパスのすべての分岐を考えるのは非常に難しいからです。さらに、モデルはそのような決定を下すようにトレーニングされているわけではなく、それに似たことをするようにトレーニングされているため、グラフのノードでの意思決定者として最適ではないことがよくあります。
このモデルの本当に強力な点は、ユーザーが解決するために使用しているようなタスクを直接エンドツーエンドで解決するようにトレーニングされていることです。グラフを設定したり、バックエンドのアーキテクチャでノードのような決定をする必要はなく、すべてがモデル自体によって駆動されています。
これについてもう少し詳しく教えていただけますか?それは非常に明確な決断の一つであり、明らかにうまくいっています。多くの企業があなたのAPIを使って特定のタスクを解決するためにプロンプトを作成していますが、それらのアプリケーションの多くは、特定のワークフロー向けにエンドツーエンドでモデルをトレーニングする方が良いと思いますか?
非常に特定のワークフローがあり、かなり予測可能であれば、今説明したような方法で行うことは理にかなっています。しかし、多くのエッジケースがあったり、非常に柔軟である必要がある場合は、Deep Researchのようなアプローチの方が良いでしょう。
私が人々に与えるガイダンスは、モデルに組み込みたくないのは、硬直したルールだということです。例えば、モデルに触れてほしくないデータベースがある場合は、人間が書いたロジックでそれをエンコードする方が良いでしょう。しかし、このフィールドで人々が何度も学ぶ教訓の一つは、「私たち人間は自分たちで書いた方がモデルよりも賢いことができると思っているが、実際には、フィールドが進歩するにつれて、モデルは人間よりも優れた解決策を生み出す」ということです。
また、機械学習における最も重要な教訓は「最適化したものが得られる」ということです。そのため、求めている結果に直接最適化できるようにシステムを設定できれば、結果ははるかに優れたものになります。エンドツーエンドで最適化されていないモデルを組み合わせるよりも良いでしょう。
私の長期的な見解は、最も強力なエージェントを構築する際には、モデル上での強化学習によるチューニングが重要な要素になるだろうということです。
この製品を実現する過程での最大の技術的課題は何でしたか?
私は初めから関わっていたわけではないので、観察者として言えることですが、Issaと残りのチームが本当に一生懸命取り組んだことの一つで、成功への隠れた鍵の一つは、非常に高品質なデータセットを作ることでした。機械学習において人々が何度も再学習する古くからの教訓の一つですが、モデルに入力するデータの質は、おそらく得られるモデルの質を決定する最大の要因です。
そして、Edward Sonのような、どんなデータセットも最適化する人材がいることも秘訣です。あなたのEdwardを見つけることが成功の秘訣です。
素晴らしい機械学習モデルのトレーニングですね。どのようにして正確さを確保していますか?
それは明らかにこのモデルと製品の中核部分で、ユーザーが出力を信頼できるようにしたいと考えています。その一部として、引用があり、ユーザーはモデルが情報を引用している場所を見ることができます。トレーニング中に、それが正確であることを確認しようとしましたが、モデルが間違いを犯したり、誤った情報を生成したり、最も信頼できるとは言えない情報源を信頼したりする可能性はまだあります。これは確かに私たちがモデルを改善し続けたいアクティブな領域です。
O3やOperator、その他のリリースとの関係についてはどう考えればよいでしょうか?Deep ResearchはOperatorを使用していますか?これらはすべてO3の上に構築されているのでしょうか、それともO3の異なるアプリケーションのシリーズなのでしょうか?
今日これらは完全に切り離されていますが、将来的な方向性を想像することはできます。最終的に人々がアクセスするエージェントは、ウェブ検索やコンピュータの使用だけでなく、人間のアシスタントに望むような他のタイプのアクションも実行でき、これらすべてをよりナチュラルな方法で融合できるようになるべきです。
一見して明らかではないかもしれない他のデザイン上の決断はありますか?
一つは明確化のフローです。Deep Researchを使用した場合、モデルは調査を開始する前に質問をします。通常、ChatGPTは応答の最後に質問をするかもしれませんが、そのような行動を最初から取ることはあまりありません。これは意図的なことで、プロンプトが非常によく指定され詳細であれば、調査モデルから最高の応答が得られるからです。最初のプロンプトですべての情報を提供するのは自然なユーザー行動ではないと思うので、5分から30分待つ価値のある、詳細で満足のいく応答を確実に得るために、この追加のステップを加えました。
実際、Twitterで多くの人がこのフローを持っていたり、O1やO1 Proと話してプロンプトをより詳細にしてから、満足したらDeep Researchに送るという人もいました。興味深いことに、人々は自分たちのワークフローを見つけています。
過去数ヶ月間に3つの異なるDeep Research製品が発表されましたが、あなたたちの製品の特別な点と、どのように考えるべきかを教えてください。すべてがDeep Researchと呼ばれていますね。
この分野では名前の創造性はあまりないですね。皆さん自身ですべてを試してみて、感触をつかむべきだと思います。品質の違いはあると思いますが、長所と短所があります。その違いは明らかになると思います。それが何に起因するかというと、このモデルの構築方法と、データセットの構築に費やされた努力、そしてO3シリーズモデルのエンジンです。これにより、本当に賢く高品質なものを作るためにモデルを最適化することができます。
昨年、O1チームをポッドキャストに招待した際、OpenAIは名前付けがあまり得意ではないと冗談を言っていました。これはこれまでで最も名前が良い製品です。少なくともDeep Researchは何をするのかを説明していますね。
今後の展望についてお聞きしたいです。現在Deep Researchがありますが、1年後はどのようになっていると思いますか?また、その途中で構築したい補完的なものは何でしょうか?
モデルがアクセスできるデータソースを拡大することに期待しています。公開情報のブラウジングに非常に優れたモデルをトレーニングしましたが、プライベートデータも検索できるようにすべきです。また、能力をさらに強化することも考えています。ブラウジングがより優れ、分析がより優れるようにし、そしてこれが私たちのエージェントロードマップ全体にどのように適合するかを考えています。
ここでのレシピは、かなり広範なユースケースに拡張できるものだと思います。人々を驚かせるほどうまく機能するものですが、この考え方は、最先端の推論モデルを取り、人間が仕事や日常生活で使用できるのと同じツールへのアクセスを与え、そしてエージェントに実行させたい種類の結果に直接最適化するというものです。このレシピには、より複雑なタスクに拡張することを妨げるものは本当に何もありません。
AGI(汎用人工知能)は今や運用上の問題だと感じています。その一般的な公式で来るべきものはたくさんあると思います。
Samは「Deep Researchは世界の経済的に価値のあるタスクのうち、一桁のパーセンテージを引き継ぐだろう」という印象的な引用をしていました。これについてどう考えればよいでしょうか?
Deep Researchはあなたがすることすべてを実行できるわけではありませんが、場合によっては数時間、時には数日の時間を節約することができます。私たちが比較的近づいていると思うのは、Deep Researchとこれから構築するエージェント、その上に構築するエージェントが、あなたの時間の1%、5%、10%、25%を返してくれることです。それはあなたがどのような仕事をしているかによって異なります。
私の場合はすでに80%を自動化してくれていると思うので、確かに高い方の割合ですね。
Deep Researchが特に優れている特定の職種カテゴリはありますか?例えば、コンサルティングなどが当てはまるかもしれませんが、特に影響を受けそうな特定のカテゴリはありますか?
私はかつてコンサルタントでしたが、仕事が危険にさらされるとは思いません。これを労働力の代替として考えてはいないのです。しかし、情報を調べて結論を出すのに多くの時間を費やす知識労働の仕事では、人々に超能力を与えることになると思います。
医療用途に関しても非常に期待しています。ある病状に関するすべての文献や最近の症例を見つける能力は素晴らしいです。多くの医師がこれについて投稿したり、私たちに連絡を取って「これを使ってこの患者の臨床試験を見つけるのに役立ちました」などと言っているのを見ています。既に忙しい人たちの時間を節約するか、時間がなくてできなかったことができるようになるということです。
そのインパクトは表面的に聞こえるよりも少し深いものだと思います。時間の5%を取り戻すだけではなく、4時間や8時間かかったかもしれないタイプの作業が、ChatGPTのサブスクリプションと5分で可能になります。無限の時間があればどんなことをするでしょうか?例えば、投資できるすべての可能性のあるスタートアップについて、時間があって会うことができるものだけでなく、すべての調査をすべきでしょうか?
消費者側でも考えているのは、誕生日パーティーを計画する時間がない働くママが、今ならそれが可能になるということです。時間の5%以上に重要なことは、以前はできなかったことすべてができるようになることです。
教育やこれからの学び方について、エージェントやDeep Researchの世界でどのような変化があるでしょうか?また、子供たちに何を教えるようになるでしょうか?
教育は人々がこれを使用する上位のことの一つです。これはChatGPTにも当てはまりますが、あなたが伝えたこと、あるいは将来的にはあなたについて知っていることに基づいて情報をパーソナライズできるAIシステムと話すことで物事を学ぶことは、教科書を読むよりもはるかに効率的で魅力的な学習方法だと感じます。
いくつか簡単な質問をします。あなたのお気に入りのDeep Researchの使用例は何ですか?
パーソナライズされた教育ですね、学びたいことについて学ぶことです。既に述べましたが、人々が自分や家族の診断について情報を見つけた個人的なストーリーを見るのは本当に素晴らしいことです。
去年はコーディングなど、いくつかのアプリケーションカテゴリがブレイクしました。今年ブレイクすると思うアプリケーションカテゴリは何ですか?
明らかにエージェントですね。
そう、2025年はエージェントの年になると思います。
エージェントや人工知能の現状についてもっと学ぶために、人々に読むことを勧めるコンテンツについてはどう考えますか?著者でも構いません。
このポッドキャストはトレーニングデータではありません。AIの最先端を把握するのは非常に難しいです。一般的なアドバイスとしては、本当に興味のある1つか2つのサブトピックを選び、それについて興味深いことを言っていると思う人々のリストを作成することです。
その1つか2つの興味のあることを見つける方法は、実はDeep Researchの良い使用例かもしれません。もっと学びたいことについて深く調べるために使用してみてください。
これはやや古いですが、数年前にPelelとの「Foundations of RL」というビデオを見ました。数年前のものですが、強化学習の良い入門だと思います。
Peter Abelの内容なら何でも推薦します。彼は私の大学院の指導教官でした。
強化学習は一時期ピークを迎え、その後少し下火になったように感じましたが、今また盛り返しているのでしょうか?
そうです、強く戻ってきています。
なぜ今なのでしょうか?
他のすべてがうまく機能しているからです。長い間この分野に携わっている人は、Yan LeCondの「ケーキのアナロジー」を覚えているかもしれません。ケーキを作る場合、ほとんどがケーキ自体で、少しのフロスティング、そして上に少しのチェリーがあります。このアナロジーでは、教師なし学習がケーキ、教師あり学習がフロスティング、強化学習がチェリーだとされていました。
2015年から2016年頃に私たちが強化学習に取り組んでいた時、今から考えるとおそらくYan LeCunのアナロジーが正しいのですが、ケーキができる前にチェリーを追加しようとしていたのです。
しかし今では、大量のデータで事前訓練され、非常に高い能力を持つ言語モデルを手に入れました。これらの言語モデルに教師あり微調整を行い、指示に従い、一般的に人々が望むことを上手に行えるようにする方法も知っています。それがうまく機能するようになったので、報酬関数を定義できるあらゆる種類のユースケースに対してモデルを調整する準備が整っています。
素晴らしいです。この簡単な質問から、2025年のブレイクするカテゴリはエージェントであり、強化学習が再び強力に戻ってきたということがわかりました。素晴らしい会話をありがとうございます。素晴らしい製品の発表おめでとうございます。次の展開が楽しみです。
ありがとうございます。
ありがとうございました。


コメント