
8,844 文字

私がアカデミーで実際に学生から求められていることなので、機能や性能、デプロイメントのオプションなどを比較してほしいとお願いしました。通常ならウェブページを開いたり、ドキュメントを確認したり、ブログを読んだり、周りの人に尋ねたりと、何日もかかるような作業ですが、実際には6分程度で完了し、とても迅速でした。少なくとも得られた結果は良い出発点だと思います。
OpenAIが最近リリースしたDeep Researchという新しいエージェントについて説明します。このエージェントは、オンライン上の大量の情報を理由付けながら統合し、複数のステップからなる調査タスクを完了できるものとして紹介されています。基本的に、ウェブを閲覧してコンテンツを探索し、その情報を統合してレポートを生成したり、達成しようとする複雑なタスクを実行したりできるエージェントです。特に、高度な推論能力を備えた複数ステップの調査タスクを実行できるように訓練されています。
このDeep Researchエージェントは、この特定のエージェント用に開発されたOpenAIのモデルによって動作しています。現在はProユーザーが利用可能で、PlusとTeamは後日提供予定です。私はすでにProユーザーなのでアクセスできており、Deep Researchの使用例といくつかの考察をお見せしたいと思います。
OpenAIのDeep Researchエージェントに関する詳細をいくつか紹介します。ChatGPTに統合されており、後ほどその様子をお見せしますが、複雑なタスクに対してインターネット上で複数ステップの調査を実行できるエージェント機能です。複数ステップの調査が可能というのが重要なポイントです。このブログ投稿から理解した限りでは、このエージェントはウェブから情報を収集し、その情報について推論を行い、調査を実行するためにさらなる情報が必要かどうかを判断し、すでに持っている追加のコンテキストを使用してより高度で正確な調査を行うことができます。
何かを修正したり変更したりする必要がある場合、それも可能なはずです。これが複数ステップの調査と呼ばれているものだと私は理解しています。通常は多くの異なるステップを必要とし、様々な情報源から調査を行うような作業です。ここでは、人間が何時間もかかるような作業を数十分で完了すると述べています。これは非常に大胆な主張ですが、多くの人々がエージェント機能やエージェント全般に対して楽観的で熱心な理由だと思います。
OpenAIの次のエージェントである調査機能は、独立して作業を行えると主張しています。タスクを与えると、数百のオンラインソースを分析・統合して、リサーチアナリストレベルの包括的なレポートを作成できます。ブラウジング機能と情報を統合・要約する能力を使用します。これは通常のChatGPTの動作方法とは大きく異なります。ChatGPTではタスクを与えると、モデル自体が学習した情報やデータのみを使用するからです。
このエージェントはウェブブラウジングとデータ分析に最適化されたOpenAIのGPT-3モデルによって動作しています。先ほど述べたように、推論を活用して検索を行います。推論は非常に重要です。なぜなら、インターネット上のテキスト、画像、PDFの大量の情報を検索、計画、解釈、分析することを可能にするからです。現在のGPT-3モデルにはないマルチモーダル機能を持っていることに注目してください。これはGPT-3モデルシリーズに今後追加される機能を示唆しているのかもしれません。
遭遇した情報に応じて必要に応じて方向転換できる部分を見てください。情報を見て、間違いがあったり、より深く調べる必要があったりすることに気付くかもしれません。人間の研究者がDeep Researchを行うのと同じようです。オンラインで検索し、何かが欠けていることに気付いたら追加情報を得ようとし、より信頼性の高い正確な研究のために情報源を増やすという往復作業を行います。
知識を統合する能力は新しい知識を創造するための前提条件です。これが私の意見では、この研究から得られる重要な示唆の1つです。AIエージェントやAI全般でより大きなことを行うために、新しい知識を創造することは本当に前提条件となります。例えば科学的発見を行うような場合です。AIシステムが新しい洞察を生み出したり、創造的なタスクを実行したりするのに苦労することは分かっていますが、知識を統合する能力があれば、おそらく洞察を得て、潜在的に新しい知識を創造できるでしょう。私はこれらは密接に関連していると考えています。
そして彼らは、この理由からDeep ResearchはAGI(汎用人工知能)の開発という広範な目標に向けた重要な一歩となると述べています。科学的発見について、そしてなぜDeep Researchを構築したのかについての理由を挙げています。金融、科学、政策、工学などの分野で、正確で信頼性の高い研究が必要だと言及しています。これはつまり、Deep Researchはあらゆる種類のタスクに向いているわけではなく、主に集中的な知識労働のためのものだということです。そして、このチャンネルでテストしてきた集中的な知識労働は、ChatGPTやつい最近リリースされたオペレーターエージェントなどのツールにおける制限を全て示していると思います。
これは次のステップであり、目利きの買い手が超パーソナライズされた推奨を探すようなことができます。パーソナライゼーションも非常に重要なポイントで、後で言及されている点です。また、製品やブランドなどに関するより深い調査を行うこと、市場調査なども本当に素晴らしい使用例となるでしょう。Deep Researchはウェブ全体から独立して発見し、推論し、洞察を統合すると述べています。
多くの人々はそれを当然のことと考えていますが、ウェブから情報を適切に統合するための本当に優れたツールは存在しません。特に、情報を統合し、適切に統合し、その情報から新しい洞察を得る能力を持つツールは、今日では本当に少ないのです。彼らは、ブラウザとPythonツールの使用を必要とする実世界のタスクで訓練を行ったと述べています。ツールの使用が明らかに見て取れます。これはエージェントであり、これらのツールを活用することになります。
特にここではPythonインタープリターやPythonツールの使用について触れています。OpenAIの強化学習手法を使用して訓練されており、そのモデル訓練からの教訓もここに適用されると述べています。そして、Deep Researchの使用方法について、ストリーミングプラットフォームの競合分析や、最適なコンピュータ、自転車、製品などに関するパーソナライズされたレポートなど、非常に良い性能を発揮する可能性のある使用例についても触れています。
Deep Researchは作業完了まで5〜30分かかる可能性があると述べています。考えてみると、何時間もかかるようなタスクもあり、Deep Researchは先ほど言及したように数十分で実行できます。人々が実際にこれらの効率性を価値あるものと感じ、何らかの経済的価値を提供するかどうかは、まだ分かりません。
ここにいくつかの動作例があります。UXデザインでは、Deep Researchが分析や統合をどのように行うかなどを確認できます。一般的な知識として、NFLのキッカーの平均引退年齢は何歳かといった質問があります。これはGPT-4が本当に苦手とするような質問ですが、Deep Researchがエージェントとしてツールにアクセスし、ウェブから情報にアクセスして、私たちが探している正しい答えを得るために情報を統合できるという事実は、次のステップであり、これが私たちが目にしているものです。
ビジネス関連のこと、医学研究なども同様です。それらは自分で確認できます。Deep Researchでどのような検索が実行できるか、ヒントを得ることができます。Deep Researchは、様々な領域にわたる困難なブラウジングと推論タスクで強化学習を使用して訓練されました。ここでもRLが重要な役割を果たしています。必要なデータを見つけるために複数ステップの軌跡を計画し実行することを学習します。
バックトラックも機能として非常に重要で、必要に応じてリアルタイムの情報に反応します。複数ステップの研究です。また、ユーザーがアップロードしたファイル、プロット、グラフをPythonツールを使用して反復処理することもでき、生成したグラフやウェブサイトからの画像をレスポンスに組み込むこともできます。
これらはベンチマークでの結果のほんの一例です。例えば、最近発表された「Humanity’s Last Exam」では、幅広い分野の専門家レベルの質問に関する広範な能力を評価するタスクで、26.6%のスコアを達成しています。しかし、このベンチマークで最高のモデルはGPT-3で13.0%であることに注目してください。大まかに言って、性能が2倍になっているのが分かります。そしてまた、ブラウジングとPythonツールの力です。これがエージェントの興奮する部分です。これらのシステムをはるかに性能が高く、より効果的にするのです。
これらの専門家レベルのタスクの多くについて、これは別のベンチマークの結果です。それについては詳しく説明しませんが、そのベンチマークの例もいくつかあります。これらはより専門家レベルのタスクについてです。様々な分野の専門家レベルのタスクに関する内部評価では、Deep Researchは困難な手動調査の複数時間を自動化したと、ドメインエキスパートによって評価されたと述べています。
調査目的には本当に良いです。ブラウジングを行い、ブラウジングしている内容について考えれば考えるほど、より良い結果が得られます。つまり、考えてブラウジングし、これらのツールを使用する時間を与えれば与えるほど、より良い結果が得られるということです。これは良い使用のヒントですね。これらは専門家レベルのタスクの例で、化学、言語学、ヘルスケアなどについて言及したとおりです。
ここには、推定される経済的価値と合格率の関係についての結果があります。下の方で、タスクの推定経済的価値は、人間が要する時間数よりも合格率とより相関があると述べています。これらは推定時間数です。合格率を見ると、その関係が分かります。そして、モデルが困難と感じることは、人間が時間のかかると感じることとは異なると述べています。
これは私の意見では、さらなる探求が必要な分野です。正確にどのようなタスクで、モデルがどのようにタスクを実行しているのか、特定の困難なタスクにどのように対処するのか、特定のタスクには異なる難易度レベルがあるのかなどを詳しく見ていく必要があります。研究者の方々にとって、これはより詳しく調べる価値のある素晴らしい分野だと思います。
制限事項も興味深いと思います。結局のところ、これは言語モデル、特に大規模な推論モデルであるGPT-3によって動作しており、まだアクセスできないバリアントですが、OpenAIが将来リリースを計画しているものです。時々、レスポンスで事実を捏造したり、誤った推論を行ったりすることがあります。
なぜこれが起こるのでしょうか?以前も述べたように、これらのモデルに大量の情報、潜在的な情報、異質な情報、または統合が本当に難しい情報、あるいは異なる執筆者からの異なる事実を分析しようとする際に意味を理解することが難しい情報を与えると、その情報が多様なため、これらのモデルはそのような情報に対するタスクの実行に本当に苦労することに気付きました。
混合された情報の場合、通常は私たちが望むほど良い結果を出せません。これはChatGPTでも、私自身のテストによるオペレーターシステムでも同様でした。これは引き続き課題だと思います。異なる情報源からの多くのドキュメントを受け取り、それを統合して洞察やレポートを生成するにはどうすればよいのでしょうか。これは非常に難しい問題です。私たちはしばらくの間RAGシステムを構築してきましたが、これは通常直面する課題の1つです。
モデルは幻覚を起こしがちで、提供されたすべての情報をどのように理解し、意味を見出すべきかが分かりません。権威のある情報と噂を区別することに苦労する可能性があると述べています。これは別の問題です。何が噂で何が権威のある情報なのか、私たち人間にヒントを提供する言及や引用などがない場合、モデルはおそらくそれを必要とし、それがなければ何が権威のある情報で何が噂なのかを理解できないでしょう。
そして、現在は確信度の調整に弱点があり、不確実性を正確に伝えることがしばしば失敗すると述べています。レポートや引用の書式にもエラーがある可能性があります。実際の動作を見せるために、ここで「新規」をクリックし、Deep Researchを選択します。Deep Researchを有効にしたい場合はこれを使用するべきです。
そして、これを貼り付けます。これは私が興味を持っている別のクエリですが、動画では表示しません。CREIというエージェンティックフレームワークに関するコースを作成しているので、主な機能は何か、などの情報を探してもらいたいと思います。自分でもできますが、他にも時間を使いたいことがあり、これはDeep Researchが得意とするべきことだと思います。情報を収集し、CREIの概要、新機能、それらが何に役立つのか、いつ使用するのかなどの高レベルのまとめを提供してほしいと思います。
これらのツールをたくさん使用しているので、それらのツールとの違いもあるかどうか見てみたいと思います。そして、テーブル形式でレポートを提供してほしいです。ここでエンターを押すだけです。これが最初のテスト例で、システムに科学的発見のための最新のAI研究を見つけ、見つかった関連論文、著者、使用された方法、結果をすべてリストアップし、さらに課題や将来の方向性もリストアップするように依頼しました。
ChatGPTはこれを実行できないでしょう。明らかにこのような作業を実行するにはウェブへのアクセスが必要です。このモデルで気付いたことの1つは、通常は確認を求めたり、正確に何を意図しているのかを確認しようとすることです。これは、できるだけ具体的にプロンプトを作成する必要があることを示しています。
ここでは、特定の科学分野を指定したり、この検索に追加したい事項があるかどうかを尋ねています。これは良いことです。明らかにシステムがタスクを開始し、後で再び対話する必要が出てくるような非効率的な状況は避けたいからです。これは効率性のためであり、ユーザーエクスペリエンスを向上させると思います。
一部の人々にとっては煩わしく感じるかもしれませんが、私自身の経験からすると理にかなっています。すべての科学分野に焦点を当ててほしいと説明し、忘れていたことですが、論文を分野ごとに分類してもらうと本当に役立つと思います。過去2年間の論文を探しているとも付け加えました。具体的にしたかった部分を見落としていました。より具体的で、エージェントにより多くの詳細を提供するほど、より良い結果が得られます。
このタスクを与えたとき、システムが止まってしまったことに気付きました。これは多くの場合起こることです。明らかにこれは多くのリソースを使用しており、OpenAIはこのような問題が発生することを透明に説明しています。そこで、もう一度試すように言い、確認を求められたのでOKを出し、すべてをチェックするように伝えると、タスクの実行を試みました。
これは約24分かかり、26の情報源を使用しました。ここでは、2023年から2025年にかけての異なる分野でのAIを活用した科学的発見について説明しています。このトピックについての非常に軽いサーベイと考えることができます。物理学では、ここにいくつかの論文があります。化学でもいくつかの論文があり、課題や将来の方向性も示されています。生物学なども同様です。
これは本当に素晴らしいと思います。得られた結果は非常に価値があると感じました。これにより、これらの分野の1つをより深く掘り下げることができるかもしれませんが、まずは異なる分野で何が起こっているのかについて良い全体像を得たかったのです。ここで、このモデルはディープラーニングやさまざまなベースライン、最適化、AIのさまざまな技術について言及していることに注目してください。
もしこれをLLMsやAIエージェントについてより具体的にしたい場合、ここでもより具体的にすることができたでしょう。より具体的であるほど、より良い結果が得られます。次にこちらを見てみましょう。これは興味深いものでした。基本的に、LangChainやLangFlowなどの異なるエージェンティックフレームワーク間の包括的な分析と比較を行いたいと思いました。機能、性能、デプロイメントのオプションなどを比較してほしいと依頼しました。これは実際にアカデミーの学生たちから求められていることなので、良い全体像を得たいと思いました。
これらは通常、ウェブページを開いたり、ドキュメントを確認したり、ブログを読んだり、周りの人に尋ねたりする必要があり、何日もかかるような作業ですが、実際には6分程度で完了し、とても迅速でした。少なくとも得られた結果は良い出発点だと思います。ここでも詳細を確認し、確認した後で実際の調査に入りました。
調査を行っているときは、このアクティビティバーと使用している情報源が表示されることに注目してください。情報源があまり意味をなさない場合のために表示されています。情報源をどのように選択しているのかは確実には分かりません。ほとんどのこれらのエージェントと同様に、検索ソリューション、検索APIやそのような種類のAPIをウェブ検索に使用していると推測します。
その情報を持っていれば、異なるステップを経て、エージェントフレームワークを検索し、これを読み、説明を行い、依頼した調査を実行するための複数ステップのプロセスを進めていきます。これは素晴らしいことです。なぜなら、情報量が多いにもかかわらず、最初に依頼したタスクの軌道を維持できているからです。通常、モデルは数個の情報源の後にレールから外れてしまいますが、この特定のシステムを動作させているGPT-3は本当に優れています。
このような複数ステップの調査タスクを実行するように特別に訓練されています。ここには要約があり、その下にフレームワークの比較があります。詳細が示され、テーブル形式で比較が提供されています。これは本当に素晴らしいです。LangChainがオープンソースであることや、プライバシー、デプロイメントなどのすべての詳細が示されています。
これらは私たちのコンサルティング業務でもクライアントからよく質問される事項です。手作業でこれらを検索する代わりに、エージェントが情報をまとめることができます。この情報が正確かどうかなどは、おそらくまだ確認する必要がありますが、これは私が試みている調査の良いスタート地点だと言えます。ここから構築していけばよいのです。
このテーブルをエクスポートできればよかったのですが、それは現在の機能にはありません。おそらく将来的には追加されるでしょう。Deep Researchやこれらのエージェントから得られるレポートや異なる出力を活用し、行動に移すための方法として大きな意味を持つかもしれません。
これは本当に気に入りました。とても価値があると思います。私のために多くの有用な情報を収集してくれました。ここで例えば、2023年に最近と言っていますが、私たちは2025年にいます。最近と言えるかどうか分かりません。このモデルはまだ日付などの問題に苦労していると思います。それは理にかなっています。なぜなら、これらのモデルはおそらく時間に関する具体的なコンテキストを持っておらず、そのためのツールが必要かもしれないからです。
ここでは2023年半ばに最近導入されたと述べていますが、私はこのリストは非常に良いと思います。例えば、ここに最新バージョンとありますが、Autogenの最新バージョンが何なのかは分かりません。2023年後半のものとは思えず、2024年のものだと思います。最近Autogenのアップデートを見かけましたが、それはキャプチャされていません。
通常、これらの種類のエージェントやツールは、最近の論文などに関する情報を収集するように依頼すると、そのような検索に苦労します。これらのツールを使用する際には注意すべき点です。
これで今回の動画は終わりです。ご視聴ありがとうございました。この動画を楽しんでいただけたなら、下のコメント欄でお知らせください。テストしてほしい特定の内容があれば、コメントでお知らせください。今月はあと90回ほど試行できると思います。興味深い種類のレポートで、テストしてほしいものがあれば、下のコメント欄でお知らせください。ご視聴ありがとうございました。動画が良かったと思われたらいいねを押していただき、まだチャンネル登録していない方は登録をお願いします。次回の動画でお会いしましょう。


コメント