
7,172 文字

こんにちは、スーパーデータサイエンスポッドキャストへようこそ。私はホストのジョン・クロンです。今週は家族とスイスでスキー休暇中なので、前置きを飛ばして今日の5分フライデースタイルエピソードの本題に入りたいと思います。その本題はDeep Researchについてです。特に、GoogleやPerplexityのような他の企業も最近「Deep Research」と呼ばれるツールをリリースしていますが、このエピソードでは主にOpenAIのDeep Researchに焦点を当てます。現時点ではこの分野の明らかなフロントランナーだからです。なお、OpenAIは私にスポンサーしているわけではなく、これは私の独立した意見です。
まず最初に、Deep Researchは何をするのでしょうか?それは驚くほど上手に、深い文献レビューを自動化し、何百ものオンラインソースを一貫性のある、きちんと引用された報告書に合成します。最近のエピソード864で取り上げたOpenAIモデルのような多段階の「推論」モデルを使用して、Deep Researchはあなたの複雑なクエリをより小さなタスクに分解し、それから特定したそれらの小さなタスクの各部分についてウェブを検索します。その後、学んだ新しい情報に応じて研究の軌道を変えながら、反復的に結果をレポートに合成します。
実用的な観点から言えば、24時間365日いつでも専門の研究者がオンコールで、人間には到底マッチできないスピードでデータを処理してくれるようなものです。人間の研究者が何時間も、あるいは何日もかかるような作業が、今や数分以内に非常に優れた形で完了します。
OpenAIはDeep Researchを、さまざまな領域にわたる難しいウェブブラウジングと推論タスクにおいて、エンドツーエンドの強化学習を使用してトレーニングしました。そのトレーニングを通じて、必要なデータを見つけるための多段階の軌道を計画し実行することを学び、必要に応じてバックトラックしたりリアルタイムの情報に反応したりします。
このモデルはユーザーがアップロードしたファイルを閲覧することもでき、Pythonを使用してグラフをプロットし、その応答に画像を埋め込むことができます。これには、研究中に検索したウェブサイトからの画像や、あなたのために生成したグラフも含まれます。また、引用を提供するので、特定の文や段落が情報の具体的な出所として特定されます。それはかなりクールですね。
この強化学習トレーニングとこれらの機能すべての結果として、OpenAI Deep Researchは実世界の問題に焦点を当てた多くの公開評価で新しい高みに達しています。実際、Deep Researchは最近リリースされた「Humanity’s Last Exam」と呼ばれるAI評価において、劇的に高い新しいベンチマークを設定しました。ショーノートにHumanity’s Last Examのウェブサイトへのリンクがありますので、詳細をご確認いただけます。これはロケットサイエンスから言語学まで100以上の科目にわたる3,000の多肢選択式および短答式問題からなる包括的な評価です。
これはAIモデルが取り組むのが非常に困難なはずの、広く尊敬されている新しいベンチマークです。私たちはついにAIモデルが何年もかかるような評価を作り出したと思っていましたが、このHumanity’s Last Examベンチマークにおいて、Deep Researchは突然、この非常に困難な一連のタスクにおいてAIが進展していることを明らかにしました。
例えば、OpenAI O1はHumanity’s Last Examで99.1%の精度しかなく、DeepSeek R1もだいたい同じで99.4%の精度でした。そして今、OpenAI Deep Researchが登場し、それらの他のすべての数値を完全に吹き飛ばしました。27%の精度を獲得していますが、それでも100%に近づいているわけではありません。しかし、過去のソフトウェアエンジニアリングベンチマークや数学ベンチマークのような他のベンチマークでも、AIモデルがある程度の牽引力を得られるようになると、このように9%から27%の精度へとジャンプし、その後の数ヶ月または少なくとも数年で大きな進展を見ることになります。
そのため、Humanity’s Last ExamがAIによって征服されるまでそれほど時間がかからないとしても驚きません。今日のエピソードのビデオ版では、録画時点でのHumanity’s Last Examにおける主要なモデルすべてのパフォーマンスを示す表があります。
GPT-4のようなモデル、つまりステップバイステップの推論なしに即座に回答をストリーミングするためのOpenAIの主要モデルは、Humanity’s Last Examで3%の精度しか持っていません。これはxAIのGrok 2やClaude 3.5 Sonnetと同程度で、これらは約4%のマークで得点します。そしてGoogleの取り組みであるGemini Thinkingは約6%のスコアです。O1とDeepSeek R1は9%でより良い成績を出していました。O3 miniは高設定の推論モデルを使用して、つまり大量の計算を使用して13.3%の精度に達しました。
しかし、はい、OpenAIのDeep Researchは競合モデルや競合企業のすべてを完全に圧倒しています。Humanity’s Last Examで27%という精度です。間違いなく注目すべきことです。
Humanity’s Last Examでのパフォーマンスの大幅な向上は、もちろん実世界での価値に変換されます。私はOpenAI Proサブスクリプション(月額200ドル)を取得しましたが、これは節約できる時間とその洞察の価値を考えると、私にとっては簡単に価値があります。Proサブスクリプションの一部として、ほぼ毎日Deep Researchを使用しており、継続的に感銘を受けています。
例えば、最近、5月にボストンで開催される予定のOpen Data Science Conference East(ODSC East)で提供する予定の4時間のエージェントAIワークショップのシラバス開発を加速するためにDeep Researchを使用しました。
このエージェントAIシラバスについてはすでにかなりの情報を持っていたので、その詳細をモデルに提供しました。4つのモジュールがあり、最初のモジュールはかなり完成していると感じていますが、何か追加してもいいですよ、モジュール2は最も作業が必要です、と伝えました。そのモジュールについては、確認したい外部URLの参照だけを持っていました。そしてモジュール3は空でした。それは空のままにしておいてもいいと言いました。なぜなら、そこに何を入れるかを正確に知っていたからです。より具体的には、このワークショップでの共同発表者であるエド・ドナーが何を入れるかを正確に知っていました。そしてモジュール4には着手したが、おそらくもう1つか2つの箇条書きが必要だと言いました。
すでに持っていた情報を提供しました。モジュール1はかなり完成していると思ったので、そのシラバスポイントを提供しました。モジュール2については、リンクだけを提供しました。モジュール4は不完全でした。すべての情報をモデルに提供し、「あなたがこのワークショップのために作成してほしいタイトルと要旨のスタイルを把握するのに役立つように」と言いました。シラバス、つまりこのエージェントAIワークショップで行うことの箇条書き式の内訳を求めていました。また、タイトルと要旨も欲しいと言い、過去にOpen Data Science Conferenceワークショップで書いたタイトルと要旨の例を提供しました。そのコンテキストも提供しました。
モデルは質問を返してきました。YouTubeバージョンをご覧の方は、私が提供した特定のクエリを実際に表示しています。左上にChat GPT-4 Oが選択されたモデルとして表示されていますが、これは単に履歴を見ているからです。履歴を見ているので、Deep Researchセッションに戻っているわけではありません。会話を続けることもできますが、Deep Researchが自動的にではなく、GPT-4 Oに設定されています。これは無視してください。これはO1プロムモードの会話で、Deep Researchモードがオンの状態でした。
Deep Researchをオンにするのは非常に簡単です。これはおそらくこの説明の最初に言うべきだったかもしれませんが、基本的にはChat GPTのクエリボックスの下にトグルボタンがあり、それが青色になるとDeep Researchモードになります。
とにかく、私がすべての情報をDeep Researchに提供すると、モデルはさらに情報を求めてきました。これはLLMでは新しい経験でした。特にこのレベルの詳細を求められるのは初めてでした。対象者に関する詳細情報、参加者の期待されるレベルが初心者、中級者、上級者のいずれか、プログラミングに焦点を当てているか、Pythonやその他の特定のフレームワークを使用した実践的なコーディングがあるか、そしてトーンは実践的なハンズオン感か、概念的な思考リーダーシップスタイルかを尋ねてきました。
「これを得たら、それに応じてワークショップの構造を洗練させることができます」と言われました。素晴らしい質問だったので、求めている対象者、実践的なPythonコーディングワークショップであること、より実践的なハンズオン感を目指していることについて詳細な回答を提供しました。
それからDeep Researchは3分間、8つの異なるソースを調査して結果を出しました。実際、履歴をクリックして、Deep Researchが通った思考の連鎖を見ることができます。私のために結論を導き出すために通過したステップバイステップのプロセスの要約のようなものです。私のウェブサイトjk.comの情報も調べて、私に素晴らしいタイトル、要旨、シラバスを提供しようとしていました。また、この情報に使用したすべてのソースへのリンクも提供されます。すべて非常にクールで、きれいなChat GPTインターフェースで非常に簡単に見ることができます。
しかし、おそらく最も興味があるのは結果でしょう。それは素晴らしいものでした。ODSCに私の要旨、タイトル、シラバスとして提供する前に、いくつかの小さな変更を加えましたが、過去の私のスタイルの例を提供したので、私のスタイルで素晴らしい下書きを作成することで、何時間も何時間も時間を節約してくれました。私のシラバスの概要に多くの素晴らしいアイデアを提供してくれたので、Open Data Science Conferenceのために迅速に箇条書きにまとめることができました。本当に素晴らしいです。
これがDeep Researchの感覚と具体的な例を与えてくれることを願っています。あなたの場合、例えばトランスフォーマーアーキテクチャの最新の進歩を探索しているとします。アーカイブの会議録や技術ブログを数日かけてスキャンする代わりに、最近のブレークスルーの要約をDeep Researchに尋ねるだけでいいのです。このツールは、トレーニングアルゴリズム、スケーリング技術、パフォーマンスメトリクスの改善などの重要なポイントを抽出し、引用付きの明確で構造化された概要を提示します。これは膨大な時間を節約するだけでなく、重要な研究を見落とすリスクも最小限に抑えます。
もちろん、このエピソードの冒頭で述べたように、OpenAIはこの分野で単独ではありません。例えば、GoogleとPerplexityも独自のDeep Research機能をリリースしています。Gemini LLMsを活用したGoogleのアプローチは、広範囲の文書を取り込むために膨大な検索インフラストラクチャを活用しています。彼らのツールは通常、詳細に入る前にサブクエスチョンを概説するユーザーガイド研究計画を提示します。この方法は信頼性の高い包括的なレポートをもたらしますが、時にはDeep Researchが提供するような微妙な分析には及ばないこともあります。
Perplexityは高速で無料のDeep Researchモードを提供しています。Perplexityは数分で高レベルの概要を提供し、クイックスナップショットに最適です。しかし、その速度は深さと反復的な推論を犠牲にすることがあります。クイッククエリや無料のクエリにはPerplexityがうまく機能しますが、ミッションクリティカルな分析には、比較的高価であっても、OpenAIのより方法論的で透明性のあるアプローチが明らかに優位に立っています。
革新の背後にある企業に関係なく(ちなみに、GoogleとPerplexityのDeep Researchテクノロジーに関する詳細情報へのリンクもあります)、将来的にはその影響は深遠です。Deep Researchはデータサイエンスやその他の分野での問題解決へのアプローチを再定義し、参入障壁を下げることで高品質な研究へのアクセスを民主化します。あなたがその分野の経験豊富な専門家であれ、初心者であれ、これらのシステムが改善し続けるにつれて、私たちは最新の出版物から洞察を引き出したり、社内や個人のデータストアから情報を得るための研究アシスタントが直接開発環境に組み込まれるのを間もなく見るかもしれません。
増加する信頼性で実世界のアクションを取ることができるAIエージェントとペアになると、Deep Researchのようなツールはより多くの人間の能力を拡張し、より多くのルーチン作業を自動化することを可能にします。これを数年先に進め、Deep ResearchやAIエージェントの能力が劇的に向上し続けると仮定すると、その影響は深遠です。
この人類史上ユニークな瞬間を活用して、今後の年にますます能力が高まる自律システムがあなたの生活や周囲の人々の生活をどのように改善できるかを考えることをお勧めします。社会的に有益なプロジェクトや単に商業的にインパクトのあるプロジェクトも含めてです。
今日、もちろんまだ認識すべき制限があります。どのLLMベースのツールと同様に、Deep Researchも幻覚を見たり、不正確な参照をしたりする可能性がありますが、私自身はまだそれらを捕らえていません。OpenAIの内部評価によると、Deep Researchは以前のツールよりも幻覚率が顕著に低いようです。あなたにとって最大のリスクは、Deep Researchが噂を権威ある事実として提示する可能性があることですが、OpenAIはこの時折の問題を認識しており、今後の数ヶ月と数年でこの過信問題は消えていくでしょう。私自身はDeep Researchの使用でまだこれに気づいていません。
では、これらすべての欠点は何でしょうか?Deep Researchは特にOpenAIからは高価です。私はProユーザーとして月額200ドルを支払い、月に100クエリ、つまり1日あたり3クエリしか得られませんが、包括的な回答を得られるので、それは実際にかなりの作業量です。OpenAIがエンジニアリングの効率性を見出し、Deep ResearchにO3 miniのような小さなモデルをより効果的に使用する方法を見つけるにつれて、すべての支払いユーザーに毎月より多くのDeep Researchクエリが利用可能になることが予想されます。そして最終的には、Perplexityの深い研究のように無料で利用できるようになるでしょう。
要約すると、OpenAIのDeep Researchは情報収集、分析、合成の重労働を自動化することで研究プロセスを変革しています。Humanity’s Last Examでの印象的なベンチマークパフォーマンス、透明な思考の連鎖、反復的な推論プロセスにより、Deep Researchは、GoogleやPerplexityなどの競合他社に対しても際立つ深さと信頼性のレベルを提供します。AIを私たちのワークフローに継続的に統合していくにつれて、これらのようなツールは生データを実用的な洞察に変換し、エージェントAIモデルが完全に自律的な下流の動作をできるようにする鍵となり、データサイエンスやその他の世界のあらゆる分野での革新の境界を押し広げる力を与えてくれるでしょう。
今日のエピソードは以上です。お楽しみいただけたか、あるいは興味を持ちそうな人を知っている場合は、このエピソードを共有することを検討してください。お気に入りのポッドキャスティングプラットフォームで番組のレビューを残してください。LinkedInやTwitterの投稿でタグ付けして、あなたの考えを共有してください。そしてまだサブスクライブしていなければ、もちろん番組をサブスクライブしてください。最も重要なのは、引き続き番組をお聴きいただくことです。次回までにがんばってください。スーパーデータサイエンスポッドキャストの次回をまた楽しみにしています。


コメント