ByteDanceの研究チームが開発したReportBenchを用いて、OpenAIのDeep ResearchとGoogleのDeep Researchの性能を検証した研究である。arXivの査読済み論文678本を基準として、逆プロンプトエンジニアリングにより質問を生成し、AIエージェントの回答を評価する手法を確立した。評価項目は参考文献の品質と事実の正確性であり、興味深いことに単純なLLMがDeep Researchモードを上回る場面もあることが判明した。しかし引用のハルシネーションや事実の捏造といった重大な問題も発見され、現在のDeep Researchエージェントが依然として脆弱で不完全なツールであることが示された。

Deep Researchの信頼性を問う新たな研究
こんにちはコミュニティの皆さん。また戻ってきてくれてありがとう。今日はAIのDeep Researchモードを信頼すべきかどうかについての真新しい研究をお届けします。ここにReportBenchがあります。これはByteDanceによるもので、彼らは単純にこう問いかけています。OpenAIとGoogleのDeep Research、どちらが優れているのか?では最初に遭遇する問題を見てみましょう。
このシステムは何かを学習しなければなりません。グランドトゥルースを学習する必要があります。いえ、これらのシステムがAIのDeep Researchを生成できるようになるには、訓練データが必要なのです。ここで著者たちは素晴らしいアイデアを思いつきました。彼らはこう言いました。優良な調査研究論文を書くような複雑なタスクのために、どうやって高品質なグランドトゥルースデータを入手するか?そして彼らは非常に明確でした。人間の専門家やPhD学生を雇って数千の報告書を作成してもらうのは、天文学的に高額で時間もかかる。
では解決策は何だったでしょうか?それは利用可能なソース、ゴールドスタンダードのソースからの逆プロンプトエンジニアリングでした。著者たちは言いました。私たちには専門家が作成した知識の膨大なリポジトリがある。それがarXivの調査論文です。彼らは査読済みの調査論文を選び、注意してほしいのはarXiv上の全ての論文が通常査読済みではないということです。これらは通常プレプリント版に過ぎず、デフォルトで査読済みではありません。
そうです、これらの論文は後に査読されることもありますが、それは一般的な条件ではありません。しかし彼らは査読済み論文、専門家によって書かれた高品質な研究論文を選び、品質をチェックして2020年以降に発表された論文のみを選択しました。これらは明示的に調査論文またはレビュー論文であり、正式に発表され査読済みのものです。
つまり彼らは最高の論文を確実に入手したいと考えたわけですが、もちろんこれらはarXivの領域にあるため科学に関連しています。選択された各調査論文について、彼らはarXivから無料でダウンロードできる元のLaTeXソースファイルを解析しました。これにより参考文献を正確に抽出することができます。つまり、おそらく人間の専門家が書いて引用した詳細な参考文献の正確なリストです。
とても簡単です。このリストが今やグランドトゥルースの参照セットになります。彼らは言います。これが科学において行われた真の人間の仕事だと。彼らは今や非常に特定のトピック、たとえば人工知能のあるサブドメインを持っており、この方法論と参考文献のリストによって、これらが最高の論文であり、査読済み論文であり、これらの査読済み論文で引用された作品であるというグランドトゥルースの参照を持っています。全体として、これは驚くべき作業量で、彼らは678本の高品質な調査論文のセットを作成しました。
これらの論文に含まれるコーパスの量を考えてみてください。ここで彼らが持った天才的な新しいアイデアは、この地点から逆プロンプトエンジニアリングすることでした。著者は言いました。「私たちはarXiv論文の全文、すべて、図表、すべてをGPT-4 omniのような強力なLLMに与える。LLMのタスクは論文を再現することではなく、クイズ番組の司会者のように振る舞い、この特定のarXiv論文が完璧に答える質問を書くことだ。」
この質問はもちろんプロンプトです。詳細な科学的説明があり、おそらく人間の著者によるものですが、そしてLLMであるGPT-4 omniにこう尋ねるのです。この単一のarXiv論文にこの特定の質問に対する完璧な答えがあると確信できる質問を書いてください。ここで異なる複雑さがあることを理解してください。このプロンプトを設計する際に、単純な複雑さレベルのプロンプトを書くこともできれば、本当に深いレベルのプロンプトを書くこともできます。彼らは3つの難易度レベルで進めることにしました。
詳細なプロンプトが欲しければ、左側の論文の付録から実際に読むことができますが、右側を見せたいと思います。文レベルのプロンプトが生成されるか、段落レベルのプロンプトかもしれないし、本当に詳細で豊富なプロンプトを求める場合もあります。
素晴らしいです。そして今、どんな分野、どんなトピックについてなのかと疑問に思うかもしれません。ここにあります。基礎研究、IT、AI、ヘルスケア、バイオメディシン、製造業、スマートマニュファクチャリング、交通、スマートモビリティ、公共安全、金融、ビジネスサービス、エネルギー、環境持続可能性、文化、メディア、デジタルコンテンツです。
ここに分布があります。これらは全て彼らがベンチマークとしてサーベイを生成した論文の数です。彼らは今、私の自由な解釈で議論していますが、世界はすでに数千の完璧な答えを生み出しています。発表された査読済み科学arXiv論文の形で、あなたの分野にあるどんな文書にも発表されたもので、彼らは言います。困難な部分はすでに完了している。私たちは逆エンジニアリングするだけでよく、この方法で完璧な学習データセットを提供する。
OpenAIのDeep ResearchやGoogleのDeep Research、またはアクセスできるどんなDeep Researchエージェントでも、これらのDeep Researchエージェントの性能を評価できる新しいシステム用にです。彼らは言いました。この方法論でOpenAIやGoogleなどのDeep Researchモードのパラメータを正確に知っているところで評価しましょう。彼らがチェックしようとしている特定のメトリックパラメータはありませんが、何を求めているのか、何に向かっているのかを見てみましょう。
まず彼らが言ったのは、私たちにとって本当に重要なのは参考文献の品質チェックです。エージェントの新しいレポートの引用リストが元のarXiv論文の参考文献と比較されます。これらのエージェント、または複数エージェント構成は、同じ重要な専門家選択の人間の参考文献を見つけたでしょうか?ここに2つの測定値があります。この精度とリコール品質です。私たちはこれに馴染みがあります。これは標準的なアプローチです。
次に第2の次元として事実の品質チェックを行います。ここでも2つの異なるパラメータがあります。引用された声明と引用されていない声明です。これは興味深いです。これを見てください。引用された声明は主張とそのソースを抽出します。そしてソースの内容を取得し、別のLLMを使用します。異なるLLMを後ほど見せます。別のLLMを使用して、ソースが実際にこのDeep Researchエージェントによる主張を支持しているかどうかを検証し、このパラメータを意味的一貫性検証パラメータと呼んでいます。
もちろん、このAI生成のDeep Researchレポートには引用されていない声明があります。そのときシステムは、AIが引用なしで提供した事実の主張または複数の事実の主張を抽出し、ウェブ接続されたLLMの委員会、複数のLLMを使用して、arXivソースへの引用がない事実の主張の正確性に投票させます。これをウェブベースの声明検証と呼んでいます。これは絶対に興味深いと思いました。
評価システムの詳細な仕組み
これを見てください。これは完全な評価プロセスのフローチャートです。ここで下半分について話していますが、AI生成レポートがあり、そして私が言ったように引用された声明の抽出と引用されていない声明があります。arXivソースがあれば素晴らしいですが、ない場合はLLMの委員会が必要で、彼らが投票して特定のスコアを与えます。これは私が特に興味を持った点です。
深く調べてみて、これは論文からの正確な引用です。彼らは声明抽出、支持ソース抽出、意味的一貫性検証においてGPT-4 omniを判定者として採用していると言いました。しかし引用されていない声明の事実確認については、2つのウェブ接続モデル、Gemini 2.5 ProとGemini 2.5 Flashを使用していると教えてくれます。
この評価方法論で興味深い部分は、これらの各モデルが声明ごとに3回の独立した判定を行うことです。つまり合計6つの判定があり、最終決定に到達するためにLLM自体による多数決投票があり、投票の比率が一種の信頼度スコアとして記録されます。
私はこれが絶対に魅力的だと思います。人間を完全にループから外すことに成功したのです。これはAIのみです。AIが選択し、AIが区別し、AIがLLMの集合体であるAIシステムの集団による多数決投票を行い、人間は完全にループから外れています。そしてこれがAI研究、いえAI Deep Researchです。
研究結果の分析
結果を見てみましょう。論文にはたくさんの追加結果があります。論文自体を読んでください。美しい論文です。私はこのPDFの主な洞察に焦点を当てます。私が言ったように、彼らには主にOpenAIのDeep ResearchとGoogleのDeep Researchがあり、そして単純な質問があります。LLM自体、おそらくエージェントを与えた場合、支払う必要があるDeep Researchではなく、または支払うどんなエージェントでもなく、単にエージェントまたは複数エージェント構成でこれらのモデルを使用する場合、どのようなパフォーマンスを示すでしょうか。
OpenAIとGeminiのどちらが引用された声明と引用されていない声明で優れているかを見たい場合、結果はここにあります。あなたの特定の使用ケースに応じて選択してください。しかし私が絶対に魅力的だと思うのはこれを見てください。もちろん私は最も複雑な高複雑性推論ソースを見ます。LLMが単に決定しなかった引用されていない声明について、これは私が正確に10または12のarXiv httpリンクを持つトピックですが、引用されていない場合、正しい解決策を見つけなければなりません。より高い複雑性で事実の正確性はどうでしょうか。
私は微笑まざるを得ませんでした。これを見てください。OpenAI Deep Research 95%、Gemini Deep Research 92%。しかしGemini 2.5 Flash 98%を見てください。エージェントAを持つLLMだけでDeep Researchを上回っています。このDeep Researchモードがどれほど複雑で、どれほど貴重で価値があるのかと思うかもしれません。実はそうでもないことが判明しました。
しかしもちろん引用された声明もあることを忘れないでください。詳細は後ほど。これがスクリーンショットです。著者たちは今OpenAI Deep Research対O3モデルを比較し、OpenAI Deep ResearchとOpenAIのO3も似たような検索パフォーマンスを示し、精度はわずかな違いしか示していないと教えてくれます。
レポートあたりの参考文献の平均数も同程度で、これはOpenAIの公式発表とよく一致しています。OpenAI Deep Researchの検索と合成のバックボーンは、GPT-5が登場する前はO3モデルでした。しかし違いがあります。引用されていない声明について見ると、Deep Researchモードと単純なLLMモードの間に大きな違いがあります。事実の正確性が95%か82%かという違いです。
彼らは言います。これはDeep ResearchがO3の直接的な出力ではなく、追加の執筆モジュールを組み込んでいることを示唆している。もちろん何か追加のものがあります。おそらく別のエージェント、執筆エージェントまたは構造化されたストーリーラインなどに最適化され微調整された執筆モジュールがあるのかもしれません。
しかし彼らはまた教えてくれます。多くのモデルが低い引用意味一貫性を示すことは注目すべきで、特に関数呼び出しメカニズムに依存して文献リンクを検索し引用する場合にそうです。彼らはここで2種類の失敗を発見しました。声明のハルシネーションと引用のハルシネーションです。これを見てみましょう。
ハルシネーションの問題
OpenAI Deep Researchがこのような声明を持っていて、著者たちは言います。この出力を検査すると、引用された部分は確かに推論強化強化学習報酬スキームについて記述している。しかし著者のリストには、2025年の最初に示された名前が全く含まれていない。これはその論文の正しい著者ではない。
しかし彼らは確認したところ、この著者は存在するが異なるトピックの異なる論文のためのものだと言います。興味深いです。そして公平を期すためにGemini 2.5 Proもあります。これがその回答です。美しいですね。HTTPSリンクが見えますが、引用されたURLは存在せず、モデルによって完全に捏造されたもののようだと言います。これが2025年8月のDeep Researchの状態です。
彼らは著者からの引用としてこう言っています。これらの例は、高度なDeep Researchエージェントや複数エージェントシステムでさえ、著者名をハルシネートし、引用を整合させず、または単純にインターネットリンクを捏造することに対して脆弱であることを示している。それほど素晴らしいものではありません。
しかしポジティブな面を見てみましょう。これらのDeep Researchモードの特殊化には確実に価値があります。引用された声明のみのこの単純なケースを見ると、たとえば強化学習やAIのようなトピックがあり、最良のリンク、最良のarXivリンクを探す場合、ここで引用されている場合の良いマッチ率パフォーマンスは約70%です。
これらのモデルのパフォーマンス。しかし複雑さや推論はないことを覚えておいてください。これは単に「トピックを与えるから最良のarXivリンクをPDFに提供してくれ」というものです。ここでGeminiが72%、OpenAIが78%です。しかしこれを生のLLMと比較すると、O3を使ったOpenAIは31%しかありません。
GPT-5を手に入れるのが待ち遠しかったわけです。私の最新情報では、これが今Deep Researchのバックボーンになっていると思います。そうでなければコメントを残してください。生のLLMと比較すると、確かに複数エージェント構造が良い結果を達成しているように見えます。しかしこの単純な複雑さを考えると、80%以下がどれほど良いのかを自問してみましょう。
もちろんByteDanceのGitHubリポジトリがあります。ReportBenchがここにあり、構造とすべてのファイル、評価パイプラインの説明があります。調査したいモデルを入れるだけで結果が得られます。素晴らしいです。
最終的な考察
これについての最終的な考察です。興味深いものです。一方で、Deep Researchは研究を行う人や研究に興味がある人にとって優秀なAIアシスタントだと思います。しかし常に思い出してください。2025年8月末時点でまだ危険な欠陥があります。今日Deep Researchエージェントを使うことは、世界の図書館のすべての本を読んだが実世界の知恵はゼロ、少し記憶があやふやで、あなたを喜ばせるために物事を作り上げるという神経を逆なでする習慣を持つ、稲妻のように速いジュニア研究者と働くようなものです。しかしGPT-5では少し良くなっています。
そして知っていますか?これに慣れていない場合、Deep Researchエージェントによって生成される出力は絶対に完璧に見えます。洗練されていて、権威ある調子を持っています。これが正しい議論だと私は宣言する、ということで、その根本的な欠陥をいつでもより危険にします。私でさえ気づきます。このシステムを信じていると思います。
見てください、ここでどれほど明確に論証しているか。しかしLLMはデータベースではないことを知っています。それらは高度に進歩したパターンマッチングマシン、シーケンス生成マシンです。彼らの主要な衝動は、どんなシステムを使っても、事実を述べたり検索したりすることとは独立して、最も統計的にもっともらしい単語やトークンのシーケンスを生成することです。
LLMはソースから書いているのではありません。膨大な事前学習データを与えられた合成された記憶から書いており、任意のRAGシステムからソース情報を検索しています。今答えや文章、どんな複雑さであれ生成するとき、どの部分の知識がたった今検索したこの特定のPDFから来たのか対推論ベースを構築した訓練中に見た千の類似文書から来たのかを完全に分離することはできません。
引用が時に次トークン予測ですでに生成する傾向があった文章の事後的な正当化であることがわかります。これはこのシステムの少し地獄のような部分ですが美しくもあります。現在エージェントは要約が得意です。論文Aが何をしたか、論文Bが何をしたか、おそらくハルシネートしなければ教えてくれます。
しかし私がすでに複数のビデオで言ったように、彼らが失敗する場所があります。現在真の特徴は統合です。すべての科学的事実をまとめて、すべてのデータと情報と知識の一つの一貫した見解にすることはできません。これを生成することに失敗し、時に異なる論文間の暗黙の矛盾を特定することに真の問題を抱えています。
根本原因を知っていますか?私のたくさんのビデオで話してきましたが、これらのLLMは因果世界モデル、特に科学の、科学的知識の因果世界モデルを欠いているのです。したがって、Deep Researchエージェントは美しい、記念碑的な前進だと思いますが、常に注意してください。このByteDanceのReportBenchでの論文で見たように、すべてがまだ脆くて欠陥のあるツールであるという重要な冷静な証拠を示しています。
自分を騙して彼らが絶対に正しく、これが研究の権威ある声だと信じないよう常に思い出さなければなりません。そうではありません。継続的に結果をチェックしなければなりません。楽しんでいただけたことを願っています。少し楽しんでいただけたことを願っています。次回でお会いしましょう。


コメント