最高のDeep Research Agentは…新しい結果

AIベンチマーク
この記事は約12分で読めます。

この動画では、Deep Research Agentの新しいベンチマーク評価について詳細に解説している。2025年6月16日に発表された最新の研究により、100名のPh.D.学生が関与した高品質なデータセット作成から、多面的な評価フレームワークまでを網羅的に分析している。Gemini 2.5 Proが総合的に最も優秀な成績を収めた一方で、引用の正確性ではPerplexityが90%という高い精度を示すなど、各システムに特徴的な強みと弱みが明らかになった興味深い研究である。

Deep Research Agentとベンチマークの概要

こんにちはコミュニティの皆さん。Deep Research Agentについて話しましょう。新しいベンチマークがあり、新しい勝者がいます。最高のDeep Research Agentはどれでしょうか。

これが何なのかについて話しましょう。ChatGPTの無料版にログインしてツールをクリックすると、「Deep Research実行」というオプションがあります。これらは10分、15分、20分、25分実行されるシステムで、あなたのトピックについて幅広いインターネット調査を実際に試みるものです。しかし、最高のシステムは何でしょうか。

昨日、2025年6月16日の新しい研究があります。中国の科学技術大学とメタストーン・テクノロジーによる「Deep Research: A Benchmark for Deep Research Agent」です。彼らは比較を行い、全く新しい技術を開発しました。これを見てみましょう。

革新的なデータセット設計

もちろん、最初に彼らは新しいデータセットを設計しなければなりませんでした。私たちのLLMは本当に優秀で、エージェントも非常に良いので、本当に複雑なベンチマークが必要だからです。そこで彼らは評価のために2つの新しい手法を開発しました。これは本当に魅力的です。

では、データセットから始めましょう。Deep Researchベンチマークデータセットをどのように作成するのでしょうか。実際に現実に行き、ジャックポットから約10万件の実世界のユーザークエリを見てみます。そして、DeepSeek version 3のインテリジェント版を使用してクエリをフィルタリングし、44,000件だけを取得します。

次に、異なるトピック分布と異なる領域を見て、22の領域に焦点を当てます。最終的に、100名のPh.D.学生と上級ドメインエキスパートを招待して、すべてを蒸留してもらいます。金融、科学、技術、ソフトウェアなどの私の領域におけるトップ100の高品質Ph.D.レベルの研究プロンプトが欲しいと言います。

これがやり方です。100名のPh.D.!なんて美しいアイデアでしょう。合成データから始めますが、その後、本当に興味深い人間の複雑さに向かいます。これを元の出版物で見たい場合は、ここで非常に簡単に描かれています。

二重評価フレームワークの革新

しかし、その後、テストデータセットがあり、グローバル企業からのエージェントが利用可能だと言わなければなりません。でも、今度は結果をどのようにスコア付けするのでしょうか。これも美しい革新の一つだと思います。

彼らは言います。「一つのフレームワークではなく、二つのフレームワークを使います。」これは天才的です。見てみましょう。

最初のフレームワークはRACE(Reference-based Adaptive Criteria-driven Evaluation)です。生成されたレポートの全体的な品質を評価し、従来のLLMを判断手法とする場合の落とし穴を克服します。

Deep Researchエージェントによる複雑でオープンエンドなレポートをスコア付けするのは簡単ではありません。「1から10まですべてをスコア付けしてください」と言うと、非常に似た結果が得られます。

そこで彼らは3段階のダンスを行いました。固定チェックリストやハードコードされたプロンプトなどを忘れ、4つの次元を得ます。

包括性:トピックのカバレッジは非常に徹底的か。洞察と深さ:表面レベルの事実を超えて、ここで本当に価値のある分析を提供するか。指示フォロー:人間のプロンプトや人間のクエリのすべての部分に直接対処するか。可読性:よく構造化され、明確で理解しやすいか。これらが次元です。ここで解釈の自由を与えるのは素晴らしいと思います。

2番目のステップは、RACEソリューションのリファレンスベースのスコア付けです。Group Relative Policy Optimization(GRPO)を覚えていますか。一つの絶対的な目標ではなく、グループ相対評価を行うと言います。まさにここでやっていることです。

「ステップAで生成したダイナミック基準を使用して、リファレンスレポートを見てください」と言います。良いリファレンスレポート、ゴールドスタンダードがあれば、類似したものを見つけようとします。すべての単一基準で両方のレポートのスコアを出してください。

ここでドメイン固有の相対的最良論文ベンチマークがあります。本当に素晴らしい。あなたのドメインで何が欲しいかを定義できます。相対的最終スコア計算は絶対的ではありません。これは、ターゲットレポートがリファレンスに対してどの程度うまく実行されたかの比例的な測定です。これは本当に良いです。

これを視覚的に見たい場合は、これがあなたのためのRACEフレームワークです。

FACT評価フレームワーク

FACTは2番目のもので、エージェントの作業の事実精度チェック、特に引用に関するものです。

まず第一に、これらの引用は正確ですか。リンクされたソースは実際になされている主張をサポートしていますか。自信を持って幻覚する引用源を持つエージェントは非常に危険です。すべてのリソースをチェックしますが、リソースが存在するかどうかだけでなく、それらのリソースの内容が本当にDeep Researchエージェントへの私のタスクで探しているものかどうかをチェックします。

これは美しいです。もちろん、FACTのための別の3段階自動パイプラインがあります。URLでの文のペアがあり、ペアのサポート判断があり、メトリック計算があります。

引用精度効果的引用精度があります。サポートとして充電される引用の割合は、エージェントがソースを引用するときの精度の測定であり、それは本当に正しいかということです。効果的引用は単純に、タスクあたりのサポートされた文の平均数であり、事実の豊富さまたはリコールを測定します。エージェントはインターネットから検証可能な情報をどれだけ見つけて、実際の結果として人間ユーザーに提示したかということです。

ベンチマーク結果の詳細分析

では結果を見てみましょう。さらに多くの数値データがありますが、結果だけを示したいと思います。これを見てください。

彼らは4つのDeep Researchを行いました。非常に軽いものではGrock、2番目はPerplexity、RACEオーバーオールではGemini 2.5 Proです。これは今日公開された新しいGemini 2.5 Pro finalではありません。これは単なるプレビュー2.5 Proです。そして、ここにOpenAIがあります。これがRACEオーバーオールです。

詳細なRACEベンチマークを見たい場合はそれがありますが、多かれ少なかれ、この濃い紫のGemini 2.5 Proがここを支配しています。OpenAIが近づいていますが、それ以外ではRACEベンチマークでGemini 2.5 Pro Deep Researchが支配しています。

しかし、引用を見ると変わります。Deep Researchを行う場合、引用は絶対に重要ですので、システムによってどれだけの引用が返されるかを見てみましょう。

ここで一つの支配的なタワーが見え、それは何でしょうか?はい、Googleです。Google Geminiです。Googleが私の特定のタスクに対してはるかに多くの引用を見つけることができるとは、なんという驚きでしょう。

これをOpenAIの40.8やPerplexity Deep Researchの31と比較すると、私のドメイン固有の質問に対して3倍多くの参考文献と引用がGoogleによって見つけられています。

しかし、これを見てください。それが絶対に正しいという精度はGoogleによって下がります。多くの引用がありますが、精度はわずか81%です。これを今のPerplexityの90%と比較してください。

しかし、Perplexityは引用の3分の1しか提供しないことを覚えておいてください。Perplexityははるかに少ない情報量を提供しますが、その小さな精度は90%で、Googleの111は81%のみです。

これは今、個人的な判断です。多くのリソースを得られるのが好きです。それが私の領域なら、記事のいくつかはすでに知っているかもしれません。著者、研究グループ、機関、大学、あるいは民間企業やベンチャーキャピタルなどを知っています。

非常に複雑で幅広い概要を持つのが好きです。それが81%の精度でも、個人的には受け入れるでしょう。しかし、トピックに詳しくない場合は、最も正確な引用を求めるかもしれません。それは90%のPerplexity Deep Researchです。

しかし、引用の量の約3分の1しか得られないことに注意してください。ベンチャーキャピタリストや金融機関などを発見できないかもしれません。絶対に魅力的です。

Grock Deep Researchは引用についてはそれほどでもありませんが、新しいGrockが開発中だと思います。Perplexity Deep Researchについてはご存知でしょう。ここでGoogleが輝いているのは、もちろんこれがGoogleの歴史的に強い部分だからです。

LLMとサーチツールの比較

しかし、もっと多くの情報があります。これらがDeep Research Agent 1、2、3、4で、「でも残りは?」と言うでしょう。これをエージェント的システムとして定義していませんが、もちろん検索機能付きのLLMを持つことができ、これは今ツール実装です。

複数エージェントシステムではなく、例えば並列検索を行うのではなく、推論用の単一の大規模言語モデルを使用し、Google検索やBing検索など好きなサーチツールを与えるとどうなるでしょうか。

同じRACEとFACT、全体的な引用を見ると、Claude 3.7 Sonnetが検索機能付きで全体的なRACEで40になっています。Perplexity Sonarも40.2です。非常に良好です。

この2つが支配していることがわかります。Deep Researchエージェントを使いたくない、料金を払いたくない、または無料のものがあるなら、これは本当に興味深い代替手段です。Grock Deep Researchが40を与え、Claude 3.7 SonnetがGoogleリサーチを検索ツールで行うだけで同じことを得られるからです。

これを見るのは興味深いです。適応性と可読性などを選択できます。好きなものを選んでください。しかし、これは本当に良いと思います。GPT-4 Omni MiniGPT-4.1GPT-4.1 miniも見ることができます。1つ以上のインターネットソースの本当に複雑な検索がある場合、これらのシステムがどのように実行するかの違いが得られます。

一般的に、彼らがテストした中で最高だったのは、検索ツール付きのClaude 3.7 Sonnetで40、Gemini 2.5 Proで48.8でした。つまり49です。

確かに違いはありますが、正直に言うと、この違いがもっと大きいと予想していました。50%や60%かもしれないと思っていましたが、そうではありませんでした。40から49です。非常に興味深いです。

Perplexity Deep Researchも全体的に40.2と42.2で、ここのシステムに非常に近いです。Deep Researchエージェントにお金を払わなければならない場合、私のヒントは、まずLLMから始めて、検索ツールを与えることです。Deep Researchエージェントにお金を払う必要がないかもしれません。しかし、これは完全にあなた次第です。

言語別パフォーマンス分析

絶対に魅力的です。このチームは英語と中国語でこれを行いました。パフォーマンスの分割があり、Gemini 2.5 ProやOpenAI、Perplexity、Claude、Grockなどのすべてのモデルを取った場合の違いに本当に興味がありました。

色を見てください。赤は良く、青は低パフォーマンスです。英語と中国語は非常に似ています。絶対に魅力的です。

ただし、注意してください。例えば、宗教のトピックやドメイン知識において、Gemini 2.5 Deep Researchはそれほど優秀ではありません。3.3が見えます。OpenAI Deep Researchは5.2なので、宗教のトピックではるかに良いパフォーマンスです。

しかし興味深いことに、中国語の宗教に行くと、Gemini 2.5 Proは中国語での宗教においてはるかに良いのです。ここでOpenAI Deep Researchは、同じタスクで英語ほど中国語では良くありません。

科学技術の次の列を見ると、英語で最高の結果が何かを美しく見ることができます。私は中国語は全く話せませんので、英語の列にとどまらなければなりません。

科学技術でGemini 2.5 Pro Deep Researchが素晴らしい。次にOpenAI、次にPerplexity、次に検索機能付きClaude、次に複数エージェントのGrock Deep Searchが来ます。現在のGrock Deep Researchの実装に詳しくないかもしれません。

ソフトウェアを書く場合、旅行、食べ物にいる場合など、あなたのドメインに応じて得られます。これは本当に良く、私はここの研究者によるこの出版物を愛しています。

新しい発展とAnthropicの言及

Anthropicについて見落としていることがあります。6月13日にマルチエージェント研究システムの構築方法についてのプレゼンテーションがあったばかりです。これは私がこれを録画してから1週間以内に公開されました。そう、この最新のものは含まれていませんが、示したように検索ツール付きのClaude 3.7があります。本当に興味深いです。

専門性の台頭

結果に対する別の視点として、専門家の台頭が本当にあります。Gemini 2.5 Proのパフォーマンスを見ると、これはまだプレビュー版ですが、Deep Researchで本当に優秀です。

この動画を録画している時点で、2位はOpenAI Deep Researchだと思います。MCPツール使用だけの汎用LLMを大幅に、そう制限内ではありますが大幅に上回っています。

これらのDeep Researchは一般的に、もちろん推論能力だけでなく検索能力も持つマルチエージェント、マルチ並列エージェント実装です。検索機能付きのLLMが1つだけあり、マルチLLMを持つマルチエージェントがある場合、彼らは単一LLMを上回ります。

Gemini 2.5 ProはRACEでトップパフォーマーでしたが、2番目のベンチマークがあったことを覚えています。ここで絶対に興味深く、すでに示しましたが、レポートあたり驚異的な111.2の効果的引用を生成しましたが、精度はわずか81%でした。

Perplexityははるかに少なく、111の代わりに効果的引用数は31でしたが、80%の代わりに高い精度90%でした。

Deep Researchエージェントのこの特性を知っていれば、完璧なエージェントを選択できます。

まとめと今後の展望

楽しんでいただけたでしょうか。これは、この新しい興味深いベンチマークの最初の一瞥に過ぎません。科学、金融、技術における特定のトピックについて100名のPh.D.学生から美しく人間が作成したテストデータセットです。私がAIに使用する特定のタスクのためのものです。これは有効なベンチマークです。

文学や音楽、その他にも興味がある場合は見ています。より一般的なものを見つけた場合は、もちろんそれについて動画を作成します。

コメント

タイトルとURLをコピーしました