ディープリサーチエージェント:新たなベンチマーク

AIベンチマーク
この記事は約20分で読めます。

本動画は、AI金融分析における「ディープリサーチエージェント」の実世界性能を、合成データではなく実際の上場企業64社のデータを用いて徹底評価した最新研究を紹介している。シンガポール国立大学らによる2025年10月発表の研究では、4言語8市場にわたる15,000項目を人間の専門家が検証し、GPT-4o、Claude 4 Sonnet、Gemini 2.5 Pro、OpenAI o3など最新AIモデルの財務分析能力を測定した。驚くべきことに、過去の財務データという最も単純なタスクにおいてさえ、最高性能のモデルでも認識能力60%、計算能力44%、解釈能力はわずか20%という結果が示され、AGIや超知能を語る以前に、AIが実務レベルの金融分析において深刻な限界を抱えていることが明らかになった研究である。

Deep Research Agents: New Benchmark
All rights w/ authors:FinDeepResearch: Evaluating Deep Research Agents in RigorousFinancial AnalysisFENGBIN ZHU♣, XIANG ...

ディープリサーチエージェントの実世界評価

こんにちは、コミュニティの皆さん。お戻りいただけて本当に嬉しいです。今日は金融について、ディープリサーチエージェントについてお話ししましょう。そして、最新の研究を発見する私のチャンネルへようこそ。

今回お話ししたいのは、実際の企業から得られた本物の金融ディープリサーチベンチマークを使った、金融分析ワークフローに関する実データについてです。合成ベンチマークは一切不要です。合成的なアイデアやシミュレーションデータも必要ありません。私が求めているのは実世界のデータです。4つの言語にわたる8つの金融市場から64社の上場企業のデータが欲しいのです。そしてここで15,000項目を評価し、今日の金融AIの性能がどうなっているのかを見たいのです。他には何も要りません。では、これから始めましょう。

RAGからエージェントシステムへの進化

ご存知のように、私たちはRAG、つまり検索拡張生成から始めました。これは金融データベースから取得したテキストの断片をGPTシステムのコンテキストウィンドウに詰め込むという仕組みで、数年前は素晴らしいものでした。その後、APIコールを使ったシングルエージェント、そしてMCPプロトコルやエージェント間プロトコルを使ったマルチエージェントが登場しました。

しかし今日、今日私たちが話すのはAIエージェント、ディープリサーチエージェントについてです。これらは20分、30分、1時間、2時間と稼働し、荒野に出て行ってデータを探します。彼らは独自の知能を持ち、うまくいけば新しい洞察を持って戻ってきてくれるのです。見てみましょう。ディープリサーチエージェントです。

これは複数ステップの研究プロジェクトだと考えてください。ここでは複雑なタスクを完了するように設計されています。例えば、構造化された複数部分からなる出力があるとしましょう。「金融レポート、人間の基準に従った完全な金融レポートを書いてほしい」というような感じです。

インターネット上には複数の異質でライブなソースがあります。実際のウェブクエリ、金融データベースAPI、年次報告書に出かけていって、データを処理するためにさまざまなツールを使い、好きなことをしてください。ただし完全な金融レポートを書いてほしいのです。そしてこのレポートを評価し、あなたがどんなシングルエージェントAIシステムよりも優れていることを期待しています。

つまり、私たちのディープリサーチエージェントは、古典的な従来型のRAGシステムの概念的な後継者なのです。素晴らしいですね。

違いは何かって? まあ、RAGはこの新しいシステムでは待たなければなりませんでした。エージェントには少しの脳、少しの知能があり、こう言うのです。「待つ必要はない。出かけよう。検索エンジンへのAPIコールがあるから、NVIDIAの2024会計年度の収益を問い合わせよう」と。

あるいは計算を実行する必要がある場合は、コーディング環境やコードインタープリターに出かけて、簡単な数学的操作を行います。では、マルチエージェントを見てみましょう。

最新研究の詳細

最新の研究アイデアは何でしょうか? 数日前に公開されたばかりです。さあ、どうぞ。あなたは「でも、ちょっと待って」と言うかもしれませんね。

将来の金融指標を予測するのは難しいことを知っています。毎日最低でも10通のメールが来て、「私のアプリは金融市場の近い将来を予見できます」と言われますが、これは完全にナンセンスです。

したがって、こう言いましょう。「わかりました、同意します。私たちのディープリサーチエージェントは予測力でテストされることはありません。だからこそAIシステムがあるのです。でも最初のステップとして、AIが現在の金融状況、金融市場の状態を理解しているかどうかだけを見たいのです」と。

そうすると、「でも、複雑な金融関係を見つけるのは難しいよね。地政学的なニュースと組み合わせる必要があるかもしれない」と言うかもしれません。私は「わかりました、わかりました、問題ありません。企業自身が対応する年次報告書で報告した金融データのみです。ニュース速報を探しに行く必要はありません。複雑な関係も必要ありません。企業自身が報告したもののみ、歴史的な視点で。予測なしです」と答えます。

そして「でも、企業にとって完璧な金融レポート構造を見つけるのは難しい」と言うかもしれません。私は「わかりました。同意します。でも最後のポイントとして、AIが記入しなければならない金融レポートの完全な構造を提供します。AIは他のことを考える必要はありません。テンプレートから、見てください、今記入しなければなりません。特定の比率や特定の収益構造がわかりません。金融レポート構造を提供します。わかりましたか」と言います。

では、このタスクを始めましょう。

評価タスクの明確化

私たちが超知能AIシステムを評価する単純なタスクを理解するために明確にしておきましょう。過去の出来事のみを評価します。企業自身が公開した公式文書のみを評価します。隠されたパターンを見つけるために出かける必要はありません。事前に定義されたレポート構造のみで評価します。

AIは、地政学的状況とウォールストリートの何らかの金融指標についての隠されたパターンについて、何の複雑さも持つ必要がありません。何もありません。そして、金融報告の複雑さを減らして評価します。高度なものは何もありません。ポケット計算機でできる古典的な古いものだけです。それだけです。

そして、私が期待するように、あなたも期待するかもしれません。「成功率は99.5%か、それとも99.7%か?」と。では、見てみましょう。

これがその研究です。シンガポール国立大学、シンガポールデジタル金融アジア研究所、シンガポールAI、中国の工科大学、中国の科学技術大学が、2025年10月15日に発表しました。なんと美しい研究でしょう。

金融ディープリサーチ、実世界の厳密な金融分析でディープリサーチエージェントを評価する、今日のAIがどれだけ優れているかを示す真の指標です。

研究の目標と構造

目標はシンプルです。予測なし、何もなし。ただ、何千もの金融テンプレート階層を持つ、古典的で退屈な金融分析レポートを生成するだけです。ランダムではありません。事前に定義されています。ここで設計されています。

企業概要というシンプルな事実があります。それから典型的な財務パフォーマンスのような数値データがあります。そして、おそらく私たちはAIに、ビジネス分析の小さな部分を含む統合された洞察段落を求める勇気があるかもしれません。それだけです。

もちろん、このレポート構造、そしてこれが素晴らしい部分なのですが、本当に実世界の方法で行われています。彼らは金融部門の人間のシニアエキスパートを配置し、今日これらの組織で実際に使用されているように構築しました。

そして、「最初のパフォーマンス指標として欲しいのは、単に『このディープリサーチエージェントによって生成されたレポート、これを構造的厳密性と呼びましょう、本当にここで各金融データを私たちのテンプレートの正しい位置に配置しているか』を教えてくれるパフォーマンス指標です」と言いました。

そして「このテンプレートがあれば、評価エンジンが必要なだけです」と言い、著者はここで「ルーブリックを導入します」と言いました。私は「何?」と言いました。

簡単に説明すると、エキスパートが設計した階層構造を使って、ディープリサーチャーエージェントに厳密な金融分析を実施するよう導き、包括的な評価のための細かい採点ルーブリックを用意しています。わかりました、やりましょう。

ルーブリックの詳細

この特定のルーブリックは、エージェントの4つの能力を評価するために設計された247の細かい採点項目で構成されています。これは古典的な構造です。

私たちが調べたい知能の最初の次元は認識です。本社がどこにあるか認識できるか? 質問を理解できるか? それからいくつかの計算、ポケット計算機からの基本的な金融計算。派手なものは何もなく、予測もなく、時系列もありません。

それから抽象化のレベル。そして最後に、ここで最も複雑なもの。そしておそらく、このディープリサーチマルチエージェントシステムで少し推論が起こっているかもしれません。結果を解釈します。

もしあなたが私ほど知的でないなら、ルーブリックとは、タスクやパフォーマンスのための明確な基準と標準を概説する、しばしば行列に同意される評価ツールです。素晴らしい。

では、始めます。研究タスクの指示です。財務諸表、過去の株価、関連ニュース、その他2023年と2024年の会計年度に必要な情報に基づいて、与えられた分析構造に従って、NVIDIA社の研究レポートを提供してください。それだけです。それが私たちがすることです。

この美しい研究を行った人々からの厳密な階層構造があります。企業概要があります。財務パフォーマンスがあります。ビジネス分析、リスク要因、コーポレートガバナンス、市場パフォーマンスがあります。すべてがそこにあり、どこからデータを取得するか。

このNVIDIA社が公式に発表した年次報告書からデータを取得します。インターネット上の隠された詳細を探しに行く必要はありません。公式の企業発行物があります。これ以上簡単にはなりません。

いいえ、「財務付属書のキャッシュフロー計算書はどこにあるか」を見つけて、それをここに持ってきて記入するだけです。そして私たちはそれを評価します。正しかったですか? 正しい比率ですか? これは正しい指標ですか? 素晴らしい。

そして私たちの採点ルーブリックはここにあります。解釈、抽象、計算、認識など。たくさんのデータがあります。

パフォーマンス指標

さて、2番目のパフォーマンス指標はもちろん、情報精度です。本当に48%なのか、それとも単に2%なのか、それとも212%なのか知りたいのです。

つまり、私たちのドライヤー、私たちのディープリサーチAIエージェント、マルチエージェントが事実的に正しいかどうかをここで言いたいのです。これらのエージェントは、キャッシュフローから正しい数字を抽出して、この新しい金融レポートのテンプレートにそれを入れることが本当にできるのでしょうか。それだけです。成功すれば100%の情報精度を得ます。つまり、これ以上簡単にはなりません。

待ってください。ここに結果があります。著者はマルチエージェントを評価する非常に良い方法を作成しました。まず、明確に構造化されたプロフェッショナルグレードの階層テンプレート構造に従うレポートを生成させ、それから本当に詳細な多レベルの採点ガイド、つまりルーブリックを使用して、このレポート内のすべての金融事実、すべての金融計算、すべての推論による洞察をチェックします。美しいですね。

でも覚えておいてください。事前に定義された構造があり、年次文書にすべてのデータが利用可能です。欠落しているデータはありません。奇妙な動作はありません。すべてがそこに提示されています。わかりますか?

評価の複雑度

では、今何が起こっているかを理解してください。この金融分析は非常にシンプルです。単に過去を振り返るだけです。今後3か月でこのレートがどうなるかについては何もありません。純粋に診断的です。知能指数はほぼゼロに収束しています。すべてがそこにあります。

市場分析でさえありません。単一企業の分析です。単一の上場企業です。「半導体市場は来年成長するか?」などとは一切尋ねられていません。これはAIが処理できない複雑さです。

20の異なるエージェントがあり、過去を振り返る分析で、年次報告書があります。美しいです。つまり、これ以上簡単にはなり得ません。はい。

エージェントは単に事実を述べるだけでなく、それを超えなければなりません。ここで最高レベルでは、企業の損益計算書から収益数値を認識しましょうと言います。それから前年比の収益成長率をパーセントポイントで計算します。

あなたは「なんてことだ、これがAIにとっての複雑さか」と言うかもしれません。そしてそれが成長か減少かのどちらかです。プラス記号かマイナス記号があるということです。

それから製品発売と関連付けます。レポートの一部で言及されているものは何でも、探しに行く必要はありません。同じレポートにあるのです。なんてことでしょう、これ以上簡単にはなり得ません。わかりました。

では、別の例を言いましょう。どの企業でも2023年、2024年の年次報告書です。再び4つの軸があります。評価する4つの主要な次元があります。

最初のフェーズは最もシンプルで、認識です。23年と24年の収益を抽出しましょう。それから計算、あるいは加減算や除算のような数学的操作を行う必要があります。例えば負債対資本比率を計算するとか。

それから複雑性の背後にある抽象化に少し入っていきます。ここでは抽出レベル自体で重要なポイントを要約します。そして最高峰のアバロン、解釈です。高収益にもかかわらず利益率が減少した理由を分析して説明します。おそらく、年次報告書で言及され、説明され、述べられているように、研究開発により多くを費やしたことを指摘します。

つまり、解釈は本当に基本に絞られています。

評価の限界

それが何でないかというと、市場予測についての複雑さはありません。ゼロです。テクニカル分析、取引量、価格ベースの指標もありません。ゼロです。複雑すぎるでしょう。全くありません、高頻度アルゴリズム取引についてもです。これは複雑さです。絶対にありません。

階層的なレポート構造、6つの主要セクション、18のサブセクションがあり、これらは金融専門家によって作成されました。これが標準で、それから4つの次元、認識、計算、抽象、解釈における247の特定の採点項目のルーブリックがあります。93項目から40項目まであります。

そしてこれをやりましょう。あなたは「でも待って、待って。ちょっと待ってください。GPT-4oやGrok 4やGeminiモデルに飛び込む前に、グラウンドトゥルースが必要です」と言うかもしれません。はい、その通りです。

グラウンドトゥルースの確立

彼らが行ったのは、4つの異なる言語にわたる8つの金融市場を調べました。10の業界における64の上場企業です。それからすべての金融データベース、API、その他、新しい株価指数など何でも見ました。

そして最初の実行を行いました。「わかりました、OpenAI、Anthropic、Qwen、GPTからすべてを使いましょう。実行してみましょう。これらのAIシステム、これらのディープリサーチシステムがどれだけ愚かか見てみましょう」と言いました。

そして「さて、複数ラウンドの検証で人間にお金を払わなければなりません」と言いました。30人の人間が座って、この結果を見て、この結果を手動で修正しなければなりませんでした。これらの各企業に行って、レポートを見て、各金融指標を見て、再計算してください。テンプレートに正しく配置されていましたか、所属する場所に配置されていましたか? 数値は正しい値でしたか? 人間による検証とレビューのラウンドまで。

これが美しい理由です。彼らは本当にここで人間の検証に投資しました。4つの言語の8つの金融市場における64社のゴールドスタンダードを本当に欲しかったのです。素晴らしいことですが、簡単なタスクではありませんでした。

なぜでしょうか? 彼らは「人間の投資家をシミュレートするためにLLMを信頼することはできません。なぜならLLMは幻覚を起こし、データを誤って解釈し、計算エラーを起こし、APIエラーに苦しむからです」と言いました。

金融専門家が「LLMをこれに使うなんてとんでもない」と言うなら、感覚がつかめるでしょう。

人間の専門家の最初の仕事は、AIが生成した暫定的なプレアルファレポートを取り、それから64社のそれぞれについて247の採点項目の1つ1つを細心の注意を払って検証することでした。これを想像できますか? これは骨の折れる仕事です。

彼らは、中国、米国、英国、マレーシアのような異なる文化圏があるため、異なる報告構造があることを発見しました。そうです。一部の企業は営業利益を記載していますが、一部はそうではありません。その場合、下に行って、総利益から営業費用を自分で手動で差し引いて計算する必要があります。

そして、LLMはこのわずかな違いで失敗したことがわかりました。すべてが人間の専門家によって行われ、完璧な黄金のグラウンドプルーフを得ました。そして、専門会計基準に従った認知的解釈も見たと言いました。素晴らしい。

検証プロセス

それからラウンド1があり、財務パフォーマンス、コーポレートガバナンスなどの専門家がいました。そしてラウンド2でクロスセクションレビューを行い、シニア専門家の人間パネルがレポート全体をレビューして、文書がこの惑星で想像できるすべての会計詳細と内部的に一貫していることを確認しました。素晴らしいです。

そして「他の金融ベンチマークと比較しましょう」と言いました。最後の行を見てください。ここに金融ディープリサーチ、ファイナンスがあり、4つの異なる言語で約15,000項目があります。

もちろん、ディープリサーチエージェントにインターネットに出かけてNVIDIAの年次報告書を見つけてもらいたかったのです。そして結果はこうです。

モデル性能の結果

さあ、待ってください。これがGPT-4o、Grok 4、Qwen、Tongyi Deep Research、OpenAI o3 Deep Research、Perplexity Sonar Deep Research、Claude 4.5、DeepSeek Version 3、Mistral Deep Researchの性能です。

3つの色分けがされています。最もシンプルなのは緑色で、このシンキングモードのLLMだけ、あるいはここにGemini 2.5のベースポイントが見えます。これがあなたのシンキングです。それからエージェントがあり、サーチAPIやサーチエージェントがあります。これがオレンジ色の部分です。素晴らしい。

そして青色にマルチエージェントディープリサーチがあります。これは本当に30分、1時間インターネットに出かけて、すべての情報を探すものです。すでに複雑さを減らしています。

ここでGrok 4を見てください。最初のものはLLMシンキング、それから少し小さく、サーチエージェントがあれば、それからマルチエージェントディープリサーチが有効化されています。これらの各要素が何を貢献しているかがわかります。興味深いです。

GPT-4oとo3はどこでしょうか? GPT-4oは緑色のシンキングモードとオレンジ色のモードで達成しています。ちょっと待ってください。緑色とオレンジ色のモードで、シンキングとサーチエージェントで38%です。そして、これがOpenAI o3 Deep Researchです。

でも見てください。半年前、o3はマルチエージェントディープリサーチで36%でした。今はGPT-4o自体だけで38%です。でも覚えておいてください、サーチエージェントがあります。コーディングエージェントもあるかもしれません。特にo3では、サーチエージェントだけでなく、コーディング環境とPythonやC++などがあり、GPTやGrokで今あるような固有のコーディング環境があります。素晴らしい。

つまり、これは計算の次元にすぎません。利益と何かの比率を計算する。精度スコアは40%、最大44%です。100%との差は何でしょうか? なぜこれが今日達成できる最大性能なのでしょうか?

次に高いレベルの複雑さ、抽象化の次元に行きましょう。以前と同じものです。OpenAI o3 Deep Researchがここでトップですが、精度スコアは45%未満です。

それでも、なぜこれが可能なのか尋ねるかもしれません。つまり、Claude Sonnet 4.5、緑色のシンキングがあります。それからオレンジ色のサーチエージェントがあります。なぜこれが39%に制限されているのでしょうか?

そして、PerplexityとGemini 2.5 Proがここに3つの要素すべてを備えています。抽象化のレベルで今日どこにいるかを本当によく理解できます。

しかしもちろん、私たちが興味を持っているのは最高レベルです。エージェントの推論が起こっている場所、AIエージェント間で話し合う調整が行われている場所です。彼らは「新しい洞察を見つけたか? 金融データに新しい隠れたパターンを見つけたか? 何か新しいもの、特別なものはあったか? おそらく非常に近い将来への予測を与えてくれるかもしれない。次の数日か次の数週間だけかもしれない」と言います。

解釈能力の評価結果

ここで解釈の最新次元があります。そして今、今、私はここで泣き始めます。なぜなら、この惑星で最高のモデルが20%だからです。

そして、あなたの金融データを信頼できる、本当に信頼できる金融システムに欠けている80%があることを知っています。精度スコアはここで最大20%です。

これはとても悲しいことです。これが実世界のパフォーマンスであることを言葉では言い表せません。すべてを1つの画面で見たい場合は、ここにあります。

お見せしていないのは、最もシンプルなレベルの認識です。例えば、年次報告書によるとNVIDIAの本社はどこにありますか? これが認識で、100%ですか? いいえ、60%未満です。

理解できません。これが今日の私たちの状況です。人々はAGIについて語り、超知能について語っています。なんてこった、実世界の金融データを見るだけでいいのです。

これは本当に美しい研究で、研究を読めば、もっと多くの有益なパラメータがあります。でも、最終結果だけをお見せして、アイデアを得ていただきたかったのです。

ディープリサーチエージェントで本社の場所を特定できます。最大性能は60%です。最もシンプルな金融指標や比率の基本的な計算ができます。最大性能は44%です。最もシンプルな種類の抽象化ができます。最大精度スコア44%です。

そして最後に、純粋なAI推論能力、パターン認識、隠れたパターン、新しい指標、政治のどこかで、あるいは物流のどこかで何かが起こっていることを知る、どこにいるかを振り返るだけです。精度スコアは最大20%です。泣くべきです。

言語と地域による性能差

興味深いことに、4つの異なる言語があります。米国、英国、中国、香港、オーストラリア、シンガポール、マレーシア、インドネシアが見えます。つまり、アメリカ、簡体字中国語、標準中国語、そしていくつかのインドネシア語の主要方言があります。素晴らしい。

でもパフォーマンスを見てください。興味深いことに、香港ではGrok 4 Deep Searchがここで最高のパフォーマンスです。OpenAI o3 Deep Researchは米国英国よりも低いパフォーマンスです。OpenAI o3は本当に良く見えます。

異なる言語で異なるパフォーマンスがあるのは興味深いです。詳細なデータを見てください。異なるパフォーマンスがあります。

シンキングモデルとサーチエージェント

でも私が気に入っているのは、ここにシンキングモデルがあることです。LLMノンシンキングはまだここにありません。Gemini 2.5 Pro T forシンキングがあります。ここでシンキング、もしパフォーマンスが欲しければ、ここにあります。それからシンキングとサーチ能力があります。サーチエージェントがあります。

Gemini 2.5 Proで19.9%から22.9%になります。それから本当のディープリサーチエージェント、マルチエージェントがあり、本当に長い時間、30分、1時間、場合によっては2、3時間、本当のディープリサーチタスクのためのいくつかのレポートを聞きました。そして、私のGeminiはどこですか? Gemini 2.5 Pro 37%になります。

あなたのモデルを見てください。シンキングモデルを使いたいかどうか見てください。例えばGemini 2.5 Proにサーチエージェントを有効化したいかどうか見てください。これはあなたに美しい洞察を与えます。また、非常に高価なディープリサーチマルチエージェント構成にお金を払うべきかどうかも。

具体的なケーススタディ

また、この出版物の付録に行けば、非常に良いケーススタディがあります。そこでは、例えば採点項目別に、総負債や株主資本がない場合、異なるモデルがここで異なる答えを見つける方法が見られます。

OpenAI GPT-4oシンキングモデルだけ、チャンスなし。しかしOpenAI GPT-4oシンキングとサーチエージェントは青色で正しい答えを見つけます。OpenAI o3もです。あるいは収益性と収益の質に行きます。これを見てください。本当に素晴らしいです。

しかし、年率ボラティリティのようなものもあります。GPT-4oシンキング、わかりません。GPT-4oシンキングとサーチ、これを見つける方法はありません。OpenAI o3 Deep Researchは不正確な値を見つけました。

私たちは、人間がこの惑星のすべての異なる株式市場で毎日行っている最もシンプルな金融報告から非常に遠く離れています。

結論

はい、なんと美しい実世界のベンチマークでしょう。見てください。素晴らしいです。コードはまだ利用できません。連絡したところ、「すぐに公開される予定です」と言われました。

このビデオを見る頃には、GitHubをチェックしてください。そうでなければ、金融AI、マルチエージェントシステム、ディープリサーチエージェントシステムのパフォーマンスについて、実世界の感覚をお伝えできたことを願っています。

そして、実際のパフォーマンスがどこにあるかを完璧に理解していただけたと思います。金融超知能AIシステムについて私に話しかけようとする人は誰もいないでください。

楽しんでいただけたことを願っています。チャンネル登録をしていただけるかもしれません。私のチャンネルのメンバーになっていただけるかもしれません。いずれにせよ、次回お会いできることを願っています。

コメント

タイトルとURLをコピーしました