スタンフォード大学とUCバークレーが開発した新しいAI研究システム「DeepScholar」について解説した動画である。このシステムは学術論文の関連研究セクションを自動生成する能力を持ち、既存のOpenAI DeepResearchなどの商用システムと比較して検証可能性において大幅な性能向上を実現している。多エージェント構造を採用し、arXivから最新の論文を検索・統合・合成する機能を備えており、科学研究における信頼性の高いAI支援ツールとしての可能性を示している。

DeepScholar AIシステムの概要
みなさん、お帰りなさい。今日はスタンフォード大学とUCバークレーによる新しい論文についてお話しするで。これは科学分野における全く新しいDeep Scholar AIシステムについてや。
みんな知ってる通り、オープンソースの研究システムっちゅうのがあるやんか。研究して既知の事実と新しい発見を統合してくれるやつや。例えばOpen Scholarとか、他にもオープンソースのSTORMとか、それから2025年4月のDeep Researcherとか、色々あるわな。オープンシステムはあるんやけど、興味深いのは商用システムとどう比較するかっちゅうことや。OpenAIのDeep Researchとか、新しいsearch AIシステム、MCPを覚えてるやろ、多エージェントシステムのやつな。
インターネットで研究する時に、これらの多エージェント検索AIシステムとどう比較するかっちゅう話や。今回の研究では、Llama、GPT-4.1、O3、ClaudeのOpus 4、それからGemini 2.5 Proを比較してるで。なんで他のモデルじゃないんかって?それはスタンフォードとUCバークレーがテストに選んだモデルがこれやからや。それだけや。
オープンソース多エージェント検索システムの仕組み
彼らが使ったフレームワークはOpen Deep Searchや。オープンソースの推論エージェントを使った検索システムで、多エージェントシステムを採用してるんや。オープンな推論エージェントがあって、人間のタスクを解釈して、一連のアクションを協調させて完了させるんや。そのアクションの一つにツールの呼び出しがあって、利用可能なツールの一つがOpen Search toolで、これでインターネットに接続したりするわけや。
多エージェント検索ユーティリティってわけやな。新しい論文、新しい手法、新しい研究ベンチマーク結果、そして新しいアイデアが出てきてるで。
研究タスクと文献レビューの自動化
どんなタスクを見てるかっちゅうと、研究者がタイトルを持ってて、技術的な抽象からアイデアを持ってるとしよう。そして論文の関連研究セクションをAIに書いてもらいたいっちゅうことや。昔は文献レビューって呼んでたやつやな。特定の専門分野で誰が何を発表したか、いつ発表されたか、どんなトピックやったか、自分の研究とどう関連してるかを調べるやつや。今はこれを全部AIがやってくれるっちゅうわけや。
この新しいシステムはDeep Scholar benchmarkって呼ばれてて、関連研究セクション、つまりインターネットやarXiv、メタarXivでの深い研究を生成してくれるって約束してるんや。
必要な3つの能力
このシステムには3つの能力が必要や。まず検索やな。広大なコーパス、ライブのインターネットやライブのarXivみたいなやつが欲しいわけや。次に統合レポート。複数のソースから返ってきた全てのデータを一緒に織り合わせて、発見を一貫性のある長文の物語にまとめるんや。
そして最も重要な制約が絶対的な検証可能性や。主張してることや引用してることは実際に存在してなアカンのや。引用元は全ての主張において正確で、その起源まで遡れなアカン。参考文献が必要やっちゅうことやな。
arXivからの自動データパイプライン
スタンフォードとUCバークレーの著者らは自動データパイプラインを直接構築して、「インターネットだけやなくて科学分野、arXivに行こう」って言うたんや。arXivから毎日、あるいは毎分、絶対に新鮮なデータセットを取得したいっちゅうことや。
どうやってやるかっちゅうと、3つのトピックがある。最新性、品質管理、多様性や。コンピュータサイエンスに限定して、コンピュータサイエンスの18の異なる分野で多様なトピックを確保したんや。コンピュータサイエンスに制限されてるけど、結果を見れば納得できると思うで。
論文発表と真の課題
この論文は2025年8月27日に発表された「Deep Scholar Bench: 生成的研究システムの自動評価のためのライブベンチマーク」っちゅうタイトルや。スタンフォード大学とUCバークレーからや。
美しいのは新しいベンチマークができたことやなくて、この新しいベンチマークが示してくれることや。AIシステムが研究統合をしなアカン時にどれだけ真の困難があるかを示してくれてるんや。
ベンチマーク手法と指標
結果を説明する前に、まず指標とベンチマーク手法を説明させてもらうわ。3次元での差別化を決めて、新しいシステムの知識統合、検索品質を見るって言うたんや。基本的にはRAGシステムやな。
そして検証可能性、これは科学でarXivを扱う時に本当に実在するソースを引用できなアカンし、幻覚があったらアカンからや。
この3次元それぞれで2つか3つのサブ指標を決めたんや。見てみよう。
知識統合、つまり生成されたAIテキストがどれだけよく書けてるか、情報量があるかについては2つの指標がある。組織化では、LLMが審査員として一対比較を行う。そして情報完全性を評価する指標もある。
人間が書いたテキストセグメントがあって、これを自動的にAIがチャンクに分けるんや。例えば単一の文を取得するとか。人間のような書き方で「全ての人が導入したTransformerアーキテクチャは自己注意メカニズムに依存している」みたいな文があったとしよう。AIは「この文は長すぎる、オブジェクトが多すぎる、主語が多すぎる、短縮して塊に分けよう」って言うかもしれん。
最初の塊は「レッドフォードらがTransformerを導入した」で終わり。これだけや。検証しやすいやろ。それから続いて、何が起こってるか正確に分かるようになってる。
検索品質と文書重要性
次に検索品質っちゅう2番目の次元や。簡単に言うと、AIシステムが自分のトピックについてarXivで正しい論文を見つけられたかどうかや。ここには3つの指標がある。関連性率、参照カバレッジ、つまりシステムが本当に重要な論文を見つけたかどうかや。重要性は一つの指標やけど、インパクト引用でどれだけ影響力があるかも測定できる。
文書重要性指標っちゅうのがあって、これは特定のAPIからの引用カウントを使って影響力のある研究を検索するためのプロキシや。
検証可能性の重要性
最後に、わしにとって最も重要なのが検証可能性や。主張することは何でも、他の発表された研究に対してチェックせなアカン。今の主張が実際に引用によってサポートされてるかどうかや。ここでは2つの指標を使ってる。
引用精度では、引用されたソースがAI文の中で作られた主張を少なくとも一つはサポートしてるかを見る。そして全力でやるのが主張カバレッジで、引用されたソースがAI文で作られた全ての主張をサポートしてるかを見るんや。AIが書いた細かい詳細全てがarXivの参考文献でサポートされてるかっちゅうことやな。
Deep Scholar Baseの構造
ベンチマークのアイデア、指標、サブ指標ができたところで、今度は車両を作ろうってことになった。この車両のエンジンを交換できるんや。GPT-4.1を入れることもできるし、GPT-4 Omniを入れることもできるし、Claudeモデルをエンジンとして使うこともできる。
そして彼らはDeep Scholar Baseを構築した。これが面白いのは、わしが言うたようにほぼRAGシステムやからや。古典的なRAG多エージェント構造を採用したんや。
まずクエリ生成がある。LLMが人間の入力に基づいて多様な検索クエリのセットを生成する。わしが何か複雑なことを言うたら、AIのLLMが「それはちょっと複雑すぎるな、多様な検索クエリのセットを生成しよう」って言ってそれを送信するんや。
検索と フィルタリング プロセス
AI生成のクエリがarXivの検索APIに対して実行されて、セマンティックフィルタリングが行われる。別のLLMを使って検索された文書をフィルタリングして、関連性のないものは無視するんや。でもフィルタリング後もまだ200件くらいの文書が残ってる。
だから再ランキングをせなアカン。トップ20に絞り込みたいからな。別のLLMベースのステップで、残った200件の文書を詳細に再ランキングして新しい優先順位をつけるんや。この200件の中で最も関連性の高いものは何かを決めるわけや。
トップ20が決まったら、全20論文の内容をセマンティック集約したいんや。最終的なトップ20文書がLLMにコンテキストとして供給されて、また好きなLLMを選べるで、詳細なプロンプトと一緒に統合が行われて、LLMが最終的な関連研究セクションを書くんや。
明確に構造化されたデータ処理パイプラインで、どの場所でもどのLLMでもオンオフできるようになってる。彼らは様々なLLMの組み合わせをテストして、最高のパフォーマンス組み合わせを探したんや。
パフォーマンス比較と結果
パイプラインで研究を実行するのは素晴らしいことや。デフォルトでGPT-4を使って、それから「O3やClaudeモデルをGPT-4.1に追加したらどうなる?」って実験したんや。
今見せたシングルステップ全てのプロンプトは、この新しい研究論文の付録に詳細に載ってる。例えばツール呼び出し用の改訂されたODS reactエージェントプロンプトとかな。追加データがたくさんあるけど、結果だけ示すで。
3つの次元とそれぞれの次元の異なるサブ指標が全部見えるやろ。2014年のオープンソース研究システムはもう忘れてええと思う。もうチャレンジに対応できひんからな。
商用システムとの比較
商用システムを見る前に、彼らがテストした商用システムを見てみよう。OpenAI Researchが最高の一つやって言うてるんや。知識統合を見ると、うわあ、これは本当に印象的やな。85や。
わしの要約を言うと、OpenAIは本当によく構造化された包括的な物語を作ることにおいてリーダーや。OpenAI Deep Researchは統合と検索タスクにおいて本当に優秀で、最高の組織化スコア85と最高のナゲットカバレッジ39っちゅう数値データがある。
出力はよく整理されてて、競合他社ができるよりも本質的な事実をよく捉えてる。検索品質でも勝者や。関連性率62を見ると、参照カバレッジ8で最も重要な人間引用参考文献をカバーして、最も影響力のある論文を見つけてる。
検証可能性における重大な問題
でも、ここで大きな「でも」があるんや。OpenAI Researchのパフォーマンスは3番目の次元で崩壊するんや。これが科学的な執筆における信頼性と検証可能性っちゅう最も重要な側面や。
検証できひんことを書いても意味ないやろ。検証可能性でOpenAI Researchは衝撃的に低いスコアを出してる。これがスタンフォードとUCバークレーが教えてくれることや。引用精度の数値は39だけ。主張カバレッジは0.13だけ。これは最悪のパフォーマーの一つやって言われてる。
なんでこんなことが起こるんか?彼らが示唆してるのは、流暢でもっともらしく聞こえるテキストに最適化されたシステムは一方では素晴らしいっちゅうことや。ストーリーやストーリーラインの統合には優秀や。でも科学で作業する時、絶対に正確でありたいし、幻覚を最大限減らしたいし、arXivの引用ソースで厳密にサポートされてない論理的飛躍が文書に含まれないようにしたいんや。
残念ながら、これがOpenAI Deep Researchで起こってることや。絶対的な精度が必要な純粋に科学的な作業では、これは致命的な欠陥になる可能性がある。
Deep Scholar Baseの優位性
興味深いことに、わしが今示したDeep Scholar Baseの新しい手法を見て、O3をエンジンとしてこのベンチマークに入れると、知識統合では全く同じベンチマーク85を得てる。
ナゲットを見ると、シーケンシャルトークン化でさらに良いパフォーマンスを示してる。この新しい手法で興味深いのは、検証可能性が1から6に跳ね上がってることや。うわあ、これは商用OpenAI Deep Researchのパフォーマンスに対する印象的な改善やな。
スタンフォードとUCバークレーによるこの新しい手法は、OpenAIモデルを使っても、少なくとも商用モデルと同じくらい良い指標もあるし、検証可能性では商用モデルを大幅に上回ってるんや。美しいやろ?
複数LLMの活用戦略
なんで急に2つのLLMがあるんかって疑問に思うやろ?パイプラインで複数のLLMを使えるって言うたやろ。彼らはSAMフィルターとSAM top Kデータには GPT-4.1を使うことにしたけど、重要なSAM集約ステップにはO3やClaude、Geminiを使うことにしたんや。同じページにいることを確認するためにな。
これがプロセスや。フィルタープロセスがあって、top K(トップ20論文)があって、最終的な集約、最終セクション生成がある。プロンプトも常に示すって言うたやろ、ここにプロンプトがある。
どのLLMを選んでも、O3でもClaude Opus 4でもGemini 2.5 Proでも、これが研究の最終集約のためのプロンプトや。
劇的な性能向上
論文ではDeep Scholar Baseが主張カバレッジで最大6.3倍高いスコアを達成できるって強調してる。一つの指標と一つの次元で、OpenAI Deep Researchより6.3倍良いっちゅうことや。
古典的な商用ブラックボックスシステムを本当に上回る新しいシステムがあるっちゅうことやな。
一方で、もしもっともらしくてよく書かれたドラフトが欲しいだけで、科学分野にいなくて、科学分野にいても AIが書いた主張や半文を一つ一つ丁寧に事実確認する気があるなら、人間がこの検証と修正をすれば、OpenAI Deep Researchも面白いかもしれん。
科学者への推奨
でも科学者で「少なくとも部分的に信頼できるAIシステムを使いたい」って言うなら、ClaudeやGeminiモデルをエンジンとするDeep Scholar Baseは圧倒的に優秀や。
スタンフォードとUCバークレーのデータを見ると、論文では指標全体で平均しても0.19より高いスコアを達成した手法はないって述べてる。これは段階的なチャレンジやない。78%から82%に上がるとかそういうレベルやなくて、19%っちゅうのが最高のモデルなんや。
だからAIモデルをより良く、より高性能で強力にするために、わしらの前にはかなりの記念碑的なチャレンジがあるっちゅうことや。まだまだやることがたくさんあるで。
視覚化された結果
表の数値が気に入らんくて、視覚化で見たいって言うなら、レーダー視覚化で全ての異なる要素を正確に見ることができる。でもこれは今示した数値表と全く同じデータや。レーダーで見たい人には美しい表示やな。
GitHub公開予定
わしはちょっと早すぎるみたいやな。まだGitHubにコードやデモンストレーションをアップロードしてへん。GitHubのスタンフォード大学のガストリンラボにリンクがある。いつでもチェックしてもらったらええで。この新しい手法をもうアップロードしてるはずや。今のところはまだ利用できひんけどな。
まとめ
スタンフォード大学とUCバークレーによる新しい研究論文やった。AIが多エージェントネットワークのDeep Scholarで最新トピックの研究や文献レビューを行って、知識を研究・統合するっちゅう話や。科学分野にいる人には本当に有益で助けになるかもしれん。
でも警告しとくで。リソースは常にチェックせなアカン。現在の最高のシステムでも、システムが幻覚を見る可能性は常にある。存在しないarXivプレプリントを参照したり、論理的に間違った説明を思いついたりすることがあるんや。
でもそれ以外は、AIを楽しんで、チャンネル登録して、次の動画で会おうな。


コメント