
3,349 文字

OpenAIが昨日Deep Researchをリリースしました。これは拡張されたテスト時間の計算能力を使用して包括的なレポートを作成できるAIエージェントです。私はある意味で深い研究をしているので、とても興味深く感じました。また、人文科学の最終試験のベンチマークにおけるパフォーマンスにも非常に感銘を受けました。OpenAI Deep Researchは、o3のミニ、ミディアム、ハイモデルの性能を2倍以上に、OpenAI o1の性能を3倍近くに向上させているのが分かります。
これはAIエージェントとタスクを実行するためのAIの自律性という観点から、大きな前進だと考えています。そこで私は、自分が博士課程で研究した分野において、どれほどの性能を発揮できるのか確認してみたいと思いました。この世界で私が専門家だと言えることは非常に少ないのですが、実際に論文を書いた分野については、ある程度の専門家だと言えると思います。
参照して比較できるように論文を手元に用意し、OpenAIのDeep Researchモデルがどのような結果を出すのか見てみることにしました。私の計画としては、大学院での研究分野の現状についてレビューを作成してもらうことでした。私は特定の望遠鏡を使用してブラックホールの質量測定を行っていましたが、科学的な細部には深入りせず、何をしてもらいたいのか、そしてどのような回答が期待されるのかについての文脈を提供したいと思います。
プロンプトを入力すると、古い参考文献を含めるべきか、理論的な議論をどの程度深めるべきか、引用スタイル、表やグラフについての確認質問が返ってきました。残念ながら、現時点ではグラフの作成機能はまだないようです。これは後でPythonを使用してグラフを作成する機能が追加されると言われていますが、まだ準備が整っていないようです。グラフの作成を依頼したのは少し欲張りすぎでしたが、表については確実に作成できました。
私が希望を伝えると、プロンプトについて15分ほど考え、研究を始めました。面白いことに、この様子を撮影している間、私はシャワーを浴びていました。プロンプトを入力して動かし始めた後は、そのまま放置していたのです。朝のシャワーと歯磨きをしている間にAIが作業を進めていたというのは面白いですね。これこそがこの種のAI自律性がもたらす大きな利点だと思います。自分は別のことをしながらも、エージェントが作業を進めることで生産性を維持できるからです。
ここで検索している情報源を見ていると、私がよく知っている参考文献ばかりで、適切な情報源を見つけるための徹底的な作業を行っているように見えます。約15分後、より明確に内容を確認するためにテキストを取り出してみました。
素晴らしい表が作成されましたが、より良い参照のためにLaTeXドキュメントに入れてみました。フォーマットは整っていませんが、ご了承ください。引用が適切に表示されず、単なる二重のクエスチョンマークになっているのが分かります。
正直に言うと、このレポートを読んで、そこまで感心しませんでした。人間が書いたものだとしたら、かなりの改善が必要だと感じるでしょう。1〜2文だけの節があったり、引用が正しくないものもありました。例えば、これは私の論文を参照していますが、このギャラクシーは中心部にCO空洞を持っていません。別のものが持っているのです。混乱しているようでした。
文章は技術的には正しく、物理学的な内容も間違っていませんが、少し単純すぎる印象です。まだ自信が十分についていない大学院生のような書き方をしています。私自身の経験から言えば、大学院生として自信がなかった頃の自分の文章に似ています。グラフを作成しようとした形跡がありますが、できなかったため、ここに大きな空白があります。
引用文献については、ここには表示されていませんが、質の高い参考文献が使用されています。ただし、引用の数が予想よりも少なかったことには驚きました。この表には約10の異なる測定値しかありませんが、この分野で5年間研究した経験から、もっと多くの測定値があることは確実です。
卒業時点までの分野における全ての測定値をまとめた私の学位論文の最後にある表と比較すると、適切に引用されている文献がはるかに少ないことが分かります。なぜこれほど少ないのか理由は分かりません。これらの論文の多くはarXivで公開されており、有料の壁の向こう側にアクセスする必要もないのに、より多くの情報源を見つけられなかったことに少し驚きました。
厳しすぎる評価は避けたいと思います。フォーマットの問題や質の高い情報源の不足、引用における些細な不正確さなどを見ると、これが最初のバージョンであり、最終段階ではないことが分かります。OpenAIのウェブサイトでも完璧ではないと述べています。
限界について、次のように説明されています:「内部評価によると、既存のChatGPTモデルと比べて明らかに低い頻度ではあるものの、事実を誤って解釈したり、不正確な推論を行うことがあります。権威のある情報とうわさを区別することが難しく、現時点では確信度の調整に弱点があり、不確実性を正確に伝えることができないことがよくあります。リリース時点では、レポートの形式、引用、タスクの立ち上げに軽微な誤りがある可能性があり、時間がかかることもあります。これらの問題は使用と時間の経過とともに急速に改善されると期待しています。」
15分以上かかった私の学位論文と比較して、これらすべてを確認することができました。Deep Researchに厳しすぎるつもりはありません。シャワーを浴びている間にコンピュータから離れていても作業を進められるというのは、とても素晴らしい機能だと思います。ただし、自己責任で使用し、すべての発言を絶対的なものとして受け取らないようにする必要があります。
興味深いことに、GeminiもDeep Researchを持っているということを知りませんでした。Gemini Advanced 1.5 Proは1ヶ月以上前から利用可能だったようです。OpenAI Deep Researchと同じ名前を使用していることが面白いですね。Geminiの方が先に出していたにもかかわらず。
正直に言うと、GeminiのDeep Researchについては深く調査していません。同じプロンプトを与えてレポートを作成させただけですが、これもかなり基本的なものでした。文献レビューを行う大学院生に期待されるほど包括的ではないと思います。先ほど指摘したように、ここでも10程度のギャラクシーしか掲載されておらず、私の学位論文の表と比較すると、明らかに情報源が不足しています。
GeminiのDeep ResearchもOpenAIのDeep Researchもまだ改善の余地がありますが、AIエージェントにこの種の作業をさせられるというのは非常に面白いコンセプトです。
これ以上言うことはありませんが、これらの企業が自律的に作業を行えるエージェントを提供し始めているのは素晴らしい機能だと思います。このビデオで述べたように、明らかな欠点はありますが、これらは初期バージョンであり、今後も改善され続けるでしょう。
この技術の進歩に注目していきたいと思います。バックグラウンドでエージェントが作業を行っている間に、他のことができるというのは、多くの人々にとって素晴らしい機能になると思います。arXivや他の研究論文サイトで文献レビューに追われる代わりに、より創造的な思考の時間を確保し、異なる種類の問題解決に取り組むことができるようになるでしょう。
これは本当に素晴らしい機能であり、現時点での限界が持つ可能性を損なうものではありませんが、まだ改善の余地があります。
ご視聴ありがとうございました。参考になり、私の物理学における研究分野の話が難しすぎなかったことを願っています。これらのモデルが私が精通している分野でどれほどの性能を発揮できるのか、確認したかっただけです。また次回の動画でお会いしましょう。


コメント