OpenAIのディープリサーチが全員を驚かせる – 「AGIを感じる」瞬間が訪れた

11,394 文字

OpenAI DEEP RESEARCH Surprises Everyone "Feel the AGI" Moment is here...

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

私はたった今、ディープリサーチという最新のエージェント機能を紹介したところですが、これは一見して思うよりもずっと大きな意味を持っています。表面的には、複雑なクエリを入力すると5分、10分、15分とインターネットを検索できるマルチステップの研究機能です。特に複雑な質問で、多くの異なるウェブサイトや情報源を確認して状況を理解する必要がある場合に非常に優れています。
興味深いことに、このモデルはいくつかのベンチマークで驚くべき成果を上げています。例えば、「Humanity’s Last Exam」というベンチマークがあります。なんという名前でしょう。これは最近発表された言語学からロケット工学、古典から生態学まで100以上の科目にわたる3,000以上の多肢選択問題と記述式問題からなるテストです。OpenAI o1は9.1を、Deep Car o1は9.4を記録し、数時間前までOpenAI o3ミニハイが13.3%の精度で最先端モデルでしたが、ディープリサーチの登場により26.6%となりました。もちろんブラウジングやPythonツールなど、答えを導き出すための多くの機能が利用できます。
興味深いことに、彼らは専門家レベルのタスクに関する内部評価も持っており、各分野の専門家がこのような調査にどれくらいの時間が必要かを見積もっています。例をいくつか見てみましょう。
化学の分野では4時間を節約できました。タスクは「私は研究者で、研究室に混合ガス吸着能力を導入することに興味があります。ガラス状ポリマーにおける純ガスと混合ガスの吸着の違い、二重モード吸着モデルを使用して混合ガスの吸着挙動をどのように予測できるか、方程式も含めて説明してください。二重モード吸着モデルを使用して純ガスと混合ガスの吸着を正確に予測する際の課題は何か、2024年10月1日時点でのオープンソース情報のみを含めてください」というものでした。まず吸着とは何かを知る必要がありますね。吸着とは、ある物質が別の物質に付着する物理的・化学的プロセスです。これは回答を読み上げませんが、4時間を節約できたと信じています。これは実際に集中して取り組む必要のある4時間の作業だったと思います。
また、言語学者向けの専門家レベルのタスクの例もあり、このモデルは5時間の研究時間を節約しました。非常に印象的です。
「将来のクレオール語は能格・絶対格配列を使用し、他動詞節では主語に能格、目的語に絶対格をマークする」という内容ですが、私にはこれが何を意味するのかさっぱりわかりません。ChatGPTに理解するための説明を求める必要がありそうです。
医療分野では「アメリカで血友病の治療のために規制承認を得た遺伝子治療はいくつありますか」という質問があり、探している具体的な情報が多く含まれています。これらはインターン level程度のタスクではなく、良い知識を持った人が必要な作業です。この例では2時間を節約できました。
OpenAIのフィリペが言っています。「今日、私たちOpenAIはディープリサーチをローンチしました。このツールがいかに素晴らしく、世界を変えるかについて、deeply personalな話を共有したいと思います。トリガーワーニング：これはがんに関連する話です」。これは明らかに個人的で感動的な話なので、彼が投稿してくれたことに感謝します。しかし、この技術の力とその行き先を示しています。このようなものを実行する際の低コストを考えると、非常に幅広い人々がアクセスできるようになります。
現在これはProプランで利用可能ですが、すぐに他のティアにも提供される予定です。世界中のほとんどの人々が、手頃な価格でこのようなものにアクセスできる未来を想像してみてください。その未来は非常に近い将来に訪れます。
彼は続けます。「10月末、妻が両側性乳がんと診断されました。一夜にして私たちの世界は逆さまになりました。12月初めに両側乳房切除術を受け、その月の後半に化学療法を開始しました。彼女は強い人で、信じられないほどの勇気を持って一つ一つのステップに立ち向かってきました。最近の課題は、彼女の特定のケースで化学療法後に放射線治療を受けるべきかどうかでした。これは完全にグレーゾーンで、相談した専門医でさえも意見が分かれ、明確な答えはありませんでした。私たちは行き詰まりを感じていました」
「ChatGPTの新しいディープリサーチ機能へのプレビューアクセスがあったので、試してみることにしました。手術病理レポートをアップロードし、放射線治療が有益かどうかのガイダンスを求めました」。これが重要なポイントです。オンラインで一般的なアドバイスを検索することはできますが、これは異なります。実際の個人的なレポートをChatGPTにアップロードすると、そのすべての情報にアクセスできます。23andMeなどを通じてDNAシーケンスを持っている場合はそれをアップロードでき、おそらく多くのことができるでしょう。血液検査をアップロードすれば、特定の状態や指標について何らかのアイデアやポインターを得られる可能性があります。
彼は続けます。「次に起こったことは驚くべきものでした。腫瘍医が言及したことを単に確認するだけでなく、より深く掘り下げ、私が聞いたことのない研究を引用し、年齢や遺伝的要因などの詳細を追加すると適応してくれました。私たちは各研究を事実確認しましたが、すべて的確でした」。初期のモデルは幻覚の問題がありましたが、検索を追加することで大幅に減少し、実際にOpenAIのライブストリームのアナウンスでは、このモデルが幻覚に関してどれほど優れているかについて具体的に言及しています。それについては後ほど触れます。
これが彼が使用した正確なプロンプトです。「添付の手術病理レポートに含まれる両側性乳がんに関する情報を読み、TCHP化学療法6コース後にこの患者に放射線治療が適応されるかどうかを、乳がんのタイプに基づいて研究してください。この患者に対する放射線治療の長所と短所、再発の可能性を減らす確率、そして利点が長期的なリスクを上回るかどうかを理解したいと思います」
「ディープリサーチが私たちに提供したレポートには今でも感嘆しています。まもなく別の専門医に会う予定ですが、私たちはすでに決定に自信を持っています。これは単なる技術デモではなく、個人的なものでした。最も必要な時に心の安らぎを与えてくれました。私たちはOpenAI内部でAGIを感じる瞬間について頻繁に話し合いますが、これはその一つでした。これは世界を変えるでしょう」。そして彼は実際のプロンプトとディープリサーチの回答を添付しています。
再度、ディープリサーチは医師よりも多くの情報を提供し、彼は「まあ、医師と5時間過ごせば違っていたかもしれませんが」と言っています。これがポイントです。医師は希少なリソースであり、彼らの時間は確実に希少なリソースです。これらの高度な質問に、医師レベルの同じような精度で正確に答えることができ、それを非常に安価に、携帯電話を持つ誰もがアクセスできるようにすることを想像してみてください。それがいかに信じられないほど変革的であるかがわかります。そしてこれは一つの使用例に過ぎません。医療アドバイスです。
私はこれが利用可能になり次第、完全なテストを行う予定です。おそらくこの動画を投稿するとすぐに利用可能になるでしょう。もちろんサム・アルトマンもここでチームを祝福し、「私の非常におおよその印象では、世界の経済的価値のあるタスクの一桁パーセントを実行できます。これは画期的なマイルストーンです」と述べています。
一桁のパーセント、つまり世界の経済的価値のあるタスクの1%から9%というのは、もしこの主張が正しければ、1%か2%でさえも驚くべき数字になるでしょう。これは世界と仕事を根本的に変えることになります。大きな影響を持つでしょう。Googleがこれにどう対応するのか非常に興味深いところです。確かにGoogleと検索に影響を与えそうです。Perplexityのような他のAI検索エンジンも確実に影響を受けるでしょう。
では、OpenAIの実際のビデオアナウンスを見てみましょう。
「こんにちは、私はOpenAIでリサーチをリードするマークです。今日は研究チームのイサとジョシュ、そして製品チームのニールが一緒にいます。皆さん何か変なことに気づきましたか？そう、少し様子が違いますね。それは私たちが東京にいるからです。皆さん、東京からこんにちは。ここにいる理由は、後ほど私たちの親密なパートナーの一つと特別なイベントを行う予定だからですが、このストリームは次のエージェント型オファリングについてのものです」
「まず、エージェントがOpenAIにとってどのような意味を持つのかについて話したいと思います。OpenAIはエージェントが知識労働を変革すると信じているため、エージェントを重視しています。エージェントは企業がプロセスを効率化し、労働者の生産性を向上させるのに役立つと考えていますが、消費者にとっても非常に重要になるでしょう」
「昨年、私たちはOシリーズの推論モデルの最初のモデルであるo1をローンチしました。これらのモデルは従来のモデルとは異なり、答えを出す前に長時間考え、通常は考える時間が長いほど良い答えが出てきます。しかし、これらのモデルの限界の一つは、ツールにアクセスできないことです。そして、本当に重要な欠けているツールの一つは、インターネットをブラウズする能力です。これは、私たちが日常生活で使用している多くのものが現在モデルにアクセスできないことを意味します」
「そこで、次の大きなステップを発表したいと思います。ディープリサーチと呼ばれる機能を導入します。ディープリサーチとは何でしょうか。ディープリサーチはインターネット上でマルチステップの研究を行うモデルで、コンテンツを発見し、統合し、より多くの情報を発見しながらその計画を適応させて推論を行います」
「ディープリサーチの重要な特徴の一つ、なぜ単なる『リサーチ』ではなく『ディープリサーチ』と呼ぶのかというと、モデルからレイテンシーの制約を取り除いたからです。通常、モデルはかなり早く返答しますが、ディープリサーチモデルは答えを返すまでに5分、時には30分かかることもあります。これは良いことだと考えています。私たちのモデルが無人で長時間自律的なタスクを実行し始めることが重要だと考えており、これは私たちのAGIロードマップの核心でもあります」
「究極的な願望は、モデルが自ら新しい知識を発見できるようになることです。その最初のステップは、ウェブ上の情報を統合し理解できるモデルです。ディープリサーチから得られるのは、分析家や分野の専門家が作成するような包括的で完全に引用付きの研究論文です」
「知識労働での使用について話してきましたが、広範なウェブブラウジングを必要とする他の用途もあります。例えば、非常に具体的なものを探している場合などです。これも多くの手作業をインターネット上で必要とします。個人的な用途に合わせたすべての制約を持つ特定のアイテムを探している場合などに非常に適しています。私も個人的にプレゼンテーションで使用するスライドのコンテンツを作成する際にディープリサーチを使用しました。様々な異なるユースケースに非常に適しています」
「最後に、ディープリサーチは本日後半にProで公開されることをお知らせできて嬉しく思います。まもなくPlusとチーム向け、その後教育機関と企業向けにも展開する予定です。ディープリサーチの動作方法をニールがお見せします」
「ありがとう、マーク。ディープリサーチは本日ChatGPTで利用可能になります。皆さんにその使用方法をお見せできることを非常に楽しみにしています。ディープリサーチはChatGPTの冒頭にあるボタンからアクセスでき、ここからすぐにクエリを入力してディープリサーチに送ることができます」
「私はOpenAIのPMで、私たちが考えることの一つは、どのような新機能や製品を構築すべきかということです。検討していることの一つは、新しい言語翻訳アプリを構築すべきかということです。これはディープリサーチに調査を依頼できることです」
「実際にこのクエリを入力してみましょう。ターゲットにできる異なる市場についてもっと知りたいと思います。そこでディープリサーチに、iOSとAndroidの採用率、別の言語を学びたい人の割合、過去数年間のモバイル普及率の変化について、先進国と発展途上国の違いを調べるよう依頼しています。また、この情報を表を含む形式化されたレポートとして、ChatGPTにとって最も有望な新興機会に関する明確な推奨事項と共に提供してほしいと思います」
「これは私が何時間もかけて作成しなければならなかったクエリですが、ディープリサーチを使えばすぐに開始できます」
「これは実際にOpenAIでのサイドプロジェクトなのですか？」
「ディープリサーチに取り組んでいない時のサイドプロジェクトですね。まず最初に見えるのは、ディープリサーチが明確化のための質問セットを返してくることです。これはPMのように、非常に重要です。なぜならディープリサーチが5分から30分かかる場合、要件を正確に把握する必要があるからです」
「現在いくつかの質問が表示されています。モバイル普及率をどのように設定したいか、全体的な採用率か特定のカテゴリーか、一般的な関心を超えて本当に関心を持っている人の割合などです。これらは非常に難しいプロンプトを与えられた時にアナリストが尋ねたい質問です。そのため、これらを最初に把握することが非常に重要です」
「例えば、『普及率をユーザーの割合として見せてほしい、全体的な使用状況を見せてほしい、残りは最善の判断を下してほしい』というように答えることができます。モデルは時々指定された情報と少し曖昧な情報を取り、それを使ってミッションを開始し、必要なすべての情報を取得することが得意です」
「今、ディープリサーチがそれらすべてを取り込んで統合し、独自の研究プロセスを開始したところです。ディープリサーチは様々な知識労働の領域で非常に優れており、市場調査、物理学、コンピュータサイエンス、生物学などの学術分野で使用できることを確認しています。私自身、サイドでPMの仕事に使用しており、仕事でも皆さんの役に立つことを期待しています」
「ここで見えるように、ディープリサーチは小さなサイドバーを開き、行っている推論をすべて表示します。現在、上位の国を特定し、情報を収集し、検索プロセスを開始しているのが分かります」
「ここで拡大してみると、ディープリサーチが情報を検索し、ページを開き、目にしているものについて推論していることが分かります。裏では、モデルは文字通り検索を実行し、ページを開いてブラウズし、画像、表、PDFを含むすべての要素を確認し、その情報を抽出して次に何をするかを決定しています。一つの検索からの情報を使って次のステップで何を検索するかを決めているのが見えるのは本当にクールです」
「そうですね、見ていて面白いです」
「このタスクの結果を待っている間、ジョシュに別のディープリサーチの使用方法を見せてもらいましょう」
「ありがとうございます。知識労働のためのディープリサーチについて多く話してきましたが、それは私たちが本当に期待しているユースケースの一つですが、仕事をより良くするためだけではありません。趣味や家庭でやりたいことにも役立ちます」
「私が本当にディープリサーチを使いたい一つの用途は、購入したい製品の調査です。特に大きな買い物の場合、私は高価なものを買う時、インターネット上のすべてのページを読みたいと思います。インターネット上のレビューがあれば、実際に購入する前にそれを考慮に入れたいと思います」
「私たちは今日本にいて、この時期のスキーは良いと聞いています。でも、この旅行は少し急な計画だったのでスキーを持ってきませんでした。スキーを購入して、この後少しスキー休暇を取れないかと考えています」
「日本でスキーをするためのスキーを購入したいと思います。また、ディープリサーチに出力のフォーマットを指定することもできます。最後に素敵な表を含むレポートとしてフォーマットしてください。ニールの例と同様に、いくつかの質問が返ってきて、それに答えるかどうかを選択できます」
「上級者向けのギア、オールマウンテンだけどパウダーも時々、パウダーはここでは良いと聞いています。今週は運が良ければいいですね。私は背が高いので長いスキーが必要です。そして、もっと楽しいものを、例えば素敵なカラーパレットのものがあればと思います」
「これを開始すると、ニールの例と同様に、ディープリサーチはインターネット上の様々なウェブサイトで多くの調査を行い、良い推奨事項を返してくれるはずです。それでは、これがどのように機能するのかをイサに説明してもらいましょう」
「了解です。ディープリサーチは、まもなくリリース予定のo3推論モデルのファインチューン版によって動作しています。難しいブラウジングやその他の推論タスクでエンドツーエンドの強化学習を使用して訓練しました。その訓練を通じて、モデルは必要に応じてバックトラックしながら、リアルタイムの情報に反応してマルチステップの軌跡を計画し実行することを学習しました」
「最終的なモデルはユーザーがアップロードしたファイルをブラウズでき、計算や画像、プロットを作成するためのPythonツールを使用することもできます。そして、そのプロットを最終的な回答に埋め込むこともできます。ウェブサイトからの画像も最終的な回答に埋め込むことができ、情報源を引用する際は特定の文章や段落を引用します」
「結果として得られるモデルは、人間が何時間もかかるような複雑なタスクを完了することができ、公開および非公開の評価の多くで新記録を達成しています。Center for AI SafetyとScale AIから最近リリースされた、専門家レベルの科目全般にわたるモデルの能力をテストするHumanity’s Last Examでは、ディープリサーチモデルは26.6%の精度という新記録を達成しました」
「これは本当に印象的です。最後の試験では…このタスクは約100の異なる科目にわたる約3,000の記述式と多肢選択問題で構成されており、モデルの軌跡と思考プロセスを見るのは実際に非常に興味深いです。なぜなら、それは人間が問題を解決する方法とよく似ているからです」
「非常に難しい問題を与えられた場合、私はおそらくオンライン検索をして答えを見つけようとするでしょう。例えば物理学で、モデルが難しい計算に答えなければならない場合、既存の科学論文から方程式を探し、それを使って答えを導き出すのを見てきました。また、詩の例では、モデルは新しい詩のためのとても特殊な韻律を特定する必要があり、他の既存の詩の例を探して、それを使って答えに至る推論を助けるのを見ました」
「別のベンチマーク、ウェブブラウジング、マルチモーダル機能、コード実行、ファイルに関する推論を必要とするGUIAでも、モデルは難易度の3つのレベルすべてで新記録を達成しています。また、幅広い内部ベンチマークも作成しましたが、それについて話していただけますか？」
「もちろんです。専門家レベルの内部評価も作成し、専門家が仕事で行うような範囲のタスクを用意し、ディープリサーチモデルに回答させ、専門家にその回答を評価してもらいました。モデルは専門家が何時間もの手作業による調査が必要だと言ったタスクを完了することができました」
「これを示す2つのグラフがあります。左側は異なる推定経済価値範囲に対する合格率、右側は異なるタスク完了時間範囲に対する合格率を示しています。合格率とは、専門家レベルのタスクに対してモデルが専門家の評価で満足のいく回答を提供する割合です」
「これらのグラフで興味深いのは、合格率が推定完了時間よりも推定経済価値とより相関があることです。これは、モデルが難しいと感じることは、必ずしも人間が時間のかかると感じることと同じではないことを示しています」
「このグラフは、ツール呼び出しの最大数に対する専門家レベルのタスクでの合格率を示しています。これは、モデルが思考とブラウジングに費やす時間が長くなるほど、性能が向上することを示しています。これは非常に重要です。なぜなら、マークが説明したように、エージェントがより長時間、より難しいタスクを完了できるようになる世界に向かっているからです。彼らにより多くの思考時間とツールを使用する時間を与えれば、より難しいタスクを解決できるはずです」
「最後の内部評価は幻覚に関する評価で、このモデルは私たちがリリースした中で最も優れた性能を示しています。ただし、まだ幻覚を起こす可能性はあるので、レポートを作成する際は自分で情報源を確認してください」
「そして、ディープリサーチモデルは本当に長い時間応答に時間がかかる可能性があるので、今朝いくつかの例を生成して、それができることの範囲をお見せしたいと思います。いくつか見てみましょう」
「非常に非常に長い…問題までスクロールしています。これは金融の問題です。『私はシリコンバレーのVC企業の投資アナリストです。民間超音速航空旅行市場を分析し、包括的な投資メモを作成したい』という内容で、他にも多くの仕様があります。モデルは明確化を求め、メモに関する追加要件を提供し、タスクを開始しました」
「ご覧のように、7分間の研究を行い、12の異なる情報源を使用し、分野に関する非常に包括的なレポートを返してきました。仕事でこれを行う場合、初期調査を行う際の研究のブートストラップとして非常に役立つことがわかります」
「うまくいけば、次回日本に来る時はスーパーソニックで少しジェットラグが軽減されるでしょう。こちらは別の例で、生物学の例です。論文をアップロードし、同じトピックに関する他の論文を見つけたいと思います。これは実際にOpenAIの生物学が非常に進んでいる友人からのタスクでした」
「正確に何を言っているのか理解しているふりはしませんが、できることの範囲を示したかったのです。いくつかの明確化を求め、それに答え、このタスクではモデルはかなりの時間を要し、同じトピックに関する多くの異なる論文を見つけることができました。これを友人に見せたところ、かなり良い回答だったと言っていました。モデルに対する良い信頼の証です」
「では最後の例を見てみましょう。誰もが経験したことがあると思いますが、10年前に東京で行ったレストランの名前や探しているテレビ番組の名前を思い出せないという瞬間です。この例は少し作為的に見えるかもしれませんが、モデルが針を干し草の山から見つけ出すのがどれほど得意かを示したかったのです」
「プロンプトは『しばらく前に見たテレビ番組の名前を忘れてしまいました。でも、あるエピソードで起こったことは覚えています。名前を見つけるのを手伝ってもらえますか？覚えているのは、あるエピソードで二人の男性がポーカーをプレイし、一人が相手に賭けるように言った後にフォールドする』という内容で、ストーリーについてもう少し詳細があります。提供できた追加情報は『5年から10年前だと思いますが、あまり確かではありません』だけでした」
「モデルは様々なサイトを読み、それらのサイトのコンテンツについて推論することで、私たちが考えていた実際のテレビ番組のエピソードを見つけ出すことができました。これはかなりクールですね。それは正しい答えだったのでしょうか？それが探していたテレビ番組だったのでしょうか」
「では、ニールとジョシュに戻って、最初に開始したタスクの確認をしましょう」
「はい、ありがとうございます。最初のタスクを見てみましょう。タスクはまだ進行中のようですが、その間に29の異なる情報源を確認し、多くの異なる情報を処理しました」
「すごい、完璧なタイミングですね。ディープリサーチが完全な分析を作成しました。11分かかり、その過程で29の異なるサイトを詳細に確認しました。このライブストリームでご覧のように、完璧にフォーマットされたレポートを提供してくれました。モバイル採用と言語学習のためのモバイル市場分析が見えます。素晴らしい導入があり、異なる採用トレンド、時間経過に伴うモバイル普及率、そして多くの異なるデータがすべてとてもよくまとめられたレポートスタイルで表示されています」
「下に進むと、情報だけでなく、異なる表形式やデータの提示方法が非常に分かりやすい形で表示されています。このモデルの他の素晴らしい点は、クリックしてすべての異なる情報源を確認できることです。ここですべての引用を見ることができ、最終的な出力に必ずしも含まれていないが、途中で見つけたことを知らせたいサイトも確認できます」
「素晴らしいですね、では、スキーの方はどうなっていますか？」
「上にスクロールしてみましょう。これが気に入っているのは、多くの調査を行ったことです。これは私が通常なら午後いっぱいかけて、自分の安心のために、書かれているすべてのことを読まなければならないようなことです。しかし、これは私が訪れるであろうすべてのサイトをヒットし、それをすべて自分で検索するよりもずっと分かりやすい形式にまとめてくれています」
「また、最後に表を提供してくれて、私が欲しいと言及した特定の項目に関する高レベルの比較を示してくれています。ディープリサーチは、欲しい情報の種類、見たい比較、そして最終的な出力のフォーマットについて非常に具体的な場合に非常にうまく機能します。モデルはそれらすべてを考慮に入れて検索を行い、最終的なレポートをまとめることができるからです」
「これは信頼できそうです。なぜなら、トップの推奨が実は私が家で所有しているスキーだからです。面白いですね。これをもう少し詳しく見て、この後のスキー旅行を計画してみようと思います」
「今週末に行きましょう！」
「はい、ご想像の通り、この技術でできることはまだまだたくさんあります。それでは、これからどこに向かうのかについて、マークに話してもらいましょう」
「素晴らしい。まとめると、ディープリサーチは本日後半にProで利用可能になり、まもなくデスクトップとモバイルにも提供する予定です。しかし、今日私たちが発表するのは、ディープリサーチでできることのほんの一部に過ぎません」
「今日、私たちはウェブをブラウズするディープリサーチエージェントを持っていますが、同じディープリサーチエージェントがカスタムコンテキストや企業のデータストレージに接続することも想像できます。繰り返しになりますが、ディープリサーチは私たちのAGIロードマップにとって重要です。私たちは、より長時間、より自律的に非常に困難なタスクを解決するエージェントを信じており、30分タスクに取り組む能力は、より多くのコンピュート投資を動機付けると考えています」
「皆さんが何をするのか楽しみにしています。ぜひ私たちと共有してください。ありがとうございました」
利用可能になり次第、完全なテストを行い、いくつかの難しいプロンプトを試して、どこまで進めるか、どれだけうまく研究できるかを見てみましょう。アイデアがあればコメントに書いてください。ご視聴ありがとうございました。私の名前はウェス・ロスです。また会いましょう。