OpenAIがDEEP RESEARCHで全員を驚かせる：「AGIを感じる瞬間」が訪れた…

6,037 文字

DEEP RESEARCH de OpenAI Sorprende a TODOS: el Momento de "Sentir la AGI" ha llegado...

Únete a mi newsletter aquí! este informe especial, analizamos el reciente avance de OpenAI con su proyecto "Deep Researc...

OpenAIが導入した新しいDeep Research機能を試してみたところ、一見して思うよりもはるかに強力なものでした。これは複数のステップで行われる研究ツールで、複雑な質問を入力すると、システムは5分、10分、あるいは15分かけてインターネットを検索します。特に、テーマを深く理解するために複数のウェブサイトやソースから情報を収集する必要がある、非常に具体的で複雑な質問に特に有用です。
興味深いことに、いくつかのベンチマークで驚くべき結果を出しています。例えば、Humanities Last Exam（なんという名前でしょう）は最近出たばかりのベンチマークで、言語学から航空工学、古典研究、心理学まで100以上の科目にわたる3,000以上の多肢選択および短答式の問題が含まれています。OpenAI の1モデルは9.1%を獲得し、Claude 1は9.4%を達成しました。1、2時間前までは、GPT-4 o3 mini hikeモデルが13.3%の精度で最も進んでいました。
しかし、Deep Researchが登場し、26.6%を達成しました。もちろん、このシステムはウェブ検索、Pythonツール、その他多くの機能を備えており、より効果的に回答を見つけることができます。興味深いことに、専門家レベルのタスクのパフォーマンスを測定するための内部評価も開発されました。その評価では、様々な専門家がこのようなツールがどれだけの複雑な手作業での研究時間を節約できるかを見積もっています。
いくつか例を挙げてみましょう。化学の分野では、このツールは4時間の作業時間を節約しました。タスクは以下の通りでした：
「私は研究室にガス混合物の吸収能力を取り入れることに興味がある研究者です。ガラス状ポリマーにおける純粋ガスと混合ガスの吸収の違い、および二重モード吸収モデルがどのように機能するかを分析してください。吸収は物理的および化学的なプロセスで、一つの物質が別の物質に付着します。二重モード吸収モデルは、ガラス状ポリマーにおける混合ガスの吸収挙動を予測するためにどのように使用できるか、適用可能な場合は方程式も含めて説明してください。また、このモデルを使用して純粋ガスおよび混合ガスの吸収を正確に予測する上での課題は何ですか。2024年10月1日までに利用可能なオープンソースの情報のみを含めてください。」
かなり具体的な質問ですね。完全な回答は読み上げませんが、このツールは研究者の4時間の作業時間を節約しました。そして私はそれを信じています。なぜなら、この問題を解決するためには4時間の集中的な研究が必要だったはずだからです。
専門家レベルのタスクの別の例として、今度は言語学の分野で、モデルが5時間の研究時間を節約した印象的な例があります。この事例は、他動詞文で能格-絶対格の配列を使用するクレオール語の将来に関するものでした。主語は能格で標示され、目的語は絶対格で標示されます。正直なところ、これが何を意味するのか私には全く分かりません。理解するためにはGPTに通す必要があるでしょう。
そして健康分野では、例えばタスクは「米国で血友病治療のために規制承認を得た遺伝子治療はいくつありますか？」というものでした。このツールは探していた具体的な情報を多く提供しました。これらは内部レベルのタスクではありません。なぜなら、このようなことを行うには十分な知識を持った人が必要だからです。この場合、モデルは2時間の作業時間を節約しました。
OpenAIのフィリップは本日次のように述べています：「OpenAIでは今日Deep Researcherをリリースしました。このツールがいかに素晴らしく、世界をどのように変えるかについて、深く個人的な話を共有したいと思います。注意：この話は癌に関連しています。」
これは非常に個人的で感動的な話なので、彼が共有してくれたことに感謝します。しかし、これはこの技術の力と、それがどこに向かっているのかを示しています。このようなツールを実行するコストが低いため、多くの人々がアクセスできるということを念頭に置いてください。現在はProプランでのみ利用可能ですが、まもなく他のレベルでも利用可能になります。
世界中のほとんどの人々が、非常に手頃な価格でこのようなものを利用できるようになる未来を一瞬想像してみてください。その未来は非常に近づいています。
彼は続けます：「10月末、妻が両側性乳がんと診断されました。一夜にして私たちの世界は予期せぬ方向に変わりました。彼女は12月初めに両側乳房切除術を受け、その月の後半に化学療法を開始しました。彼女は戦士で、一つ一つのステップを信じられないほどの勇気で立ち向かってきました。」
「最近の私たちの課題は、化学療法後に放射線治療を受けるべきかどうかを決めることでした。彼女の特定のケースでは、これは完全にグレーな領域です。私たちが相談した専門家たちでさえ、明確な答えのない分かれた意見を示しました。私たちは行き詰まっていると感じました。ChatGPTの新しいDeep Research機能への事前アクセスがあったので、試してみることにしました。手術病理レポートをアップロードし、放射線治療が有益かどうかについてのガイダンスを求めました。」
ここがポイントです。もちろん、一般的なアドバイスをオンラインで検索することはできますが、これは異なります。すべての情報にアクセス可能なChatGPTに個人のレポートをアップロードしているのです。23andMeなどを通じて遺伝子配列を持っている場合は、DNAもアップロードできます。おそらくそれを使ってできることも多いでしょう。血液検査結果をアップロードすることもでき、おそらくあなたの特定の状態や指標についてのアイデアやヒントを得ることができるでしょう。
彼は続けます：「次に起こったことは驚くべきものでした。私たちの腫瘍医が言及したことを確認しただけでなく、さらに踏み込んで、私が聞いたことのない研究を引用し、年齢や遺伝的要因などの詳細を追加すると適応していきました。私たちは各研究を確認し、それらは正確でした。」
初期段階の多くのこれらのモデルと同様に、確かに幻覚の問題はありましたが、検索を追加すると、その多くが大幅に減少することに注意してください。実際、ライブストリーミング中のOpenAIの発表では、このモデルが幻覚をいかに上手く扱うかについて具体的に話されました。それについては後で説明します。
彼が使用した正確なプロンプトは以下の通りです：「添付の手術病理レポートを読んで、両側性乳がんに関する情報を確認してください。その後、6回のTCHP化学療法後にこの患者に放射線治療が適応されるかどうかを、乳がんのタイプに基づいて調査してください。この患者にとっての放射線治療の利点と欠点を理解したいと思います。再発の可能性を減らす確率はどのくらいで、長期的な潜在的リスクに対して利点が上回るのでしょうか。」
「Deep Researcherが私たちに提供したレポートには今でも驚いています。まもなく別の専門家に相談する予定ですが、私たちは既に決定に対してより自信を持っています。これは単なる技術のデモンストレーションではありませんでした。最も必要としていた時に、私たちに安心を与えてくれました。OpenAIでは内部的に、汎用AIの存在を感じる瞬間についてよく話し合っていますが、これはまさにそのような瞬間の一つでした。この技術は世界を変えることでしょう。」
そして彼は実際のプロンプトとDeep Researchの回答を添付しました。再び、Deep Researchは医師たちが提供できた以上の情報を提供しました。彼は言います：「もし医師たちと5時間過ごしていたら違っていたかもしれません。それがポイントの一つです。医師は限られたリソースであり、彼らの時間は間違いなく限られています。医師レベルの高度な質問に対して、同じ精度で正確な回答を得ることができ、しかもそれを非常に経済的に、携帯電話を持つ誰もがアクセスできるようにすることを想像してみてください。それがいかに革新的なことか。」
そしてこれは一つのユースケースに過ぎません。医療アドバイスですね。この機能が利用可能になり次第、完全なテストを行い、私のニュースレター（Pro alerta.com）で皆さんに考えを共有する予定です。ご存知の通りです。また、Claudeをローカルで完全にインストールして実行する方法と、なぜあなたもそうすべきかについての小さなクラスも作成中です。ぜひ見に来てください。
ここでサム・アルトマンが介入し、チームを祝福して次のように述べています：「私の大まかな感覚では、世界の経済的に価値のあるタスクの一桁のパーセンテージを実行できるようになりました。これは印象的なマイルストーンです。」
つまり、世界の経済的に価値のあるタスクの1%から9%ということです。たとえ1%か2%でも、もしその主張が正しければ、それは驚くべき数字で、世界と仕事を根本的に変えることになり、非常に大きな影響を与えることでしょう。
Googleがこれにどのように対応するのか、とても興味があります。これはGoogleや、Perplexityのような他のAIベースの検索エンジンにも確実に影響を与えるように思われます。
では、OpenAIのライブ発表を簡単に見てみましょう：
「皆さん、こんにちは。私はMarkで、OpenAIでリサーチを率いています。今日はAIとJoshのリサーチチーム、そしてNeamと一緒です。私たちは東京にいます。東京から皆さんにこんにちは。私たちがここにいるのは、後ほど主要なパートナーの一つと特別なイベントを行う予定だからですが、このストリームは私たちの次のエージェント提供についてのものです。」
「まず、OpenAIに関連するエージェントについて話したいと思います。OpenAIがエージェントを重視しているのは、それらが知識労働を変革すると信じているからです。企業のプロセスを効率化し、労働者の生産性を向上させるだけでなく、消費者にとっても非常に重要になると考えています。通常、モデルはかなり早く結果を返しますが、Deep Researchモデルは回答を返すまでに5分、時には30分かかることもあります。」
「私たちはこれが悪いことではなく、良いことだと考えています。モデルが無人で、より長時間の自律的なタスクを開始することが重要だと考えているのです。これは私たちのAGIロードマップの核心でもあります。私たちの究極の願望は、自分自身で新しい知識を発見できるモデルです。そして最初のステップは、ウェブ上の情報を収集し理解できるモデルです。Deep Researchから得られるのは、包括的で完全に引用付きの研究論文で、本質的にはその分野のアナリストや専門家が作成するようなものです。」
「ここでは、任意の質問をすぐに入力でき、それをDeep Researchに送信します。私はOpenAIのPMで、私たちが考えていることの一つは、どのような新機能や製品を構築すべきかということです。私たちが検討していることの一つは、新しい言語翻訳アプリを構築すべきかどうかです。これはDeep Researchに研究してもらえることの一つです。」
「実際に、この質問を入力しようと思います。私は、ターゲットにできる異なる市場についてもっと知りたいと思います。そこで、Deep Researchに、iOSとAndroidの採用率、別の言語を学びたいと思っている人々の割合、そして過去数年間のモバイル普及率の変化について調べてもらい、先進国と発展途上国の違いを教えてもらいます。また、ChatGPTにとって最も良い新興の機会について、表を含む形式化されたレポートで明確な推奨事項を提供してほしいと思います。これは私が自分でまとめるのに何時間もかかっただろう質問ですが、Deep Researchではすぐに開始できます。」
「これは実際にあなたのサイドプロジェクトなのですか？」
「これは私のサイドハッスルですね、Deep Researchに取り組んでいない時の。まず最初に見えるのは、Deep Researchが明確化のための質問セットを返してくることです。まるでPMのように。これは非常に重要です。なぜならDeep Researchが5分や30分かけて作業する場合、要件を正確に把握しておきたいからです。」
「そして今、いくつかの質問が提示されています。モバイル普及率をどのように設定したいか、全体の採用率を見たいのか特定のカテゴリーを見たいのか、関心を持っている人々の割合は一般的な関心なのか、本当に熱心な関心なのか、などです。これらは、難しいプロンプトを与えられた時にアナリストに期待される、とても良い質問です。」
「そのため、これらを最初に把握することが本当に重要です。私なら『普及率をユーザーの割合として見たい、全体的な使用状況を見たい、残りは最善の判断をしてほしい』というような回答をするでしょう。このモデルは、時には具体的で、時にはより柔軟な情報を受け取り、それを使ってミッションを遂行し、必要な情報をすべて取得することが非常に得意です。」
「今、Deep Researchがそれらすべてを統合し、独自の研究プロセスを開始したことが分かります。Deep Researchは様々な知識労働の分野で本当に優れています。市場調査から、物理学やコンピュータサイエンス、生物学などの学術分野まで、多くの人々が利用できることを確認しています。私自身も副業としてのPM作業に使用していますが、あなたの仕事でも役立つことを期待しています。」
「ここで見えるのは、Deep Researchが小さなサイドバーを開き、その推論プロセスをすべて表示することです。今、トップ国の特定、情報の収集、そして検索プロセスの開始を行っているのが分かります。ここで拡大して見ると、Deep Researchが情報を検索し、ページを開き、見ているものについて推論していることが分かります。」
「裏側で実際に起こっているのは、モデルが文字通り検索を実行し、ページを開いてブラウジングし、画像、表、PDFを含むすべてのコンポーネントを確認して、これらすべてを引き出しているということです…この利用可能になり次第、難しいプロンプトをいくつか試して、どこまで到達できるか見てみましょう。研究もできますので、アイデアがあればコメントで共有してください。ご視聴ありがとうございました。」