Deep Researchの驚異的なパフォーマンスが人間の労働力に取って代わり、AIエージェントの道を切り開く

AGIに仕事を奪われたい
この記事は約11分で読めます。

6,105 文字

Deep Research STUNNING Performance REPLACES Human Labor, Paves Way for Agents
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

今朝、OpenAIのDeep Researchが利用可能になったことを知り、一日中様々な研究プロジェクトを実行してみました。YouTubeやXで多くの方々から提案をいただき、その一部をこれから紹介していきますが、しばらく使用している人々は驚愕しています。早期アクセスを得た人々の一人、Dera Unutma医師はこう述べています。科学研究、出版、法的文書、医療、教育において絶対的なゲームチェンジャーだと。
私の試験では、MTHFR遺伝子変異と精神衛生およびエネルギーに関する情報をまとめるのに、たった5分で13の異なるソースを参照できました。意識とは何かという現代の科学的視点の概要は10分で12のソースを使用。Xで提案された、AIを用いたバイオサイエンスのブレークスルー、特にゲノミクスとプロテオミクスに関する研究も、私個人が非常に興味を持っている分野です。
オンラインで大きな反響を呼んだのは、現実がシミュレーションである可能性についての科学的な手がかり、Path of Exile 2のアクト3における非ハードコアリーグ用のレンジャーレベリングガイド(なぜそんなに具体的なのかと思われるかもしれませんが、特に理由はありません)、ケトジェニックダイエットでの血中ケトン値を上げる方法などです。また、実際の血液検査結果をアップロードして、良い点や悪い点、改善が必要な部分を分析させました。これは23分かかり、比較的長時間の分析プロジェクトとなりました。
Sam Altmanのツイートが特に目を引きました。Deep Researchを本格的に使用する前の彼の言葉です。「おおよその感触として、世界の経済的価値のある作業の一桁パーセントを実行できる、これは画期的なマイルストーンだ」と。つまり、このDeep Researchエージェントによって何兆ドルもの価値のある作業が自動化されるということです。
最初はとても大胆な主張に思えましたが、この技術を使用し、その能力の広さと作業の範囲を理解するにつれ、私も同意せざるを得ません。特に、より難しい専門レベルの質問をするようになると、その真価が発揮されます。
レベル1は、2020年のネイチャー科学ジャーナルからの特定の論文に関する質問程度です。レベル2は、ある本の11ページ目の最後から2番目の段落の脚注を確認し、そのWikipedia記事が11月のいつアクセスされたかを調べるようなものです。レベル3になると、加工果物や野菜の特定の規格について、1959年の基準のうち2023年8月時点で何パーセントが新しいバージョンに置き換えられたかを調査するような複雑なものになります。
これらの調査には膨大な時間がかかるはずです。1959年の基準と2023年の基準を全て調べ上げ、その割合を計算する必要があるからです。昨日も触れましたが、化学、言語学、医療分野における専門家レベルの作業で、医療分野では4-5時間、特定の遺伝子治療に関するDeep Researchでは2時間を節約できます。
では、この技術は世界の経済的価値のある作業の2%を実行できるのでしょうか。実は、その答えを見つける方法さえ分かりませんでした。そこで、Sam Altmanの発言を引用し、OpenAIのウェブサイトにあるDeep Researchの説明を貼り付けて、このDeep Researchエージェントが自動化できる世界の経済的価値のある作業の割合を最も近い整数で推定するように依頼してみました。
すると明確化の質問が返ってきました。全セクターを対象とするのか、特定の分野に焦点を当てるのか。世界のGDP貢献度、雇用シェア、または他の指標のどれに基づいて推定するべきか。GDPが最適な指標とは思えなかったので、全セクターを対象とし、雇用シェアを使用することにしました。
例えば、株式取引やエクイティ取引を行う人の場合、おそらく仕事の大部分がこのような研究プロジェクトです。仮に50%とすると、この技術でその仕事の半分を自動化できることになります。では、総計でどれだけの作業を自動化できるのでしょうか。比較は不要で、Deep Researchだけに焦点を当てて調べてみましょう。
分析が始まる中、HubSpotの共同創業者とSam Altmanもこれについて言及していました。Deep Researchから得られるレポートをアウトプットと考えています。つまり、質問をすると、求めているレポートという形でアウトプットが得られるわけです。
HubSpotの共同創業者兼最高技術責任者であるDharmesh Shahは、AIエージェントが話題になる前からそれに魅了されていた人物です。OpenAIにも投資しているので、それを考慮に入れる必要がありますが、彼はDeep Researchに競合分析、ポジショニング、成長、製品戦略、業界のAIビジョンを含む詳細な研究レポートの作成を依頼しました。
コンサルタントの多くがこのような研究を行っていますし、法律の専門家、特に保険業界では、案件を進める前にケースファイルを集め、必要な情報を収集する作業に多くの時間を費やしています。しかしDeep Researchは、データ、引用、表を含む11,000語のレポートを生成し、これまで考えもしなかったような洞察まで提供しました。
興味深いのは、Sam Altmanが異なる言葉で本質的に同じことを述べている点です。Dharmeshは「単にこのような出力を生成できることが素晴らしいのではなく、この出力をエージェンティックワークフローの次のステップへの入力として使用できることに興奮している」と述べています。
このレポートは、プロジェクトをまとめ、研究を行い、すべてのピースを組み合わせ、将来を予測し、実行計画を段階的に作成するものと考えることができます。その計画は何に使われるのでしょうか。OpenAIの他のブレークスルーであるOperatorのような、ウェブを操作して作業を実行できるものに渡されます。
将来的にはOperator以外にも、インターネットの利用、コミュニケーション、Excelの操作、コーディングなど、特定のタスクを実行できる多くのAIエージェントが登場するでしょう。Deep Researchはプロセスの第一段階であり、そのレポートや出力が、計画を実行する他の小さなエージェントへの入力となります。
さらに、このような技術が特定のタスク用の特定のAIエージェントを作成する可能性もあります。計画を立てる際に、その特定のタスク用のエージェントを作成するためのスクリプトを書くことができるのです。新製品のマーケティングキャンペーンを立ち上げるように指示すると、完全な研究を行うだけでなく、それらのタスクを実行する小さなワーカーを立ち上げることができます。
Sam AltmanはソフトバンクのCEO孫正義と日本で会い、プレゼンテーションを行いました。そのスピーチの中で彼は「推論モデル、つまり考えることができ、複数のステップを踏んで何をすべきか推論できるモデルは、様々な理由で有用かつエキサイティングですが、その一つはAIエージェントへの道を開くことです」と述べました。これは本質的に同じことを言っているわけです。つまり、物事を考え抜くことで生まれるテキストという出力は、次のステップ、つまりその計画を実行するエージェントへの入力となるのです。
驚くべきことに、我々が与えたタスクはわずか4分で完了し、10のソースを参照しました。これらのモデルの幻覚(モデルが作り話をすること)を減らすことができた理由は、ウェブを検索して信頼できるサイトを見つけ出すからです。なお、査読付き科学論文に特化した検索や、より広範な検索方法を指定することもできます。
Future Tech Media、Open.comのDeep Researchに関する情報、World Future of Jobs 2023の自動化率、Science Bus.netResearchGate.net、VisualCapitalist.comなどを参照しました。これらのソースが気に入らない場合や、一部のソースに同意できない場合は、それらを使用せず、他の査読付き論文などを使用するように指定することもできます。
その論文によると、世界の雇用の20-30%が知識労働カテゴリーに分類されるとのことです。これには、管理職、エンジニア、アナリスト、科学者などの専門職、さらには事務職など、主に情報の作成や処理に焦点を当てた役割が含まれます。つまり、世界の労働力の約10-15%が、日常業務で情報処理タスクに従事しているということです。
「知識労働者の自動化」という論文からの引用で、その論文は大陸別、世界の各地域における知識労働者の分布を詳細に分析しています。また、農業、製造業、建設業、ホスピタリティなど、主に手作業やルーチン作業が中心で、研究や知識の統合があまり必要ない産業も指摘しています。
Deep Researchが実行できるタスクの種類を理解しようとする試みは興味深いものです。文献レビュー、データ分析、レポート作成、推奨事項の生成、科学的R&D、医療分野(これは非常に大きな影響を受けるでしょう)、金融・ビジネス分析などです。明らかに、異なる企業に関するレポートの生成は非常に有用でしょう。
法務・管理サービスについて、文書の要約や関連事実の発見を含む法務アシスタントやパラリーガルの仕事は、AIの影響を最も強く受ける職種の一つで、タスクの100%近くが影響を受ける可能性があるとVisual Capitalistは指摘しています。このチャンネルでも以前取り上げましたが、パラリーガルアシスタントは、ほぼすべての職種の中でAIの影響を最も強く受ける職種の一つです。
ここでは、世界全体でどの程度の割合が自動化可能かを部門ごとに推定しています。まず、コンサルティング、R&D、技術などの専門サービスは世界の雇用の3%を占め、これらのタスクの70%がAIで実行可能とすると、全世界の仕事の約2%が潜在的に自動化可能となります。
金融・保険は1%、情報技術・メディアは1%、教育・学術は世界の仕事の8%、行政・政府は0.5%、製造業・エンジニアリングその他のサービスは約0.5%となります。
要約すると、知識集約型産業は世界の雇用の20-30%を占めており、一定の自動化率を仮定すると、これらの知識労働の50-67%が自動化可能です。総計すると、世界全体の労働時間の10-15%がDeep Research AIによって人間の代わりに実行可能となり、これは完全に展開された場合の推定値です。
これはSam Altmanの予測をかなり上回っています。もちろん、これらの計算には多くの仮定が必要で、それらの仮定も全て列挙されています。これらの仮定に同意できない場合は、その仮定を変更するように指示すれば、新しい仮定に基づいて再計算してくれます。
さらに、クロス検証も行っています。彼らの数字を、OpenAI、Ey、ChatGPTが現在の労働者に与える影響に関するMcKinseyのレポートなど、この分野の他の大規模な研究や推定と照らし合わせています。McKinseyは、積極的なシナリオでは2030年までに世界の労働力の最大14%が自動化により置き換えられる可能性があると予測しています。また、特定の職業がほぼ完全にAIによって処理される可能性についても言及しています。
セクター間の重複を考慮し、集計範囲を丸めた推定値を見ると、Deep Researchによって最終的に自動化される可能性のある経済的価値のある仕事は15-20%程度と推定されます。単一の数字としては18%となります。
このチャットを共有させていただきますので、内容を確認し、妥当性を判断してください。妥当だと思われますか?間違っていると思う場合、どこで間違ったのでしょうか?誤った仮定を立てたのか、間違ったデータソースを参照したのでしょうか?
これは確かに、この技術が世界中で展開され、人間の監視なしにタスクを完全に自動化できるという積極的なシナリオを想定しています。この推定を半分に減らすと、Sam Altmanが言及した「経済的価値のある作業の一桁台の自動化」という予測に近づきます。
他にも試してみたことがあります。先ほど述べたように、私の血液検査結果をアップロードしたところ、全ての値は正常範囲内でしたが、ヘマトクリット値とヘモグロビン値が正常範囲の上限に近いことを指摘されました。水分補給を心がけるようにとのアドバイスがありましたが、確かに最近の私の水分摂取は不十分でした。
また、ちょうどその頃、赤十字に血漿提供をしたことについても追加の質問をしました。血漿提供を経験したことがない方のために説明すると、赤十字の「吸血鬼たち」が血液を採取し、フィルトレーションシステムやある種の遠心分離機で血漿を分離し、赤血球などの他の成分は体内に戻すというものです。5分間ほど血液を抜き取り、その後、点滴液と一緒に戻すのですが、室温の濾過された血液が静脈に戻ってくる感覚は、人生で最も奇妙な体験の一つでした。
重要なのは、このDeep Researchが私の個人的な血液検査結果を分析し、必要な研究を行い、改善のための具体的なアドバイスを提供できたことです。
私が投稿したさまざまなレポートの中で、最も注目を集めたのは「シミュレーション世界に住んでいる可能性についての最も説得力のある科学的議論」でした。ちなみに、TwitterのSLXでフォローしていない方は、ぜひフォローしてください。最近、Xでの投稿を増やしており、若者が言うところの「バンガー(大当たり)」な投稿をしています。これらのスレッドへのリンクは全てコメント欄に掲載しますので、興味のある方はチェックしてみてください。
Sam Altmanの言う「経済的価値のある作業の一桁台(1-9%)の置き換え」が正しいのでしょうか?それとも、私たちが生成したレポートの18%という数字の方が正確でしょうか?あるいは、これらの推定は高すぎて、実際には何も置き換えられないと思いますか?コメント欄で皆さんの意見を聞かせてください。
もし皆さんがこの技術のテストアイデアを提供してくださったのに、まだ試していない場合は申し訳ありません。使用可能な量が限られており、一日の大半をこの技術を使用した様々なテストに費やしました。今後も多くの投稿を行い、他のアイデアにも取り組んでいきたいと思います。アイデアを提供してくださった方々に感謝申し上げます。いつか必ずテストさせていただきます。
ここまでご視聴いただき、ありがとうございました。私の名前はWes Rothです。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました