ChatGPT Agent – GPT-5でもAGIでもないが、真の働き手！

OpenAI が発表した ChatGPT Agent は、コンピューターを制御できる新しいツールである。GPT-5 でもAGI でもないが、既存の技術を組み合わせて作られた実用的な自動化ツールとして注目される。スプレッドシート操作や投資銀行業務のモデリングなど、企業の日常業務を自動化する能力を持ち、多くの職種に影響を与える可能性がある。

ChatGPT Agent* - Not GPT-5, Not AGI, But REAL workhorse!

Introducing ChatGPT agent: bridging research and actionChatGPT now thinks and acts, proactively choosing from a toolbox ...

ChatGPT Agent の登場
ツールの機能と制限
ツールの詳細分析
ChatGPT Agent の構成
ベンチマーク結果の分析
処理時間の特徴
投資銀行業務ベンチマーク
総合評価

ChatGPT Agent の登場

OpenAI が ChatGPT Agent を発表しました。これはあなたのコンピューター全体を制御できるツールです。ただし、制約があります。それはあなた自身のコンピューターではなく、何らかのコンテナ内に設置されたコンピューターだということです。しかし、最も素晴らしい点は、これがあなたのためにタスクを実行してくれることです。

皆さんの頭に浮かんでいるかもしれない3つの質問に、すぐにお答えしたいと思います。

1つ目の質問は、これは新しいモデルなのか、GPT-5 なのかということです。いいえ、GPT-5 ではありません。OpenAI も GPT-5 として宣伝していません。GenSpark や Manis を使ったことがある方なら、それと非常に似ています。

2つ目は、いつアクセスできるようになるのかということです。Pro 購読者や Plus 購読者の方は、OpenAI によると今日アクセスできるようになるとのことです。私はまだアクセスできていませんが、ヨーロッパにお住まいでない限り、アクセスできると約束されています。無料ユーザーの場合は、非常に長い間待つ必要があるかもしれません。

3つ目の質問は、これは画期的なものなのか、魔法のようなものなのかということです。いいえ、そうではありません。Manis や GenSpark、あるいは Comet や Perplexity Comet の一段階下のレベルのようなものです。なぜなら、これは専用のブラウザではないからです。

ツールの機能と制限

すべてが OpenAI の ChatGPT インターフェース内で動作しています。そのため、できることとできないことがありますが、間違いなく生産性を大幅に向上させるツールです。多くのタスクを自動化するために使用でき、多くの人がこれによって仕事を失う可能性があります。

企業がこれを実装し始めて、OpenAI にデータへのアクセスを許可することを心配せず、エージェントがインターネットを使用し、スプレッドシートを作成し、PowerPoint を作成し、その他の作業を行うのを見ることができれば、それは非常に素晴らしいことです。

今日、Pro、Plus、Team ユーザー向けにライブ配信を開始します。Pro ユーザーは月に400回のクエリを取得できます。Plus と Team ユーザーは月に40回取得できます。Pro ユーザー向けのロールアウトは今日の終わりまでに完了し、Plus と Team ユーザー向けは非常に近いうちに完了する予定です。Enterprise と Education 向けには今月末までにライブ配信を試みます。

Casey が言及したように、これは非常にエキサイティングな新技術ですが、新しいリスクもあります。人々は一般的にインターネットをかなり安全に使用することを学びましたが、もちろんまだ詐欺師やその他の攻撃があります。人々は AI エージェントの使用方法を学ぶ必要があり、社会も AI エージェントに対する攻撃から身を守る方法を構築する必要があります。

そのため、私たちは非常に堅牢なシステム、多くの警告から開始しています。人々がより慣れてきたら、時間をかけてそれを緩和していきます。しかし、人々にはこれを新しい技術と新しいリスク要因として扱い、Casey が話したすべての注意を払ってほしいと思います。

ツールの詳細分析

そうは言っても、このビデオでは、この新しいツールが何なのか、この新しいツールがさまざまなベンチマークでどのようなパフォーマンスを示しているかを詳しく説明します。

まず、The Verge がインサイダーアクセスを取得しており、興味深い側面の1つは、ある従業員が OpenAI サンフランシスコオフィスでの週次駐車場申請を自動化するためにこれを使用していることです。これは魔法のように聞こえるかもしれませんが、これは RPA と呼ばれるものを使用して人々が長い間行ってきたことです。

RPA はロボティック・プロセス・オートメーションの略です。これは UiPath のような企業がすでに行っていたものです。BPO にアウトソーシングする代わりに、可能な限り自動化しようとするものです。繰り返しますが、OpenAI がここで構築したものを過小評価しようとしているわけではありませんが、これは根本的で画期的なものではないということを言いたいのです。

ChatGPT Agent の構成

ChatGPT Agent とは何でしょうか。ChatGPT Agent は、OpenAI がすでに持っていた3つの異なるものの組み合わせです。1つ目は、エージェントとして訓練された o3 のようなモデルです。2つ目は、2つの異なるシステムへのアクセス権があります。1つは Deep Research のようなテキストブラウザ、2つ目は Operator のようなビジュアルブラウザです。これによってマウスクリックなどを処理できます。

これら3つ、つまりモデル、Deep Research のようなテキストブラウザ、Operator のようなビジュアルブラウザを組み合わせることで、OpenAI は ChatGPT Agent と呼ぶこの OpenAI エージェントを作成しました。これは理想的には、あなたが望むあらゆる種類の自動化を実行するはずです。なぜなら、このエージェントモードは多くのツールにアクセスできるからです。

まず第一に、これは VM（仮想マシン）内にあります。そのため、端末のような独自のツールセットがあります。bash で何かをしたい場合や、独自のファイルシステムがありますが、外部ツールへのアクセスも提供できます。たとえば、Google Drive や SharePoint があり、スプレッドシートを操作したり、PowerPoint を作成したりできます。

このように、コンピューターで通常行うあらゆることを代わりに実行できますが、ローカルコンピューターだけでなく、OpenAI は使用時に十分注意するよう広範囲にわたって述べていますが、これは常に注意深くあるよう私たちに伝えてきたことだと思います。

ベンチマーク結果の分析

多くの興味深いベンチマークがありますが、私の目を引いたのはスプレッドシートベンチと呼ばれるものです。これは非常に興味深く重要なベンチマークだと思います。なぜなら、フォーチュン500のような多くの大企業には、どこにでもあるツールが1つあるからです。それがスプレッドシートです。Google スプレッドシート、Microsoft Excel、LibreOffice のいずれであっても、これは業界や企業を問わず人々が使用するものです。

この特定のベンチマークで、人間は71.3％のスコアを記録し、ファイルアクセス権を持つ OpenAI の最新モデル、実際の xlsx ファイル、実際のスプレッドシートファイルで45％のスコアを記録しました。これはかなり印象的なことだと思います。なぜなら、多くの人の日常業務は、スプレッドシートを開いて、何かを入力し、何らかの計算を行い、何らかの数式を書き、閉じて、保存し、チャートを作成し、自動化を行うことだからです。

これはまさに私が個人的に知っている多くの人が過去5～10年間行ってきたことです。そして、このモデルやこのツールが登場して、「その作業の45％ができます」と言うのです。45％を忘れても、35％でも自動化できる種類、節約できる人員の種類、企業が喜んで解雇する人数は、非常に、非常に、非常に大きなものになるでしょう。これは非常に良いベンチマークです。

OpenAI がすべてのベンチマークで巧妙に行ったことの1つは、ほとんどの場合、Manis や GenSpark のような第三者ツールと比較していないことです。彼らは以前のモデルと比較しており、これは少し馬鹿げています。なぜなら、それらはエージェント的なモデルではないからです。それらはツールやブラウザへのアクセス権を持ったことがありません。当然のことですよね。子供を連れてきて、その子に10問の質問に答えるよう求めます。

次に、同じ子供に、Google Chrome と Google へのアクセスを与えると伝え、それを使って答えられるようにすると、その子は明らかにより良い成績を収めるでしょう。LLM だけでなく、人間もより良い成績を収めることができます。

処理時間の特徴

この特定のツールの良い点は、このツールがインスタント回答ツールのようなものではないことです。このツールは回答するのに多くの時間、何時間もかけることができます。これがこの特定のツールのもう1つの大きな勝利だと思います。

10分や15分で物事を行おうとする既存のツールとは異なり、Deep Research のように30分間考えるものでさえ、このツールは数時間、1～2時間、3～4時間、4～6時間、7時間以上、さらには10時間以上かけることができます。

これは、多数の時間で動作するように設計された特定のツールであり、膨大な量のタスクを引き受けることができる理由と、大企業がそれを使用したいと思う理由も示しています。

Sam Altman はこれを AGI と呼びたがっています。私は、これは AGI と呼ばれるものではないと言いたいです。これは、企業で長年にわたって行われてきた古典的な自動化です。OpenAI がここでお金を得ているのは、企業がそれに対してお金を払い、使用を開始するからです。

投資銀行業務ベンチマーク

もう1つの非常に興味深いベンチマークは、投資銀行モデリングタスクと呼ばれるものです。これも非常に高額なアイテムです。企業はこの種のモデリングタスクに多額のお金を支払います。金融モデリングチームは多くの異なる企業に存在します。スタッフ計画であろうと、来年の金融モデルを計画する必要があろうと。

このモデルにそのようなタスクを実行するよう促すと、このモデルはタスクの41％のスコアを記録しました。実際、さらに良いのは、このモデルを取って同じタスクを64回実行し、最良のものを選ぶことです。平均で41％のスコアを記録しますが、最良のものを選ぶと、64回のインスタンスのうち71％のスコアを記録します。

これは素晴らしいことだと思いますし、Anthropic が Claude for Finance を発表したばかりなので、非常にタイムリーです。OpenAI も、より多くのお金が欲しいなら、ソフトウェアエンジニアの仕事を奪うだけでなく、投資銀行家の仕事も奪うべきだと気づいたようです。なぜなら、彼らはたくさんお金を持っており、ウォール街は確実にこのようなツールにお金を払うからです。彼らのツールはすべて非常に高価で、これは彼らにとって何でもありません。

総合評価

最終的に、これは OpenAI が既存のツールを使用して構築したシンプルなターンキーソリューションだと却下することもできますし、これが可能だとは知らなかったが、今日これが可能であり、私の会社の多くのタスクがこの特定のツールを使用して自動化できると畏敬の念を抱くこともできます。

いずれにしても、これは OpenAI からの印象的な発表です。画期的なものでも、AGI でも、GPT-5 でもありませんが、単純に多くの人の退屈で単調なタスクに対して生産性を大幅に向上させることができるものです。

しかし、あなたがその退屈で単調なタスクに従事している人の1人なら、この時点で良いキャリア選択を始めるべきです。ツールによって解雇されたくないからです。

明らかに、企業が人々を解雇する前に、OpenAI とこのデータプライバシー契約に署名するのに時間がかかるでしょう。このツールは、AI があなたの仕事、私の仕事、みんなの仕事を奪いに来ているということを証明するもう1つの証拠です。解雇されないにしても、少なくとも仕事に留まるよりもツールを使いこなす方が良いでしょう。

このモデルについてどう思うか教えてください。また別のビデオでお会いしましょう。ハッピープロンプティング！