ChatGPT Agent登場:あなたのオールインワンAIワーカー

AIエージェント
この記事は約7分で読めます。

OpenAIが発表したChatGPT Agentは、複数のツールを組み合わせた統合型AIワーカーである。ウェブサイトとの相互作用、深い調査研究、コード実行、画像生成など多様な機能を持ち、強化学習により訓練されている。ベンチマークでは優秀な成績を示すものの、人間の能力を上回らない分野も存在する。プライバシーやセキュリティの懸念もあり、OpenAIは慎重なアプローチを取っている。

ChatGPT Agent Is Here: Your All‑In‑One AI Worker
Website: Beyond Basics Course: Connect: 🦾 Discord:

ChatGPT Agentの登場とその機能

さて、OpenAIからChatGPT Agentが登場しました。これは基本的に複数のツールを組み合わせたものです。これには、operatorやdeep searcher、コード実行機能、そして画像生成ツールが含まれており、実際に多くの作業を完了させることができ、実生活で役に立つものとなっています。そして、モデル企業がより製品寄りの方向に移行している傾向が見られ、これらの製品はますます実用的になってきています。

彼らはライブストリームを行い、現在はより詳細な情報が載ったブログ投稿も公開されています。これは研究と行動を組み合わせることについて語っています。つまり、強化学習によって訓練された単一のエージェントシステムであり、先ほど申し上げたように、operatorのウェブサイトとの相互作用能力、deep researchの情報統合スキル、そしてChatGPTの知能と会話の流暢さを組み合わせたものです。

統合プラットフォームとしての利点

このように、ChatGPT内でこの新しいエージェントを使用できるようになります。これは、同じ統合プラットフォームを使用してエージェント機能を利用できるため、非常に優れています。現在、Googleのマリナーなど、ブラウジング機能を実行できる他の製品も存在しますが、ChatGPTはそれを別のレベルに押し上げています。

Googleの話といえば、GoogleがOpenAIのリリースに対して何かを発表せずにはいられないのが常です。本日、Veo3がGemini API経由で利用可能になりました。API上でVeo3を通じて素晴らしい動画を作成できるようになります。さらに、画像から動画への機能も近日公開予定です。

サンドボックス環境と接続機能

このエージェントはサンドボックス内で動作します。基本的に独自のコンピューターを持っています。コンピューターで期待されるすべてのものにアクセスでき、ChatGPTコネクタを通じてあなたのアプリに接続できます。

そのため、実際にあなたのために本当の作業を完了させることができるという点で、これは非常に強力だと思います。また、画像生成機能へのアクセスもあるため、本当にクリエイティブになることができます。ただし、このシステムがどれほど効果的かは見守る必要があります。なぜなら、OpenAIがoperatorを発表した際、それほど注目を集めなかったと思うからです。そのため、実際に人々がこれらのシステムをどのように採用するかを待って見る必要があります。

ベンチマーク結果と性能評価

しかし、ベンチマークでは非常に印象的に見えます。最近、humanities last examが多くの注目を集めており、すべての企業がこれを前面に押し出したがっているようです。ここで、OpenAIは、OpenAIらしく、この新しいエージェントシステムを自社のモデルと比較しています。他のモデルプロバイダーは一切含めておらず、これは不誠実だと思います。

これは私が見ている傾向で、本当に悪い傾向だと思います。なぜなら、企業が他の競合他社が何をしているか、または彼らが得ているパフォーマンスの種類を完全に無視しているからです。しかし、とにかく、deep researchを使用した場合は26.6%で最先端でしたが、現在、すべてのツールが利用可能なagentを使用すると、ほぼ42%まで上がることができます。覚えていらっしゃるでしょうが、Grok-4はほぼ52%まで上がることができます。

そのため、それがおそらく最先端ですが、OpenAIもここで大きな進歩を遂げています。また、frontier mathsについても語っています。これはまた別のベンチマークですが、ここでも彼らはo1-miniを大幅に改善しています。私は実際にこのベンチマークに関する他のスコアを見たことがありませんが、物事を視野に入れるために他のモデルやプロバイダーを含めてくれると助かるでしょう。

改善が限定的な分野

さて、パフォーマンスがそれほど大幅に改善されていない他のベンチマークもあります。例えば、データ分析とモデリングにまたがる現実的なデータサイエンスタスクでエージェントを評価するために設計されたDSBenchでは、ChatGPT agentはデータモデリングタスクでo3よりもおそらく2%程度優れているだけです。

しかし、約7から8%優れています。それでも、これらのエージェントシステムよりも人間の方がはるかに優れているタスクがまだあります。例えば、現実のシナリオから派生したスプレッドシートの編集能力を評価するスプレッドシートベンチでは、ChatGPT agentがほぼ46%で最先端ですが、人間は依然として72%です。

そうですね、私たちにはまだ希望があります。人間にとっての希望といえば、o1がOpenAIより1%優れた成績を収めた競技プログラミングコンペティションがありました。繰り返しますが、希望はありますが、それがどれくらい続くかは分かりません。

その他のベンチマークと機能評価

では、他のベンチマークを簡単に見てみましょう。これは投資銀行のモデリングタスクです。これも最先端です。OpenAIが今年初めに公開したもう一つのベンチマーク、browse benchがあります。これはエージェントのブラウジング機能を測定するものです。ブラウジング、データ分析、そしてdeep researchを通じたレポート生成のエージェントタスクに特化した強化学習が、このエージェントの機能を大幅に改善したようです。

セキュリティとプライバシーの懸念

しかし、ChatGPT agentのようなものにどのようなアクセス権を与えたいかについて、非常に興味深い質問も提起していると思います。ウェブ上で操作や行動を取ることができるということは、アカウントにアクセスできるということです。そのため、リモートサンドボックス環境で実行されているエージェントに、例えば秘密鍵やパスワードを渡すことに快適さを感じるでしょうか。同様に、金融情報に関してもいくつかの懸念があるでしょう。

私は、これが私たち全員が慣れ親しみ、リモートサーバーで実行されているこれらのシステムにどれだけのアクセス権を与えるかを個人的に決定する必要がある新しい現実だと思います。OpenAIはここで非常に慎重なアプローチを取っています。

ユーザー確認とスーパービジョン

結果をもたらすいくつかの行動については、ChatGPT agentは明示的なユーザー確認を必要とし、アクティブなユーザースーパービジョンが行われます。実際にエージェントが何をしているかを見ることができ、必要があれば実際に介入してその行動を停止することができます。これは本当に良いことです。

個人的には、常に人間をループに含める要素が欲しいと思っており、OpenAIがそのアプローチを取っているのを見るのは本当に素晴らしいことです。

利用可能性と制限

利用可能性の面では、良いニュースは、pro、plus、teamsで利用可能になることです。悪いニュースは、おそらく大多数の人々であるplusユーザーは月に40メッセージしか取得できないことです。proは実際にはその約10倍を取得でき、これは非常に良いことです。proユーザーは今日アクセスできます。plusユーザーは一日の終わりまでにアクセスできると言っています。それを確認する必要があります。

今後の展開

このリリースにより、operatorは数週間後になくなりますが、deep researchは独立した機能として利用可能になります。そのため、すべてをChatGPT agentに依存する必要はありません。深い調査研究だけを行いたい場合は、それができるようになります。

これは非常に興味深い時代であり、このコンピューター使用、コンピューター使用エージェントにおける急速な革新が見られ、異なる企業が異なるアプローチを取っています。

多様なアプローチと将来の展望

一部はブラウザベースのエージェントを持っています。この場合、ChatGPT agentは独自のサンドボックス、基本的に独自のものを持っています。近い将来、あなたのマシン上で実行されるエージェントが登場するのを見たことがあります。先ほど申し上げたように、これらの新しい機能は、より多くの新しい懸念ももたらします。コミュニティがその周りでどのように発展し、エンドユーザーの使用パターンがどのようになるかを見るのは興味深いでしょう。

とにかく、これはChatGPT agentに関する簡単なアップデートでした。これが役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。

コメント

タイトルとURLをコピーしました