ChatGPT Agentがヤバすぎる…

この動画では、OpenAIの新機能「ChatGPT Agent」について詳しく解説している。ChatGPT AgentはOperator、Deep Research、ChatGPTを統合したエージェントシステムで、ウェブサイトの閲覧から複雑なタスクの実行まで自動化できる革新的な機能である。実際のデモンストレーションを通じて、キャンプ場の検索予約やレシピの整理といった具体的な作業を自動で行う様子を紹介し、ベンチマークテストでは人間を上回る成果を示している分野もある一方、まだ改善の余地がある領域も存在することを明らかにしている。

ChatGPT Agent is wild...

Try Vultr yourself when you visit getvultr.com/forwardfutureai and use promo code "BERMAN300" for 0 off your first 30...

ChatGPT Agentの実演デモ
ChatGPT Agentの技術的詳細と競合比較
ベンチマークテストの結果分析
スポンサー紹介（Vulture）
追加ベンチマークと性能評価
リスクと注意点
最終的な考察

ChatGPT Agentの実演デモ

OpenAIのOperator、Deep Research、そしてChatGPTを組み合わせたらどうなるやろか？実はOpenAIがまさにそれをやってくれて、ChatGPT Agentっちゅう名前で出してきたんや。実際に動かしてるところを見せたるで。この動画は素晴らしいパートナーであるVultureの提供でお送りしとる。詳しくは動画の後半で紹介するわ。

これがChatGPTや。ツールをクリックして、エージェントモードをクリックするんやで。

クリックしたら、こんな感じでいくつかの例題が出てくるんや。炭素回収コストの動向と予測を調査したり、職業別の医療従事者密度データを取得したり、この辺りはレポートになって、こっちはExcelになる。もう一つレポートがあって、こっちはブラウジングや。

サンフランシスコ近郊でドッグフレンドリーなホットタブ付きのヒップキャンプを予約する、これがどんな感じになるか見てみよう。

再生ボタンを押すと、まず最初に気づくのはoperatorとは全然違う見た目やっちゅうことや。Operatorやったら実際にウェブサイトが見えて、operatorがクリックしてるのが見えて、間違えて、それを直してっちゅうのが見えたんやけど、今度はもっとシンプルで合理化された表示になっとる。

ウェブサイトは見えるし、検索もしとる。インタラクティブな機能をチェックするためにブラウザツールを使うて言うとる。これは結構時間がかかるんや。プライベートなホットタブを見つける必要があるっちゅうことで、ここで見えてるのが思考の連鎖や。バックグラウンドでは検索が行われとる。

ここではリーディングモードになっとるのが分かる。実際にウェブサイトを読んどるんやけど、今のところ表示はできひんようやな、これは興味深いで。このユーザーインターフェースはほんまに気に入っとる。下の方にちっちゃなスクラバーがあって、前に進めることができる。基本的に全体が録画されとるんや。

どれだけの手順があったかも分かる。ここで止めるわ。Hip Campのウェブサイトが読み込まれて、実際にクリックして回って異なる日付を探しとるのが見えるやろ。ちょっと前に進めてみるで。人数を選択して辺りを見回しとるのが分かって、最後に全部の情報をくれた。

日程が全部利用可能かダブルチェックして、一番ええ結果を見つけてくれたんや。Kings Mountain Campのウッドサイドにあるホットタブ付きファームステイアパートメント。主要な詳細が見えて、ここまで到達するのに12分間推論したっちゅうわけや。

ここの小さなアクティビティボタンをクリックしたら、すべての手順が実際に見れるんや。見てみいや、めちゃくちゃ多いやろ。

ウェブサイトをナビゲートしなあかんかったところがここで、これが検索や。もうちょっと下にスクロールしたら、延々と続いとるのが分かる。基本的に、ブラウザでできることは何でもできるっちゅうわけや。

当然、スプレッドシートも作れる。例えばこれや。All Recipeからベジタリアンレシピをタンパク質効率で整理する。

再生をクリックしてみよう。始まったで。スクラブしてみるわ。リーディングモードでいっぱい検索しとるのが見えて、最終的にスプレッドシートでまとまるはずや。はい、できた。

ChatGPT Agentの技術的詳細と競合比較

こういうのは全部めちゃくちゃかっこええで。基本的に、Deep Researchの能力、つまり長期的なタスクでたくさんのウェブサイトを検索する能力と、Operatorの能力、つまり実際にウェブ上でタスクを実行する能力を組み合わせたもんなんや。

この新しい機能の核心にあるのは、統一されたエージェントシステムや。これまでの3つの画期的な成果の強みを結集しとる。Operatorのウェブサイトとのやりとり能力、Deep Researchの情報統合スキル、そしてChatGPTの知能と会話の流暢さや。Manisと非常によく似た独自の仮想コンピュータを持っとる。

実際、ManisはChatGPT Agentが基本的に彼らのゲームに参入してきたっちゅうことについて、Xでいくつか投稿しとった。このスレッドでは、ManisとChatGPT Agentの比較をたくさんやっとった。リンクを下に貼っとくで。

この新機能はPro Plus とTeamアカウントで利用可能や。月200ドルのアカウントは必要ないっちゅうのはええことやな。

ベンチマークテストの結果分析

ベンチマークはどうやろか？これは人類最後の試験や。右側がChatGPT Agentのブラウザ＋コンピュータ＋ターミナルで、41.6%を達成した。Deep Research単体は26%、Python＋ブラウジング付きのOpenAI o3は24.9%、ツールなしのChatGPT Agentもや。

興味深いことに、ツール使用があることで明らかにこのベンチマークで大幅な改善があったんや。参考として、約2週間前に出たGrok-4 heavyは44.4%のスコアで、これはマルチエージェントや。Grok-4は38.6%やった。

Grok-4 heavyについては、内部でどうなってるかは必ずしも分からん。ツールへのアクセスや独自のブラウザと環境を持つ能力があるかどうかもや。ただ分かってるのは、Grok-4モデルは真新しいモデルやのに対して、ChatGPT Agentは既存のモデルの一つで、おそらくエージェントタスクに特に優れるようにカスタマイズされたもんやと思われることや。

これがGPT-5やったらどうなるか想像してみいや。

スポンサー紹介（Vulture）

このレベルの知能を持つもう一つのものは何か知ってるか？今日の動画のスポンサーや。

Vultureは世界最大の独立クラウドプロバイダーで、素晴らしいパートナーになってくれとる。今日も紹介できてほんまに嬉しいで。

GPUをプロビジョニングする必要がある場合、自分のAIプロジェクトでちょっといじってみるだけでも、本格的な本番環境にスケールアップする場合でも、Vultureが頼りになる場所や。最新のAMDとNVIDIA GPUを提供してて、6大陸32拠点にまたがってるから、最低のレイテンシが得られる。

業界をリードする価格対性能比も提供してて、深刻なアクセシビリティと信頼性もある。Vultureのグローバルな完全構成可能クラウドインフラストラクチャを使えば、アプリケーションをユーザーに近づけることができて、ベンダーロックインからも解放される。これについてはこのチャンネルで結構話してきたわな。

Vulture Kubernetes Engineもあって、単一のコンテナを超えてスケールすることができる。他のGPUプロバイダーで列に並んで待つのに疲れたら、今日Vultureをチェックしてみいや。視聴者には初回30日間で300ドルのクレジットを提供してくれとる。getvulture.com/bmanにアクセスして、コードbur300を使うのを忘れんといてや。Vultureに改めて感謝や。

追加ベンチマークと性能評価

動画に戻るで。Frontier Mathでの結果がこれや。Python付きo4 miniの19.3%、Python付きo3の10.3%と比較して27.4%を獲得しとる。

経済的に重要なタスクでの結果がこれや。X軸は人間がタスクを完了するのに要する推定時間で、Y軸は人間に対する勝率とタイ率を見とる。青が新しいChatGPT Agent、緑がo3、黄色がo4 miniや。

ChatGPT Agentが人間に対して勝ってるのが分かる。これがまさにこのベンチマークがテストしようとしてることやからな。30%以上のスコアを出してるように見える。つまり、30%以上の時間でChatGPT Agentがこの経済的に重要なタスクで人間を打ち負かしとるっちゅうことや。

DS benchがこれで、データ分析とモデリングにまたがる現実的なデータサイエンスタスクでエージェントを評価するように設計されとる。ChatGPT Agentが人間を打ち負かしとるのが分かる。縞模様の青がChatGPT Agentで、65%が人間のデータモデリングで、こっちも同じでChatGPT Agentが89.9%、人間が64.1%や。

Spreadsheet benchがこれで、スプレッドシートの作成と編集能力や。ここでは人間が71.3%、Excel アクセス付きのエージェントが45.5%となっとる。Excelで人間と同じレベルになるにはまだ道のりがあるな。

リスクと注意点

最後に一つ、このリリースはユーザーがChatGPTにウェブ上でアクションを取るように頼める初めての機能やから、新しいリスクが生じる。特にChatGPT Agentがデータと直接やりとりできるからや。

リスクはたくさんある。ウェブ上の悪意のある行為者がChatGPT Agentを説得してあんたの情報を渡させようとする可能性がある。やから、ChatGPT Agentに渡す情報にはほんまに注意せなあかん。そう、プランニングプロンプターが出回ってるなら、エージェントに社会保障番号を教えたら、そいつに教えてしまうことになるからな。