OpenAIが発表したChatGPTエージェント機能の実際の性能を検証する動画である。著者は同機能を使ってオンラインチェス対戦、プレゼンテーション作成、お絵描きツールでの作画といった複数のタスクを実行させ、以前のOperatorと比較してその速度と精度を評価している。特にチェス対戦では実際の人間の対戦相手と数分間にわたって対局を続けることができ、ウェブサイト上での視覚的なナビゲーション能力において大幅な改善が見られたという結果が示されている。

ChatGPTエージェントのチェス対戦テスト
現在、ChatGPTエージェントは実際の人間の対戦相手とチェスの試合を続けて、おそらく5〜6分が経過していますが、良好なパフォーマンスを見せています。
OpenAIがChatGPTエージェントを発表しましたが、この種の技術に注目してきた私たちにとって、これは完全に新しいものではありません。しかし、これは過去6か月ほどの間にリリースされた複数の異なる要素の集大成であり、組み合わせなのです。
スクロールダウンして、正直に言うと、この動画では私個人のベンチマークでこの機能をテストしてみたいと思います。こうしたエージェント的な機能が実行するのを見るのが面白そうだと感じるものでテストしてみたいのです。
簡単におさらいすると、ここに記載されているように、この新機能の中核は、Operatorのウェブサイトとの相互作用能力、Deep Researchの情報統合スキル、そしてChatGPTの知性と会話能力からなる統一されたエージェントシステムです。これは私が述べたように、これら3つの異なる技術要素の集大成であり、ここに小さな記事があって、この件について情報を見ることができます。
記事ではいくつかのベンチマークなどについて言及されており、特定のベンチマークで非常に良好なパフォーマンスを示しているようですが、正直に言うと、彼らが行ったデモンストレーション動画は私の意見では少し物足りないものでした。スーツを見つけて、友人の結婚式のために500ドル以下のギフトを探すといった内容でしたが、私のようにこれらのツールをより生産的なタスクに使いたい人にとっては、それほど適用可能ではないかもしれません。
この記事で興味深いと思う唯一の点は、生物学的リスクに対する安全性についての大きなセクションです。明らかに、私はこのチャンネルでこのことについて本当に話すことはありませんが、これらのモデルには初心者が良いかもしれないし悪いかもしれないものを作成するのを助ける能力があります。私たちのほとんどはクールなソフトウェアアプリなどを作るためにこれらを使いますが、それには暗い側面もあり、それはこの発表記事に prominently記載されています。
ChatGPTエージェントによるオンラインチェス対戦の実行
それでは、ここでこれを開いています。幸運にもChatGPT Proのサブスクリプションを持っています。今、chess.comに行って対戦相手とゲームを始めて彼らを倒すようにお願いしています。
ブログ記事と一般的な発表で述べられているように、これは実際にこれらのタスクを実行するために独自のコンピューターを使用します。実際にウェブサイトにサインインしたりできるので、何らかの認証情報が必要な自動タスクを実行してほしい場合に使えます。これはChatGPTコネクターなども使用できます。
できることがわかります。よし、ここで試行しています。フルアクセスのためにサインアップする、と出ています。私がOperatorテストで行ったものと比較して言えることは、これは遥かに、遥かに速いということです。これは私が最初にOperatorでテストした時よりも大幅に速いです。そして、これは実際に本当に試したのは初めてなので、これまでのところ実際にかなり印象的です。
興味深いですね。思考過程を表示しています。ああ、対戦相手が中断したに違いありません。これは本当にかなり印象的です。正直に言って期待していませんでした。デモンストレーションがこれに不利益をもたらしたと思います。実際にこれらのタスクを実行するのに多くの時間がかかるように見せましたが、非常に迅速に進行し、見ているものと何をすべきかを理解しています。
対戦相手が動かず、時間が減少しています。とても速く、カーソル上に思考の連鎖とでも呼ぶべきものを表示する方法が実際に気に入っています。よし、対戦相手が何かするのを待っています。
それから実際にコントロールを取り、対戦相手が何もしなかったのでゲームを中断したいかどうか私に尋ねました。これは印象的で、単純な愚かなブラウザ自動化制御システムを超えるある程度の能力を示しています。印象的です。そして彼らはここでブログ記事と発表で、これには多くの安全装置が実装されていることについて話しています。基本的に、多くの場合、決定をユーザーに委ねることになります。
これらは明らかに実際のユーザー体験から除去できるものです。現在は、関連性のないBingタブを閉じるといった安全性のために除去されていません。つまり、これは基本的に研究室の設定などで質問をしたりする必要なしに、このすべてを行う能力を持つことになります。
よし、何が起こるか見てみましょう。誰が最初に行くべきかわかりません。ああ、行きました。実際にポーンを動かしました。これが始まるかどうか見てみましょう。チェスに賭けを始めるつもりですが、ええ、あなたを倒しますよ。いえ。よし、見てみましょう。
誰かが今、エージェント的なChatGPTとチェスをしています。彼らはそうしていることを知りません。おそらく彼らもエージェントかもしれません。おそらくありそうにありませんが、見てみたいです。うまくいけば、この人が我慢しきれなくなって中断するほど遅くならないことを願います。
座標系で少し問題があり、正しく物事を動かすのに困っています。しかし、実際に最初にポーンを動かしましたし、まあまあの速度でやりました。よし、動かしました。今、正常に2つの動きを作りました。そして、非常に我慢強い対戦相手に対戦しているようです。私はそれに非常に満足しています。
彼らは今のところ私たちの動きを真似しています。私はチェスの専門家ではないので、おそらくこれは定石的な始まり方なのでしょう。一見したところ、これはおそらく物足りないように見えたかもしれませんが、私はOperatorを出たときしばらく試しましたが、これは大幅な、大幅な改善です。
私はまた、これが研究プレビューとしてより多く喧伝されていることも思っており、人々の目を白黒させたりすることもあるでしょう。しかし、ChatGPTが最初に出た時、ここの下部にある小さなスニペットテキストが、人々がそれをどのように使用するかについて学ぶことを可能にするためにChatGPTが無料の研究プレビューにあると書かれていたということを前置きとして述べます。つまり、これらの無料の研究プレビューは非常に印象的なものにつながる可能性があります。
現在、ChatGPTエージェントは実際の人間の対戦相手とチェスの試合を続けて、おそらく5〜6分が経過していますが、良好なパフォーマンスを見せています。
チェス対戦の結果と次のテストへ
残念ながら、勝てそうにありません。時間切れになってしまいました。チェスピースを実際に動かすのに問題があったようです。何が起こったのかよくわかりませんが、ああ、負けました。負けた時に何と言うか見てみたいです。負けたことを認識した時にです。
前のゲームに負けた後、新しいゲームを始める準備ができています。より大きなオーバーレイにオプションが表示されました。これはなかなか興味深かったのですが、これ以上続けさせるつもりはありません。ここで止めましょう。
正直に言って、どの程度の使用量が残っているか気になります。13分後に停止しました。396回の使用が残っていると表示されています。つまり、あの一連の小さな茶番劇はわずか1回の使用だったのです。それは実際に悪くありません。
残念ながら、Coinbaseには行ってくれませんでしたし、Google Geminiを使って質問をしてもらおうとした時は、回答を自分で生成しただけでした。この機能でもっと多くのことを紹介したいと思います。明らかに、13分間のチェスをするだけでは私には興味深かったですが、最良の動画にはならないかもしれません。
プレゼンテーション作成機能のテスト
これにはプレゼンテーションを作成する機能もあります。これらのサンプル的なことの1つをやってみましょう。サンプル的なことをするのは嫌ですが、プレゼンテーションの観点で実際に何を出力するかを見てみたいだけです。
PowerPointを作成するためにここで要求された追加情報を与えました。自分の写真を渡して、ロボットの名前はBigbot 4000で、ロゴに使用できる彼の写真がここにあると言いました。10スロット、つまり10スライドが必要で、これは人々に付き添いを提供するように設計されています。
レトロシンセウェーブカラースキームを使用してBigbot 4000の10スライドデッキを作成していきます。ここで実際に動作するDeep Researchを見ることができ、チェスをプレイした時に見た視覚ベースのブラウザよりも実際にウェブサイトをブラウズするのがはるかに速いです。市場情報などを調べています。
ここでの私の関心は主に、指定したカラースキームにどの程度よく従っているか、また私の写真をロゴに実際にどの程度うまく実装できるかを見ることです。27分後、ついに完了しました。
Big Bot 4000があります。見てみましょう。ここに研究レポートがありますが、それほど興味がありません。フルスクリーンにして実際のChatGPTインターフェース経由で再生してみましょう。このマシンにはPowerPointのようなものを再生するものがありません。
Big Bot 4000の市場参入戦略、次世代ロボティックコンパニオン、2025年7月18日があります。市場展望、成長ドライバーとグローバル市場成長があります。これも再び、Operatorまたはこのエージェントができるはずのことの1つで、実際にこの種のデータメトリックなどを正確に引き出し、それをプレゼンテーションに組み込むことができるDeep Researchの機能を組み合わせることです。
成長ドライバーがあります。ターゲットセグメント、テクノロジー志向の家族、都市住民。興味深い。侮辱のように聞こえます。高齢者。はい、確実にそれは真実です。オーディエンスのニーズと解決策。彼らのニーズとBig Botソリューションがそれらのニーズにどのように適合できるかがあります。コーディングゲームとストーリーテリングアプリ。
都市住民はこれが静かで非アレルギー性のコンパニオンであることから恩恵を受けるでしょう。高齢者、共感的AI、医療リマインダーと転倒検知。それは実際に真実です。ポジショニングと差別化、感情的AI、適応モード、ユーティリティ。これは少し退屈になってきていますが、レトロ美学の流通チャネル。
ローンチタイムラインがあります。実際の時間はここにありませんが、私はその情報を何も与えませんでした。つまり、それは単にスライドごとに悪くなっているだけです。今がその時です。これは正直に言って、偽物だが人々はそれを知らないというような冗談の番組で発表されるようなスライドデッキのように見えます。
全体的に、実際に生成されたPowerPointに関しては、これは非常に物足りない結果だと言えるでしょう。とても醜く、あまり見栄えが良くありませんでしたが、再び、巨大な研究物などがあります。これらは実際に何かを構築しようとしており、実際の製品のためにこの情報が必要な場合には、おそらく有用なものでしょう。
この全体が27分かかりました。しかし、ここで実際に行った研究の量を考慮すると、人間がこのすべてを実際に行うのに27分よりもはるかに長い時間がかかっていたでしょう。そして、おそらく彼らはこのPowerPointからインスピレーションを得るかもしれませんが、正確にそれを使用することはないかもしれません。
Excalidrawでのお絵描きテスト
私が実行する最終テストとして、Excalidrawという無料のオンラインホワイトボードのようなものに行き、そこでツールを使用して実際にホワイトボード上にきれいな絵を描くように頼んでいます。もう少しエージェント的であることを期待しています。これはかなり興味深いかもしれません。実際にとても興味があります。
今度はすぐに実行しています。毎回100%保証された速度ではないようですが、実際の視覚的ウェブブラウジングがOperatorよりもはるかに速いので、信じられないほどでした。
描画ツールを理解していますね。山の形状パスをキャンバス上でクリックしてドラッグすることで描いてみましょう。クール。最初の描画マークを作りました。私たちが何をしているかのライブビューを与えるのではなく、私たちがしていることのスライドショーのようなものを与えています。
それは円の形ではありません。非常に精密なクリックに対して100%調整されていないことがわかります。青いダイヤモンド形を誤って描いたと思います。そして削除しました。美しい。太陽の周りに光線を描いています。実際にそこに光線が見えます。思っているような場所に完全に直接的ではありませんが、実際にここでこの描画を進めており、将来的に相当な金額で競売にかけられる可能性があると思います。
それで完成したと考えています。無料のホワイトボードを開いて、あなたのために絵を作成しました。山、光線のある太陽、空の鳥、地平線が特徴です。それはやらないでしょう。まあ、それは大丈夫です。
正直に言って、おそらくこれで要約になると思います。なぜなら、このようなことしかないからです。私はただそれで遊んで、それで遊んでいる動画を作りたかっただけです。
総合評価と感想
これは、特定のシナリオで実際にかなり印象的だったと言えるでしょう。私は出た時にOperatorを使用しましたし、基本的に自律的に誰かとチェスをプレイさせるという同じことを試しました。それは実際に手を打つには遅すぎたので、現れるすべての対戦相手は当然のことながら我慢できなくなってキャンセルしてしまいました。
これはブラウザページ周りの視覚的なナビゲーションのいくつかの種類で非常に高速で、これまでに経験したことがない方法です。実際にそれを駆動するために、バックエンドでおそらく多くの高価な計算が行われているでしょう。しかし、パフォーマンスとして、これはかなり印象的です。
私があまり印象的ではなかったと言えることの1つは、PowerPoint生成でした。1つは、現在PowerPointをプログラム的に作成することがとても高度なことかどうかわかりません。見た目が素晴らしくなかったからです。実際に市場調査などを行ったDeep Research要素は明らかにとてもクールなものです。そして、それをすべて行えるツールを持つことは多少印象的だと思います。
全体的に、これは非常に有望な見通しだと言えるでしょう。なぜなら、私がこれを判断する方法は、Operatorのテストから実際にこれをテストするまでの進歩を見ることで、私が行いたい主要テストであるオンラインチェスマッチで実際に使用可能になったからです。以前はそうではありませんでした。これがどこに向かうかを見るのに興味があります。
そして明らかに、現在はこれの周りにガードレールがあります。Coinbaseにさえ行かせてくれませんでした。実際に私の代わりに楽しみのためだけにいくつかの取引を実行するのに十分な速度があったので、これはかなり残念でした。
これがChat GPTエージェントの私たちの見解をまとめることになります。述べたように、これは確実にOperatorより一歩上を感じます。そしてそれで遊んで、実際にかなり迅速に物事を進めて実行するのを見ることができるのは印象的であり、これがどのように進歩するかについて将来が少し心配になります。なぜなら、実際にチェスで先を計画して他の対戦相手を間違いに追い込むような、それらの背後にある実際の思考でウェブサイト上で視覚的にナビゲートし、アクションを実行する本当に深い能力を示しているようだからです。
ということで、何か質問がありましたら、お気軽にコメントに残してください。ご視聴ありがとうございました。


コメント