この動画は、OpenAIが突如発表した新しいChatGPTエージェント機能について詳しく解説するものである。従来のDeep ResearchとOperatorの機能を統合した革新的なツールで、内部思考プロセスを持ちながら仮想コンピューター環境で実際にウェブサイトを閲覧し、様々なタスクを自動実行できる点が特徴である。リアルタイムでの作業過程の可視化、中断・修正可能な柔軟性、そして人間レベルに近い性能を示すベンチマーク結果が紹介されている。Matt Vidpro AIが実際の使用例やコミュニティの反応を交えながら、この技術の可能性と今後のAIエージェント時代への展望を語る内容となっている。

ChatGPTエージェントの衝撃的な登場
皆さん、こんにちは。Matt Vidpro AI YouTubeチャンネルへようこそ。今日は大きなニュースについてお話しします。ChatGPTエージェントがついに登場しました。これについて事前の警告はほとんどありませんでした。OpenAIは特に何も言わず、ただライブストリームを行うと言って、そしてこれを発表したのです。
正直言って、かなり素晴らしいものです。OpenAIからの見出しは、彼らが研究と行動を橋渡ししているということです。OpenAIのDeep Researchツールと、OpenAIのOperatorツールについて考えてみてください。彼らは本質的にこれら2つのモデルを取り、それらを1つのものに組み合わせました。その影響や実際にどのように行ったかについては後ほど詳しくお話しします。
しかし、まず最初に、この機能が何についてのものなのかをお見せしたいと思います。このライブストリームでは、Sam Altman自身が実際に登場しました。これは通常、より重要な発表を意味しています。
驚異的な機能と人間らしい動作
この機能の最も興味深い点の一つは、o3のような最上級の思考LLMで通常見られるような内部思考連鎖を持っているだけでなく、仮想コンピューター、仮想環境を実行してやり取りし、ウェブサイトを閲覧し、その他多くのことを行う能力も持っていることです。これらすべてをリアルタイムで実際に見ることができます。ChatGPTウィンドウにストリーミングされています。
この機能が動作するのを見るのは、正直かなり驚くべきものです。なぜなら、それは人間的に感じられるからです。人が期待するようにPCを閲覧し使用できる一方で、人間がするように正確に考えているのです。ちょっと不気味です。人間がコンピューターを使っているようですが、直接統合されており、また完全に人工的でもあります。
このモデルが実際にアクセスできるすべてのツールについて、彼らはそれらのツールアクションに対して強化学習でトレーニングしました。そのため、非常に深い方法でツールの使用方法を理解しており、LLMでエージェンシー機能をはるかに先まで押し進めることができるようです。
多彩な機能とリアルタイム協働
それが実行できる他の機能について言えば、既に述べたように、ターミナルアクセスを持っていますが、もちろんAPIも使用でき、コードを実行し、新しいファイルやファイルシステムを作成できます。インターネットからものをダウンロードできるかどうか、本当に興味があります。少し後でいくつかの潜在的な使用例について話しますが、スクリーンショットも送信できます。
例えば、何かを予約していて、利用可能日が限られている場合、実際に今見ているもののスクリーンショットを撮り、利用可能性と日付についてウェブサイトが何を言っているかを示し、それをあなたに送信することができ、それが全体的なレポートや応答の一部になることができます。
OpenAI自身の言葉では、ChatGPTエージェントは反復的な協働ワークフロー用に設計されており、以前のモデルよりもはるかにインタラクティブで柔軟です。ChatGPTが作業している間、いつでも中断して指示を明確にしたり、より望ましい結果に向けて誘導したり、タスクを完全に変更したりできます。これは素晴らしいことです。
これは以前のOperatorについての問題の一つでした。それほど順応性がなく、柔軟性がありませんでした。何か基本的なことをやらせて送り出すと、時々求めているものを持って戻ってきますが、制限があります。新しい情報で以前の進歩を失うことなく、中断したところからシームレスに再開します。そしてそれは大きな問題です。
真の統合とプロアクティブな支援
タスクのコンテキストが彼らがここで言うように真に統合されている場合、硬いボットではなく、実際の人間と働いているように感じられるでしょう。そしてこれを見てください。ChatGPT自体が、タスクがあなたの目標と一致し続けることを確実にするために必要な時に、積極的に追加の詳細を求めてくる可能性があります。予想以上に時間がかかったり、特定の領域で行き詰まったと感じたりした場合、いつでも一時停止して進捗状況の要約を求めたり、完全に停止して部分的な結果を受け取ったりできます。
スマートフォンでChatGPTを使っている場合、タスクが完了すると通知が送られてきます。追加の詳細を求めることについて強調したいと思います。ライブストリームでは、犬用のステッカーを作成するデモンストレーションが示されました。ちなみに、それはOpenAIからの画像生成APIアクセスでそれを行いました。
しかし、もちろん、ユーザーに発送される物理的なステッカーの代金を支払う方法がありません。そのため、全体を一時停止して「クレジットカード情報を入力する時間です」と言います。それ自体ではできないことです。
実世界での活用例と可能性
実世界での実用性と使用例について話しましょう。ここで彼らが最初に言及したのは、反復的なタスクの自動化です。スクリーンショットやダッシュボードを編集可能なベクター要素で構成されたプレゼンテーションに変換すること、会議の再配置、オフサイトの計画と予約、新しい財務データでのスプレッドシートの更新です。そして、例えば、そのデータを直接あなたのメールから取得することさえできるかもしれません。この機能は実際にGoogle Driveや、実際にログインが必要な他のアプリケーションに接続できます。
個人生活では、旅行日程の計画と予約、ディナーパーティー全体の設計と予約、専門家の検索と予約スケジューリングに使用できます。私には他にも独自の使用例があります。
ベンチマーク結果と性能比較
実際にいくつかのベンチマークを得ました。では、Humanity’s Last Examを見てみましょう。Grokがこれを圧倒したことは知っていますが、この新しいChatGPTエージェントはどのように持ちこたえるでしょうか。
ツールアクセスなしのモデル単体では約23%しかありません。この困難なベンチマークでは悪いスコアではありません。例えば、ツールなしのo3よりも少し良いです。ツールなしのGrok-4は、ツール付きのo3と同程度で、約25%です。そして、ツール使用ありのGrok-4は、このベンチマークで約38.6%です。
ChatGPTエージェントは完全なツール使用でどうでしょうか。41.6%です。リーダーボードの絶対的なトップにかなり近く、ツール付きのGrok-4より優れています。
そうです、これは新しい王のようなものです。ただし、Grok-4 Heavy、彼らのマルチエージェント版のGrok-4は45%まで得点します。それでも、この機能はベンチマークで良い成績を収めています。正直言って、このモデルをツールなしで比較するのは公平ではないと思います。このモデルをツールなしで使用することは決してないでしょう。全体のポイントは、すべてのツールとそれらを適切に使用する方法について強化学習でトレーニングされているということです。
そして、ツールを備えた環境へのアクセスが与えられています。それがポイントなのです。そして、この右ここのものは特に興味深いと思います。なぜなら、ここで人間がベンチマークされているからです。ExcelでWindowsのGPT-4oが18.4%を得ているのがわかります。それはあまり良くありません。Copilotはわずかに良いですが、大きな悪いo3はGPT-4oよりも少し良く、しかしChatGPTエージェントはo3よりもはるかに良いです。
実際、GPT-4oのスコアをo3のスコアに加えると、ChatGPTエージェントのスコアが得られるかもしれません。そして、ChatGPTエージェントにXLSXドキュメントアクセスを与えると、バーンと45.5%まで跳ね上がります。正直、かなり衝撃的です。それは元のo3スコアのほぼ2倍です。
では、人間はどうでしょうか。人間はスプレッドシートがかなり得意です。結局のところ、私たちがそれらを発明したのですから。人間は71.3%です。AIはまだ実際の人間のパフォーマンスに完全には達していませんが、そこに向かっています。急速に這い上がっています。
更なる優秀な成果
投資銀行ベンチマーク。これもo3やDeep Researchより優れています。精度が上がっているだけでなく、平均精度も向上しています。これは偶然ではありません。一貫して優れています。そして、エージェンティックブラウジングでもかなりの差で優れています。約50%から跳ね上がり、o3は私の現在の毎日のドライバーです。ChatGPTエージェントはほぼ69%です。ナイス。
Web Arenaについて。これは実世界のウェブタスクとエージェントの競争です。この機能が人間レベルに近づいているのがわかります。正直言って、4oやo3よりもわずかに良いだけですが、人間は78.2%しかありません。これは、エージェンティックブラウジングでどこまで到達したかを示すものです。AIブラウジングが最初にリリースされた時は、絶対にひどいものでした。今はまるで魔法のようです。
利用可能性と料金プラン
利用可能性について話しましょう。これは大きな問題だということは知っています。AI神々に感謝しますが、実際にPlusとTeamユーザーで利用可能になります。展開は今日Proから始まります。すべてのProユーザーは今日の終わりまでにアクセスを取得し、PlusとTeamユーザーは今後数日でアクセスを取得します。EnterpriseとEducationユーザーは今後数週間でアクセスを取得します。
Proユーザーは月400メッセージですが、有料ユーザーは月40メッセージしかありませんが、それでもかなり十分な量です。月20ドルのPlusプランで確実に1日1メッセージ以上です。そして、例えばPlusプランで追加の使用量が実際に必要な場合、明らかにクレジットベースのオプションを取得できます。
では、何をお勧めしますか。正直言って、Plusをお勧めします。起業家でなく、価値を創造するためにChatGPTを毎日積極的に使用していない限り、Proプランは本当に価値がないと思います。月400メッセージはたくさんです。複数の人の仕事をする必要があり、そんなに多くのメッセージを送信する必要がある場合は、どうぞ。しかし、個人的には、月40メッセージのPlusプランに固執します。数日早くアクセスを得るため、または非常識なメッセージ制限を持つために追加の180ドルを支払う必要はありません。
これは大きな落胆です。彼らはまだヨーロッパ経済地域とスイスのアクセスを有効にできません。将来的には来る予定です。しかし、それはそれらの国の法律と関係があると思います。Operatorは廃止され、数週間後にサンセットしますが、Deep Researchは今のところ継続するようです。
Deep Researchは実際の合法的な研究論文スタイルのものに対してまだかなり素晴らしいです。彼らはもちろん、いつものように安全性について多く話します。それはOpenAIにとってかなり大きな懸念領域です。今日はそのすべての詳細に深入りするつもりはありませんが、もちろん、すべてが下の説明にリンクされています。
コミュニティの反応と初期テスト
さて、私は明らかにPlusユーザーなのでまだアクセスできません。ご覧のとおり、悲しいことに私のOpenAIツールボックスには新しいものはありませんが、少なくとも見ることができる多くのデモがあり、すでにアクセスを持っているコミュニティメンバーでさえオンラインでいくつかのものを共有しています。
全世界がAIエージェント中心の世界観に進化するまでには時間がかかるかもしれません。そして、私たちは世界が現在いる場所で世界に出会うために、できることをすべきだと思います。
私の名前はJohnです。OpenAIでDeep Researchとエージェントチームで働いています。よく出てくる素晴らしい使用例の一つは、何らかの予算ファイルを持っていて、それを行うたびに、それは面倒で、おそらく4〜8時間かかり、それがあなたの一日になるということです。
サンフランシスコ市の年間予算、支出、過去5年間の収益に関する情報をエージェントが調達し、それをすべて1つのきれいにフォーマットされたスプレッドシートにまとめる例をお見せします。それは自分で進みます。私は通常、ラップトップを閉じて、コーヒーを取りに行き、昼食を取るかもしれません。
実際のデモンストレーション
まず、データを見つける必要があります。そのため、おそらくウェブ検索を行い、このサンフランシスコ市の予算情報をどこで見つけることができるかを理解します。サンフランシスコ市政府のウェブサイトを見つけたら、PDFファイルにアクセスしようとします。それは独自のファイルシステムなどを持っているので、各PDFから約200の数字を抽出する必要があり、最終的に一度にスプレッドシート全体を生成する1つのコマンドを持ちます。
チャットに戻ると、最終的な応答が表示されます。そして今それを開いてみましょう。はい、98%の情報を正しく取得したと思います。また、指示されたとおりにExcelワークブックもフォーマットしました。この場合、修正は小さかったので、コピーペーストだけだったのでExcel内で行いました。しかし、絶対にChatGPTで行うことができます。
ただ試してみることをお勧めします。実際の時間のかかる作業の90〜95%を実行できれば、多くの時間を節約できます。うん、かなり合理的に思えます。
本当に興味深いのは、今説明されたことの80%は以前o3で実行できたと感じることです。これでその境界線がどこに引かれるのか、本当に興奮しています。今o3に何らかの形でスプレッドシートを作るように頼めると感じています。おそらく似たようなプロンプトでしょう。それは同じくらい良い仕事をするでしょうか。同じくらい詳細でしょうか。わかりません。つまり、システム全体を動かしているのは異なるモデルでさえあります。再び、ツールでトレーニングされています。どこで地歩が固められたかを知りたいです。
OpenAIチームからの洞察
私たちはモデルを改善するだけでなく、モデルが使用できるツールを改善するという旅路にあり、それは何らかの共生のようなものです。ツールが良ければ良いほど、エージェントはそれをよりよく使用でき、エージェントが良ければ良いほど、より強力なツールを使用でき、それは延々と続きます。私はDashishです。
私はエンジニアで、OpenAIの製品チームで働いています。日常生活や仕事で、人々は様々なツールを使用し、私たちはモデルにこれらすべてのものを利用するようにトレーニングしているだけで、エージェントに可能な限り多くの力を与えています。
今日、私はエージェントに来年パームスプリングスでのテニストーナメントに行く日程を予約するように頼みました。準決勝の周りで機能する日程を見つけてください。なぜなら、それは本当にエキサイティングだからです。そして、エージェントは基本的に、どのくらいの費用がかかるか、一日のあらゆる部分で何をすべき活動をするかの詳細な日程を私に提供します。
それに追加のスピンを与えるために、私のカレンダーを見て、どのフライト時間が私に合うかを理解するようにも頼みました。私の夢が叶いました。何をすべきかを言うだけで、そして立ち去ることができます。
モデルが最初にしなければならないことは、どのツールが必要かを理解することです。ビジュアルブラウザを立ち上げます。私は自分の個人データを接続するためにコネクタを使用します。そのため、エージェントにGmailとGoogleカレンダーへのアクセスを与え、そのデータにアクセスできるようにします。
詳細な作業プロセス
それから最初にしなければならないことは、実際にトーナメントの日程が何であるか、いつ利用可能か、どのくらいの費用がかかるか、どこで食事をするか、いつチケットを取得できるかを理解し、3日間の日程すべてについてこのプロセスを進めます。
エージェントの準備ができると、電話やラップトップに通知を送信し、エージェントが何をしたかを確認し、レビューできます。それはかなり良くやりました。基本的に、トーナメントが3月12日から3月15日まで開催されることを理解しました。
それから、3月12日の私の会議が4時30分に終わることを理解し、交通渋滞のためにここからSFOまで約1時間かかることを理解しました。そのため、実際に私に合うフライトの時間を理解しました。そして、基本的にどのホテルに滞在するか、いつ試合に参加するか、どこで食事をすべきかを理解しました。
誰もが調査、ここを見る、これをするなど、仕事の何らかの興味のない部分を持っています。ただその事柄に取り掛かりたいだけで、エージェントはそれを私にさせてくれます。
現在のツールとの比較
知っていますが、再び言うと、o3は私の現在の毎日のドライバーで、正直かなりエージェンティックです。似たような方法で将来のことを計画するために使用したことがあります。それは同じくらい正確でしょうか。おそらくそうではないでしょう。オペレータースタイルの実際のコンピューター使用にアクセスできないため、特定のリソースを見逃している可能性があります。
実際に手に入れて使用できるようになったら、本当に味覚テストに落ち着くでしょう。現在、これらのことの多くで正直多くの成功を収めています。多くの場合、旅行の計画などの特定のタスクでo3にpingします。多くのオプションや潜在的なオプションのリストを提供し、それから独立してそれらをレビューします。なぜなら、物事を見逃すことがあり、写真を見たいからです。
例えば、私は本当に特定の要件を持っているかもしれません。ChatGPTはそれらのいくつかを見つけることができるかもしれませんが、人のような同じ視覚的アクセスを持っていません。実際の人のようにコンピューターを操作することはできません。もしそれが本当にその方法でオペレーターを使用することができるなら、限界をはるかに先まで押し進めることができるかもしれません。
そして再び、念頭に置いている実行したいいくつかのタスクがあります。皆さんとそれについて話したいと思います。
カスタマイゼーションと多様なツール
誰かにハンマーを与えると、すべてが釘に見えます。今、私たちは全体のツールボックスを持っています。非常に多くの異なることができ、適切な状況でどのツールを使用するかを知るのに十分スマートです。
私はNickです。エージェントチームのエンジニアです。エージェントで今行った本当にエキサイティングなことの一つは、これらのコネクタ、GmailコネクタやDropboxコネクタを提供できることです。そのため、あなたの履歴、何をしたか、何が好きかを学ぶことによってあなたが誰であるかを理解し、その情報であなたの代わりによりよい決定を下し、よりよい行動を取ることができます。なぜなら、それはあなたを知っているからです。
ChatGPTに、私の婚約者との生活を整えてもらえますかと尋ねました。そのため、エージェントにそれを行ってもらいます。私はすでにエージェント用にGoogleカレンダーコネクタを設定しました。予約をするように頼むと、いつ利用可能かを知っています。
シンプルなタスクを書きます。サンフランシスコで寿司レストランを見つけて、利用可能な夜にOpen Tableで予約を取ってください。私の婚約者がグルテンフリーであると言いました。それは単にChatGPTが私について常に知っている価値あることです。そして、毎回それを入力する必要がないようにしたいのです。それはそれがそうであることを知っているだけです。
ラップトップを閉じて他のことをすることができます。それは何らかの高レベルな計画を立てます。これが私がしようと思っていることです。レストランを検索し、次の利用可能性をチェックし、それからクロスチェックして、これらが良いレストランであることを確認します。
実際の予約プロセス
それを行うために、手の届く範囲にあるツールを使い始めなければなりません。そのため、今、クリックして、よりビジュアルなことを行うために使用できるビジュアルブラウザの両方を提供しました。また、テキストブラウザも持っています。そのため、多くの情報を本当に迅速に取り込む必要がある場合、Googleカレンダーコネクタで、API呼び出しを行い、その情報をすぐに取得できます。
基本的に、私をそこまで連れて行きました。来週のサンフランシスコでこのレストランを見つけました。素晴らしい選択です。そのため、これまでにやったことにかなり満足しています。時々、ちょっと驚かされます。予期しなかったことをしたり、気づいているよりも良かったり、気づいているよりも速く良くなったりしています。うん、おそらく少なくとも週に一度はその瞬間があります。
個人的なテスト計画
再び、それは今o3に送り出すことができると感じるものです。実際にOpen Tableで予約をスケジューリングしてくれることは、少しトリッキーになるでしょう。そのようなことができるエージェンティックAIがありますが、うまくいけば、これはより速く、より継ぎ目がなく、過去にそれらのエージェンティックAIで見たようにしばしば失敗しないでしょう。
OpenAIが見せびらかしているこれらのデモは、正直私の意見では、かなり軽量です。私にはより重いことが念頭にあります。そのため、皆さんと一緒に見てみたい私自身のプロンプトがあります。コメントで良いか悪いかを教えてください。そして、もちろん、独自のプロンプトのアイデアがある場合は、コメントに残してください。
私はコメントを読みますし、実際のハンズオンテスティングビデオに確実に載る可能性があり、ライブストリームも行うかもしれません。
ビデオゲーム制作への挑戦
最初の考え。ビデオゲームを作ることができるでしょうか。これはかなり典型的なテストです。Grok-4がビデオゲームをするのを見ます。Claude 4、Gemini 2.5 Pro、さらにはo3も見ます。しかし、多くの場合、彼らはコードを書いて、それを設定して自分で実行する方法についての少しのチュートリアルを提供するだけです。
この機能がどこまで行けるかを見たいと思います。ただファイルを準備して、ゲームをプレイする準備ができている状態にするまで。特定のスプライト、特定の背景をダウンロードすることさえあるかもしれません。エージェンティックコーディングとゲーム制作でこの機能をどこまで進めることができるでしょうか。
この機能はターミナルへのアクセスを持っていることを覚えておいてください。コードを書いて実行できます。特定のAPIを使用し、人間のようにウェブを閲覧できます。ファイルとファイルシステムを作成できます。そして、コメントで皆さんの声がすでに聞こえています。
OpenAIのモデルはコーディングがかなり得意だが、2.5 ProやClaude 4ほど良くないと言うかもしれません。聞こえています。Gemini 2.5へのアクセスを与えるとどうなるでしょうか。Gemini 2.5にコードをプロンプトしてください。コードを自分で書かないでください。それに対して異なるAIにプロンプトを送り、コードを取得し、それを使用してください。十分シンプルですよね。なぜそれが機能しないでしょうか。もちろん、ログインする必要がありますが、任意の時点でコントロールを取り、自分でログインできます。そのため、確実にテストできます。
PC構築とゲームプレイのテスト
私が頻繁にテストするもう一つは、素晴らしい中古予算PC構築を作ることができるかです。通常、これをPC Part Pickerのようなもので行います。そこでは基本的に、個々のコンピューター部品ごとに選択できるオプションのリストを持っています。しかし、これについては、実際にeBayで中古リストを見つけ、特定のコンピューターストアサイトで割引を見つけ、総費用で私が購入するためのすべてを準備してほしいと思います。
それはかなりクールだと思います。また、ゲームをプレイできるでしょうか。Cool Math Gamesのようなところに連れて行けるでしょうか。ヘイ、Run 2のような、シンプルなポイントアンドクリックゲーム、チェスのようなものをプレイしてください。それがそのような視覚的理解と時間管理を持って、そのようなことについていけるかどうかを見てみたいです。
Run 2のような、もう少しリアルタイムのゲームは、おそらく機能しないという感じがあります。しかし、ターンベースのもの、バルーン、タワーディフェンス、わかりません。それは非常に興味深いでしょう。
ファクトチェックとリサーチ能力
また、この機能が基本的なファクトチェックでどのように機能するかを見たいと思います。これはかなり大きなことです。ファクトチェックにo3をよく使用します。言わなければならないことは、かなり優秀です。しかし、AIがオンラインで情報を取得する場合、多くの場合、ボットやエージェントを防ぐために設置された小さな障壁やブロックに遭遇します。メタデータを取得できます。
特定のサイトを閲覧できます。しかし、実際のエージェンティックな仮想ブラウザコンピューター使用では、スクリーンショットを実際に撮り、ウェブサイトがどのように見えるか、情報をどのように提示しているかを取り込んで理解できます。ぼやけすぎている場合の画像分析でさえできます。
この人はある時点で亡くなり、このミームは彼が戻ってきたと言っているかもしれませんが、それは真実ではないかもしれません。ぼやけた画像だけです。また、前述したように、ファイルシステムへのアクセスを持っているため、複雑なプロンプトで将来の自分のためにメモを作ることも潜在的にできます。この機能で試すことができるアイデアがたくさんあります。
そのため、私の脳は絶対に唸っています。アクセスを得るのが待ちきれません。終わる前に、これについてのコミュニティの意見と、人々が今日試していることを見てみましょう。
コミュニティの初期反応
Matt WolfがすでにChatGPT Proアカウントを更新しているのが見えます。私はProを持っておらず、Plusがすでにアクセスを取得するため、それに支払うつもりはありません。彼の返信で実際にアクセスを持っている人はまだ見えません。そのため、今アクセスを持っている唯一の人々は、一部の人々、高い味覚テスターが実際に早期アクセスを与えられた人々のようです。
Dan Shipperがいます。ChatGPTエージェントは野生的です。彼は、Koraコンピュータ会社のコア顧客と最大の欠けている機能を特定するように頼みました。1500のサポートメールと数百のサポートフォーラム投稿をスキャンして、誰が私たちを愛し、誰が私たちを嫌い、なぜかについての完全なレポートをまとめました。本当にそれが好きです。
この応答を構造化する方法は、今o3やGPT-4oから得られるものと非常に似ていることがわかりますが、必ずしも応答のサイズについてではありません。その中のジューシーな詳細についてです。4oやo3にこのような1500のメールや必ずしもフォーラム投稿への直接アクセスを与えることはできません。つまり、そのデータを自分で取得して持ち帰ることはできますが、これは送り出して取り戻すシンプルなプロンプトです。
準備すれば、今持っているもので、このレベルに到達できますが、これはより簡単です。彼は言いました。これは約20分かかりました。1500のメールと数百のフォーラム投稿を精査し、そのようなレポートを作成するのにどのくらいの時間がかかるでしょうか。おそらく20分以上でしょう。おそらく丸一日でしょう。
そのため、この機能は強力になっています、男。本当に強力になっています。また、新しいエージェントがホワイトカラーの作業タスクで人間レベルに本当に近づいているという声明を作っている私たちの仲間Plyもここにいます。
実際の仕事の置き換えシナリオについて話しています。ChatGPTはすでに人々の仕事のやり方を完全に変え、いくつかの仕事を置き換えていますが、これは全く別のレベルの自動化とタスクの完了です。
専門家の評価と将来展望
Ethan MullickがChatGPTエージェントへの早期アクセスを得て、彼の意見では、AIに実世界のタスクを実行させるための大きな前進です。この段階でも、自律的に研究を行い、数式やパワーポイントなどでExcelファイルを組み立てるのに良い仕事をします。エージェントがどのように結び付いているかの感覚を与えます。次のステッピングストーンのように思えます。わあ。
この例では、38分間作業したのがわかります。これについて本当にクールなのは、以前に会話をしたように思えることです。基本的なプロンプトを与えます。いくつかのフォローアップ質問で戻ってきて、人間と働いているようですが、その応答を9秒で速く提供します。答えを与えます。さらにいくつかの質問があります。その答えは5秒で来ます。最終的な応答を与え、それから40分間作業して、最終結果で戻ってきます。
それでも会話できるのが好きです。20分間の作業を行って立ち去るだけではありません。実際に物事を明確にするように頼むので、特にあまり手がかりがないことについて尋ねている場合、行っていることから最良の結果を得ることができます。
作業しているスプレッドシートを見ることができます。そこに数式があります。悪くありません。私の個人的なスプレッドシートがはるかに良いとは言えません。うん、スライドピッチデッキを行うのが見えます。かなり基本的に見えますが、悪くありません。
より広範囲の分析的およびコンピュータータスクが可能な実際のインターンと働いているようにはるかに感じられます。そして、インターンのように、フィードバックを与え、行ったり来たりして作業したいと思います。まだ完全にそこまでは行っていませんが、パラダイムはプロンプティングから委任に移行しています。絶対に同意します。o3でもそれを感じました。
Manusとo3のクロスのように感じます。Manusはややより複雑なタスクが可能ですが、エージェントは研究を統合し、より広範囲のタスクを実行するのがより優れています。
最終的な感想とまとめ
まあ、それが今のところ言わなければならないすべてです、皆さん。使用している実際のハンズオン映像がないことを本当に申し訳ないと思いますが、数日早く入手するために追加の180ドルをProアクセスに支払うつもりはありません。言及したように、すでにビジネスや何かでそれを使用して積極的に価値を高めている場合を除いて、あなたもそうすべきではないと思います。
しかし、OpenAIからの良いドロップのようです、皆さん。この夏、彼らは他に何を私たちのために用意しているでしょうか。疑問に思います。また、Humanity’s Last ExamスコアについてのGrokへのかなり良い反撃でもあります。とにかく、皆さん、見てくれてありがとうございました。次のビデオでお会いしましょう。さようなら。


コメント