OpenAIが新たにリリースしたエージェントモード機能について詳しく解説した動画である。このエージェント機能は既存のChatGPTに統合されており、ウェブブラウジング、ファイル操作、コンピューター制御などの機能を組み合わせて複雑なタスクを自動実行できる。DeepResearchとOperatorの機能を統合した進化版として位置づけられ、Pro版ユーザーは月400回、Plus/Team版ユーザーは月40回の利用が可能となっている。動画では他のエージェント系ツールとの比較や性能評価、今後の展望についても言及されている。

OpenAIエージェントモードの登場
皆さん、OpenAIがついに知能エージェントシステムをリリースしました。これは彼らのメインIDEに統合されているんです。そうなんです。通常のChatGPTと一緒に、今度はエージェント機能が他のツールと統合されて組み込まれています。
これは大きなニュースなのでしょうか?この発表で重要なことは何でしょうか?OpenAIが本当に何かを見せたくてリリースしたのか、それとも単に時間稼ぎをしているだけなのか?では、何が起こっているのか理解してみましょう。一緒に見ていきましょう。
チャンネルへの感謝とメンバーシップについて
そうですね。さあ行きましょう、皆さん。いつもライクを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。この人工知能チャンネルをスポンサーしてくれているチャンネルメンバーの皆さんに特別な感謝を申し上げます。
メンバーの方々は知能エージェントの専用動画にアクセスできることを忘れずにお伝えします。そこではゼロからWhatsApp統合の方法、PDF読み取り、MCP統合、その他多くのことを教えていますし、先行公開動画もあります。
OpenAIエージェントの詳細解説
さて皆さん、今日の発表はOpenAIのエージェントが本格的に登場することです。結局、何が新しいのでしょうか?Operatorを考えるとき、Deep Researchや既にOpenAI内にある他のツールを考えるときに何が変わったのでしょうか?
実際に彼らがやったのは、Deep ResearchとOperatorを組み合わせて、さらにバックグラウンドでコマンドを使用する機能とコンピューターを使用する機能を配置したことです。
結局のところ、彼らが今私たちに提示しているものは何でしょうか?私たちが長い間知っている人間で、Jane Sparkとして知られ、他の多くの名前でも知られているものです。なぜなら、これは基本的に何も新しいものではないからです。
しかし、OpenAIは彼らのやっていることに関して何か新しいもの、Manos、James Park、その他多くのエージェントプラットフォームに対する何らかの差別化要素をもたらしているのでしょうか?
はい、彼らが一般的に主張しているのは、実際にモデルのトレーニングを行っており、このモデルがより長いコンテキストタスクで作業するための強化学習を経ているということです。
私は既にコンテキストエンジニアリングについて話した動画を作りました。こちらでご覧ください。それはCognitionと長期推論のいくつかの技術について話している動画で、まさにこのタイプのタスクのためのものです。
つまり、アイデアは専門モデルがあって、あなたがリクエストをするとそのリクエストを最善の方法で満たそうとするということです。タスクを実行するマルチエージェントシステムか、あなたがどこに到達したいかを明確にするための質問をするかのいずれかで。
エージェントモードの使用方法
最初に注意すべきことは次のとおりです。通常のチャット、いつものクラシックなChatGPTがあるとき、ツールを開くと、今度は使用できるエージェントモードが解放されています。
クリックすると、ここでエージェントモードが青くなります。スラッシュエージェントと入力してエージェントモードに入ることもできます。そして今度はエージェントに実行させるタスクを依頼します。
いつものプロンプトを作成し、やりたいことを書きます。例えば、ここでは年末に結婚する友人たちがいます。結婚式の情報があるウェブサイトがあります。
そして彼はモデルに、その日に着る服を見つけたり、ホテルの予約をしたり、重要なその他のことをするのを手伝ってくれるよう頼んでいます。彼は予約をするためにbookingのサイトまで渡していて、この部分は明らかに私たちが何度も見たことがありますよね?私たちは既にManosでこれを使いました。James Parkでも使いました。あなたが使用しているエージェントが何であれ、私たちは既にこれをやっています。
エージェント機能の実際の動作
理論的には、それほど目新しいニュースではありません。ニュースはこんな感じです。今度はOpenAIも彼らのサービスを解放しています。時々チャットは何らかの確認、追加情報を求めるかもしれませんが、続行するかどうかはあなた次第です。より多くの情報を提供するか、単純に続行するかで、彼女は前進して自分のタスクを開始します。
この部分では何が起こっているかお分かりでしょう。彼はブラウザを開きました。このブラウザは製品の検索、結婚式の検索、彼が実行するよう依頼されたことを開始します。それらの製品を探し、それらの購入を試みます。基本的に、これが彼らが今もたらしている新機能です。
この機能は携帯電話内でも利用可能になります。携帯電話内でエージェントを使用したい場合、それも使用できます。
ドライブ内やファイル内に情報があって、タスクを実行するため、またはそのタスクを実行するために必要なコンテキストとして知ってもらいたいものがあるとしましょう。何人かについて質問していて、それらのファイル内に情報があります。
求人を探したくて、そこに履歴書を持つ一連の人々がいて、彼らを探して研究をするよう依頼したいとします。そういう場合は、既に存在していたコネクターを使用できます。これらのコネクターは既に他の機能のために動作しており、コネクターはエージェントに対しても動作します。
ここで彼らが話している例では、Google Driveをコネクターとして使用しています。おそらくそこに彼らが作成している質問に答えるのに関連するファイルがあるのでしょう。そのため、必要に応じて実際にAPIにアクセスします。
OpenAIの公式見解と機能統合
彼らの公式サイトでは、まさにこのことについてコメントしています。これはOperatorとDeep Researchの自然な進化です。以前は、OperatorとDeep Researchにはそれぞれ独自の利点がありました。Operatorはウェブでスクロール、クリック、タイピングを可能にし、Deep Researchは情報の分析と要約に優れていました。しかし、両方とも異なる状況でより良く機能しました。
Operatorは深い分析や詳細なレポートの作成を許可せず、Deep Researchは結果を洗練したり、ユーザー認証を必要とするコンテンツにアクセスするためにサイトと相互作用することができませんでした。
つまり、ここでのアイデアは2つの強みを統合し、これら2つを連携させることです。
性能テストと比較結果
他のツールとの比較テストを開始したとき、例えばO3モデル、ツールなしのエージェント、Pythonとナビゲーション付きのO3、Pythonとナビゲーション付きのDeep Researchなどでは、徐々に改善していく自然な進化に到達したことが分かります。
エージェントをブラウザ、コンピューター、ターミナルと組み合わせたとき、この性能は人文科学の最新試験で41%まで上昇しました。
もしご覧になっている方でまだ明確でない場合、皆さん、私たちは人工知能を持つ時代を通過しています。この人工知能にはタスクを解決するためにより長時間考える推論技術があります。私たちはそれをエージェントシステムに配置し、1つのタスクが複数のステップに分割され、このAI推論が1つのタスクを実行するために複数のエージェントを使用し始めます。
このエージェントは今、コンテキストを取得するためにウェブナビゲーションができ、アクションを実行するためにブラウザを使用でき、コンピューターを使用してこれらの知能に超能力を与えることもできます。
現在のAIツール環境について
お気づきでない場合、Windsurf、Cursor、Copilot、Browser Useなど、これらのインターフェースはすべて既に私たちのために物事を行っています。私を驚かせるのは、人々がまだこれらのものを音声と統合していないことです。
例えば、このエージェントが音声で会話することを作るのに、なぜそんなに時間がかかっているのか分かりません。音声でこのエージェントと会話する瞬間が来れば、もう終わりです。それはJarvisです。
皆さん、私に同意しませんか?彼らは既にすべてのツールを作りました。今は音声システムを配置するだけで、私たちが最も好むレベルでこれを自動化できます。
各分野での性能評価
数学の他のテストでも同じことが起こりました。Pythonを使用するO3モデル、Pythonを使用するO4 miniモデル、そしてブラウザ、コンピューター、ターミナルを使用するエージェントは、27%という結果でずっと良い結果を示しました。これはO3の10%やO4 miniの19%よりもかなり高いです。
経済的に重要なタスクのテストでも同じ動作が観察されました。同じことが起こりました。エージェントの結果は常に改善され、常に少し良くなっています。
データ分析とデータモデリングのベンチマークでも同じです。しかし、ここでお気づきでしょうが、データ分析では彼はO3からそれほど離れていません。なぜO3からそれほど離れていないかを理解するのは簡単です。基本的にその時点で、ナビゲーションやその他のツールは、O3が本来行う分析に関して大きな違いを作らないからです。
データモデリングでもO3との差はそれほどありませんが、彼らは既に同じ評価で人間をここに配置しています。この場合、人工知能は人間を上回っています。
AIの人間超越に対する批判的見解
私は何度も言いましたが、繰り返します。人間より優れているとする彼らの結果を信用しません。一般的に、これらのテストは制限だらけで、非常に特定の状況で行われ、すべてを準備して作業を実行するように配置し、すべてが準備され、ペナルティが設定され、プレイヤーが蹴るためにボールが配置され、ゴールに向かって蹴るだけで済むという状況では、このシナリオでエージェントがより良い結果を出すと思います。
しかし、人工知能が自律的に人間より良いことをしている兆候は見えていません。いや、実際には見えていますが、ほとんどの場合それは運のようなもので、これらのことが本当に堅牢で信頼できるものになるためにはいくつかのステップが不足しています。
より現実的な結果:スプレッドシートテスト
これはより現実的な結果に見えます。スプレッドシートのベンチマークです。この場合、見てください、人間の性能は71%です。ここではより現実的に見えます。GPT-4o、Copilot、O3、単独のエージェント、そしてExcelファイルにアクセスできるエージェント。最良の結果は実際にExcelを使用するエージェントでしたが、同じタスクを実行する人間の結果からは程遠いものでした。
これは興味深いですね。ここでは実際に私たち人間が常に行うタスク、Excelを使用して多くのことを行うタスクなので、この種の結果の方が理にかなっています。
AIの学習プロセスに関する根本的な違い
既にコメントしたことで、強調する価値があることの1つは次のとおりです。人間が困難な試験、例えば困難な数学テスト、困難な物理テスト、困難なスポーツテストに合格するとき、そのテストに含まれていないことについて、人間の場合、私たちは「もしその人がこれをやったなら、あれもできるだろう」と言うことができます。
その数学の試験に合格したということは、その他のことも知っているということです。人間がスキップできない学習の階層が存在するからです。例えば、事前に掛け算と割り算を学ばなければ、パーセンテージの計算はできません。
正解する人は他のことも正解しなければならない基礎があります。人工知能は順次学習しません。これがこれらのテストの欠陥の1つです。それらのタスクで良い成績を取ったときに、他のタスクでも良い成績を取るかどうかを保証できないからです。順次学習をしていないからです。これは基本的なことです。
批判に対する私の立場
私が行うこの批判は、良い批判の1つだと考えています。浅薄だと思う批判もあるからです。例えば、AIは単なる統計だと言うのは、十分に考えていない人の浅薄な批判だと考えますが、人間は順次的で人工知能は順次的でないことに気づくことができるのは、既に高度な詳細です。
したがって、これらの結果を見るとき、疑いの目で見なければなりません。
利用可能性と制限事項
さて、あなたは既に疑問に思っているでしょう。使いたい、Bob、使いたい。もう利用可能?もういじれる?もうクリックできる?もう家の請求書を支払うよう指示できる?
良い点は、動画の冒頭で示したように、ツールメニュー内のエージェントモードをクリックするだけで使用できることです。
しかし、ここで彼らは次のように述べています。ChatGPTエージェントは今日からPro、Plus、Teamプランで実装が開始されます。つまり、購読者は皆使用できるようになります。
しかし、詳細を見てください。Proは昨日の日の終わりまでにアクセスできましたが、PlusとTeamユーザーは今後数日でアクセスできるようになります。
Plus購読者でまだ表示されていない場合、いずれかの時点で表示されるでしょう。私のアカウントを見ても、まだ表示されていません。Deep Research、Create Image、Web Search、Canvaがありますが、まだ表示されていません。
そして彼らはコメントしています。「Proユーザー」、これは月額200ドルのプランですが、月に400メッセージがあり、他の有料ユーザーは月40メッセージを受け取ります。
つまり、Proは400で、PlusとTeamは月40メッセージで、基本的に1日1つ強です。1日2つやると、月末まで行けません。これはかなり少ないと思います。最初の週で使い切ってしまうことは分かっています。クレジットベースの柔軟なオプションによる追加使用が利用可能です。
ここで彼らは既にこう言っています。「使い切って、もっと使いたい場合は、少しクレジットを追加すれば、より多くの使用を解放します。」これはもっと前に実装されるべきだった自然な解決策です。
既存機能の統合と移行
そして彼らはここで続けています。Operatorプレビューサイトは、機能停止される前にさらに数週間機能し続けます。
これはOperatorを使用している人々のためです。プレビューサイトはもうありません。Deep ResearchはChatGPTのエージェントリソースの一部です。デフォルトでより詳細で深い回答を提供するが、実行により多くの時間がかかる可能性がある元のDeep Researchリソースを好む場合、メッセージエディターのドロップダウンメニューでDeep Researchを選択することでまだアクセスできます。
明らかに、Operatorは存在しなくなりますが、Deep Researchは継続します。
新しいリスクと安全性への配慮
彼らが大いに強調したことの1つはこれです。新しい能力、新しいリスク。彼らが次のように言っているからです。今、購入をし、サイトで自律的な相互作用をするエージェントがあり、多くのリスク状況が存在します。例えば、偽のサイトにアクセスしたり、詐欺に巻き込まれたりすることなどです。そのため、彼らは常に何らかの確認を行おうとしています。
彼らが伝えたアイデアは、今は安全性を最高レベルに保ち、物事が安全であることが示されるにつれて、最も理にかなうポイントが見つかるまでその安全性を下げていくということです。
動画に登場する開発者たちの背景
この動画について関係ないが、コメントする価値があるかもしれない興味深い好奇心があります。
人々に気づいたかどうか分かりませんが、この男性はインド人で、他の3人は東洋人です。中国か日本の出身かは正確には分かりませんが、LinkedInで彼らを検索すると、いくつかのアイデアが得られ始めます。
例えば、この男性はインドにあるこの大学で勉強しました。そのため、このYashikumarは確実にインド人です。
名前にもかかわらず、この研究によると、このKeizuはおそらくアメリカで生まれましたが、おそらくShuのために中国系です。中国人がこのような音節を持つからです。
このZinganは実際に中国人です。そして、このIsa Fullfordもおそらくアメリカで生まれています。
結局何が注目を集めるのでしょうか?この東洋の人々、中国や日本系の子孫やインド人であるかどうかに関係なく、彼ら全員に共通することがあります。彼らには祖先の文化や現在の文化の何かに、長い間続く数学への愛好があります。
例えば、ここブラジルの東洋人は、ブラジル全体の人口と比較して大学に通う人の数が最も多いです。
皆さん、私はサンパウロのUSPで学位を取得しました。数学研究所を訪れた日を覚えています。ご覧になっている方で、USPに行ったことがある方は確認してくれるでしょう。東洋人は、数学の教室のどの部屋に入るかによって、実質的にクラス全体を占めています。
インド人について、皆さん、私たちが使うこれらの数字、0 1 2 3 4 5 6 7、これらはインド・アラビア数字です。
見てください、これらは1世紀から4世紀の間にインドの数学者によって発明され、その後アラビアに行きました。そのため、インドの非常に貧しい小さな村にいて、人々がそこでどのように生活しているかご存知のところで、9歳、10歳の少年がそこにいて、既に数学の天才であることは非常に普通です。
なぜこのことを話しているのでしょうか?人工知能の世界で多くの東洋人を見つけることは非常に普通だからです。これにはインド、中国、日本の人々が含まれ、皆そうです。
より知的で、精神的な挑戦により向いている人々です。そして、人工知能研究に参入したいと思っているご覧の皆さん、この人々に出会うのは非常に普通です。
私がいつも言うことの1つは、数学への恐れを失い、人工知能と基礎における重要性を理解し、なぜ人々が今日AIを作るためにそれを使用しているかを理解することです。
国際的な人材の重要性
ここで何か興味深いことをコメントしてください。これは、アメリカや他の発展した国について考えるとき、他国から賢い人々を輸入し、自国内で知能開発に100%依存しないことがいかに重要かを明確にしています。
これらの小さな天才たちには住所がありません。地球上のどこにでも生まれることができます。
今後のテスト予定と視聴者への呼びかけ
このモデルが解放され次第、私たちはここでテストを行います。どのように機能するかお見せし、非常に興味深いテストを行いながらその40回の呼び出しを使います。
これについてどう思うか、価値があると思うか、それとも人間スタイルの他のタイプのエージェントを使い続けるかコメントしてください。
Gens Spark、Cursor、Windsurf。皆さん、CursorとWindsurfについて話すのは、それらのプラットフォームを既に未来の知能エージェントだと考えているからです。これらのサイトよりもずっと。だから、コメントしてください。知りたいです。
このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。
メンバーは知能エージェントの専用動画と先行動画にアクセスできます。そういうことです。ライクを押してください。ありがとうございました。


コメント