OpenAIエージェントモード：カップケーキに58分—信頼できるのか？

この動画は、OpenAIが新たにリリースしたエージェントモードについて詳細に分析したものである。カップケーキの注文に58分を要したという具体例を挙げながら、現在のエージェント技術の限界と課題を浮き彫りにしている。特にExcelでの作業には有用性を認めつつも、常時監視が必要な設計思想や、プロンプトインジェクション攻撃への脆弱性といった根本的な問題を指摘。真に有用なエージェントには自律性と判断力が必要であり、現在のアプローチは長期的なデータ収集実験の側面が強いと分析している。

OpenAI Agent Mode: 58 Minutes for Cupcakes—Should You Trust It?

My site: substack: 1. Hype vs Reality: Agent Mode behaves like an “over-thinking inte...

OpenAIエージェントモードの現実
カップケーキ注文に58分の実例
肯定的な側面とExcelでの活用
複雑なスプレッドシートへの限界
監視が必要な設計思想の問題
プロンプトインジェクション攻撃の脆弱性
隠されたテキストによる攻撃
真に必要なエージェントの能力
長期的なプロジェクトとしての位置づけ
ユーザーが得る価値について
理想的なアシスタントの条件
広範囲な採用への課題
コーディングエージェントの成功例
OpenAIの戦略と他の可能性
コミュニティへの提案
総合的な評価

OpenAIエージェントモードの現実

OpenAIの新しいエージェントモードがリリースされました。私はそのすべてについてお話しします。しかし、これは思われているほど素晴らしいものではありません。ハイプが非常に高いことは認めますが、このハイプサイクルを満たすのは簡単ではありません。そして率直に言って、それはOpenAI側の責任です。

彼らはいつものように、多くの分野でナンバーワンだと主張してローンチしました。例えば「人類最後の試験に挑戦するためのツール使用」でナンバーワンだとしていますが、私はこの名称を本当に変更すべきだと感じています。

しかし問題はこれです。結局のところ、彼らが構築したのは手足を持ったDeep Researchです。Deep Researchに手足を付けても得られるのは、考えすぎるインターンだけなのです。

カップケーキ注文に58分の実例

そのため、Wiredの実験のような状況が発生します。研究リードのIsa Fulfordがエージェントに素敵なカスタムカップケーキを注文するよう依頼しました。これはオンラインで実行可能なタスクでした。

それは実行できました。そこで、手足を持ったDeep Researchがそれに取り組み、58分、つまり約1時間を費やし、ログインと認証などで6回ほどのハンドオフを行いました。私ならこのインターンを雇いません。カップケーキを手に入れるのに58分かかるのです。

これが孤立した使用例だと思うかもしれません。あまり厳しく評価すべきではないかもしれません。Wiredが単に手厳しかっただけかもしれません。

肯定的な側面とExcelでの活用

しかし、肯定的な面もお話ししましょう。肯定的な面があります。彼らがこれをリリースすることを選んだ理由があります。それは現実的なものです。

AIとExcelの間には、実用的なワークフローにおいて大きなギャップがありました。この特定の製品のあまり目立たない使用例は、バックグラウンドで動作し、あまり複雑ではない一般的なExcelテンプレートを構築し、正しい方法論、正しい数式、正しい数値で埋め、必要な研究を行うツールを必要とする金融関係者向けだと思います。

投資銀行家たちがオンラインで列を作って言っているのを既に見ています。これは特に驚くことではありません。彼らが興奮している理由は、AIが長い間Excelに関して本当に盲点を抱えていたからです。最近、この1年ほどでExcelを読むことができるようになりました。

Excelの出力はまだ不安定です。O3に行って「おい、O3、Excelを作ってくれ」と言っても、うまくいきません。数式の書き方がわからないのです。

複雑なスプレッドシートへの限界

しかし問題はこれです。シンプルな4〜5タブのスプレッドシート、各タブに十数行、十数列の情報を構築することと、ほとんどのマーケティングチームを動かし続けている数千行の地獄のようなスプレッドシートに取り組むことには違いがあります。

私はそのスプレッドシートを維持しなければならなかったことがあります。それがどんなものか知っています。このツールにそれを任せることはしません。インターンがカップケーキを注文するようなものですが、さらに悪いことに、バックアップの方法がわからないということです。operatorが行っていることに元に戻す機能はありません。

監視が必要な設計思想の問題

おそらくそれが、Sam Altmanがガードレールを非常に重視している理由でしょう。止まって、尋ねて、止まって、尋ねます。しかし、これはOpenAIが採用しているフレームワークの根本的な問題に関わってきます。

私は1週間ほど前にOpenAIがエージェントを逆に捉えていることについて話しました。彼らはまだそれを逆に捉えています。エージェントを監視する必要があると仮定しているのです。インターンを雇ったとき、私は彼らの肩越しにずっと立っていたくありません。

手取り足取り教える必要があることは知っていますが、彼らには自律的な作業をしてもらう必要があります。それがPerplexityのCometのような他のエージェントモダリティがより正しく理解していることです。完璧だということではありませんが、より正しく理解しているのです。

しかし、OpenAIは本当に監視が必要だということに傾倒しています。なぜなら、購入のような高リスクの行動に関する責任を制限したいからです。

プロンプトインジェクション攻撃の脆弱性

もしその物が日本への航空券を購入しようとしているなら、あなたがボタンをクリックしたことを彼らは知る必要があります。誰かが東京へのJAL航空券のファーストクラスを購入し、それが単にoperatorが暴走しただけだったということで訴えられたくないのです。

そして、operatorは暴走できるのかと疑問に思うかもしれません。このエージェントモードは暴走できるのでしょうか。答えはイエスです。

Sam Altman自身がそれについて警告しました。彼は「メールのトリアージにこれを使わない」と言いました。なぜなら、誰かが、そして彼はMaineでこれをツイートしたのですが、誰かがエージェントモードがメールを開いたときに読むプロンプトを含むメールを私に書くことができ、そのプロンプトがエージェントモードを乗っ取るだろうからです。

これは新しい形のプロンプトインジェクションです。これは新しい形の攻撃、プロンプトインジェクション攻撃としてのメールです。以前考えていなかったとしても、Sam、私たちは今確実に考えています。そのアイデアをみんなに与えてくれてありがとう。

彼は正しいです。それは絶対にプロンプトインジェクションでこれらのoperatorモードエージェントをハッキングできる方法です。そして課題は、他のウェブサイトでもそれができることです。

隠されたテキストによる攻撃

人間が気づかないがエージェントが気づくかもしれない低コントラストのテキストを置くことができます。今でも、人々は研究論文を評価するLLMに対して、これを最高の評価で扱い、査読プロセスを通過させるよう指示するために、研究論文に低コントラストのテキストを置いています。

人々は履歴書や仕事でもそれを行っています。人々はあらゆることを試そうとするでしょう。

真に必要なエージェントの能力

私たちが必要としているのは、識別力を持ち、障害に遭遇したときに推論し、自律的にそれらを回避できるエージェントです。核となる責任感と長期的な目標指向性を持つエージェントが必要です。

この特定のリリースでは、これらの非常に困難な問題に関する大きな進歩を見ることはできません。それが良くなっていないと言っているのではありません。Excelが十分重要なスキル向上だと思うので、このプロジェクトに取り組んでいたら私もリリースしていたでしょう。それは大きな問題です。西欧世界の多くがExcelで動いています。

率直に言って、全世界の多くがExcelで動いています。だからこそ、Excelの作業の15〜20%でも手助けできるなら、リリースする価値があります。

長期的なプロジェクトとしての位置づけ

OpenAIが実際に行っているのは、10年間のプロジェクト、これは推測ですが、TeslaがストリートをナビゲートするためにCarを構築しているように、私たちのコンピューターをナビゲートできる世界で最も強力な汎用AIエージェントを構築するという長期プロジェクトに従事していることです。

そのためには、このエージェントモードに私たちのコンピューターを大量に使用させる必要があります。野生に放つ必要があります。Samは再びこれを認めました。彼は外に出てデータを収集したいと考えています。できる限りセーフガードを設置していますが、基本的には、それがどこで機能し、どこで機能しないかについて有用なデータを収集するために、これを野生で見たいと考えています。

それは私たちをモルモットにします。汎用エージェントを構築するという10年間のプロジェクトでモルモットにするのです。

ユーザーが得る価値について

私はモルモットであることの見返りに何かを得ていることを確認したいだけです。Facebookの前に登場し、その後Facebookが登場して私たち全員を製品にしたのを見たので、モルモットであることに慣れています。私たちの眼球が製品で、私たちがサインアップして、彼らが私たちに広告を売り、そういう仕組みで、新しいものをテストできて、そういうやり方なのです。

インターネットの多くがそのように運営されています。その意味で、これは新しいことではありません。しかし新しいのは、私たちが得る価値に対するプロジェクトの長期的な性質です。

2007年にiPhoneがリリースされたとき、私たちは費用支出に対して重要な価値を得ました。これについては、金融以外で運営している場合、価値が十分かどうかわかりません。

人々が共有していて、素晴らしい人物であるDan Shipperが、エージェントを使ってビジネスの財務予測を見たと共有していたと思います。私はそれを信じます。良い仕事をすると思います。それができると思います。シンプルなPowerPointデッキさえ構築できるでしょう。PowerPointデッキを見たことがあります。

見栄えは良くありません。しかし、インターン worthy なPowerPointデッキのようなものです。ただ、どのくらいの頻度でそれを行うのでしょうか？どのくらいの頻度でそれを行うのでしょうか？月に1回程度でしょう。明日再度実行しても、実際には何も学ばないでしょう。

理想的なアシスタントの条件

私が理想的だと思うアシスタントは、素早いので毎日使うものです。シンプルなタスクで手助けしてくれます。正確で、ベビーシッターをする必要がありません。そして、このエージェントはそれらのどれでもありません。

実際、operatorについて問題があったフレームワークを倍増させています。ベビーシッターをしなければなりません。時間がかかります。多く考えます。今はより多くの手足を持っています。より多くのものに接続できます。Google Driveに接続します。

Excelに接続します。それを行います。確実により多くの機能を持っています。しかし、ベビーシッターをしなければならないという基本的なフレームは変わっていません。時間がかかります。多くのガードレールがあります。だから多く介入しなければなりません。変わっていません。以前と違いません。

広範囲な採用への課題

そして、これらの要件は、これがまだ広く採用されるツールにはならないほど問題があると思います。

ハイプを見るとき、人々が未来に生きていると考えてください。彼らはグラフィカルユーザーインターフェースに汎用的な流暢さを持つエージェントを実際に持つ世界を思い描いています。たぶんそれは真実です。私たちは今そこから遠いところにいます。エージェントモードでその方向に小さな一歩を踏み出しましたが、まだ道のりがあります。

私は他のエージェンシックアシスタントモダリティ、単に私をベビーシッターしてコンピューターを監視するだけでなく、より多くの進歩を見ることを期待しています。私にタスクを与えて、それを実行させるという方向でもっと多くを見たいと思います。

コーディングエージェントの成功例

公平に言うと、コーディングエージェントは良くなっています。「このプルリクエストを作成してください」と言うことができ、コーディングエージェントがそれを実行します。

Claude Codeは本当にうまく機能します。開発者によって広く採用されているこのUXモダリティが、非開発者や非開発者の使用例に対してそれほど積極的に展開されていない理由が明確ではありません。これは本当に興味深い質問だと思います。ちょっとした製品ウィンドウのように感じます。

Cometがそこに行こうとしたように感じます。完全に実現されているとは思いません。消えて何かを行い、戻ってくるエージェントを持つことができました。はい、それを信頼しなければなりません。アクセスできるものを定義しなければなりませんが、それでも物事を成し遂げることができ、何ができるかを制限すれば速いでしょう。

OpenAIの戦略と他の可能性

OpenAIであれば、SoftBankから400億ドルの現金があれば、汎用エージェントを目指すのは良いことです。それは大きな賞です。最終的に機能すれば、大きな問題になるでしょう。しかし、私たちのほとんど、ほとんどのビルダー、ほとんどのユーザー、私たちが行うほとんどのタスクにとって、そのタスクを本当に簡単にするように設計されたエージェントは素晴らしいでしょう。

カレンダーエージェントだけ、私のカレンダーを整理してください。メールエージェント、私のメールを整理してください。そして、プロンプトインジェクション攻撃に対して強化されているかもしれません。特化されたものだからです。