期待に値するのか?OpenAI OPERATORエージェントをテストしてみた

AGIに仕事を奪われたい
この記事は約17分で読めます。

9,921 文字

WORTH THE HYPE? OpenAI OPERATOR Agent--Tested
**Want up to ,000 off a new Tesla, or a free month of Starlink?**Tesla: Starlink:

こんばんは、Dr Noです。今晩は動画を撮る予定はなかったのですが、OpenAIが「Operator」というものをリリースしたので、つい昔のJim Croweの曲が頭から離れなくなってしまいました。著作権の問題で短いクリップは入れられませんが、あの「operator, will you help me place this call」という曲です。でも、これは全く異なるOperatorですね。これはエージェントで、OpenAIが私たちに提供した初期のエージェントの1つです。
私はプロモード(月額200ドル)を使っています。少し高額に感じますが、このような新機能にいち早くアクセスできます。デフォルトページがこちらですが、実際の履歴ウィンドウには見せられないものがあるので、スクリーンショットだけお見せします。左側の上部バーの下、ChatGPTの下にOperatorがあります。クリックするとこのウィンドウが表示されます。
今夜はインターネットの調子が非常に悪く、Operatorもかなり遅いので、かなりカットを入れています。実は、ノートPCでプロジェクトを始めたのですが、永遠に作業を続けていて実際の結果は見えていないので、うまくいくかどうかはわかりません。
簡単なテストをいくつかやってみますが、基本的にはウェブブラウザとしか対話できません。つまり、スーパーでビールを買ってきてもらうことはできず、すべてウェブベースである必要があります。とはいえ、それでもかなりのことができます。
まず、ロサンゼルス、サンフランシスコ、シアトルの今後10日間の天気と、気温、湿度、天気(晴れ、曇り、雨など)を比較する表を作ってほしいと頼んでみました。独自のミニブラウザを使って各サイトを見て回っているのがわかります。なぜここで止まっているのかはよくわかりませんが、おそらく再生成する必要があるでしょう。
別のタスクを試してみましょう。まず、旅行に関する質問をしてみます。飛行機の予約をさせてみようと思います。あまり複雑にはしたくありません。この生成に一晩かかるのは嫌ですからね。
次のような質問をしてみました:
「妻と一緒に複数の都市を旅行する必要があります。2枚のチケットを予約してほしいのですが、価格と時間のバランスを考慮して最適なフライトを探してください。時間をかけすぎず、コストも抑えめに。2月14日に出発して28日に帰国予定です。アトランタからロサンゼルス、そしてニューヨーク、最後にロンドンへ行きたいと思います。日程は柔軟に対応可能ですが、各都市に最低3日は滞在したいです。信頼できる航空会社でお願いします。」
すでにブラウザを開いてSkyscannerを見ているのがわかります。また、マルチシティ航空券の予約も見ていますね。作業メモリを見ることができると思いますが、今は表示されていません。以前は作業中の考えを示すものがありましたが、今は見えません。
「制御を取る」というオプションがあり、いつでも一時停止することもできます。このような制御があるのです。フルスクリーンにしてみましょう。これで大きなウィンドウに表示されました。
このエージェントは自律的にタスクを実行することになっているので、時間がかかってもそれほど問題ではありません。まあ、3日もかかるのは困りますが、1時間程度なら許容範囲でしょう。最初にサインアップしたときに、このウェブサイトからの通知を許可するかと聞かれて「はい」と答えました。これにより、フライトが見つかったら通知してくれるはずです。
自律的にウェブブラウザを開いているのが本当に面白いところです。天気の質問をしたときは、表を作ってほしいと言ったので、失敗する前にそれを試みていました。ノートPCとデスクトップを切り替えていたので、おそらくそれが原因で問題が起きたのでしょう。
よし、予定を立ててくれたようです。2月14日にLAへ、これは2人分のエコノミークラスですね。続けてよいか聞いてきました。少し変わった質問の仕方ですね。「はい、お願いします」と答えましょう。
では見てみましょう。14日にLAへ、18日にロサンゼルスからニューヨークへ。これで4日間滞在できますね。そして22日にロンドンへ。そこで6日間過ごすことになります。まあ、実際に行くなら、ロンドンにもっと長く滞在したいところですが。
さて、次の段階に進んでいるようです。まず時間の予定を立て、それから検索を始めるということですね。休暇の計画を立てるときに、このようなツールがあるのは面白いです。すべての選択肢を見比べるのは大変な作業ですから。
どれだけうまく機能するかはまだわかりませんが、自分であまり考えずに済むのであれば、それは大きな利点になりますね。マルチシティの予定を見てみましょう。おや、スピリット航空が出てきました。信頼できる航空会社をお願いしたのに。
LAへ出発、ニューヨーク経由でロンドンへ、TAPポルトガル航空利用。またスピリット航空が出てきました。総額515ドル、これは驚くほど安いですね。「スピリット航空は使わないでもう一段階上げてもらえますか」とお願いしてみましょう。2人で1,030ドルというのは本当に安いですね。時間とコストのバランスを取ってほしいと言ったのですが、これほど安い航空券は見つけられないのが普通です。
おそらくフロンティア航空が出てくるでしょう。フロンティアも指定すべきでしたが、低コストの航空会社をどう理解するか見てみたかったのです。アメリカではスピリットとフロンティアがそういった航空会社にあたります。
スピリットやフロンティアも素晴らしい航空会社ですが、私はもう少し年を取っていて、余裕もあるので、そういった格安航空会社は避けたいと思います。もちろん、それらの航空会社にも存在意義はあります。
質問を2回もされているのは完璧とは言えません。エージェントとしては自分で判断してほしいところです。私の代わりにお金を使うことになるので、質問してくるのはわかりますが。
ちなみに、これはパリで買ったムーン・スウォッチです。オメガとスウォッチのコラボですね。スヌーピーの月齢表示があるんです。とても気に入っています。かなりキッチュですよね。コレクションには本物のオメガ・スピードマスターもありますが、これもすごく素敵です。
さて、どう動いているか見てみるのは面白いですが、天気の時と同じように何かで止まってしまったようです。一時停止して再開してみましょうか。これは明らかに研究段階のプレビュー版だと発表でも言っていましたし、製品化にはまだ時間がかかりそうです。
他のタブで天気の方も同時に試してみましょう。進展があるかもしれません。残念ながら、2、3回の検索だけで判断すると、ほぼ完成しているものの、まだ完全には至っていないようです。
旅行のカテゴリを選ぶ必要があるかはわかりませんが、これらは単なる提案なので、何を入力してもかまいません。天気の質問をもう一度してみましょう。
「LAとサンフランシスコ、シアトルの今後10日間の天気を知りたいです。気温、湿度、天気(晴れ、曇り、雨など)を比較する表を作ってください。」西海岸を旅行する場合を想定してみました。複数のウェブページを見て回り、表を作る必要があるので、良い課題だと思います。
複数のタブを開いているのがわかります。スプレッドシートのページも開いていますが、今回はMicrosoftではなくGoogleのものですね。個人的にはMicrosoft製品よりもGoogleシーツの方が好みです。検索エンジンはBingを使っているようです。OpenAIなのでMicrosoft製品を使うのは当然ですね。
ローカルのMicrosoft Excelではなく、ウェブベースのものを使って表を作ろうとしているのが面白いです。そこで問題が発生したのかもしれません。天気予報を積極的に探しているのが見えます。任意のタイミングで制御を取ることもできます。一時停止すると、これまでの手順を巻き戻して確認できます。
こちらに戻って、どうなっているか見てみましょう。残念ながら、また止まってしまいました。2つのタスクが進行中と表示されていますが、止まってしまうと再開させる方法がわからないのが困りますね。
会話を再開して様子を見てみましょう。スクロールしてみますが…もし上手くいかなければ、もう一度プロンプトを入力する必要があるでしょう。しかし、チャットボットと違って、エージェントは自分で複数の複雑な手順を実行できるはずなんです。
あまり進展が見られないので、彼らが提案しているサンプルタスクの1つを試してみましょう。同時に10個までタスクを実行できるようです。現在2つ実行中なので、デフォルトの提案を使って、それがより上手く機能するか見てみましょう。
ちょうど離れようとしたところで進展が見られました。スピリット航空を除外して航空会社を探索し、Skyscannerに戻って乗客数を調整し、フライトを検索しているようです。
もし結果が出たら、フライト番号なども聞いてみたいと思います。実際に予約するつもりはありませんが(魅力的な旅程ではありますが)、フライトの情報やURLも取得できるか気になります。
フィルターを調整して、スピリット航空を除外して何か他のものを選ぼうとしているようです。面白いのは、アトランタからロンドンへの便が表示されていることです。私が選んだ日程とは違うような気がします。22日から28日だと思っていたのですが。
3つのフライト…なるほど、何か作業をしているようです。ところで、ロンドンからアトランタへの帰りの便を忘れていることに気づきました。28日に終わる4つのフライトがあるはずです。エージェントとしては、アメリカに戻りたいだろうということを理解すべきですね。永遠にロンドンに住むわけにはいきませんから。
でも実際には多くの作業をしているようです。フロンティア航空が出てきました。予想通りですね。アラスカ航空もありますが、これは良い航空会社です。面白いことに、価格がかなり上がっています。スピリット航空の方がずっと安いですが、荷物料金などを考えると、そこまでの差はないでしょう。
「この選択肢で詳細を見ますか?」と聞いてきました。「はい」と答えましょう。安く見えた理由がわかりました。4つではなく3つのフライトだったからです。
こちらに移動してみましょう。まだ進展がないので、一時停止して再起動を試みます。次に、デフォルトのアクションの1つを試してみようと思います。初期段階のリリースで、おそらく同時に何千人もがアクセスしているため、少し混雑しているのかもしれません。
どんなものがあるか見てみましょう。「カスタマイズ可能な素朴なファームハウスキッチンサイン」や「本物のグッチのサングラスを割引価格で」などがありますね。彼らの提案を使ってみましょう。提案されたタスクの方が、私が出題したものよりもずっとシンプルです。
面白いことに、私の返答が失われてしまったようです。別のタスクを試してみましょう。「良質なエアフライヤー」というシンプルなタスクにしましょう。今のところ、Operatorは興味深いものの、特に興奮するようなものではありません。ほとんど何もできていないからです。
今回は質問せずに、すぐに作業を始めました。興味深いことに、こちらでは作業中のタスクを示す渦巻きマークが表示されていません。
フライトの詳細が出ました。アトランタからLAまではフロンティア航空を利用し、ラスベガスで乗り換えです。2月18日にニューヨークまではジェットブルー航空を利用します。総額は17…はい、もう承認済みですね。エージェントとしてはもっと自律的であるべきです。
エアフライヤーの方を見てみましょう。検索中です。右側でTargetのサイトを見ているのが面白いですね。検索バーを見つけて、50ドルから100ドルの価格帯にチェックを入れています。価格フィルターを自分で探す手間が省けました。
確認を求めてきましたが、またあまりにも慎重すぎます。実際のインターネットで作業しているので、サンドボックスではないことを考えると、慎重になるのは理解できますが、少し面倒です。
時間とともに改善されるでしょう。これが最悪の状態だと覚えておく必要があります。このような安価なエアフライヤーがあることすら知りませんでした。
フライトの方に戻ってみましょう。フライトを検索しているようです。天気の方はどうでしょうか。予報の詳細が見られます。LA、サンフランシスコ、シアトル…スプレッドシートに入れるように頼んでみましょう。
実際にそれを行いました。華氏で表示されているので気分が悪くなりそうです。後で指定しなおしましょう。Googleシーツを使おうとしているようですが、ログインなしでできるかが興味深いところです。
エージェントがより有用になるには、最終的にはログイン情報を提供して、代わりにログインして作業できるようになる必要があるでしょう。
無料のスプレッドシートを探しているようです。Googleシーツはログインが必要なのでダメだとわかり、別の選択肢を探しています。ポップアップウィンドウを閉じるのがすごいですね。
これが面白いのは、ピクセルレベルでマウスを制御できることです。以前はAIにとってこれは非常に難しい課題でした。完璧には機能していませんが、大きな進歩です。
マウスを非常に正確に制御し、A1セルに移動して日付を入力し、タブキーで他の値を入力しています。1年前にはほぼ不可能だったことです。
ウェブページを意味的に理解し、マウスを制御して情報を入力できる神経網を持つようになりました。非常にゆっくりと日付を入力していますが、確実に行っています。最初のセルにマウスを移動させ、タブキーとリターンキーを使って移動しているようです。
次は都市名を入力するのでしょうか。日付、都市、また日付、都市という形式になるのか興味深いところです。前回より進展があって良かったです。
ロンドンからアトランタへの片道便はアイスランド航空で2回の乗り換えがあるようです。往復の部分で料金が跳ね上がりますね。全行程の残りとほぼ同額の1,900ドルです。
かなり多くの異なる航空会社を利用することになります。フロンティア航空、アラスカ航空、そしてアイスランド航空です。レイキャビクで乗り換えるなら、実際には2、3日滞在してみたいですね。アイスランドには行ったことがないのですが、素晴らしいと聞いています。2月ではなく6月くらいがいいでしょうが。
エアフライヤーの結果が出ました。「これらのオプションについて詳しい情報が必要ですか?」6クォートと8クォートがありますね。8クォートの方をお願いしましょう。2番目のオプションを選ぶはずです。
興味深いことに、Targetだけを見て、Googleショッピングなどは見なかったようです。複数のタブを開いて探してはくれました。エージェントとしての性質は見られますが、完全に自律的というわけではありません。これまでのタスクのどれも、完全に最初から最後まで自動で実行することはできていません。
「購入できますか?」と聞いてみましょう。カートに入れて、クレジットカード番号を入力するところまで行けるか見てみたいです。
エアフライヤーは必要ありませんが、もし必要なら悪くない価格ですね。カートに追加ボタンをクリックして、カートに進もうとしています。「はい」と入力してみましょう。どのようにカートに入れるか興味深いところです。
私の名前の後ろあたりにカート追加ボタンがあります。人間のスピードではないことは明らかです。人間なら数秒でクリックして購入できるところです。在庫状況を確認しているようですが、私の場所を知っているのでしょうか。特に伝えた覚えはありませんが、位置情報を使っているのかもしれません。
配送オプションを確認中です。まだ配送を選んでいないようですね。6クォートの方を見ているようなので、8クォートに変更する必要がありますが、このタブでは見えません。
フライトの予約タブに戻ってみましょう。イベリア航空ですか?すべて予約してくれということですが、1つのフライトだけに注目しているようです。フライト番号と日時をすべて教えてもらいたいですね。
非常にゆっくりと進んでいます。人間の方が速くできることは明らかです。研究プロトタイプであり、エージェントとして興味深い仕事をしています。ウェブと対話できるのは素晴らしいことです。
ウェブページは一定のフォーマットに従っていますが、かなり自由度が高く、ポップアップ広告やさまざまな機能があります。そんな環境で作業できるのは素晴らしいことです。ただし、現時点では非常に遅いです。
8クォートの方に戻りました。カートに追加して購入するかと聞いてきました。クレジットカード情報にアクセスできないことを願います。カートに入れるところまでは大丈夫でしょう。
数年前、アレクサで似たようなことがありました。カートに入れて即座に購入できたため、冗談で他人の家に行って50枚のピザを注文するようなことが起きました。そういったことを防ぐための制御があることを願います。
チェックアウトに進むには、Targetのアカウントにサインインする必要があるようです。ブラウザで「制御を取る」をクリックして、私がサインインできるようにしてくれました。スクリーンショットは撮らないようです。
購入する予定はありませんが、ここまでできたのは素晴らしいことです。Targetだけでなく、もっと多くのサイトを見ることもできたでしょう。Googleショッピングなどで幅広い選択肢を探すこともできたはずです。でも、タスクは完了しました。
イベリア航空の直行便について、また同じことを言っているような気がします。乗客の詳細までスクロールしているようですが、途中で止まってしまいました。各フライトの便名と日時を教えてもらう必要がありますね。
サンフランシスコのデータを入力しているようです。10回も入力するのにこんなに時間がかかるとは思いませんでした。5日間の予報にすれば良かったですね。この作業が一番対話が少なくて済んでいます。購入の判断が必要ないからでしょう。
マルチシティフライトの詳細を取得しているようです。フライトの情報を表形式で見たいところです。イベリア航空の便名や料金などがわかるといいですね。
アトランタからLAまではフロンティア航空ですが、これが実在するのか確認する必要がありますね。ウェブページを見ていたはずなので、幻覚ではないことを願います。フロンティア航空を確認してみましょう。
サンフランシスコには霧が出ているようです。LAは来週雨が降るそうです。予想外ですね。でも、火事などを考えると、雨は必要不可欠です。1月か2月に降るべき雨ですから。
F2 f92 315便を確認しようとしましたが、フロンティア航空はそんな大きな便名は使っていません。フィラデルフィアからシャーロット(ノースカロライナ)行きと表示されていますが、これはすべて間違っています。別の便を試してみましょう。
NK 982…これはスピリット航空ですね。スピリット航空は使わないでと言ったはずですが。スピリット航空982便はラスベガスからオークランド行きですね。残念ながら、この情報は幻覚のようです。
エージェントとしての有用性は大きく下がってしまいます。マルチシティフライトを見てみましょう。ブラウザのスクリーンショットを確認します。Skyscannerで格安フライトを探しているようです。
アトランタ・ハーツフィールド発の93215便がありますね。これは先ほど表示されていた便名と同じです。特定の日付でしか運航していない便なのかもしれません。クリックして選択することはできないようです。
サンフランシスコに霧が出ていますね。1、2、3、4、5、6、7、8、9、10…10個のシアトルのデータが入力されています。非常にゆっくりとしたペースですが、最後まで見てみましょう。
今のところ、これは興味深いものの、明らかに実用的ではありません。タスクという機能があり、特定の時間に特定の作業を実行するように設定できるようです。これらを組み合わせれば、何か有用なものが得られるかもしれません。
Operatorに関する私の意見としては、興味深い科学的デモンストレション、研究プロジェクトではありますが、特に実用的ではありません。これが実用的になるには、もっと速くなる必要があります。少し速くなるのではなく、100倍くらい速くなる必要があります。人間と同じかそれ以上の速度でなければ、あまり有用ではありません。
ようやく何か結果が出たようです。最高気温と最低気温が表示されています。ローカルにExcelスプレッドシートとして保存しようとしているようですが…ワークスペースにログインする必要があるようです。残念ですね。
オンラインで見られれば十分だったのですが。それでも良い進展です。戻って再度スプレッドシートにアクセスしようとしています。アカウントを持っていないので、それは避けたいところです。
問題が発生したときに戻ることができるのは良いですね。右クリックの問題で、天気データのスプレッドシートの保存に失敗したようです。「別の形式で保存するか、別のツールでグラフを作り直しましょうか?」と聞いてきました。
作り直すのは避けたいので、オンラインで見せてもらえれば十分です。戻れるか見てみましょう。Alt+左矢印キーかバックボタンで戻れるはずです。あまり戻りすぎると、すべて入力し直しになってしまいます。それは避けたいですね。
ブラウザの履歴を探しているようです。ブロックされているようですが…クロミウムを使っているようですね。オープンソースのChromeだと思います。
最高気温と最低気温が表示されていますが、LAとサンフランシスコだけのようです。制御を取ってみましょう。毎回これを承認しなければならないのは面倒ですね。拡大してシアトルのデータがないか確認してみましょう。
なぜかLAとサンフランシスコだけで、データの積み重ねも良くありません。最高の表とは言えません。各都市の最高気温と最低気温を重ねて比較したかったのですが。
データ自体は正しいと思います。入力されていく様子を見ていましたから。ブラウザ内ブラウザの操作が非常に遅いです。動かすのも大変です。
シアトル、サンフランシスコは所々曇り、最高気温と最低気温、湿度…まあ、妥当そうです。ロサンゼルスが3つの中で一番暖かく、シアトルに向かうにつれて寒くなっていくはずです。
あまりにも遅いので、これ以上何かを試すのは避けましょう。50分も作業していますね。この動画が22分程度になっていたら、かなりの待ち時間をカットしたということです。
以上がOperatorのテストです。来月や再来月は使う気にはなれません。現時点ではかなり貧弱です。時々テストして様子を見るくらいでしょう。
第一に、あまりにも手取り足取りの対応が必要で、第二に、比較的単純なタスクにも比較的単純なタスクにも多くの時間がかかりすぎます。OpenAIには、第一にこれをリリースしたこと、第二にオープンソースバージョンが近く登場するきっかけを作ったことで感謝します。
これは比較的うまく機能し、予測可能な動作をしますが、ウェブの操作速度やマウス操作、タイピングなどは、時間とともに大幅に改善されるでしょう。6ヶ月後には非常に有用なものになっているだろうと予測します。
現時点では特に有用ではありませんが、オープンソースコミュニティがこれ以上のものを作り出すかもしれません。競争は素晴らしいことです。プロユーザーのみの高価な玩具ですが、これをリリースしてくれたOpenAIに感謝します。
コメント欄で皆さんの意見を聞かせてください。来週は私の60歳の誕生日です。誕生日プレゼントとしてチャンネル登録してくれると嬉しいです。視聴だけでも構いません、それも感謝します。次の動画でお会いしましょう。さようなら。

コメント

タイトルとURLをコピーしました