
3,559 文字

史上最速で最も正確なコンピュータ操作およびブラウザ操作エージェントが登場しました。これはGeneral Agents Coの創業者兼CEOであるセリル・オー氏(発音が正しければの話ですが)によるものです。彼はこれまでTeslaのオートパイロット開発、GoogleのDeepMindでのディープラーニング研究、そしてPhD取得の経歴を持っています。彼とそのチームはAceを発表しました。これは私が今まで見た中で最速のエージェントです。
OpenAIのOperatorのようなコンピュータ操作エージェントを使用する際の最大の摩擦点は速度です。それは痛々しいほど遅く、多くのミスを犯します。しかし今回のAceでは、実際に人間よりも速く動作することができるのです。
では見てみましょう。これは等速(1倍速)であることを覚えておいてください。「GoogleChromeからかわいい犬の画像をコピーしてiMessageで上司に共有する」というタスクです。さっと開いて、かわいい犬の画像を表示し、これは等速なのに早送りのように見えます。iMessageを開き、犬の画像を共有しています。このエージェントはブラウザを使用できるだけでなく、Macのコンピュータも制御できます。
「これらのファイルを圧縮してChromeのGoogleドライブにアップロードする」というタスクも見てみましょう。ファイルをハイライトして圧縮し、タグを追加し、Google Chromeを開いてドライブに移動します。あまりにも速すぎて何が起きているのか説明する暇もありません。ファイルをアップロードし、アーカイブ.zipをアップロードしました。非常に正確で非常に速いです。そして再び、ドライブリンクを誰かにiMessageで送信しています。
ここで、プロデューサーのアレックスが大好きか大嫌いかのどちらかになりそうな例を紹介します。Premiereを操作しています。「クリップを50%にスローダウンする」。はい、速度と時間を50%に設定しました。そしてすぐに「カットツールでクリップを一度分割する」。できました、分割しました。「クリップをMP4に書き出す」。エクスポートタブに移動し、特定のフォーマットを選択して書き出しを開始します。
もちろん、これらの作業は自分でもできますが、重要なのは長期的なタスクを説明すれば、このコンピュータ操作エージェントが他の何よりも速くそれを実行できるということです。
もう一つの一般的な例、フライト検索を見てみましょう。「5月4日のサンフランシスコからニューヨークへの最安フライトを探す」。Chromeを開き、Google Flightsに移動します。繰り返しますが、画面下部を見てください、これは等速です。適切な検索をして、正しい日付をクリックして検索します。これは私が自分でできるよりも速いです。
また、より複雑なタスクには高度な推論モデルも使用できます。こちらを見てみましょう。「これらの人たちを一人ずつHubSpotに追加する。インポートはしない」。基本的にはExcelファイルがあり、彼は「これらの人たちを追加して」という以上の説明は必要ありません。Excelファイルがあり、何が起こるか見てみましょう。連絡先を追加しています。HubSpotを開き、一人ずつ追加し、各入力フィールドを埋めていきます。完了!これがどれだけ速く動作しているか見てください。これは2倍速ですが、それでも非常に速いです。一つずつ処理しており、速いだけでなく非常に正確です。
ここでベンチマークを見ることができます。OpenAIのOperatorと基本的に同じバージョンがあり、Ace Control SmallとAce Control Mediumがそれを上回っていることがわかります。これは重要な違いであり、クリック精度を見ています。Ace Control Mediumではほぼ80%のクリック精度を達成しています。これらはモデルであり、もちろんモデルの周りに足場がありますが、これは非常にユニークな方法で訓練されたモデルです。
後ほど詳しく説明しますが、Malmo 72b、Claude 3.7 Sonnet、UI tars、Omni parts 2.0、GeminiのFlash、quen 2.5 VLも見ることができます。しかし重要なのは、それが非常に速いということです。ここでOperatorを見ると、アクション予測の遅延が、Operatorの6.3秒に対して、Ace Control SmallとAce Control Mediumは1秒未満です。そして彼が言うように、「これはまだ始まりに過ぎません」。
Aceは新しい行動訓練パラダイムを使用しており、後ほど詳細を説明します。訓練リソースを拡大するにつれて、Aceはより知的で有能になります。もちろん、スケーリング法則です。これは1倍、2倍、4倍、8倍、16倍と正規化された訓練リソースであり、改善し続けます。
試してみたい場合は、generalagents.comにアクセスして研究プレビューにサインアップしてください。私はまだアクセス権を持っていませんが、入手次第テスト動画を作成する予定です。
基礎となるモデルについてもう少し説明しましょう。テキストや画像で訓練される言語・視覚モデルとは異なり、Aceは行動で訓練されています。テキスト、画像、その他の作業出力を生成するプロセスです。これはある意味、Rabbitデバイスの約束のようなものでしたが、これは実際に最初から機能しているようです。もちろん、自分で試すまでは少し懐疑的になりますが。
行動に関するトレーニングは、フロンティア言語モデルのトレーニングにおけるステップバイステップの推論の使用によって裏付けられているように、より優れた一般化を提供します。行動データの作成は、ドメインの専門家にとってもより自然であり、彼らは単に既に慣れ親しんでいるツールを使用してタスクを実行する自分自身を記録するだけで済みます。新しいツールや新しいプロセスを学ぶ必要はありません。Aceは画面録画、マウス、キーボードのログを使用して、同様のタスクの実行方法を学ぶことができます。
これは未開拓のデータ量であり、正直なところAppleとMicrosoftも同じアプローチを取るべきです。Appleはこれらのデータをすべて持っていますが、実際に保存しているかどうかはわかりませんが、おそらくそうすべきでしょう。少なくとも人々がオプトインして使用データを提供できるようにすべきです。「ここをクリックしています、このタスクをこのように実行しています」というデータを提供し、それから彼ら自身のモデルを訓練することができます。しかし、General Agentsがそれを行ったようです。
Aceはフロンティア言語モデルで使用されるコンピューティングデータのごく一部だけを使用して訓練されています。スケールアップするにつれて、Aceはさらに良くなるでしょう。
さらにいくつか例を見てみましょう。「5月1日にカイロのAirbnbを予約する」。これは以前に見たことのある例ですが、このスピードではありません。これを再生しますが、これは等速です。「5月1日にカイロのAirbnbを予約する」。Chromeを開き、airbnb.comに移動し、カイロ、エジプトを入力し、チェックイン日を変更して、見つけた最初の物件を選択し、確認して支払いに進みます。
もちろん、開発者としても使用できます。「モデルが見つからないエラー」というタスクを見てみましょう。トレースバックとエラーメッセージを選択します。速すぎて読めないほどです。エラーを選択し、Chromeを開き、GitHubに移動し、特定のGitHubリポジトリに移動し、問題を見つけて問題を作成します。非常に素早く簡単です。
もちろんコンピュータを制御することもできます。「MacOSをダークモードに切り替えて、Game Centerを有効にする」。システム設定、外観、ダークモードへ。簡単です。問題ありません。Game Centerをオンにして、このアカウントを使用します。非常に簡単です。
これは確かに素晴らしく見えます。彼らが発表したものの短いプレビューをお伝えしたかったのですが、試すのが待ちきれません。うまくいけばすぐにアクセスできるでしょう。既にTwitterでCEOに尋ねましたので、彼が私のメッセージを見てくれることを願っています。
この動画が気に入ったら、いいねとチャンネル登録を検討してください。次回の動画でお会いしましょう。


コメント