革新的なブラウザエージェントフレームワークの登場

AIエージェント
この記事は約11分で読めます。

H Companyが最新のブラウザ使用エージェントフレームワーク「Runner H」を発表した動画である。この製品はベータ版として無料で利用可能で、ユーザーがタスクを入力するだけでエージェントがウェブを自動的にブラウジングして作業を代行する。同社は「Surfer H」と「Hollow One」というオープンソースのモデルファミリーも公開し、Web Voyagerベンチマークで92.2%という最先端の性能を達成している。動画では実際にeBayでポケモンカードを検索してGoogleシートに整理するデモンストレーションが行われ、その技術的詳細と研究論文の内容、さらに自動QAテスト機能「Tester H」についても紹介されている。

H Companyが最先端のブラウザ使用エージェントフレームワークを発表しました。さらに驚くべきことに、このシステムを支えるコアモデルをオープンソース化し、どのようにしてこれほど優れた性能を実現できたかを詳細に説明した研究論文まで公開しました。今日はこれについてお話しします。

このローンチは素晴らしく、オープンソースで、技術的な詳細も非常に興味深いため、H Companyと提携してこの発表についてお伝えします。

Runner H の実演デモ

発表された大きな製品はRunner Hです。現在ベータ版で無料で利用できます。ご利用いただけますので、説明欄にリンクを貼っておきます。

ご存じない方のために説明すると、これはエージェントにウェブへのアクセスを与える方法です。タスクを入力すると、エージェントが実際にウェブをブラウジングして、あなたの代わりにそのタスクを実行します。

では、実際にエージェントを起動して、どのように動作するかをご覧いただきましょう。その後、オープンソースモデルと研究論文について詳しく説明します。

今回実行するタスクは次の通りです:「eBayに行ってポケモンカードを検索し、現在販売中のものを探す。10枚のポケモンカードを抽出して、カードとそのeBayリンクを追加したGoogleシートを作成する」

エンターを押すと、作業を開始するのがわかります。ブラウザ使用エージェントの最大の利点は、一つを起動した後、二つ目、三つ目、四つ目、五つ目を起動して、すべてを並行して実行できることです

このタスクの一部として、Googleシートを作成する必要があり、すでに確認を求められています。「Google Sheetsに接続しますか?」と表示されるので、接続をクリックし、認証が完了すると続行されます。

Surfer H ウェブエージェントを使用してeBayでポケモンカードを検索します。最初に行っているのは、ポリシーまたはプランと呼ばれるものの作成です。これらすべては研究論文で詳細に説明されており、すぐにお見せします。

ここでは、実行される異なるステップが表示されています。思考し、実際にクリックしていきます。ブラウザセッションが読み込まれています。そして実際に動作しています。これはRunner Hが実際に操作している様子のライブビューです。

ここで各ステップを見ることができます:思考、思考ノート、ウェブアクション。すべての異なるステップをスクロールして確認できます。実際にeBayに行ってポケモンカードを探しているのがわかります。

オープンソースモデルの詳細

では、オープンソースモデルについてお見せしましょう。彼らのオープンソースモデルは、モデルファミリーとしてリリースされ、すべてSurfer Hと呼ばれるフレームワーク内にあります。これはオープンウェイトを持つコスト効率的なウェブエージェントです。

ウェイトはこちらにあります。クリックするだけで、二つの主要なモデルが付属しています:Hollow One ナビゲーションHollow One ローカライゼーションです。ローカライゼーションとは、画面上のどこをクリックするかの座標を決定できるモデルのことです。

これらのモデルを自分で試してみたい場合は、Hugging Faceにアクセスし、Hollow One ナビゲーションをクリックすると、実際にUI画像を入力してタスクを与えることができ、ナビゲーションステップが出力されます。

例えば、旅行ウェブサイトの画像を入力して「8月3日にパリのホテルを3泊で予約する」というタスクを与えると、「チェックアウト日を2025年8月6日として選択し、その後検索に進む必要がある」という思考とナビゲーションステップが出力されます。完全にオープンソースですので、ぜひここに来て、モデルウェイトをダウンロードし、拡張、ファインチューニングなど、やりたいことを何でもしてください。

研究論文の詳細解説

こちらが研究論文です。こちらも以下にリンクを貼ります。

Surfer Hを紹介します。これはビジョン言語モデルを統合したコスト効率的なウェブエージェントです。これをHollow Oneとペアにしています。Hollow Oneは、ウェブナビゲーションと情報抽出に特化した新しいオープンウェイトビジョン言語モデルのコレクションです。

先ほど述べたように、Web Voyagerベンチマークで最先端の性能を実現しています。これを聞いてください:Hollow 1を搭載したSurfer Hは、Web Voyagerで92.2%という最先端の性能を達成し、精度とコスト効率の間でパレート最適なバランスを実現しています

これらのモデルの良い点は、小さくて効率的であることです。これらは構築して上に何かを構築できるモデルで、非常によく機能します。各社はwebclick評価データセットと呼ばれる独自のベンチマークもオープンソースとしてリリースしました。

ブラウザエージェントの重要性

なぜブラウザ使用エージェントが重要なのでしょうか?なぜコンピューター使用エージェントが重要なのでしょうか?これらについて説明されています。

しかし、エージェントの実世界での有用性は、利用可能な事前定義されたツールと、それらを拡張するために必要なエンジニアリング作業によって制限されたままです。私たちは主に人間のためにインターネットが構築された世界に住んでいます。そのため、インターネット上で製品やサービスを提供する企業が、エージェントが相互作用するための十分に文書化された標準化されたAPIを常に持っているわけではありません。

その意味で、人間がウェブサイトと相互作用するのと同じ方法で、つまりクリック、スクロール、ハイライトなど、私たち人間がウェブサイトで行うすべてのことを通じて、ウェブエージェントがウェブサイトと相互作用する必要があります。

コンピューター使用エージェントは最近、エージェントがグラフィカルユーザーインターフェースを通じて直接ソフトウェアと相互作用する新しいパラダイムとして登場しました。このアプローチにより、カスタム統合やAPIに依存することを避けられます。

ここで彼らがSurfer Hを紹介します。これは強化学習技術によって簡単に訓練できるように設計されたビジュアルウェブ検索エージェントです。Surfer Hは三つの主要なモジュールで構成されています:ポリシー、ローカライザー、バリデーターです。

これらのモジュールは、アクションの提案と評価が可能な任意のVLM(ビジョン言語モデル)と互換性があります。私たちのエージェントはウェブサイトのスクリーンショットのみを使用し、ウェブサイトのドキュメントオブジェクトモデルやアクセシビリティツリーを必要としません。つまり、実際にコードを見る必要がありません。単純にスクリーンショットを撮り、そこに何があるかを把握し、クリックすべき適切なボタンの座標を特定します。

Hollow Oneは、アクションの実行と評価、UI要素のローカライゼーションに特化した軽量VLMファミリーです。ローカライゼーションとは、どこをクリックするかを把握することを意味します。

システムの動作メカニズム

では、実際にどのように動作するのでしょうか?先ほど述べたように、三つの要素があります:ポリシー、ローカライザー、バリデーターです。

ポリシーは順次実行されるアクションを提案します。つまり、ウェブサイトに行く、下にスクロールする、このボタンをクリックするなどです。その後、ウェブアクションは人間のような相互作用をシミュレートすることにより、ブラウザで実行されます。

ポリシーがいいねボタンなど、ウェブページ上の特定の要素との相互作用を必要とするアクションを生成する場合、要素のテキスト記述を生成し、ローカライザーがその2D座標を提供します。

ポリシーが答えを出力すると、それはバリデーターを通過します。バリデーターは答えについてフィードバックを生成し、それがユーザーに適しているかどうかを決定します。答えが有効であれば、ユーザーに返されます。素晴らしい、解決しました。タスクを解決しました。

そうでなければ、フィードバックがエージェントのメモリに組み込まれ、完了するか、時間またはコスト予算に達するまで、エージェントは実行を続けます。

このフローの様子を見てみましょう。タスクを与えます。それが入ってきて、タスクをメモリに保存します。その後、ポリシーを作成します:ステップのリストです。

更新、URLに移動、戻る、スクロール、待機、右クリック。赤で示されたこれらのXY座標は、ローカライザーによって生成されます。スクリーンショットを見て、画面上のどこをクリックするかを把握します。

答えはバリデーターに行きます。バリデーターが「いえ、それは正しくありません」と言えば、戻ってそのフィードバックを提供し、メモリに保存してから再び実行します。ブラウザを使い続ける必要がある場合はそうし、最終的にバリデーターが「全体的なタスクは完了しましたか?」をチェックし、そうであればいわゆる答え、基本的にあなたが求めたタスクの完了を提供します。

ベンチマーク結果の詳細分析

いくつかのベンチマークを見てみましょう。これはモデルとベンチマーク全体でのクリック精度です。左側には様々なモデルがあります。Qwen 2.5 Vision Language 3B Instruct、そしてHollow 1 3Bなどがあります。これらはすべてほぼ同じサイズです。

次に少し大きい7Bと Hollow 1 7Bがあります。ご覧のように、ほぼ全面的にHollow 3Bが勝利しています。Hollow 7Bも同様です。他のモデルを上回っています。

全体平均として、30億パラメータバージョンでは、リスト上の他のモデルよりもかなり高くなっています。70億パラメータバージョンでは、UGround V1に対して良い勝利を収めています。

つまり、ローカライザーとしてのHollow One、基本的に座標に基づいてどこをクリックするかを把握することは、他のモデルを上回っています。

ここでは、Hollow Oneが黒で一番上に表示されているのがわかります。価格も非常に良好です。非常に小さく、非常に効率的です。

ここでは実行あたりの平均コストが表示され、黒と赤でここに表示されています。すべて左側にあり、他のモデルと比較して比較的高い位置にあることがわかります。X軸の下の方は低コストを意味し、Y軸の上の方は高精度を意味するので、これは非常に良い位置にあります。

これらの画像を分析するコストに関する比較をさらに見ることができます。入力トークン100万あたりのコスト、出力トークン100万あたりのコスト。ご覧のように、Hollow Oneシリーズのモデルは、他のモデルと比較してかなりの割引価格で提供されています。

ウェブサイトのメインページには、完全にHollow 1ベースのエージェントが精度とコストの間で最強のトレードオフを提供していると記載されています。Surfer H + Hollow1 7Bは92.2%の精度でタスクあたりわずか13セントです。Surfer H + GPT-4(Surfer Hはモデル非依存であることを覚えておいてください)は84.3%で71セント、Surfer H + 4.1 Miniは88%で26セントです。

コストをさらに下げたい場合は、3Bバージョンを使用すると、基本的に少しの精度を犠牲にして、タスクあたりのコストを数セント下げることができます。

実演結果の確認

先ほど開始したポケモンタスクを確認してみましょう。これが最終的なリストです。これはGoogleドキュメントからエクスポートされたPDFです。「Googleシートでこのデータを表示・編集する」と表示されています。それをクリックすると、今作成されたGoogleシートがあります。

キャプチャの問題でリンクが利用できないものもありますが、残りは問題なく取得できています。これらすべてが完全に自動的に行われました

追加機能とカスタマイズ

最後に、いくつかお見せしたいことがあります。一つは、どの程度人間をループに含めるかを実際に選択できることです:高度に関与、中程度に関与、完全自動化。これは良い機能です。

ドキュメントを直接アップロードして、コンテキストとして提供することができます。ファイルタブをクリックすると、生成したすべてのファイルがここにあります。ここでもファイルを追加できます。

接続機能は非常に役立ちます。Runner Hを使用するサービスすべてに接続できることの一つです。APIキーを取得し、認証を取得しますが、時々それは少し複雑です。そこで、多くの組み込み統合があります:Google Sheets、Google Docs、Drive、Notion、Slack、Zapierなど。これらをチェックして、ウェブサイトで直接認証するだけで簡単に使用できます。

私が本当にクールだと思うのは、支払い機能が近日公開予定であることです。支払い認証情報を追加して、エージェントにあなたの代わりに支払いをしてもらうことができます。

Tester H の紹介

彼らが発表したもう一つはTester Hで、現在プライベートベータ版です。アクセスを申請でき、ウェブサイトやアプリなどのQAとテストを簡単に自動化する方法です。

その様子をお見せします。Tester Hの動作です。次のようにテストを書くことができます:「特定のページでAirbnbに移動し、横にスクロールして、オレンジのベッドがある最初の写真をクリックすると、オレンジのベッドの画像が表示される」

このようにテストを定義して、実行をクリックすると、自動化されたQAテストができます。

H Companyは素晴らしいものをたくさん発表しました。皆さんに試していただけることを本当に楽しみにしています。オープンソースは私にとって常に非常にありがたいものです。すべてのリンクを説明欄に貼っておきます。

このビデオでパートナーシップを組んでくれたH Companyに改めて感謝いたします。このビデオを楽しんでいただけた方は、ぜひいいねとチャンネル登録をお願いします。

コメント

タイトルとURLをコピーしました