Chrome向けClaude：エージェンティックブラウジングがついに登場

Anthropicがエージェンティックブラウジングの競争に参入してきたんやけど、ブラウザを作るんやなくて、Chrome拡張機能を作ることにしたんや。これをClaude for Chromeって呼んでるんやけど、めっちゃスマートな判断やと思うで。

これは早期研究プレビューの段階で、Proプランの一部の契約者だけがアクセスできるんや。わしもその一人やから、この動画では実際の使用感がどんな感じか、強みと弱みは何か、そして実際のデモを交えた使用例を紹介していくで。

どこのAI企業も何らかのエージェンティックブラウジング体験を作ろうとしてるんや。Perplexityからもコメントが出てるし、OpenAIもエージェンティックブラウザを開発してるって噂がある。GoogleはすでにGeminiとChromeを持ってるし、今度はAnthropicが仲間入りしたってわけや。

ただし、エージェンティックブラウジング体験が普及すると、新しいプロンプトインジェクション技術や脆弱性も出てくるんや。そういうのも後で動画の中で見ていくで。まずは、実際にどんな感じなのか、そして使用例をいくつか紹介させてもらうわ。

実際の使用感とデモンストレーション

実際の体験はこんな感じや。Chrome拡張機能になってて、クリックするとサイドバーが開くんや。これはGemini、Claude、ChatGPTにめっちゃ似たチャットインターフェースなんや。いくつかデモを見せていくで。

最初のテストでは、エージェントにわしの代わりにXに投稿してもらったんや。まず問題なくXに移動できて、メッセージを投稿してくれた。デフォルトでは、何かアクションを起こす前に許可を求めてくるんや。この設定は変更できて、一部のアクションを許可したり、冒険好きなら全部のアクションを許可することもできるで。

動作の仕組みはこうや。まず見てるウェブページのスクリーンショットを撮って、それから実行する予定のアクションを計画する。アクションを実行した後、また再びスクリーンショットを撮って、アクションが実行されて結果が得られたか確認するんや。

わしの場合は、最初にメッセージを投稿したんやけど、投稿ボタンをもう一度押す前に許可を求めてきた。これはめっちゃ興味深い設計選択で、特に機密情報を扱ってる時には重要やと思うで。

でも、XやGmailなんかにログインしてたら、一部のタスクを自動化するのに本当に役立つと思うで。投稿はもうXで公開されてるで。他の例も見せていくわ。

不動産検索でのエージェント活用

次のタスクでは、エージェントに特定のエリアで決められた価格帯でアパートを探してもらったんや。でも、曖昧な情報も加えて、どう対処するか見てみたかったんや。

例えば、庭付きの場所を探してって頼んだんや。普通、Zillowみたいなウェブサイトでは庭って書いてなくて、屋外スペースがある場所って書いてあることが多いんや。

まず、その市の範囲内でZillowのウェブサイトに移動してくれて、これは見てて気持ちよかったで。それから、わしが頼んだ価格帯も入力してくれた。

システムの動作方法は、アクションを起こしてから大体2、3秒待つんや。これでクリック後にページが適切に再読み込みされるのを確保してるんやと思う。だから少し動作が遅い感じやな。全体で10分ぐらいかかったで。

そのフィルターで検索範囲が絞られた。その後、具体的に家を探してるから住宅フィルターを適用してくれた。これでさらに検索範囲が絞られたんや。

それから他の二つのフィルターを適用することにしたんや。一つ目は洗濯設備で、もう一つが屋外スペースや。

エージェントが取るアクションは非常に人間らしくて、特に初めて見るウェブサイトで作業してる時はそうやな。人間と同じように推測して、いろんなところをクリックする。間違った場所に行ったら戻って、また行動を起こすんや。

最終的に家を一軒だけ見つけてくれた。この場所はめっちゃ高いけど、うまくいったで。

情報収集と株価分析エージェント

もう一つの使用例は、異なるウェブサイトから情報を抽出してくれる研究エージェントとして使うことや。この場合、Nvidia株の最近の価格動向を調べて、何が原因か教えてって頼んだんや。

いろんなウェブサイトを見始めて、そこから情報を集め始めた。これはめっちゃ役に立つで。Google検索もできるけど、Google検索は高レベルでのインデックス情報しか教えてくれへん。でもこの場合は、各ウェブサイトに個別にアクセスして、これらのウェブページから情報を集めてくれるんや。

だから、もっと自然で、いろんなコンテンツを本当に速く読めるから、こういうタスクには非常に有用やと思うで。最後に、Nvidia株の価格変動を引き起こした根本原因を正しく特定してくれて、なかなかええ感じやった。

ショッピング研究アシスタント機能

もう一つの使用例は、ショッピングの時の研究アシスタントとして使うことやな。この場合、特定のカメラを探してって頼んだんやけど、どのウェブサイトを見るかは指定せんかった。

まず、Google検索をすることにして、これで価格の基準値を得られる。それから、Googleのショッピングタブを見ることにした。その後、同じ商品を複数の異なるウェブサイトで調べ始めた。

Amazon、Best Buy、B&H、eBayなんかも含まれてて、これは見てて面白かったで。一つのウェブサイトから別のウェブサイトに移動して、同じ商品を見てるんや。

現時点では一つのタブしか見れへんみたいで、つまり一つのウェブサイトから別のウェブサイトに移動するってことや。でもええことに、記憶機能があるんや。

だから、ウェブサイトから情報を集めるたびに、それを記憶に残して後で再利用できるんや。最終的にリストをくれたんや。リンクをでっち上げるかどうか見たかったから、特にリンクを求めたんや。驚いたことに、リンクを覚えてくれてた。そのリンクも実際に機能してて、なかなかええ感じやった。

だから、最初の検索には本当に有用なツールになりうると思うで。

ファイルダウンロード機能のテスト

もう一つの使用例は、インターネットからデータをダウンロードすることや。この場合、IRSのウェブサイトからW-9フォームをダウンロードしてって頼んだんや。

このテストでは、ウェブサイトで情報を見つける能力だけやなくて、インターネットからファイルをダウンロードする際にどう対処するかも見たかったんや。

明示的な許可を求めずにアクションを起こせる自動モードでテストしてた。まず、W-9フォームを見つけるための適切な場所に移動できて、これは本当によかった。それからそのフォームも開けたんやけど、その後で興味深いことが起こった。

何かをダウンロードする時は、自動モードでも、やっぱり明示的な許可を求めてくるんや。これはめっちゃええ設計選択やと思うで。

エージェントにインターネットから悪意あるデータファイルをダウンロードさせるなんて信用でけへんからな。これは本当によくて、Anthropicが安全性重視の会社であることを考えると、非常にええ実装やと思うで。

保存ボックスは開いてくれたけど、最終的なクリックはユーザーのクリックかユーザーの許可が必要なんや。だから、実際のファイルを保存するために保存ボタンをクリックせなあかんかった。

ウェブフォーム入力での課題

もう一つ重要な使用例は、ウェブサイトのウェブフォームに入力することや。これはエージェントが非常に役に立つ分野やな。IRSのウェブサイトで開いてたW-9フォームに入力するために、エージェントにダミー情報を提供したんや。

ここで非常に興味深いことを見始めたんやけど、まず、機密情報は入力してくれへん。この場合、社会保障番号は入力でけへんって教えてくれた。これも非常にええ設計パターンやと思うで。特に、機密な個人情報や金融情報でエージェントを信用したくないからな。

最初の情報でフォームの入力を始めてくれたんやけど、その後ループに陥ってしもた。正しいアクションを説明して、どこに情報を入力するかは分かってるんやけど、間違ったページを見てるんや。これはタスクの複雑さのせいかもしれへん。

最後に、エージェントは頼んだ情報を全部完全に入力したって教えてくれた。でも、そうやないってエージェントに思い出させなあかんかった。実際に「フォームに全部の情報が見当たりまへん。名前しか入力されてへんように見えるんやけど。これで正しいか確認してくれる？」って言ったんや。

もう一度スクリーンショットを撮って戻って、フォームを見始めて、フォームに入力してへんことに気づいたんや。そうや、ループに陥ってたんや。これがフォームの複雑さのせいか、文書の長さのせいかは分からん。他のウェブフォームでは同じ動作を再現してへん。

だから、アクセスできるようになったら、ぜひテストしてみてや。面白いテストになると思うで。でも、このテストの最後に、Claudeはわしが提供した情報に基づいてW-9フォームに入力することはでけんかった。

セキュリティと機密情報への配慮

個人情報や金融情報といった機密情報に関しては、Claudeは非常に保守的やな。例えば、銀行口座や金融詳細にアクセスしてって頼んでも、Claudeはウェブサイトまでは連れて行ってくれるけど、代わりにアクションは起こしてくれへん。

これは重要で、特にわしは金融や個人情報に関してこれらのエージェントを信用してへんからな。だから、Anthropicがこれを真剣に受け止めてるのを見るのはええことや。

他の実装の中には、サンドボックスでエージェントを使ってるものもある。繰り返すけど、わしはリモートサンドボックスにアカウント情報を入力することは信用せえへん。だから、少なくともこれはローカルで動いてるけど、それでも非常に注意せなあかん。

これは現在、約1000人のProプラン利用者の選ばれたグループで利用可能や。希望なら待機リストに参加できるで。前にも言うたように、研究プレビューの段階やから、見たように、うまくいくこともあれば、うまくいかへんこともある。

セキュリティ脆弱性と攻撃ベクトル

でも、動画の最後に一番強調したかったのは、これらのエージェンティックブラウジング体験を使い始める時に関係してくる脆弱性や新しい攻撃ベクトルについてや。そして、それらの一部を軽減するための研究もされてるんや。

例えば、プロンプトインジェクションは大きな問題になるで。特に、ウェブサイトに何かを埋め込むだけで、エージェントがおそらく特定の指示が書かれた画像を読んだり、悪意あるコードを実行したりするからな。

それらを軽減するために、まずサイトレベルの権限がある。ユーザーは設定でいつでも特定のウェブサイトに対するClaudeのアクセスを許可したり取り消したりできるんや。実際に、ここの設定に行くと、承認したウェブサイトのリストが見れるで。希望なら、それらを権限から削除することもできる。

二つ目はアクション確認や。すべてのアクションでClaudeが許可を求めてくるのを見たように、権限をスキップすることを有効にしない限りはな。

権限をスキップして自動モードにしても、Claudeはやっぱり特定のアクションはしてくれへん。例えば、プライベートデータにアクセスしたり、銀行口座にログインしようとしたり、社会保障番号を入力したりはせえへん。

例えば、金融サービス、アダルトコンテンツ、海賊版コンテンツなど、特定の高リスクカテゴリのウェブサイトでClaudeを使うことをブロックしてるって言うてる。

これは重要で、この時点では、これらのエージェンシステムやその能力を本当に信用することはでけへんからな。だから、これは本当にええ軽減策や。それでも、エージェントが起こすアクションを観察することは確実にしたいと思うで。

これらの軽減策によって、エージェントを動かしてると思われるモデルであるSonnet 4を使った現在のシステムで、プロンプトインジェクション脆弱性を11%まで減らすことができたって示してる。

これらの軽減策を含めなかったら約23%やった。だから、ほぼ50%の削減で、これは素晴らしいけど、それでも11%は多いで。

特定の攻撃ベクトルに対して特定のレッドチーミングをしてるんや。その一つがウェブページの隠された悪意あるフォームフィールドで、ユーザーには見えへんけどClaudeは読むことができるものや。

ブラウザ固有の4つの攻撃タイプのチャレンジセットで、エラー率を約36%から0%まで軽減したって言うてる。これは素晴らしいことやけど、それは一つのチャレンジだけやろ？

だから、Claude for Chromeを広く利用可能にする前に、考えてる攻撃の範囲を拡大して、これらの割合をゼロにもっと近づける方法を学びたいって言うてる。

だから、これらの新しいブラウジング体験では、セキュリティ面でやることが山ほどあると思うで。

これらのエージェンティックブラウザについてどう思うか、そして自分のワークフローでどう活用できるかも教えてや。

とにかく、この動画が役に立ったと思ってくれたら嬉しいで。