どんなサイトもスクレイプ可能 — 無料MCP + Claude & LangGraphエージェント

MCP
この記事は約10分で読めます。

本動画では、従来のウェブ検索ツールでは制限されていたAmazonやRedditなどのウェブサイトからのデータ収集を、BrightDataのMCPサーバーを活用して実現する方法を解説している。このシステムはウェブサイト特有のツールを使用してマークダウン形式でデータを取得し、LLMを使って情報を抽出することが可能である。さらに、LangGraphを用いた多エージェントシステムの構築方法も紹介されており、インテント分類器によって検索パスを動的に選択し、ローカルRAGシステムとウェブ検索を組み合わせた効率的な情報収集が実現されている。

Scrape Any Site — FREE MCP + Claude & LangGraph Agents
Get started with BrightData here: how to use the free BrightData MCP server to collect information from multiple divers....

ウェブスクレイピングの課題と解決策

俺みたいにRTX 5090を買いたくて、いろんなウェブサイトで価格比較をしたいって思っとるとするやろ。きっとAmazonで調べたり、Best Buyで価格比較したり、Redditでレビューを見たりするやろな。残念ながら、これらのウェブサイトの大部分は、もうデータのスクレイピングを許可しとらんのや。特に通常のウェブ検索ツールを使っとる場合は、極めて制限されとるんやわ。

例えば、ClaudeにAmazonの直接リンクを提供しても、通常のウェブ検索ツールではそこからデータを取得することができへん。代わりに、一般的なウェブ検索をして、汎用的な情報を提供するだけなんや。でも今は、幸い、これらのウェブサイト専用のツールを持った無料サーバーがあるんやわ。

これは、あんたが提供したウェブサイトからマークダウンとしてデータをレンダリングするだけやなくて、LLMを使って情報を抽出し、あんたが探してる正確な情報を提供することもできるんや。

一般的に、情報を収集したい場合は、単純なGoogle検索を超えて進みたいもんやろ。それらのウェブサイトに行って情報を収集し、回答を統合したいわけや。それがまさに今回の動画で行うことなんやで。

システムの全体像

このシステムを使用するんやが、これはウェブサイトを検索してスクレイピングするだけやなくて、ユーザークエリに基づいて複数のソースからデータにアクセスするための情報源を動的に選択するローカルRAGシステムを持っとるんや。

今回はBrightDataのMCPサーバーを使用するで。これは今や非常に寛大な制限付きで無料なんや。このシステムの美しさは、Amazon、Best Buy、X、LinkedInなどのウェブサイトから情報を収集できる、さまざまなタイプのウェブサイト用の複数の異なるツールを持っとることや。

彼らは今日の動画の優しいスポンサーでもあって、月5,000クエリを無料で利用できるようになっとる。

この動画では、このMCPサーバーをClaudeで設定して使用する方法を見せて、後でLangGraphを使用してエージェントシステムを構築する方法も紹介するで。

APIキーの取得と設定

まず、APIキーを取得する必要があるんや。彼らのプラットフォームで情報を探すには、チャットボットを使えるで。APIキーの取得方法について聞いてみるわ。

アカウント設定を指してるな。そこからAPIキーを取得できるんや。ここですでにAPIキーを生成しとる。更新する必要がある場合は、これをクリックするだけや。APIキーを更新してくれるわ。

特定のウェブサイト用の特定のデータスクレイパーと一緒に、事前にスクレイピングされたデータセットもあるんや。まず、Claudeでこれを設定する方法を見せるで。

まず設定に行く必要があるんや。設定内で開発者に行って、今はBrightDataのMCPサーバーがすでに事前設定されとる。でも設定を変更したい場合は、設定の編集をクリックするだけや。ここでAPIキーを取り消すつもりや。

ここに設定があるで。これは動画説明に載せとく。必要なのはAPIトークンを提供するだけで、Claudeを再起動するだけでええんや。

実際の動作デモ

最初に見たのと同じプロンプトを実行してみよう。今は通常のウェブ検索を有効にしとる。情報を取得したい特定のリンクを提供するわ。Claudeに送信すると、Amazonはデータのスクレイピングを許可してないので、Amazonからデータを取得できへん。

なので、ウェブ検索を使用するだけや。見ての通り、Amazonを見てるんやなくて、他のたくさんのウェブサイトを見とる。おそらくAmazonのリンクも見つけるかもしれんが、それでも別のウェブサイトから来てるわけや。これは探してる情報やないんや。

今度は、BrightDataのMCPサーバーを有効にして同じことをしようとしたらどうなるか?Amazon、Best Buy、X、LinkedInなどのウェブサイトからデータをスクレイピングする特定のツールを持っとるんや。

今これを送信すると、BrightDataのMCPサーバーを通じてツールの使用がトリガーされることを願っとる。ここで見ての通り、リンクを提供したことを検出したんや。

なので、このリンクからマークダウンでデータをスクレイピングするで。これがそのページからスクレイピングされたマークダウンでの正確な情報や。LLMがこのマークダウンからすべてを解読できるので、その情報をレンダリングできるんや。これはかなりすごいやろ。

このカードについてRedditでレビューを探すよう具体的に頼んだんや。最初に簡単なウェブ検索をしたが、特にRedditを見とる。見えるリンクはすべてRedditから来とるんや。

でも、これらのリンクを一つずつ選んだんや。例えば、ここはNvidiaサブレディットで、それをマークダウンとしてスクレイピングしたんや。ここは別のもので、Build a PCや。また、その情報を見て、スクレイピングしたんや。まだいくつかあると思うで。

別のウェブ検索をして、特にRedditから継続的にデータをスクレイピングしとったんやな。これはめちゃくちゃ強力やで。なぜなら、あんたのニーズに基づいて、ウェブ検索エンジン内にあるインデックス化された情報を使うだけやなくて、特定の情報源を指定できるからや。

コーディングエージェントでの使用

これはかなりすごいが、コーディングエージェントではどう使うんや?この簡単なセットアップをまとめたんやが、ユーザークエリを見て、それに基づいてGoogleを使った簡単なウェブ検索をするか、既存のRAGシステムを使うかを決定するインテント分類器を使用するで。

この場合、ウェブ検索をすることを決定すると、特定のウェブサイトからデータをスクレイピングして情報を収集しに行くんや。

残りの動画では、情報を探すために複数の異なる並列パスを使用するワークフローを見せるで。これには2つの異なる主要コンポーネントがあるんや。

最初のものはローカルRAGシステムや。例えば、DeepSeekモデルに関する質問をすると、DeepSeekレポートを使って情報を見つけてくれるんや。

システムアーキテクチャの詳細

この仕組みは、上部にインテント分類器があって、ユーザークエリを見て、ウェブ検索とローカルRAGシステムのどちらを使うかを決定するんや。

クエリにDeepSeekが含まれてる場合は、ローカルRAGシステムを使用することを決定して、オンラインソースに行くんやなくて、ローカルRAGシステムから答えるんや。

一方、ユーザーが何らかの一般的な事実情報や製品、比較に関する情報を探してる場合は、インテント分類器がウェブ検索を使用するんや。

これには、最初にGoogle検索を使用するで。でも、インテントやユーザークエリに基づいて、Amazon、Best Buy、Reddit、Xなどのさまざまなウェブサイトを見るかもしれん。

そして、基本的にスクレイピングツールであるWeb Unlockerを使って、実際のデータをマークダウンとしてスクレイピングし、これらのスクレイパーを並列で実行して、最終処理に渡して最終回答を生成し、すべてをユーザーに戻すんや。

このプロジェクトのコードは動画説明で利用可能になるで。多くの異なるコンポーネントがあるんや。一つはMCPサーバーや。これは同じMCPサーバーやが、プログラム的に制御されとる。

それから、LangGraph内で作成されるメイングラフがあるんや。メイングラフ内では、利用可能な全ての異なるツールと、エージェントが取ることができる異なるパスがあるで。

例えば、ユーザークエリが来たら、特定のパスにルーティングする必要があるんや。これらの部分は、RAGのみのシステムを使いたいか、データスクレイピングと一緒に検索メカニズムを使いたいかや。

上部では、この場合はin-context learningであるRAGインデックスをロードするんや。全体のファイルをロードするで。そして、ユーザークエリに基づいて、どのパスをフォローするかを決定し、システムがユーザークエリに基づいて使用することを決定できる多くの異なる並列パスを持っとるんや。

ここにノードの実際の定義と、それらができることがあるで。また、システムがどのパスをフォローし、どのツールを使用するかをガイドする特定のシステムプロンプトも使用しとる。この詳細は動画説明で利用可能やで。必ず見てもらって、あんた自身のニーズに基づいてこれを変更することができるで。

実際の使用例

このシステムは2つの異なる方法で使用できるんや。一つはLangGraphスタジオを通じて、もう一つは直接Pythonスクリプトを通じてや。ここでは直接Pythonスクリプトを使用しとる。

質問は、OpenAIからの新しいGPT-5モデルのリリースに関する感情は何かや。これを実行すると、ウェブスクレイピングを使用することを決定したんや。

ここにユーザークエリがあって、Google検索エンジンを使用するで。Google検索結果に基づいて、実際に異なるURLを見て、それらのURLのそれぞれからデータをスクレイピングしとることがわかるで。

ここはYouTube動画やと思うで。興味深いことに、ここは別のものや。Redditの投稿とWiredやMediumの記事もあるんやな。美しいのは、システムがこれら複数の異なるソースから並列でデータを抽出して、最終的な回答を生成してくれることや。

GPT-5のリリースを取り巻く感情は、多くのユーザーやアナリストが失望を表明し、前のモデルと比較してパフォーマンスが劣ると主張して、大部分が否定的に見えるって言っとる。いくつかのソースは、反発とOpenAIが問題に対処するために奔走してることを報告しとる。これは大部分が真実やったんや。

もう一つの方法は、LangGraphスタジオを使用することや。LangGraph devを実行するで。これでLangGraphが開いて、ユーザークエリを実行できるんや。

RTX 5090のAmazonでの最安値は何かって聞いてみよう。クエリを実行できるで。実際にグラフを通してどのように進むかを見ることができるんや。

今はGoogle検索をしとって、AmazonのWebリンクを見て、それらのWebリンクからデータをスクレイピングして、探してる情報を取得してくれることを願っとる。

実際に複数の異なるウェブ検索をしたのが見えて、Amazonから直接データをスクレイピングしてることがわかるで。これはかなりすごいやろ。

今は実際にWeb Unlockerをやっとって、これは基本的にマークダウンに変換して情報を抽出しとるんや。ここに最終結果があって、これがLLMに渡されて最終回答を生成するんや。

でも、DeepSeekモデルのトレーニングコストは何やったかって質問をしたとしよう。今度はインテント分類器に基づいてRAGシステムを使用すべきや。実際にRAGシステムに行って、それに基づいて回答を生成したんや。

最初にファイルをロードして、インテント分類器がRAGシステムを使用することを決定したのが見えるで。ここに取得されたRAGコンテキストがあって、このRAGコンテキストを使用して最終回答を生成するんや。

まとめ

これは、BrightDataのウェブ検索機能を使用して複数の異なるウェブサイトから情報を抽出し、そこからデータをスクレイピングして、マルチエージェントシステムで使用する方法についてのクイックチュートリアルやった。

ぜひチェックしてもらいたいで。月5,000クエリの無料プランで、どんどん使っとるんや。ウェブ検索エンジンの本当に良い代替品やと思うで。

とにかく、この動画が役に立ったことを願っとる。見てくれてありがとう、そしていつものように、次の動画で会おうや。

コメント

タイトルとURLをコピーしました