NOVO Manus AI、この超強力なAIの裏側にあるものをテストしました

AGIに仕事を奪われたい
この記事は約11分で読めます。

6,482 文字

NOVO Manus Ai, Testamos O Que Tem Por Trás Dessa iA Super Poderosa! O que é o Browser Use?
Aprenda Inteligência Artificial!Códigos de Browser Use: ▸ Seja MEMBRO:

皆さん、どうやらAI界の「マヌス」(Manus)の秘密が明らかになったようです。このプロセスがどのようなものなのか、何が発見されたのか、何が起きているのかを少し理解していきましょう。結局、Manusは自分が行ったとされるすべてのことを本当に行ったのか、それとも他のツールやコードを使用しているのか、そしてこの全ての裏側に何があるのかを理解する必要があります。さあ、一緒に見ていきましょう。
いつものように「いいね」をしてくれた皆さん、チャンネル登録してくれた皆さんに感謝します。そして、このAIチャンネルを支援してくれているメンバーの皆さんに特別な感謝を。メンバーはAIエージェントに関する限定動画にアクセスできることを忘れないでください。
皆さん、この投稿はこれです。Manusが正体を暴かれ、その裏側にはブラウザーユース(Browser USE)のラッパーがあるというものです。これはブラウザーユース自身による投稿で、冗談を言っていますが、実際にかなり興味深いものです。もちろん、AIのManusはこのブラウザーユースのラッパー以上のことをしています。これらの人々は人間で、ラッパーを使用していますが、このようなものがどのように機能し、すべてがどのように関連しているのかを理解しましょう。
以前、Manusについての詳細な動画でこの投稿について話しました。この投稿者が「ブラウザーユースを使用している」と言及していたことにも触れましたが、当時はあまり注目しませんでした。しかし、この話題が広がり、Manusの開発者であるRau PGが実際に確認しています。「私たちはオープンソースのブラウザーユースを確かに使用しています」と彼は言っています。
ここまでは何の秘密もありませんが、私たちが知らなかったこと、慣れていなかったことは、このツールが重労働を非常に簡単にこなし、すでに準備ができているということです。では何が起きているのかを理解しましょう。
このブラウザーユースとは何でしょうか?ブラウザーユースは完全に無料のオープンプロジェクトで、コードはここで公開されています。あなたのPCにインストールしてダウンロードすることができます。試してみましょう。「pip install browser-use」と入力すると、Pythonで実行するためのインストールが行われます。自宅でも試せば動作するでしょう。
そして「playwright」を使用する必要があると書かれています。このplaywrightとは何でしょうか?これはMicrosoftのツールで、Webの自動テストを行うためのものです。プログラムによってブラウザを自動的に制御し、ページにアクセスしたり様々なことを行ったりすることができます。多くの人はSeleniumを知っていますが、Seleniumはより古く、多くの他の機能を持っています。しかし、playwrightはより軽量で、より速く動作するようです。私は直接これらを扱っていませんが、コメントを見る限り、最近の人々はplaywrightを使用する傾向があるようです。
これは何を意味するのでしょうか?このブラウザーユースをPythonの10行ほどのコードで使用すれば、例えばGPT-4とClaude 3の価格比較の検索ができ、エージェントが応答し、質問し、すべてが美しく自動的に実行されるということです。
では、ステップバイステップで何が起きているのかを理解しましょう。まず、Microsoft製のplaywrightをインストールする必要があります。これがないと仮想ブラウザが機能しません。playwrightもオープンソースで、NodeとPythonの両方で実行できます。GitHubにアクセスすると、playwright-pythonのコードがきれいに表示されています。インストール手順がすべて記載されており、Chromium、WebKit、Firefoxを使用しています。Chromiumはつまり、ChromeとMicrosoft Edgeの両方をシミュレートできるということで、これは完璧です。
インストールはとても簡単です。「pip install pytest-playwright」と入力し、その後「playwright install」を実行してplaywrightをインストールするか、「pip install playwright」を直接実行することもできます。これは同じプロジェクトです。
ここの例で、この最初の例を実行してみます。いくつかの小さな変更を加えますが、基本的には画面に表示されているこの例と同じです。playwrightを呼び出し、ブラウザにアクセスし、新しいページを作成し、この場合はplaywright.devというページにアクセスします。私はinteligencia1000grau.comに変更し、タイトルを表示して画面のスクリーンショットを撮るように指示します。
更新したコードで変更したのは、サイトをinteligencia1000grau.comに変更し、このprint_page_titleを追加し、ブラウザでp.chromium.launch()を使用し、browserTypeに関連するファイル名の一部を削除しました。このプログラムはplaywright_example.pyです。実行して何が起こるか見てみましょう。
実行しました!見てください。「inteligencia1000grau」と表示されています。背景に「example」という画像が開いて閉じ、画面に「inteligencia1000grau」と表示されました。正確に閉じました。ここに「inteligencia1000grau」と書いてあります。ページにアクセスすると、タイトルが「inteligencia1000grau」となっており、小さな写真もあります。動画が自動再生されていますが、タイトルは正確に表示されています。
謎の第一部が解決しました。プログラムを使ってplaywrightでブラウザでのナビゲーションを行う方法がわかりました。
第二部に移りましょう。ブラウザーユースに戻ります。まだ「pip install browser-use」をインストールしていない場合は、今インストールしてください。playwrightはすでにインストールされていると想定します。ここにとても短く簡潔なコードがあります。これはヘッドレスと呼ばれるもので、実行時に画面に表示せずにエージェントを使用するようなものです。
少し下にスクロールすると、「ユーザーインターフェイスで試したい場合は、ここの例を実行できます」と書かれています。「gradio_demo.py」という例があり、これをいじりました。サーバー名を「0.0.0.0」に変更しました。これは、ローカルネットワーク内の別のコンピュータからアクセスしたかったからです。何も変更しなければ、同様に機能するはずです。それ以外は変更していません。
このファイルはどこにあるのでしょうか?例のファイルの中にあります。例の中に「UI」(ユーザーインターフェイス)があり、その中に「gradio_demo.py」があります。このコードをコピーして貼り付ければ動作するはずです。
では、このコードを実行してみましょう。少し時間がかかりますが、そのうち「ローカルで実行中」というメッセージとURLが表示されるはずです。あなたには「127.0.0.1」と表示されるかもしれませんが、私には「0.0.0.0」と表示されています。これは内部ネットワークで実行したいからです。
そのアドレスにアクセスすると、このような画面が表示されます。APIキーをここに入力し、例えば「YouTubeでinteligencia1000grauチャンネルのManusの動画を検索して」と入力すると、このタスクを実行しようとします。必ずしも成功するとは限りませんが、少なくとも試みることになります。
「Run Task」をクリックして何が起こるか見てみましょう。見てください!ブラウザが開きました。YouTubeにアクセスしています。これは私がやっているのではなく、ブラウザーユースプログラム自体がやっていることです。フィールドを検出し始め、何をすべきかを検出し始めています。「Manus canal inteligencia1000grau」と検索し始めています。私は何もしていません。写真を撮りながら見ていきます。チャンネルを見つけ、Manusを見つけました。画面が消えたら停止したということです。クリックするかどうか見てみましょう。閉じました!「Task completed successful」と表示されています。
これは、Open AIのOperatorに料金を支払ったり、Open AIが請求する価格を支払ったりすることなく、無料のOperatorを手に入れたということです。どう思いますか?
何をしたのか見てみましょう。この醜い画面で、初期タスク「inteligencia1000grauチャンネルのYouTubeでManusの動画を検索して」から始まります。ステップ1で評価を開始し、空白のページから準備を始めます。メモリに「YouTubeのinteligencia1000grauチャンネルでManusの動画を検索するタスクを開始」と記録し、次のステップとして「YouTubeで動画を検索」としています。
アクション1/1:「youtube.com」のタブを開く。ステップ2:正常に読み込まれたかを評価。メモリに「YouTubeページが正常に読み込まれ、inteligencia1000grauチャンネルでManusの検索準備ができている」と記録。次の目標は検索バーにテキストを入力することです。
アクション2:「Manus canal inteligencia1000grau」というテキストを検索バーに入力するために要素4をクリックします。コントローラーはindex 3の入力フィールドに「Manus canal inteligencia1000grau」を入力します。ステップ3:検索が正常に完了しました。検索がYouTubeのフィールドに正常に入力されました。次のステップは検索ボタンをクリックしてタスクを完了することです。
要素番号5をクリックします。画面上に数字が表示されていたのを覚えていますか?様々なボタンに小さな四角が表示され、そのうちの一つが番号5でした。これが彼の判断基準です。ステップ4:成功。inteligencia1000grauチャンネルのManusの検索結果が正しく表示されました。
メモリに「動画が見つかりました:『NOVO Manus AI、今すぐ無料で使用できる新情報とオープンManusがinteligencia1000grauチャンネルにあります』」と記録します。うまくいきました。写真を撮って画面に何があるかを確認し、何かを検索したりYouTubeにアクセスしたり、フィールドに何かを入力したりする必要があれば、試みます。
テキストを入力するたびに、入力したテキストが表示されているかを確認するために写真を撮ります。表示されていれば次のクリックに進みます。クリックした後も写真を撮って、クリックで起こるべきことが起こったかを確認します。このプロセスが続き、写真を撮って画面の状態を確認し、アクションを実行し、アクションが機能したかを確認するために写真を撮り、次のステップに進みます。
最後に「完了」となり、結果を表示します:「『NOVO Manus AI、今すぐ無料で使用できる新情報とオープンManusがinteligencia1000grauチャンネルにあります』という動画をYouTubeで見つけました。タスクが正常に完了しました。」
どう思いましたか?Open AIに契約料を支払ったり、AnthropicのClaude 3を使用したりすることなく、自宅でOperatorを利用できるというアイデアは気に入りましたか?オープンプロジェクトで完璧ですね。
ここで興味深いのは、使用するAIモデルを選択できることです。GPT-4とGPT-3.5 Turboの2つのオプションが提供されています。これらのバージョンはやや古いと思いますが、コードをよく調べると、他のモデルを追加する場所を発見できます。コード内に「model=”gpt-4o”」と書かれているので、この選択ボックスはただのテストで、おそらく機能していないのでしょう。この選択ボックスは彼らが作り始めたが上手くいかなかったものかもしれません。
少なくとも一部の謎は解明されました。コード生成に関する他の部分、特にコードを生成してテストして行き来する部分は、このブラウザーユースとは関係ありません。それは別のものです。だからおそらく彼らはブラウザーユースを取り入れ、他のものと統合し、それらを操作して統合しているのでしょう。
Y-Pic-Jが使用していることを否定したことはないことを常に覚えておいてください。「Manusについての他の動画で説明したように、私たちはブラウザーユースを使用しています」と彼は言っています。
物事が私たちが想像するよりも簡単であり、必要以上に準備ができていることを見るのは興味深いことです。これは、今すぐコンピュータにすべてをインストールして使い始めることができることを意味します。
playwrightに関して興味深いのは、これが人間のブラウザではなく、すべてを自動的に行うことです。例えば、ロボットかどうかを確認する画面がある場合、これらのブラウザはマウスを取得して動かすわけではなく、直接ポイントにアクセスするので失敗します。クリックはすべて手動で行われるため、最終的にはブラウザが自動化として検出されてバグが発生することがあります。
ほとんどの場合はうまく機能します。私はこのような問題に遭遇していませんが、発生した場合は、手動で介入して途中でクリックすることで問題を解決できるでしょう。
最後に言及すべき問題はセキュリティに関するものです。自動アクセスを行うこれらのブラウザはパスワードを使用したり、クレジットカード情報を使用したりする可能性があるため、個人のマシンで実行する際には十分注意してください。
Windowsを使用している場合、「Windows Sandbox」と呼ばれるものがあります。これはWindows Sandboxを開いて、インストールしたり実行したりできる分離されたWindowsセッションです。あなたのコンピュータとは関係なく、すべて分離されています。しかし、セッションを終了すると、行ったすべてのことが失われます。コンピュータのファイルへのアクセス権もありません。
簡単なテストを行いたい場合は、Windows Sandboxを使用することをお勧めします。そこですべてをインストールして、保護された環境にいることを知りながらすべてのテストを行います。終了したら閉じると、すべてが失われ、再度開く場合は再インストールする必要がありますが、単なるテストであれば価値があります。
このテストは非常に簡単なものであり、最初から機能したことに驚いています。YouTubeに入り、チャンネルを検索して見つけてくれました。すべてがうまくいっていることに本当に嬉しく思います。
あなたが何を考えているのかコメントしてください。このようなビデオを見続けたいなら、チャンネルのメンバーになってサポートしてください。メンバーはWhatsAppグループや早期アクセスビデオにアクセスできます。「いいね」をお願いします!

コメント

タイトルとURLをコピーしました