マヌスAIエージェントはGPTラッパーと呼ぶ前に

2,941 文字

Before you call Manus AI Agent, a GPT Wrapper!

Is Manus AI - the next deepseek moment like the influencers are marketing or just another wrapper? Let's dive in! Jian's...

マヌスはGPTラッパーではありません。しかし、それはClaudeラッパーです。この動画を「これは単なるラッパーだ」と言って却下する前に、マヌスの内部構造について説明し、このような自律型AIエージェントの構築の背後にあるものを理解していただきたいと思います。マヌスはとても完璧に動作しています。
Twitterユーザーのジアンは、マヌスが単なるClaudeラッパーであり、29種類のツールを備えていることを突き止めました。これらはLLMがアクセスできるツールです。また、ブラウザの使用もしており、これはLLM使用内でブラウザをエミュレートする方法です。
このことから、インターネット上ではマヌスは単にClaudeをベースにした単純なGPTラッパーのようなアプリケーションに過ぎないと感じる人々が出てきました。人々はマヌスは単なる単純なラッパーに過ぎないと考え始めていたのですが、そこでマヌスの共同創設者が同じスレッドに詳細な回答をし、このようなものを構築する裏側について全員が理解できるようにしました。
各セッションごとに独自のサンドボックスを作成し、作成される各サンドボックスのセッションは他のユーザーセッションから完全に分離されています。あなたと私が同時にマヌスを使用している場合、あなたには異なるサンドボックスがあり、私にも異なるサンドボックスがあります。ユーザーはマヌスのインターフェースを通じて直接サンドボックスに入ることができ、そのためにマヌスのファイルシステム内部で何が起きているのかを人々が理解できるのです。
次に、マヌスは特定の時点で特定のツールを使用する必要があります。彼らはどのようにしてそれを実現しているのでしょうか？創設者はこれが「CodeAct」と呼ばれる非常に人気のあるフレームワークの編集版、若干修正されたバージョンであると述べています。
CodeActでは、LLMエージェントを作成する方法が2つあります。1つは単にテキストを与えて、LLMに特定のタスクを実行するよう依頼する方法です。ここでは、議論しているすべてがテキストを通じて、そしてJSONを通じて行われます。しかし、それをコンピュータプログラムに変換するとどうなるでしょうか？LLMはコンピュータプログラムを書くことができ、コンピュータプログラムは目的のタスクが何であるべきかを表現するのに非常に優れています。これはCodeActと呼ばれるフレームワークです。私はこの論文のレビューをしたかもしれません。もしそうでなければ、YouTubeの説明欄に論文へのリンクを貼っておきます。
人間からの入力があると、このケースではLLMが考え、コンピュータプログラムの形でアクションを作成し、そのコンピュータプログラムが実行されます。これがCodeActであり、マヌスは何らかのCodeActを使用しています。正確に同じではなく、CodeActの若干修正されたバージョンです。
誰かがマヌスのジェイルブレイクを試みると、彼らはツールの説明を得ることになります。実際、マヌスのジェイルブレイクを破ったこのジアンというユーザーも、どのようなツールが使われているのか、そして異なるツールでどのようなアクセス権を持っているのかについて、プロンプト全体と説明全体を共有しました。例えばファイルやコンテンツファイルで検索、名前で検索などの異なる種類の関数があり、マヌスはそれらの関数呼び出しを行っています。
この全体的な暴露の中で最も興味深いことの1つは、マルチエージェント実装があることです。この時点まで、誰もがこれはClaudeの上に単純なラッパーがあるだけだと思っていたので、マルチエージェント実装はないと考えていました。しかし、この場合の共同創設者はマヌスにマルチエージェント実装があることを確認しています。
マヌスとメッセージをやり取りするとき、あなたは実行エージェントとのみ通信します。実行エージェント自体は知識やプランナーや他のエージェントの詳細を知らないか、持っていません。通常、知識エージェント、プランナーエージェント、そして実行エージェントがありますが、マヌスとチャットするとき、あなたは直接実行エージェントとチャットしています。
これは彼らがコンテキストの長さを制御するのに本当に役立ちます。エージェントとしてLLMを使用する際の最大の問題の1つは、非常に速くLLMのコンテキストウィンドウを埋めてしまうことです。彼らがこの特定の落とし穴を避けている方法の1つは、マヌスとチャットするときに直接または実行エージェントとのみ通信していて、必ずしも知識やプランナーや他のエージェントとではないと言うことです。
それがまさにマヌスのジェイルブレイクを通じて得られるプロンプトが幻覚である可能性がある理由です。彼らはブラウザの使用を認めており、これは非常に人気のある方法で、WYI社も資金提供していると思います。また、一連の謝辞と協力を確実に行うつもりだと述べ、最も重要なことは、彼らが何かをオープンソース化する計画も持っていることです。
モデルになるかどうかは分かりませんが、彼自身が後期訓練モデルをオープンソース化し、自らHugging Faceに公開していると認めています。全体的に見て、マヌスは非常に興味深い組み合わせを持っており、それが本当に信頼性の高い自律型エージェントを実現しています。
他の場所で共有された興味深い側面の1つは、現在マヌスはClaude 3.5 Sonnetを使用しており、最新モデルのClaude 3.7や最新の思考モデルであるClaude 3.7 thinking modelではないということです。Claude 3.5 Sonnetと異なるQwen微調整版を使用しています。理由は、彼らがマヌスの構築を始めた時点では、Claude 3.5 Sonnetのみが利用可能だったからです。Claude 3.7は彼らが使い始めたものです。
3.5で彼らは3.5を使い始め、また、おそらくQwen微調整版によって動力を得た数個の補助モデルも使用しており、3.7を試しています。おそらくマヌスはClaude 3.7を使い始めるとさらに強力になるかもしれませんが、この全体的な展開は1つの重要なことを明らかにしています。
それは、オープンソースモデルにとって有望な兆候だということです。これは黒魔術ではなく、彼ら自身のモデルを訓練したわけでもありません。これはインフルエンサーがマーケティングしているようなDeepSeekの瞬間ではありません。これは確かにオープンソースが達成できるものであり、マヌスとほぼ同じようなオープンソースの代替品を試すのが待ち遠しいです。
これがエージェントアーキテクチャがどのように見えるかを理解するのに役立ったことを願っています。あなたの考えを聞かせてください。これは単なる単純なClaudeラッパーだと思いますか？それとも、これには優れた科学、科学と工学が背後にあると思いますか？コメント欄で教えてください。また別の動画でお会いしましょう。プロンプト作成を楽しんでください。