マヌスAI – ハイプストームの前の静けさ…(Deep Research + Grok 3との比較)

AGIに仕事を奪われたい
この記事は約11分で読めます。

6,303 文字

Manus AI - The Calm Before the Hypestorm … (vs Deep Research + Grok 3)
Is Manus AI the memecoin of the AI world, or legit? I’ll compare it to OpenAI’s Deep Research, Operator, Grok 3 DeepSear...

私の計算では、ここ数日でAIに関する過小評価された進展が約12件ありましたが、それらはもう少しの間、過小評価されたままかもしれません。なぜなら13番目のマヌスAIは数百万人がウェイトリストに登録し、おそらく1億人がそれについて話しているからです。ですから、ほんの数時間だけ、GeminiのSamini新しい画像編集機能、報酬ハッキングの増加、OpenAIの秘密の創作執筆モデル、その他ほぼすべてのことは待たなければなりません。正直に言うと、マヌスAIはAIの状況について良くも悪くも多くのことを物語っています。それでは始めましょう。
私のテストや、Deep Research、Grok 3、Deep Search、GeminiのDeep Researchとの比較をお見せする前に、完璧なハイプキャンペーンがどのようなものか考えてみてください。私にとって、それはこのように始まるでしょう。あなたの製品を「AGIの可能性を垣間見るもの」と呼びます。「他のAIはアイデアの生成で止まりますが、マヌスは結果を届けます。私たちはこれを人間と機械のコラボレーションの次のパラダイムであり、潜在的にはAGIへの一瞥と見ています」と。
次に、製品をウェイトリストの裏に置きますが、あなたの製品を宣伝してくれそうな人々を優先して早期アクセスを与えます。完璧な結果は、「中国はGPT-5が登場する前にマヌスでAGIに到達した」というようなコメントです。さらに十分な希少性を作り出すために、招待コードはTwitter上で競争の賞品として提供され、さらに良いことに、それらがオンラインで何千ドルもの値段で再販されているという話を作ることができれば最高です。もしそれが本当なら、私はすぐに鋳造できるでしょう。なぜなら私は複数の招待コードをもらったからです。
もちろん、あなたのモデルがClaudeに基づいていることを言及するのを遅らせるのも賢明です。なぜならそれはハイプを少し和らげるでしょうし、あなたのウェブサイトが中国でブロックされている理由も説明できます。そのモデルは中国でブロックされているからです。そして仕上げに、複数のベンチマークがあると言及しますが、実際には単一のベンチマークしか提供せず、もちろんその間に、そのベンチマークがライバルを上回るパフォーマンスを示すことを確実にします。
もちろん、この長い話で私はひどく生意気なことを言っていますが、マヌスは実際にかなり素晴らしいものです。マヌスの背後にいるチームは私に親切にしてくれたので、このような皮肉を言うのはほんの少し無礼かもしれませんが、ハイプマシンがどのように機能するかを手短に洞察する機会を逃すことができませんでした。
私は確信していますが、すべての業界には独自のハイプ商人がいます。ただ、AIのように未来にとって重要な分野では、皆さんや誰かが極端な考えに陥ってほしくないのです。その極端とは、すべての新しい開発が誰もの仕事を自動化する一歩手前だということと、もう一方の極端では、AIはただのハイプで実質的には何もないということです。
ただ、手短に言えば、ヤン・ルンが有名にLLMsの懐疑論者として知られている一部によって書かれたこの特定のGUIA(ジュイア)ベンチマークについて、私、そしておそらくあなたも、OpenAI Researchと比較したこれらのスコアにかなり感銘を受けています。問題は、これが公開ベンチマークであるため、彼らが本質的にベンチマークを操作するための過度の最適化をしなかったという信頼にやや頼っていることです。例えば、回答が公開されているので、特定のベンチマークで一定のバーに達するまでモデルのトレーニングと最適化を続けることができます。
マヌスAIについてまだ聞いていない少数の方々のために、それは何で何をするのでしょうか?それはOpenAIのOperatorとDeep Researchシステムを組み合わせたようなものです。Operatorをコンピューター上でアクションを実行できるエージェントと考えてください。クリックしたり、レストランを予約したりなどができます。ただし、Operatorはかなり扱いにくく、多くの手助けが必要で、一度に一つのことを行い、次に別の質問をします。対照的に、Deep Researchはクエリを明確にした後、この場合は37のソースを14分間検索し、包括的な出力を生成します。
特にDeep Researchは素晴らしいと思いますが、OperatorとDeep Researchが特に人気がなく、あまり広まっていない理由は、最近までOpenAIのプロティアと呼ばれる200ドルのティアに限定されていたからです。最後のコンテキストはClaude Projectsから来ています。これはClaudeで行った作業のインタラクティブなプレビューと考えることができます。
それらをすべて組み合わせて、すべてのバグを無視すると、マヌスAIが出来上がります。例えば、私はこう尋ねました。「2025年3月にLLMsで何が起こったかについて、テキストが密集した単純なウェブサイトを作成してください。カーソルだけが炎のたいまつとして光っています。」モデルはLLMsの2025年3月に起こったすべてを見つけるために、かなり包括的なウェブ検索やDeep Researchを行う必要があることに注意してください。しかし、その後、インタラクティブなウェブサイトを作るためにClaude Projectを行い、この小さなウィンドウを考え出さなければなりません。
OpenAIのOperatorのように、リアルタイムでアクションを実行しているのを見ることができます。実際、停止してガイドすることもできます。そしてすべてがうまく機能すると、かなり印象的です。これがそのウェブサイトです。私はこのように機能させるために、ほとんど何もする必要がありませんでした。それがマヌスの素晴らしいところです。これらの異なる能力をすべて一つのエージェントにまとめています。それぞれは素晴らしいわけではありませんが、これらをすべて結びつけています。
しかし、いくつかの誤った概念を払拭するために、いくつかのことを明らかにしましょう。マヌスは数十のツールといくつかのモデルを使用していますが、今日時点での主要なモデルは、状況について直接知識を持つ人によると、Claude 3.7 Sonnetです。そのモデルはかなり高価で、信じられないほどレート制限があります。これにより、MIT Technology Reviewで報告された一つの推定では、マヌスAIの1タスクあたりのコストは約2ドルとされています。
では、これを中国の第二のDeep Seekの瞬間と呼ぶ前に、Deep Seekとのいくつかの重要な相違点を理解する必要があります。Deep Seekは独自のモデルを作りましたが、マヌスAIは他の人のモデルの集合体です。第二に、私にとってDeep Seekの瞬間を作ったのは、それがいかに安価で、利用可能性がいかに広範囲だったかということです。そのためアプリチャートで急上昇しました。1タスクあたり2ドルで、1日に5タスクを行うだけでも、1ヶ月でのコストを計算できます。はい、これはおそらく私のような早期アクセスを得たYouTuberでさえも、最大の日次使用制限にすぐに達した理由です。
あなたはどう思いますか?私はマヌスAIを第二のDeep Seekの瞬間とは見ていません。では、品質はどうでしょうか?私の意見では、それはすべてをかなりうまくやりますが、最先端レベルのことは何もありません。いくつかの例を挙げ、OpenAIのDeep Research、Grok 3、Deep Search、そしてGeminiのDeep Researchとの比較を試みます。はい、名前は紛らわしいですが、マヌスAIはマルチモーダルで、画像をアップロードしてそれに基づいたタスクを実行させることができます。
例えば、「この画像に掲載されている各企業の創設者をリストアップしてください」と言いました。企業名を認識し、その後Deep Researchのようなものを実行する必要があります。先に述べた4つすべてのツールでこれを試し、結果を速度順に示します。最速だったのはGemini Advancedの Deep Researchで、ファイルの追加はまだ利用できないと1秒未満で教えてくれました。これはかなり印象的です。
次はGrok 3 Deep Searchで、わずか2分半で344のソースを分析しました。速かったですが、多くの企業をスキップしました。結果は概して正確でしたが、ご覧のように、多くの企業について「不明な創設者」と述べている一方で、私はかなり多くの企業の創設者を比較的簡単に見つけることができました。マヌスAIとOpenAI Deep Researchはほぼ同じ時間、約15分かかりましたが、マヌスAIのパフォーマンスは明らかに劣っていました。
つまり、スクロールダウンすると、創設者を見つけることを諦めた2つの企業がありました。それはCurated AIとCIANです。Deep Researchはこれらの企業の創設者を見つけ、私は確認したところ、それらはかなり信頼できるようです。CIANについては、ウェブサイトやCrunchbaseで報告されており、Curated AIについては、かなり人気のある雑誌で報告されています。
もちろん、精度の問題を報告しているのは私だけではありません。オンラインにはこのようなレポートがたくさんあります。例えば、マヌスAIがゲーム機市場について尋ねられ、Nintendo Switchを無視したというものです。精度をチェックしなければ、それが作成できるすべてのことや、行う研究について単にハイパーベンチレーションするほうがはるかに簡単でしょう。
もう一つの例を挙げて、マヌスに対してできるだけ公平であろうとします。今回は、先に述べた4つのエージェントツールすべてに、お互いについて研究するというメタタスクを与えました。「OpenAIのDeep Research、マヌスAI、GoogleのDeep Research、Grok 3のDeep Searchを比較する表を作成し、少なくとも10の機能、価格、速度、そして20のクリック可能なソースを行に含めてください。」
このタスクでは、おそらくマヌスはDeep Researchと同じくらいうまくいきました。はるかに長い時間、約20分かかりましたが、それが現在多くの人々が使用しているレート制限のためなのか、それとも組み込みの制限なのかはわかりません。これがマヌスが作成したものです。Grok 3が見えないのは、マヌスのUIが他と比べてかなりガタガタだからです。出力は堅実ですが、完全に信頼できるわけではありません。
2つの例を挙げましょう。まず、クエリあたりのコストについて、マヌスAI自体については「計算できない」と述べました。価格が公開されていないのは事実ですが、この動画の前半で示したように、クエリあたり2ドルという公開されている推定があります。これは議論の余地があるかもしれませんが、次のことはどうでしょう?
終わりの方で、「マヌスのパフォーマンス指標はどうですか?公開されたベンチマーク結果はありません」と述べました。自社のウェブサイトはGUIAベンチマークを提供していて、それはすぐ隣の列にあります。OpenAI Deep ResearchのGUIAベンチマークを引用しています。もし自分自身のベンチマーク結果を引用するのに完全に頼れないなら、最近の日々に得た絶対的な喧騒に完全に値するのかと疑問に思ってしまいます。
しかし、公平に言えば、私が求めた通り、さらなる調査のために20のクリック可能なソースを提供してくれました。OpenAIからの研究は15のソースしか提供せず、さらに悪いことに、表を提供せず箇条書きを提供し、それはかなり失望でした。それもGUIAを引用しませんでしたが、GUIAに言及した記事にリンクしていたので、それはやや良いでしょう。
Grok 3はかなり立派な仕事をしましたが、最後の表はやや急いで作られた感じがあり、より少ないコンピュートを使っていることがわかりました。その研究では、Deep Researchはプラスティアに月10クエリ利用可能であることが確認されていましたが、これは表に含まれていませんでした。また、特定のベンチマークスコアが強調されていましたが、これらは表に言及されていませんでした。
GeminiのDeep Researchはまずまずの仕事をしました。非常に速かったですが、表の詳細はかなり少なめでした。これは決してGoogle DeepMindが開発していないということではなく、チャンネルですぐに取り上げたいその会社からの開発がたくさんあります。
Operatorのように、マヌスは実際に予約などの操作を行うことができますが、すべての報告と私自身の経験によれば、それを信頼しすぎないよう注意することをお勧めします。私にとってマヌスAIは、2025年に現れた4つのトレンドのパターンに非常にフィットしています。5日前にPatreonでこのビデオをしましたが、そのトレンドとは、モデルがより高価になっていること、パフォーマンスにムラがあること、素晴らしい瞬間があるけれど内部的に欺瞞的である可能性があることです。報酬ハッキングについては、このチャンネルでまもなく多くのことを言うつもりです。
ここで私にとってのこのビデオのレッスンは、このようなマーケティングが実際に機能するということです。200万人がウェイトリストに登録し、何かがあるのです。このビデオで見たように、マヌスAIは異なるツールとモデルの素晴らしい集合体であり、しばしば仕事をこなします。しかし、マヌスAIの創設者シア・ホンとのインタビューで報告された「洗練されたプレス活動」がとても成功したので、もっと多くのことを期待してください。これらのYouTubeキャンペーンやツイートストームを推進する新しい企業の終わりのないリストを期待してください。ハイプは機能します。他に方法はありません。
しかし、もしマヌスAIが例えば月額200ドルで出てくるなら、個人的にはそれを見送るでしょう。視聴していただきありがとうございます。
しかし、もしジェイルブレイクに興味があるなら、見送らないのはGrace Oneのチャレンジです。最近彼らのウェブサイトで発表されました。リンクは説明欄にあり、彼らはこのビデオを後援しています。特にこの競争を見てください。たった5日前に始まりました。ここでリーダーボードを見ることができ、参加するためにプロのハッカーである必要はありません。賞金プールは13万ドル以上です。私の観点からすれば、公開でモデルをレッドチームすることで、モデルをより信頼性のあるものにするのを手伝っています。だから一種の公共サービスのようなものです。自分自身もほとんど誘惑されそうです。
そろそろこのビデオを終わりにする時間です。最後まで視聴していただきありがとうございます。素晴らしい一日をお過ごしください。

コメント

タイトルとURLをコピーしました