MANUS AI 対 OpenAI の新しい o3:巨人対決!OpenAI は Butterfly Effect に勝てるのか?

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,304 文字

MANUS Ai contra o Novo o3 da OpenAi: Duelo de Gigantes! Será que a OpenAi Ganha da ButterFly Effect?
Aprenda Inteligência Artificial! ▸ Seja MEMBRO: ▸ ▸ Instagram:

みなさん、こんにちは。ドッグフードの節約のためにペットを自動化しようとしている皆さん、今日は一つの質問に答えようと思います。OpenAI の超強力な新モデル O3 は、私たちがすでに「AIのマヌス(手)」として知っている Manus AI と同じことができるのでしょうか?O3 は非常に高度なエージェント型人工知能なので、技術的には可能なはずです。今日はそれがうまくいくかテストしてみます。さあ、始めましょう。
いつも通り、いいねを押してくれた方、チャンネル登録してくれた皆さん、特にこのAIチャンネルをスポンサーしてくれているメンバーの皆さんに感謝します。メンバーには、インテリジェントエージェントの独占ビデオや先行公開ビデオへのアクセス権があることを覚えておいてください。
以前、このビデオでManus AIを使ってブラジル文化の調査をしました。基本的に私がAIに「ブラジル文化の調査をして、そのデータでウェブサイトを作成し、収集したすべての情報をPDFレポートにまとめて」と頼みました。Manus AIは私のプロンプトを受け取り、「ブラジルには26の州と連邦区、5つの大地域があります。ブラジル全土の地域的側面を考慮してブラジル文化について調査してください。食べ物、ダンス、リズム、アクセント、経済、歴史的側面について言及し、回答を地域ごとに分けてください。5つの地域を表示するウェブサイトを作成し、各地域にはそれぞれの州のデータを含む説明を入れてください。サイトを視覚的に煩雑にしないために、展開および折りたたみ可能なメニューを作成し、少なくとも過去10年間の5つの地域の人口のグラフを生成してください。最後に収集したすべての情報をPDFレポートにまとめてください」という指示を実行しました。
Manus AIは何をするかをきちんとリストアップして、すべてのタスクを実行していきます。彼がやっていることをすべて見せてくれます。IBGEのウェブサイトにアクセスし、多くの情報を収集しながら、完了したタスクのリストを更新していきます。これは本当に素晴らしいです。ある時点で、すべての調査を完了し、ウェブサイトを生成し、最終的にPDFを作成します。
具体的には、地域ごとのセクションがあるウェブサイトを生成しました。食べ物、アクセント、いくつかのグラフなどの説明が含まれており、彼が生成したすべてのグラフを配置し、調査したすべての情報を含む整ったPDFを生成しました。最終的に、いくつかの画像や他の要素が不足していると感じたので、「イラストを含める」という部分を追加して、同じことをG Sparkでも試してみました。G Sparkも同様にすべてをきちんと実行し、グラフを作成しました。グラフは少し見栄えが良くなりました。
面白いことに、今見直してみると、前回はうまく機能しなかったものが今は修正されています。なぜか前回は機能しなかったグラフが、今は完璧に動作しています。テクスチャのバグもなくなっています。実際には、エクスポート時にエラーが発生しているのであって、生成されたスライド自体の問題ではないようです。スライド自体は問題ありません。とても美しく仕上がっています。
もし元のビデオを見ると、「いや、あなたが修正したんでしょう?」と思うかもしれませんが、そうではありません。ただ再度開いたら解決していただけです。インターネットの不思議な点やサイトの改善のおかげかもしれません。ウェブサイトは動作しましたが、少し不具合がありました。スーパーマリオのように見えると言ったのを覚えています。それは相変わらずバグがあります。以前作成したPDFはもう開けませんが、PDFに含めた調査結果はここに残っており、地域ごとにきちんと整理されています。
おそらくG Sparkはアップデートされたのでしょう。これらはテスト中に同時に作成されています。PDFの画像は更新されておらず、壊れたままですが、PDFそのものは以前のように表示できなくなっています。
さて、同じプロンプトをコピー&ペーストして、画像生成を含む更新バージョンでやってみるとどうなるでしょうか?もう一つ新しいことを追加します。JavaScriptでグラフを作成するように明示的に指示します。以前はPythonでグラフを生成し、画像をサイトに読み込んでいましたが、今回はブラウザ内でグラフを動的に生成するようにします。
検索機能やディープリサーチは有効にせず、O3だけを使って何ができるか見てみます。ディープリサーチを有効にすれば調査は素晴らしいものになりますが、O3のエージェントモードを使用するかどうか疑問です。ベンチマークから判断すると、おそらく使用しないでしょう。
さて、O3が何をしているか見てみましょう。HTML、グラフ、PDFの計画を立て、ウェブ検索をしています。予想通り、検索オプションをマークしなくても検索を行っています。これは非常に興味深いです。このオプションを有効にすると、エージェントとしてのツールを使用する代わりに、これらの機能を使い始め、エージェントモードを忘れてしまうと思います。
彼がやっていることをすべて見ることができます。IBGEのウェブサイトでの検索は、基本的にすべてのエージェントが行ったことです。過去10年間の人口推定を調査しています。たくさんのウェブ検索を行っています。
興味深いことに、Manus AIは最初に何をするかのタスクリストを提供し、クリックしてアクセスできるサイトを生成しました。G Sparkも同様です。O3の場合、コードを生成し、私が手動でサイトを作成する必要があるかもしれません。確かではないので、彼が作業するのを見守りましょう。現在、データや情報を検索しています。例えば、2015年の地域別総人口を見つけました。
サイトの生成を始めました!これは素晴らしいです。Canvasを開きました。これは非常に興味深いツールで、まだ使ったことがないなら今すぐ始めるべきです。サイトやその他のものを生成するよう依頼すると、コードをサイドバーに表示し、コードのプレビューを表示します。ウェブサイトの場合、実際にサイトを見て、作業が完了する前にナビゲートすることができます。
彼はPythonで何かを生成し、データや情報を含むPDFを作成しています。非常に興味深いです。
そして会話中に調査が完了しました!HTMLコード、地域ごとの折りたたみ可能なメニュー、Googleマップの観光スポット(G Sparkが無視した部分)、サイトの説明画像、グラフ、PDFレポート、レポートのダウンロード、人口データのソースが含まれています。
プレビューを見てみましょう。まず、unsplashからの画像ソースの許可を求められます。クリックするとこれらの特定のサイトを許可または拒否できます。多くの画像が壊れているようですが、サイトは正常に動作しています。地域をクリックし、文化的側面などを展開できます。観光スポットとマップのバージョンを作成しましたが、コンテンツはおそらくOpenAI内で実行しているためブロックされています。人口の進化を示すグラフも作成しました。私がどのグラフが必要か説明しなかったので、1つだけ作成しました。2015年から2024年までの10年間のデータを使用しており、私の要求に一致した最初のものです。
JavaScriptで作成されたため、マウスを動かすとインタラクティブに動作します。他のAIはPythonで画像を作成し、サイトに統合していました。そのため、これは機能しましたが、JavaScriptで作成するよう明示的に指示する必要がありました。
疑問は、OpenAIの外部でこれを開いたときにマップが機能するかどうかです。3、2、1…マップは開きましたが、地域がピン留めされていません。「アマゾン劇場、マナウス」とだけ表示され、ピン留めされていません。マップだけが開いています。少なくとも地域は正しく開きますか?はい、ブラジルを表示し、ピン留めはされていませんが、少なくとも他のすべてよりも少し進んでいます。マップを含めることができました(Manus AIには頼みませんでしたが、G Sparkには頼んだのに作成しませんでした)。
O3は南東部に中心を置いたようです。南部地域も正しく表示されています。中西部も正しく中心に置かれています。北部と北東部も同様です。北東部では全体的にブラジルを表示していますが、おそらく混乱したためでしょう。少なくともブラジルは正しく表示されています。
おそらく、観光客のように直接ポイントに行けるようにピンを配置するよう説明する必要があったでしょう。彼はここで3つの場所について言及していますが、彼自身が座標を知っているはずのピンを配置していません。
では、レポートを見てみましょう。このリンクをクリックしてダウンロードします。「ブラジル文化:地域的概観、2025年4月18日の統合レポート」というタイトルです。北部地域の州、食べ物、ダンス、アクセント、歴史、経済についての情報が含まれていますが、かなり簡素です。これが最も弱い調査で、最も弱いレポートでした。間違っているとは言えませんが、レポートの内容について具体的に述べなかったにもかかわらず、他の2つのAIは同じ説明でもっと充実したレポートを作成しました。
例えば、Manus AIのレポートでは、表紙は似ていますが、目次、導入部、ブラジルの説明があり、北部地域の歴史的側面、人気のある祭り、ダンスとリズム、料理に関するたくさんのテキストがありました。この版は最も簡素で、唯一の簡潔なものでした。より良いプロンプトで解決できるはずです。
重要なポイントとして、OpenAIのディープリサーチは素晴らしいです。それを使用して調査を行い、その結果を使ってサイトやPDFを生成すれば、本当に素晴らしいものになります。しかし重要なのは、レポートとPDFをきちんと作成できたことです。G SparkのPDFは、以前はアクセスできなかったものの、ビデオに記録されています。クリック可能な完全なメニュー、PDFの品質は本当に素晴らしく、サブアイテム、サブタイトル、小さなマップ、クリック可能なものなどがありました。
このように見てみると、G Sparkが最高のレポートを作成したことがわかります。しかし、OpenAIがManus AIの道を進んでいるのは興味深いことです。これら3つの例(O3 vs G Spark vs Manus)の中で、私はまだManus AIが最も成熟していると思います。Manus AIだけが「これをやります、これが私がやる調査です、これが私がやる手順です、これが私が考えていることです」と言いました。さらに、作業が終わると、「知識」をクリックするオプションを提供し、プランを変更したいかどうかを確認する質問をするタスクを提案しました。最初のテストではなかったものですが、終了時に電球アイコンが表示され、「知識をクリックして編集してみましょう」と言いました。
Manus AIは実行する調査すべてをすでに説明しているという点でより成熟しているように思えます。一方、G Sparkはよりきれいに見え、提案をよりよく理解し、より良いPDFとグラフを作成しました。OpenAIのO3は、OpenAIが約束したことを実行しました。OpenAIがO3を発表したとき、単に「ツールを使用する高度なエージェント」と述べました。
このケースでは、O3にはより良いプロンプト、はるかに良いプロンプトが必要です。OpenAIのエージェント機能は、あなたの手にエージェントを置き、あなたが彼の作業をガイドする必要があります。G SparkとManus AIではそうではありません。エージェントがあなたのために働き、すぐに機能する従業員を提供するという提案です。それは各企業が何を提案するかの問題です。
それでも、OpenAIのO3は私が頼んだことをすべて行いました。調査、ウェブサイト、レポートを作成しました。彼が行ったかどうかを評価することは常に良いことであり、彼は確かに行いました。マップの問題も含めて、指示に最も忠実に従ったのはO3でした。他のAIはより多くのことを行い、G Sparkは私が頼んでいないスライドさえ作成しました。
トークン、予測、期待する結果の観点から評価すると、追加のスライドを生成することは問題です。余計なお金を使ってしまう可能性があります。O3で異なることをするとしたら、まず、サイトで正確に何が必要か、プロンプトで正確に何が必要かをより詳細に情報を提供し、よりわかりやすく、より高度にします。また、すべてを行う前にディープリサーチを行います。
ブラジルの地域についてディープリサーチを行うと、彼はブラジル全体を徹底的に調査します。すでにそれを行いました。「ブラジルには27の州と5つの大地域があります」から始まり、より多くの情報を尋ねられ、調査を開始しました。これには19分かかり、大きなレポートを作成しました。このレポートでは、PDFの作成は頼みませんでした。調査だけをお願いしました。
北部地域の料理、ダンス、リズム、地域のアクセント、北部の経済、歴史的観点など、ブラジル全体の情報を掲載しました。写真を含めるかどうかを尋ねてきました。調査の最後に、すべての参考文献を掲載しています。この場合、O3に頼んでウェブサイト作成などを行わせれば、これらのトピックにはより多くの情報が含まれていたでしょう。
レイアウトについては、シンプルで簡潔なレイアウトでした。冒険せず、境界を押し広げようとはしませんでした。私が依頼した以上のものを作ろうとはせず、グラフを適切に配置しました。
より良い実行のためにどのようなプロンプトを作成するか、コメントで教えてください。この評価を発展させ、物事がどのように進化するかを見てみましょう。
最終的な評価では、これらのツールはすべてレベル1、ステージ1にあります。Manus AI、G Spark、O3の最初のバージョンです。彼らはすでに、完全に異なるタスクの組み合わせであるマルチターンタスクを実行しています。これらは頭を下げて実行されます。来年にはさらに成熟し、10年後には誰が知っているか、おそらく100%自動化された人間の仕事を行っているかもしれません。
私たちの役割は変わり始めています。物事を依頼する方法と、物事を管理する方法を学ぶ必要があります。10年後、これらのツールがはるかに成熟したとき、何が起こると思いますか?コメントで教えてください。
チャンネルをサポートしたい場合はメンバーになってください。メンバーはインテリジェントエージェントの独占ビデオや先行公開ビデオにアクセスできます。いいねをお願いします!
待って、待って、ビデオを編集している間にいくつかのテストを行いました。ディープリサーチを有効にし、まったく同じプロンプトを使用しました。予想通り、ディープリサーチを有効にするとO3を無視し、ディープリサーチだけを行います。いくつかの質問をし、あなたが答えると、33分かかったレポートの作成を開始します。
今回はこれまで以上に良い調査結果が得られました。すべての地域に関する膨大な情報、PageDownを押し続けても終わらないほどの巨大なレポート、人口に関する多くの情報、いくつかのグラフなどが含まれていました。しかし、情報とグラフを生成し、使用したデータを表示していますが、ウェブサイトは作成していません。「ウェブサイトの構造の提案」というセクションがあります。エージェントではないため、ウェブサイトをプログラムしたり、PDFを作成したりはしません。ディープリサーチはエージェントではないので、ウェブサイトを作るとしたら何を含めるかという内容を説明するだけです。
この結果は予想通りでした。O3を無視し、より簡素化された部分だけを行います。グラフも再度表示され、最後に繰り返されます。「提案された構造の要約は、地域ごとのメインメニュー、テーマ別に整理された地域ページ、インタラクティブマップとグラフを使用して情報テキストを補完し、軽量で応答性のあるデザイン、明るい背景に黒いテキスト」というものです。
O3があるときにディープリサーチをクリックすると、O3は無視されます。また、Grockでキャンバスを使用できなかったという人へのヒントとして、Grock.comからアクセスする必要があります。HTMLを生成してプレビューすると、サイドバーにキャンバスが開き、ゲームを見て遊ぶことができます。これで機能するはずです。ただし、メモリは表示されていません。
もう一つの新機能は、理論的にはより高速なはずのGemini 2.5 Flashです。Google AI Studioで利用可能です。2.5 Flashをマークするだけです。また、VO2ビデオジェネレーターをまだテストしていない場合は、ぜひお試しください。きれいなプロンプトを作成し、写真をアップロードして、アニメーション化を依頼してください。このVO2は素晴らしく、これほど優れた無料の画像ジェネレーターはありません。
Geminiからアクセスすると、2.5 Flashバージョンも利用可能です。無料でテストできます。2.5 FlashとPro版の違いは、Flashが高速であることですが、両方とも非常に優れています。Geminiにアクセスし、Canvasを使用してFlashとProの両方をテストし、日常的に役立つプログラムを作成することをお勧めします。これが最高のオンラインコーディング体験です。ぜひ試してみて、感想をコメントしてください。

コメント

タイトルとURLをコピーしました