Grok 3 vs Perplexity: どちらがより優れたDeepSearchを提供するか?ディープサーチの詳細分析

AGIに仕事を奪われたい
この記事は約15分で読めます。

8,947 文字

Grok 3 vs Perplexity: Quem Faz a Melhor DeepSearch? Analisando a Busca Profunda em Detalhes
Aprenda Inteligência Artificial! Link da Busca do Perplexity: ▸ Seja ME...

皆さん、Grok 3がディープリーズニング(深い思考)バージョンをリリースしました。昨日、私は動画を投稿してその機能をテストしましたが、そのテストの一つについて、視聴者から「ボブ、プロンプトの質が悪かったから結果も良くなかったんだ。別の方法でプロンプトを書くべきだった。プロンプトが弱すぎる」というコメントがありました。
この動画では、私の考えと、その仕組みについて説明し、さらにPerplexityとの比較も行います。そこから、プロンプトの重要性とモデルの重要性について、ディープサーチにおいてどちらがより重要なのかを理解していただき、ディープサーチについてもっと詳しく説明したいと思います。
いつものように、いいねやチャンネル登録をしてくださった皆様、そして特に人工知能チャンネルをスポンサーしてくださっているメンバーの皆様に感謝申し上げます。
さて、これが私がGrok 3のベータ版で使用したプロンプトでの検索結果です。これが初期バージョンのGrokであることは重要な点です。初期段階では完璧な調整ができていないのは当然で、いくつかの機能がうまく動作していないのも自然なことです。イーロン・マスクが予測していたように、彼らは問題が発生するたびに改善を重ねていくでしょう。
私は次のようなプロンプトを書きました:「ブラジルには27の州と5つの大地域があります」。このプロンプトはこのまま通りましたが、実際には26の州と連邦区があり、人々は27の連邦単位と呼んでいます。つまり、技術的には27の連邦単位という表現は正しいのですが、州としては26です。
そして続けて「ブラジル全土の地域的特性を考慮しながら、ブラジル文化について調査してください。食べ物、ダンス、リズム、方言、経済、歴史的側面について述べてください。回答を地域ごとに分け、各州についても言及してください」と書きました。
動画の最後で私は「この回答は小学3、4年生レベルだね」とコメントしました。すると視聴者から「でもボブ、あなたの質問も小学3、4年生レベルだったじゃないか。学校の課題みたいな『民話、ダンス、リズム、方言について話してください』というような質問で、どうしてもっと高度な回答を期待できると思ったの?」という指摘がありました。
しかし、私の頭の中では、まず確実に変化が生じる基準を設定したかったのです。食べ物、ダンス、リズム、方言、経済、歴史的側面について5つの地域と27の連邦単位で話すということは、モデルに大きな課題を突きつけることになります。詳細を見つけて全体像を組み立てなければならず、これは必然的にAIにエラーを引き起こさせることになると分かっていました。多くの情報を技術的な仕様と組み合わせると、モデルは北東部のものを北部のものと混同したり、南東部のものを中西部のものと取り違えたりするだろうと予想していたのです。
プロンプトエンジニアリングについて重要な点を説明する必要があります。現代のAIには3つの動作モードがあります。1つ目は生のモデルで、これはGPT-4やGrok 3に質問をする際に、深い思考を必要としない質問や深い検索を必要としない質問をする場合です。例えば、Grok 3でDeepSearchもfも無効にして「ブラジルの首都は?」と質問すると、AIモデルは回答を生成してそれを返すだけの単純な処理を行います。単語を1つずつ生成して回答を返すのです。これがベースモデルと呼ばれるもので、すべてのAIにはベースモデルがあります。ChatGPTにはGPT-4というベースモデル、Grokには現在Grok TRというベースモデル、Perplexityにはperplexity V3というベースモデルがあります。
「ブラジルの首都は?」という質問に対しては、シンプルに「ブラジルの首都はブラジリアです」という短い回答が返ってきます。ただ1つのモデルを通過して終わりです。
2つ目は、インターネットで何かを検索するように依頼した場合です。この場合、ベースモデルがインターネットで情報を検索し、サイトや情報源を示し、検索結果のリストと要約を提供します。例えば「Grok 3に関するニュースをインターネットで検索してください」と質問すると、Grok 3モデルはインターネット検索を開始し、見つけた情報源に基づいて回答を返します。
「関連ページがあり、18の関連投稿があります」と表示され、「以下は2025年2月21日(私が録画している日で、皆さんがこの動画を見ている日)までのウェブ上で入手可能なGrok 3に関する最新情報です」というように回答します。これは複数の添付ファイルを見ているようなもので、それらのファイルを参照して回答を生成します。
そして、イーロン・マスクのxAI社が開発したGrok 3が2月17日月曜日に正式にリリースされたことなど、すべての情報をウェブサイトやTwitterの投稿から取得しています。つまり、ベースモデルのGrok 3がウェブページやTwitter投稿などの文書を参照し、私の質問とそれらのテキストを組み合わせて回答を生成しているのです。
もし多くの情報を提供せず、求めることすべてについて十分に記述されたプロンプトを書かなければ、明らかに質の低い回答しか得られません。生のモデルを使用する場合や、エージェントをゼロから作成する場合は、正確に何が欲しいのかを説明するのが一般的です。
例えば、「あなたはマーケティングのプロフェッショナルで、AIの販売キャンペーンを行っています」というように役割を与え、「説得力があり、人々にAIの使用を納得させてください」という目標を設定し、「Grok 3に関するニュースをインターネットで検索してください」というタスクを与えることができます。ベースモデルを使用している場合は、これらすべてを明確に指定する必要があります。
そうすると、同じページを見つけたとしても、私が求めた形式で回答が整形されます。さらに多くの指定を加えることもできます。マークダウン形式で書くように指定したり、他の多くの情報を追加して、タスクを異なる方法で実行させることもできます。
ここで重要なのは、非常に単純な形で、特定のタスクに焦点を当てて動作するAI、つまりエージェントの作成を始めたということです。回答がどのように変化するか見てみましょう。
「Grok 3で未来を発見しよう – AIの革命がここに」「こんにちは、私はマーケティングの専門家です。あなたの人生、仕事、ビジネスを変革するものについてお話しします。それは人工知能です。しかも、ただの人工知能ではありません。イーロン・マスクのxAI社が生み出した最新の創造物、Grok 3です。これは私たちが技術で可能だと考えていたことを再定義するものです」。
違いが分かりましたね。完全に異なります。そして「なぜ今あなたにGrok 3が必要なのか」という良い質問も含まれています。情報の提示方法がより説得力のあるものになり、ほぼ全員にこのテキストを読みたいと思わせ、何が起こっているのか理解したいという欲求を引き起こしています。
「あなたを魅了する利点:生産性の向上、リアルタイムの更新、無限のカスタマイズ、アクセスしやすく強力」という具合に、言葉遣いがすべて変化しています。これがマーケティングエージェントによる優れた広告の例です。
「メディアは何と言っているか」というセクションでは、CNN、TechMundo、G1、Forbesについて言及し、「なぜあなたにこれが必要なのか」と続きます。このテストだけでも、回答の質が大きく向上したことがわかります。
3つ目は、最近登場した「f」機能で、これは推論機能と呼ばれています。この場合、私たちには考えを巡らせるエージェントがいます。f機能の目的は、解決すべき問題を持ち込んだり、推論が必要なタスクを与えたり、レポートであっても、異なる多くの情報、並行する多くの情報が交差するレポートを作成し、完成したレポートや何かを提供することです。
この場合、fは既にエージェント自体であり、トピックを研究し解き明かすという意図を持っています。推論モデルを使い始めると、プロンプトはそれほど深い必要がなくなります。実際、プロンプトには、テーマを与え、含めたい内容と含めたくない内容を指定するだけで十分です。
もはやベースモデルだけが回答するのではなく、バックグラウンドで複数のエージェントがその情報について検討し、最良の結果を提供しようとするシステムが動作します。そのため、私のプロンプトはシンプルになりました。
例えば、「Grok 3と他のモデルとの比較について、人々は何と言っているか」と質問できます。fを有効にすると、これまでのすべての文脈を活用し、それまでには表示されなかったfのウィンドウが表示されます。これは複数のエージェントが私のシンプルなプロンプトを、私が書かなかったことまで探索し拡張している様子を示しています。
画面の背後で動いているのを見てください。「この情報は良いのかな、あの情報はどうかな」と自問自答し、内部での会話や内部での思考のようなものを始め、私のタスクを実行しようとしています。これは、この内部会話のすべて、行っているすべてのことに、暗黙のうちに不十分なプロンプトを拡張しようとする試みが含まれているということです。
そのため、最近OpenAIが「O」シリーズモデルの効果的な使用に関するガイドラインを公開しました。推論モデルについて、複雑な指導テクニックではなく、直接的な指示を強調しています。OpenAIが「プランナー」と呼ぶOシリーズモデルは、数学、エンジニアリング、法律、金融に関連するタスクを専門としています。GPTモデルは、迅速で基本的なタスクのための「ワークホース」として機能します。OpenAIは「一方のモデルファミリーが他方より優れているわけではなく、単に異なるだけだ」と述べています。
推論モデルにはよりシンプルなプロンプトが必要です。Oシリーズについて、OpenAIはよりシンプルなプロンプトアプローチを提案しています。同社はコミュニティで混乱を招いた「ブーマープロンプト」と呼ばれるものに警告を発しています。OpenAIは過度に詳細なプロンプトや古いプロンプトテクニックを指しているかもしれません。
一般的に、推論モデルは高レベルの指導のみでタスクにおいてより良い結果を提供します。高レベルとは、より単純化されているという意味です。低レベルは詳細なレベル、つまりアスタリスクのアスタリスクのアスタリスクにいる状態です。高レベルは「お金を稼ぎたい」と言うことです。低レベルは「コンデンスミルクを買って、ストーブで作り、ガスをつけて、ブリガデイロを売ってお金を稼ぐ」というように、すべての詳細を指定することです。
高レベルは単純化されたレベルであり、OpenAIは「これは通常、非常に正確な指示から恩恵を受けるGPTモデルとは少し異なります」と述べています。ご理解いただけましたでしょうか。私はこのアイデアを思いつきで出したわけではありません。
推論モデルで作業する場合、内部に最適化が組み込まれていて、あなたのトピックを拡張し、あなたの質問により良く答えるためにあなたの質問自体を改善しようとすることを理解してください。目的に焦点を当てるだけです。
したがって、いずれにせよ、19秒かかった推論を行い、基本的にそれらの多くの情報源を使用してテキストを書きます。xAI社が開発したGrokは、特にChatGPT、Gemini、Perplexityなど他のAIモデルとの比較において、メディアやテクノロジーフォーラムで広く議論されています。以下は、競合他社に対するGrokの位置づけと、人々の評価についてです。
これら3つのモードについて、そしてDeepSearchとは何かについて説明しましょう。DeepSearchは実際には推論と検索の組み合わせです。19秒かかったこの推論を行う一方で、検索も行い、その検索結果について考察します。つまり、推論エージェントと検索エージェントを組み合わせたもので、より長期的なタスクに焦点を当てています。
そのため、DeepSearchを使用する際、私は一般的だが包括的なプロンプトを作成します。なぜなら、食べ物について話す時は食べ物について検索して何かを書き、ダンスについて話す時はダンスについて検索して書き、リズム、方言、経済、歴史的側面についても同様だと想定しているからです。
例えば、Grokが北部地域について述べた部分を見てみましょう:「北部地域はアマゾナス、パラー、トカンチンス、ロライマ、アマパー、ロンドニア、アクレで構成され、国土の45.27%を占める最大の地域ですが、人口密度は低くなっています」。
情報源のリストを持っているにもかかわらず、それらの情報源を引用していないことを指摘しました。これは重要な点です。
「料理はペキという食材を特徴とし、ペキ入りご飯やパステルの具として使用されます。その他の料理には、パモーニャ、コーンプディン、ペキ入りガリニャーダ、チキンとペキ入りライス、ピ・ゴイアーノ(視聴者からゴイアスエンパーダを指しているのではないかというコメントがありました)があります」。北部の人々からこれらの料理は北部らしくないという指摘がありましたが、とにかくこれが回答でした。
「トロピカルサラダ(レタス、トマト、タマネギ)、デザートではコンデンスミルクプディン、ブリガデイロ、グリーンコーンがあります。ダンスではボイブンバーという劇的なダンスが際立っています」というように続きます。
私はこの回答が一般的すぎると言い、視聴者から「でもボブ、一般的な回答になったのは質問が一般的だったからです。もっと良い質問をする必要があります」という指摘を受けました。しかし、同じ動画で私は、同じプロンプトを使って他のチャットでより高度な回答を得られると述べました。
すると「より良い結果を出せるチャットがあると言ったけど、どれだか言わなかったじゃないか」と質問されました。そこで、同じプロンプトで同じテキスト、同じ27州のエラーを含む「ブラジルには27の州と5つの大地域があります。ブラジル全土の地域的特性を考慮しながら、ブラジル文化について調査してください。食べ物、ダンス、リズム、方言、経済、歴史的側面について述べてください。回答を地域ごとに分け、各州についても言及してください」というプロンプトでPerplexityではどうなるか見てみましょう。
Perplexityの回答を見てください:「ブラジル文化の多様性:包括的な地域分析。ブラジル文化は、先住民、アフリカ人、ヨーロッパ人、そして様々な出自を持つ移民たちの相互作用によって形成された複雑なモザイクであり、その影響は国の5つの大地域それぞれで独特の形で現れています」。
プロンプトについて何も説明せずとも、Perplexityの文章の書き方、ジャーナリズムの質の高さが既に明らかです。「古代の慣習から現代の表現まで及ぶこの文化的統合は、料理、芸術表現、言語パターン、経済的・歴史的構造に反映されています。地域分析は、地理的要因、植民地化プロセス、移民の流れが、どのように異なるアイデンティティを形作り、統一された国家の枠組みの中で各州が独自性を発展させることを可能にしたかを示しています」。
そして、情報源1と5を引用しています。例えば、これらの情報に同意できない場合や何か間違いがあると思う場合、Wikipediaや「significados.com」などの情報源を確認することができます。
北部地域の説明がどれほど異なるか見てください:「北部地域:文化の軸としてのアマゾン」というタイトルまでつけています。「歴史的・経済的背景:北部の経済は、奥地の薬用植物の採取と1879年から1912年のゴム景気時代のゴム採取に端を発します。この時期に北東部からの移民を引き寄せ、マナウスなどの都市部を確立しました」と情報源5を引用しています。
「現在はブラジルナッツやアサイーなどの伝統的な活動と工業地帯が共存し、バイオ燃料への投資も行われており、環境保護と開発の間の緊張関係が維持されています」。そして私が指摘したように、アマゾンについて語る際には少なくともアサイーに言及する必要があり、実際にそうなっています。ここで研究がより多くの情報とより詳細な内容を提供し始めているように見えます。
文化的・料理的表現を見てください:「アマゾナス州のパリンチンス祭りは、カプリショーゾ(青)とガランチード(赤)という2つの牛の争いを通じて、先住民の神話とキリスト教の物語の融合を表現し、巨大な装飾が施された公演に10万人以上が参加します」と情報源1のsignificados.comを引用しています。
「ベレンのナザレの聖母行列は200万人の信者を動員し、マリア信仰とアフリカ系先住民の儀式の要素を組み合わせた宗教的シンクレティズムを反映しています」と再び情報源1を引用しています。
気づかれたかもしれませんが、今や具体的な場所に言及し、より詳細な情報を提供し、実際の地域の特徴について述べ始めています。
料理については:「料理では、キャッサバから抽出された酸味のある液体であるトゥクピが際立っています。これはタカカやトゥクピ煮込みアヒルに使用され、先住民の食材加工技術を示しています。口の中で麻痺効果をもたらすジャンブー草やマニクエイラ(カメの肉のスープ)は、アマゾンの生物多様性との密接な関係を示す例です」と情報源1と2(Monte Carloの食品とブラジルの文化的多様性)を引用しています。
ダンスと方言については:「パラー州発祥のカリンボは、丸太をくり抜いた太鼓と先住民のダンスの影響を受けた円形の動きを組み合わせており、一方でルンドゥ・マラジョアラはアフリカのリズムを地域の文脈に適応させた形で保存しています」と情報源3を引用しています。
「言語学的には、アマゾナス州内陸部の方言は母音の延長と語末子音の減少が特徴で、これは地理的孤立を反映しており、パラー州沿岸部のより鼻音化された話し方とは対照的です」。
このように、すべてのテキストがあり、Grokについての動画全体があり、そのテキスト全体を読み上げていますが、このテキストのリンクを説明欄に残しておきますので、ご覧いただけます。このような期待、つまりより詳細な情報を提供し、より多くの情報を与えるこのようなテキストが、私が求めていたものです。
これは、DeepSearchの本質的な考え方です。問題をAIに渡し、AIに解決策を提供させることです。エージェントと、この場合はDeepSearchというエージェントで作業している時に、私があまりにも多くの説明をしなければならないとすれば、私がまだ考えなければならないということになります。プロンプトを通じて何を伝える必要があるのかを考えなければならず、それではDeepSearchの面白さが失われてしまいます。
知らないことについて単にテーマを与え、AIに魔法のように処理させることができるはずです。また、批判に関連して重要だと感じたことがあります。例えば、Grokのローンチで、イーロン・マスクは地球から火星への宇宙船の軌道計算の例を示しました。グラフを見せられましたが、私たち一般の人々は地球から火星に宇宙船を送り、それを戻す軌道を計算する方法を知らないため、それが本当に良いものなのか悪いものなのか判断できませんでした。
しかし、ブラジルについて質問すると、視聴者の皆さん、そしてあなたも含めて誰もが意見を述べることができます。例えば、もしこのゴム景気の時期が正しくなければ、私たちは指摘することができます。これは私たちの日常生活の一部であり、このAIが良いのか悪いのかを評価することができます。
したがって、私の目的は達成されました。なぜなら、皆さんのコメントは、初めて何が起こっているのかを理解でき、さらに回答が弱いことにも気づいたからです。回答が悪いと気づいた時、皆さんは自動的にプロンプトの問題を解決しようと考えました。これは、イーロン・マスクが示した火星への宇宙船の例では起こらなかったでしょう。なぜなら、エラーがあるかどうか、それが弱いものかどうかを判断できなかったからです。それは私たちの日常生活の一部ではないからです。
このテストは素晴らしい結果を出したと言えます。DeepSearch機能を実証し、ブラジル全体に関する多くの情報をまとめ上げ、それを観察して誰がより良い研究を行ったかを判断することができました。
昨日のGrokの動画と今日の動画を見た方は、どちらの回答がより良いと思いますか?そしてその理由を教えてください。コメント欄に書いてください。この研究のリンクを残しておきますので、アクセスして理解していただければと思います。
重要な点として、Grokは確かにベータ版であり、初期バージョンです。一方、Perplexityは既にかなり長い期間研究を行っている企業で、テキストの作成や生成の面でより成熟しています。今後数ヶ月の間にGrokが改善され、引用の表示など、不足している細かい部分を修正していくことを期待しています。
私たちは既に、これらのAIが幻覚を見ることを知っていますし、情報が正しいかどうかを確認するために情報源を確認する必要があります。これについてどう思われますか?コメントをお願いします。このようなビデオを続けて見たい方はメンバーになってください。メンバーはWhatsAppグループへのアクセスや動画の先行視聴ができます。いいねをお願いします。ありがとうございました。

コメント

タイトルとURLをコピーしました