完璧なブラックフライデープロンプトを構築:LLM対AIブラウザの直接対決デモ

AIベンチマーク
この記事は約11分で読めます。

ブラックフライデーのセール期間中に、5つの異なるAIツールを使って最適な商品を見つけるという実験を行った検証動画である。ChatGPT 5.1、Claude Opus 4.5、Gemini 3という3つの大規模言語モデルと、AtlasとCometという2つのAIブラウザを対象に、ソファの割引情報を検索させて性能を比較した。結果として、詳細なプロンプトを与えた場合はChatGPT 5.1が最も有用な結果を返し、AIブラウザは短いプロンプトの方が効果的であることが判明した。各AIツールの特性と適切な使い分け方について、実際の画面を見せながら詳しく解説している。

I Built the Perfect Black Friday Prompt: LLMs vs AI Browsers Head-to-Head Demo
My site: Story:

ブラックフライデーでの5つのAI検証実験

ブラックフライデーで5つのAIをテストしてきましたので、その結果を皆さんと共有したいと思います。これからブラウザ画面などを表示して、私たちが何をしたのかお見せしますね。

まず、このテストは何なのでしょうか。ブラックフライデーによく割引される商品について、真に最高の取引を見つけるのを手助けしてくれるAIはどれかを見極めようとしています。今回はセクショナルソファを選びましたが、テレビでも探している他のものでも、このテストは絶対に使えます。

参加者は誰でしょうか。ChatGPT 5.1、Claude Opus 4.5、Gemini 3、そして2つのスマートブラウザです。AtlasとCometを使いました。それぞれが何をしたのか、すぐにお見せします。

でもまず、全体的な学びをお伝えしたいと思います。このテストを実行する中で得た全体的な学びは何だったのでしょうか。これは、ブラックフライデーのためにプロンプトを作る場合でも、それ以外の場合でも役立つはずです。

第一に、モデルが期待する結果を返してくれるようにするには、意図が非常に明確でなければなりません。これは新しいことではありませんが、はっきりと現れました。Cometの例を見ると分かりますが、私がグレーのセクショナルソファのページを見ていたにもかかわらず、Cometはグレーのセクショナルソファが欲しいということを理解しませんでした。つまり、色を指定しなかったため、色が反映されなかったのです。

明確な意図がない部分では、モデルは単に最善の推測をするだけです。だからこそ私は、ブラックフライデーで探しているものを、できるだけ詳しく、好きなだけ細かく指定できるように設計されたプロンプトを作りました。そうすればモデルがそれを見つけに行けるわけです。

より明確にし始めるとどうなるか、そして検索がどれほど強力になるかをご覧いただけるでしょう。全体として、ブラウザはモデルとはアーキテクチャ的に非常に異なるアプローチを取っています。モデルはウェブ検索ツールを使用し、その後、独自の推論や論理能力を使って、ブラックフライデーの取引に関するプロンプトへの正しい答えを見つけ出すことができます。

ウェブ検索ツールは実際にはより多くの情報を備えています。ウェブページそのものを、与えられたプロンプトと一緒に見ることができるのです。通常、私たちがウェブを閲覧するときは、よりカジュアルな言葉を使っています。そこで、私はスプリットテストを選択しました。ブラウザではブラックフライデーの取引でよく使われるフレーズと、ページ上のすべての豊富で詳細な情報をモデルに供給し、ChatGPT、Claude、Geminiではより詳細なプロンプトを使いました。

見たままが得られるものです。さっそく始めましょう。

Atlasブラウザでの検証結果

最初の参加者はAtlasブラウザです。ラブシートコンバーチブルソファを表示しました。言葉の意味ではソファなのですが、非常にカジュアルなソファです。モデルが他のオプションを拾ってくれるか見たかったんです。

結果は本当に本当に残念でした。一般的なブラックフライデーのセクショナルソファの取引を得ました。Crate and Barrelがありました。Articlesもありました。しかし、具体的な製品は一切得られませんでした。見ていただければ分かりますが、これはソファで、モデルは私のために具体的な取引を全く見つけられませんでした。だから、これは失敗として評価します。

有用な結果は何も得られなかったと思います。そして、一般的な記事を書いた方法から判断すると、どんな製品を選んでも、その取引に関する一般的な記事が得られるだけだと確信しています。買い物という経済活動には役立ちません。

Cometブラウザでの検証結果

Cometが何を言ったか見てみましょう。これがCometです。すでに、はるかに有用な回答であることが分かります。はい、別のものから始めました。この場合は関係ありません。具体的な製品を見つけたのです。それが重要な差別化要因ですよね。製品を見つけたのです。

そして言っておきますが、最初のものはグレーにマッチしています。ただし、実際にはベッドなんです。つまり、同じ認知的ファミリーに属する製品を見つけていますが、完全に同じではありません。

ここでの生成的インターフェースは気に入っています。具体的なオプションを示し、短いテキスト説明を提供し、検証済みのリンクを提供し、小売業者を教えてくれます。気づくことの一つは、これが非常にWalmart重視の回答だということです。

プロンプトのせいなのか気になりますね。別のWalmart製品もあります。Sam’s Clubの製品もあります。Wayfairも登場しています。色を具体的には指定していないことが分かります。グレーを求めていたら、おそらく実際にグレー寄りになっていたでしょう。意図を指定しなかったので、これが結果です。Walmartに戻りますね。

もう一つ気づくことは、これが価格面で超最適化されているわけではないということです。これは839ドルの取引です。これは1,200ドルのソファです。そして、これが約700〜900ドルだと主張していますが、1,200ドルのソファを持ってきています。それは関連性のある価格差です。

プレゼンテーションは良いのですが、実質的な結果はそれほど素晴らしくありませんでした。Atlasに不合格の成績を付けるとしたら、Cometには大体Cを付けるでしょう。他のモデルに移ると何が得られるか見てみましょう。

ChatGPTでの検証結果

これがChatGPTです。ここにははるかに複雑なプロンプトがあります。ところで、これは公平なテストなのか疑問に思っているかもしれませんね。ブラウザでより複雑なプロンプトを使った方がうまくいくのか。その結果はこの動画の最後でご覧いただけます。

はい、このプロンプトはSubstackで共有します。実際には複数のバリエーションを共有する予定です。なぜなら、これを実行してみて、このプロンプトを取引重視、つまりディールハウンターやディールハンターに偏らせることができることに気づいたからです。好みにもっと重点を置くこともできます。詳細、つまりグレーのソファなどが欲しいわけですよね。

いくつかのバリエーションを作りますが、全体として製品の結果は本当にクリーンです。ビジュアルを提供してくれます。すでにより良い取引を示しています。こんなに良い取引は見ていませんでした。こんなに一貫して良い取引は見ていませんでした。

ブラックフライデーの取引としては本当に奇妙な選択があります。これは3,000ドルの非常に高級なソファです。なぜこれをサマリーに含めることを選んだのか、よく分かりません。価値を計算できるので、600ドル未満のソファが5つ得られます。そのうち4つは500ドル未満です。

全体として、ChatGPTの方が価値密度が高いです。テキストを探し回って、クリックして欲しいものを得る必要はありますが、かなり良いです。素敵なテーブルを提供してくれます。割引率を示してくれます。非常に便利だと思います。

ここでリンクを提供すると主張していますが、実際には提供していません。これは問題だと思います。

Claude Opus 4.5での検証結果

Claudeが何を言ったか見てみましょう。これが同じプロンプトを実行しているClaudeです。ところで、このプロンプトはかなり詳細です。私は面倒くさがりなので、ここにセクショナルソファと書いて、基本的に他のすべてについて平均を仮定するように指示しました。

プロンプトで手抜きができるのは素晴らしいです。完全な検索を実行し、予算層を提示してくれます。これは本当に幅広い範囲で、270ドルから989ドルまであります。なぜこれらが同じカテゴリーにあるのか分かりません。おそらく間違っていると思います。

リンクを見ると、特定の製品へのリンクではなく、全体のウェブサイトへのリンクのようです。これは問題だと思います。ミドルレンジ層も提供してくれます。1,000〜2,000ドルの範囲と定義していますが、これは2,000ドルを超えています。理解するための特徴を提供してくれません。だから、これは問題だと思います。

全体的な最良の価値のランキングを提供してくれますが、それは本当に意味をなしていません。Albany Parkのものが再び表示されます。異なる価格で再び表示されます。ChatGPTで見たときは3,000ドル超だったと思います。

WayfairのGeorge Oliverモジュラーを見つけてくれたのは良かったです。それは良いです。全体として、これはChatGPTの回答よりも有用性が低いと思います。具体的なリンクがないことが本当に本当に痛手で、カテゴリーやグループ化の方法も意味をなしていません。

これまでのところ、LLMを見ると、ChatGPTは多分B、B−だと言えるでしょう。そしてClaudeは、C++くらいかなと思います。いくらかの有用性があります。良い価値もありますが、Cometと同じレベルにあるような感じで、しかしグラフィックスは少ないです。ただ、より深い検索があるかもしれず、それが補っています。

Gemini 3での検証結果

Geminiは何をしたのでしょうか。Geminiは直接飛び込んで、すべての考えを提供し、全体的な価格帯を返してくれました。非常に詳細ですが、リンクがありませんでした。トップピックを提示してくれますが、それにたどり着く方法を提供してくれません。

George Oliverモジュラーに再び傾倒しているようです。Hanbeayが出てきます。Hanbeayは覚えていますよね、Cometにありました。ディールハンターのアドバイスを提供してくれますが、かなり一般的です。

これはある意味でClaudeよりもさらに悪いと言えるでしょう。選択肢が少ないからです。カテゴリーが何を意味しているのかも明確ではありません。そして、Claudeと同様にリンクが全くありませんが、選択肢がさらに少ないのです。

Claudeが何とかC++に達しようとしていて、Cometが価格面で奇妙な問題があったためC評価だったとすると、これは実際にはC−かもしれません。そして今、可能な限り最高の取引を得るために信頼できる場所を全体的に見ると、ChatGPT 5.1が本当に良いディールハンターだと思います。そして、本当にそうでした。直接対決テストです。

Cometでの詳細プロンプト検証

でも、もう一つテストするものがあります。Cometで本当に詳細なプロンプトを使うとどうなるでしょうか。さて、超詳細なプロンプトを貼り付けました。ChatGPTで良い回答を得たのと全く同じことをしました。多くを空白のままにして、セクショナルソファと平均的な価格感度を使いました。

はるかに詳細な回答が返ってきます。何をチェックしたか教えてくれます。取引を返してくれます。取引の表全体があります。ビジュアルピッカーはありませんが、それがちょっと恋しいです。

奇妙なのは、これらの取引を見ても、実際にはあのモジュラーが戻ってこないことです。たくさんの取引を見つけて持ってきたように感じますが、ChatGPTほど上手くまたは効率的にそれらを分類できなかったようです。

今は5人掛けスリーパーが最良の取引だと考えています。市場にはあるのですが、あの270ドルのソファほどの圧倒的なお買い得感はありません。

全体として、これから学んでいることは、皮肉にも聞こえるかもしれませんが、エージェント的なブラウザで作業するときは、短いプロンプトの方がおそらく効果的だということです。

そして、より長いプロンプト、つまりお見せしたより詳細なプロンプトは、たとえばChatGPT 5.1で作業していて、絶対的に最高の取引を得たいときにより効果的だということです。

まとめと今後の展開

私は常に価値を提供することを目指しています。ここでの私の目標は、取引を最適化したり、探している特定のアイテムを最適化したりするために使える、本当に良いブラックフライデープロンプトのシリーズを作成することです。それらをSubstackに載せます。

でも、これは本当に有用だと感じました。なぜなら、OpenAIがやっていることの一つとして、GDPについて語っていますよね。これは、AIが有用な経済活動を行うべきだという考え方です。

誰もが知っているように、アメリカ人はブラックフライデーやサイバーマンデーなどに買い物に行き、その際に取引を探します。これは経済活動です。今年は、2つのブラウザと3つのLLMを含む5つのAIを立ち上げて、それらが何が得意で何が不得意かを見ることが本当に初めて可能になった年です。

そして本当に違いがあると言えます。ChatGPT 5.1が最も有用でした。他のものは大丈夫でした。おそらく総合的に2番目に良かったのはCometだと思います。使いやすさの点では。ただ、ChatGPTほど正確でも完全でもありませんでした。

Claudeは大丈夫だったと思いますが、おそらく他のものより良くはありませんでした。そしてGeminiはあまりうまくいきませんでした。これは、これらのモデルがいかに異なるかを私に示しています。なぜなら、私がOpus 4.5は長時間実行されるエージェント的タスクに本当に優れていると言った動画を作ったことを思い出していただけるでしょう。Gemini 3は複雑なドキュメントの統合に本当に優れています。

でも、これらは異なる活動です。これは経済活動です。これは取引を見つけることです。適切にプロンプトを与えた場合、GPT 5.1が取引を見つける王様だということが分かりました。さて、プロンプトを入手できます。Substackで実行します。

コメント

タイトルとURLをコピーしました