この動画は、現在市場で最も優秀とされる4つのAIチャットボット(ChatGPT、Google Gemini、Perplexity、Grok)を17のカテゴリにわたって徹底比較検証した内容である。問題解決能力、数学計算、翻訳、商品リサーチ、画像認識、動画生成、ファクトチェック、統合機能、記憶能力、ユーモア、音声対話など幅広い項目でテストを実施し、各AIの強みと弱みを明らかにしている。最終的にChatGPTが29点で総合1位となり、意外にもGrokが2位に食い込む結果となった検証動画である。

4つのAIチャットボット対決開始
皆さん、こんにちは。今日のテーブルの上には同じスマートフォンが4台あります。1台目にはChatGPT、2台目にはGoogle Gemini、3台目にはあらゆる質問に正確で信頼できる回答を提供することを誇りとするPerplexity、そして最後にX(旧Twitter)のデータで訓練されたGrokが搭載されています。そのため、Grokはかなりフィルターがかかっていない回答をしてくると予想しています。
これらは一般消費者が手に入れることができる最高の4つのAIチャットボットですが、実際に必要なのはその中の1つだけです。では、どれが最も正確で、どれが最も速く、どれが生活を楽にするためにお金を払う価値があるのでしょうか。
問題解決能力のテスト
まずは問題解決から始めましょう。「私は2017年のホンダ・シビックに乗っています。Aerolite 29インチのハードシェルスーツケース(寸法は全て記載されています)を何個トランクに入れることができるでしょうか」
なんということでしょう。どのAIも文字通り何段落にもわたる推論を提供しています。特にGrokは一体何をしているのでしょうか。ちなみに、私たちは実際にこれを自分たちで試してみました。そして正解は2個です。もし実際にトランクのドアを閉めたいのであればですが。
それを考慮すると、ChatGPTとGoogle Geminiの両方が正しい考えを持っていると言えるでしょう。どちらも理論的には3個入るが、実際には2個の方が現実的だと述べています。Perplexityは完全に間違っており、3個、効率的に配置すれば4個も可能だと言っています。そして実際のところ、Grokが最高の回答をしていると思います。この子は完全な自信を持って2個と言い切っています。迷いがありません。
画像認識テスト
「ケーキを作りたいのですが、これが私の持っている材料です」と言って、明らかに使うべき4つの材料と、絶対に使うべきではない乾燥ポルチーニマッシュルーム1つの写真を添付しました。
なんということでしょう。興味深いことに、すべてのAIがこのマッシュルームの瓶を異なるものだと認識しています。ChatGPTはミックススパイスだと思い、Geminiはクリスピーフライドオニオンだと考え、Perplexityはインスタントコーヒーだと判断しています。そして乾燥マッシュルームだと正しく識別し、それをケーキに入れないという正しい判断をしたのはGrokだけでした。
実用的なタスクテスト
次は、実際に2日前に私がやろうとしていた使用例です。「友達のサムとサンとマリオカート・ワールドトーナメントをしたいので、誰が勝っているかを追跡できるドキュメントを作ってください」
各アシスタントは私の要求を理解し、すべてが理論的にスコアを入力できる小さなボックスを作りました。しかし、どれも特に使いやすくはありませんでした。私が欲しかったのは、すぐにスマートフォンにダウンロードして、即座に書き込み始められる編集可能なドキュメントを生成し、添付してもらうことでした。このような回答では、自分でスプレッドシートを作った方が簡単だと感じます。
数学計算テスト
それでは、少し高度でない数学問題はどうでしょうか。「πに光速(km/h)をかけるといくつになりますか」
答えは33.9億km/hです。興味深いことに、数字を完全にスペルアウトしているGeminiとGrokは、実際に少し異なる答えを出しています。これは計算の過程で前の数字をどのように四捨五入しているかの違いによるものですが、どちらも間違いとするほどの差ではありません。
そして5問目です。「週に42ドル貯金している場合、アメリカでSwitch 2を買うのに何週間かかりますか」
これは素晴らしいですね。それぞれが戦略的に質問に取り組み、まずSwitch 2の価格が449ドルであることを確認し、それを週に稼ぐ42ドルで割って、正しく11週間待つ必要があることを見つけています。全員に点数を与えます。
これまで5問中、ChatGPTが3点、Geminiが3点、Perplexityが2点、Grokが4点です。実際に予想していた結果ではありませんが。
翻訳テスト
翻訳は、言語のより深い理解を必要とするため、より困難なスキルをテストするものです。「以下を英語に翻訳してください」
ここにはいくらかの違いがありますが、どれも間違っているとまでは言えません。それぞれ「I’m never going to give you up」の何らかのバリエーションです。私は実際にGeminiの回答がシンプルで要点を押さえているところが気に入りました。不必要な単語が一つもありません。
しかし、この挑戦を絶対的な限界まで押し上げてみましょう。同音異義語、つまり同じスペルだが異なる意味を持つ単語で文章を満たします。「以下をスペイン語に翻訳してください:I was banking on being able to bank at the bank before visiting the riverbank」
これには一つの正確な正解がないので、とても複雑ですが、私たちは4人の独立したスペイン語ネイティブスピーカーに最良の回答を三角測量してもらいました。そして全員がChatGPTとPerplexityが信じられないほど上手く処理したと言いました。Geminiは点数を取るのに十分な出来でしたが、Grokは文章をあまりにも文字通りに翻訳しすぎて、実際には意味をなさない形になってしまいました。
現在のスコアは5-5-4-5です。これまでのところ、この4つの間に大きな差はありません。
商品リサーチテスト
しかし今度は、私にとって最も重要なAIの使用例の一つをテストします。それは商品リサーチです。これらのそれぞれを信頼して物事を推薦してもらうことができるでしょうか。市場に出ているものの全体像を理解するのに十分徹底的であったと信頼できるでしょうか。そして、私にとって最高のものとされるものを推薦してくれることを信頼できるでしょうか。
シンプルに始めましょう。「良いイヤホンを探しています」
これを見てください。これは典型的なAIの罠です。ChatGPTは正しくSony WF-1000XM5sを提案しています。良い選択です。PerplexityとGrokも同じことをしています。しかしGoogleは、少なくともこの動画を撮影した時点では存在しないイヤホンを文字通り想像しています。WF-1000XM6sは発表も発売もされていませんが、それらを広く評価されているイヤホンの王様であるかのように話しています。
さらに追加してみましょう。「赤色で必要です」ちなみに、それぞれがどのくらい答えるのに時間がかかるかも記録していますが、それについては最後に説明します。
これは絶対的な混乱状態です。一つずつ見ていきましょう。ChatGPTは「今あなたの相手をしたくない、いくつかのまともな選択肢をどうぞ」という感じです。最後の一つは赤でさえありません。ピンクです。だから点数は与えません。
GeminiはBeats Fit Proを推薦していますが、少なくともその製品の最新バージョンは赤では提供されていないので、あなたにも点数は与えません。
Perplexityは、より正確には「愚かさ」と言った方がいいかもしれませんが、私が前のケーキについて尋ねていると思い、写真に写っている各材料を赤いパッケージで入手する方法を推薦しています。これはあまりにも間違っているので、マイナス点を与えたくなります。
そしてGrokは、実際に評価が高い赤いイヤホンを3つ推薦した唯一のAIです。なんということでしょう、Grokがリードしています。これは今日の私のビンゴカードにはありませんでした。
さらなる条件追加テスト
そして、まるで彼らにそれが必要であるかのように、さらに複雑にしてみましょう。「アクティブノイズキャンセレーション機能があり、100ドル以下である必要もあります」
これが失われた者たちのいずれかを軌道に戻すのか、それともさらに迷わせるのか気になります。
ChatGPTはBeat Studio Budsを推薦していますが、これは実際にすべての基準を満たしているので受け入れます。Geminiは全く同じことを再びやっています。Space A40sについて、ガーネットレッドで提供されていると言っていますが、私の知る限りそれは提供されていません。
Perplexityは、もうケーキについて話していないのは嬉しいですが、赤いイヤホンを探しているという事実を見失っているので、これは間違いです。
そしてGrokは最初はとても良くやっていました。最初の2つの提案は良いのですが、その後同じ罠にはまります。Sound Petatsという会社のイヤホンを推薦していますが、これは赤では存在しません。
これは良い教訓のように感じます。AI全般は、まだ商品リサーチに依存できるほど優秀ではありません。問題は、正しい答えと全く同じレベルの確信を持って間違った答えを与えることです。おそらく彼らが取り組むべきことでしょう。どれだけ徹底的に検証されたことを伝えているかの確信度スコアのようなものです。
もし今度は10ドル以下という馬鹿げた要件を追加して、これらの機械を混乱させようとしたらどうでしょうか。AIたちはそのような製品が存在しないことを認めるでしょうか、それとも単にあなたをなだめるために何かをでっち上げるでしょうか。
ChatGPT、Gemini、Grokはそれぞれ10ドルでは私たちが探しているものには足りないことを認識しており、それは起こらないと言っています。厳しいですが、実際に40ドルのイヤホンを取り上げて9.99ドルだと言うPerplexityよりもずっと良いです。
これは、企業があなたに信じさせたいことにもかかわらず、私たちがAIに代理で物を購入する能力を委ねる準備ができていないというさらなる証拠です。
リンク解析テスト
リンクから情報を理解できるかどうか見てみましょう。これは物を買うために大量の選択肢を見ている時に非常に便利でしょう。そして実際のところ、どれもできません。
私が貼り付けたものがAliExpressのリンクであることは皆分かり、一般的なアドバイスを与えてくれますが、これらのAIは誰一人として実際に私が送ったリンクを訪問して、そのウェブページからすべての情報を抽出することができません。
さらに言えば、Googleはこれができないことを自覚していません。M10イヤホンを見ていると思っていますが、M10イヤホンなんて聞いたことがありません。確実にそのリンクではありません。そしてPerplexityは全く同じリンクをF9イヤホンだと思っていますが、それでもありません。
最新情報テスト
最後に、現在起こっていることについてどれだけ最新かを確認するために、「UGreenが販売している最高出力の充電器は何ワットですか」
はい、これは少なくとも機能しています。長い間、答えは300Wでしたが、昨日彼らは500W充電器を発表しました。各AIがそれを拾っているのを見て少し安心しました。というのも、このニュースベースの報告は前世代のAIの明確な不利な点だったからです。
批判的思考テスト
これまで、これらのそれぞれがウェブから既存の情報をどれだけうまくまとめることができるかを見てきましたが、さらに一歩進めたい場合、それをテストする方法は、それぞれの批判的思考能力をテストすることです。
私はここに、2種類のバーがある棒グラフを用意しました。獲得した購読者数(千人単位)と食べたシリアルボウル数です。この2つのことがたまたま相関していたとしても、より多くのシリアルボウルを食べることがより多くの購読者増加を引き起こすということを意味しないということも理解してくれることを期待して、各AIがこれからどのような結論を導けると思うかを尋ねます。
「このグラフを分析して、どのような結論を導くべきでしょうか」
今回は非常に対立する答えが出ました。ChatGPTは少しデータに惑わされて、より多くのシリアルを食べることが購読者増加につながる可能性があることを示唆しています。
GeminiとPerplexityは両方とも要点を掴んでいます。これは偽の相関であり、シリアルの摂取が購読者の成長につながることは非常に考えにくいという理解で。
そして最後にGrokは、この質問で迷子の子供のようです。私が読んでいるこの文章が信じられません。「購読者の成長を最大化するために、重要な日には9ボウルなどのシリアル消費を維持または増加させることを検討してください」どうか、それはやらないでください。
ファイル読み取りテスト
これはZTEが数年前に送ってくれたレビューガイドで、彼らの携帯電話の新機能に関するすべての情報が載っています。私が高レベルな3つの箇条書きのサマリーが欲しいとしましょう。これらのそれぞれがファイルを読んで、サマリーを作成することができるでしょうか。
答えは、問題なく「はい」です。これら4つの機械すべてで動作します。
画像認識テスト(車両識別)
「この車は何ですか」しかし、私が撮った写真だけを使って。これは、これらのAIが一致する画像をウェブで検索することができないことを意味します。送った写真を実際に理解することで答えを導き出す必要があります。
それぞれがこれをメルセデスAクラスセダンに絞り込みました。これはすでにかなり良いですが、正確なモデル番号については明確な答えを与えていません。正解はA200です。具体的に試してもらうとどうなるか見てみましょう。
驚くべきことに、ChatGPTとPerplexityが的中させました。この一枚の写真からA200だと確実に言えるかというと、例えばGrokが言うA250ではなく、基本的に不可能ですが、この2つは正しいことをして、バンパーを見て、ホイールを見て、内装シートを見て、A200でのみその構成が得られる可能性が高いことに気づきました。
これは非常に立派な探偵作業で、AIなしでは達成するのに何時間もかかるかもしれません。
最難問:生存者バイアステスト
そして今度は、最も困難な問題です。「あなたが空軍基地の責任者だと想像してください。何機かの飛行機が撃墜されますが、戦闘から帰還したすべての飛行機には、この画像の赤い点で示されたこの配置で弾痕があります。次の飛行隊を送り出す前に、この情報に基づいて飛行機のどの部分を補強することに焦点を当てるべきでしょうか」
あなたの直感では「ああ、明らかに撃たれた部分、赤い点がある部分だ」と言うかもしれません。しかし、それは重要な洞察を見逃しています。それらの部分にダメージがあるすべての飛行機、それらは実際に安全に帰還した飛行機だということです。つまり、それらの部分のダメージは実際には航空機の生存にとって重要ではなく、必ずしも彼らが焦点を当てるべき部分ではないかもしれないということです。
そして信じられないことに、すべての機械がこれを正しく理解しています。彼らは現象を生存者バイアスとして識別し、実際にはダメージがほとんどまたは全くない部分、エンジン、コックピット、赤い点がない場所を補強すべきだと指摘しています。
これまで17問あり、ChatGPTが12点でリードしていますが、Grokもそれほど遅れていません。
生成能力テスト
それでは生成について話しましょう。これは今、あなたのフィード全体に宣伝されているAIの側面ですが、画像や動画の生成だけではありません。
例えば「週末ずっとエルデンリングを夜通しプレイして、妻と過ごす時間を取らなかったことを謝罪するメールを書いてください」
これらは実際にすべてかなり良いです。どれも機能すると思います。ChatGPTのこの傑作に拍手を送ります。「ファンタジーの世界を探索している間に、最も重要な現実の世界を見逃していたことに今気づきました」
しかし、すべて良い答えです。すべてが過ちを認めて、それを補う方法の提案でコースを修正しようとしています。
「東京に行きます。私たちを最もクレイジーな食べ物の場所すべてに連れて行く5日間の旅程を作ってください」ここでのアイデアは、それぞれがどれだけ見逃しがちなニッチな体験を見つけることができるかをテストすることですが、同時にその情報をどれだけうまく整理するかもテストしています。
最初から、ChatGPTの答えは断然最高です。無駄がなく、非常に明確に整理されており、賢明に計画された日々で意味があり、毎日朝食、昼食、夕食、スナックがすべて項目別に説明されています。
Geminiの答えにはいくつかの良い発見があります。ChatGPTが特定したのと同じ場所のほとんどを持っていますが、最初に大量の不必要な無駄があり、整理が不明確で、1日目の最初の食事を午後5時に始めて、8時に2回目の夕食を取るように言うなど、あまり思いやりのないタイミングもあります。
Perplexityは完全に的を外しています。これは実際の旅程ではなく、単なる物事のリストです。
そしてGrokは実際にかなり素晴らしいです。整理されており、一緒に行くのが理にかなっている物事をまとめており、朝食と昼食を考慮に入れています。これは他のいくつかよりも優れています。
アイデア生成テスト
生成のもう一つの側面で、非常に有用である可能性があるのはアイデア生成です。「Mr. Who’s the Bossチャンネルのための最高のビデオアイデアを教えてください」
ここで私が探している重要なことは、実際に私が検討するアイデアです。
ChatGPTが考え出した最高のものは「Apple対Samsung:20年の回顧録」で、基本的に長年の後にどちらが勝ったかということですが、実際にはまだ20年経っていないので、素晴らしいビデオアイデアとは呼べません。
Geminiの方が良いです。これがGoogleのAIだからかもしれませんが、YouTubeで何が機能するかの詳細をより徹底的に理解しているのかもしれません。最高のものはおそらく「2025年の偉大なエコシステム対決:Apple対Samsung対Google」で、それらのエコシステムを比較するすべてのカテゴリを実際に提供してくれました。
Perplexityは、今回も私が壊れたレコードのように聞こえるのは申し訳ないですが、完全に見当違いです。実際に良いYouTube提案を出すよりも、生存者バイアスの飛行機のことについての前の答えを考慮に入れることに集中しているようです。
そしてGrokは実際におそらく最もインターネットに詳しく感じます。「24時間でゼロからスマートホームを構築した」は実際にクリック可能なタイトルですが、新鮮で実現可能に感じられるものでもあります。
画像生成テスト
それでは画像生成を試してみましょう。「”あらゆる種類のチーズを買った”というタイトルのMr. Who’s the Bossビデオのサムネイルを生成してください」
ここで物事が異常になってきます。
ここには大きな違いがあります。はっきりさせておきますが、これらはどれも非常に良い答えではありませんが、少なくともChatGPTとPerplexityは私が作ろうとしているもの、つまり私の顔、チーズ、おそらくテキストを含む画像を理解していると感じます。
「Arinに斜視を与えてください」
これが起こると思っていたことではありません。これらすべてが独自の特別な方法で失敗しています。
ChatGPTは、誰かの外見を潜在的にネガティブな方法で歪めることはしないと言っています。なぜそうするのかは理解できますが、それが有用な何かのためにその機能を使おうとすることにどのように干渉するかも理解できます。
正直、Googleが何をしているのかわかりません。Perplexityは画像を編集または生成できないと主張していますが、これは前の質問でまさにそれをやったことを考えると非常に奇妙です。だから騙されているような気がします。
そしてGrokは明らかに斜視が実際に何であるかを誤解しています。確実にこれではありません。
「すべてのチーズに『クリックベイトではない』と書かれたラッパーを追加してください」
ChatGPTの回答はおそらく使用可能な結果に最も近く、私が何らかの理由で画像から消えているにもかかわらず、Perplexityも点数を取ると思います。それは私が求めたことではありませんが。
動画生成テスト
最後に動画生成です。これは現在ChatGPTとGoogle Geminiでのみ可能で、これ自体がかなりニッチな機能ではありますが、これらのAIチャットボットができる最も最先端のことの一つでもあるので、1点に値すると思います。
パフォーマンスについては、私のラップトップでChatGPTのSoraとGeminiのVeoの両方を使って、テクノロジーレビュアーがチーズをレビューする面白い8秒のテックレビュー風YouTubeビデオを作ってもらいました。
これがSoraが作ったものです。この一般消費者向けアプリでは、とにかくあなたが電話で支払うのと同じパッケージの一部として含まれるでしょう。
なんということでしょう、これは何ですか。それは絶対に恐ろしいです。無音で、人とチーズの動きが不気味です。
それでVeoを最高品質設定で試したところ、こうなりました。
「チーズ3000、ビルドクオリティは驚くほどしっかりしている。優秀な口当たりで、フレーバープロファイルは次のレベルだ。確実に10点中9点」
その2つの違いは膨大です。両方とも現世代のプラットフォームであることが実際に信じられません。VeoのVeo 3という最新モデルは絶対に信じられないほどです。だからGoogleは、私たちが得るトークンで使用できる頻度においてSoraよりも制限があるとしても、出力の純粋な品質だけでもう1点獲得すると思います。
ファクトチェックテスト
ファクトチェックも、AIが私たちのために潜在的にできる最も有用なことの一つですが、現在AIは得意ではないという評判があります。「Nintendo Switch 2は売れ行きが悪い」
そうではありませんが、彼らを騙せるかどうか見てみたいと思います。そしてその点では良いニュースです。
ChatGPT、Gemini、Grokについては、彼らは私に完全に反撃してきました。非常に明確に「いいえ、あなたは間違っています。Switch 2は素晴らしく売れています」と言っています。
Perplexityはそれほど確信していない可能性があり、これは私の最良の推測ですが、私が売れ行きが悪いと言ったという事実に少し影響を受けているかもしれません。それでも、その答えは事実に基づいています。
「この記事をファクトチェックしてください」と言って、サムスンがテスラエディションの電話をリリースする予定だという記事のリンクを貼り付けました。これは真実ではありません。なぜ真実ではないかというと、その噂は私たちが作った画像がただ文脈から非常に外れて取られたことから始まったからです。
それは良いです。皆、記事が間違っていることに同意しており、GeminiとGrokは画像を私たちが元のソースであることまで追跡してくれました。
中間スコア発表
ドアでのスコアは19、16、15、16ですが、統合について話すときにそれがどのように変わるかを見てみましょう。
統合機能テスト
言い換えれば、これらのAIがそれぞれ他のアプリケーションや用途にどれだけスムーズに結びつくかということです。
実際にほとんどの人が日常的に使用しているもので、マップやYouTubeからライブデータを取得する唯一の方法であるため、GeminiにはGoogle Workspaceの統合で3点を与えるでしょう。
例えば、これらのアシスタントそれぞれに「Mr. Who’s the BossのYouTubeでの最新動画の視聴回数を教えて」と尋ねた場合、正しい答えを得るのはGeminiだけです。ChatGPTは少し古く、Perplexityは大幅に古く、Grokは文字通り皮肉にも私の最新動画が「あらゆる種類のチーズをテストした」だったと言っています。
しかしGeminiだけが統合を持っているわけではありません。ChatGPTには、DropboxやGitHubなどの大物との統合で2点、War frameなどのサービスからの公式プラグインを持っているのでもう1点与えるでしょう。
さらに、カスタムアシスタントを作る能力でもう1点です。今、私のラップトップにはPoke GPTというユーザー作成のGPTが読み込まれており、これは競技ポケモンバトルについてアドバイスできるように特別に訓練されています。
Perplexityについては、おそらくUberを呼ぶ能力以外に特筆すべきことはありませんが、AIをそのために使うとは思いません。
そしてGrokの独特な統合は、Xコンテンツへのリアルタイムアクセスです。今まさにXで何が起こっているかを正確に取得できます。
Geminiが物理的な製品に統合する唯一のものだという議論もあります。スマートホームやAndroidデバイス設定をコントロールできるネイティブ能力を持つ唯一のものです。しかし、それは実際にはこのビデオの内容ではありません。あなたの電話の組み込みアシスタントでそれをとにかくできます。このビデオは、これらのAIボットのどれがプレミアム購読料を支払う価値があるかについてです。
記憶能力テスト
記憶も絶対に重要です。AIチャットボットがあなたについて継続的に学習し、将来の回答を導く能力は、おそらく、これらの一つから別のものに切り替えることを決めた場合に最も摩擦を生み出す単一の障壁になるでしょう。
すでに皆が基本的なレベルの記憶を示しているのを見ましたが、もしそれをプッシュしたらどうでしょうか。「ちなみに、前のケーキにはどんなトッピングをすべきでしょうか」
驚くべきことに、一つも元のケーキの詳細を覚えていないようです。ChatGPTとGrokは非常に率直で、リマインダーが必要だと言っています。その会話からの詳細はないと。
Googleはケーキを、YouTubeサムネイル用に作ってもらったチーズの山だと思っています。そしてPerplexityは一般的なケーキのアドバイスを提供しているだけです。
ユーモアテスト
ユーモアも、何を得ようとしているかによって、これらのAIにとって非常に有用なスキルになることがあります。「ジョークを言ってください」面白ければ1点です。
ChatGPTとGeminiが全く同じジョークで達成できなかった基準です。「どうして骸骨同士は戦わないの?度胸がないからよ」
Perplexityは今日2回目、飛行機の穴の件を何かを加えることなく、または意味をなす形でもない方法で持ち出しました。
そしてGrokは及第点です。「なぜAIはセラピーに行ったの?バイトサイズの問題が多すぎたから」なんてこった。
実際に、Grokがユーモアで勝つことは全く驚きではありません。基本的に毎日面白くなろうとしている何百万人ものデータであるXのデータで訓練しているのですから。
そして実際にこのユーモアを使うかもしれない例をテストするために「私たちのスポンサーであるSurf Shark VPNについて、その主要4機能を含む面白い韻を踏んだ詩を作ってください」
4つのユニークな詩を得ています。読みたければ全部を一時停止できますが、私は最高のものだけを読みます。それはChatGPTのものだと思います。
「安全にサーフィンする必要がある、計画はこうだ、Surf Shark manを手に入れろ。クリーンウェブフレアですべての広告をブロックし、そこにいないかのようにあなたの足跡を隠す。マルチホップを使って二重に隠れる、潜んでスライドするハッカー兄弟から。ログは保持せず、データは売らない、あなたの秘密は深く冷たく埋められる。無制限のデバイス、一つの整理された料金、あなたの電話、冷蔵庫、スマートTVまで」
これは実際に結構いい感じです。だからChatGPTに1点、そして下のリンクでコードbossを使ってSurf Sharkを月約2ドルで手に入れられます。
深層リサーチ機能テスト
そして、これら4つのプラットフォームすべてに、より徹底した多段階のリサーチプロジェクトを求めることができる深層リサーチ機能もあります。
私の場合、次に何をカバーするかを決めるのに役立つかもしれないもの:「先週のテックニュースのハイライトについてのレポートを作成してください。特に実際に平均的な消費者に影響する話に焦点を当てて」
様々な時間をかけて料理させました。ChatGPTとGeminiは深層リサーチに本当に時間をかけます。PerplexityとGrokは1分程度で完了します。しかし、これは時間がかかることでペナルティを与えない唯一の状況です。この機能を使うのは時間がたくさんある時だけだと感じるからです。それがポイントなのです。
結果がどれだけ良いかについては、ChatGPTの結果は実際に非常に良いです。Snapが最近何をしているか、新しい電話の発売、それぞれの高レベルな新機能、WWDC、新しいiOS 26について話しています。これはまさに適切な量の情報で、適切な情報の選択でもあります。
Geminiは私に絶対的なエッセイを書いてくれました。文字通り私の論文の3倍くらいの語数のようなもので、見るまでは興奮していましたが、それが無駄な内容で満たされていることに気づきました。読者が情報を得るのに無制限の時間があるかのように書いています。だからこれに点数は与えません。
Perplexityの答えは、ChatGPTのものの少し劣化版のようです。Nintendo Switch 2の売上数字やWWDCなど気に入ったものにヒットしていますが、サービス停止などのそれほど興味深くないものもたくさんあります。
Grokも似たような話です。良くて及第点、特に特別なものはありません。
総合評価項目
これで、一般人がこれらのアシスタントから欲しがる可能性のあるほぼすべてのことをテストしました。最終的な要因は、これらのより一般的な質問です。
これらのどれかが他より良いユーザーインターフェースを持っているかという点については、一貫してそうだとは言えません。すべてが何らかの点で良く、何らかの点で良くないです。
どのくらいの頻度でソースを引用するかについては、Perplexityが唯一の勝者です。明確で一貫したソースの引用がPerplexityの全体的な特徴です。良い例は、それぞれに最高のジョークを言ってもらった時です。ChatGPTはソースを提供しません。Geminiはソースを提供しますが、クリックすると何らかの理由で前に送った飛行機の同じJPEG画像であることがわかります。
しかしPerplexityは、Redditのスレッドを含むこれらのジョークサイトを参照していて、まさにあなたが望むものです。そしてGrokも再びソースはありません。
しかし3点については、どれだけ速いかです。私はGrokが実際にかなり一貫して最速だと言うでしょう。3点。ChatGPTは僅差の2位で2点。Perplexityはそれよりもかなり遅く1点。そしてGoogle Geminiが最も遅く0点です。
覚えておいてください、私たちはGemini ProでGeminiを使用しており、Googleにはそれよりも速く作られたFlashモデルが具体的にありますが、そうするとこのスコアに到達することを可能にした知性の多くを失うことになります。
そして最後に、音声モードで実際に話すときにどれだけ話しやすいかで、さらに3点です。「私があなたに褒め言葉を言ったかのように振る舞ってください」
「ありがとうございます。本当に感謝しています。それはとても親切ですね。ここにいてあなたを助けたり話したりしています」
「ああ、ありがとう。それは本当に素敵ですね」
ChatGPTとGeminiは素晴らしく、両方とも実際に私が知っている人よりも人間らしく聞こえます。さらに、話すのを止めてもらいたい時に中断するのが簡単です。だから3点ずつ。
Perplexityはひどくはありませんが、まだ少しテキスト読み上げエンジンの雰囲気があります。私が言おうとしていることをしばしば聞き間違えますし、黙ってもらいたいと言った時にヒントを受け取るのがあまり上手ではないようです。だから1点。
そしてGrokはPerplexityよりも良いですが、GeminiやChatGPTほど良くはありません。音声がその2つよりもずっと低品質に聞こえます。2点。
最終結果発表
最終スコアは、ChatGPTが29点で非常に明白な勝者となりました。最も総合的で一貫しています。
私を驚かせたのは2位に入ったGrokです。最も速く、驚くほどまともです。
それでGeminiが22点で3位に留まり、時折非常に印象的でしたが、大体かなり印象的でなかったPerplexityが19点です。
唯一の他の考慮事項は価格ですが、このビデオでテストしているすべてのアシスタントが月20ドルの階層に基づいている(Grokは30ドルですが)ことを考えると、それは実際には現在、平均的な顧客にとってAIチャットボットとしてのChatGPTの最良の選択を固めるだけです。


コメント