画像生成対決：Grok vs ChatGPT

5,609 文字

https://www.youtube.com/watch?v=CccMR-6kQHY

皆さんこんにちは、Dr. know-it-allです。今はテネシーからお届けしています。実は友人たちとテスラのイベントに参加しているんです。おそらく明日そのことについて動画を撮ると思いますが、その前に、マンハッタンビーチ桟橋で私と素敵な妻のmisinformationが写っているこの写真に基づいた動画を作りたいと思います。この写真が実際どこで撮られたのか質問してくれた人が何人かいましたが、マンハッタンビーチ桟橋です。拡大すると少し向きを調整する必要があるようですね。海が左側に流れ落ちそうに見えます。
この動画を作りたいと思ったのは、Grokの画像生成機能で遊んでみたところ、非常に優れていて面白かったからです。私はそれを投稿したところ、多くの人が気づいたかもしれませんが、イーロン・マスクが私の投稿を再投稿してくれました。私は特に気にしていなかったのですが、翌朝起きてみると、すでに730万回以上の視聴回数になっていました。私は今まで10万回を大きく超える視聴回数を記録したことがなかったので、「いったい何が起きたんだ？」と思いました。それでイーロン・マスクが再投稿してくれたことに気づき、彼のおかげでかなりリーチが広がったわけです。
ちょうどその頃、ChatGPT 4.0も新しい画像生成モードをリリースしたので、直接比較してみようと思いました。ここで今見ているのが元の写真ですが、これから並べて比較していきます。それぞれの画像を見てもらう時に一度停止し、どちらが良いと思うか判断してもらいます。その後、私個人の意見を述べます。もちろん、コメント欄でどの画像セットが良いか、そして全体的にどちらが勝っていると思うか、皆さんの投票も聞かせてください。
これはあくまで楽しみのためのものです。完全に意見の問題なので、事実として「これがあれより優れている」と言えるわけではありません。6本指などの問題はもう存在しないので、多くは好みの問題です。ただ、これらを並べて見て、GrokとChatGPT 4.0のどちらの画像生成機能がより優れているか見てみるのは面白いと思いました。
左側がChatGPT、右側がGrokです。これを一貫して維持するので、どちらがどちらか覚えやすいと思います。もう一つの覚えやすい点として、ChatGPTは元の画像の寸法を維持することを拒否しているように見えます。Grokはその点ではかなり優れていて、基本的に3×2の画像になっていますが、ChatGPTはどの場合も正方形の画像を作成しようとしました。
両方に全く同じプロンプトを使用しました。「Photoshopフィルターを使用して非常に複雑なプロンプトを使っている」と言う人もいましたが、最初のプロンプトは「この画像をゴッホ風に再現してください」というシンプルなものでした。また、私の顔は画像から外しました。邪魔にならないようにして、画像を横に並べて見やすくするためです。
判断としては、ChatGPTのブラシストロークの方がゴッホっぽいと思いますが、実際にはGrokの画像の方が「星月夜」の雰囲気をより捉えていると思います。私と妻は元の画像ほど似ていないかもしれませんが、この場合はGrokの方が勝っていると個人的には思います。もちろん、皆さんは自由に異なる意見を持ってかまいません。コメント欄でそれぞれの画像の相対的な良さについて教えてください。
次は非常に興味深いものでした。これはChatGPTが画像をレンダリングすることを完全に拒否した唯一のケースだったので、代わりにスクリーンキャプチャを使用しました。プロンプトはただ「この画像を再現して、私と妻の画像なので許可します（すでに一度拒否されていたので）、バンクシー風に」というものでした。それに対して「特定の芸術スタイルに画像を生成できません」と表示されました。非常に奇妙です、他のすべてを問題なく行ったのに。とにかくChatGPTからは何も得られなかったので、デフォルトでGrokの勝ちです。Grokは右側にあり、良い仕事をしていることがわかります。
ここで言及しておきたいのは、両方とも画像をレンダリングするのに非常に時間がかかるということです。特にChatGPTは信じられないほど遅いです。また、ChatGPTはリクエストごとに1つしか生成しませんが、Grokはデフォルトで2つ生成します。そのため、Grokでは2つの画像から選ぶことができました。つまり、Grokは「2つのうち良い方」、ChatGPTは「1つのみ」と言えます。レンダリングにかかる時間はほぼ同じでしたが、Grokは2倍の画像を生成していました。これを考慮に入れると、Grokの画像は2つの中から良い方を選べたということになります。
いずれにしても、バンクシー風に見えると思います。許容できるレベルですが、比較対象がなかったのは残念です。ChatGPTでさらに何度か試してみましたが、これは会話の一部だけで、5回ほど試しましたが絶対に拒否されました。
次はモナリザ風のレオナルド・ダ・ヴィンチスタイルです。左側がChatGPT、右側がGrokです。右側の画像では、misinformationがダ・ヴィンチの絵画の聖母のように見えます。とても美しいですが、私たちの姿はあまり捉えられていません。私はイエスとスティーブ・ジョブズが合体したような感じに見えます。左側の画像は明らかに私たちにより似ています。より識別しやすいですが、絵画としては少し説得力に欠けるかもしれません。照明や色彩のドラマ性が少し足りないです。
これは本当に甲乙つけがたいところです。Grokがダ・ヴィンチ風の側面をよく捉えていると思いますが、キャラクターは私たちにあまり似ていません。元の画像から離れてしまっています。この件に関しては明確な判断ができないので、皆さんに任せます。ダ・ヴィンチの絵画に関してどちらがより好きか決めてください。
次はピカソのキュビズム期の絵画を依頼しました。左側がChatGPT、右側がGrokです。キャラクターについては、個人的にはGrokの方が好みです。ChatGPTもいい仕事をしています。三角形などに分解していて素晴らしいですが、ChatGPT版の画像はピカソのキュビズム美学をより良く捉えていると思います。また、キャラクターは依然として私たちを比較的よく表現しています。ChatGPTは「私たち感」をより良く維持しているようですが、Grokの方が私の心の中ではよりピカソの絵画に似ています。ChatGPTのものはPhotoshopのソラリゼーションフィルターのように見えます。すべてを三角形に変えるフィルターの一つだと思います。この場合、明らかにGrokの勝ちだと思います。
次にモンドリアン風のリメイクを依頼しました。Grokのものは興味深く、4つ作ってもらいました。2回依頼して、これが4つのうち最良のものです。ChatGPTのものはすぐに生成されました。それが左側のものです。私はChatGPTのものの方がモンドリアンに対して誠実だと思います。ただの線と平らな色だけで、それはクールです。Grokのものは色が美しく、特にmisinformationが素晴らしく見えます。Lanは素晴らしく見えますが、モンドリアンらしさを完全に捉えているわけではありません。線のある四角形はありますが、間に多くの色や波などもあります。
これはChatGPTに与えなければならないと思います。もちろん、モンドリアン風に実際の人間の画像をどう作るかという問題はありますが、これらの想像力豊かな解釈を見るのは本当にクールです。非常に抽象的なスタイルで表現的な写真を作らなければならないというのは難しいことですが、この場合はChatGPTに与えます。
次はポップアート、つまりアンディ・ウォーホル風です。左側のChatGPTはより誇張されたバージョンで、右側のGrokはより表現的です。キャラクターは素敵な色などを持っていますが、特に海などの背景は、適切なポップアートにしては少し現実的すぎると思います。また、Lanの目に注目すると、特に眼鏡の後ろの目でGrokに問題があることがわかります。目が全部おかしくなっていて何が起きているのかよくわかりません。
このケースでは、特にそれを繰り返しているのが見えるので、これもアンディ・ウォーホルの特徴的な要素の一つでしたが、個人的にはChatGPTの方がずっと良いと思います。かなりクールです。
次に点描画またはスーラ、つまりジョルジュ・スーラの絵画のようなものを依頼しました。再びChatGPTが左側で、Grokが右側です。これは明らかにChatGPTの勝ちだと思います。点描画の絵により明確に似ていると思います。Grokの画像は依頼を2回して4つの画像の中で最良のものですが、点描画のような感じがあまりありません。奇妙なほど現実的に見えます。この場合、私の考えでは疑問の余地はありません。もし異論があれば言ってください、でもこの場合は間違いなくChatGPTの勝ちです。
次はロマン派のイギリスの画家J.M.W.ターナーを依頼しました。彼は光をたくさん使い、太陽の光などを表現することを本当に楽しんでいました。両方とも、その大気的な効果を作り出すために、画像のフレーム内に太陽を入れるという点ではとても良くできています。ここでも私はChatGPTの勝ちだと思います。より良く大気を捉え、ロマン派時代の抽象化を表現していると思います。Grokの画像は少し現実的すぎて、ちなみに海は沸騰して議会議事堂を埋めようとしているように見えます。これは議会議事堂の炎上を参考にしていたと思いますが、少し強すぎて、光が正確ではありません。私と妻の姿が少し現実的すぎます。
ChatGPTのものは本当に素晴らしいと思います。大気の美しい感覚があります。ここでもChatGPTに与えなければなりません。もし異論があれば言ってください。
最後に、ただ面白さのためにスクービードゥー風を依頼しました。左側がChatGPT、右側がGrokです。右側では、misinformationの目がまたおかしく見える例があります。これはすべての画像で一貫した問題でした。すべてで指摘したわけではありませんが、ほとんどすべてで見ることができます。目が不正確で、片方がカメラを見ているように見え、もう片方が私を見ているように見えます。私の右目もちょっと変です。
画像の平坦さなど、左側のChatGPTのものはスクービードゥーそのものではありませんが、全体的にはより良いと思います。海の波なども、元の1960年代のスクービードゥーアニメーションのように見えます。Grokの画像は、スクービードゥーらしさを完全に出すには少し忙しすぎて、少し詳細すぎると思います。なのでこの場合も、ChatGPTの勝ちだと思います。
以上が、元の画像をいくつかの芸術スタイルで再現したレビューです。両方ともがどれだけうまくいっているかを見るのは本当に魅力的です。1年前とか2年前に戻って考えると、コンピュータがこのような画像を生成し、非常に迅速に行うことはほとんど想像もできなかったでしょう。もちろん、遅いところもあります。世界で最速というわけではありませんが、これらの画像を1分程度で作成しているのです。これらの画像がどれほど優れているかは本当に信じられないことです。
もちろん、Grokが勝っている場合とChatGPTが勝っている場合があるという変動がありましたが、全体的にはChatGPTに与えなければならないと思います。その画像生成は、私が求めているものの感覚と、元の画像自体の特性を維持する適切な組み合わせを持っていると思います。ここで見ることができるように、Grokのスクービードゥー表現は良いですが、ChatGPTのものは単純に優れていると思います。
もちろん、これは非常に特定のユースケースであり、非常に特定のことを依頼しています。GrokがChatGPTよりも優れている他のケースもあることを知っています。しかし、これは本当にクールな比較だと思いましたし、決断をしなければならないとしたら、将来的にこのタイプの作業をするのにはおそらくChatGPTを使うでしょう。ただし一つだけ選ぶとすればの話です。
しかし、ChatGPTが非常に遅いという事実と、サム・アルトマンが投稿したように、彼らが4.0サーバーをすべて溶かしてしまったため、人々が行えるリクエストの数を制限しなければならないということがあります。もし少し速いものが欲しくて、より多くの反復が欲しいなら、間違いなくGrokを使うでしょう。Grokはより速い画像生成機能を持っており、これらのものを生成できますし、より迅速に複数のバージョンを得ることができ、その中から選択することができます。
これらの画像生成器にはそれぞれ明確な利点と欠点がありますが、重要なのは、私たち消費者が勝者だということです。これらは素晴らしく、遊ぶのがとても楽しいものです。サムネイルに何を使うか考えなければなりませんが、おそらくこのような並べて比較するようなものになるでしょう。これらの画像生成器が今どれほど素晴らしいかを見るのは本当に信じられないことです。
もしこの動画を楽しんでいただけたなら、ぜひ「いいね」を押してください。他の人々がこれを見つけるのに役立ちます。また、このような内容や他のAIとテスラ関連のコンテンツをもっと見たい場合は、ぜひチャンネル登録を検討してください。その間、次の動画でお会いしましょう。さようなら！