ChatGPT 5.1の実力テストと2025年最高のAIはどれか

GPT-5、5.1、5.2
この記事は約21分で読めます。

OpenAIが新たにリリースしたChatGPT 5.1の性能を実際にテストし、ゲーム制作、ウェブサイト構築、SVG描画、3D生成など多様なタスクで評価を行った。さらにAIエージェント機能を用いた旅行計画の実験も実施し、航空券やホテル検索における実用性を検証している。加えて、100票を集めた独自アンケートの結果を分析し、ChatGPT、Gemini、Claude、Grokといった主要AIモデルの人気動向と各モデルの強みを明らかにしている。特にGeminiが36%で首位に立ち、ChatGPTが31%、Claudeが27%と続く結果となり、過去数ヶ月のトレンド変化も併せて考察している。

NOVO Chat GPT 5.1 TESTADO Surpreende, Mostrou Pro Que Veio e Saiba Qual a Melhor iA de 2025
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

ChatGPT 5.1の登場と今回のテスト内容

皆さん、OpenAIがChatGPT 5.1をリリースしました。今からこの新バージョンがどれだけ機能するのか、改善されているのかをテストしていきます。そして、人々がどのAIを最高だと考えているかのアンケート結果も見ていきます。その結果には驚かされることでしょう。それでは始めましょう。

まずは、いつものようにいいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝します。このAIチャンネルをスポンサーしてくれている全てのメンバーの方々にも特別な感謝を捧げます。メンバーの方々には、WhatsAppにアクセスしたり、MCPと接続したり、PDF読み込みやドキュメント処理を行うエージェントの作り方を教える限定動画へのアクセス権があります。そういった素晴らしいインタラクションができるんです。また、動画の先行公開もご覧いただけます。

そして、エージェントを作りたくない方、すでに企業をお持ちで顧客対応や社内業務のためのアシスタント製品を導入したい方向けに、近々興味深い製品をご紹介する予定です。今週中にはお届けできると思いますので、お楽しみに。

GPT 5.1の基本性能テスト

それでは前置きはこれくらいにして、ChatGPT 5.1をテストして、本当に機能するのか、本当に優れているのかを確認していきましょう。まず最初に言っておかなければならないのは、OpenAIはChatGPT 5.1が知能とコミュニケーションスタイルの両面で大幅な改善を示していると述べています。

しかし、GPT 5.1について語った際、知能面での改善を示すパフォーマンスグラフは一切示されませんでした。実際に示されたのは、ルールをより適切に守るようになったということ、そしてそのために知能が向上したということだけです。それでは実際に何が起こったのか見ていきましょう。

今回は特にこのChatGPT 5.1 Thinkingをテストします。そしてエージェントもテストして、エージェントも賢くなっているか確認します。それではカーゲームのテストから始めましょう。例の素晴らしいプロンプトで、レースをさせるやつです。

カートがあって、画面があって、スピードメーターがあって、小さな列車もあります。スペースキーを押すと始まります。見てください。よく見てください。かなり正確にできています。素晴らしいと思います。ゲームは機能しました。左右や前後の操作を修正するために2つ目のプロンプトを送る必要もありませんでした。完璧です。

どうやらAIモデルは今や操作を逆にしてしまう問題を抱えていないようです。あ、私が負けました。AIに負けてしまいました。なんてこった、AIの速さったら。カートの品質を見てください。私のカート、見てください、カートとして認識できるデザインになっていて、屋根が少し後方にずれていて、4つの車輪が正確な位置にあります。

ゲームの空には雲があり、列車は小さな四角で描かれ、そういった細かいディテールが全部あります。今では改善が進んで堅牢になってきています。しかし気づいたことがあります。ゲームが良くなっているわけではなく、いつものゲームの見た目を維持しているんです。

ここで興味深いのは、Thinkingモードを有効にしなければならなかったことです。そしてThinkingモードに加えて、Canvasも有効にする必要がありました。Thinkingだけだと、シミュレーションを実行するこの画面が生成されなかったからです。ですから、Thinking モードを使いたい場合はCanvasも入れる必要があります。そうしないとここに横の画面でシミュレーションが表示されません。

次のテストはマトリックスのウェブサイトです。面白いですよ。以前のマトリックスサイトの生成では、背景に文字が降ってくるエフェクトがあって、それが素晴らしかったんですが、しばらくどのサイトもそれをやっていません。でもこのサイトの品質は平均以上だと考えました。少し丁寧に作られています。単語のハイライトがあります。

すべて正確です。色のハイライトもあります。マトリックスの色が正確です。ここに商品があって、シャンプー、トリミング、予約をするためのものなど、すべて正確です。画像は入れていません。それが足りなかった点です。通常は、ここの商品、特にフード、おやつ、整形外科用ベッドなどに画像を入れるものです。

ChatGPTは画像を入れませんでしたが、これは小さな問題です。ここには予約のための小さなフォームがあって、すべて正確です。リクエストを送信したい場合、サイトに送られてデータを入力して送信できます。0から10で評価すると6点をつけます。色は良いですし、機能性も良いですが、画像が足りず、背景のアニメーションも少し足りませんでした。でも全体的には素晴らしいです。

ペリカンのテストは遠く離れたところから驚かせてくれました。このプロンプトは、自転車に乗っているペリカンのSVGを生成するよう依頼するものです。SVGはベクター描画です。チャットは円を描き、線を描き、三角形を描くという具合に指示を出さなければなりません。こうやってチャットがこの絵を描き、最終的な解像度に到達するんです。

これについては皆さんに言いますが、これまで見た中で最高のペリカンの絵だと思います。間違っているかもしれませんが。足りないと感じたのは背景の太陽やいくつかの雲ですが、芝生があり、空があり、車輪は完璧です。ペリカンの足は自転車のペダルの上にあります。

ハンドルはペリカンの翼に触れていませんが、尾、翼、ペリカンのくちばし、目、ここの眉毛が素晴らしいです。この絵はとても良くできています。このレベルが続けば、今後ペリカンは改善していくだけでしょう。

でも皆さんも気づいているでしょう、絵は改善していて、ますます正確になっていますが、常にこの絵のような見た目になっているんです。ペリカンでかなり異なることができるはずで、このようである必要はありません。

次のテストは3D描画のパゴダです。この3D生成で、最初は奇妙だと思ったけれど、もしかしたら人々の注意を引く差別化要因かもしれない、違うものを見つけました。まず、パゴダはかなり可愛くできていますよね。かなりリアルな感じの絵になっています。小さな橋もあります。

かなり正確です。どう思いますか。この小橋は可愛くできていると思いました。木々、色彩、質感がとても良いです。そしてパララックスのような3Dリソースがあります。正確には何なのかわかりませんが、横から見ると、このパゴダが四角いことに気づきます。回転させると、奇妙な3D動きをしていて、あまり美しくはなく、少し変ですが、今まで気づかなかったものです。

ですから、もしかしたらそこで発明しようとしたリソースで、あまり良い効果ではなかったけれど、ハイレベルな3次元のものを作ろうとしていたことを示しています。木のサイズでよくわかります。この木のサイズを見てください。

回転させると注目してください。こっちに回すと小さくなります。あっちに回すと大きくなります。実際には逆だと思います。こういう感じであるべきです。こっちに近づくと大きくなります。離れると小さくなります。これが何かおかしいという感覚を与えているんだと思います。

でも変な効果で面白くもあり、実は良かったです。次のテストはリオデジャネイロのパゴダです。これは告白しますが、気に入りました。かなり興味深くなっています。これがキリスト像です。頭には後光もあります。あらゆる方向に動かすことができませんでした。前から見るために回転させることができませんでした。

でもここが街で、海があり、いくつかの森があります。どうやらこれがポン・デ・アスーカル、この山のようです。ここにロープウェイのように見えるものがあるからです。確信はありません。かなり興味深く、かなり良いです。ここに浜辺がありますが、それでも少し混乱しています。でも基本的なアイデアとして、画像の中央にキリスト像があるというのは実現しました。

機能しています。キリスト像がちゃんとあります。Quimicaバージョン2で作ったものの方が良かったです。より良かったと思いますが、同時にここに配置した要素はかなり正確でした。ここでリオデジャネイロのこのボクセルを作った他の多くの生成は良くありませんでした。

これはもうテストに合格しています。キリスト像やその他の要素が認識できます。さあ、エージェントのテストです。このテストはQuimicaで一度しか行っていませんでした。これが2回目です。ですからプロンプトにいくつか改善を加えました。それで回答が良くなるはずです。

注目してください。フロリアノポリスからサンパウロへの12月最初の2週間の往復航空券の最安値を検索してください。ここでフロリアノポリスからサンパウロへの往復航空券を検索するよう依頼しました。滞在期間は1週間、大人1人、機内持ち込み手荷物のみです。預け入れ荷物がないので追加料金がかかりません。

1泊300レアル以下で、地下鉄の近くの良い場所にあるホテルを見つけてください。ですから地下鉄の近くのホテルを探すわけです。空港からホテルまでのUber料金の見積もりを出してください。そして人はフロリアノポリスのアラゴア・ダ・コンセイサンの中心部から出発します。旅行のおおよその費用の表を作ってください。

そしてここが前回入れていなかった部分で、入れる必要があると言っていた部分です。航空券予約とホテル予約のリンク、そして旅行に必要なすべての情報、時間、日付、住所などを入れてください。前回Quimicaでやったときは料金を言って、すべて正確に言いましたが、どこに行けばいいか、何日か、何時か、わかりますか、そういうことを言わなかったんです。もう少し説明が必要です。

ChatGPTの場合、エージェントモードを有効にして、このエージェントモードで開始しました。エージェントモードにすると、ここにただChatGPTと表示されるだけで、どのモデルを使っているかは言いません。コンピューターへのアクセスを開始し、アクセスしている画面が見えるようになります。

例えば、ここでGoogleにアクセスして旅行を見ていて、フロリアノポリス、サンパウロと入力して料金を見ています。ちなみに、ここに439という数字が見えますか。この数字を覚えておいてください。後で回答で言及します。

何がわかったかというと、2025年12月前半のフロリアノポリスからサンパウロへの旅行計画です。午前5時から21時15分まで1日約9便の出発があり、所要時間は1時間10分だとコメントしています。その通りです。

ほぼこれらの時間帯でこの所要時間です。ここで、Google Flightsの参考価格によると、最安の往復航空券は約439レアルだと示されていますが、これは正確ではありません。380レアル、390レアルで見つけることができますし、運が良ければAIより安い航空券を見つけて、AIよりも良い価格を見つけられることを示せるでしょう。この数字を覚えておいてください。

439レアル、ですよね。旅行の典型的な価格は490から400レアルです。その通りです。もし魚眼レンズで見ていなければ、良い価格を見つけていなければ、一般的には1,000レアル払うことになり、少し運が良ければ500レアル近くになります。

そして彼はこう言いました。推奨日程は1日に出発して8日に戻るというものです。ここが私が少し失敗したと思う日付でした。これを見ていきます。そして、見つかったプロモーション運賃は預け入れ荷物なしで往復500から600レアル程度だとコメントしています。そしてここにリンクがあって、それを見て何が起こるか確認できます。

ここをクリックすると、特別なものは何もないことがわかります。ここには都市名だけがあって、ここには価格がありません。いくつかプロモーションや物がありますが、彼が言った日付に関するものは何もありません。でもここに入力すれば、1日から8日まで、彼が提案した日付で、ここで見つけた最低価格は612レアルでした。

彼は500から600だと言っていましたが、612は600を超えています。500から600の間ではありません。そしてそれ以上に、ここをクリックすると、興味深いことに下に価格のプレビューが表示されます。そして2日は480です。

ですから、ここに2日と入力して、例えば戻りを9日にすると、これも480になります。このちょっとした操作だけで、私という人間が、ここで少しお金を節約できました。449、400まで下がってきました、413、ここを見てください、Golで行けばより安い価格が得られました。

彼が言っていた価格、安い航空券は439だという価格よりも安い価格を得ることができました。ですから、ここで手動で413で得ることができて、彼が私たちのために得た価格よりも安い価格を得ることができました。

彼がここで見つけたもう一つはホテルで、IBIS Budget São Paulo Paulistaです。私が行っている検索、やったテストでは、みんな最終的にこのIBISを見つけるんです。ですから実際、IBISはインターネットで良い設定をしているはずです。みんながいつも彼らを見つけるからです。

そしてここの価格は、ブログから取ってきました。サイトから見つける代わりにね。これはあまり面白くありません。良いのはサイトの正確なリンクにアクセスすることだったでしょうに。ここのリンクは、さらにいくつかのステップを踏む必要があるリンクです。クリックして購入という準備ができているわけではありません。

でも大丈夫、ここまでは良いです。なぜかというと、何が起こるかというと、購入するよう彼に依頼するのは良くありません。特に皆さんが気づいたように、私たちが手を加えて彼が始めた検索を少し改善すれば、より安い価格を見つけることができるからです。

もしかしたら、彼がすでに行った検索から私たちが改良を加えるための良いスタート地点かもしれません。それから彼はUberについて少しコメントしています。19kmで約26分かかり、ここフロリアノポリスでは45レアルかかります。サンパウロに着くと11kmになります。サンパウロは交通量が多いので少し時間がかかり、少し高くなります。より短い区間ですよね。

19kmのフロリアノポリスで45レアル、11kmのサンパウロで55レアルです。これは交通量のせいです。そして最後に大きな表を作ってくれました。彼が見つけたすべての価格の情報が入っていて、この旅行は約3,000レアルかかると計算しています。

彼がここで見つけたこれらの価格で、ホテル、交通、そしてここにいくつかの食事を含めると、フロリアノポリスからサンパウロへの旅行は3,000レアルになります。どう思いますか。興味深いと思いました。次のような意味で使うと思います。価格の概念を得るために検索をさせるんです。

なぜならここの価格概念は実際とかけ離れていないからで、約3,000レアルかかるでしょう。そして少し節約したい場合は、ここの3,000から始めて、AIができたよりも安くしようとするんです。無駄に思えるかもしれませんが、無駄ではありません。

初期価格がすでにあって、それに基づいて作業を始めると、考えるのが簡単になります。ここで続けて依頼することもできます。この価格を下げてみて、より良い航空券を見つけてと。そうすればもしかしたら彼はもう少し努力して、より興味深い価格を得られるかもしれません。

画面を見て気づいたのは、一度も彼はここの出発と帰りを入力しなかったということです。毎回この画面で止まっていて、この画面の価格だけを基にしていました。ですから、彼が私がここでやったようなより正確で確実なことをするのは少し難しかったんです。日付を入れて、ここに最低価格を入力して、より確実なことをやりました。

下にコメントしてください。製品を購入するためにエージェントを使ったことがあるか、どう思ったか、うまくいったかどうかを。なぜなら、このことが進化し始める可能性が非常に高く、私たちはある時点で、AIに物を買わせて、私たちはただ見ているだけという生活を始めることになるからです。

アンケート結果の分析

そして最後に、ここのアンケートについてコメントしましょう。かなり興味深いです。これまでに100票ありました。質問はこれです。現在最高のAIはどれですか。詳しく説明するコメントを残してください。プログラミング、仕事、チャットに使っていますか。

この大きな質問を送りました。この質問は以前にも何度かしています。時々人々の意見が変わるので、時間とともに皆さんの意見がどう変わっているか知りたいからです。この場合、競争していたのはChatGPT、Gemini、Claude、Grokです。

そしてここで、皆さんがわかるように、Geminiが36%でトップです。ChatGPTが31%で少しだけ下で、3位はClaudeで27%です。これもそれほど離れていません。もし見てみると、トップのGeminiと3位のClaudeの差は10ポイントもありません。

言い換えれば、みんなほぼ同点です。そして4位がGrokで、これはかなり興味深いです。何人かの人がGrokは過小評価されている、Grokはこれより良いと言っていました。私も同意します。

Grokはかなり興味深いです。特に、Twitterで起こっていることについて意見の質問をしたい人にとっては、人々が物事についてどう考えているかを知るための素晴らしい検索をしてくれます。さて、それで何をしたかというと、複数回この調査をしたと言いましたよね。

ChatGPTに行って、過去のアンケートのデータを示すグラフを作るよう依頼しました。そして驚いたことに、全く同じモデルのアンケートが3つありました。多くのアンケートがありましたが、同じモデルのものは3つだけでした。

そのうちの1つは5月、もう1つは6月、そして今が11月です。ですから、これは年間を通じた進化について少し語っていると言えます。5月はChatGPTが56ポイントでトップでした。そしてGeminiはClaudeとほぼ同点で、Geminiが18、Claudeが16でした。

ですから気づいたでしょう、ChatGPTのリードは圧倒的でした。皆さんもご存知でしょう。最初はChatGPTが遥か先を行っていて、その後状況が変わり始めました。例えば、次に起こった変化はGeminiが首位を取ったことです。

44ポイントで単独首位で、ChatGPTは34でした。Claudeは安定していて、Grokも下の方で安定していました。Grokは9から5に下がりました。実際には下落しました。これは2025年6月のことです。

でも今、11月を見てください。興味深いことに、Geminiはかなり下がり、ChatGPTも下がりました。そして本当に上がったのは、強く上がったのはClaudeでした。人々はClaudeの重要性に気づき始めました。これはかなり興味深いです。

最初、5月、昨年の初めにいた頃、私がClaudeは良いモデルだと言うと、多くの人が嫌がって、Geminiの方が良いとか何とか言っていました。それは本当です。なぜなら人それぞれ意見があり、その人が使う理由によっては、もしかしたらGeminiの方がうまく機能するかもしれないからです。

でも私が気づいたのは、Claudeがそれほど良くないと示そうとする無理強いがあったということです。実際には彼はすでに素晴らしいモデルだったのに。でも時間が経つにつれて、人々はますます使うようになり、Claudeには価値があることに気づいています。

ですから彼は16%から17%になり、今は27%です。そしてChatGPTが最も下がったAIです。ですからChatGPTはいくつかのトレンドを作り、どうやらChatGPTは自分自身のために、将来12ポイント失って15%まで下がるというトレンドを作ったようです。

Geminiは9ポイント上がって50%になるはずです。私の意見では、そうはならないと思います。どうやらGeminiは安定し、Claudeは成長し続けると思いますが、ここではGeminiが50まで上がると言っています。

Claudeは5%上がって30%になり、ChatGPTを抜いてこのリストで2位に入るはずです。そしてここのGrokは、ChatGPTによると、さらに1ポイント失って5%まで下がるそうです。計算が間違っていますが。7であれば5には下がらず、6に下がります。

どう思いますか。この意見は現実的ですか。ここでアンケートに人々がコメントしたことを見てください。興味深いものがありました。De miniを除くこれらすべてのモデルが最近アップデートされました。Gemini 3を待っていますと。その通りです。

Gemini 3が驚くほど良いというプレビューがあって、リリースされたらすぐに動画を作ります。もう一つ興味深いのは、Geminiなら何でも無料でできるということ。これはかなりクレイジーですよね。本当だからです。Googleは最も多くのものを無料で提供している企業の一つです。ですからGeminiを切り札として考えることができます。

ここでも言っています。Cloudを毎日使っていて、プログラミングには間違いなく最高です。でも他の話題にはChatGPTと。ここで熱心な学生が言っています。Claudeをすごく気に入っています。そして彼を使うのは珍しかったのにと。

これが変わったと思う意見の種類で、多くの人がGeminiとChatGPTから離れてClaudeを使い始めたのは、実際にはまだ使っていなかったからです。そしてここにGPT Plusのファン、つまり無料ではない有料サブスクリプションのファンがたくさんいます。

生産性の面では、Deep ResearchとReflectionモードは例外的です。これは本当ですよね。このDeep Researchの部分、Reflectionはとても良いです。GPTのもう一つのこと、これにも同意します。画像生成は非常に一貫性があります。

そしてこの部分はこういうことです。画像生成では、プロンプトに書いたものについて、ChatGPTはより一貫性があるので、物を頼むと画像に現れます。でも編集については、キャラクターを取って横向きにして別のシーンに置くようなことは、Geminiの方がうまくやります。

なぜならChatGPTは、人の写真を置いて、この人がコーヒーを飲んでいるところを見せてと言うと、別の人になってしまうからです。でもGeminiは維持します。Nano bananaはそれが得意です。そしてまだ納得していない人もたくさんいますよね。

どうしてまだGPTを選ぶ人がいるんだって。私個人的にはGPTはまだ良いモデルだと思います。まだ毎日使っています。基本的にサブスクリプションを期限切れにさせています。サブスクリプションが切れたら、無料版を使い続けます。私にはそれで十分です。

そして私はGeminiの1年間無料プラン、Perplexityの1年間無料プランを持っています。ですから私はそれらのバランスを取っています。今月は特にClaudeも購読しています。ここで別の人がコメントしています。プログラミングにはClaudeだけど、一般的な使用ではde miniが勝つと。

そしてここで別の人がコメントしています。Grokはニュースやより技術的なことに。その通りです。ニュースの部分では、Grokの方が興味深いです。特にTwitterに結びついているからです。それはElon Musk自身のものですよね。ですから人々の意見について何か知りたい場合、Grokは良いです。

私がGrokについてかなり好きなことの一つは、キャラクターとGrokの会話の方が良いと思うことです。音声チャットの話をしていますが、より挑発的なキャラクターがいくつかあって、そこでの音声の自然さも私はより興味深いと思います。でも人それぞれ意見があります。

ここに別の興味深い意見があります。悪いことに、私は全部のAIに苛立ちます。これが真実ですよね。私たちは常に苛立つことになります。Claudeに行っても無駄です。なぜならある時点でClaude自身が失望させるからです。ある時点で全部が何かトラブルを起こします。

なぜなら使い始めて、進めて、進めて、進めて、進めていくと、間違いを出し始めるからです。それで何をするかというと、彼が止まったところから取って、別のモデルに投げて、そこで続けます。そうすれば他のモデルが彼が解決できない問題を解決するからです。

基本的にそういうことです。そしてここにコメントがあります。ChatGPTは遅れていて、制限だらけ、ルールだらけで、多くのコード行を処理しないことは言うまでもありません。そして別の人が同意しています。ChatGPTは本当に衰退している。

私が思うに、人々が気づいているChatGPTの衰退は、部分的には他のモデルが彼に追いついているからです。最初は彼が遥か先を行っていましたが、もう一つの部分は企業がより焦点を当てていて、ChatGPTはよりオープンになっていますが、私はまだ彼は価値のあるモデルだと思います。

別の人がコメントしています。Google AI StudioのGeminiをSEOに、RPGに、画像生成に、RPGのプロンプト作成に、キャラクターシート作成に使っていると。ですから、人それぞれ特定の使い方があるわけです。João Pretoのポイントまで来ました。彼はこう言っています。

現在Grokは他のものよりはるかに優れています。この投票は全く意味がありません。Grok Festは狂っています。人々はどんなパラレルワールドにいるんだ、こんな投票をするなんて。そして笑っている返信があります。興味深いですよね。なぜなら彼が話しているのはGrok全般ではなく、Grok 4 Festのことだからです。

私個人的には常にGrokを使っています。Grokを使うのが好きな理由の一つは、みんなが答えているのとは違う答えが欲しい時です。Grokは変わっているんです。ここでAriel Leviも同じことを言っています。Grokは過小評価されている。

Grokのこの問題、ここの7%というパーセンテージは、Elon Muskが口を閉じていればかなり上がるでしょう。なぜなら彼は多くの論争を生み出し、人々が好まないことをたくさん言って、結局人々が製品をテストしないようにしてしまうからです。

ですから結局、多くの人がGrokを使わないのはElon Muskが嫌いだからであって、Grokが嫌いだからではありません。でも人生の一部です。人々がElon Muskについて批判していることは、彼が表現の自由という、非常に強く支えている柱の一つです。ですから一部です。

でも下にコメントしてください。皆さんは今後数ヶ月でClaudeがChatGPTを抜くと思いますか。そして誰かがGeminiの首位を奪うでしょうか。かなり難しいと思います。Geminiが1位から外れるかどうかわかりません。外れないと思います。Googleは1位を守るでしょうが、2位は数ヶ月でClaudeに行くと思います。

あなたが考えていることをコメントしてください。Grokは皆さんが見ているように、彼を決して手放さない根っからのファンと共に、ここで最下位を続けるはずです。ですから、このようなビデオを見続けたい場合はチャンネルを支援してください。メンバーになってください。

メンバーは知的エージェントの限定動画と先行公開動画にアクセスできます。それでは、いいねを押してください。ありがとうございました。

コメント

タイトルとURLをコピーしました