OpenAIが最新モデルGPT-5.2をリリースしたが、期待値の高さとは裏腹に実際の性能評価は賛否両論となっている。スプレッドシート作成やウェブ検索といった実務タスクでは一定の成果を示す一方、スライド生成の品質やコストパフォーマンスの面では競合他社に劣る部分も見られた。特にGemini 3やClaude 4 Sonnetとの比較において、Design Arenaでは3位に留まるなど、「世界最高のモデル」という謳い文句には疑問符が付く結果となった。高額なAPI利用料金や処理時間の長さといった実用面での課題も浮き彫りになり、GoogleのGeminiが総合的な利便性でリードを広げつつある現状が明らかになった。

GPT-5.2の実力を徹底検証
皆さん、OpenAIがGPT-5.2モデルをリリースしたばかりで、論争が止まりません。結局のところ、このモデルは価値があるのでしょうか、ないのでしょうか。良くなったのでしょうか、それとも悪くなったのでしょうか。私が実施したテストと、GPT-5.2に関していくつか指摘したい点をお見せします。それでは始めましょう。
いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。この人工知能チャンネルをサポートしてくれているチャンネルメンバー全員に特別な感謝を申し上げます。メンバーの方々は、WhatsAppとの統合、MCP、PDF・スプレッドシート・ドキュメントの読み取り方法を教えるインテリジェントエージェントに関する限定動画にアクセスでき、さらに先行公開動画も視聴できることを覚えておいてください。
もしあなたの会社に人工知能を導入したい、AIを使ったカスタマーサービスアシスタントを作りたい、あるいは会社のプロセスに人工知能を組み込みたいなら、Maximiza IAのチームに連絡してください。説明欄にリンクがあります。
さて、今日の動画のテーマはこれです。GPT-5.2。皆さんはどう思いますか。結局のところ、価値があるのでしょうか、ないのでしょうか。Gemini 3の方が良いままなのでしょうか、それとも劣っているのでしょうか。正直に言うと、これは最も作るのが難しい動画の一つになるでしょう。なぜなら、一連のテストを実施した結果、素晴らしかったものもあれば、ひどかったものもあったからです。そして正直に言わなければなりません。約束は大きかったのですが、約束しすぎると失望させる可能性が高まるだけです。
そこで、定番のテストに加えて、いくつか新しいテストも実施しましたので、ここで起こったことをすべて見ていきましょう。まず最初に言わなければならないのは、ここで見ているこれらの画像や動画は、LM Arenaからのもので、LM Arena自身が投稿したものだということです。OpenAIのGPT-5.2 Highがリリースされ、Code Arenaで非常に好調なスタートを切りました。
彼らはここでプロモーション動画を作り、Code Arena内で生成された最高の世代、最高のプログラムを紹介しています。正直なところ、ここで紹介されているこれらの生成物は素晴らしく、本当に良くできています。実際、非常に優れています。問題は、私たちのプログラミングでこの種のコードを生成できるかどうかということです。それはまた別の問題ですよね。
実践的なテスト結果
さて、まず最初に言っておかなければならないのは、私のテストでは基本的にthinkingモデルを使用しましたが、proモデルも何度か使用したということです。thinkingでもproでも、この拡張思考フィールドは有効になっていました。thinkingとproの基本的な違いは、proでは本当に深く考えるということです。推論に膨大な時間を費やします。そして、何をしようとしているかによっては、それだけの価値がない場合もあります。あまり考えない方が価値がある場合もあります。なぜなら、proでは本当に頭をフル回転させるからです。
彼らが示したいくつかの機能、たとえばスプレッドシートの作成に基づいて、私の最初のテストはまさにこのスプレッドシートの機能を確認することでした。私はここでスプレッドシートを生成したことがなかったので、非常にシンプルなプロンプトを作成しました。2025年の中古車の最良の機会を検索してください。そして、大衆車と高級車を分け、さらに新車と中古車を分けたスプレッドシートを作成するよう依頼しました。
そして、モデル、年式、走行距離、価格、広告へのリンクを収集するよう依頼しました。また、車をファミリー・日常使用、仕事、旅行、スポーツカーに分けるよう指示しました。この場合、thinkingを使用しました。15分間考えて、ここに非常にシンプルで簡潔なスプレッドシートを作成してくれました。下部には大衆車で新車、大衆車で中古車、高級車で新車、高級車で中古車のタブがあります。
これは興味深いと思いました。なぜなら、彼らはこれらのモデルが人間のタスクを実行し始めると約束したからです。そしてこれは興味深いタスクでしたよね。車を検索し、リンクを持ってきて、見つけた価格を教えてくれました。
中古の大衆車を見ると、2023年のものをいくつか見つけて、車の走行距離を示しています。たとえば、ここではファミリー・日常使用として、66,690レアルのHB20を見つけました。そしてリンクはサンパウロのOLXにあります。彼は他の多くのことについても同じことをしました。スポーツカーについても、ここではPolo GTSを検討し、2023年式を126,000レアルで見つけました。これもOLXです。
これは非常に興味深いと思いました。タスクを依頼してスプレッドシートに入れるように頼めば、問題なくすべてきちんとやってくれます。私は2回目の拡張プロンプトを作成し、2025年下半期の価格平均を含むバージョンを作成するよう依頼しました。同じことをして、きちんとしたスプレッドシートを生成し、見つけた車のデータを入力して平均を計算しました。平均の計算は少しシンプルでしたが、もう少し複雑にすることもできました。基本的に新車と中古車の価格を取って、70,000レアルの平均を出しました。
つまり、インターネットで情報を検索し、スプレッドシートを作成し、データを生成する必要がある仕事がある場合、彼はそれができます。彼が行う仕事の質はあなたのプロンプト次第ですが、原則として彼は確実に実行します。
次のテストは以前にも何度か行ったことのあるもので、フロリアノポリスからサンパウロへの航空券を検索することです。最良の航空券を見つけ、家から空港まで、空港からホテルまでのUber代を見積もり、いくつかのホテルを見つけなければなりません。ここでは1月の最初の2週間の航空券を依頼しています。オフシーズンの場合、一般的にこれらの航空券は約400レアル、380レアル、非常に安い時で見つかります。
彼は計画を立て始め、データを検索し始めました。1月12日から19日までの日程を提案しましたが、これは最初の15日間の範囲内です。そして428レアル、531レアル前後の航空券を見つけ始めました。これは理にかなっています。
彼が何を見つけたか確認するためにこのリンクにアクセスしたところ、この531レアルの値段は1月の航空券ではありませんでした。531.77レアルは3月の航空券でした。つまり、ここに記載されているすべてが意味をなすわけではないことを明確にしておきます。目的地は正しい場合もありますが、日付が完全に間違っていることがあります。
それでも、彼はここでリンクを見つけて参照を渡してくれました。実際にアクセスしたところ、まだ少し絞り込む必要がありました。リンクがあまり正確ではなく、フロリアノポリスからサンパウロへといった一般的なものだったからです。最終的に自分で検索したところ、彼が提案したよりもさらに安い価格を見つけることができました。特にこの時期は高い時期なので。もう一度クリックするだけで更新され、価格が変わりました。それでも、更新された価格で461レアルとなり、少し安い価格になりました。
同様に、ホテルも見つけることができますし、価格の見積もりもできますが、私の経験では、彼がここで見つけるすべての価格について、実際に自分で手動で検索すると、彼が見つけるよりも良い価格を見つけることができます。彼の検索は少し怠惰で、きちんとした検索ではありませんが、ここまでのUberの部分はすべて正しいです。彼が想定しているUberの料金を見つけます。最後に見積もりを出してくれます。
航空券が約600レアル、ホテルが約100レアル。往復のUber代もすべてきちんと計算されています。そして、この旅行の見積もりは約2,500レアルになります。さらにいくつかのことを説明してくれて、基本的にはそれだけです。場合によっては、やっていることに応じて、ChatGPTにスケジュール調整を依頼することもできます。
もう一つ私がやりたかったことは、彼らのプレゼンテーションでChatGPTがスライドを作成すると言っていたことです。そこで私は考えました。「ああ、それなら私はChatGPTでスライドを作ったことがない」と。私は最近、Notebook LMで生成した動画でプレゼンテーションを作り、素晴らしい出来栄えでした。
今回は何をしたかというと、私の台本を投げ込んで、スライドを作る必要があると言い、「神のご意思のままに」という感じで進めました。これはGPT-5.2 thinkingで実行しました。最終的に彼が私のために生成したプレゼンテーションがこれです。
個人的には、あまり気に入りませんでした。かなり素人っぽい仕上がりで、たとえばNotebook LMよりもずっと劣ったレベルだと思いました。すべて正しいですし、間違いはありませんが、子供が学校用に作ったような非常にシンプルなものです。全体的に、すべてのスライドがこの素人っぽい特徴を持っていました。あまりプロフェッショナルではなく、シンプルすぎて、あまり良くありませんでした。
なぜこのような仕上がりになったのか理解しようとしたところ、たとえばNotebook LMでは、この同じスライドをNotebook LMがnano bananaを使用して画像生成していたはずです。しかしここでは、何かプログラム的な生成を行ったようです。このスライドを生成する小さなプログラムを作ったので、このような見た目になったのです。
したがって、Notebook LMとこのネイティブ生成を比較すると、私はNotebook LMの方を好みます。良い点は、PPTXで生成していることです。つまり、実際にPowerPointのファイル形式で生成しているのに対し、Notebook LMはPDFを生成します。
proを使って同じプレゼンテーションを作ろうとしましたが、残念ながらこれには非常に時間がかかりました。最初の思考に60分かかりました。1時間です。正確に、皆さん、1時間です。その1時間の終わりに到達したとき、彼はすべてを終えたと言い、すべてが準備できたと言い、すべてが素晴らしいと言いましたが、最後になって「ただ一つ教えてください。ロゴを最初のスライドと最後のスライドのどちらに入れたいですか」と尋ねてきました。そこで私は「ロゴは不要です」と答えました。
すると彼は3分かけて「更新ボタンをクリックして『ロゴなしでプレゼンテーションを作成』と書いてください」と言いました。これは本当にひどいと思いました。質問をするのに1時間かけて、その後私が答えた後にクリックするようなことを言うなんて。それで私は「スライドを閉じて、やってください」と言いました。
すると何が起こったでしょうか。表示されませんが、1時間かかった後、何か問題が発生したと言われました。さらに、この問題は2回の試行の後に発生しました。最初は失敗し、ここで繰り返しをクリックし、さらに1時間かかって再び失敗しました。つまり、GPT proを使用したこの失敗した生成には3時間かかったことになります。これは、このような長時間の生成を二度と使いたくなくなるような問題だと思います。
最後にここで「思考が失敗しました」と言われます。それが問題でした。見事な失敗ですが、まあ仕方ありませんね。Matrixサイト生成のテストでは、個人的にこのサイトが気に入りました。少し古めかしい感じがします。背景に文字が降ってくる表示は出ませんでした。今回はそれがありませんでした。
しかし、サイト全体としては非常に美しいサイトで、非常に優れたテンプレートです。一般的に人工知能が作るものよりも改善されたテンプレートですが、非常にスムーズです。大きな目新しさはなく、別世界のようなものは何もありません。よくできたサイトです。リンクはすべて機能しています。ここをクリックすれば機能します。
これは非常に興味深いです。背景の文字が欠けていると感じましたし、この境界線のあるこのタイプのレイアウトは少し古いものに見えます。それほどモダンではありませんが、同時に非常に美しいです。これらの問題があっても、美しい仕上がりです。
SVG生成とゲーム開発テスト
ペリカンのテストは非常に興味深いものでした。実際にここで自転車に乗っているペリカンがいます。くちばしはきちんとしています。足はペダルの上にあります。自転車には車輪があります。きちんと座っていますが、ハンドルを握っていません。より良いバージョンもあれば、より悪いバージョンもあるので、平均的と言えます。太陽があり、風景があり、ペリカンがいて、すべてが非常に美しいです。
このモデルが賢いことがわかりますが、これが私たちが見た中で最高のペリカンだとは言えません。面白いことに、これがまた起こるかどうかわかりませんが、この生成を依頼したとき、線を一本一本描いていき、映画のように描いている様子を見ることができました。
これがまた起こるか見てみましょう。見てください、皆さん。ほら、見えますか。部品ごとに、パーツごとに配置していきます。最終的な生成に到達するまで、SVGを作成し、描いているのを見ることができます。サドルを置いて、ペダルを置き始め、すべてをきちんと配置し、ペリカンを描き始め、翼を前に、目を配置します。
この種の図面はベクター図面だからです。円を作り、ボールを作り、何かを作るように指示しなければなりません。彼が物事を作るよう依頼していくにつれて、配置していきます。これは楽しかったです。彼が芸術を作るのを見て楽しむことができるからです。正直なところ、まったく同じになりました。
なぜこうなったのかわかりませんが、わずかな違いがあります。たとえば、ここでは車輪が線より少し下にありましたが、ここではほぼ上にあります。まあ、そういうことです。
pagoda Gardenでは、きちんとできていて、非常に美しかったのですが、いつものように画面が非常に暗くなったので、見るのが難しくなりました。ここで他のいくつかの生成を試みましたが、それらも暗くなったり、エラーが発生したりしました。
結局、これが私たちが見ているもので、設定を変更すると見づらくなってしまいます。見てください、そこにフォグを置くと良くなりました。今度はフォグの色をグレーに変更しました。
しかしお気づきのように、小屋、パゴダには色がありません。フォグがあるのに色のない部分があるかのようです。しかし、建築、デザイン、その他すべてはきちんとしています。階段があり、すべてがきちんとしています。過去の他の生成に近いものです。そして、これを修正して見えるようにするのに苦労しました。何度もエラーが発生したため、かなり頭を使いました。
お気づきのように、ここでの生成は非常に時間がかかります。そして何よりも、同時に多くの人が試みていたため、さらに困難になりました。
リオデジャネイロの生成もここで奇妙になりました。キリスト像もなく、何もない山の生成になりました。他のいくつかの生成も試みましたが、これと非常に似ていました。ここも暗くなりました。もう一度世界を生成することができます。山に変化を加えますが、見づらいです。回転させて初めて見ることができます。
同様に、何度も生成を試みましたが、新しい生成ごとに似たようなもの、暗くて見づらいものが出てきました。それで諦めました。
私たちのお気に入りの車のゲーム、愛すべき車のゲームでは、thinkingで生成したバージョンは非常に美しかったです。丸い木々を見てください。これは注目に値します。画面の真ん中にこれが残りましたが、正確に何なのかわかりませんが、電車があります。電車です。
そして、電車を見るのは久しぶりでした。3両の車両がある本物の電車のような。ああ、ぶつかって爆発しました。この電車のスタイルは注目に値しますね。今、木にぶつかると爆発しています。人工知能が壁にぶつかっていますが、非常に美しいです。
見てみましょうか。人工知能をぶつけてみましょう。ほら、私たちも爆発しました。衝突を追加し始めると、どんどん難しくなります。そしてこの時点で、人工知能は混乱し始めます。避けられません。
スピードメーターはきちんとしています。速度を速くするためにいくつかの修正を行わなければなりませんでしたが、今のような状態になりました。彼が最終的に行ったことの一つは、左右を逆にすることでした。これには少し手間がかかりましたが、スピードメーター、スコアボード、すべてがきちんとしていて美しいです。
このバージョンはthinkingを使用して作成しましたが、proを使用して生成するとどうなるか考えました。proでの生成では、次のような戦略を取りました。最初のバージョンをproで生成し、修正を行う時点で、proが遅すぎたため、thinkingに戻り、修正はthinkingで行いました。
つまり、この生成を行ったのはproで、私はこの生成が前のものよりもずっと気に入りました。しかし、たとえば左右が逆になっていた車の修正は、ここでも逆になっていましたが、thinkingで行いました。そうしないと遅すぎてできなかったからです。
私は、初期バージョンを作成するためにproを使用し、その後他のモデルで修正していくというこのやり方は、proですべてを一度に行おうとするよりも1000倍価値があると思います。そして電車があります。今回、電車には車両がなく、真ん中の機関車だけですが、ドリフトをしながらここで機能しています。
スコアボードもあり、スピードメーターもあり、コマンドもここにあり、すべてきちんとしています。そして、ここでのゲームプレイは、正直に言うと、前のものよりもずっと良いです。雲があり、車があり、すべてがここできちんとしています。非常に良くできています。このバージョンはテストに合格しました。このバージョンは気に入りました。このバージョンは続けることができると考えています。
しかし、そこで考えました。3D都市のテストを行いましょう。これが2026年のテストになります。そして、私が行っていたすべてのテストで気づいたことの一つは、キャンバス、ホワイトボードでこの生成を行うと、非常に多くのエラー、多くのバグが発生していたということです。コードが長くなっていて、「あふれる、あふれる、収まらない、収まらない」と常に不満を言っていたからです。
3D都市でも同じことをしました。proで生成しました。なぜなら、3D都市は35項目もある非常に複雑なプロンプトで、うまくいかないことがわかっていたからです。何が起こったでしょうか。ホワイトボードを有効にしていました。ホワイトボードが有効になっているのが見えますよね。そしてエラーが発生し始めました。
何をしなければならなかったでしょうか。コードを取って別のウィンドウに投げ込み、別のウィンドウで完成させなければなりませんでした。そうしないと方法がなかったからです。コードが大きすぎる、ホワイトボードがあふれているというエラーが出続けました。
しかし、ゲームが作成されると、私たちの小さなキャラクターと一緒に仮想シミュレーションの中にいます。腕を動かし、足を動かし、ジャンプし、マウスで操作できます。すべてがここできちんとしています。信号機、通行人がいます。少しラグがありますね。少しラグがあります。少し混乱していますが、ゲームは動いています。
スペースを押して車の中に入ることもできます。Vを押すと、今度は車を運転しています。みんな爆発しています。彼らと衝突したら、あるべき姿そのままです。ここのコマンド部分は少し逆になっていて、少し入れ替わっていますが、それでも機能しています。
そしてゲームの目的は黄色い家を取ることです。ほら、取りました。わかりますか、私の頭の上に何かオレンジ色のものがあります。それを青いところに持っていきます。これは機能しています。持っていきました、完了しました。すべてが正常に機能しています。
そして、この生成で気に入ったことの一つは、画面上を歩いているキャラクターがたくさんいることです。たくさんの人が通りを歩いているこの生成は非常に良かったと思いました。これは非常に注目に値します。遠くに照らされた小さな都市を見てください。きちんとしていて、非常に興味深いです。
地図は少し奇妙ですが、機能しています。小さな都市は機能しました。これまでの最高の生成はGeminiで作成され、Claudeで最適化されました。これにはいくつか気に入った要素がありますが、それでもGeminiとClaudeのバージョンの方がずっと興味深いと思います。
このバージョンで遊びたい場合は、リンクが説明欄にあります。そこで「いいね」してください。楽しんでください。このバージョンは楽しいですから。スペースを押せば車の中に入り、Vを押せば外側から見ることができます。遊んで楽しんでください。
ユーザーの反応と評価
しかし、人々は実際にこれについて何をコメントしているのでしょうか。たとえば、このPetro Esquiarroは、私たちがやっていたのとほぼ同じように、いくつかの設定を行う小さなゲームを作りました。そして彼は気に入りました。「私はしばらくGPT-5.2をテストしていますが、複雑な推論、数学、プログラミング、シミュレーションにおいて大きな進歩です。完全な3Dグラフィックエンジンを単一のファイルで作成し、インタラクティブなコントロールと4Kエクスポートを実現しました」と述べています。
どうやら、彼は気に入ったようです。Clad 3815は次のようにコメントしました。「GPT-5.2がリリースされたばかりです。Pokémon CrystalがGPT-5.1には簡単すぎたので、GPT-5.2でハードモードをテストしていますが、これが新しい標準になります。なぜなら、すべてのGPT-5.1のプレイが同じで、非常にレベルの高いポケモン1匹で簡単に勝てたからです」。
彼は何について話しているのでしょうか。彼らはここでGPT-5.1を導入し、今度はGPT-5.2でPokémon Crystalをプレイさせていて、非常にうまくプレイしていると言っているのです。この種のポケモンテストは非常に良いものです。実行しやすく、ターン制のゲームで、マップのナビゲーション部分はかなり簡単なので、LLMにプレイさせるのが非常に簡単です。
彼女はここで推論を持っていて、画面に基づいて取るべき行動を持っています。どうやら、このレベルの人工知能にとって、ポケモンをプレイすることは最高で簡単なようです。お気づきのように、ここでは22時間のストリーミングが行われています。これはかなり長い間プレイしていて、これらのオンラインゲームは非常に興味深いものです。
同時に、Design Arenaの人々がコメントしています。「最高のものであるGPT-5.2 Extra Highは、Claude 4.5 Sonnetを上回らず、Gemini 3 Provilleも上回らず、ここで3位になりました」。つまり、OpenAIが世界最高のモデルで、すべての上にいると言ったこととは反対に、実際にはDesign Arenaでは3位になったのです。
そして、あなたが見たものの結果から、実際にはそれほど注目に値するものではありません。良いモデルであることがわかりますが、世界最高というわけではありません。
Twitterでの別のコメントは次のようなものでした。「5.2はあなたを憎んでいるのではなく、単にあなたの存在を関連性があるものとして認識していないだけです」。そして彼はコメントします。「カスタマーサービスに感情的な空虚さがあり、無視されることを好む人々には優れています」。
つまり、彼は何について話しているのでしょうか。GPTのパーソナリティについて話しています。少し冷たく、もはや人とつながっていないと言っているのです。あなたもこれを感じたかどうか、下にコメントしてください。
もう一つ非常に注目を集めたことは、多くの人が狂ったように不満を言ったのは、APIで使用する場合のGPT-5.2 proのこの価格です。プログラマーで開発を行っている人にとって、入力に1ドルかかりますが、出力では100万トークンあたり168ドルかかります。
これは非常に高い価格です。なぜなら、私たちが支払うことに慣れている価格はこれだからです。入力1.75ドル、出力14ドル、これはすでに高い価格です。これは入力1.25ドル、出力10ドルで、妥当な価格です。しかし、入力21ドル、出力168ドルは非常に高い価格です。
これは、GPT-5.2 proがおそらく現実世界の実際のモデルとして使用されることはないかもしれないことを意味します。非常に高価だからです。これについてどう思うか、コメントしてください。
総合評価と今後の展望
それで、あなたはどう思いますか。これが結果になると想像していましたか。多くの人がGPT-5.2に失望したと思います。約束しすぎていました。GPT-5.2のリリースはGPT-5.1に非常に近く、GPT-5.1はすでに多くの人が大きな違いに気づかなかったモデルでした。
今回のものは、非常に賢いと言えますが、少しわがままです。うまくいくものもあれば、あまりうまくいかないものもあるからです。そして、Gemini 3のシステムを見ると、Gemini 3ではすべてが完璧に機能しています。
したがって、最終的に支払う価格を見ると、GPT-5.2で苦労するよりもGeminiに行く方が価値があります。GPT-5.2はあなたがやってほしいことをするかもしれないし、しないかもしれません。たとえば、スライド生成では、議論の余地はありませんよね。Notebook LMが圧倒的です。
したがって、最終的に年末の今、ChatGPTは2位を争うというよりも、3位を争っている状況です。どうやら今、戦いはGeminiとClaudeです。そして、何が起こるかわかりませんが、すべては今後Googleがこのリーダーシップを引き継ぎ、すべての人を追い抜くことを示しています。
第一に、彼女のアシスタントはGoogle検索と混在しており、電子メールと混在しており、たくさんの無料ツール、たくさんの無料のものがあります。したがって、最初はChatGPTが大きな差別化要因でした。テキストを生成し、画像を生成し、たくさんのことをしたからです。しかし今日、実際にこの役割を果たしているのはGoogleです。Googleがたくさんのことができるようになっており、みんなが同じようにしようとしています。
下にコメントしてください。あなたが何を考えているか知りたいです。そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントに関する限定動画と先行公開動画にアクセスできます。それでは、いいねをお願いします。ありがとうございました。


コメント