新型GPT-5.2 Codexは5.1 Maxより優れているのか?両方をテストして分かったこと

GPT-5、5.1、5.2
この記事は約14分で読めます。

OpenAIの最新コーディングモデルであるGPT-5.2 CodexとGPT-5.1 Codex Maxの実践的な比較検証である。VS Code環境で40以上の要件を持つ3D都市ゲームを実装し、両モデルの性能差を詳細に分析している。セマフォ制御、車両運転、ヘリコプター実装など複雑な機能を通じて、長文コンテキスト処理能力の違いが明らかになった。GPT-5.2は初期段階で多くのエラーを出すものの、コンテキストが大きくなるにつれて飛躍的に性能が向上し、要求した機能をほぼ完璧に実装できるようになる特性が確認された。

NOVO GPT 5.2 CODEX é melhor que o 5.1 Max? Testei os Dois e Veja o que Aconteceu
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

2026年、AGI実現の年になるのか

皆さん、明けましておめでとうございます。2026年が始まりましたね。さて、今年は人間レベルの知能を持つAIが登場する年になるのでしょうか。これらのAIをテストすればするほど、私は驚かされ続けています。

正直に言うと、もし今年の半ばに誰かがやって来て「AGIを実現しました」と言っても、私にとってはもう普通のことに感じられるでしょう。それが今後に期待する最低ラインです。いつか、どこかのタイミングで、誰かが現れて人工超知能を私たちに提示する日が来るはずです。

でも、その超知能が到来するまでの間、今日はOpenAIのCodex 5.1と5.2の小さな比較をしてみたいと思います。なぜこの比較をすることになったかというと、私がちょっとしたプログラムを作っていたときに、うっかり5.2をテストするつもりが5.1で作業していることに気づいたからです。

今回は全てVS Codeの中できちんと作業しました。その様子をお見せしますので、一緒に見ていきましょう。

VS Codeでのテスト環境とチャンネルサポートについて

それでは始めましょう。いつも「いいね」を押してくれる皆さん、チャンネル登録してくれる皆さん、本当にありがとうございます。特にこのAIチャンネルをスポンサーしてくれているチャンネルメンバーの皆さんには感謝しています。

メンバーの方々は、インテリジェントエージェントに関する限定動画にアクセスでき、WhatsApp統合、PDF読み込み、MCP、スプレッドシートなどの使い方を学べます。また、動画の先行視聴も可能です。

前回GPT-5.2をCodexでテストしたとき、何人かの方から「Bob、これはVS Codeで使わないとダメだよ。ウェブ版でテストしても何も選択できないし、どのバージョンのCodexが使われているか分からないから」というコメントをいただきました。

それを踏まえて、私は最も複雑なプロンプトの一つである3D都市のプロンプトを使って小さなゲームを作り、そのケースでCodexがどうなるかテストして確認することにしました。

ところが、テストを進めているうちに気づいたのですが、私は5.1 Maxで作業していたんです。そのとき思ったんです。せっかくなら両方を比較して、作業中に気づいた違いについて語る価値があるんじゃないかと。

VS Codeを使ったことがない方のために説明すると、これはプログラミングプラットフォームで、ネイティブのCodexを統合して、プロンプトを実行したりソフトウェア開発プラットフォーム内で直接コードを生成したりできます。

3D都市ゲームのプロンプトと要件

3D都市ゲームに馴染みのない方のために説明すると、これはボクセルアートのゲームで、HTMLを使って超シンプルな3Dゲームを作るものです。

このプロンプトは日に日に大きくなっていて、もう40項目のルールがあります。例えば、シミュレートされた3D都市が必要で、都市を歩く人々がいて、道路を走る車があって、信号があって、プレイヤーが探さなければならないオブジェクトがあって、そのオブジェクトを別の人に届けなければならなくて、車の中に入れなければならないなど、一連の要素がゲームを非常に完成度の高いものにしています。

VS CodeでCodexを使ってこれを行う利点は何でしょうか。VS Code内のCodexでは、モデルを選択できるんです。ほら、見てください。GPT-5.2 Codex、GPT-5.1 Codex Maxといった、プログラミング専用のモデルがあります。

ここでは私のサブスクリプションとリンクさせて使っています。全て順調で完璧です。推論の品質も選択できます。低、中、高、超高から選べます。私の場合、全てエクストラハイモードで行いました。最高中の最高です。

モードについては、チャット、エージェント、完全アクセス権を持つエージェントから選べます。完全アクセス権を持つエージェントの場合、コンピュータに完全にアクセスできることを意味し、あまり安全ではありません。私は通常のエージェントだけを使っています。これならファイルを実行・編集したり、いくつかのコマンドを実行したりできます。

お気づきかもしれませんが、これは普通のチャットで、通常のチャットウィンドウです。ここで会話を始めたい場合、挨拶を送れば、他のチャットと同じように全て問題なく動作します。自動コンテキストを有効にすることもでき、この場合は一つのファイルだけなので、自動コンテキストで問題ありません。

もう一つ重要なのは、このように40項目もある巨大なファイルで作業する場合、エージェントで作業するのがベストだということです。そうすれば、タスクを分割して少しずつ実行してくれます。通常のチャットだと、40項目全てやったふりをして、実際には5、6項目だけやって残りは放置してしまいます。

GPT-5.1での実装結果

全てを完成させるまでにかなり時間がかかりました。多くの修正を行いました。つまり、今回のケースでは、プロンプトを一つ送っただけで完了というわけではありません。私は付きっきりで修正や変更を依頼し、ゲームが最低限動作すると判断できるレベルになるまで調整しました。

先ほど言ったように、GPT-5.2 Codexで作業していると思っていたら、実際にはGPT-5.1 Codexだったんです。では、5.1で何が起こったか見てみましょう。

これが私たちのGPT-5.1による3D都市の生成です。プロジェクトの要件の一つで、この名前でなければなりません。「開始」をクリックすると、面白いことが起こります。

このゲーム、かなり良くなっていますよ。これまでGPT-5.2を使ったチャットバージョンは全て非常に弱く、質が低かったんです。でも今回、VS Code内でCodexを使い、エージェントを使って全てきちんとやったら、1000倍も良くなりました。

見てください、ディテールがあります。キャラクターには腕と脚があって動いています。見えますか。ただ、私のプレイヤーは具体的には小さな四角、立方体です。

お気づきかもしれませんが、ここに黄色いキャラクターがいます。あ、壁を通り抜けてしまいましたね。これは起こるべきではありませんでした。私は通り抜けられませんから。できません。

今、彼のところに行って、そこにあるオブジェクトを取る必要があります。黄色いキャラクターからオブジェクトを取ります。オブジェクトが私の手にあります。そして今度は、向こうにいる青いキャラクターのところに持って行く必要があります。あそこ、あそこ、青いのがいます。配達に持って行きます。青いキャラクターに近づくと配達完了です。素晴らしい。

これでパッケージを受け取っては配達するという作業を繰り返します。これがゲームの流れです。

このバージョンで興味深いことの一つ、そしてこのバージョンでだけこのディテールに気づいて機能させたのですが、この信号機です。見てください、赤です。この車は止まります。止まりました。

確かに道路の真ん中で止まっていますが。そして今度はこっちの車も止まりました。赤です。分かりますか。この赤はこの車用です。今、緑になって、出発しました。

信号機はこの車たちに対して正しく機能しています。ルールに従っています。止まるべきときに止まり、進むべきときに進んでいます。

道路の真ん中で止まっているのは少し変ですが。ゲームの仕組みはパッケージを取って配達することです。ズームもマウスで操作でき、マウス操作も機能しています。完璧です。

これは解決するのが最も難しい問題の一つでした。お気づきかもしれませんが、右上隅にある小さなマップ、あのミニマップはかなり正確です。

マップ上の私の位置は正確で、見てください。私はどこにいますか。角にいて、マップが正確に示しています。そして回転させると、左に回転しました。大丈夫です、ミニマップもきちんと回転しています。

これはCodexで私が抱えていた最悪の問題の一つでした。ミニマップが決して良くならず、関連性がなく、キャラクターを追跡できませんでした。

見てください、あそこに青いキャラクターがいます。左を向くと、マップ上に黄色いキャラクターが見えるはずです。大丈夫ですか。黄色いキャラクター、あそこです。正確です。

これは実現するのが最も難しいディテールの一つでした。この同じプロンプトでは通常、ミニマップに問題は起きないのですが、この特定のケースでは常にミニマップに問題が起きていました。

全体的に見て、このゲームで何が起こっているかというと、他のテストを見た方なら分かると思いますが、ChatGPTは最悪のバージョンを作っていました。でもここでは違います。ここはかなり正確です。

建物があり、都市があります。道路には横断歩道の線があり、品質が非常に良いです。このゲームを問題なく続けられます。

あ、それと、照準器がありますね。撃てます。キャラクター、車、そして射線上にあるもの全てに当てることができます。お構いなしに全てに当たります。これは本当に良くできています。

でも、バージョン5.2はより悪くなったのか、より良くなったのか気になりますよね。ここに昼と夜もあることに気づいてください。明るくなったのに気づきましたか。そしてすぐに暗くなります。

では、バージョン5.2で何が起こったか見てみましょう。

GPT-5.2での実装結果と改善点

バージョン5.2です。オープニング画面が少し良くなりました。ボタンも少し動きます。何をすべきか説明してくれます。Shiftで車に乗る。そして「開始」をクリックします。

大丈夫、始まりました。最初に注目するのは、今回は私のプレイヤー自身に脚と腕があることです。前のものとは少し違います。

キャラクターには特定の帽子があって、ミッションを遂行できることがすぐに分かります。ここは簡単になりましたね。ここで拾って、ここで渡します。そこで続けます。また拾って、また渡します。これは簡単になりましたね。

今度は少し遠くに現れました。夜がきちんと到来しています。信号機はずっと綺麗になっています。かなり面白くなっています。

車がきちんと止まっているかまだ確認していません。見てみましょう、止まるでしょうか。赤です。止まりました。完璧です。そして信号が変わりました。素晴らしい。これを確認するのは初めてです。車は信号を守っています。全て正確です。

さて、車の中に入ります。Fを押して車に乗りました。実は前のケースでは車に乗るのを忘れていましたね。

車の中にいると、普通に運転できます。問題ありません。ただ、時々ポールに引っかかることがあって、ポールにぶつかると動けなくなってしまいます。

でもとにかく、車は機能しています。車の操作性はそれほど良くありません。もう少し良くてもいいと思いますが、普通に機能しています。

マウスで視点を動かせて、キーボードで車を動かせます。Fを押すと車から降りて、通常の生活に戻ります。

ご覧の通り、全て機能しています。撃つこともできます。キャラクターに当てられます。この照準器が気に入りました。かなり面白いです。

右上隅のミニマップもかなり正確です。左には青いキャラクター、右には黄色いキャラクターがいます。この建物の後ろにいるようです。見てみましょう。

黄色いキャラクターはこの建物の後ろにいるはずです。消えてしまいました。どこですか。黄色いキャラクターがいたのに消えました。マップから消えてしまいました。お気づきでしたか。

黄色いキャラクターが消えてしまったので、もう見つけられません。でも青いのは正しいです。青いのは私の左にいて、マップでも左にいるので、正確です。

見てください。青いのが左です。見えました。ここにいます。素晴らしい。美しいです。

いくつか衝突判定を作りました。キャラクターを乗り越えようとすると通り抜けられません。キャラクターと衝突して、全てきちんと機能します。

あ、黄色いのがいない理由が分かりました。私が手にオブジェクトを持っているからです。分かりますか。青いのを探しましょう。あそこです、あそこ。青いのはこの建物の後ろにいます。ほら、あそこです。見えますか。配達できました。黄色いのがまた現れました。

このゲームの品質がとても気に入りました。そして最も重要で興味深いことの一つは、私がずっと話していたことですが、多くの人々が絶賛していました。本当に絶賛していたんです。

長文コンテキスト処理能力の発見

多くの人がコメントで「Bob、この子は長文コンテキストで非常に優れている。長文コンテキストでは断トツで最高だ」と言っていました。そして私が見たベンチマーク全てで、長文コンテキストで優れていると示されていました。

でも、テストするたびに良い体験ができませんでした。なぜ人々が長文コンテキストが良いと言っているのか理解できませんでした。

そして、この謎の答えを見つけたと思います。ゲームを作り始めたとき、非常に多くのエラーが出ていました。たくさんのエラー、たくさんのエラーです。何も正しく機能しませんでした。

例えばHUDの問題や回転の問題など、何をやっても解決できず、全てがうまくいかなくなり、どうしようもありませんでした。

しかし、何に気づいたかというと、ゲームが大きくなり、コードが実装されていき、物事がうまくいき始めるにつれて、単に要求するだけで、要求したことは何でも正しく、問題なく、バグなしでやってくれるようになったんです。

そのとき理解しました。コンテキストが小さいときは、かなり幻覚を起こして多くの問題を引き起こしていたようです。でもコンテキストが大きくなり、何をすべきか理解し始めると、幻覚がなくなり、もう何も間違えず、全てが素晴らしく機能し始めたんです。

そして次の結論に達しました。全てが正確に動作していて、全てが素晴らしいなら、ヘリコプターを追加してみてはどうだろう。この子は今、忍者レベルだから。

そして見てください、何をしてくれたか。ここ、皆さん、この隅を見てください。私たちの愛するヘリコプターです。ここに来て、Fを押すと、ヘリコプターの中にいます。

スペースキーで離陸します。もう完璧です。ヘリコプターを美しく操縦しています。

見てください、なんて美しいんでしょう。惑星の上を飛んでいます。操作は古典的なものです。スペースで上昇、Shiftで下降です。どのゲームでこの操作を学んだか覚えていませんが、こう機能することは知っています。ほぼ標準です。

スペースで上昇、Shiftで下降です。建物の屋上に着陸してみましょう。あそこ、あそこです。見てみましょう。待って、正確な位置にいるか分かりません。Shift。見て、見て、何が起こるか。おっと。

いくつか気づいていなかったことがあります。今のところ壁を通り抜けています。ここでFを押したら何が起こるか分かりません。見てみましょう。3、2、1、F。

いや、降りませんでした。地面に行きましょう。地面に行きます。地面に着きます。やった。

見ましたか、皆さん。2026年、私たちのゲームにはヘリコプターの遊覧飛行、車のドライブがあります。

さて、あと何が必要でしょうか。自転車に乗ることと建物の中に入ることですね。

両バージョンの比較と学んだこと

コメントで教えてください。どちらのバージョンが気に入りましたか。面白いと思ったことの一つは、このマップの美観がより良くなったと感じることです。

実は今、少し迷っています。どちらが良いでしょうか、こちらですか、それともあちらですか。コメントしてください。下にコメントを残してください。どちらが気に入りましたか。

こちらの方が良い部分もあれば、あちらの方が良い部分もあるからです。例えば、こちらは横断歩道のある道路が良いですが、あちらは帽子など、グラフィックスがより面白そうです。

でも学んだ教訓は非常に明確です。このミニマップを素晴らしくするために、プロンプトにかなりの時間を費やしました。

いつも四角から始まり、いつもバグがあります。Geminiとは違います。でも、このマップを正しくするまでAIと会話し続けると心に決めたら、正しくなったとき、修正を依頼する方法が理解できました。

そして、実際には修正自体よりも、依頼の仕方の方がずっと重要だと気づきました。

例えば、AIに非常に明確で客観的に依頼することがあります。「これをして、左に回転、右に回転、90度回転」など。でも時には少し微妙な言い方をすることもあります。

例えば、「キャラクターが左を向いたら、ミニマップは右に回転しなければならない」と。修正をどう依頼するかによって、修正できるかできないかが決まります。

GPTは全般的に、曖昧に説明しても欲しいものを理解するのが非常に得意です。でも、この特定のケースでは、より文字通りに、より直接的に、単刀直入に話せば話すほど、ずっと良い結果が得られることに気づきました。

そのときミニマップを機能させて、非常に良くすることができました。コメントしてください。あなたの意見を聞かせてください。

これからもう少しテストして、もう少し時間を費やした結果言えることは、Codexの5.1モデルは素晴らしく、5.2も素晴らしいということです。コツをつかむまで少し忍耐が必要ですが、コツをつかんだら順調に進みます。

下にコメントしてください。あなたの考えを教えてください。そして、このような動画を見続けるためにチャンネルをサポートしたい方は、メンバーになってください。

メンバーはインテリジェントエージェントの限定動画と先行公開動画にアクセスできます。それでは、「いいね」を押してください。ありがとう。

コメント

タイトルとURLをコピーしました