GPT-5.2 Codexが凄すぎる件(私のワークフローを公開)

OpenAIのGPT-5.2 Codexを実際に使用した開発者が、その圧倒的な性能と具体的な活用方法を解説する動画である。ARC AGI 2ベンチマークで人間のベースラインを15%上回るという驚異的な結果を示したGPT-5.2は、LLMが苦手とされていた課題を克服し、AGI的な瞬間を実感させるものとなっている。動画では、Codexの最適な設定方法、効果的なシステムプロンプトの構築法、そして製品開発における「バイブコーディング」の実践的なワークフローが詳細に語られる。開発者は48時間以内にアイデアから動作するプロトタイプまでを完成させた実例を示しながら、ユーザーエクスペリエンスを最優先した製品設計の重要性、複雑性を吸収することの価値、そして時間というモートの本質について語っている。

GPT-5.2 Codex is Insane (Here is My Workflow)

GPT-5.2 Codex is Insane | Here is My Workflow me on X: ...

GPT-5.2 Codexの衝撃的な性能
ARC AGI 2での歴史的ブレークスルー
バイブコーディングの現在地
Codexの最適設定と自律性
推奨される設定
システムプロンプトの重要性
実例:48時間でのプロトタイプ開発
最高のシステムプロンプトの構築方法
価値ある製品の原則
Amazonに学ぶ複雑性の吸収
インターフェースのシンプルさの重要性
GPT-5.2の長コンテキスト一貫性
実践的なワークフロー
バイブコーディングの実践
まとめ

GPT-5.2 Codexの衝撃的な性能

皆さんこんにちは、ニールです。チャンネルへようこそ。私はGPT-5.2 Codexがリリースされてからずっと使い続けているんですが、このモデルは本当に驚異的です。これまで使ってきた中で断トツに優れたソフトウェアエンジニアリングAIエージェントですね。私にとってはまさにAGI的な瞬間だと言えます。そして、Codex内で私が使っている設定をお見せしますが、これによって大幅に性能が向上するんです。

最初にこのモデルを使い始めた頃は良かったんですが、OpenAIがCodexにアップデートを加えたことで、さらに格段に良くなりました。どのように設定しているか、これからお見せしていきます。

ARC AGI 2での歴史的ブレークスルー

まず最初にお見せしたいのは、このグラフ、ARC AGIのチャートです。これはARC AGI 2の公開評価版なんですが、ここで見ていただきたいのは、一番上にあるこの円がGPT-5.2で、超高推論モードに設定され、Poeticという会社が設計したハーネスを使用したものです。これは本当に大きな出来事なんです。多くの人がこの意味を本当には理解していないと思います。

もしご存知ないなら説明しますが、ARC AGIはコミュニティ内で非常に高く評価されている研究者たちによって作られた組織なんです。フランソワ、グレッグ・カマック、他にも何人かいますが、グレッグの名前の発音を間違えているかもしれません。すみません、グレッグ。でも、フランソワが最も有名ですね。

彼らが行ったことは、このベンチマークを明示的にLLMにとって困難になるように設計したということです。彼らはLLMがARC AGI 2で進歩することを期待していませんでした。たとえ進歩したとしてもごくわずかだと。それが目標だったんです。それがフランソワが最初に述べたことでした。

そして今、ここにいるわけです。GPT-5.2を超高推論モードに設定し、少し異なるハーネスを使っただけで、人間のベースラインより15%高いスコアを出しているんです。これは巨大な成果です。特にこれがAIシステムにとって困難になるように設計されたものであることを考えると。AIシステムはこれができるはずではなかったんです。驚くべきことです。

バイブコーディングの現在地

次に、これが今私たちがいる場所です。これがバイブコーディングのプロセスなんです。

私のコメント欄には「なんてことだ、AIはコーディングなんて全然得意じゃない。なぜあなたがAIはコーディングが得意だと言い続けるのか理解できない。ソフトウェアエンジニアリングを解決するわけがない。これらのものは最悪だ」と言う人たちがいます。

正直なところ、これが私がそういう人たちが実際にコーディングしている様子を想像する姿です。[笑い]

実際、最近の人々がコーディングする方法というのは、基本的に初期条件を適切に設定するということなんです。もしかしたら、初期条件を適切に設定する方法を知らないのかもしれません。それができなくて苦労しているのかもしれません。もしあなたがそうなら、このビデオでその修正方法をお見せします。

基本的にやることは、初期条件を適切に設定して、それがレールから外れないようにするだけです。本当にそれだけなんです。それがソフトウェアエンジニアリングがすでになりつつあるものなんです。もしそうじゃないと言うなら、あなたは何をすべきか分かっていないだけです。やり方を知らないだけなんです。本当にそれくらいシンプルです。初期条件を適切に設定して、レールに乗せ続け、それを続けていく。それだけなんです。

Codexの最適設定と自律性

さて、素晴らしいのは、このビデオでお見せする設定によって、より自律的になるということです。ユーザーの入力が少なくて済み、これらのモデルを前進させ続けるために絶えず微調整する必要がなくなるんです。それが、最初のコーディング環境でのGPT-5.2について人々が本当に不満を言っていたことの一つでした。多くのことをさせるためには、かなり微調整する必要があったんです。

GPT-5.2 Codexでは、そんなことは全く必要ありません。これは私の意見では、Claude Opus 4.5よりも断然優れています。私は両方のモデルを並行して使ってきました。ここにはClaude Codeがあります。ここには、えーと、Gemini、すみません、GPT-5.2 Codexがあります。そしてこれは別のプロジェクトで、一つのプロジェクトです。Claude Codeがあり、そしてGPT-5.2 Codexがあります。

つまり、私は二つの別々の製品でこれらのモデルを並行してテストし、自分のワークフローのどこで使えるかを実際に見てきたんです。そして気づいたのは、Codexは素晴らしいエンジニアだということです。これは、物事を構成要素に分解し、システム全体を見て、実際に合理的な決定を下すことができる最初のモデルの一つなんです。

完全に無能というわけではないんです。Claude Codeはまだやや無能なところがあります。まだミスをしますが、より人間の直感のようなものに優れていると言えます。自然言語が得意です。ユーザーインターフェースの設計などに優れています。でも、馬力が欲しいならCodexを使います。

デザイナーが欲しいなら、Gemini 3 ProかClaude Codeを使うわけです。でも私は馬力が好きなんです。なぜなら、ユーザーのために多くの複雑性を吸収したいからです。ユーザーにとっての入力と出力の差をできるだけ大きくしたいんです。ユーザーのために、すべての犠牲、すべての痛みと苦しみを吸収して、彼らの生活をより良くする最高の製品を提供したいんです。だから私はCodexを使うのが好きなんです。そういったタイプのことを行うのが得意だからです。

推奨される設定

設定についてですが、スラッシュを入力してapprovals、スラッシュapprovals、それをagent full accessに設定してください。バイブコーディングを頻繁に行う人は、おそらくすでにそう設定しているでしょう。もしまだなら、お勧めします。ユーザーの裁量で判断してください。要するにそういうことです。スラッシュapprovals、それからスラッシュexperimentalと入力して、background terminalがonになっていることを確認してください。

これで、バイブコーディングを始められます。でも正直なところ、バイブコーディングを始める前に、素晴らしいシステムプロンプトが必要なんです。

システムプロンプトの重要性

私のシステムプロンプトを見てみると、かなり大きいです。でもそこまで大きすぎるわけではありません。コンテキストを無駄にするのは好きじゃないんです。システムプロンプトでできることの一つは、もしこれが1,500トークンや1,500行だったとしたら、これは間違いなく1,500トークン以上ですけど、[笑い] もしこれが1,500行くらいだったら、モデルのコンテキストウィンドウの多くを消費し始めることになります。

それは避けたいんです。モデルがこれを見て、参照し、コードベースのどこにいるかのマップとして使えるようにしたいんです。それがシステムプロンプトでやりたいことなんです。

システムプロンプトを正しく作成すれば、モデルは決して迷子になりません。視野狭窄にもなりません。常に自分がどこにいて、次に何があるかを正確に把握しています。すべてがどのように関連しているかを常に知っています。これらすべてのことを知っているんです。なぜなら、マップを参照できるからです。だからこれを作るんです。やりたいことは、可能な限り最高のマップを作成することです。

それが、バイブコーディングのプロセス全体を自動化する方法なんです。可能な限り最高のマップを構築するということです。では、私がこれをどのように行っているかお見せします。

実例:48時間でのプロトタイプ開発

この製品について言えば、これをまだお見せしたかどうか分かりませんが、これが製品です。かなり曖昧にしておきますが、これは私が文字通り、昨夜か一昨夜、約48時間前にビジョンとして思いついた製品です。

私が取り組んでいる市場と解決しようとしている問題は、何年も、本当に何年も考えてきたものです。この製品自体は48時間前に考えたものです。GPT-5.2 Codexを使って、48時間未満前のアイデアから、実際にかなり良い動作するプロトタイプまで進んだんです。

そして私は「なんてこった、これは本当にうまくいきそうだ」と思いました。48時間未満でです。しかもその時間の多くは、私はジムにいたり、他のことをしていたりしました。それでもまだ、アイデアからここまで、それだけ早く進むことができたんです。これは本当に狂気じみています。

繰り返しになりますが、アイデアから実行までの時間がリアルタイムで崩壊しているんです。本当にアイデアについてなんです。

これは私が取り組んでいる別の製品です。Codexはこれにおいて素晴らしい仕事をしています。本当に大幅に改善しています。基本的にはシンプルな3Dモデリング製品です。本当に、本当に良くなっています。

最高のシステムプロンプトの構築方法

では、どのようにして最高のシステムプロンプトを構築するのか。それが本当に話したいことです。そして、それは本当にビジョンとユーザーエクスペリエンスを磨き上げることに尽きるんです。

もしあなたがすでに取り組んでいる市場があり、すでに問題が解決されている、あるいは解決されていない。もしあなたが、本当に疲れているんです。ここは夜の8時、いや9時くらいです。私の就寝時間みたいなものです。すみません。

でも、もし市場を特定していて、どんな問題を解決しようとしているか分かっているなら、すべてはユーザーエクスペリエンスについてなんです。そして今、構築しようとしているものの第一原理は、ユーザーエクスペリエンスなんです。そして、その後に使用する技術を決定したいわけです。

もし製品のビジョンを理解していて、望むユーザーエクスペリエンスを理解していて、市場でどんな問題を解決しようとしているかを理解しているなら、それがあなたに必要なすべてです。

価値ある製品の原則

そのビジョンを持ったら、やろうとしていることは、繰り返しになりますが、システムの入力と出力の差を最適化することです。ユーザーに最小限の努力と犠牲で、製品から最大限の報酬を得てもらいたいんです。それが価値ある製品を作るものです。

もし彼らが投入するよりも多くを得られるなら、それは本当に良いことです。[笑い] そして彼らはそれを使い続けるでしょう。なぜなら、それが彼らの生活を改善するからです。

だから、もしそれができるなら、本当に重要になるのは、ユーザーエクスペリエンスとインターフェース、そしてバックエンドで吸収している複雑性です。それだけです。

三つの異なるタイプのモートがあります。複雑性モート、コストモート、そして時間モートです。ソフトウェアの世界におけるコストモートは消えつつあります。これらのAIエージェントを見てみると、かなり安価で、かなり有能です。来年には、もっと有能になり、おそらく同じくらいの価格になるでしょう。

複雑性は、彼らによってどんどん吸収されています。でも興味深いのは、時間モートは違うということです。あるいは、ある意味ではそうなんですが、開発者として、隣の人よりも多くの時間を費やして、隣の人よりも多くの複雑性を吸収するものを構築することができます。だから、どれだけの複雑性を時間の関数として吸収できるか、ということなんです。

そしてその上に、文字通り置き換え不可能な別の時間モートがあります。それは心理学とブランディングの時間モートです。

Amazonに学ぶ複雑性の吸収

例えばAmazonを見てみると、Amazonは複雑性モートにおいて素晴らしい仕事をしています。彼らはフルスタックのソフトウェア、ハードウェア、ロボット、すべてを持っています。ウェブサイトに行って、製品をクリックして、ボタンを一つクリックすれば、1〜2日でドアに届きます。狂気じみています。ユーザーのために吸収される膨大な複雑性です。

彼らはまた、ユーザーのために膨大なコストを吸収しています。また、このようなものを構築するための膨大な時間もあります。また、AmazonをAmazonたらしめているブランドの評判に投資されている膨大な時間もあります。

それが、ほとんどの人が理解していない最大のものの一つです。Amazonが初期の頃、そしてとても長い間利益が出ていなかったという話を聞いたことがあるかもしれません。

繰り返しになりますが、時間が最後のモートであるため、時間を強調します。彼らは非常に長い間利益が出ていませんでした。なぜなら、そのお金と時間をユーザーのためにより多くの複雑性を吸収することに再投資していたからです。だから彼らのビジネスは非常に良いんです。だから彼らの会社は地球上で最も価値のあるものの一つなんです。

ジェフ・ベゾスの良い引用の一つは、短期的には市場は賭博機械である。長期的には、市場は計量機械であり、あなたがやろうとしていることは最も重い会社を構築することだ、というものです。ジェフはこれが本当に得意です。Amazonを見てみると、本当に重いですよね。それがあなたがやろうとしていることなんです。

だから、もし市場があり、問題があるなら、今、あなたは重いものを構築する必要があります。つまり、他の誰よりも多くの複雑性を吸収することに時間を投資し、ブランドを構築することに時間を投資するということです。そして、それがソフトウェアで持てるほぼすべてなんです。

ソフトウェアでコストモートを持つのは難しいです。コストモートを持ち始めたいなら、ハードウェア、原子の世界に入る必要があります。だから、これが構築しようとしているものについて考えるべき方法なんです。

インターフェースのシンプルさの重要性

そこから、すべては最小限のユーザー入力を最大化することです。還元不可能なシンプルなインターフェースが欲しいんです。ChatGPTがなぜそんなにうまく機能するのか。なぜなら、それは一つのもの、テキストボックスだからです。ただのテキストボックスです。それだけなんです。何も見る必要はありません。何もいじる必要はありません。ただのテキスト。

超還元不可能なインターフェースは、ユーザーの認知負荷を減らします。最終的な出力を最大化します。地球上で最高の製品です。今、モデルが改善されるにつれてユーザーエクスペリエンスはさらに良くなるでしょう。なぜなら、バックエンドでどんどん多くの複雑性を吸収し始めるからです。そして、非常に非常に少ない入力を行い、膨大な出力、膨大な出力を得るんです。それがすべてなんです。

本当にそれがすべてなんです。そして今、GPT-5.2のようなモデル、それもあります。このモデルは、長いコンテキストの一貫性のために、実際にこのような複雑なシステムを構築することを可能にする最初のモデルの一つです。

GPT-5.2の長コンテキスト一貫性

GPT-5.2の長いコンテキストの一貫性を見てみると、実際に狂気じみています。今日、これに匹敵するモデルは他にありません。長いコンテキストの一貫性は、他のどのモデルよりも1000倍優れています。

だからこそ、インターフェースでチャットで話しかけると、3ヶ月前に話したことを持ち出し、あなたが完全に忘れていたことを、完璧なタイミングで持ち出して、それを組み合わせて実際にクールな洞察や考えを作り出す応答が得られるんです。

実践的なワークフロー

これらのことを理解したら、それは多くの言葉だったので、うまくいけばビデオをクリックして閉じなかったことを願います。ほとんどの人は、ほとんどの人はこの時点でTikTokをスクロールしに行きます。もしそうせずに、これらの概念を実際に理解したなら、あなたはほとんどの人よりも良い結果を出すことになるでしょう。

これらすべてのことを脳に叩き込み、解決しようとしている問題は何か、製品はどのように見えるべきか、どのように感じるべきかを理解したら、技術スタックを決定することができます。

ChatGPTでアイデアを練り、アイデアを固めます。基本的に、ChatGPTとの長い会話を見てみると、文字通りそれはただ私がChatGPTと行ったり来たりして話し、アイデアを固め、ビジョンを極めて明確にし、そして、オーケー、私が使える、組み合わせることができる、人々がすでに行った現在の技術の限界は何か、これを実際に実現するために、という感じでした。

そしてDeep Researchに行って、人々がすでに行った技術の限界を研究させ、それらのイノベーションを組み合わせるだけです。そして、それが本当に最近の時代に最初の価値ある製品を市場に出すために必要なすべてなんです。

そしてそこから、すべてが超クリスタルクリアで、すべての異なることを経て、すべての石をひっくり返した、この非常に長い会話ができたら、システムプロンプトを出力します。それがここにあります。

ChatGPTにシステムプロンプトを作らせます。そして、もし望むなら、Claude Codeに入れて、Geminiに入れて、彼らに批評させて、「ここは変えるべきだと思う」と言わせることができます。そしてそれをChatGPTに戻すと、ChatGPTは「はい、これは良い、はい、これは良い、いや、それは悪い、私たちはそうすべきではない」と言い、それからシステムプロンプトの最終形を出力します。それをクラウドに入れ、agents MDに入れます。それだけです。そして、お見せしたように設定をセットアップすれば、もう準備完了です。

バイブコーディングの実践

そして今、あなたはこの男になります。これらすべてのことを理解したら、あなたはただこの男なんです。他に何もする必要はありません。本当に、座ってベビーシッターをする必要はないんです。確かに、レールに乗せる間に、もし外れたら、ああ、大したことじゃありません。レールに乗せ続けてください。見ていてください。それは自分で仕事をします。本当に良い仕事をするでしょう。

そしてあなたはただレールに乗せ続け、このものがあなたのソフトウェア全体を構築している間、完全にギャングスターのような気分になるでしょう。そして、あなたはただ自分の趣味とデザインをユーザーインターフェースに入れ、レールに乗っていることを確認し、入力が必要だと思うところに入力を入れるだけです。

でもほとんどの場合、ここからは反復のプロセスになるだけです。主要な足場を正しく作り、主要なアーキテクチャを正しく作れば、あとはちょっとした微調整みたいなものです。そして本当にそれは、体験のその部分をどのように感じてもらいたいかを伝え、行ったり来たり、行ったり来たり、反復し、微調整して、正確に望むものを得るまで続けることになります。

そして本当にそれだけシンプルなんです。

まとめ

さて、ええ、それが私たちがいる場所です。ちょっとクレイジーですが、とはいえ、ここでビデオを終わりにします。うまくいけば、これが洞察に満ちていたり価値があったりしたことを願います。

「ニール、実際にCodexを使うプロセスを見せて、バイブコーディングのプロセスをどのように行うか見せてほしい」と言う人たちを見てきました。でも、私はそれが価値があるとは思いません。それはあなたの時間に値するとは思わないんです。なぜなら、私の意見では、それを理解するのに5分くらいかかると思うからです。もしかしたら私が間違っているかもしれません。

でも本当に、学び方を理解していて、考え方を理解していて、ChatGPTの使い方を理解していれば、15分くらいでこれの使い方を理解できるはずです。

もしかしたら間違っているかもしれません。48時間かもしれません。でもこれらのツールで、どんなスキルを学ぶにも48時間かかるというのが私の賭けです。どんなスキルでもというわけではありません。明らかに、48時間で核物理学をやることはできませんが、これをやるには48時間かかります。それくらいです。

とはいえ、次回お会いしましょう。