OpenAIが新たにリリースしたGPT-5.2 Codexは、プログラミングに特化したモデルであり、特にセキュリティ脆弱性の検出において顕著な進化を遂げている。このモデルは88%の確率でセキュリティの欠陥を発見できる能力を持ち、Reactのサーバーコンポーネントにおける既知の脆弱性を検出する過程で、未知の脆弱性まで発見する手法が開発された。一方、長時間にわたる複雑なタスクにおいては、Claude Opusが最大5時間のタスクで50%の成功率を達成し、GPT-5.1 Code Maxの3時間を上回る性能を示している。しかし、80%の成功率を求める場合、タスク時間は30分程度に短縮され、この領域ではGPT-5.1 Codexが優位に立つ。AI技術の進化により、2022年には10秒だったタスク処理時間が2025年末には約32分まで延長されており、7ヶ月ごとにタスク処理能力が倍増する傾向が観察されている。ただし、タスクが長時間化するほどハルシネーション(幻覚)が累積的に発生するリスクが高まり、人間の性能と比較すると、テキスト理解や言語理解では既に人間を超えているものの、長時間タスクでは依然として人間が優位である。

GPT-5.2 Codexの登場とセキュリティの強化
皆さん、GPT-5.2 Codexがリリースされました。このモデルにはセキュリティに関するいくつかの新機能があり、チェックする価値があります。そして、Cloudについても話をしていきます。このモデルは長時間コンテキストタスクのチャンピオンであり、これらのAIが実際に持っている長時間コンテキストを処理する能力について少し議論していきましょう。では、始めましょう。
それでは皆さん、いつもライクを残してくれた皆さん全員に感謝しています。そして、この人工知能チャンネルをスポンサーしてくれているチャンネルメンバーの皆さん全員に特別な感謝を送ります。いつもお伝えしているように、メンバーの方々は、WhatsApp統合、MCP、PDFや表計算の読み取りなど、私たちが最も好きなすべてのことを教える、インテリジェントエージェントに関する限定動画にアクセスできます。また、先行公開動画にもアクセスできます。
そして、2026年にあなたの会社に人工知能を導入しようと考えている場合、カスタマーサービスアシスタントを設置したり、人工知能を使用した社内改善を行いたいけれども、どこから始めればいいかわからない、あの複雑なツールの山を使い方を学ぶつもりはない、という方は、Maximiza IAの人たちがお手伝いして、このプロジェクトを開発してくれます。
リンクは説明欄にありますので、彼らに連絡してみてください。そうすれば、あなたの会社は2026年を人工知能の世界でスタートできるかもしれません。さて、皆さん、今日の動画はこちらです。GPT-5.2 Codexです。このモデルがローンチされました。これはプログラミング用のモデルです。
彼らはここでこう説明しています。GPT-5.2 Codexは、GPT-5.2のバージョンで、Codexを使用したエージェント的プログラミングにさらに最適化されており、コンテキスト圧縮のおかげで長期的なタスク、つまり長時間にわたるタスクの改善があり、リファクタリングやマイグレーションなどの大規模なコード変更でより強力なパフォーマンスを発揮します。Windows環境でのパフォーマンスが向上し、著しく強力なサイバーセキュリティ能力を持っています。
つまり、彼らがこのモデルについて特に言っていることは、セキュリティの部分で専門性を持っているということです。これは多くの人が心配していることです。なぜなら、今やバイブコーディングで人々はコードを作ってもらうように依頼しており、セキュリティの問題や、露出してしまうデータの機密性に関する問題があり、それらの詳細に注意を払う必要があるからです。
プログラミングのベンチマークを見ると、基本的に5.2 Codexはここで他のモデルより少し優れています。はるかに優れているとは言えませんが、優れています。そして、5.1 Codex Maxよりも優れており、同じ指標に従っています。基本的に6%優れています。20%、30%優れているというような途方もないものではありませんが、優れています。
この例では、彼らはモックアップを使用しています。ここに図面全体があります。これは単なるプロトタイプです。モデルに作ってほしいものを手で描くだけです。そして右側には、ここで生成されたものがあります。実際に動いています。ここでテストすることもできますし、ソフトウェアやボタンをクリックすることもできます。これは実際に機能しています。
ここで何が起こっているかを正確に見ることができます。彼らはここでセキュリティの問題について説明しており、このグラフを提示しています。モデルはセキュリティの欠陥を見つけるように挑戦され、ここで5.2 Codexの進化を示しています。88%の確率でセキュリティの欠陥を見つけています。
ですから、本番環境でコードを使っている方は、GPT-5.2 Codexと話をして、何か問題があるかどうか、コードが良好かどうかを尋ねる価値があるかもしれません。さて、結局のところ、このセキュリティの進化をもたらしたこの出来事で何が起こったのでしょうか。12月11日、Reactのチームがここで、React Server Componentsに関連する3つの脆弱性があることを発表しました。
つまり、理解してください。Reactの人たちは「ここに欠陥があります。私たちはそれが存在することを知っています」と言いました。そして、Privのセキュリティエンジニアであるこの方、Andrew McFersonが、この欠陥を再現し、人工知能に検出させようとしました。そして彼はテストを始めましたが、どうしても欠陥を検出できませんでした。
彼はプロンプトエンジニアリングを行いましたが、うまくいきませんでした。そして最終的に彼は欠陥検出システムを作成し、ついに欠陥を検出することに成功しました。そして何が起こったかというと、わずか1週間で、このプロセスは未知の脆弱性の発見につながりました。皆さんが理解したかどうかわかりませんが、彼は欠陥を再現したかったのですが、意図せずに欠陥を見つける方法を発見してしまったのです。
そして、そのためにOpenAIは現在、Codexを通じてこの方法を提供しています。私はCodex自体でいくつかのテストを行いましたが、コード生成の点、カーゲームなど、皆さんが慣れ親しんでいるものに関しては、基本的に5.2と同じ品質を維持しています。大きな驚きは見られませんでした。
ですから、この5.2 Codexを使用する際に私が本当にお勧めするのは、セキュリティの欠陥チェックを行うことです。コードをここに投げるか、彼らのプラットフォームを通じて通常のCodexに投げるか、ターミナルで、またはここのVS CodeのIDE、VS Code、Cursor、Windsurfでテストを行い、あなたのコードでテストしてください。
何か見つけたら下のコメント欄で教えてください。そしてもう一つのニュースは、長期的なタスクの問題についてで、Claudeが非常に良い成績を収めているということです。さて、ここには多くの人が心配している興味深いポイントがあります。あのベンチマークの結果を見ると、人工知能は超知的で、銀河間ロケットを作ることができ、AIMで90数パーセント、時には100%という途方もない得点があります。
しかし、実際には何が起こるでしょうか。家に帰って、カーゲームを作ってもらうと、問題だらけの壊れたゲームができあがります。そして、あなたは考えます。実際には、これらのAIはまだあまり良いレベルではないと。喜びと幻想の世界、2026年に到達するはずだったものは到達しませんでした。おそらく2027年にも到達しないでしょうし、いつ到達するかわかりませんが、少なくともここにいくつかの重要な手がかりがあります。
長時間タスクにおけるClaudeの優位性
例えば、このClaudeのモデルは、最大5時間のタスクを50%の成功率で達成しています。しかし、これは何を意味するのでしょうか。5時間作業して50%の成功を収めたということです。なぜこれが良いのでしょうか。なぜなら、この50%の成功率という同じスケールで、ここのGPT-5.1 Code Maxは、最大で3時間でした。そして、皆さんは次のことを理解しなければなりません。AIがハルシネーション(幻覚)を起こす場合、作業時間が長くなればなるほど、以前にハルシネーションした上にさらにハルシネーションを生成することになります。
わかりますか。もし間違って始めて、作り上げたものの上に何かを作ると、2倍の幻覚を作り出し、というように続きます。10個のタスクで、10倍のハルシネーションを起こします。しかし、ここで80%の成功率を見ると、どうなるでしょうか。あの何時間もの作業から30分に減少します。
そして、この時点でCodex 5.1がリードし、Claude Opusが75%で2位、Code Maxが72%で続きます。つまり、結局のところ、今起こっているのは、モデルがより複雑で長時間のコンテキストの問題を解決する能力が年月とともにどれだけ増加し、改善しているか、そしてそれらが持つ成功率の評価を行っているということです。
ですから、基本的な考え方は、これらの短いコンテキストから抜け出すことです。そして、ここで気づくことができるように、2022年の期間は10秒でした。2023年の期間は1分でした。2024年は最大で3分でした。しかし、ここを見てください。2025年、年の初めには、タスクは6分かかっていましたが、今では年末に近づき、約32分に達しています。
これは非常に興味深いですね。成功は増加しており、ここで改善の上昇傾向を示しています。そして、ここで示されているタスクでは、より短いタスクは、機械学習を使用した分類器のトレーニングです。約1時間ちょっとかかるもう一つの短いタスクのタイプは、Pythonライブラリのバグ修正です。
約2時間のタスクのもう一つの例は、このプロジェクトのバッファオーバーフローの悪用です。しかし、ここで4時間のタスクとは何でしょうか。敵対的攻撃に対して堅牢な画像モデルのトレーニングです。興味深いことに気づきましたか。彼らは自動化された画像モデルの生成テストを行っています。
これは非常に興味深いことです。そして、彼らがコメントしているのは、ここでタスクを実行する能力が7ヶ月ごとに倍増しているということです。つまり、この傾向が続く場合、7ヶ月後にはこの能力、このスキルがおそらく倍増するはずだということです。そして、彼らがコメントしているもう一つの評価は、人間のパフォーマンスと比較したAIの能力についてです。ここで、人間のパフォーマンスをゼロとして基準にすると、テキスト理解などは既に人間よりも進んでおり、言語理解も既に人間よりも進んでいます。
しかし、まだ人間レベルにあるものが一連あります。例えば、音声認識、手書きテキストの認識などです。ですから、物事は明らかにゆっくりと進化しており、彼らはここでの成功評価に基づいて、ますます多くのベンチマークを作成しています。人間が行うタスクと機械が行うタスクを比較しています。
この横切る線は、1秒から16時間かかるタスクまで、基準として取られた人間です。ベンチマークのこれらのXマークが下がっていくにつれて、時間数が増えるにつれて品質が低下していることがわかり始めます。ですから、約1時間まではタスクの精度は80%ですが、その後はだんだんとそうなっていきます。そして、タスクが長くなればなるほど、人間の方が良い成績を収めます。
ですから、考え方はこうです、皆さん。モデルとタスクによって、物事の難易度は大きくなったり小さくなったりする可能性があります。そして、おそらくあなたは既にこれに気づいているでしょう。高度な数学の特定のこと、あまり長いタスクを伴わない特定のタイプの計算、システム統合を伴わない、巨大なコードのレビューを伴わないものがあります。
そして、これらのより短いコンテキストでは非常にうまくいくかもしれませんが、物事がより複雑に、より長くなるにつれて、人間が監督していても、事態はまだ複雑です。既に下のコメント欄で、同じことに気づいたかどうか、長いタスクは人工知能向けではないことを理解したかどうかをコメントしてください。
それでは最後のお知らせです。今は年末が近づいており、既にクリスマスの週ですので、おそらく投稿の頻度を減らしますが、何か驚くべきニュースがあれば、ここに戻ってきます。ですから、既に休暇に入って来年戻ってくる方は、メリークリスマスと良いお年をお迎えください。それではまたお話ししましょう。
そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーは、インテリジェントエージェントに関する限定動画と先行公開動画にアクセスできます。それでは、ライクをお願いします。ありがとうございました。


コメント