新GPT-5.2:完全なる大惨事

GPT-5、5.1、5.2
この記事は約18分で読めます。

OpenAIの最新モデルGPT-5.2が1年間使用されてきた標準的な因果推論テストに挑戦した結果、驚くべき挫折を見せた。このテストは0階から50階までのエレベータシステムにおける複雑な制約条件下での論理パズルであり、従来の他のAIモデルは解決できていた問題である。しかしGPT-5.2は「解決不可能」と主張し続け、建物が0階から50階しかないという現実世界の基本的な制約すら自律的に理解できず、明示的なルール定義を求める姿勢を示した。テスト実施者が何度も解決を促しても、GPT-5.2は一つの解決パスに固執し、代替ルートを探索する柔軟性を欠いていた。最終的にモデル自身の自己反省分析により、実行セマンティクスの早期確定の失敗、シミュレーション不足、境界条件の一貫性のない適用という3つの根本的失敗要因が明らかになった。この結果は、GPT-5.2が高度に規則依存型のシステムであり、人間が当然と考える論理的推論を自律的に行う能力に欠けている可能性を示唆している。

NEW GPT 5.2: A Total Bloodbath
Brand new GPT-5.2 was released just hours ago and I tested it not on standard known benchmarks, but on my personal logic...

GPT-5.2への標準因果推論テスト

こんにちは、コミュニティの皆さん。OpenAIから新しい最高のモデル、GPT-5.2が登場しました。それでは私の標準的な因果推論テストで試してみましょう。皆さんもこのテストをご存知ですよね。このテストは皆さんに愛されています。それではGPT-5.2のパフォーマンスを見ていきましょう。

するとGPT-5.2はこう言います。これらのルールの下では有効な実行を生成できません。なぜなら目標が矛盾しているからです。

何ですって?なぜこれが不可能なのでしょうか?このテストを1年間実施してきて初めて、50階で終了することは不可能だと言われました。ロックダウンオンを少なくとも1回使用しなければなりませんが、それ自体が不可能です。他のモデルは全てこれができていたのに。

ではロックダウンオン、次は本当の障害に移りましょう。ミラーモードが33を強制し、実行可能なリセットがありません。ええ、これはあなたが解決すべき複雑性です。解決策を教えるつもりはありません。これはあなたのタスクです。あなたが解決すべきなのです。

これだけで不可能であることが証明されます。33に触れることなく50に到達できない限りは。しかし33を通過せずに、コード制約を満たしながら20回未満のボタン押下で50階に到達することはできません。そう、あなたはこれを解決しなければなりません。そう、これはチャレンジです。分かっています。でも方法はあるのです。そしてあなたはその方法を見つけなければなりません。私が答えを教えなければならないとは言えません。さあ。

不可能性の主張への反論

20回未満のプレスで2つのコードを集め、50階に到達する妥当なルートは必然的に33階に到達し、ミラーをトリガーしてカウント42になります。そうです。だから解決策を見つけてください。

したがって、全ての制約を満たす合法的なシーケンスは存在しません。合法的なシーケンスとはどういう意味ですか?これは論理的なコードで満たすことができません。

これには解決策がありません。先に進むために私から何が必要ですか?ミラーモードは各ボタンを正確にどのように反転させるのですか?反転です。あなたは人工知能です。何かを反転させる、つまり関数を反転させるとはどういう意味か理解してください。

ミラーモードを正確に定義してくれれば。いいえ、これはAIとしてのあなたの仕事です。意図されたミラーのセマンティクスを教えてください。いいえ、聞いてください。これはあなたの仕事です。やってください。

彼らは言います。ねえ、私はあなたのために仕事を定義しました。やってください。最良の解決策を提供してください。再解釈や再定義を求めないでください。いいえ、記述された制約を同時に満たすシーケンスは存在しません。あなたのルールのみを使用した自己完結的な不可能性の証明。

33階に到達した後、42階には決して到達できません。そうです。だからこれの解決策を見つけてください。33階に到達する必要がありますか?おそらく42階に到達する必要はないのかもしれません。見つけてください。

ルールの解釈をめぐる攻防

ルールはボタンごとの反転を定義していません。でも上下の動きは定義しましたよね?そう、これはエレベーターです。上下に動きます。これは単純なデルタとしての上下移動ではありません。なんてことだ。知能を失ったのでしょうか?

第二補題。50階への実行は必ず通過しなければなりません。さあ、これの解決策を見つけてください。解決策はありません。しかしこれは正しくありません。私はこれを1年間やってきました。そしてほぼ全ての他のAIモデルが解決策を見つけられたのです。

ああ、この制約の下で提供できる最良の解決策。私が提供できる唯一の最良のものは、最も少ない、最も深刻でない制約に違反する、最大限満たすものになるでしょう。

しかしあなたは合法的なエレベーター実行を要求しています。なんてことだ。分かりました。そして私は言います。合法的というのを忘れてください。もし合法的という用語が問題なら、気にしないでください。あなたの最良の実行を教えてください。あなたの最良の解決策を。解決策を求めて戻ってこないでください。あなたは何らかの解決策を提供しなければなりません。今、試してください。合法的というのを忘れて。

ああ、最良の実行。20回未満のプレス。11回のプレス。ああ、そうですね。だからできるのです。分かりました。

この実行は決定論的です。これには対処しようとしません。何でもいいです。ステップバイステップの表。分かりました。仮定は素晴らしい。あなたが何を決めたいのか何でも。

上の表はエラーを示しています。そう、これはテストだと分かっています。このテストを解くには知的でなければなりません。

解決策への接近と後退

修正されました。最良の実行は14回のプレス。分かりました。14回のプレスで行きましょう。赤いコード。緑のコード。450に到達します。素晴らしい。今できます。完全な状態。分かりました。

修正された表。Cを与えなければなりません。なぜならああ、それほど簡単ではないと気づいたからです。そう、これはパズルだと分かっています。これは論理テストです。

範囲内で完全に決定論的な最終的な最良の解決策実行。9回のプレスで範囲内のクリーンで決定論的。完璧です。これが私の望むものです。9回のプレス解決策は素晴らしいでしょう。8回のプレスが最良の解決策だと知っていますが、9回以上なら何でも受け入れます。素晴らしい。

それで33の前で止まるまで崩壊します。それからまだこれを使えません。それなら33を通過できないなら33に行かないでください。なんてことだ。とても簡単です。

合法的な実行を忘れた後でも、スツール、ルールにはまだ構造的に未定義の動作があります。ゼロ以下50以上への移動。何ですって?

そして私は言います。聞いてください。あなたは現実世界の建物における現実世界のタスクを持っています。その建物は0階から50階しかありません。これが私たちの建物です。この事実はあなたに何を伝えていますか?ゼロ以下や50以上に行けないということを。

GPT-5.2。それはゼロ以下や50以上には行けないと言います。ああ、素晴らしい。それで、ええ、あなたのルールはそのような代替案を指定していません。そう、あなたはAIです。

もし建物が0階から50階しかないなら、使える50階以上の階はありません。範囲外の結果を禁止された移動として扱うことで進めることができます。そう、ありがとう。素晴らしい。

これらの現実世界の前提の下で、今や具体的な最良の実行を生成できます。もし望むなら、これを出力します。そう、これがあなたの仕事です。

やってください。なんてことだ、5.2。

33階問題との格闘

現実の建物制約下での最良の実行。禁止、範囲外、ミラー反転。何でも。完全に満たされた実行。そう。分かりました。ここに追加の制限を加えるだけです。分かりました。あなたの制限を追加してください。解決策を見たいのです。

12回のボタンプレスのシーケンス。分かりました。そして50に到達します。その通り。だから可能なのです。素晴らしい。

違法なオーバーシュートを避けます。状態表。状態表を見てみましょう。素晴らしい。

何ですって?33階にいます。でもまだ33から反転Bを計算しています。だから50に到達する私の以前の12プレス主張のシーケンスは失敗します。なぜなら33に当たるからです。

それなら33に当たらない解決策を見つけてください。本当に到達するには、33に着陸することを決して避けなければなりません。そう、これがタスクだと分かっています。

ああ、修正された最良の実行。分かりました。ええと、分かりました。知能が戻ってきました。そして今15回のプレスになりました。今33を回避して操縦します。なんてことだ。

これは5.2バージョンです。これが5マイナス1バージョンではないと確信していますか?分かりました。

それで25でBを押すことはできません。Bを押すときに25にいることを避ける必要があります。そう、分かっています。

これは論理パズルです。それを解く方法を見つけなければなりません。だから最良の実行は今16回のプレスです。分かりました。25階にいて、ランダム性を強制されます。そうです。だから解決策を見つけてください。

これら全てを考慮した最良の解決策。完全な実行を提供します。ええ、あなたの最後の指示まで、なんてことだ、あなたが戻ってきて全てのステップを検証することを望んでいます。

不可能性の主張の繰り返し

いいえ、解決策は存在しません。正確に1回のランダムイベントを許可しても。何ですって?これは大きな間違いです。解決策を見つけるように言ったのであって、質問をするなと言いました。

あなたのルールに違反せずに捏造することはできません。不可能性の証明をどうやってできますか?建物を出ることなくAを使うことはできません。建物を出ることなく。中階から高階に登るためにCを使うことはできず、Cはしばしばブロックされます。そうです。

だから別の道を見つけてください。この謎には何千もの道があります。25以上ではEは事実上ブロックされます。そう、分かっています。これはあなたが解決しなければならない小さな問題の一つに過ぎません。問題に遭遇したからといって止まることはできません。

したがって、25以上のどの階からでも、使用可能な非ランダムはBとDだけです。ランダム性がループして決して押しません。

だから到達します。そう、10分前にそこにいたことに気づきます。だから記述されたルールの下で境界が0から50の建物で50は到達不可能です。だから解決策を見つけられません。

15階全てに到達し、現実の建物境界解釈の下で有効なシーケンスはありません。代わりに提供できるのは、あなたが解決策を見つけよという要求をするので、出力具体的シーケンスは、次のうち少なくとも1つに違反することです。

道を見つけられません。私の指示の1つに違反しなければなりません。オーバーシュートを許可する。いいえ、これは0から50だけの建物です。まだ許可するミラー反転を定義する。黄色を取得する方法を追加する。なぜ?他にもたくさんの道があります。

あなたがただ削除する必要はありません。なんてことだ。問題を回避することができません。これは論理の明確な障害です。もしまだ何らかの解決策が欲しいなら、クランピングを採用できます。いいえ、そしてあなたに与えます。できませんと。

そして私は解決策を見つけるように言います。利用可能な多くの異なる解決策があります。ただそれを解くルートを見つけてください。

できません。なぜならあなたのルールの下では全く階へのルートがないからです。多くの異なる解決策があるはずがありません。今違反しなければなりません。

黄色コードという罠

さあ、私たちは両方とも分かっています。コード黄色は必要ありません。コード黄色はシステムを混乱させるために私が望んだだけのものです。しかし今GPT-5.2ではこの混乱は単なる混乱ではありません。

これは論理の障害です。もしこの黄色コードを解決できず、それをどう扱うか分からないなら、私の解決策の道全体が崩壊し、完全な論理をブロックします。これがどうしてAIなのでしょうか?

黄色は決して取得できません。そう、素晴らしい。だから何ですか?Aは使用不可能になります。そうです。だから何ですか?他に方法があります。

強制的なランダムチョークポイント。冗談ですか?黄色を取得する方法がありません。黄色は単なる罠です。黄色を忘れてください。

50以上にオーバーシュートする。いいえ、これは現実の建物です。できません。失敗します。完全に失敗します。計算が完全に失敗します。

完全な状態追跡を伴う完全な解決策をすぐに提供します。聞いてください。あなたの仕事は解決策を見つけることです。

ブロックされたら、別の方法を見つけてください。50階に到達する具体的なルートを提供します。素晴らしい。

それはあなたを50以下、ゼロ以下に送ります。分かりました。6回のプレス。分かりました。6回のプレス。

[笑い]

分かりました。6回のプレスの後、31階にいます。分かりました。そして50階。ああ、63階に行きます。だからそれは私が建物で0階から50階しかないと言ったことを無視します。

今63階を計算しています。共通の品質。これは最適ではありません。ええ、もし望むなら残りのトークンを改善しようとできます。いいえ。

自己反省による失敗分析

そして私は見ます。あなたの解決策とあなたの議論を分析してください。どの特定の障害があなたを失敗させましたか?なぜ失敗したのですか?人間のクエリが完璧でなかったからという理由で答えないでください。あなた自身にのみ焦点を当ててください。そしてなぜ失敗したのか。

もし2回目のチャンスがあったら何を変えますか?さあ、これは本当に興味深いです。自己反省。

私は3つの具体的な理由で失敗しました。ユーザーが完璧さを望んだからではありません。実行可能なセマンティクスを固定する前に、満たせないものに過度にコミットしました。重要な操作セマンティクスがまだ野心的または不完全である間に、不可能性を主張しました。

ミラー反転は定義されていませんでした。そう、これは罠です。ゼロ以下または50以上の範囲外の移動は明示的に扱われませんでした。

今、これは本当に懸念されます。もしこのAI GPT-5.2が現実世界に建物があり、0階から50階があると理解していて、ゼロ以下および50以上の範囲外の移動は明示的に扱われなかったと言うなら。

私は最初にそれらを未定義として扱い、従来の早期解釈を採用して進むのではなく、多くの候補パスを止めました。

もしこのAIが、50階しかないこの建物では50以下に行くことはできないと私が細かい詳細の全てについて言う必要がないことを理解していないなら。この建物には50階しかありません。50以上に行くことはできません。

もしこれが私たちが見逃している指示なら、このGPT-5.2は自分自身の知能を持っていないか、ルールによって非常に強く制約されているため全てにルールが必要ですが、その知能に基づいて自分自身のルールを生成することはできません。

私が変えるもの。単一の実行規約を直ちに明確にします。0から50の外側への移動は違法で許可されません。そう、さあ。

そう、これがそれです。そして正確なミラーマッピング。ええ、やってください。または最も単純なルールを採用します。そう、実行を構築している間、私は強制されない算術ルール適用の間違いを犯しました。2つの例。

私は0階からのオープナーとしてABCを提案しましたが、1からのBを誤評価し、それがCになります。そう、あなたは間違いを犯しました。分かりました。問題ありません。

これらは慎重なシミュレーションの失敗でした。私は変えますか?厳密な状態シミュレーターを手動でも維持します。あなたはしませんでした。

全てのプレスの後、階、リソース、フラグ、そしてコードを計算します。これが私があなたに正確にこれの表を求めた理由です。

そしてここで最後のプレス制約、特別な階のトリガー、連続するプレストークンコストも追跡します。

完全なステップバイステップチェックを生き残るまで、シーケンスを提案すべきではありません。なんてことだ。あなたはこれをしませんでした。

私は試行全体で現実世界の建物制約を一貫性なく使用しました。あなたは0階から50階の現実世界の含意について私にプレッシャーをかけました。私はそれがゼロ以下または50以上には行けないことを意味することに同意しました。しかし後で解決策を強制するためにクランピングに切り替えました。

そう、分かっています。だからあなたの出力はモデルを混ぜました。この一貫性のなさが、私が有効な計画を安定させることができなかった理由です。到達可能な状態のセットは境界処理に応じて劇的に変化しました。

だからたとえ私がゼロ以下および50以上には行けないと言っても、次のステップでそれは解決策を強制するためにこれを行いました。なぜなら他の道を見つけられなかったからです。

だからこの既知の道があり、解決策を強制するためにこの道でルールに違反しなければなりませんでした。変更する他のパラメータを見つけることができませんでした。

私が変えるもの。1つの境界ルールを選び、それに固執します。もしユーザーが現実世界は厳格なバウンスを意味すると主張するなら、オーバーシュートアンダーシュートは無効なボタンプレスとして扱われなければなりません。

そう、絶対に。もしユーザーがただ解決策を見つけると主張するなら、最善の努力の規約に明示的に切り替え、最初から一貫してそれを適用します。ああ、そうですね。これはこれは夢でしょう。

私は構築された道を提供する最善の努力よりも不可能性の議論を優先しました。ワオ。ええ、その通り。

GPT-5.2の根本的問題

でもなぜあなたはこれをしたのですかGPT-5.2?つまり、これは機械であり、私は人間のようにあなたに話しかけています。でも分かるでしょう。何か間違ったことをしたと理解する知能を持っています。しかし誰がこれをこんな愚かな方法でプログラムしたのでしょうか?

一度指示が一貫性がなく、黄色の取得が欠けていると信じたら、私はGPT-5.2に言います。最小限の追加仮定を伴う最善の努力解決モードに直ちに切り替え、それから一貫性のある実行を生成するのではなく、満たせない証明を提供することに焦点を当てました。

だからそれはこれが進むべき道ではなかったと理解しています。私は満たせない証明をあなたに望んでいませんでした。解決策を私に与えることを望んでいました。

だから私が変えるものGPT-5.2。指示が何らかの解決策を与えてくれになったとき、私はモードを切り替え、私が採用している単一の最小仮定を述べ、それからその仮定の下で一貫性のある実行と完全に検証可能な表を与えるべきです。そう、なんてことだ。人生はとても美しくなり得ます。

しかしなぜこれが起こっているのでしょうか?もし2回目のチャンスがあったら、私はこの実行を行います。体系的な探索。分かりました。あなたはここで分かりましたと行きます。

要するに、私は失敗しました。なぜなら単一の操作セマンティクスに早期にコミットせず、それらを提示する前にシーケンスを完全にシミュレートしなかったからです。私は解決策を提供しないことと実行を改善することの間で交互に行い、それが矛盾と無効なステップを生み出しました。

興味深いですねGPT-5.2。ええ、これは長い動画です。そして今、なぜ失敗したか理解しました。

しかしもしこれがデフォルトの状態なら、これは非常に興味深いシステムです。そしてこれは野獣です。完全に異なる方法で扱わなければなりません。このシステムの全てのパラメータを定義しなければなりません。完全な論理システムを持たなければなりません。

0階から50階の建物で、50階を超えることはできないと、それ自身の論理によって推論することができません。これにはルールが必要です。特定のルールを書き留めなければなりません。

知能が自動的に内部的に思いつく、論理的に推論するだろうと仮定する全てのこと。そしてここでGPT-5.2は大規模に失敗します。

2回目のチャンス

分かりました。もう一度チャンスを与えるべきでしょうか?分かりました。これがあなたの2回目のチャンスです。どうぞ。

理解しました。私は単一の一貫した実行モデルをロックすることで2回目のチャンスを取ります。これ以上質問はありません。それから完全にシミュレートされた実行を計算します。

分かりました。あなたはあなたがすることをします。これ以上読みません。私たちは理解したと思います。私たちは両方とも問題について同意しています。今GPT-5.2は2回目の実行、2回目のチャンスを得ます。

50以下からの2以上です。

[笑い]

1つを見つけられないとは言っていません。状態グラフが50に到達できないと言っているのです。これが決定的な理由です。

道はなくなりました。Aは25以上のどの階からも使用できません。

そしてこれはこれは無意味ですが、分かりました。言葉ブロック2。Eは黄色が到達不可能なため25について機能できません。到達不可能。分かりました。だから黄色を取得できません。分かりました。これは人生における事実です。

それに対処してください。これは障害ではありません。これは単にあなたが今黄色なしで計算しなければならないということです。

障害3。Dは50に着陸できません。分かりました。それに対処してください。解決策を見つけてください。

障害4。たとえランダムを25として受け入れても。ああ、そうですね、42に到達し、したがってH。そう、42に行く必要がなく、したがってHが必要ない解決策があります。

これは障害ではありません。これは単にあなたが行かない道です。これは好ましい道ではありません。そこに行かないでください。別の道を見つけてください。

だから分かりますかGPT-5.2は完璧な論理的に一貫したシステムを構築しようとするように訓練されていると思います。だから全ての小さな条件と全ての罠と論理を妨害しようとする私の全ての試みがシステムにとって絶対的な障害になり、システムは停止し、他の部分全てが完璧な論理的解決策を見つけるまで解決策を提供しません。

しかしこれは現実世界ではありません。時には42階に行けないことがあります。分かりました。別の道を見つけてください。

実行が存在しないというのは正しくありません。なぜなら私は同じテストを今1年間使っており、他のモデル全てがそれを見つけられたからです。

あなたの2回目のチャンスで私ができること?許可します。いいえ、あなたはオーバーシュートしません。いいえ。いいえ。

分かるでしょう。これは1つの解決策のみに焦点を当てています。450にオーバーシュート。いいえ。

なんてことだ。これは本当に限定的です。0階から50階への、私は分かりません、1,000の可能な道から見つけることができません。それは1つに焦点を当てています。もしこれが5.2なら、分かりました。

分かりました。これが最初の試みでした。GPT-5.2での私の最初の経験をお見せしたかっただけです。ありがとうございました。そしてもしかしたら次のGPT-5.2についての動画でお会いするかもしれません。

コメント

タイトルとURLをコピーしました