GPT-5.4 Highはカンニングしているのか?推論能力かコード生成能力か

GPT-5
この記事は約9分で読めます。

OpenAIが2026年3月5日にリリースしたGPT-5.4 Highバージョンの性能を、独自に設計した科学的因果推論テストで検証した結果を報告する動画である。既存のベンチマークが事前学習データに含まれている可能性を懸念し、エレベーターパズルという複雑な数学的制約問題を用いて真の推論能力を測定した。GPT-5.4 Highは7回のボタン操作で最適解を導き出し、BFS(幅優先探索)手法を適用して解の最適性を証明した。しかし、この成功が純粋な言語的推論によるものか、それともPythonコードに変換して数学的に解決したエージェント機能によるものかという疑問が提起される。最終的に、GPT-5.4 Highは言語的天才性というより、問題をコード化して数学的ソルバーで解決した可能性が高いと結論づけている。

"GPT-5.4 HIGH" Cheating? Can it Reason or just Write Code?
The new GPT-5.4 reasoning model on "high" tested live for causal reasoning, for scientific tasks. Is the mapping of the ...

GPT-5.4 Highの性能テスト開始

こんにちは、コミュニティの皆さん。お会いできて嬉しいです。OpenAIがほんの数時間前に新しいGPT-5.4をリリースしました。今回はHighバージョンをテストしていきます。2026年3月5日、OpenAIがGPT-5.4を発表しました。プロフェッショナルな作業向けに設計されたモデルです。素晴らしいですね。

私には独自の科学的因果推論テストがあります。というのも、3年も4年も前から知られているベンチマークは信用していないんです。事前学習データセットにテストが混入している可能性がありますからね。そのため、私は独自のテストを作成しました。YouTubeのプレイリストがありまして、それらを全て選択すれば、正確な性能を確認できます。これと全く同じことをGPT-5.4で行いました。その結果はこの動画でご覧いただけます。これはHighバージョンではなく、通常のGPT-5.4でした。多くの人がデフォルトとして使用すると思われるバージョンです。

無料プラットフォームでの検証方法

さて、arena.aiで私のテストを実行します。なぜかというと、これは無料のプラットフォームだからです。何も支払う必要なく、ログインも不要です。モデルを選択して、これらのモデルから選んでテストを実行します。何も支払わずに、モデルから即座に応答を得られます。複数のモデルを試して、どのモデルが自分のタスクに最適かを確認できます。皆さんにもこれができるようにしたいんです。全てのテストを再現できて、お金を払う必要がありません。

OpenAIに行くと、GPT-5.4、GPT-5.4 for High、X Highなどがあります。これは哲学の違いなんです。Googleを見てください。Gemini 3.1があって、Proバージョンのみです。それだけです。GPT-5.4では、最適なモデルを探して、もう少しお金を払うことを求められます。問題ありません。

GPT-5.4 Highでのライブテスト

では、GPT-5.4 Highをテストしましょう。ライブテストに移ります。ご覧のとおり、同じテストがあります。今度はGPT-5.4 Highです。これが現在利用可能なオプションです。推論モデルがあるので、推論テストには非常に適しています。特にGPT-5.4 Highが科学的テストを解決できるかどうかを探求したい場合には最適です。

さあ、始めましょう。リアルタイムでここに留まりますが、もちろん皆さんには次の瞬間、GPT-5.4 Highが推論プロセスを完了して最初の解決策を提示したところをご覧いただけます。おお、素晴らしいものが出てきました。見てみましょう。

驚くべき解決策の提示

さて、何でしょうか?ボタンシーケンスはAB、ABC、ABC、FAです。これは優れた解決策です。29階で緊急出口を起動し、50階へ。美しいです。素晴らしいです。まさに私が期待していたものです。ここに個別のステップがあります。異なるボタン操作に関連する全ての数学的演算がここにあります。7回のボタン操作で緊急出口があります。29階にいて、50階へのショートカットがあります。素晴らしい。

合計で、ボタン操作が7回プラス緊急出口です。最終的なリソースは制約内のエネルギーから得られています。トークンは制約内です。コードヘルドは必要なものと正確に一致しています。ランダムトラップのヒットは正確にゼロです。この実行は全ての制約を満たしています。50階に到達しています。美しい。最大20回の操作を使用しています。制約内で完了しています。ランダムトラップを使用せず、全ての禁止された相互作用を回避しています。素晴らしい。

検証プロセス

優れた解決策が得られました。この結果を検証する必要があります。さあ、GPT-5.4 Highで検証しましょう。結果が出ているので、検証だけなら、もっと速く完了するはずです。はい、完全な検証です。美しいステップバイステップの検証です。素晴らしい。なぜ全てのステップが合法なのか。詳細な説明があります。リアルタイムで一緒にいましょう。

実行は記述通りに有効です。これが本当かどうか見てみましょう。29階の緊急出口を特別なアクション、ボタン操作ではないものとして扱っています。問題ありません。それから、全ての演算を伴う全てのボタン操作がここにあります。美しい。探していた全ての情報がここにあります。素晴らしい。正確に50階に行きます。

全てのステップが合法で、着陸を無秩序にしています。途中で違法なことは何も起こりません。ブルーコード、レッドコード、グリーンコード。はい。特別なコレクション、解決策は全ての目標に一致しています。はい、はい、はい。制限内です。美しい。トラップなし。実行は有効で、記述通りです。GPT-5.4 Highにとって優れた結果です。

より良い解決策の探求

因果推論テストには高い推論精度が必要です。さて、何をしましょうか?より良い解決策を見つけられるか尋ねてみます。単純に、このエレベーターテストで0階から50階まで行くのに、もっと短いボタン操作のパスを見つけられますか?このタスクにどんな方法を適用できますか?そして、あなたの一貫した結果は何ですか?と尋ねます。

ここで可能な前進方法を見つけるか見てみましょう。この単純な複雑性を解決する方法論は何か、どのようなものか。結果が出ました。美しいです。覚えていますか、私はより短いボタン操作のパスを見つけられますかと尋ねました。

はい、書かれたルールの下では、7回のボタン操作と緊急出口より短い保証された実行は見つかりません。これを解決するクリーンな方法は、完全なゲーム状態の最短パスで、全てを含める必要があります。美しい。

BFS手法の適用

ああ、BFSですね。単純な数学的方法論です。美しい。ハンドチェックは下限として、検索を大幅に削減します。なぜ7回の操作が最適か?まず、50階はルールが書かれている通り、通常のボタンルートでは到達できません。パズルを設計した時の何という偶然でしょう。はい。

唯一の一貫した終了方法は、29階からの緊急出口です。これは、実際のターゲットが赤と緑で29階に到達することを意味します。これは正しいです。これが私のパズルの絶対的な本質です。下限については、赤にはABCが必要です。緑にはこれが必要です。はい。異なる階があります。正確にあと2回の操作で29階に到達できます。

6でのロックダウンを伴うFは一貫した結果をもたらします。最適なシーケンスはAB、ABC、FA、そして29の状態トレースからの緊急出口です。7回のボタン操作プラス緊急出口、トラフィックゼロ。これが私のエレベーターでの最短の正解です。7回のボタン操作です。これは他のモデルでも達成した絶対的に最良の結果です。

コード化の疑惑

でも、ここで興味深いことがあります。アイデアが浮かびました。ちょっと待ってください。GPT-5.4 Highが、幅優先探索であるBFS手法を方法論として使用していると言っているなら、こう尋ねてみましょう。タスクの言語的バージョンをPython表現にマッピングする際にBFSをPythonコードとして適用できますか?それとも、エージェントとして、コーディングなしで純粋に言語的なタスクにBFS手法を実行できますか?

これが美しいところです。GPT-5.4 Highは定義上、エージェントとして行動するのに完璧に装備されています。PythonのAI環境にアクセスできます。そして今、私の質問はこうです。GPT-5.4 Highは言語的な用語で考えることで解決策を見つけたのか、それとも単にPythonにマッピングしてPythonコードを作成し、Pythonコード上で数学的BFS方法論を実行したのか?それによってこの完璧な問題解決者になったのではないか?

GPT-5.5がしばらくして戻ってきて言います。はい、両方が可能です。BFSはPythonに縛られていません。これは検索を整理する方法です。Pythonはそれを明示的で再現可能にしますが、平易な言語で同じアイデアに従うことができます。候補の説明のキューを保持し、レベルごとに展開していくのです。

試行錯誤を防ぐ複雑性

知っておいていただきたいのは、私がテストを構築した際、システムが試行錯誤だけで正しい解決策を見つけられないようにしたということです。非常に多くの組み合わせ、非常に多くの変更、ボタンを押した時の数学的関数の非常に多くの順列があります。純粋な試行錯誤では、確かGemini 2.5だったと思いますが、45分以上実行しても全く解決策を見つけられませんでした。

平易な言語では、解決策を見つけられないようにモデルを複雑にしました。しかし、もちろんこのモデルまたはこのエージェントGPT-5.4がPythonコードを書いて、数学的最適化でコードを実行すれば、もちろん即座に、または1、2分以内に解決策を見つけることができます。

ここで言っています。言語的因果タスクをグラフにマッピングする例を示します。そして、実際にここで簡略化されたバージョンを正確に書いています。ご覧のとおり、グラフが美しく、全ての仮説があります。これは単純で簡単です。そして、BFSの因果チェーンがあります。これを適用するだけです。素晴らしい。

エージェント機能による解決の可能性

さて、何が起こったのでしょうか?残念ながら、GPT-5.4 Highは正確に何をしたかを教えてくれません。これが大きな秘密です。純粋に言語的な方法で全てのツリーの組み合わせを試すBFS方法論を行ったのか、それとも単にこれをPythonコードに変換して数学的に解決し、解決策を持って戻ってきて解決策を提示したのか。

私の感覚では、これは非常に美しいエージェント型システムなので、Pythonに変換してPythonコード上で数学的最適化を実行したのではないかと思います。おそらくこれは因果推論問題としてこれを解決する天才的なアイデアではなく、論理的探求でもありませんでした。これは単に、複雑性が言語的ソルバーには高すぎることを理解したエージェントだったのです。

したがって、単に書いたのです。あるいは他の何らかのソルバーに書いたのかもしれません。最も単純なケースはPythonで、数学的に解決しただけです。GPT-5.4 Highは私に言います。ここで起こったことは単純です。言語的事実はシンボルに変換され、可能性のコースはグラフノードとエッジに変換されました。マッピングが存在すれば、BFSは非常に自然に機能します。

したがって、GPT-5.4 Highはカンニングしていたと思います。つまり、カンニングではありません。これはエージェントであり、ツールコールなどがあります。数学的ソルバーへのアクセス、もちろんPython環境へのアクセスがあります。これをコード化し、シンボルに変換し、グラフを構築し、数学的最適化定理を見つけて、数学的に解決できます。しかし、これは純粋な言語的天才の兆候ではありません。おそらく単にコードを書いていただけですから。

他のモデルとの比較

そして、他にコードを書いていたモデルは何だったか分かりますか?何だと思いますか?はい、もちろんXからのものでした。Grok 4.1でした。ご覧のとおり、おそらくGPT-5.4 Highは論理的演繹によってではなく、単にエージェントとしてコードを書くことで解決策を見つけたのかもしれません。

これについて皆さんのアイデアはどうですか?皆さんの意見を聞きたいです。とにかく、少し楽しんでいただけたら嬉しいです。この動画を楽しんでいただけたことを願っています。いくつか新しい情報を提供しました。次の動画でお会いできたら素晴らしいです。

コメント

タイトルとURLをコピーしました