新しいGPT-5.4推論テスト

OpenAIの新モデルGPT-5.4が登場し、その推論能力を科学的なテストで検証した結果が報告されている。テスト内容は独自の因果推論テストであるエレベーターパズルで、0階から50階まで20回未満のボタン操作で到達する最短経路を見つけるというものである。通常版のGPT-5.4は複数回の試行にもかかわらず正解を導き出せず、16回の操作で到達する解を提示したものの最適解である8回には遠く及ばなかった。さらに検証を重ねても46階までしか到達できず、制約条件の変更を提案するなど、科学的タスクには使用できないという結論に至っている。価格面では出力1ミリオントークンあたり15ドルとProバージョンの180ドルと比較して安価だが、推論能力の観点からは期待に応えられない結果となった。

NEW GPT-5.4 Reasoning TEST

OpenAI published their new GPT-5.4 model and I test it on my causal reasoning test, if I can use it for science or scien...

GPT-5.4の初回テスト開始
GPT-5.4の価格設定と仕様
エレベーターパズルの実施
初回テストの失敗と再試行
複数回の失敗と制約変更の提案
検証の失敗と問題の本質
デフォルトルールでの最終試行
GPT-5.4 Highへの期待

GPT-5.4の初回テスト開始

皆さん、こんにちは。お会いできて嬉しいです。OpenAIから新しいGPT-5.4 AIモデルが登場しましたので、これからテストしていきます。今日は2026年3月5日です。OpenAIによる専門的な作業向けに設計されたGPT-5.4をご紹介します。

ご存知の通り、私は独自の因果推論テストを持っています。これは科学的なテストなんです。このモデルを科学目的で使用できるかどうかを確認するためのものです。こちらに私のYouTubeプレイリストがあり、全てがここに揃っています。これまでテストした全てのモデルについて、科学的な作業に使用できるかどうかの感触を得るために検証してきました。もし特定のモデルに興味があれば、その動画を見ていただければ、ライブテストの全結果を詳しくご覧いただけます。

GPT-5.4の価格設定と仕様

それでは、GPT-5.4を見ていきましょう。入力価格は100万トークンあたり2.5ドル、出力価格は100万トークンあたり15ドルです。これをProバージョンと比較してみると、GPT-5.4 Proは出力価格が100万トークンあたり約180ドルとなっています。

おそらく90%の人々が使用するであろう、クラシックな5.4から始めるのが良いでしょう。それでは、今からライブで始めます。ここでダイレクトに移動して、私の5.4、つまりGPTを選択します。これはハイとノーマルの両方で利用可能です。まず最初の動画ではノーマルで行きます。私の特定のテストを挿入して、さあ始めましょう。

エレベーターパズルの実施

あれ、推論モデルではないようですね。さて、これはエレベーターテストです。0階から50階まで行くのですが、20回未満のボタン押下で到達する必要があります。1つ明確化が必要とのことです。解決策が出ました。それでは、ステップごとに注意深く計算してください。

もう1回実行していますね。自己検証中です。素晴らしい。結果は、最も自然な解釈では有効で正確な実行を正直に確認できないとのことです。この解決策は美しいと思いますが、14階までしか到達していません。全ての状態とルールに一貫性を保ちながら、50階への最終的な到達を自信を持って完了させることができません。

初回テストの失敗と再試行

モデルは最初の実行で完全に失敗しました。それで私は「与えられたタスクを実行してください。結果を見せてください。途中で止めないでください」と伝えました。これで16回押下の解決策が出てきました。なるほど、これは興味深いですね。私たちは8回が最適解であることを知っています。16回は本当に良くありません。しかし、GPT-5.4によれば、これは正しく有効な実行とのことです。

それでは注意深く計算してください。また計算を実行していますね。素晴らしい。もちろん、これは推論ではありません。試行錯誤です。今度は14回のボタン押下になりましたが、50階には到達していません。50階に到達していないんです。記述された正確なルールから50階への完全に正しいルートを持っていません。

複数回の失敗と制約変更の提案

システムGPT-5.4は再び失敗しました。それで私は「さあ、3回目の実行だ。なぜダメなんだ。誰でも複数のチャンスに値する。あなたの仕事は50階への最短経路を見つけることだ。建物には50階しかないのだから、今すぐやってください」と言いました。

ここにまた別の検証があります。これが最善の方法だそうです。50階への有効な経路は存在しないという結果です。できませんでした。ここに詳細な障害が示されています。何が機能しなかったのか、解決策を見つけられなかったためです。これは確認できます。私が見つけた最良の到達可能な状態は14回押下です。しかし、46階で終わってしまいました。この数学的タスクを解くことができませんでした。

50階への最短経路の結果は「なし」です。記述されたルールから50階は到達不可能で、追加のルールを加えなければなりません。つまり、私の制約条件を変更したいということです。うーん、検証を実行してみましょう。

検証の失敗と問題の本質

結果を検証してくださいと伝えました。誰でももう一度チャンスを得られますからね。なぜダメなんでしょう。検証できません。私の到達不可能という結論は、与えられたルールに対して完全には証明されていません。正しい検証結果は「検証されていない」です。検証のいずれも提供しませんでした。

GPT-5.4は科学的タスクには使用できません。なぜなら、このような単純な結果さえ見つけられないのであれば、このモデルは本当に推奨できるものではありません。それで私は「問題を探求してみましょう。何が問題なのですか。あなたは仕事に失敗しました」と言い、「他に仕事を遂行する方法はありますか」と尋ねました。すると「はい」という答えが。おお、はい、ですって。

それでは見てみましょう。パズルには少なくとも2つの点を修正する必要があるとのことです。0未満または50を超える動きが違法であればということです。もちろんです。建物には0階から50階しかないのですから、0未満に行くことはできませんし、50階を超えることもできません。

これらのルールを明確にすれば、仕事は正確で追跡可能になります。その意味論を教えてくれれば、適切に解決しますとのことです。興味深いことに、今GPT-5.4は私に対して、さらに仕様を明確にすべきだと言ってきました。

デフォルトルールでの最終試行

それでは、もう一度GPTに試してもらいましょう。「デフォルトのルールセットを受け入れて、最終的に仕事を実行してください」と伝えました。つまり、仕事をしてくださいと言ったんです。それでも20回のボタン押下で50階への有効なルートが得られません。

なぜこれが重要なのか。説明が提供されました。何も見つけられなかったとのことです。いいえ。再び本当に失敗しました。最終結果は、20回未満のボタン押下で50階への有効なシーケンスが見つからなかったというものです。最良の検証済みシーケンスはこれです。

そして13ステップ目で、ここで53階に行ってしまいます。数学的な最短経路を見つけられていません。最終結果は、20回未満の押下で50階への有効な実行はないというものです。正直に成功した実行を提供することはできません。正しい出力は、これらのデフォルトの下では、インスタンスは解決不可能であるように見えます。違法な解決策が得られました。GPT-5.4は完全に失敗しました。