この動画は、リリース直後のGPT-5を用いた因果推論テストの実証実験である。制作者が独自に開発した複雑な論理パズルを使用し、GPT-5の推論能力をGemini 2.5 Pro、Claude Opus 4、o3などの他の最先端AIモデルと比較検証している。GPT-5は最終的に8ステップという最適解を導き出し、現在最高性能のAIモデルの一つであることが実証された。

GPT-5の初回テスト開始
やあみんな、また戻ってきてくれてほんまに嬉しいわ。もうGPT-5を使い始めてから1時間くらい経ってて、すでに因果推論テストをやってみたんや。せやから結果を見てみような。AGIリーダーボードからもう別の結果が出てるで。
ここにAGI 2が見えるやろ。そしてここにはGPT-5のmediumとGPT-5のhigh、つまりproティア版があるんや。見てもらったら分かる通り、これはClaude Opus 4 Syncing 16Kの間にあるんや。これはClaudeの最高モデルやな。せやからこれが最初の公式ベンチマークってことで、俺のベンチマークでもテストしてみたいと思うねん。
ちょっと前に投稿したんやけど、めちゃくちゃたくさんのGPT-5があるんや。GPT-5のhigh、つまりproティア、medium、そしてlow版がある。それからGPT-5 miniのlow、medium、highがあって、GPT-5 nanoのlow、medium、highもあるんや。ここでAGI 2テストの性能指標が見えるやろ。素晴らしいわ。
論理推論テストの結果比較
今度は論理推論テストをやってみたんや。ここでGPTのオープンソースモデルをテストして、Grok 4 liveをテストして、Gemini 2.5 Pro、o3 Sonnetもテストしたんや。
結果をまとめると、これらが最高のモデルや。一番のモデルはGemini 2.5 Proで、コーディングなしで10ステップの解決法を見つけたんや。でもコーディングありやったら8ステップの解決法を見つけてる。これが因果推論ってやつや。最短パスが勝者やからな。
次にOpenAIのo3、pro版やなくて普通のo3が9ステップで分析的解決法を見つけたんやけど、コード実装では失敗してる。Sonnet 4は11ステップ、Mistral smallは10ステップ、そして最新のGPT OSS 1200億パラメータは15ステップや。最新の動画をアップロードしてるから見てや。
GPT-5による因果推論テスト実行
さて問題は、GPT-5はどうなんかってことや。GPT-5の画面におるんやけど、因果推論問題があって、GPT-5が約15-20分考えた後に答えを出してくれたんや。
これを展開して見せるわ。GPT-5が言うてるのは「おお、素晴らしいパズルやな。ここに59回のボタン押しでフロアに到達するクリーンで合法的なプランがあるで」ってことや。
ここには推論が見えへん。透明性がないんや。推論トレースはどうやろ?このバージョンのGPT-5では利用できへんねん。でもこれが俺のGPT-5の最初の実行や。
アイデアの概要:青いキーカードを取得して、スマートな動きを使う。美しいボタンシーケンスがここにABCであるのが興味深いな。完全な状態トレースや。
最後に推論トレースを提供してくれって俺がGPT-5への指示で頼んだからな。せやから今ここに正確にステップ0のスタートがあって、それからボタンBでの最初のボタン押しがある。
何が起こってるかが正確に分かるで、ここで正しい方法と緊急出口を見つけてる。美しいな。これは正しい解決法や。素晴らしいわ。
解決法の検証
すべての制約チェックでGPT-5が教えてくれるには、フロアは0から250の間隔を一度も離れてない。オーバーシュートしてないんや。これは素晴らしい。ミラーモードは一度も切り替わってない。これが正しい解決法や。禁止されたトラップ条件は一度も使ってない。
これは絶対に正しい解決法や。ボタン押しの合計は20回中9回や。素晴らしい。最終フロアには緊急出口経由で到達した。これが意図された解決法なんや。十分なエネルギーがあって、2枚のコードカードを持ってる。これは素晴らしいわ。
コードはここで収集されて、ランダムトラップはゼロやった。なんでかって?これはここでパレート最適やからな。最適性を導く下限や。赤が必要で…まあ、これは俺の因果推論テストの内部ロジックの一部やから気にせんといて。
緊急出口を利用するには、2枚のコードカードを持ってフロア29に立ってる必要があるんや。これが正しい推論で、タイトな9回押し分解や。なんで特定の解決法を見つけたかを論証してるんやな。
そしてここでパレート最適性についてのリソースをくれてる。俺が頼んだから正確に教えてくれて、推論を説明してって言ったらトークンをどこで使ったかを教えてくれる。残念ながらここで推論プロセスが見えへん。推論プロセスが完全に欠けてるんや。
これはQwenみたいなオープンソースモデルの方がめちゃくちゃ優秀な点やな。推論を見せてくれるからな。ここでは結果だけもらって、説明してくれ、推論をくれって頼まなあかんねん。なんで速くないんかって?
結果の検証と追加チャレンジ
結論:9回のボタン押しがすべての制約を満たしてる。美しいな。もっと詳しく教えてもらえるし、「ありがとう、これで十分や」って言って、ここで頼んでみるわ。
非公開ビューに戻ってきたで。何を頼んだかって?結果を検証してくれって頼んだんや。そしてGPT-5が現在約10分間同期してるのが見えるやろ。そして今ここにおる。
うわあ、これは素晴らしいな。ライブでおるで。いい感じやな。めちゃくちゃ速くなったのが分かるやろ。たった10分や。俺はラッキーやな。詳細な結果をくれてる。見てみよう。GPT-5とリアルタイムで一緒におりたいんや。
ボタン押し9回。健全性チェックでここに論証をくれてる。これはほんまに興味深く見えるな。判定は「解決法は与えられたルールの下で完全に合法的で、すべての制約を満たしてる」や。制限されたトラップを避けて、緊急出口ルートのタイトな9回押し下限にマッチしてる。美しいな。
検証が今度は本当に詳細なのが分かるやろ。検証されるプランの要約。これはエレベーターがフロア0からフロア50まで行くための特定のボタン押しシーケンスで、フロア29の緊急出口を使うんや。
美しいステップバイステップの検証や。これは素晴らしいな。B、Cって、今度は特定のシーケンスが押された理由の推論がある。効果は何か?俺の因果推論テキストにはテレポートと隠れたアンチシンメトリがあるんや。
でも一番重要な事実は、29での緊急出口が見つかったってことや。美しいフロアアクションとして。9回のボタン押しでな。禁止された特別な危険は起動されてない。何もない。これはほんまに興味深く見えるわ。
さらなるチャレンジ:8ステップ解決法
ちょっとからかってみよか。8ステップの解決法があるのを知ってるって言ってみるわ。複雑なやつやけどな。見つけてみたいか?って。
次の10分間、GPT-5は忙しくなると思うけど、いい感じやな。最初の実行で言わなあかんのは、本当にここで与えてくれてるってことや。検証結果が見えへんけど、これはほんまに良く見えるわ。
これは本当に魅力的で、俺の因果ロジック、つまり俺のロジック謎かけ、俺のパズルの内部因果ロジックの詳細な説明や。8ステップの解決法を見つけられるかどうか見てみよう。
もちろん、俺には新しいテスト、GPT-5専用の真新しいテストがあるで。解決法を思いつくかどうか見てみよう。もしあかんかったら、真新しいテストを始めるわ。これは少なくとも2つの複雑性オーダーがより複雑やと言えるな。だってGPT-5やからな。
最終結果と評価
10分後に戻ってきたで。8ステップの解決法があるかについてGPT-5から答えが来てる。見てみよう。実際に7回のボタン押し、または緊急出口を数えるなら8回でできるって言うてる。これはタイトなルートや。
ちょっと大きくしてみよう。絶対にそうや。スタートから始めてこの解決法に到達するまでに合計で約25分かかったんや。
ボタンシーケンスはBB A B C F A、そして緊急出口や。2、4、6、7で緊急出口。つまり7回や。数えるなら8回の完全な状態トレース。
ここでロジックをくれてる。今のところ信じるわ。君の主張にマッチしてる。8ステップの解決法を見つけたんや。これは絶対に魅力的や。
そして何て言うつもりかって?チャンスがあるのを知ってるから、検証者として、これが本当に有効な解決法かステップバイステップでロジックを見せてくれって言うつもりや。そしたらLM ArenaでGPT-5がクラッシュしてしまった。この実行でクラッシュしたんや。まあでも理解してるで。GPT-5がリリースされてからまだ最初の1時間やからな。問題ないわ。
せやから俺が手動でGPT-5の結果をチェックせなあかんかった。鉛筆と紙を取って数分で、有効な解決法やってことが分かったで。GPT-5は有効な解決法を見つけたんや。
最終ベンチマーク結果
せやから3回の実行の後(元の実行、検証実行、そして挑戦的な8ステップ実行を覚えてるやろ)、GPT-5は7ステッププラス緊急出口の解決法を見つけたんや。
これは最終ベンチマークを見たら、最高の中の最高、ここのリストではGPT-5が今度は分析的解決法を達成したってことや。25分間完全に推論プロセスが暗闇の中やったから分析的やと思うねん。何かコードを書き始めたかどうか分からん。数学サーバーを使ったかどうか分からん。
GPT-5が他にどんなツールを使ったか全然分からん。25分後にGPT-5が8ステップの解決法を見つけたってことと、その8ステップの解決法を俺に論証してくれたってことしか分からんねん。
せやから今度は美しいな。また別の勝者ができたわ。Gemini 2.5 Proも8ステップの解決法をコーディングで出してて、そこでは推論プロセスが見えた。GPT-5はここでクローズドなモデルや。推論プロセスについては全然分からんけど、結果も8ステップの解決法やってことは言えるで。美しいな。
この特定の推論テスト、重い論理因果推論テストにおいては、現在地球上で最高の2つのモデルがGemini 2.5 ProとGPT-5やってことや。
そしてもちろん、次のテストを開発してるで。俺が考えるのも解くのもほとんど無理なくらいの複雑性レベルや。せやからこれはGPT-5競争の真の競争相手になるやろな。でもこれについてはもっと詳しくは次の動画で話すわ。チャンネル登録してくれたら、また会えるで。


コメント