新しいAIモデルであるGPT 5.5 Instantの推論能力を、QN 3.6 Maxのプレビュー版と比較検証した動画である。独自の論理パズルを用いて、解答の速さと正確さ、そして自己最適化能力をテストしている。GPT 5.5 Instantは非常に高速に解答を生成するものの、複雑な罠を回避する知能や深い最適化能力には限界が見られる。一方でQN 3.6は、時間はかかるものの、複数の戦略を探索し自己最適化を行うことで、最終的に非常に優れた結果を導き出す様子が解説されている。

GPT 5.5 Instantの初回テスト
皆さんこんにちは、戻ってきてくれてとても嬉しいです。そうなんです、新しいGPT 5.5 Instantが登場しました。さっそくテストしてみましょう。今回は少し面白くするために、再びQN 3.6 Maxのプレビュー版と比較してみます。ご存知の通り、私には定番のテストがあります。ここにあるのが、私のYouTubeプレイリストにあるAI向けのロジックテストのその1です。これまで発表されたすべてのモデルをここでテストしています。これは科学的なテストであり、因果推論のテストでもあります。そして、こちらが私のおすすめする優れたモデルたちです。手順の数が9から7へと短くなればなるほど、そのモデルのパフォーマンスが良いということになります。ご覧の通り、デフォルトのまま実行すると、GPT 5.4はまったく解答を導き出せませんでした。では、今回の新しいモデルがどうなるか見てみましょう。現在すべてのモデルのテキストパフォーマンスについて、コミュニティ全体がどう考えているかの概要を知りたい場合は、こちらをご覧ください。コミュニティが全般的に最高だと投票したモデルの概要がわかります。ですが、今回はGPT 5.5 Instantのライブテストを行いたいと思います。さて、始めましょう。GPT 5.5 Instantです。ここに私の古典的な標準テキストを入力して、スタートです。QN 3.6もすでに考え始めていますね。では、左側のGPT 5.5 Instantを見てみましょう。どれくらいインスタント、つまり瞬時に結果が出るでしょうか。本当に魅力的ですね。もちろん、私たちはGPT 5.5 Instantに注目しています。この解答がどれくらい複雑なものになるか見てみましょう。おっと、最初の答えが出ましたね。さて、インスタントというのは日常のちょっとした小さなタスクをこなすためのものですから、科学的な複雑さを求めるテストをするのは少し不公平かもしれません。テストとしては確かに不公平です。それでも、私は限界まで試して何が可能かを見てみたいのです。10ステップ、つまりボタンを10回押して緊急脱出するという結果は、平凡な結果です。時間を無視して、どれだけ速かったかという時間的要素を考慮に入れれば、これは許容できる結果だと言えるかもしれません。すべてのボタン操作を見てみると、すべての条件、すべてのフラグ、すべての最適化、すべての制約が提示されています。8を押す、はい。10を押す、素晴らしい。そして最後に29階で緊急脱出です。最終結果はボタンを10回押すことでした。
罠の回避とQN 3.6の初回結果
なるほど、罠に一つ引っかかってしまいましたね。わかりました。つまり、この罠を回避するだけの十分な知能を適用できなかったということです。ここに結果が出ています。罠に一つ引っかかっています。この罠から抜け出すだけの知能が足りませんでした。非常に速かったのですが、知能がゼロというわけではないものの、これを解決するための知能は非常に限られていました。さて、4分6秒遅れて、QN 3.6の結果が出ました。ボタンを20回押すというのは、本当にひどい結果です。正直なところ、これはこのテストで許容される最大ステップ数です。ですから、これは決して褒められたものではありません。しかし、これは統計的なものですから、運が悪いこともあります。最初の実行で、どこかおかしな極小値、局所的な最小値にはまり込んでしまったのかもしれません。ここからが興味深いところです。ここから抜け出すことができるでしょうか。自己最適化できるでしょうか。でも、最適化を行う前に、検証のための実行を行いましょう。与えられたすべての制約を尊重していることを示してくれと指示します。Instantは瞬時に終わりましたね。これです。あ、いや、まだ考えていますね。よし。結果は、すべての制約が満たされているとのことです。素晴らしいですね。いや、これはすごいです。では、Instantの結果を見てみましょう。これがボタンを押す順序です。そして、ここから一つずつ、各ルール、各条件、各最適化、各制限を確認していきます。はい、状態も維持されています。咳払いをして、29階。赤を保持、緑を保持。すべて揃っていますね。制約の検証です。ボタンを10回押して、緊急脱出。すべてクリアしています。でも、まだ罠は一つ踏んだままでしょうか。ええ、そうです。ですから、たった一つの罠を避けることすら、いわば知能が限られているということですが、信じられないほど高速です。一方、QN 3.6 Maxのプレビュー版は、2分20秒後にボタンを17回押すという結果を出しました。少しは良くなりましたが、私たちが期待しているものとはまったく異なります。ですから、いよいよ最初の最適化を実行する時が来たと思います。
最適化と戦略の探索
ご覧の通り、すでにテキストを用意して待っていました。ここにあるテキストで、結果を最適化してくれと指示しますが、同時に、異なる戦略を探索し、中間結果から学び、新しい解決策を提示し、新しい戦略的アプローチを詳細に説明してくれとも付け加えます。極限まで時間が制限されている場合、GPT 5.5 Instantがいくつの戦略を探索するのか見たいので、最適化を実行します。QNには十分な時間があると思います。見てみましょう。1、2、3、4、5つの戦略です。しかし、GPTはどうしているでしょうか。おお、より短いルートを見つけたと言っています。素晴らしいですね。自己最適化できたようです。これは印象的です。結論としては、探索した結果、あ、失敗しましたね。だめでした。試みようとはしたんです。クアトロA215のアプローチでより速い方法を試したようですが、リソースの持続可能性で失敗しています。では、QN 3.6を待っている間に見てみましょう。ご覧の通り、異なる戦略を見て、応答の最適化構造が異なっています。手順を慎重に提示して説明しています。戦略1、戦略2、戦略3を見てください。最適化されていて、これはエレガントで堅牢ですね。QNが見つけた3番目の戦略が、少なくとも今採用しているもののようです。ですから、異なる戦略や異なる前進の道筋を探索するためには、時間が必要だということがわかります。さて、結果はどうなったでしょうか。これはライブで行っています。GPT 5.5 Instantを見てみましょう。より短いルートを見つけましたが、失敗しています。これは興味深いですね。何百もある最適化のパスの中から、考えられるオプションを一つだけ選んで、それだけを確認したということです。時に非常に運が良くて正解を引き当てることもありますが、私たちが扱っているのは統計ですから、一般的には期待していたものにはならないでしょう。ご覧の通り、やはり役に立たない結果でした。では、何が戦略を変えたのでしょうか。早い段階では、ボタンを押す回数よりもトークンの生成を重視したということです。面白いアイデアですが、役に立ちませんね。これは間違っています。ただの試行錯誤だったことがわかります。この戦略だけでいこうとした結果、十分ではなかったということです。残念ですが、この最適化の実行では、いかなる形でも最適化できませんでした。たった一つを試す時間しかありませんでした。
思考時間と最終結果の比較
統計の話はご存知の通りです。お話ししたように、運が良ければ当たることもあります。しかし一般的に、この時間軸と応答を考慮すると、最適化の実行はGPT 5.5 Instantに深い洞察をほとんどもたらさなかったと言えるでしょう。だからこそ、高い性能が求められるのです。モデルには考える時間を与えなければなりません。さて、QNに切り替えましょう。前回の実行では、リソース管理の観点で登っていきました。素晴らしいですね。この17回ボタンを押すという冗長な解決策でしたが、その後の途中経過の探索と学習が素晴らしいです。時間を与えればいいだけなんです。2回目を実行して、時間があるから別の戦略を試してごらんと伝えるのです。素晴らしいですね。ここだけの話ですが、この3.6は1兆個のフリーパラメータを持つモデルです。これはモンスター級のモデルです。しかし、そんなモンスターでも、時にはうまくいかないことがあります。見てください、ボタンを8回押して緊急脱出です。これは優秀ですね。本当に素晴らしいです。見事としか言いようがありません。AIには考える時間が必要な時があるんです。特に科学に関することであればなおさらです。ボタンを8回、美しいですね。これこそが求めていたものです。最初はとても絶望的に見えましたよね。ボタンを20回押し、検証では17回でした。しかし、最適化を実行すればこのようにシンプルになり、素晴らしい結果が返ってきました。絶対にロジックフラグもセーフモードもクリアしていて、禁じられた罠もゼロです。完璧です。なぜうまくいったのでしょうか。最適化を実行し、ABCコードの要件を自然な上昇と一致させることで、ベクトル成分をひねったのです。どうやって道を進めるかという少し違うアイデアを取り入れただけで、突然3番目の結果がここに出ました。前のものに対する最適化です。ボタンを8回押して緊急脱出。優秀です。美しいですね。ここで2回目の検証を実行します。もちろん結果は、両方のモデルが検証に合格しました。再び、まったく同じ結果です。しかし、おわかりの通り、QNの方が単に優れているということです。間違いありません。GPT 5.5と比較して、こちらはボタンを8回押すだけで済んだのですから。


コメント