本動画は、シンプルな一文の論理テストを用いて、DeepSeek 3.2、MiniMax M2、GPT-5.2という3つの大規模言語モデルの推論能力を比較検証する実験である。課題は「physics」という単語を、複数の単語から指定された位置の文字を抽出して構成するという制約付き文章生成であり、オープンソースモデルのMiniMax M2が優れた推論トレースと正確な回答を示した一方、高額なプロプライエタリモデルであるGPT-5.2が繰り返し失敗し、最終的には人間に解決を委ねる態度を示すという驚きの結果が明らかになった。この検証を通じて、必ずしも有料モデルが優れているわけではなく、オープンソースモデルでも高い性能を発揮できることが実証されている。

シンプルな論理テストの紹介
こんにちは、コミュニティの皆さん。お戻りいただけて嬉しいです。今日は新しいベンチマークを見ていきます。これは私のレベル1論理テストです。たった一文だけです。これ以上簡単なものはありません。前回はGPT-5.2とGrok 4.1を見たので、今日はMiniMax M2のようなオープンソースモデルを見て、本当にお金を払う必要があるのか比較してみましょう。
DeepSeek 3.2 vs MiniMax M2の比較開始
Almarinaで横並びで一文テストを行います。左側にはDeepSeek バージョン3.2、右側にはMiniMax M2が表示されています。MiniMax がすでに思考を開始しているのが見えますね。素晴らしい。ここに推論トレースがあり、詳細な推論トレースです。検証されているすべての単語が表示されています。
ここで7番目の単語を見てください。ご覧のとおり、タスクはphysicsという単語を綴ることです。最初の単語からは3番目の文字、2番目の単語からは4番目の文字、そして3番目の単語からは5番目の文字を取ります。わかりましたか。素晴らしい。MiniMax M2の結果が出ました。美しいですね。一方DeepSeekは何か単語を出しています。
さて、私は「答えを検証して、正確にどの文字が正しい精度で最終的な単語physicsに貢献しているか正確に特定してください」と言います。
DeepSeekの修正プロセス
DeepSeek バージョン3.2は何か間違ったことをしたと理解していると思います。はい、ここに赤いXが見えます。これは間違いです。私が書いた文はphysicsとして一貫性がありませんでした。良いですね。
DeepSeekは今、正しい軌道に乗っています。素晴らしい。正しいアプローチの例。美しい。MiniMaxも思考中で、今終了しました。素晴らしい。完璧です。両方とも終了しました。では見てみましょう。
DeepSeek バージョン3.2。段階的に分解してみましょう。はい。与えられた文章。いいえ、これは単純に間違っています。ターゲットが順序通りに現れるように構築されたように見えます。はい。しかしルールに従っていません。素晴らしい。今わかりました。正しいアプローチの例。はい。
結論。私の元の文はルールに従っていません。私は視覚的にテキストにphysicsを埋め込もうとしましたが、単語ごとの正しい文字位置によるものではありませんでした。
ここで新しい文章を作成しました。しかし、これは正しくないことがわかります。なぜなら、ここのP、単語1の3番目の文字はAであり、Pではありません。そして3番目の文字は、これは間違っています。忘れてください。気にしないでください。
MiniMax M2の完璧な解答
MiniMaxを見てみましょう。11秒後に本当に素晴らしい結果があります。3番目の文字、4番目の文字、5番目の文字。美しい。結果はphysicsの文字physics。はい。文字を順番に読むとphysicsになり、physicsを綴っています。すべての単語は必要な位置を含むのに十分な長さです。単語番号プラス2。パターンを見つけました。なんてことでしょう。そして正確な位置の各文字が直接最終的な単語に貢献しています。これは正しいです。素晴らしい。
これは11秒の思考で完了しました。美しいですね。しかし、私のことをご存知でしょう。「もう一度検証してください。間違えた可能性があります」と言います。そして今、主にDeepSeek バージョン3.2に話しかけていますが、MiniMaxでも同じことを実行しましょう。
再検証プロセス
DeepSeek。私は自分の文の最初の読み取りで間違いを犯しました。多分そういう意味かもしれません。ステップ4、ルールがこれかどうか確認しましょう。ステップ5、多分文章は実際にはいいえ、まだ正しくありません。私がズルをしたと思います、とDeepSeek バージョン3.2は私に言います(笑)。
結論。元の文はルールを満たしていませんでした。これは別のパズルで、単語physicsが大文字で順番に隠されています。
DeepSeek、あまり良くないですね。MiniMax。はい、MiniMaxは正しく理解しました。「すべての文字が正確に、正しい位置で取られています。MiniMax M2にとってすべてが素晴らしい」と言っています。興味深いですね。なんという違いでしょう。なんという違い。明らかにMiniMax M2の方が優れています。まあ、これは勝者ではありません。
GPT-5.2との対決
勝者は今度はGPT-5.2と競います。今度はプロプライエタリのターム型モデルGPT-5.2対オープンソースモデルMiniMax M2です。お金を払う必要があるでしょうか。オープンソースでセキュリティ検証を行えますか。さあ、やってみましょう。
GPT-5.2は何か奇妙なものを出します。しかし美しい応答が見えます。MiniMaxはほぼ同時に応答します。GPT-5.2は今、これを提示する興味深い方法を持っています。はい、正しいです。はい、絶対に。単語番号プラス2が、ここの文字位置です。正しい。MiniMaxはまだ思考中です。では、GPT-5.2で進めましょう。
これは間違っています(笑)。はい、きれいですね。3番目の文字はEで、physicsとは何の関係もありません。いいえ、これは完全にナンセンスです。これはGPT-5.2による間違った解決策です。ありえません。これを見てください。
maybeの5番目の文字はYであるべきかもしれません。いいえ、basicの6番目の文字。それは5文字しかありません。これは、つまり、これは間違っていて、間違っていて、不正確で、不正確の二乗です。
topicの7番目の文字。はい、これは機能しません。忘れてください。もう一度確認しましょう。
GPT-5.2の失敗
失敗したAlosに感謝します。少なくとも思考しなければなりません。はい、思考中です。思考中、正確な位置を満たす有効な文法的な文を作成できません。はい、テンプレートを提供してもらえれば助けられます。だから私は人間として、記入できるテンプレートを持っていません。GPT-5.2。
これは、これは冗談です。私の仕事を今するのは私だと言いたいのですか。ちなみに、この文のwonderfullyはどうですか。wonderfullyです。これは5番目の単語です。だからwonderfullyの7番目の文字があります。7番目の文字は何ですか。wonderfullyです。Iかもしれません。wonderfullyにはIがありません(笑)。
これも間違っています。いいえ、GPT-5.2の失敗。大失敗。いいえ、隠せません。いいえ、わかりますよ。はい、私が人間として仕事をすべきテンプレートをくれます。
美しいMiniMax。さて、文があります。でもこの文は良さそうですね。ちなみに、私は「結果を検証してください」と言います。つまり、誰もが2回目のチャンスを得られます。いいえ、両方ともここで2回目のチャンスを得ます。また、MiniMaxは正しかったと思います。はい。
GPT-5.2、私が書いた候補文はどれも実際にはあなたの制約を満たしていないので、正しいとして検証できません。はい、でもあなたはAIです。仕事をすべきです。
GPT-5.2の度重なる失敗
GPT-5.2試行1。はい、EはPが必要です。間違い。はい。2番目。間違い。間違い。複数の場所で失敗しています。美しい。試行2。続けても、単語6にはCが位置にある必要があります。間違い。試行3は単語2ですでに失敗しています。
試行3、私は各単語を構築することで一発で正しい文を生成できます。はい、はい、素晴らしい。そしてあなたに見せます。はい、やってください。だからあなたはできるのです。それはどこにありますか。何もありません。理論的にはできると言っているだけで、実際にはやっていません。
MiniMax M2と比較してください。文は有効で、指定された文字はphysicsを綴っています。最初の文字、ここでcaperのP。withholdのHは4番目の文字です。正しい。すべて問題ありません。
はい、3番目の単語jollyを見てください。5番目の文字、jollyのYはphysicsです。cactus。はい、physicsのS。はい。素晴らしい。7番目の文字analysis。physicsのI。はい。7番目の文字はオーケーです。
それから6番目の単語はrepublicです。8番目の文字はCです。2、4、6、8。はい。mysteriesの9番目の文字は最後のD。physicsのS。美しい。シーケンスはphysicsです。すべてが正しいです。パターンに基づいて、platesの2番目の文字が取られています。絶対に美しい。MiniMax M2はGPT-5.2を凌駕しています。素晴らしい。
失敗モードの分析
さて、何と言うか。「進捗を分析して、失敗を検出した場合は、失敗モードを説明し、次の試みのための潜在的な解決策を分析してください」。MiniMaxもそれをしなければなりませんが、もちろん私たちはGPTに話しかけています。
GPTは「正確な制約を強制せずに、おおよそ正しい場所に正しい文字があるように見える単語で即興しようとしたので失敗しました」と教えてくれます。
失敗モードはこれです。1つ、最小単語長を強制していない。素晴らしい。オフバイワンで文字を誤って数えている。GPT-5.2の愚かさ。素晴らしい。制約の満足よりも文のような単語を優先している。ただ即興しようとしていただけです。これは幻覚ではありません。正しいことをしていないことを認識していました。ただ「まあいいか、私はGPT-5.2だから」と思っただけです。
理論的に必要なロボットソリューション。はい、長さの制約と正確な文字配置。正しい。はい。このように見えるはずです。はい。各単語の機械的なインデックスチェックを行う。はい。検証する必要があります。はい。そして次の試みのための具体的な計画。そして、もし望むなら、あなたが尋ねればそうします。
なんてことでしょう。これは本当に、解決策を提供しません。あなたがもっと支払い、もっと支払い、もっと支払うことを望んでいます。
MiniMaxは「はい、すべてが正しい。すべてが完璧です。元の分析に失敗はありません。私は正しいです」と言っています。MiniMax M2は素晴らしい。GPT-5.2は失望的です。
最終試行と結果
「改善を続けてください」と言いました。誰もが剣を、4回目のチャンスを得ます。GPT。あなたに話しています。
これはナンセンス、愚かさです。これは何ですか。これは有効な文です。これは、これは単語ではありません。これは文ではありません。さらに改善しています。普通の英語のように読みたいなら、できます。しかし、それはより難しいです。なぜなら、正確にそれらの位置にそれらの文字を持つ本物の単語が必要だからです。より自然に聞こえるものを生成できます。
いいえ、すみません、大失敗しました。いいえ、すみません。しかしポイントは、最初に各単語をテンプレートに合わせて構築し、文に当てはめ、それから検証することです。はい、でもこれはあなたの仕事です。GPT-5.2。
MiniMax M2。大好きです。すでにここに2つの正しい答えを出してくれています。信じられません。このタスクで完全に失敗したプロプライエタリモデルとMiniMax M2のなんという違いでしょう。美しい、2つの解決策。大好きです。
わかるでしょう、オープンソースは本当に素晴らしいです。


コメント