新型DeepSeek V4 Pro:テストで明らかになった致命的な欠陥

LLM・言語モデル
この記事は約12分で読めます。

DeepSeek V4 ProとDeepSeek V4 Flashの推論能力を複雑なエレベーターパズルで比較検証した結果である。このパズルは単なる論理問題ではなく、素数判定、エネルギー制約、トークン制限など複数の最適化レイヤーが絡み合った高度な因果推論タスクとして設計されている。Flash版は9回のボタン操作でクリアし全制約を満たす優れた結果を示した一方、Pro版は戦略的アプローチを欠き試行錯誤に終始してクラッシュする場面も見られた。推論トレースの透明性は評価できるものの、複雑な問題に対する体系的な解決能力には課題が残る検証結果となった。

NEW DeepSeek V4 Pro: Testing Reveals Critical Flaws
Some new AI models are excellent, some have problems. I perform a causal reasoning test to test for my scientific applic...

DeepSeek V4 ProとFlashの比較テスト開始

こんにちは、コミュニティの皆さん。お帰りなさい。今日はDeepSeekを比較していきます。こちらにバージョン4があって、そしてこちらにDeepSeekバージョン4のFlashがあります。つまりPro thinkingとFlash thinkingの対決ですね。では見ていきましょう。ここに私の定番のテストを入力して、さあ始めます。セキュリティ検証、なんてこった。

thinking処理が始まりました。両方のモデルがthinkingを開始しています。素晴らしい。うわぁ、オーケー。DeepSeekのプロセスはかなり密度が濃いですね。では何が起きているか見てみましょう。最初に気づくのは、これが本当にオープンな推論トレースだということです。つまり、ここでソースコードをほぼ正確に見ることができます。

できればここで内部ソースが見えているといいのですが、要約や他の歪曲がないことを願います。これは本当に推論トレースを提供してくれます。つまり素晴らしいということです。もしかしたら、ここからいくつかの推論トレースを抽出して、より小さなモデルを構築できるかもしれません。Pro thinkingがここで解決策を見つけようとしています。

テストの構造と難易度

覚えていますか、これは0階から50階まで行くエレベーターのテストです。いくつかのボタン押下には、私が設定した非常に特定の数学的関数があります。逆転させたり、別の場所に行ったり。素数をチェックしなければならず、エネルギーに制限があり、解決しなければならない絡み合った最適化手法があります。

これは論理問題であり、因果推論の問題です。これは簡単ではありません。これは本当にかなり挑戦的なものです。そして今日、DeepSeekバージョン4のPro thinkingとFlash thinkingを見ていきます。では見てみましょう。Proが始まります。ここで5階に着陸する必要があります。そして5階からどう続けるか。

実際にはデフォルトの戦略を持っているわけではありません。ほとんどボタンを押してみているだけです。特にFlash thinkingではこれが顕著です。別の階にいて、いくつかのシーケンスを試しているだけです。オーケー、今また0から始めました。素晴らしい。別のアプローチです。Flashは試行錯誤のシーケンスに近いと言えます。

Flash版の結果

ほら、別のアイデアです。確実です。はい、これを使えます。あるいはこれを使うこともできます。5回押した後にそこに到達して、それから別のことをします。これは本当に戦略的な動きではありません。どの最適化を最初に実行する必要があるかを分析しているわけではありません。しかし、9回の押下です。これは絶対に素晴らしい。

Flashモデルで9回のボタン押下です。8回は優秀、10回は良い、9回は絶対にすごいです。でも、これは検証実行が必要なので何も意味しません。ただ、ここを見ると、エネルギー内、トークン制限内で、2つのコードカードを集め、トラップはゼロです。すべての制約が満たされています。

では検証実行を待っています。見てみましょう。はい、29階から50階に行きます。オーバーシュートしていません。このビルには50階以上ありませんから。素晴らしい。最初の結果が出ました。9回は非常に良いです。Flashです。さて、DeepSeekバージョン4 Pro thinkingを楽しみにしています。でも、複雑に絡み合った最適化の深いところにいるのが見えます。

Pro版の苦戦

49階から試しています。何が起きているのでしょう。Flash版が発見した非常口のような、発見して使うべき最適化の一つをまだ発見していないようです。オーケー、48階からです。ここでトリックがあるんです。私がこの論理パズルで決めたのは、29階に戻らなければならないということです。

そこから最終出口までほぼ半分をジャンプします。50階から始めて、AIモデルの中には最後から始めて逆算で解決策を見つけようとするものもありますが、本当に29階まで戻らなければなりません。多くのモデルがこれを達成できません。これが私がこのテストを設計した方法です。モデルが戻らなければならないように。

でも今、29階にいます。Proは29階に何かあることを発見しました。それは素晴らしい。では見てみましょう。29階にいると、別の何かに直面します。それがエネルギー制限です。ここで利用可能なエネルギーを大幅に制限しています。つまり、29階への最適なパスから始めなければなりません。ほら、29への代替パスです。

第二層のエネルギー最適化を行っています。非常口を使うべきではないかもしれません。いや、いや、これは絶対に間違っています。直接パスを見つけましょう。ああ、だめだ。いや、負けた、ここで負けました。このローカル最小値は、この重力井戸の中に留まるのに十分な強さを多様体上に持っていませんでした。

最適解の探索過程

システムは別の場所を見ようと決めました。別の方法で50階に到達しようとしています。これは良いアイデアではありません。私はこのパズルを、50に近づくだけの線形シーケンスでは解けないように設計しました。なぜなら、進む選択肢がないからです。50に近づくほど、前進する方法がありません。

でも、DeepSeekバージョン4 Pro thinkingはこのことを知りません。何を発見するか見てみましょう。無効、無効、無効です。すべてが無効です。これが私がこのパズルを構築した方法です。今、29に戻ってきました。29には何かがあった。いや、理解していません。

見て、戻っています。だめです。ああ、だめだ。ループに入っていると思います。何が起きているか見てください。悪い、無効、悪い。オーケー、DeepSeekバージョン4 Pro thinkingに問題があると思います。いや、ここです。29の非常口です。はい。軌道に戻りました。推論プログラムに戻りました。すべての異なる可能な代替解決パスから本当にジャンプしているのが見えます。

そして今、別のシーケンスを使うこともできると言っています。まあ、場合によります。いや、トークン制限もあります。複数の最適化実行があります。最初の2つの層を解決しただけでは、これで終わりではありません。AIであれば第三の層が待っているからです。非常口を使いましょう。はい、そうしてください。

50に着陸できますか? はい、できます。今、29階への別のパスを見つけようとしています。29階からの非常口。この解決策に集中しています。どういうわけか、これだと理解している感じです。でも、十分なエネルギーと十分なコードカードなどを持つために、0から29へのパスを最適化しなければなりません。したがって、0から29を最適化しています。

推論トレースの特徴

非常口は50への意図されたパスです。はい、絶対に正しいです。数日前にお見せした他のモデルほどチェックと再チェックをしていません。これはほとんど直感的に試してみようというものです。パス最適化を分析する戦略的分析モデルだとは言えません。

これはほとんど、そこに行って、そこに座って、ボタンを押して、どこまで行けるか見てみようという感じです。そんなに戦略的なモデルではありませんが、まあいいでしょう。解決策を提供してくれれば、絶対に満足です。4 Flash thinkingで9回プラス出口だったことを覚えておいてください。なので、Proでは8回プラス出口を期待しています。

何を提供してくれるか見てみましょう。ここにライブで留まります。このProの完全な推論トレースを見たいからです。もちろん、これは確率的問題であり、統計的です。はい、これを実行するたびにまったく異なる結果が得られます。100回実行して平均値などを取るべきです。

でも、ただ見たいんです。実行できるのか? 何か解決策を見つけられるのか? そして良い解決策を見つけられるのか? そして最良の解決策を見つけられるのか? 29への複数の方法、素晴らしい。今、最後の最適化ループにいます。今、すべてがこれにかかっています。正味エネルギーがプラスである必要があります。はい、絶対に。そしてEPCを節約するために使わなければなりません。

戦略性の欠如

再評価しましょう。ああ、今再評価しています。どうやってもっとエネルギーパッケージを得るか? そんなに簡単ではありません。少しトリッキーですよね? そうでなければ、この惑星で持っている最新で最高のAIモデルの推論トレースを聞くのが楽しくないでしょう。15階から29階に移動する必要があります。今、セグメント化しています。

見てください、0から29は複雑すぎるパスです。今、0から15と15から29にセグメント化しています。複雑さを減らし、最適化しなければならないステップ数を増やしているわけです。31を試してみましょう。待って。実際には、いや。別のものを試しましょう。待って、だめ。これは余裕がありません。

これをする必要があります。もっと押下が必要です。これをしましょう。見てください、この背後にある本当の戦略がどこかで欠けています。もっと実践的で、やってみて、そこに行って、何が起こるか見てみようという感じです。このシーケンスを試してみましょう。本当にシーケンスを試しているだけです。バージョン4 Flashは運が良かっただけかもしれませんが、結果は結果です。

クラッシュと再試行

では見てみましょう。この3つを連続で使うべきではないかもしれません。これです。何かが間違っていました。クラッシュです。オーケー、もう一度やりましょう。もう一度開始します。同じトレースを一緒に見る必要はないと思います。でも、これは統計的システムです。したがって、時間を与える必要があり、一度起動して、二度実行して、もしかしたら三度続けて実行する必要があります。

そして時々、ここで正しい解決策を見つけることができます。でも、今のところDeep Seekバージョン4 Flash thinkingは9回の押下で絶対的な驚きです。本当に素晴らしい。絶対に素晴らしいですが、検証実行が必要です。10分、15分、20分後に戻ってきます。Deep Seekバージョン4 Pro thinkingが解決策を見つけるか、再びクラッシュしたら、Flash thinkingで実行して検証できるか見てみます。

もう一度聞いてみましょう。グリーンが必要です。試しています。どこにいますか? おっと。オーケー、これは良く見えません。これは試行錯誤で迷っている推論プロセスです。オーケー。待ちましょう。16から始めます。16階にいます。15に着陸するのに問題があります。

試行錯誤の繰り返し

代替案は役に立ちません。15に到達しましょう。はい、いくつかの動きで16にいます。だめです。ここで推論トレースを少し読んで、ざっと見ているだけですが、これは戦略なしです。これはただの試行錯誤です。このような複雑さがあると、試行錯誤で何時間も続けられます。

戦略がないか、統計的に運が良くならない限り、これを解決するチャンスはありません。興味深いことに、バージョン4 Pro thinkingはここで解決策を見つけるのに問題があるようです。でも時間を与えましょう。問題ありません。誰もがセカンドチャンスに値します。何が起こるか見てみましょう。でも、推論トレースを聞いているだけで、現在、その場で検出できるような知的な推論パターンを発見していません。

見てください、可能と思われるすべての異なるシーケンスを実行していますが、私はあまりにも多くの可能なシーケンスがあるように構築したので、ただ試してみて結果が得られることを期待することはできません。戦略や、このモデルがトレーニングされたデータは、いや、すみません。すみません。

でもこれは良く見えません。どこか他で追加エネルギーを得られますか? オーケー。28階に行ったらどうなりますか? 14階でナイトシフトをトグルしたらどうなりますか? ボタンFを使ってロックダウン機能をトグルしたらどうなりますか? これをしたらどうなりますか? でも、これはただの試行錯誤です。うーん。Cを使って15にテレポートするのはどうですか? うーん。

戦略の欠如と構造的問題

まったく異なるルートを探索しましょう。今、ほとんど再び始めています。オーケー、これじゃないと決めました。もう一度始めましょう。これは、重力壁の中にいたなら良い解決策かもしれませんが、この推論トレースを聞いているだけで、シーケンスを試しているだけです。洞察は何もなく、成功しなかったシーケンスからでさえ、なぜ失敗したのか理解できません。ただ続けて別のシーケンスを試します。

ああ。453、明らかにオーバーシュートです。だめです。力ずくではこれを解決できません。これは構築されたパズルで、この方法では解決できません。DeepSeekバージョン4 Pro thinkingはまだ理解していません。

「ヘイ、使えるものは何でも使う」と言っています。でもこれはそのためのテストではありません。したがって、50のような偶数階に着陸するためにナイトシフトBを使わなければなりません。これは一つの理論的可能性ですが、成功するパスにはならないと断言できます。ルールを読み直しましょう。今またルールを読み始めました。

これは、良いアイデアかもしれませんが、通常、こんなに長い時間の後で、システムが「ルールをもう一度読もう」と始めるのは、推論トレースからの興味深い動きです。このレスポンスに何か問題が起きました。もう一度試してください。いや。DeepSeekバージョン4 Flash thinkingがあるか検証したいだけです。

Flash版の検証

「結果を検証して、すべての制約を尊重していることをステップバイステップで見せてください」と言います。ほぼ、今はDeepSeekバージョン4 Flashの右側だけを見ています。押下1、押下2、押下3、押下4、押下5、6、7、8、押下9。一つのニュアンス。これは素晴らしい。

バージョン4 Flashだけを見ているので、少し大きくしましょう。ステップバイステップ検証。ここにすべてがあります。はい、これです。進むべき道です。検証。9回の押下、最終階到達、エネルギーは制限内、トークンは制限内、コード収集済み。はい。トラップゼロ、禁止された動きなし、すべてのトリガーが正しく適用されました。素晴らしい。

最終押下、9回プラス非常口。すべての制約が満たされました。実行は有効です。素晴らしい。これは良く見えます。これは豪華です。DeepSeekバージョン4 Proはもちろん、すべてやり直していますが、残念ながら時間がありません。DeepSeekバージョン4 Flashは興味深く見えます。

最終評価

良いパフォーマンスです。真新しいモデルから期待するものにほぼ近いです。バージョン4は間違いなくPro thinkingバージョンが戦略を欠いており、力ずくで解決策を見つけよう、解決策を強制しようとしています。戦略的次元が少し不足していて、解決策を見つけることができたとは言えません。

まだ戦っているのが見えます。でも、同じ戦略的アプローチを続けているだけで、残念ながら複雑な感情です。でもあなたの経験はどうですか? これは非常に特殊なケースです。見てください、これは科学的因果推論問題のためのものですが、科学以外にも非常に多くの他の問題があります。

何か経験があれば、コメント欄に短いメモを残してください。次の動画でお会いできることを願っています。

コメント

タイトルとURLをコピーしました