新型DeepSeek V3.2思考モデル:Gemini 3 Proに匹敵するのか?

LLM・言語モデル
この記事は約9分で読めます。

本動画では、DeepSeekが新たにリリースしたDeepSeek V3.2思考モデルの性能を詳細に検証している。2ヶ月前のベータ版から大幅にアップデートされた本モデルは、Gemini 3 ProやGPT-5といった最先端AIとの比較を通じて、その推論能力が評価される。特にAIME25ベンチマークでは特別最適化版が96%を記録しGemini 3 Proを上回ったが、標準版は93%に留まる。投稿者は独自に設計した複雑なエレベーター論理パズルを用いて、思考モデルと非思考モデルの両方をテストし、それぞれの推論アプローチの特徴を明らかにする。結果として、DeepSeek V3.2は詳細な推論プロセスを透明に示す優れた能力を持つものの、極めて複雑な抽象的推論タスクにおいてはGemini 3 Proに及ばないことが判明した。ただし、日常的な推論タスクにおいては十分に強力な論理エンジンとして機能することが確認されている。

NEW DeepSeek V3.2 Thinking: Equal to Gemini 3 PRO?
Finally. The improved version of DeepSeek 3.2 was released today ... With maximum Test Time Scaling. I am testing the th...

挨拶

こんにちは、コミュニティの皆さん。全く新しいモデル、DeepSeek V3.2思考モデルが登場しました。ついに来ましたね。というのも、2ヶ月前に実験版、ベータモデルを手にしていたんです。そしてコミュニティによって約64,000回ダウンロードされました。でも今日、今日ついに全く新しい最終版、DeepSeek V3.2、思考版と非思考プラス版を手に入れたんです。

ええ、ダウンロード数は正確にゼロです。つまり私はこのダウンロード開始から最初の数時間以内にここにいるわけです。そして完全な技術レポートも入手できます。このリンクをクリックするだけで、すべての詳細がここにあります。DeepSeek AIはここで彼らが最適化したすべてを教えてくれています。DeepSeekスパースアテンション、スケーラブルな強化学習フレームワーク、そして本当に興味深いのは大規模な、巨大なタスク合成パイプラインです。そして彼らはすべてを説明しており、素晴らしいことにGPT-5やGemini 3 Proと比較しているんです。つまり全く新しい、最新のデータがあるわけです。では見ていきましょう。

DeepSeek V3.2の性能比較

今ここで濃い青色で見えているのがDeepSeek V3.2です。そしてここが思考版です。つまりテスト時スケーリングを使った推論バージョンということですね。思考版と非思考版の両方をテストしてお見せします。でも注目してください。AIME25だけを見てみましょう。ここで濃い青色で見えるのがDeepSeek V3.2思考版です。

次にここで94.6を記録しているのがGPT-5 highです。それからClaude 4.5があります。ここでClaude 4.5 Sonnetへのパフォーマンス低下があります。そしてここがベンチマークのGemini 3.0 Proです。Gemini 3 Proが95%で、DeepSeek V3.2思考版はわずか93%しかないことに気づくでしょう。そこで彼らはここで96%を達成した非常に特別なDeepSeekバージョンを設計したんです。

つまりAIME25においては、現行バージョンでGemini 3 Proを上回ったということです。ご覧のとおり、私たちはベンチマーク最適化の領域にいます。そして他のすべてのベンチマークでもこれが見られます。でも一般的に言えば、見てください、ここのGemini 3 Proは背景からほとんど見分けがつかないほど薄い色ですが、本当にDeepSeek V3.2思考版を圧倒しています。でも見てみましょう。これはマーケティング部門が私たちに伝えていることですから、もちろん私たちはこれを検証したいんです。

ええ、この特別なものについて知りたいなら、もちろん、DeepSeekが教えてくれるところによると、このモデルは強化学習中の長さペナルティを減らした推論データのみで訓練されたそうです。つまり、何か非常に特別なものです。

独自テストによる検証

見てみましょう。私のシンプルなテストを比較したい場合、ご存知のようにエレベーターテストです。エレベーターは0階から50階まで行きます。そして特定のシーケンスのための特定のボタン押下があります。ここにOpus 4.5思考版と非思考版での同じテストがあります。ここにGPT-5.1での同じテストがあります。そしてここにGrok 4.1思考版対Gemini 3 Proでの同じテストがあります。

そして本物のGemini 3 Proが欲しい場合は、ここです、127秒、これがあなたのためのビデオです。でも始めましょう。ここで今、中国のプラットフォームDeepSeekにいます。DeepSeek V3.2を起動しています。今すぐ開始します。DeepSeek V3.2への無料アクセスです。実験版ではありません。今、最終版を手に入れました。そしてここにいます。

さて、ディープシンクを有効にしましょう。これをクリックして、ねえ、あなたは何のモデルですか、と言いましょう。いいえ、答えは得られないと思いますが、少なくとも正しい場所にいることは確認できます。いいえ、思考プロセスがあって、それから答えが「私はDeepSeek V3です」。まあ、それ以外は期待していません。ここで私のテストを入力して、見てみましょう。

今ここで推論トレースが本当に透明に見えていますね。これは要約ではありません。これは本当にこのモデルの思考そのものです。透明であることを私は気に入っていますが、ご覧のとおり、これを800%加速しています。また、私は元の中国のプラットフォームにいます。なぜかというと、よく見るとわかりますが、このモデルは絶対的なプロフェッショナルな推論者なんです。すべての詳細に入り込み、すべての単一のパスを探索します。

しかし、私の論理テストは、抽象的推論能力を検証したいように設計されていました。このモデルは試行しています。レイヤー1に100のパスがある場合、すべての100のパスを試します。それからレイヤー2に行き、レイヤー2には1,000のパスがあり、1,000のパスを通過します。レイヤー3には10,000のパスがあり、私が構築した解空間は単純に巨大です。このパズルを解くことはできません。ええ、解けますが、数週間かかります。論理的な複合体、論理的な構造を見つけなければならず、それから各レベルでどのように解決できるかという洞察を適用しなければなりません。戦略が必要なんです。

ただブルートフォースで解こうとすることはできません。でもこれがまさにここで起こっていることです。ご覧のとおり、絶対的に詳細です。ループはありません。すべての可能な変更、修正、順列、すべてを完璧にまっすぐな順序で進んでいます。でも私のタスクはこれには複雑すぎます。でも通常の世界のタスクはそこまで複雑ではないでしょう。

だからもし通常のベンチマークに行けば、これは美しい推論モデルになるでしょう。でも私のモデルをここで完成させることができるか見てみましょう。というのも、訓練哲学が完全に異なっているのがわかるからです。私が構築したこの種の複雑さレベルに必要なものです。素晴らしい推論モデルのようですが、抽象的な見通しが欠けています。

ご覧のとおり、申し訳ありませんが、時間と空間の制約内でこのパズルを完全に解くことはできません。では非思考版に行きましょう。いいえ、DeepSeek V3.2、ご覧のとおりDeepSeekは有効化されていません。これはまだ非思考版モデルです。800%加速です。今、これははるかに平易なレベルです。

試してみます。今ここで機械の中にどれだけあるのかわかりません。ご覧のとおり、新しいチャットを有効化しました。でもごく短時間でボタン押下解決策を見つけました。14回の押下です。すべて素晴らしいです。美しいですね。

LM Arenaでのテスト

今度はLM Arenaでこれを試してみようと思いました。そこに行けます。ログインする必要もありません。お金を払う必要もありません。今ここでLM Arenaにいます。DeepSeek V3.2思考版です。そして今、突然良く見えます。これがここです。見てください、フラグがあります。ボタンを理解しています。待って、ミラーモードがあります。うーん。

解決可能なように設計されています。明確な解釈を仮定する必要があります。あるいは、これをすることもできます。でも分析すればするほど、この細かいことに戻ってきます。分子レベルの解決策は必要ないんです。このトピックに対する戦略的解決策が必要なんです。だからこの特定の複雑さレベルには、このモデルは本当に適していません。

思考版と非思考版モデルですが、ご覧になるでしょう、いいえ、本当にそうではありません。ただし、Alan Arenaでこれらの実行を3回行ったことを言わなければなりません。そしてご覧のとおり、これらの3回の実行の中でベストのものです。なぜこれがベストなのかと言いますか。信じられないでしょう。

8ステップの解決策、8ボタン押下解決策を見つけたんです。これは素晴らしい、本当に素晴らしいです。でもこれはおそらく多少の運だったと思います。でもとにかく、8回押下解決策を見つけました。素晴らしい。でも別の問題に遭遇しました。すぐに見えるでしょう。

ただ待ってください。ここで論理プロセスを通過しています。ご覧のとおり、これは統計モデルです。全くわかりません。3回中のベスト、6回中のベスト、12回中のベストです。事前には決してわかりません。だから試して試して試して、それから統計的結果を得始めることができるかもしれません。でも3回の実行では、これは統計的結果ではありません。これは単にモデルの感触を得るためのものです。

ええ。でも見てください。近づいてきています。正しい道にいます。はい、今解決策に絞り込もうとしています。さて、今ここです。はい、9階にいます。9階から正しい論証を見つけました。50階に行く必要があります。あるいは別の場所に登ることもできます。だからこれは役に立ちません。

今別の戦略を試しています。でも今は少しメタ戦略です。そして今突然新しい道を見つけます。見てください。あるいは、29階から非常口に行こうとすることもできます。そしてこれが今、純粋な偶然で、純粋な幸運でここで正しい方法です。だからこれらのことでラッキーになれるんです。ただ待ってください。すぐに出てきます。見てください、総押下回数がここにあります。

8ボタン押下と非常口です。ここで8回押下解決策を見つけました。これは正しい、これは有効な解決策です。そして今、検証に行き、これを検証できるでしょう。なぜなら私はこれを1年間やってきたからです。これは正しい解決策です。でも次に何が起こったか信じられないでしょう。

評価実行中で、より短い解決策を見つけようともしていました。ご覧のとおり、8ステップを使いました。カットオフがありました。それで、DeepSeek V3.2思考版、5つ星です。では、この中国モデルとアメリカモデルの戦いはどうでしょうか。誰が勝っているのでしょうか。

結論と総評

今のところ、Gemini 3 Proが打ち負かすべきモデルのようです。Geminiは美しい一貫性を持ち、はるかに高速です。また、このDeepSeek V3.2思考版は本当に強力なモデルですが、私のテストが含む複雑さのクラスについては、期待したほど良くはありませんでした。でも気にしないでください。日常的なタスク、通常の推論タスクには、優れた論理エンジンになれます。

このビデオを楽しんでいただけたら嬉しいです。少し楽しんで、モデルのダイナミクスと論証への洞察を得られたらと思います。次のビデオでお会いできたら素晴らしいです。

コメント

タイトルとURLをコピーしました