DeepSeek V3.1：あなたが思ってるより大きな革新！

DeepSeekが新たにリリースしたV3.1は、単なるマイナーアップグレードを超えた重要なモデルである。従来の推論版と非推論版を統合したハイブリッド型で、エージェントタスクに特化した強化が施されている。オープンウェイトモデルとしては現在最高峰の性能を誇り、特にトークン効率において大幅な改善を実現している。コスト効率も優秀で、API提供価格は従来モデルの半額程度となっており、開発者にとって魅力的な選択肢となっている。

DeepSeek V3.1: Bigger Than You Think!

DeepSeek V3.1 is a unified hybrid reasoning open-weight model that powers agentic workflows—FP8 training, strong post-tr...

DeepSeek V3.1の登場とその意味
モデルの詳細と性能について
トークン効率の重要性
コスト効率と価格設定の課題
モデル推論における技術的課題
Artificial Analysisによる評価
ハイブリッド推論とツール機能
実際のテスト体験

DeepSeek V3.1の登場とその意味

よし、この新しいDeepSeekモデルとそのもっと広い意味について話さなあかんわ。彼らはV3への軽微なアップグレードって言うとるけど、ワイはそれ以上のもんやと思うで。たぶん利用可能な最高のオープンウェイトモデルやろうな。

せやから、このモデルを見てみよか。これがエコシステムにとって何を意味するか、そして人々が何を言うとるかを確認していこうや。

DeepSeekらしいやり方で、彼らは数日前に何の情報もなしにモデルの重みをリリースしたんや。今はもっとたくさんのことがわかっとる。これがエージェント時代への彼らの第一歩なんや。ハイブリッド推論モデルになるはずや。つまり、推論機能と非推論機能の両方を単一のモデルに融合させたってことやな。

せやから、別々のV3とR1を持つことはないんや。そしてそれは、R2も持たへんってことも意味しとる。おそらく次は3.2、3.5、またはV4になるやろうな。彼らはOpenAI、Anthropic、そしてGoogleのGeminiのように、こういうハイブリッドモデルを作っとる会社に合流したわけや。Qwenは最近ハイブリッドモデルから離れたのがとても興味深いアーキテクチャの選択やったけど、ワイは単一モデルを使った推論の方がずっと効率的やと思うし、これはずっと速くて、トークン効率もずっと良いはずや。

それは後でこの動画で見ていくことやけどな。でも彼らの焦点は、特にツールの使用や関数呼び出しのための強力な事後訓練にあるんや。せやから、これは複数ステップのエージェントタスクができるはずで、つまりエージェンティックコーディングやコーディングIDEにとって非常に良い選択肢やろうな。そして彼らは、後で動画で見る予定の、それに関する非常に興味深いリリースを持っとるんや。

でも最も重要なのは、これは新しいモデルやないってことや。実際は、以前のR1推論モデルを訓練するのに使われたV3ベースモデルの上で訓練されとるんや。彼らはほぼ8000億トークンの事前訓練を続けたんや。これは事前訓練でも事後訓練でも、これらのモデルからまだまだ多くを絞り出せるってことを示しとるんや。

モデルの詳細と性能について

モデルの重みはHugging Faceでベースモデルと指示版の両方で利用可能や。よし、彼らの焦点はエージェンティックタスクにあって、Anthropic APIのサポートを追加したのは興味深い動きやな。Qwen QwQ 32Kがリリースされた時のことを覚えとるなら、多くの人がそのモデルをClaude Codeで使おうとしたんや。せやから、彼らがこのモデルを提供しとる価格帯で考えると、Claude Code内で使用するには恐らく最良の選択肢やと思うで。

でも、これはどんなパフォーマンスなんや？以前のバージョンと比較すると、大幅なアップグレードやで。最先端モデルと比較すると、そうは見えへんかもしれんけど、もっと広い意味があると思うんや。

ここにDeepSeek 3.1との簡単な比較があるで。これは非推論バージョンやと思うで、なぜなら推論バージョンはツールが使えへんからや。これは残念やけど、彼らはR1（以前の推論モデル）と比較しとって、非推論バージョンについてはV3と比較しとる。もしこれがそのバージョンなら、SWE verifiedで約50％の大幅な向上や。これは非常に現実的なコーディングベンチマークやで。同様に、SubBench multilingualでのパフォーマンス向上もさらにクレイジーなレベルやで。

他にもいくつかのベンチマークが報告されとって、DeepSeek R1とV3の以前のバージョンと比較して、本当に素晴らしいパフォーマンス向上が得られとる。

でも問題は、他のモデルとどう比較するかやな。せやからTwitterユーザーの一人が、利用可能な情報に基づいてこのプロットをまとめたんや。非推論版、推論版、そして以前のV3バージョンのR1と、Qwen QwQ 32K、GLM-4.5、Sonnet 4があるで。プロプライエタリモデルに関しては適切な比較はSonnet 4になると思うけど、全体的に非推論版と推論版の両方が最先端や、特にオープンウェイトモデルとしてはな。

せやから、これまでで利用可能な最高のオープンウェイトモデルと呼べるやろうな。

ここに、Sonnet 4と比較したより焦点を絞った比較があるで。これはFireworksのCEOであるLinによるものや。Fireworksは重要になるで、なぜなら彼らがモデルをホストするからや。非推論バージョンを比較すると、Sonnet 4に遅れを取っとる。

推論バージョンは、これら3つのベンチマークでSonnet 4を上回っとる。推論バージョンについてはSWE Bench verifiedの結果がないんや。せやからうまくいけば推論バージョン内でエージェンティック機能を持てるやろうし、そうなればずっと強力なモデルになると思うで。

トークン効率の重要性

すべてのベンチマークは話半分に聞いとかなあかんで。でも、ベンチマークよりもさらに重要なのはこのプロットやな。

ここで彼らは、以前のバージョンと比較して同レベルのパフォーマンスを示しとるけど、使用されるトークンの数が違うんや。この新しいバージョンは、はるかにトークン効率が良いんや。これは重要やで、なぜならトークンごとに支払うからや。せやから、トークン効率が良いってことは、同じパフォーマンスに対してはるかに少ないトークンを生成するってことや。

つまり、はるかに少ない支払いで済むってことやな。

ここにDesigner Labというユーザーからの別のプロットがあるで。どこからこのプロットを得たかはわからんけど、このプロットを見ると、研究所とモデルごとの平均相対完了トークン数を比較しとる。Anthropicのモデルは、特に以前のバージョンでは、かなりトークン効率が悪い傾向があるんや。新しいものはどんどん良くなってきとるけどな。

OpenAIのモデルは通常、本当にトークン効率が良いんや。そして、この新しいDeepSeek V3は、OpenAIのオープンウェイトモデルと非常に比較可能やで。

なぜこれが重要なん？これはArier LLMリーダーボードや。o3 highが最高性能のモデルや。Gemini 2.0 Flashは非常に似たパフォーマンスを持っとる。つまり、同じ質問セットを解決するために、同様のパフォーマンスレベルでGeminiを使用した場合、o3を使用した場合と比較して、この特定のベンチマークで同様のパフォーマンスレベルであれば、約3倍少ない支払いになるってことやな。

o3 highは実際にはGemini 2.0 Flashの50％未満やで。両方の価格設定は非常に似とるけど、つまりGemini 2.0 Flashは非常に似たパフォーマンスレベルに到達するために、はるかに多くのトークンを生成しとるってことやな。

コスト効率と価格設定の課題

そこで、この記事「トークンはより高価になってきている」にたどり着くわけや。この傾向を見てきたんや。人々は知能のコストがゼロになると話すし、その理由はトークンあたりのコストが減少しているからで、理論的には正しいんやけど、実際には、これらの推論モデルは以前のバージョンと比較してはるかに多くのトークンを生成しとって、その結果、同レベルのパフォーマンスに到達するために実際により多く支払うことになっとるんや。

Cursorが事業を継続するために価格を上げようとしている問題を見てきたんや。Claude Codeも同じことをしとる。

OpenAIはより多くの高価なパッケージを導入しとるか、おそらくユーザーパフォーマンスよりもコストに関するGPT-5リリースをしとるんや。そういう場合には、非常にコスト効率の良いモデルが欲しいんやな。

そうは言うても、価格設定も本当に良いで。ここに期待できる価格がある。

キャッシュなしで100万トークンあたりほぼ0.5セント、そして100万トークンあたりほぼ1.70ドルや。GPT-5のようなものと比較すると、劇的な価格削減やで。主な問題は、DeepSeekが実際にAPIを稼働させ続けられるかどうかやな。R1がリリースされた時、彼らは本当にひどい経験をしたからや。

ユーザーにサービスを提供できへんかったんや。うまくいけば、今はもっと多くのGPUを持っとるやろうな。でも、オープンウェイトモデルやから、このモデルをホストする他のプロバイダーがいるってことやし、これは選択肢があるから素晴らしいことやな。

モデル推論における技術的課題

でも、それはモデル推論におけるもう一つの問題につながるんや。このモデルは8ビット浮動小数点精度で特別に訓練されとるから、8ビット浮動小数点でモデルを提供する場合、ネイティブにその精度で訓練されているため、はるかに効率的になるってことやな。

通常、APIプロバイダーはこれらのモデルをはるかに低い精度で提供するから、パフォーマンスの劣化を招く可能性があるんや。一つの例は最近のGPT-4o SSモデルやな。フル精度で訓練されてると思うけど、何らかの理由でOpenAIによって4ビット精度でのみ利用可能やし、プロンプトテンプレートの動作に関連する多くの問題もあったんや。

選択するAPIプロバイダーによって、最悪の場合、APIプロバイダー間で約10％のパフォーマンス低下が見られる可能性があるんや。せやから、アメリカやヨーロッパでホストされているAPIプロバイダーを通してこのモデルを使用する場合は、複数の異なるプロバイダー間で比較することを確認してや。彼らは異なる精度でホストしている可能性があり、そのため、この新しいDeepSeek 3.1から期待される完全なパフォーマンスが得られない可能性があるからやな。

Artificial Analysisによる評価

Artificial Analysisについて話しとるから、ここに彼らの分析があるで。DeepSeek 3.1をローンチしたって言うとる。これは推論と非推論の両方を組み合わせた統合モデルやな。

彼らのベンチマークでは、それほど大きな改善には見えへんのや。DeepSeek 3.1の初期ベンチマーク結果では、R1のスコア59から上がって、非推論モードでArtificial Analysis Intelligence Indexが60を示しとる。

ここにベンチマークがあるで。基本的に彼らは8つの異なるベンチマークを単一のベンチマークに組み合わせて、それに基づいてスコアを計算しとるんや。R1と比較して1ポイントの増加しか得られてへんことがわかるけど、非推論バージョンを以前の非推論バージョンと比較すると、ほぼ5ポイントの増加があるんや。

しかし、このベンチマークでGPT-4o SSのようなものを見ると、このモデルだけでなくClaude Sonnet 4も上回っとるんや。再び、ベンチマーキングは現実の問題やな。これらのベンチマークを見る時は、それを考慮する必要があるで。

企業が意図的にやってるとは言わへんけど、これらのベンチマークのほとんどは間接的に訓練データに含まれるやろうからな。それを頭に入れといてや。

ハイブリッド推論とツール機能

そして彼らはハイブリッド推論について話しとる。彼らは初めてハイブリッド推論モデルに移行して、推論モードと非推論モードの両方をサポートしとるんや。DeepSeekの統合モデルへの移行は、OpenAI、Anthropic、Googleが取ったアプローチを模倣しとって、それは先ほど話したことやな。そして彼らは、Qwenがハイブリッド推論モデルから分離された推論・非推論モデルにどのように移行したかについて話しとる。

ツール呼び出しは非推論バージョンでのみ利用可能で、これは残念やな。推論モデルは恐らく計画においてずっと優れとるから、これら2つのモデルを使用することについて考える方法は、推論モードで計画を立てて、利用可能なツールのリストも提供することで、モデルが推論モードで計画を立てられるようにすることやな。でも、その計画を非推論モードで実行するんや。

関数呼び出しを行って、結果を推論モードに戻して分析できるわけやな。せやから、エージェンティックシステムを構築する場合、推論と非推論の両方の能力を活用できるハイブリッドアプローチになるわけや。興味があったら教えてや。恐らくそれについて動画を作るで。

それから彼らはトークンの使用について話しとる。DeepSeek 3.1は推論モードで非推論よりも段階的に高いスコアを獲得し、通常はArtificial Intelligence Indexを使用する場合、全体的にわずかに少ないトークンを使用するんや。

彼らはAPIアーキテクチャについて話しとって、これは以前のアーキテクチャと似とる。そして彼らは独自の含意を持っとるんや。このリリースがV4やR2と噂される将来のモデルに向けたDeepSeekの進歩について何を意味するかについて、仮定を立てることには注意を勧めるって言うとる。

DeepSeekが以前にV2アーキテクチャ上で構築された最終モデルを2024年12月10日にリリースし、V3をリリースするわずか2週間前やったことを指摘しとるんや。せやから、1週間か2週間、または1か月でまた別のモデルが出る可能性があるんや。誰もわからんけどな。でも、彼らがマイナーリリースって呼んでても、間違いなく重要なリリースやと思うで。

実際のテスト体験

よし、動画の最後に簡単なテストをやってみるで。モデルをテストしたかったら、chat.deepseek.comに行けばええで。ここで思考を有効または無効にできるんや。

ここで簡単なテストをやったで。回転する七角形内の跳ね返る壁問題の修正版やな。回転する七角形内に20個の異なるボールを作りたかったんや。

ほぼ3分、実際は3分以上考えたけど、うまく動く解決策を思いついたで。思考プロセスもずっと簡潔で、以前のような「待って」とかいう動作は見てへん。これは彼らがやった事後訓練のおかげやと思うで。

でも、実際に視覚的に実行できるんや。ずっと良く見えるな。また、一発で動くのがなかなかええわ。

それから後続のリクエストがあって、ユーザーが回転方向を変更できる機能を追加してくれって頼んだんや。また、ユーザーがボールをクリックしたら爆発を起こして、ボールが散らばるようにしてくれってな。

後続のステップでは、14秒間だけ考えたで。ここで得られる結果がこれや。回転は確かに変わるし、シミュレーションを開始・停止できる。でも、ボールをクリックしても実際には何も起こらん。小さな爆発を起こすと思うんやけどな。画面で見えるかどうかわからん。この円形のパターンを追加するけど、期待した動作やないんや。

せやから、エージェンティックコーディングIDEで使用した場合、これがどう動作するか興味深いところやな。

よし、この新しいモデルの簡単な紹介はこれで終わりや。どう思うか教えてや。そして、もしモデルを試す機会があったら、体験はどうやった？とにかく、この動画が役に立ったと思ってくれたらええな。

見てくれてありがとうございました。いつものように、次回もよろしく。