DeepSeek V3.2:金メダル、エージェント、そしてGPT-5の30分の1の価格

LLM・言語モデル
この記事は約15分で読めます。

DeepSeekが再びAI業界に衝撃を与えた。同社が発表したDeepSeek V3.2とV3.2 Specialは、GPT-5レベルの性能を持ちながら完全にオープンソース化された革命的なモデルである。特筆すべきは、国際数学オリンピアードや中国数学オリンピアード、国際情報オリンピアードで金メダル級の成績を収め、大学レベルのプログラミング世界大会では世界第2位に相当する性能を達成した点だ。スパースアテンション技術により従来モデルの30分の1というコスト効率を実現し、エージェント機能と推論能力を統合した次世代型AIモデルとして、クローズドソースの最先端モデルに匹敵する実力を示している。中国のAI企業が予想を超える速度で欧米企業に追いつきつつある現状を象徴する発表となった。

DeepSeek V3.2: Gold Medals, Agents, and 30x Cheaper Than GPT-5
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

DeepSeekが再び業界を驚かせるオープンソースリリース

DeepSeekがまたしても皆を驚かせました。GPT-5レベルのモデルをオープンソース化したんです。これについて話していきましょう。DeepSeekがツイートしていました。DeepSeek V3.2とDeepSeek V3.2 Special、エージェント向けに構築された初の推論モデルをローンチするとのことです。ここから分かるのは、今回は2つのモデルがリリースされるということです。

そして私が思うに、これは私たちがエージェント的な未来に向かって進んでいるという点をさらに明確にするものです。まず、DeepSeek V3.2という標準モデルがあります。これは現在ライブウェブアプリとAPIで利用可能です。そしてもちろん、V3.2 Specialがあります。これは推論能力の限界を押し広げるもので、今のところAPIのみでの提供です。つまり、チャットのウェブユーザーインターフェースを使っている場合は、このモデルと対話することはできません。おそらく別のAPIプロバイダーを通じてなら可能かもしれませんが。

さて、ベンチマークに入る前に、これらすべてについてクレイジーなのは、彼らがまたしてもこのリリースをオープンソース化することに成功したということです。皆さん、これがどれほど大きな出来事か分かっていないと思います。今の文章が意味をなしていなかったのは分かっていますが、これは本当に大きな出来事なんです。GPT-5以上のレベルのモデルをオープンソースでリリースするということは、基本的にこれらのモデルがよりコモディティ化し始めていることを示しています。

そしてどういうわけか、これらの中国企業が欧米の競合企業に追いついているんです。多くの場合、私たちが予想していたよりもはるかに速いペースでです。もし私に聞いていたら、少なくとも1〜2ヶ月はかかると思っていたでしょう。こういったモデルに追いつくまでには。しかし、DeepSeekや他のAIモデルプロバイダーがまたしても自分たちを超えてきたようです。

ベンチマーク性能の詳細分析

しかし、一目見て理解すべきなのは、DeepSeek V3.2 SpecialとDeepSeek V3.2 Thinkingの両方が、少なくとも他のモデルと同等レベルで驚くほど優れた性能を発揮するモデルだということです。さて、GPT-5とClaude 4.5 Sonnetのレベルにあるように見えますが、私は少し掘り下げてみました。表面的には信じられないほど素晴らしく見えますが、驚異的に優れている部分もあれば、思ったほど良くない部分もあります。

では、これについて見ていきましょう。これは、もしよければ、一時停止して見ることもできますし、スクリーンショットを撮って共有することもできます。さて、彼らはDeepSeek V3.2 ThinkingとSpecialを比較しています。これらは2つのバージョンです。Specialバージョンは、非常に長い時間考えるバージョンだと考えてください。

そして、文字通りここで各ベンチマークの思考トークン数を見ることができます。さて、興味深いのは、DeepSeek、つまり標準バージョン、そして私はほとんどの場合この標準バージョンを参照しますが、実際にGPT-5 Highのレベルに達しており、Kimi K2 Thinkingのレベルにあるということです。これは本当に驚くべきことです。

しかし、OpenAIから最近リリースされたモデルは実際にはGPT-5.1だったことを覚えておく必要があります。だから、なぜGPT-5.1やOpus 4.5のような最近のモデルと比較しなかったのか分かりません。最近リリースされたGemini 3.0 Proとは比較していました。これらのベンチマークを見ると、最も印象的なものの1つはHumanity’s Last Examです。これは最も難しいベンチマークの1つです。準備できるようなデータが何もないからです。基本的には、他のベンチマークほど簡単に圧倒できないように設計された試験の1つです。ご覧の通り、25%を達成しており、Specialバージョンは30%を達成しています。これはかなり印象的です。

他の注目すべき改善と本当に印象的なものは、CodeForcesです。ここではSpecialがGPT-5 Highを上回っています。もちろん、これはGPT-5モデルの中で長時間考えるモードです。そしてもちろんLive CodeBenchもあります。ここでも再び支配しているように見えます。

ベンチマーク以上の実用性について

さて、もちろん私はただのベンチマーク狂信者ではありません。正直に言わなければなりません。多くの場合、ベンチマークは必ずしも実世界の能力というわけではありませんが、実世界での使いやすさに必ずしも対応しているわけではありません。そしてDeepSeek V3.2 Specialは今のところAPIでのみ利用可能であることを覚えておいてください。おそらく私が推測するに、現在モデルを実行するコストは、モデルがかなりの時間考える傾向があることを考えると、思っているよりもかなり高いと思われます。

さて、このビデオを続ける前に、もしあなたがこのビデオを見ているなら、明らかにAIに興味があるということです。しかし、AIコンテンツを見ることと実際に使い方を学ぶことには違いがあります。AIは世界経済フォーラムによると2025年に最も需要の高いスキルの1つでした。しかし、ほとんどの人はまだ適切に学んでいません。

そしてそれはあなたを危険にさらします。遅れをとるだけでなく、学んだ人に取って代わられるリスクがあります。だからこそ、世界初のAI専門教育プラットフォームであるOutskillによる2日間のAIライブマスタークラスについてお伝えしたいのです。今週の土曜日と日曜日、東部時間の午前10時から午後7時まで両日開催されます。現在、年末セールを実施中で、通常395ドルのところ完全に無料で参加できます。

マーケティング、ファイナンス、エンジニアリング、データの分野で1000万人以上の専門家が、MicrosoftとNvidiaのAI専門家による16時間のライブトレーニングを受講しました。日常業務を簡素化するためのAIの使い方、ワークフローを自動化するAIエージェントの構築、Sheets、Notion、CRMなどのツールを接続する自動化の設計を学び、仕事やビジネスに使えるすぐに使えるAIシステムを持ち帰ることができます。

しかし、本当の価値はこれらのスキルを収益化する方法を学ぶことです。Outskillの学習者は実際に利益を生み出しているAIビジネスを立ち上げています。両日参加すれば、プロンプトバイブル、AI収益化ロードマップ、パーソナライズされたツールキットビルダーを含む5000ドル相当の無料ボーナスも手に入ります。席は限られているので、説明欄のリンクから今すぐ確保してください。

他のモデルとの詳細比較

さて、もう一度、他のモデルのパフォーマンスベンチマークを見てみると、Terminal BenchやSW Resolvedなどの他のベンチマークでモデルがどこに位置するかをもう少し明確に見ることができます。だから、もしあなたが疑問に思っているなら、このモデルは実際に私のClaude Sonnet 4.5やClaude Opus 4.5を置き換えるのかということですが、まだそうではありません。

しかし、正直に言うと、モデルの価格を考慮すると、これは依然として十分に良いモデルです。後で詳しく説明しますが、得られるものに対して比較的良い価格対性能比だと思います。それは確かに真実です。そして、Specialityの値をそのまま額面通りには受け取らないつもりです。平均的なユーザーには利用できないことが分かっているからです。

だから、DeepSeek V3.2 Thinkingの値を取るのが最善です。ただし、高い推論を使えば信じられないほどのパフォーマンスが得られることは示されています。しかし全体的に、ここを見てみると、Geminiが依然として優位を保ち、ナンバーワンの座を維持しているように見えます。

さて、私は誰かのツイートを見ました。「オーケー、でもOpus 4.5はどこにあるんだ?」と言っていました。それが私も疑問に思っていたことです。最近のモデルとの比較はどこにあるのかと。だから私は実際にOpus 4.5の値を取得して、ここに入力することにしました。そして、ここで比較できない領域がいくつかあることが分かります。

しかしOpus 4.5と比較すると、SW Verified Benchではそれに近づいていないことが分かります。そして、Terminal BenchやAIME 2025のような他のものについては、Claude Opus 4.5とGemini Proが依然としてこのモデルを僅差でリードしていることが分かります。さて、これらのことが非常に迅速に起こっているので、かなりクレイジーです。もしDeepSeekが1〜2週間早くリリースされていたら、これはおそらく信じられないほどの発表だったでしょう。

これはモデルが決して悪いという意味ではありません。それは特定の領域において、モデルを切り替えなければならないという点で、現在のところ、そうです、これはオープンソースで印象的ですが、他のモデルがそれぞれの領域で依然として優位に立っているということを意味します。Opusはコーディングで優位に立ち、Geminiは一般的な推論で優位に立っています。

しかし、これは間違いなくOpenAIが警戒している理由だと思います。DeepSeek V3.2 Thinkingは、GPT-5 Highのすぐ後ろにいるように見えるからです。これは間違いなく本当に驚くべきことです。つまり、皆さんはどう思うか分かりませんが、実際に下の領域のいくつかの値を見てみると、To Decathlon、Terminal Bench 2のpass at one、Terminal Bench 2などの値は、小数点以下まで全く同じです。

だから、それらが100%正確かどうか完全には確信が持てませんが、4つが全く同じというのは少し奇妙です。これは私が少し調査的になっているだけかもしれません。さて、本当にジューシーな部分は研究論文にあったと思います。そして、皆さんがビデオをクリックして閉じる前に、この説明をできるだけシンプルに保つつもりです。DeepSeekが何をしているのか、そしてどのようにして効率的かつ効果的にパフォーマンスを発揮できるのかを正確に理解できるように。

効率性の革命的な向上

彼らが話していることの1つは、もちろんモデルをより効率的にすることです。そして、私は皆さんに価格比較を見せたところですが、それについてはすぐに説明します。DeepSeek V3.1、つまり以前のモデルとDeepSeek V3.2の効率を見てみると、青い線が古いモデルで、プロンプトが長くなるほど高価になっていきます。オレンジ色の線が新しいモデルで、128kトークン入力でもほとんど高価になりません。

簡単に言えば、DeepSeek V3.2は膨大なコンテキストを処理できるのに、コストはほんのわずかです。すべてをスキャンするのではなく、重要な情報だけを見るからです。これもまた信じられないことだと思います。モデルの能力を向上させ、そのモデルの価格を下げることができれば、超効率的な価格指標が得られます。そこで価格比較に入ります。

私はこのツイートをオンラインで見つけました。説明欄にリンクを残しますが、誰かがDeepSeekについて書いていて、実際に、DeepSeek V3.2がAPIの価格ページから、他のフロンティアモデルやGPT-5 Miniの低コスト版と比較しても、信じられないほど安いことを発見しました。これは、DeepSeekが同等のフロンティアモデルと比較して劇的に安いことを意味します。つまり、価格設定が非常に競争力があれば、業界は再びこれに反応しなければならなくなります。人々がDeepSeekのようなオープンソースモデルに切り替え始めたり、モデルを自分で実行し始めたりすると、モデルプロバイダーは本当に厄介な立場に置かれることになります。

もちろん、フロンティアモデルや、Google、OpenAI、Anthropicのような企業にとっては、その問題がないかもしれません。しかし、これらのマージンと領域が摩耗していくにつれて、一部の個人は単に自分のシステムを実行することを選択するかもしれません。そしてそれは本当に物事を揺さぶることになります。

ここで、もちろん彼らは「メーターで測定するには安すぎるインテリジェンス」と言います。さて、これは少し複雑に見えるものですが、これを説明するのに2分しかかからないことを約束します。そして基本的に、これはゲームを変えたものの1つです。通常のTransformerでは、すべてのトークンつまり単語が、何が重要かを決定するために他のすべてのトークンを見ます。

スパースアテンション技術の革新

だから、10万トークンがある場合、それぞれが他の10万個と自分自身を比較します。そしてそれは、答える前に、これまでに言ったすべての歴史全体をチェックするようなものです。Transformerには機能します。オーケー、機能しますが、遅くてスケーラビリティが悪いです。だから、DeepSeekはこのDeepSeekスパースアテンションというものを構築しました。DSA、基本的にそれが行うことは、すべての過去のトークンを見る代わりに、各トークンがライトニングインデクサーと呼ばれる新しいものを使うということです。

これを、ただの小さな高速関連性検出器だと考えてください。そしてそれが行うすべては、すべての以前のトークンを迅速にスキャンし、各トークンがどれだけ関連性があるかをスコアリングし、上位K個の最も関連性の高いもの、つまり重要なトークンだけを選び、そしてモデルは選択されたトークンのみに対してアテンションを実行します。つまり、すべての単語をチェックするわけではないということです。

基本的に有用なコンテキストだけに焦点を当てます。そしてこれが重要なのは、実際の会話でも、すべての単語が重要なわけではないからです。問題を解決するときも、定義、主要なステップ、重要な数字、主要なロジックだけが必要です。そしてDSAは基本的にモデルにそれらに気づくように教えます。そしてこれがモデルをはるかに効率的にします。

そしてこれがもちろん、DeepSeekができることの鍵です。彼らはモデルを効率的にすることができるのです。そしてこのライトニングインデクサーが見えます。それがそれを可能にした方法です。さて、このモデルについて知るべきもう1つのことは、先ほど言ったように、私たちはエージェント的なモデルに向かって進んでいるということです。だからここで、ツールを使用しながら思考できるというものがあります。ツールを使用し、複数のステップを踏み、内部で推論し、以前のモデルではできなかった方法で思考とツール使用を組み合わせることができます。

そしてこれは、質問に答えるLLMから、タスクを実行するLLMへの大きなシフトです。以前は、モデルは考えるか、ツールを使用するかのどちらかでしたが、両方を同時に行うことはできませんでした。そして、つい最近になってモデルがそれを行うのを見始めました。そして今、DeepSeek V3.2があります。これは、ツールを使用しながら考えることができる最初のモデルの1つです。そして、それらのツール呼び出しの間の推論を維持し続けています。

エージェント機能とベンチマーク結果

だから、実際のエージェントのように複数ステップのタスクを解決することができ、思考モードと通常モードでツールを使用することができます。だから、ここで見ているベンチマークは、エージェント的なベンチマークだと言えます。T2ベンチマークは複数ステップの推論とツール使用です。MCP Universeは実世界のツール環境です。

MCP Markはブラウザと検索タスク、そしてTool Decathlonはさまざまな複数ステップのエージェントチャレンジです。さて、これらの全体で、Geminiは依然としてナンバーワンです。Claude 4.5 Sonnetは依然として強力で、GPT-4とGPT-5はかなり競争力があります。さて、DeepSeekは驚くほど良好なパフォーマンスを示しており、多くの場合Kimi K2とMiniMaxを上回っています。

だから彼らは基本的に、私たちは最も強力なオープンソースモデルであり、クローズドソースモデルとのギャップを埋めているということを言っているのです。さて、もちろん、これを省くわけにはいきません。これはおそらく最もクレイジーな部分で、これを最後に残すべきではなかったかもしれませんが、これは最もクレイジーな発表です。なぜなら、これはすべてのモデルができることでさえないからです。

国際数学オリンピアードは、人間にとって最高レベルのグローバル数学コンペティションです。世界で最も賢い10代がここで競い合います。そしてDeepSeekは42点満点中35点を獲得しました。これは人間の競技者にとって金メダル領域です。だからDeepSeekは、まあまあの成績を収めただけではありません。世界クラスの人間の天才のレベルで数学オリンピアードの問題を解いたのです。

また、CMO 2025、つまり中国数学オリンピアードもあります。これは多くの点でIMOよりもさらに難しいです。中国の数学オリンピアードは残酷な難しさで有名です。そしてDeepSeekは126点満点中102点を獲得し、もう1つの金メダルに十分な得点でした。これは、モデルが単に西洋スタイルの数学問題が得意なだけでなく、極めて抽象的で厳密な問題も扱えることを示しています。

驚異的な競技プログラミングの成績

さて、国際情報オリンピアードもあります。これは高校生の競技プログラミングの世界選手権です。そしてDeepSeekは600点満点中492点を獲得しました。もう1つの金レベルのパフォーマンスです。もし人間の競技者だったら、全世界で10位に入るのに十分です。

つまり、モデルはアルゴリズムを設計し、コーディングし、エリート人間レベルに近い状態で最適化できるということです。ICPC World Finals 2025大学レベルのプログラミング。これは地球上で最も難しいチームプログラミングコンペティションです。大学の世界決勝です。表は各問題を解くのに何回試行したかを示しています。そして12問中10問を正常に解決しました。

それは金メダルレベルで、世界で2位にランクされます。これを本当に理解する必要があります。これは狂気です。オープンソースモデルが今や金メダルのパフォーマンスです。AIはグローバル大学プログラミング選手権で2位になりました。これはMIT、スタンフォード、エリートロシアチームが優勝するような種類のもので、DeepSeekモデルはそこに並んでいるのです。

トークン効率性の課題と結論

重要なのは、これがSpecialtyモデルで達成されたことです。モデルは本当に優れていますが、非常にトークン非効率的です。時には3万から7万トークンの巨大な思考連鎖トレースを生成して、その金メダルのパフォーマンスに到達します。DeepSeekは論文の中で、これがより効率的なGemini 3 Proモデルに対する弱点であることを認めています。だから、これらのモデル、特にAPIプロバイダーを通じてSpecialモデルを使用する場合は、このことを念頭に置いてください。

紙の上では安いかもしれませんが、いくつかの質問では、これらの思考トークンが延々と続くため、実際にはOpenAI、Anthropic、Geminiのような他のクローズドソースモデルから得られる効率的なレベルの推論と比較して、少し高価になる可能性があります。

とは言え、これは依然としてクレイジーな発表だと思います。完全にオープンソースです。ダウンロードして使用できます。皆さんがどう思うか教えてください。では、次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました