DeepSeek、TERMINUS発表:次世代ハイブリッドモデルの登場

中国
この記事は約9分で読めます。

DeepSeekが新たにリリースしたTERMINUSは、V3.1モデルのアップグレード版である。このハイブリッド推論アプローチを採用したモデルは、単なるテキスト生成ではなく、外部ツールを活用してタスクを実行するエージェント機能を持つ。英語と中国語の処理一貫性が大幅に改善され、ウェブ検索やコード生成などのベンチマークで顕著な性能向上を示している。MIT ライセンスでオープンソース化されており、競合他社と比較して圧倒的に低価格なAPI料金を実現している点が注目される。

DeepSeek Just Dropped TERMINUS: The Next Level Hybrid Model
DeepSeek just dropped Terminus — an upgrade to V3.1 that takes hybrid reasoning to the next level. With smarter tool-usi...

DeepSeekの新たな挑戦:TERMINUSモデル

DeepSeekがまた新しいリリースを出してきたで。TERMINUSっちゅう名前で、8月のV3.1モデルのアップグレード版や。これ、ただのバージョンアップやなくて、もっと大きな変化が詰まっとるんや。

AI業界をずっと見とる人やったら知っとると思うけど、DeepSeekはこのハイブリッド推論アプローチっちゅうのをずっと推し進めとるんや。つまり、モデルがただテキストを生成するだけやなくて、実際にエージェントみたいに機能して、外部ツールを使って本当のタスクをこなしてくれるんや。TERMINUSでは、この方向性をさらに強化しとる。

言語処理の大幅改善

最初にみんなが気づいたのは、TERMINUSが英語と中国語の処理でめちゃくちゃ一貫性が良くなったことや。前のバージョンでは、時々2つの言語が混じったり、変な文字が出てきたりして、安定した出力が欲しい開発者にとっては結構イライラするポイントやった。今回のリリースでは、そういう問題のほとんどが解決されとる。

テキストの一貫性以外にも、内蔵エージェント、特にコードエージェントとサーチエージェントが大幅にアップグレードされた。DeepSeekによると、信頼性を高めて、出力がただもっともらしく見えるだけやなくて、実際にテストしても問題ないレベルまで持っていったらしい。これはベンチマークでもはっきりと見て取れる。

ブラウズコンプっちゅうベンチマークがあるんやけど、これは複数ステップのライブウェブ検索を評価するもんや。古いV3.1では30点ちょうどやったのが、TERMINUSでは38.5点まで跳ね上がった。ターミナルベンチでも31.3点から36.7点に上昇した。これは小さな差やない。モデルがツールをより効果的に使えるようになったっちゅうことで、これこそがハイブリッドシステム間の本当の差別化要因になってきとる。

トレードオフの存在

ただ、トレードオフもある。中国語版のブラウズコンプスコアは少し下がってしもうた。これは今回、英語のウェブパフォーマンスにより最適化を集中させたからやと思われる。外部ツールを使わない純粋な推論タスクについては、改善はあるけど、その幅はかなり小さい。

TERMINUSでも、デュアルモードの設定は維持されとる。DeepSeekチャットっちゅう非思考モードがあって、これは簡単な会話、ファンクション呼び出し、JSON出力、その他軽い作業用や。そして、DeepSeekリーズナーっちゅう思考モードがあって、これは難しい複数ステップの問題に取り組む時に使われる。

チャットモードの最大出力は8,000トークンで、デフォルトは4,000トークンや。一方、リーズナーモードは最大64,000トークンまで行けて、デフォルトは32,000トークンや。両方のモードとも、一度に最大128,000トークンのコンテキストを処理できる。これは1回の入力と出力で大体300〜400ページのテキストに相当する。かなり寛大な設定やけど、Grok-4-Fastが宣伝しとる200万トークンのコンテキストや、Google Gemini 2.5 Proの100万トークンには及ばへん。

システムの巧妙な設計

システムがリクエストを処理する方法も興味深い。リーズナーモードに何かを送ったとしても、そのタスクでツール使用が必要やったら、自動的にチャットモデル経由でルーティングされるんや。つまり、適切なシステムが適切なワークロードを処理するように、明らかに流れを合理化しようとしとる。その上、TERMINUSはファンクション呼び出し、フィルインザミドル補完、JSON出力など、開発者が構造化されたアプリケーションを作る時に必要な機能を全部サポートしとる。

スポンサー紹介:Miro

大きなプロジェクトに取り組む時、一番難しいのは通常、アイデア自体やなくて、みんなを同じ方向に向けて動かし続けることや。今日の動画のスポンサーでもあるMiroは、まさにこのために作られたツールや。アイデア、システム、タイムラインを、チーム全体にとって意味のある形でマッピングできる単一のワークスペースなんや。

複雑なプロセスも明確な図に変わる。レイヤー機能で、各人が実際に見るべき詳細レベルを決められる。Miro AIを使えば、さらに速くなる。メモから直接フローチャート、UML、ER図を生成できるし、AWS、Azure、Google Cloudからクラウド設定全体をインポートして、瞬時にコスト確認もできる。すべてが同期状態を保つ。

図をNotionやConfluenceに埋め込んだり、スライドで直接プレゼンテーションしたり、Talk Trackで非同期に共有することもできる。計画作業も軽やかになる。JiraやTrelloからタスクをリンクして、スプリントや依存関係を追跡し、スタンドアップ、レトロ、レビュー用の既製テンプレートを使える。混乱が減って、ミーティングが少なくなって、進歩が速くなる。マップして、解決して、出荷する。すべてMiroで。今日試してみて。リンクは説明欄にあるで。

訓練面での改善点

DeepSeek TERMINUSの話に戻ろう。訓練面もなかなか興味深い。TERMINUSは前バージョンより8,400億トークンも多く訓練されて、さらに全く新しいトークナイザーとアップデートされたプロンプトテンプレートが使われとる。データも土台も両方洗練させて、その結果がブラウズコンプ以外のベンチマークでも見て取れる。

例えば、Simple QAは93.4から96.8に上昇した。Sui Verifiedは66から68.4に移動した。SWIB bench multilingualは54.5から57.8に上昇した。これらは全部意味のある向上や。GPQA Diamondみたいな幅広い推論テストでも、80.1から80.7に移動した。そして、humanity’s last examでは15.9から21.7になった。

ただ、全面的な勝利っちゅうわけやない。競技プログラミングスキルを測るCode Forcesでは、スコアが2091から2046に少し下がった。ADR Polygonみたいな、他のコーディング重視のベンチマークでも小さな打撃を受けた。これは、ツール使用と安定性みたいな一つの強みに向けてモデルを厳しく調整した時によく見られるトレードオフで、生のコーディング速度や精度で少し譲ることになるんや。

DeepSeekも一貫性とより強いエージェントパフォーマンスに傾いてることを認めてて、数字がそれを明確に示しとる。

DeepSeekの戦略的ポジショニング

少し視野を広げてみると、DeepSeekのポジショニングは本当に明確や。今年初めにリリースされたR1モデルは、数学、論理、構造化問題解決に関しては今でもヘビーヒッターやけど、動作が遅くて、実行コストが高い。V3.1と今回のTERMINUSは、汎用作業において、より多用途で、安くて、速い。

ここでの大きな焦点は、予想通り、価格設定や。DeepSeekは初日からこの点で攻撃的やったし、その戦略を変えてへん。API価格はキャッシュヒットで100万入力トークンあたり7セント、キャッシュミスで56セント、出力トークン100万あたり1.68ドルのままや。

これをGPT-5の大体10ドルや、Claude Opus 4.1の出力トークン100万あたり75ドルと比較してみ。この価格設定がどれだけ破壊的かがわかる。ある動画レビューでは、入力トークン100万あたり27セントと出力トークン100万あたり1ドルっちゅう、少し違う内訳を言ってたけど、公式の数字はその1.68ドルの数字を維持しとる。どっちにしても、競合他社をはるかに下回っとる。

オープンソースの価値

モデル自体はMITライセンスで完全にオープンソースや。正直言って、アメリカの大手プロプライエタリモデルとこれだけ近い競争をしてるモデルでこんなことは珍しい。VentureBeもTERMINUSの6,850億パラメータがそれらのクローズドシステムの性能に匹敵するか、それを上回りながら、商用利用が完全に無料やと指摘した。

開発者にとっては、これは大きなことや。実験への障壁が下がって、企業にデプロイ方法の柔軟性を与えてくれる。

政治的な側面と制約

もちろん、常に政治的な角度がある。他の中国のAIモデルと同様、DeepSeekの出力は、敏感な政治的トピックに関しては国家検閲の対象になっとる。つまり、場合によってはモデルが中国政府のプロパガンダツールとして機能する可能性があるっちゅうことや。

興味深いことに、アメリカでもアメリカのモデルに似たような制限を課すことについて議論があって、この緊張が世界的に広がってることを示しとる。実際には、このような介入は実際にパフォーマンスに影響を与えることがある。検閲フィルターがモデルの推論経路を妨害することがあるからや。

技術的な課題

技術的観点から見ると、修正すべき問題がまだいくつか残っとる。開発者は、セルフアテンション出力投影パラメータがまだUE8 M0 FP8スケールデータフォーマットに準拠してへんことを指摘した。DeepSeekはそれを認めて、将来のリリースでパッチを当てることを約束した。これはエンドユーザーにはそれほど重要やないかもしれへんけど、モデルを自分でホスティングしとる人にとっては、パフォーマンスチューニングに影響する可能性がある。

Hugging Faceで提供されとるアップデートされたデモコードがローカルデプロイメントを簡単にしてくれて、多くの開発者がすでにTERMINUSを自己ホスティングして、DeepSeek自身のサーバーへの依存を減らしとる。

実世界でのテスト結果

実世界のテストでは、モデルの長所と短所の両方が見えた。人々がSaaSランディングページの生成を試したところ、複数のセクション、アニメーション、機能を持つよく構造化されたコードを生成して、推論を有効にした以前のバージョンよりも良い結果やった。

金融計画のプロンプトもそこそこうまく処理して、退職戦略を構築して、インフレ効果を考慮した。ただ、一部のレビュアーは、Open Routerみたいなプロバイダー経由のサードパーティルーティングが、DeepSeek自身のチャットボットインターフェースよりもさらに強く、より構造化された答えを提供することを発見した。

クリエイティブコーディングの面では、結果が混在した。蝶のSVGコードを生成するよう求められた時、何回か失敗して、うまく動かない大雑把な形を生成した。古いV3.1はそのタスクをうまくこなせてたのに。一方で、機能する3D Minecraftクローンを構築することはできた。基本的で、マップから落下するバグがあったけど、ブロックの配置、破壊、さらに音までついてて、LLMからの生のコード生成としてはまだかなり印象的や。

総合評価と今後の展望

全体的に、TERMINUSはV3.1からの堅実なアップグレードや。言語処理が良くなって、ツール使用が強くなって、エージェントがより信頼できるようになった。推論とコーディングでのトレードオフがあるけど、まだ非常に安い。そして、MITライセンスでオープンソースやから、自分で実行できるし、追加コストなしで商用利用もできる。

最後に一つ、もうすでにDeepSeek v4が開発中やっちゅう噂があって、R1の後継モデル、おそらくR2と呼ばれるものが控えてるかもしれん。一部のアナリストは、DeepSeekが現在のモデルを超えてスケーリングするのに困難に直面してるって示唆してるけど、こんな風にアップデートを押し進めてるペースを考えると、彼らがまだ十分にゲームに参加してるのは間違いない。

今日はこれで終わりや。コメントでTERMINUSについてどう思うか教えてくれ。まだ購読してへんかったら忘れずに購読してくれ。次回の動画でまた会おうな。

コメント

タイトルとURLをコピーしました