DeepSeekの新しいAIが残酷なロジックでGemini 3 Deep Thinkを超えた

数学
この記事は約11分で読めます。

DeepSeekが国際数学オリンピック金メダルレベルの性能を持つ数学モデルMath V2を発表し、Googleが構造化推論用に開発したGemini Deep Thinkを上回る性能を実現した。このモデルの革新性は単なる正解の導出ではなく、自己検証型推論による証明プロセスの厳密性にある。学生・教師・監督者の三層構造による独自のトレーニングフレームワークを採用し、正確性だけでなく誠実性を報酬として与えることで、幻覚を大幅に削減している。一方、Tencentは10億パラメータのOCR特化モデルHunuen OCRを公開し、自身の数倍の規模を持つマルチモーダル大規模モデルを打ち負かす性能を示した。エンドツーエンドの単一モデル設計により、従来の複雑なパイプラインを不要とし、100以上の言語に対応しながら文書理解タスクで最先端の結果を達成している。これらの発表はAI分野における小型特化モデルの台頭と、汎用巨大システムとの競争という新たな局面を示している。

DeepSeek’s New AI Just Surpassed Gemini 3 DeepThink With Brutal Logic
DeepSeek just dropped a new math model that pushes structured reasoning past Gemini 3 DeepThink, hitting Olympiad-tier p...

DeepSeekが国際数学オリンピック金メダルレベルの数学モデルを発表

DeepSeekが目覚めて、国際数学オリンピック金メダルレベルのパフォーマンスを発揮する数学モデルを投下することに決めました。そしてTencentは10億パラメータのOCRモデルを発表し、なぜかその5倍から6倍のサイズを持つ巨大な視覚言語モデルを打ち負かしています。これは、ちょっと立ち止まってすべてがいかに速く進化しているかを実感する瞬間の一つです。

では、これについて話していきましょう。さて、DeepSeek Math V2は基本的にどこからともなくインターネットに登場しました。彼らは静かにHugging Faceにアップロードし、誇大宣伝は一切ありませんでした。そして驚くべきことに、これはこれまで公開されたなかで最も印象的な数学推論モデルの一つかもしれません。以前のバージョンである古い7Bモデルは、昨年、数学タスクにおいてGPT-4とGemini Ultraのレベルで動作したときに皆を驚かせました。そして、それは今日の基準では小さなモデルでした。

しかしMath V2はDeepSeek V3.2 to Xpaceの上に構築されており、DeepSeekは構造化推論を扱うためにGoogleが特別に構築したモデルであるGemini Deep Thinkを上回ると主張しています。彼らは基本的にIMOメダリストの能力で動作すると言っており、今回は単に問題を解くだけではありません。

プロの数学者のように自分の作業をチェックしているのです。そして、これがこのモデルについて理解する必要があることです。ほとんどのAI数学システムは一つのことだけを気にします。最終的な答えです。正解か不正解か。しかし、それは実際の数学の仕方ではありません。数字を吐き出して終わりにすることはできないのです。

プロセスこそが重要です。厳密性、論理、導出過程。それが数学コンペティションの採点方法であり、学術界で実際の証明が判断される方法なのです。DeepSeekは、正確性のみを重視するシステムには限界があることに気づきました。それらはAIMのようなベンチマークでは素晴らしい成績を収めますが、適切で厳密な証明を示すよう求められると崩壊してしまいます。

実際には何も理解していなくても、正しい最終的な数字にたどり着くようトリックを使うことができるのです。そこでDeepSeek Math V2は一つの大きな原則を中心に設計されました。自己検証可能な推論です。単に質問に答えるだけでなく、それを証明し、チェックし、自分の間違いを認めるのです。彼らはこの学生・教師・監督者という概念を中心にフレームワーク全体を構築しました。これは数学AIにおいて私たちが見てきた中で最も賢いトレーニング構造の一つです。

三層構造による自己検証型推論システム

まず、彼らは試験官を構築しました。これは専用の証明検証モデルです。オリンピアードの採点者だと考えてください。最終的な答えだけを気にするのではありません。証明全体を読み、採点し、何が良いか、何が欠けているか、何が完全に間違っているかを説明します。そして二値的に採点するわけではありません。

三段階評価システムを使用しています。完璧で厳密な導出には1ポイント、大体正しいがずさんなものには0.5ポイント、論理的エラーや欠落したステップにはゼロポイントです。そして、このモデルは実際の採点者のようにコメントを書かなければなりません。そしてDeepSeekは面白いことに気づきました。時々教師が間違えることがあるのです。

試験官がエラーを幻覚したり、理由なく証明にランダムにペナルティを課したりすることがあります。それは大規模モデルでも起こります。そこで彼らはメタ検証者、つまりDeepSeekが説明するところの監督者を追加しました。監督者の仕事は証明をチェックすることではありません。教師のコメントが実際に意味をなしているかどうかをチェックするのです。この追加レイヤーは精度を大幅に向上させます。なぜなら、システムは一つのモデルの判断を信頼するだけでなく、相互検証されるからです。

そして本当に興味深い部分が来ます。生成モデルである学生は、単に証明を生成するだけではありません。それを出力した直後に自己採点もしなければならないのです。推論を出力し、その後自己評価を書きます。そしてここでDeepSeekは大胆なことに踏み込みました。モデルは正確性だけでなく、誠実性に対して報酬を得ます。

間違いを犯して正直にその欠陥を認めた場合、報酬を得ます。「ええ、すべて問題ありません」とはったりをかまそうとすると、罰せられます。これにより、モデルは実際に証明を考え抜き、弱点を振り返り、自信を幻覚する代わりに問題を修正することを強いられます。そしてこのすべてが彼らの最終的なアイデアに向けて構築されます。数千の証明を採点する人間の数学者の軍隊を必要とせずに、システムが基本的に自己進化する完全に自動化されたクローズドループです。

学生は問題に対して多くの解決策を生成します。教師がそれらすべてを採点します。結果について投票します。採点または解決が困難なものが新しいトレーニングデータになります。教師はより鋭くなります。学生はより鋭くなります。エコシステム全体が一緒にレベルアップし、結果は驚異的です。IMO証明ベンチ、これは残酷なオリンピアード証明問題のセットですが、DeepSeek Math V2は基本ベンチマークでほぼ99%を達成します。

高度なベンチマークでは、Gemini Deep Thinkをわずかに下回りますが、それでもIMO金メダルレベルのパフォーマンスです。悪名高く難しい2024年パトナムテストでは、120点満点中118点を獲得します。これは本質的にほぼ完璧なスコアです。オープンモデルがこのような数字を達成するのを見ることはほとんどありません。そしてここでのより大きな収穫は、単に「すごい、難しい問題を解く」ということではありません。

本当のブレークスルーはフレームワークです。推論のための強化学習は通常、報酬として最終的な答えの正確性に依存しています。しかし、このシステムはその制限を打ち破ります。推論の質、論理、そして自分自身の間違いを検出する能力に報酬を与えます。これは一般的なLLMが苦労することです。

その結果、幻覚が大幅に減少します。思考の連鎖がより安定し、モデルは数学者が実際に働く方法とはるかに整合的になります。DeepSeekは基本的に、AIに実際の数学、実際の証明、多肢選択パズルではないものを扱わせたいなら、単に推論を生成するだけでなく、それを検証できるモデルが必要だと言っているのです。

そしてMath V2は、このアプローチが実際にどこまで到達できるかを示す最初のモデルの一つです。しかし、ちょっと待ってください。もしあなたがこのすべてのAIニュースをフォローしていて、「OK、これはクールだけど、実際に何ができるの?」と思っているなら、あなたは決して一人ではありません。だからこそ、私たちはAI収入ブループリントを作成しました。普通の人々がAIを使って副業で追加の収入源を構築している7つの方法を示しています。

技術スキルは不要で、すべてをかなり簡単に自動化できます。このガイドには、私がこのチャンネルでよく話すツールを使用したシンプルで実証済みの方法が含まれています。説明欄のリンクをクリックして無料でダウンロードしてください。では、ギアを切り替えましょう。なぜなら、Tencentも完全に異なる領域をターゲットにした何かを投下し、それは同じくらい印象的だからです。

Tencentの10億パラメータOCR特化モデル

彼らはHunuen OCR、10億パラメータのOCR専門モデルをリリースしました。そして、この小さなモデルはOCR中心のタスクにおいて主要なマルチモーダル巨人を打ち負かしています。Quen 3 VL4B、Gemini 2.5 Pro、さらにいくつかの商用APIのようなモデルです。これはこのサイズでは可能であってはならないのですが、Tencentはこのシステムに膨大な量のエンジニアリングを投入しました。何が特別なのか分解してみましょう。

Hunuen OCRは、外にあるほとんどのOCRシステムとは非常に異なる構築がされています。通常、多くのステップを持つ大きなパイプラインがあります。テキストを検出し、切り出し、認識し、レイアウトを再構築しようとし、ピースが並ぶことを願います。Tencentは基本的に「なぜまだこれをやっているのか?」と言い、すべてを単一のエンドツーエンドモデルにパッケージ化しました。

画像を与えると、1回のフォワードパスでテキストスポッティング、文書解析、情報抽出、翻訳、さらにはVQAまで外部モジュールに依存せずに処理します。これがこのモデルを非常にクリーンに感じさせる部分です。なぜなら、壊れる可能性のあるツールのチェーンがないからです。バックボーンは本当に賢いところです。

ビジュアルエンコーダーはSiglet V2400Mの基盤から始まりますが、Tencentはそれを拡張し、すべてを正方形のクロップに強制する代わりに、元の解像度とアスペクト比で画像を取り込めるようにしました。これは実世界のOCRで非常に重要です。なぜなら、文書はあらゆる形とサイズで来るからです。長いレシート、広いテーブル、複数列のページ、奇妙なスクリーンショット、何でもです。

モデルは元のプロポーションに一致するパッチに画像を分割するため、構造を失いません。そして、これが長いテキスト行、複雑なレイアウト、低品質のスキャンで非常にうまく機能する理由の一つです。画像が処理された後、Hunuen OCRは、重要なテキストの多い詳細を捨てることなく、ビジュアルトークンを基本的により短く、より管理しやすいものに圧縮するこのアダプティブコネクタモジュールを使用します。これにより、言語モデルは軽量で高速に保たれます。なぜなら、数千の不要なトークンを処理する必要がないからです。

そして言語モデル自体があります。わずか0.5Bパラメータですが、彼らがXD ropeyと呼ぶものを装備しています。すべてをトークンのフラットなシーケンスのように扱う代わりに、位置理解を4つの次元に分割します。テキスト自体、ページの高さ、ページの幅、そしてビデオフレームの時間です。

したがって、本質的に物事がページ上にどのように配置されているか、それらが空間的にどのように接続されているかを理解します。だからこそ、複数列のPDFを解析し、ページ間のフローに従い、テーブルやフォームを処理し、モードを切り替えることなくビデオフレーム内の動くサブタイトルさえ読むことができるのです。このモデルのトレーニングは大規模な複数段階のプロセスでしたが、簡単に言えば、Tencentは純粋なテキスト、合成OCRデータ、多言語サンプル、ハードドキュメント、大規模な長文コンテキストコーパスの混合をそれに供給しました。

彼らは徐々にコンテキストウィンドウを32Kまで増やし、崩壊することなく長い文書を扱えるようにしました。そしてすべての教師あり学習の後、検証可能な報酬信号を使った強化学習を使ってさらに押し進めました。モデルは、その出力が完璧に構造の真実と整合している場合にのみ報酬を得ます。正しいバウンディングボックス、正しいテキスト、または正確な翻訳です。

壊れたJSONを出力したり、フォーマットから外れたりすると、ゼロの報酬を得ます。だからこそ、その構造化出力は非常にクリーンなままなのです。そして結果は正直なところ、1Bモデルとしては意味をなしません。9つのカテゴリにわたる900のOCR画像のTencent内部ベンチマークで、70.92の全体スコアを達成し、Paddle OCR、BYU OCR、さらにはQuen 3 VL235BやSeed Visionのような汎用VLMさえも打ち負かしています。

最も難しい公開文書理解ベンチマークの一つであるOmniDocでは、数式とテーブルでも本当に強い数字で94.1の全体スコアを記録します。これらは通常、数倍大きなモデルから期待するパフォーマンスレベルです。すべてが混乱したときも持ちこたえます。印刷され、折られ、ひどい照明の下で再撮影された文書があるWild OmniDocベンチでも、85を超えるスコアを記録します。

英語と中国語以外の14言語をカバーするDOC MLでは、91.03を達成し、セット全体で最先端の結果を設定します。92%以上の精度で情報抽出タスクを成功させます。OCRベンチで860を記録し、DeepSeek OCRのような他の小型モデルを上回り、Quen 3 VL2BやGemini 2.5 Proのようなモデルに非常に近い位置にいます。

そして、小型モデルカテゴリでの英語から中国語への文書翻訳のためのICDAR 2025 DIMPコンペティションで1位を獲得しました。そして、これらすべてが、追加モジュールなしでエンドツーエンドで実行される10億パラメータしか持たないモデルからのものです。だからこそ、Hunuen OCRはターニングポイントのように感じられます。これらのコンパクトなOCRスペシャリストの台頭を見ています。これらは巨大なパイプラインを単一の合理化されたモデルに置き換えます。

彼らは本番使用に十分小さいです。100以上の言語を扱い、実世界で実際に重要なタスクで、はるかに大きな汎用視覚言語モデルをすでに打ち負かしています。このシフトが起こるのを見ることは、今のAIレース全体で最もエキサイティングな部分のように感じます。さて、考えるべきことがあります。

小型特化モデル対巨大汎用システム

長期的にはどちらの方向が勝つと思いますか。高度に特化した小型モデルか、巨大なオールインワンシステムか。コメントであなたの意見を書いてください。私はそれらすべてを読んでいます。動画を楽しんでいただけたら、必ず登録していいねを押してください。ご視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました