DeepSeekが新たに発表したDeepSeek OCRは、画像認識技術に革新的なアプローチをもたらした。従来の画像認識技術とは異なり、このモデルはテキストを画像として表現することで、10倍のテキスト圧縮を実現しながら97%の精度を維持する。大規模言語モデルにおける最大のボトルネックであるコンテキストウィンドウの制約を、画像によるテキスト表現という手法で克服する可能性を示している。この技術により、同じトークン予算で10倍のテキスト情報を扱えるようになり、言語モデルの能力が飛躍的に向上する可能性がある。Andre Karpathyをはじめとする著名なAI研究者たちも、この技術がLLMへの入力方法を根本的に変える可能性があると注目している。

DeepSeekが再び革新を起こす
DeepSeekがまたやってくれました。彼らは新しい論文とモデルであるDeepSeek OCRを発表したのです。OCRは基本的に画像認識のことです。でも、なぜこれが大きな話題になっているのでしょうか。画像認識は昔からあるものですよね。実は、彼らは完全に新しい何かを発見したのです。そしてそれは、言語モデル、つまりテキストベースのモデルをはるかに強力にする可能性を秘めているのです。
お見せしましょう。これがDeepSeekの新しい論文です。さて、先ほど言ったように、画像認識は長い間存在してきました。特別なものではありません。これまで何度も見てきましたし、何百万回も行われてきたことです。しかし、DeepSeek OCRを非常に特別なものにしているのは次の点です。「一枚の絵は千の言葉に値する」という言葉があります。そして、これこそがDeepSeek OCRの鍵なのです。
画像によるテキスト表現という革新
DeepSeekは、画像の中でテキストを表現する方法を見つけ出しました。そしてこれにより、97%の精度を維持しながら、テキストを10倍圧縮することができるようになったのです。もしこれがまだ理解できなくても心配しないでください。これから全てを詳しく説明していきます。
現在、大規模言語モデル、つまり皆さんが使い慣れているGeminiやChatGPTなどのテキストモデルにおける大きなボトルネックは、コンテキストウィンドウです。これは、プロンプトに実際にどれだけの単語、あるいはどれだけのトークンを収めることができるかということです。実際にはもう少し複雑なのですが、要点はそういうことです。そして、コンテキストウィンドウは、モデルが最高の出力を生み出すために必要なすべての情報を与える場所なのです。
ボトルネックが発生するのは、コンテキストウィンドウを拡大すると、それに伴う計算コストが二次関数的に増加するためです。つまり、非常に速く増加するということです。ですから、コンテキストウィンドウにトークンを1つ追加するだけで、実際には大幅に多くの計算が必要になります。特にコンテキストウィンドウをさらに拡大していくにつれて、その傾向は顕著になります。
しかし、もしそうである必要がなかったらどうでしょうか。そして、実際に何も変更することなく、コンテキストウィンドウに10倍もの量のコンテキストを入れることができたらどうでしょうか。それは素晴らしいことですよね。まさにそれが、この論文でDeepSeekが提案していることなのです。
視覚トークンによる圧縮の仕組み
彼らが発見したのは、画像を使えば、トークン単位で画像を表現するのに必要な量の10倍のテキストを表現できるということです。これを聞いてください。「文書テキストを含む単一の画像は、同等のデジタルテキストよりも大幅に少ないトークンを使用して豊富な情報を表現できます。これは、視覚トークンによる光学圧縮がはるかに高い圧縮率を達成できる可能性を示唆しています。」
そして彼らは、効率的な視覚テキスト圧縮のための予備的な概念実証として設計された視覚言語モデルであるDeepSeek OCRを提示しています。では、これがどのように機能するのか説明しましょう。左側には入力が見えます。これは実際にはテキストの画像です。この例では、PDFのように見えますが、基本的にはテキストの画像を撮ることができます。
そして、そうです、実際に画像の中に大量のテキストを詰め込むことができますし、画像内のテキストを非常に小さくすることもできます。ただし、ノイズが発生し始め、視覚的な解像度が読み取り不可能になる前に、そのテキストがどれだけ小さくできるかには上限があります。次に、その画像が実際の画像から16×16のパッチ、つまり小さな正方形に分割されます。
モデルの構造と処理プロセス
それから、メインエンジンでいくつかの異なる技術を使用します。まずSAMです。これは文字の形状や画像内のさまざまな詳細などのローカルな詳細を探す、8000万パラメータのモデルです。次に、ダウンサンプリング、つまり基本的には圧縮を続けて、それらすべての画像を取り出して、はるかに小さいものに押し込みます。
次にCLIPがあります。これは3億パラメータのモデルで、基本的にこれらの異なる画像をどのように組み合わせるか、どのページかなど、すべての情報を保存し、基本的に私たちのためにすべてをまとめています。そして出力では、DeepSeek 3Bがあります。これは30億パラメータのMixture of Expertsで、このMixture of Expertsモデルでは5億7000万の活性パラメータがあり、それをデコードします。
画像を取り出して、それをテキストに変換し直すのです。そしてこれにより、テキストを画像に圧縮し、同じトークン予算で10倍の量の実際のテキストを収めることができる非常に効率的な方法が手に入ります。Geminiモデルを想像してみてください。このモデルは100万または200万トークンを持っています。ちなみに、これはこれまでに見た中で最大級のもので、考えるだけで本当に驚異的です。
すると突然、10倍を与えることができます。つまり、突然、テキストから画像へ、画像からテキストへの変換によるわずかなレイテンシの増加だけで、1000万または2000万トークンを扱えるようになるのです。論文によれば、私たちの方法は9から10倍のテキスト圧縮で96%以上のOCRデコード精度を達成し、10から12倍の圧縮で90%、20倍で60%を達成しています。
反響と今後の可能性
つまり、圧縮率が上がるにつれて、精度は確実に下がります。そして多くの人々がこの論文に反応しています。しかしそれをお見せする前に、今日のビデオのスポンサーで、このモデルをローカルで実行することができます。Dell Technologiesにビデオのこの部分のスポンサーをしていただいたことに感謝します。Dell Technologiesには、Dell Pro Maxと呼ばれる素晴らしいノートパソコンのファミリーがあり、Nvidia RTX Pro Blackwellチップを搭載しています。これらはポータブルなAIワークホースです。
14インチと16インチのスクリーンサイズがあり、最大32GBのGPUメモリを搭載しています。移動中のAIワークロードに最適です。ぜひチェックしてみてください。下の説明欄にリンクがあります。では、いくつかの反応をお見せしましょう。まず、Andre Karpathyです。もちろん、私は新しいDeepSeek OCRの論文がとても気に入っています。これは優れたOCRモデルです。
つまり、そもそも単純に優れたモデルなのです。画像が何についてのものかを認識するのが得意です。そして私にとってより興味深い部分は、ピクセルがテキストよりもLLMへの優れた入力であるかどうか、テキストトークンが無駄で入力として単にひどいものなのかどうかということです。ですから、テキストベースのモデルであっても、すべての入力を画像に切り替え始めることを想像してみてください。
彼は続けます。「おそらく、LLMへのすべての入力は画像だけであるべきだというのが理にかなっているのかもしれません。純粋なテキスト入力がたまたまある場合でも、それをレンダリングしてから入力する方を好むかもしれません。」そしてそうすることで得られるものはこちらです。より多くの情報圧縮、より短いコンテキストウィンドウ、より高い効率性、大幅に一般的な情報ストリーム、テキストだけでなく、太字のテキスト、色付きテキスト、任意の画像。
入力を双方向アテンションで簡単にデフォルトとして処理できるようになり、自己回帰アテンションではなくなります。はるかに強力です。入力時のトークナイザーを削除できます。私はすでにトークナイザーがどれほど嫌いかについて語ってきました。トークナイザーとは、単語を取り出してトークンに変換するものです。そして覚えておいてください、トークンは実際には単語の4分の3です。
それよりももう少し洗練されたものですが、そのように考えることができます。そしてもちろん、彼は「今、私はNanoGPTの画像入力のみのバージョンのサイドクエストをしたいという衝動と戦わなければなりません」と締めくくっています。NanoGPTは彼がほんの数週間前に作成した小規模言語モデルです。そして、単純に画像バージョンにすることでコンテキストウィンドウを10倍にできるというのは、本当にクールだと思います。
そして、Brian Roemmeleがこれがなぜこれほど印象的なのかを本当に際立たせていると思います。彼がこれで何ができるかを聞いてみてください。「百科事典全体を単一の高解像度画像に圧縮できます。」つまり、効率性の向上は信じられないものです。さて、では彼らは実際にこのモデルをどのように訓練したのでしょうか。
訓練データとその詳細
非常にDeepSeekらしいスタイルで、彼らは研究論文ですべてを明らかにしました。「私たちはインターネットから約100言語をカバーする3000万ページの多様なPDFデータを収集しました。そのうち中国語と英語が約2500万を占め、他の言語が500万を占めています。」例を挙げましょう。これがグラウンドトゥルース画像で、右側には彼らがレイアウト付きの詳細な注釈を提供しています。
これは、コンテキストウィンドウに収まる情報量を圧縮する上での重要なブレークスルーのように思えます。これにより、まったく新しいユースケースのセットが開かれ、この技術が今日私たちが知っていて愛しているモデルに広まっていくのを見るのが本当に楽しみです。このビデオを楽しんでいただけたら、ぜひいいねとチャンネル登録をお願いします。


コメント