この動画では、Mistral AIの有料OCR APIを上回る性能を誇るという無料のOCR(光学文字認識)ソリューション「Nanonets OCR-S」について詳しく解説している。この小型モデルは手書き文書やスキャン文書を含む様々な画像やPDFをマークダウン形式に変換でき、Google Colabで無料で実行可能である。動画では実際のデモを通じてモデルの性能と限界を検証し、実用性について率直な評価を提供している。
はじめに:最高の無料OCRソリューション
これは恐らく光学文字認識を行いたい場合の最高の無料OCRソリューションです。実際に開発者たちは、このモデルがMistral AIの有料OCR APIを上回ると主張しています。これはNanitsという会社からリリースされた小型モデルで、この動画ではモデルについて全てを学び、Google Colabでこのモデルを無料で実行する方法もご紹介します。これにより、手書き文書やスキャンされた文書を含む、必ずしも印刷された文書だけでなく、あらゆる画像やPDFをマークダウンに変換することができます。
モデルの概要と特徴
これはNanitsという会社のOCR-Sモデルです。sは小型モデルを意味し、Qwen 2.5ビジョン言語モデルのファインチューン版です。従来の生のOCRモデルではなく、ビジョン言語モデルでありながら、光学文字認識に特化してファインチューニングされています。
このモデルができることを見てみると、LaTeX方程式認識、画像説明、署名検出と分離、透かし抽出など、OCRソリューションに通常求められる様々な機能を実行できます。彼らはdoc xという独自のセットアップを持っており、このモデルは現在その中で利用可能です。
実行方法
このモデルを実行するのは非常に簡単です。YouTubeの説明欄にリンクするGoogle Colabノートブックがあり、そのGoogle Colabノートブックにアクセスして「すべて実行」をクリックするだけです。「すべて実行」をクリックすると、Gradioアプリケーションが開き、このような画面が表示されます。そこで文書をアップロードして、文書のマークダウンへの変換を開始できます。これは非常に簡単です。
Mistral AIとの性能比較
このモデルがMistralより優れている部分については興味深い点があります。様々な主要機能がありますが、彼らが強調しているのは、このモデルがMistralの有料ソリューションよりも特に優れている点です。これが最も重要な点です。単なる無料ソリューションではなく、有料ソリューションよりも優れているのに、このモデルは無料なのです。
ただし、これらは選択的な例である可能性があるので注意が必要です。これはモデルを発表したNanits社から直接来ている情報だということを覚えておいてください。しかし、違いを見ることができます。
入力文書では、特定の方程式があり、図番号や方程式番号があります。実際の出力、画像出力、生のモデル出力を見ると、実際のテキスト、マークダウンが確認できます。彼らの出力では方程式番号が含まれていますが、Mistralはそれらの方程式番号を見逃したと述べています。これは言語モデルを扱う際に有用でない可能性があります。
別の例でも、入力画像があり、彼らの出力では画像は存在しませんが、画像説明が含まれています。これは後でビデオで検証したい主張です。しかし今のところ、これは画像やチャートを理解するビジュアル言語モデルであるため、単純に文字を見るだけでなく、その画像やチャートが表現しようとしていたものを作成し、テキストを追加します。残念ながらMistralはそれを行わず、単に「img0.jpeg」と表示し、見逃しました。
実際のデモテスト
署名検出の他の例もあります。透かしに「paid」と書かれており、彼らの出力では有料の透かしが表示されていますが、Mistralの出力では「paid」を無視しています。これは多くの人が望まない可能性があるため、異なる人々が行う設計選択の理由かもしれません。
チェックボックスタグもあります。アップロードされたPDFをWebアプリケーションに変換するWebアプリケーションとして使用したい場合に利用できます。テーブル抽出も可能で、これは非常に重要です。レガシーデータを扱ったことがある方がどれくらいいるかわかりませんが、多くのレガシーデータはPDF形式で存在する可能性があり、特に政府ソリューションでは、データサイエンティストとしての私の仕事の経験では、PDFからテーブルを抽出し、構造化データに変換してから何らかの科学的分析を行う必要がありました。このモデルは彼らによると、その仕事を非常にうまく実行できます。
モデルの技術詳細
このモデルに関する多くの情報があります。これはQwen 2.5の30億パラメータモデルのファインチューン版で、25万ページのデータセットをキュレーションし、それをマークダウンに変換するために使用しました。ライセンスについて明確な言及は見当たりませんが、このモデルはオープンソースであると主張されているため、Qwenライセンスに従うと考えられ、商用利用も可能であるはずです。しかし、ライセンス部分を正確に把握できませんでした。しかし全体的に、OCRをビジュアル言語モデルで実行したい場合の本当に良いモデル、堅実なモデルです。
詳細なテスト結果
主要な部分として、デモで使用してテストしました。私が与えた入力は、Nvidiaからのブログ投稿の完全なスクリーンショットです。これを選んだ理由は、モデルを一度にテストできる多くの要素があるからです。画像が複数あり、タイトルタグがあり、「GPU kernel生成の自動化」というタイトルがあり、フローチャートもあります。
最終的に見たいのは、Mistralより優れていると主張するこのモデルが、これらすべての仕事を実行できるかです。30億パラメータモデルにこれらすべてを期待するのは大丈夫かと質問されるかもしれませんが、誰かがそれが機能すると言うなら、機能するはずです。私たちは単に彼らの主張を検証しようとしているだけです。
アップロード後、正確なマークダウンが表示されます。モデルが完璧に実行したことがいくつかあります。これはスクリーンショットとして与えた正確なコンテンツで、多くの異なる要素があることがわかります。
性能評価と結果
モデルが完璧に実行したことを比較したい場合、例えばこの特定の部分を特に良く実行しました。モデルを見ると、「page one developer watermark」などすべて問題ありません。タイトル、日付、著者があり、同じものが確認できます。タイトル、日付、著者があり、「DeepSeek R1でのGPU kernel自動化プロセスを示す図」という画像タグがあります。
この図を取得し、それを私たちに説明しようとしています。それが説明しようとしているものなのか、どこかに画像があってそこに画像タグを追加し、それが何であるかを教えてくれているのかはわかりませんが、良いことです。Mistralが行ったことはしていません。
下に行くと、特に良い仕事をしている場所がたくさんあります。例えば、適切にハイライトされた異なるセクションがある場所があります。「最適化の必要性」というタイトルタグが含まれており、単純なテキストではなくタイトルタグがあります。
モデルの限界と課題
ここで特定の懸念が見られる部分があります。この特定の関数を見ると、ここにタイトルがあり、この関数「def relative_positional_score」があります。これがここでの名前です。ここが関数です。ここを見ると、「def real_positional_encoding」と書かれており、これは正確にはここにあるものではありませんが、まだ「relative positional encoding」です。
positional encodingを文字通り検索しても存在しません。このモデルを理想的に信頼すべき場所があり、このモデルは信頼できない小さなことを行いました。2つ目は、最初の場所で画像タグを追加し、残りの場所では画像タグを追加しなかったため、Mistralが行うと言ったのと同じことを行います。
私はオープンソースの30億パラメータモデルに対して非常にポジティブな考えで多くの細かい指摘をしていることは分かっていますが、このモデルがローカルで使用すべき最高のモデルであると説明しようとしている人として、このモデルが彼らが言及したとおりにすべてを実行するわけではないことを説明する義務もあります。
時には非常にうまく実行し、時にはそれほどうまく実行しない、少し不安定な状況がありますが、それ以外は非常に良いと思います。ディスカス場所に行くとアイコンがあり、ここでアイコンを見つけることができました。likeアイコンがあり、Facebook、Twitter、Instagramアイコンなど、より多くのアイコンがあると述べています。
総合評価
90%の部分で特に良い仕事をしましたが、100%正確ではない非常に小さな場所があり、これは30億パラメータモデルであることを理解できます。より良いモデルを使用すれば理想的に良くなるはずです。彼らのアイデアは、このモデルをオープンソース化し、有料提供の一部として中型サイズなどを提供することかもしれません。
いずれにせよ、これは本当に良いモデルです。ぜひ試してみてください。YouTubeの説明欄にGoogle Colabのリンクを入れるので、そこに行って「すべて実行」をクリックすれば、理想的にはGradioリンクが開き、昔のルーター方式のadmin adminユーザー名とパスワードでログインし、文書から特定の情報を抽出したり、画像とPDFのマークダウン化を行ったりできます。
私は画像とPDFのマークダウン化を行いました。文書から情報抽出を行う場合は、抽出しようとしているフィールドを指定する必要がありますが、最終的に90%の時間、95%の時間で良い仕事をします。30億パラメータモデルとしては堅実なモデルです。
まとめ
このモデルについてどう思うか教えてください。まだOCRを行っている場合、少なくとも私の仕事の経験では、多くのPDFからテーブル抽出を行う必要があり、これは試してみたいモデルで、どのようなパフォーマンスを発揮するか見てみたいと思います。このモデルについてどう思うか教えてください。別のビデオでお会いしましょう。ハッピープロンプティング!


コメント