
1,991 文字

NVIDIAが最高のASRモデル(自動音声認識モデル)をリリースしました。このモデルは6億パラメータを持つモデルです。そして最も素晴らしい点は、このモデルが完全にオープンソースであり、商用利用も可能である(CC BY 4.0ライセンス)ということです。このモデルは句読点、大文字化、タイムスタンプにも対応しています。つまり、音声クリップを簡単に字幕に変換できるのです。
例えば、多くのモデルが私の「cohhere」という発音に苦戦していますが、このケースでは「cohhere」が正確に識別されました。同様に「Mistl」と言った時も、「Mistl」が正確に識別されました。「22ビリオンパラメータモデル」と言った時も、「22」は正確に数字として認識され、「billion parameter」と続きます。
このモデルでいろいろなことを試しましたが、非常に優れた仕事をしています。このモデルの名前は何でしょうか?モデルの名前は「Parakeet TDT」です。この場合のTDTはモデルが構築されたアーキテクチャを表しています。これはFast Conformer TDTという、NVIDIAがこのモデルを構築するのに役立ったディープラーニングアーキテクチャです。
このモデルはNVIDIA GPU向けに高度に最適化されています。Macでの実行方法を調べましたが、もし興味があれば教えてください。このモデルの使い方について別のコーディングチュートリアルをまとめます。これは6億パラメータのモデルで、特に自動音声認識、つまり音声からテキストへの変換に特化しています。
単語やシンボルなどを検出でき、特に高品質な英語の文字起こし用に設計されています。また句読点、大文字化、非常に正確なタイムスタンプ予測もサポートしており、デモリンクはYouTubeの説明欄に記載されます。このモデルがニュースになっている理由は、Hugging Faceのオープンリーダーボードでトップに立っているからです。
Hugging FaceのオープンASRリーダーボードを見ると、WER(単語誤り率)でソートされています。これは単語の誤りがどれだけあるかという指標で、誤り率が低いほど良いとされています。ここでNVIDIAのParakeet TDT 6億パラメータモデルがトップにあり、次に54マルチモデルインストラクトモデル、その次にNVIDIA Canaryと続き、他にも多くのモデルがあります。実際に私がよく使っているWhisperは現時点ではトップ5にも入っていませんが、私にとっては一貫性のあるモデルなので、まだWhisperをよく使っています。しかし、NVIDIA Parakeetは他のアクセントをうまくキャプチャしたいモデルとして選択できそうです。
この音声を再生してみます。音声を聞いてから文字起こしを確認しましょう。「彼らが数日前にトレントを通じて発表したことから始めましょう」最初のモデルは、彼らが数日前、おそらく1週間前にトレントを通じて発表したものですが、モデルのインストラクトバージョンをリリースしました。
ここで私が話した通りの詳細を見ることができます。大文字化や句読点を含めて利用可能です。このデモはあなたが使えるように用意されています。「アップロード」をクリックするだけです。受け付けてくれるか試してみます。これは明らかにアメリカのアクセントです。まずファイルのアップロードが完了するのを待つ必要があります。
「1964年、私は小さな女の子でした。」これがクリップの文字起こしです。現在、文字起こしが進行中で、文字起こしが完了しました。「1964年、私は母の家のライオンヨラムの床に座って…」私はこの特定の単語を決して書き起こせなかったでしょうが、このモデルは「アナ・ブラフトフトが第36回アカデミー賞の最優秀俳優賞を発表するのを見ていました。そして受賞者はシドニー・ポワチエです。」
この場合のスペルが正確かどうか見てみましょう。それが私が確認したいことです。「受賞者はシドニー・ポワチエです。シドニー・ポワチエ。すごい。シドニー・ポワチエ。いいですね。」正確です。つまり、非常に高品質な文字起こしができるということです。
これは多くのモデルではあまり見られないことです。このモデルが6億パラメータのモデルであり、句読点、大文字化、そしてタイムスタンプも含めた高品質な英語の文字起こしができるという事実は非常に興味深いです。コメント欄でこのモデルについての感想を教えてください。
長時間の文字起こしもできます。つまり、どんな音声クリップでも簡単に取り込んでブログ記事など様々なものに変換できます。このモデルについてどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング!


コメント