RecoStar 認識トリグラ ムモード

トリグラムとは、多くの言語で一般的に見られる 3 文字の組み合わせのことです。たとえば、一般的な英語のトライグラムには、ingion などがあります。

重要 RecoStar 認識エンジンは、Kofax TotalAgility の次のリリースで削除される予定です。そのため、Kofax では、すべての新規プロジェクトのページ認識とゾーン認識で OmniPage 認識プロファイルを使用することを推奨しています。1 つ以上の RecoStar プロファイルを使用する既存のプロジェクトがある場合は、それらのプロジェクトを変更して、同等の OmniPage プロファイルを使用することもお勧めします。

RecoStar は、3 重文字を利用して認識の精度を高めることができます。3 重文字は、信頼度が低く、出現頻度が小さい文字の組み合わせをチェックし、必要に応じて修復することができます。

次の例を検討してください。

元の単語

画像

最初の認識結果

3 重文字の適用後

Walking

Walking (薄い)

Walki^g

Walking

Dictonary

Dictonary (染みあり)

Dictonary

Dictonary

最初のケースでは、Walking の画像ファイルに欠落部分があります。特に n はかなり消えかかっています。認識エンジンは、r の後に i が続くのか、それとも単一の n であるのかを判断できないため、最初の結果では文字が [リジェクト] としてマークされます。最初の結果に 3 重文字分析が適用されて、認識エンジンは 3 重文字の組み合わせとして最も可能性が高いのもの (この場合は ing) を決定します。

2 番目のケースでは、画像ファイルに大きなノイズが含まれています。このノイズのために、Dictonary の 2 番目の i は文字 l と解釈され、3 重文字分析の結果、lon より ion の方が可能性が高いことがわかり、単語が修正されます。3 重文字分析は統計的なプロセスであることに留意することが重要です。RecoStar には、サポートされているほとんどの言語用の 3 重文字テーブルが付属しています。各テーブルには、有効な 3 文字の組み合わせと、その言語における出現頻度のリストが含まれています。このような組み合わせは数千通りありますが、その多くはほとんど使用されないため、発生頻度はほぼゼロになります。

まれに、一般的でない 3 重文字がデータ内に多数含まれる場合があります。たとえば、シカゴのラジオ局のリストに WGN、WLS、WNVR、WKTAF、WZRD、WBEZ、または WXRT が含まれることがあります。このような場合は、問題に気が付いた時点で、認識プロファイルの 3 重文字を無効にすることを検討する必要があります。