画像のクリーンアップ メソッド

画像クリーンアップ プロファイルに 1 つ以上の画像クリーンアップ メソッドを追加できます。通常は、メソッドを組み合わせた場合に最適な結果が得られます。

たとえば、透かし模様や、少量の手書きテキストと大量の印字テキストの組み合わせなど、バックグラウンド ノイズが多いドキュメントを使用している場合は、スペックル除去を実行し、改行を埋めて、軽い厚フィルタを適用する画像クリーンアップ プロファイルを作成できます。これらの 3 つのメソッドを組み合わせると、背景が鮮明になり、テキストが滑らかになり、手書きコンテンツの文字幅が広くなって、認識しやすくなります。

画像クリーンアップ プロファイルでは、次のメソッドを使用できます。

メソッド

説明

[詳細スペックル除去]

画像から不要なブロブを除去します。ブロブとは、画像の背景または孤立したマークに含まれる一連のピクセルのうち、スキャンで削除されないもののグループのことです。

[詳細スペックル除去] を重ね合わせるように実行することによって、画像からさまざまなサイズのアイテムを削除することができます。

このクリーンアップ メソッドを使用して、手書きの印の有無を認識したり、ドキュメントからボックス、繰り返しパターン、画像、その他のグラフィックを削除したりすることもできます。これらのアイテムをドキュメントから削除すると、認識率を大幅に高めることができます。

この画像クリーンアップ メソッドを構成する場合は、幅広いドキュメントをテストして、重要なテキストや抽出に必要なデータが削除されないことを確認してください。

[文字スムージング]

文字のエッジを滑らかにして、認識されやすくなるようにします。インクの残量が少ないプリンタでドキュメントを Fax 送信するか印刷すると、文字の鮮明さが失われるのが一般的です。

したがって、このクリーンアップ メソッドで認識が実行される前に文字を調べ、空白領域をインテリジェントに塗りつぶし、ギザギザの角を取り除いて、背景の破片を取り除きます。これにより、認識と抽出の結果を改善できます。

このメソッドは、不適切な認識結果を返す、印字テキストを含んだドキュメントに使用します。一般的には、[スムース + クリーン] または [スムース + クリーン + 保持] クリーンアップ メソッドと併用します。

[スペックル除去]

文字の周囲から単一のドット (別名、ノイズ) を削除して、認識されやすくなるようにします。

透かし情報や、認識結果を妨げるその他のノイズが含まれているドキュメントに使用します。

[改行を埋める]

文字の隙間を見つけて修復し、認識されやすくなるようにします。

ドキュメントのスキャン品質が低い場合に一般に使用されます。穴や隙間があると、認識エンジンは文字を認識しにくくなるため、このメソッドによって結果が向上する場合があります。このエンジンは、[スムース + クリーン] または [スムース + クリーン + 保持] メソッドと連携して使用されることがあります。

[改行を埋める + 保持]

文字の隙間を見つけて修復し、認識されやすくなるようにします。横線と縦線が両方とも保持されます。

ドキュメントのスキャン品質が低い場合に一般に使用されます。

[軽い厚フィルタ]

文字の隙間を見つけて修復するだけでなく、オブジェクトを拡大して認識しやすくします。

ドキュメントに手書きまたは筆記体の手書きが含まれている場合に一般に使用されます。

[ラインを削除]

隣接するコンテンツに対する横線と縦線を除去して、コンテンツが認識されやすくなるようにします。実線、点線、または破線が除去されます。

[スムース + クリーン]

小さい構造を除去し、エッジを滑らかにして、コンテンツが認識されやすくなるようにします。

印字文字のギザギザのエッジを滑らかにする場合に使用します。このメソッドを適用すると、隣接するラインが除去される場合があります。これらのラインを保持する場合は、[スムース + クリーン + 保持] メソッドを使用します。

[スムース + クリーン + 保持]

小さな構造物を除去し、エッジを滑らかにします。また、横線と縦線を保持して、コンテンツを認識しやすくします。

隣接するラインに影響を与えないで、印字文字のギザギザのエッジを滑らかにする場合に使用します。

[厚フィルタ]

隙間を埋め、オブジェクトを拡張して、コンテンツが認識されやすくなるようにします。文字の幅は [軽い厚フィルタ] よりも広くなります。一般的に、少量の手書きコンテンツに使用されます。

[薄フィルタ]

オブジェクトのエッジを除去し、構造を微調整して、コンテンツが認識されやすくなるようにします。

認識しにくい、非常に幅が広い (太字の) テキストがドキュメントに含まれている場合に使用します。