光学式文字認識 (OCR)

構造化されていないドキュメントを処理して任意のコンテンツを見つけるには、いずれかの抽出メソッドを適用する前に、ドキュメント全体を OCR エンジンで処理する必要があります。OCR の結果は構造化されたドキュメント表現に格納され、xdc (XDoc) ファイルとして保存されます。以降のすべてのアルゴリズムの処理は、元のファイルの XDoc 表現に対して行われます。

OCR は Transformation Designer および Transformation Server に透過的に統合されています。OCR は、要求があった場合に限って、実行時に自動実行されます。つまり、ページの全文の結果が必要な場合のみ実行されます。たとえば、抽出がドキュメントの最初のページに制限されていて、どの分類メソッドでも複数ページを必要としない場合、OCR は最初のページにのみ実行されます。