Configuración de conversión PDF con capacidad de búsqueda
Este cuadro de diálogo aparece si realiza una de las acciones siguientes:
- Hacer clic en el botón Configuración en el cuadro de diálogo Perfiles de PDF Create con la casilla de verificación Con capacidad de búsqueda seleccionada.
- Hacer clic en , y luego en en el cuadro de diálogo .
- Visitar las opciones para el proceso OCR en .
Use estos parámetros si desea crear un PDF con capacidad de búsqueda a partir de archivos de imagen o de archivos PDF de solo imagen que no tengan capacidad de búsqueda. Vea la lista de tipos de archivos compatibles en el Asistente de Create.
- Idioma de OCR
- Para extraer el texto a partir de las imágenes y así agregar capacidad de búsqueda a los archivos de imagen, es necesario usar OCR. Seleccione aquí el idioma que aparece en el documento de origen.
- Carácter de rechazo
- Los caracteres no reconocibles se representan con un carácter de rechazo (que de manera predeterminada es una tilde: ~). Por ejemplo, si el algoritmo de OCR no pudo reconocer la H en RECHAZO y ~ es el carácter de rechazo, en el documento aparecerá la cadena REC~AZO.
- Escriba el carácter que desee usar en el cuadro de edición Carácter de rechazo. Trate de seleccionar un carácter que no aparezca en los documentos.
- Mantener imagen original
- Seleccione esta casilla de verificación para conservar la imagen original tras la conversión.
- Orientar páginas automáticamente
- Active esta casilla de verificación para configurar automáticamente la orientación de página (horizontal o vertical).
- Procesar páginas
- Seleccione qué páginas desea procesar al convertir el documento PDF a documento con capacidad de búsqueda.
- Páginas de solo imagen: De forma predeterminada, Power PDF procesa únicamente las páginas que incluyen contenido de solo imagen (mapa de bits), sin una capa de texto.
- Todas las páginas: Seleccione esta opción para procesar páginas independientemente de los componentes.
- Procesar documentos usando OCR: Seleccione esta opción para procesar documentos solo con OCR. Internamente, todas las páginas se convierten al formato de mapa de bits y, a continuación, se procesan mediante OCR. Este método arrastra todos los elementos no visuales y no estándar (por ejemplo, objetos ocultos o cubiertos, texto en el que se utilizan fuentes con códigos de caracteres no estándar) y puede ser de ayuda si la conversión estándar al procedimiento PDF con capacidad de búsqueda falla.
- Reconocer páginas con codificación no estándar: Seleccione esta opción para procesar páginas que contienen sus propias fuentes o codificación de caracteres especial.
- Revisar los resultados de forma automática después del OCR
- (Accesible solo en Power PDF) Seleccione esta opción para ejecutar el verificador automático interactivo en el documento procesado. Haga clic en Diccionarios de usuario para agregar o crear sus propios vocabularios.
- Buscar páginas de solo imagen automáticamente (requiere reiniciar)
- (Accesible solo en Power PDF) Si esta opción está seleccionada, Power PDF verificará cada PDF abierto y, si el documento contiene páginas de solo imagen, realizará la conversión a PDF con capacidad de búsqueda. El procedimiento de verificación puede ser lento. Por eso, esta opción está desactivada de forma predeterminada.
- Informar en la barra de notificación
- (Solo accesible en Power PDF, habilitado solo si la casilla de verificación anterior se encuentra seleccionada). Seleccione «Informar en la barra de notificación» para que Power PDF le informe acerca de páginas de solo imagen en la barra de notificación, situada bajo la cinta. Haga clic en Dotar de capacidad de búsqueda para mostrar el cuadro de diálogo Detección automática y seleccione entre las opciones OCR para aplicar a las páginas de solo imagen.
- Desactive «Informar en la barra de notificación» para que Power PDF muestre el diálogo Detección automática sin notificación en cuanto se encuentren las páginas de solo imagen.
Cuando el archivo de entrada es un archivo de texto o tiene una capa de texto accesible, se crea un PDF estándar con capacidad de búsqueda, sin ejecutar el OCR, de modo que en esos casos las opciones de idioma de OCR y carácter de rechazo no se utilizan.