Paramètres OCR étendus

Kofax RPA fournit une fonction de reconnaissance optique de caractères (OCR) pour extraire le texte des images et pour automatiser les applications avec une API d'automatisation limitée ou non.

L'OCR est un processus complexe et les résultats de la reconnaissance dépendent de nombreux facteurs, tels que les polices d'écran, la couleur d'arrière-plan et de premier plan, la taille du texte, etc. Kofax RPA installe le fichier ocr.cfg qui contient certains paramètres de configuration que vous pouvez utiliser pour modifier les résultats de la reconnaissance. Le fichier comprend une description détaillée des paramètres de configuration. Le fichier ocr.cfg se trouve dans le répertoire d'installation Kofax RPA comme suit.

Sur l'ordinateur automatisé Windows avec le Desktop Automation Service installé :

DesktopAutomationService\lib dans le répertoire d'installation du Desktop Automation Service. Exemple :

C:\Program Files\Kofax RPA DesktopAutomation 11.4.0.0 \DesktopAutomationService\lib
Sur un ordinateur Windows local à utiliser avec le navigateur intégré :

nativelib\hub\windows-x64\<numéro de version>\lib* dans le répertoire d'installation Kofax RPA. Exemple :

C:\Program Files\Kofax RPA 11.4.0\nativelib\hub\windows-x64\166\lib
Sur un ordinateur Linux local à utiliser avec le navigateur intégré :

nativelib/hub/linux-x64/<numéro de version>/lib dans le répertoire d'installation Kofax RPA. Exemple :

Kofax RPA_11.4.0.0/nativelib/hub/linux-x64/166/lib

* Le numéro de publication est différent dans les différentes versions du programme.

Changer de langue et de moteur OCR

Changer de moteur OCR

Kofax RPA utilise le moteur Tesseract (par défaut) ou OmniPage pour capturer du texte à partir d'images. Pour modifier le moteur OCR par défaut, procédez comme suit.

Recherchez le fichier ocr.cfg sur votre ordinateur.
Ouvrez ocr.cfg dans un éditeur de texte et recherchez l'option engine_type.
Spécifiez un moteur OCR tel que omnipage en tant que valeur, comme suit engine_type = omnipage.

Si vous souhaitez utiliser le moteur OCR par défaut (Tesseract), spécifiez tesseract comme valeur de l'option engine_type ou supprimez simplement toute valeur de cette option.

Changer de langue OCR

Recherchez le fichier ocr.cfg sur votre ordinateur.
Dans l'éditeur de texte, ouvrez ocr.cfg et recherchez l'option default_language.
Remplacez eng par un autre code de langue, par exemple jpn ou, si vous souhaitez utiliser plusieurs langues, ajoutez jpn en utilisant le signe plus, tel que default_language=eng+jpn. Le code de langue doit être au format ISO 639-3 ou ISO 639-1. Enregistrez et fermez le fichier.

OmniPage inclut toutes les langues prises en charge dans l'installation. Pour Tesseract, seule la langue anglaise est incluse dans l'installation. Pour ajouter d'autres langues pour la reconnaissance de l'interface utilisateur par Tesseract, reportez-vous aux étapes 1 et 2 de la section « Changer ou ajouter une langue de reconnaissance de l'interface utilisateur pour Tesseract » dans Modes arborescence.

Le moteur OCR et les paramètres de langue du Desktop Automation Service sont spécifiés dans la fenêtre de configuration du Desktop Automation Service séparément pour chaque ordinateur exécutant ce service. Voir Configurer le Desktop Automation Service pour plus d'informations.

Pré-traitement d'image

Les informations suivantes ne s'appliquent qu'au moteur Tesseract.

Avant que le processus OCR proprement dit ne soit lancé pour une image, l'image est prétraitée à l'aide d'un algorithme particulier. Dans le fichier ocr.cfg, le paramètre preparation définit l'algorithme à utiliser. Par défaut, il est réglé sur normal.

Si l'algorithme de prétraitement par défaut donne un résultat que vous trouvez insatisfaisant, vous pouvez essayer un algorithme différent. Pour ce faire, modifiez la valeur de preparation avec 10.2 et enregistrez les modifications.