Extraire le texte de l'image

Cette étape permet d'extraire le texte d'une image en utilisant le moteur OCR sélectionné. Vous pouvez sélectionner le moteur Tesseract (par défaut) ou OmniPage pour capturer du texte à partir d'images. Pour Tesseract, seule la langue anglaise est incluse dans l'installation. OmniPage inclut toutes les langues prises en charge dans l'installation. Les robots créés dans Kofax RPA avant la version 11.1 utilisent le moteur Tesseract. Voir Changer la langue OCR par défaut du robot pour plus d'informations.

Lorsque vous utilisez cette étape sans Desktop Automation Service, par exemple, dans le navigateur intégré, modifiez les paramètres OCR dans le fichier ocr.cfg. Voir Paramètres OCR étendus pour plus d'informations.

Il n'est pas possible d'extraire du texte des éléments de cellule dans les tableaux.

Propriétés

Nom
Nom de l'étape.
Variable
Spécifiez une variable pour stocker le texte extrait.
Taille de la police du texte
  • Petit : Police inférieure à 12px.
  • Moyen (par défaut) : Taille de police entre 12px et 24px.
  • Grand : Police de plus de 24px.

Notez que votre choix de taille de police affecte la vitesse d'analyse et de reconnaissance du texte. Par exemple, lorsqu'une grande image est analysée, la sélection de Grand accélère l'analyse deux ou trois fois par rapport à Moyen. Inversement, la sélection de Petit réduit la vitesse de reconnaissance deux ou trois fois par rapport à Moyen. Essayez différents paramètres et choisissez le meilleur en termes de vitesse et de résultats de reconnaissance.

Binarisation d'image
  • Automatique : L'algorithme Tesseract est utilisé pour préparer une image à la reconnaissance de texte.
  • Personnalisé : L'algorithmeKofax RPA est utilisé pour préparer une image à la reconnaissance de texte. Voir Configuration avancée de la reconnaissance de texte pour plus d'informations.
    Delta de seuil
    Aucun
    Positif
    • Petit
    • Moyen
    • Grand
    Négatif
    • Petit
    • Moyen
    • Grand

Configuration avancée de la reconnaissance de texte

Les informations suivantes ne s'appliquent qu'au moteur Tesseract.

Par défaut, Kofax RPA utilise l'algorithme Tesseract pour OCR qui produit des résultats acceptables la plupart du temps. Pour que le texte ne soit reconnu, l'algorithme convertit une image avec du texte en image en noir et blanc et effectue quelques autres ajustements pour faire ressortir le texte. Si le texte reconnaissable se fond dans l'arrière-plan et que le résultat de la reconnaissance n'est pas bon, vous pouvez utiliser l'option Personnaliser dans l'option de linéarisation d'image et ajuster les options Delta de seuil pour obtenir des résultats acceptables.

L'image suivante est une image copiée de l'écran pour la reconnaissance.
Texte gris pour OCR

Voici les résultats de l'ajustement interne de l'image à partir de l'algorithme de reconnaissance de texte de Kofax RPA. Chaque image est étiquetée avec un ensemble d'options Delta de seuil. Dans les cas difficiles, essayez différentes options et choisissez la meilleure en termes de résultats de reconnaissance.

Delta de seuil : Aucun

Delta de seuil - aucun
Delta de seuil : Moyen positif

Binarisation moyenne positive pour OCR
Delta de seuil : Moyen négatif

Options de binarisation moyenne négative

Vous pouvez modifier les paramètres OCR étendus dans le fichier ocr.cfg. Voir Paramètres OCR étendus pour plus d'informations.