Die Aktivität ABBYY FullPage Extraktion

Mit dieser Aktivität können Sie Dokumente mit dem ABBYY FineReader extrahieren (auslesen).

Der Dateiname der Aktivität (falls Sie sie im Process Designer neu hinzufügen müssen) ist xboundActAbbyyFullPageExtract.dll.

Die folgenden Einstellungen sind verfügbar, wenn Sie anhand dieser Aktivität einen Prozessschritt konfigurieren. (Für weitere Informationen siehe XBOUND-Hilfe.)

Fast Mode	Mit dem Fast Mode steigert sich die Erkennungsgeschwindigkeit um das 2-2,5 fache. Dabei steigt die Fehlerrate moderat (1.5-2 mal so viele Fehler). Dieses Feature ist sowohl für handschriftliche als auch maschinengeschriebene Belege verfügbar. Auf gut gedruckten Texten entstehen im Fast Mode 1-2 Fehler pro Seite.
Leerseiten ignorieren	Markieren Sie diese Option, wenn Sie kein als Leerseiten markierte Dokumente auslesen möchten.
Ausschließlich unbearbeitete oder ungültige Dokumente bearbeiten	Markieren Sie diese Option, wenn Sie nur Dokumente erneut auslesen möchten, die noch nicht erfolgreich validiert wurden.
Klassifikations-/Extraktionsdauer in Unterdokumenten speichern	Markieren Sie diese Option, wenn Sie pro Dokument die Verarbeitungsdauer speichern möchten.
Layout im Dokument speichern	Markieren Sie diese Option, wenn Sie pro Dokument das Layout speichern möchten.
Zeichendaten speichern	Wählen Sie diese Option nur dann, wenn man Einzelzeicheninformationen benötigt. Dies ist zum Beispiel der Fall wenn man in der Verification mit der Lassofunktion nicht nur ganze Wörter sondern Wortteile auswählen möchte. Bei Aktivierung der Option wird im Datenmodell für jedes Zeichen ein Character-Objekt erzeugt, sonst nicht. Im letzteren Fall werden die Zeichen als ein String direkt am entsprechenden Word-Objekt gespeichert. Achtung: Bei Verwendung der Option erhöht sich der Arbeitsspeicherbedarf während der Extraktion und in der Verification signifikant.
Bildauswahl	Wählen Sie, ob die Extraktion vom TIFF oder vom JPEG erfolgen soll.
Sprache	Wählen Sie den zu verwendenden Sprache aus.
Anwenden auf folgende Dokumententypen	Markieren Sie diese Option, wenn Sie nur bestimmte Dokumente bestimmter Dokumententypen auslesen möchten. Markieren Sie alle auszulesenden Dokumententypen. Sollen auch Dokumente ohne Typ gelesen werden, markieren Sie die Option Kein Dokumenttyp.
OCR Daten exportieren	Markieren Sie diese Option, wenn Sie die ausgelesenen Daten und die zugehörigen Images z.B. für das Anlernen einer Klassifikation als Textdatei exportieren möchten. In das Eingabefeld Exportpfad legen Sie fest, in welchem Verzeichnis die Datei gespeichert werden soll.
OCR-Daten für ReadSoft Capture Components erzeugen	Die Leseergebnisse der ABBYY-Engine werden zur weiteren Verarbeitung der RCC bereitgestellt, indem der Engine-Name der Leseergebnisse auf "ReadSoft Capture Components" umgestellt wird. In der Anwendung RCF wird die Engine (OCR-Engine Name) als ReadSoft Capture Components statt AbbyyFpr angezeigt.

Auch folgende Einstellungen stehen zur Verfügung:

Import	Importiert Einstellungen für diesen Prozessschritt aus einer XML-Datei, die mit der Export-Funktion erstellt wurde.
Export	Speichert die Einstellungen dieses Prozessschrittes in einer XML-Datei. Geben Sie einen Dateinamen und ein Zielverzeichnis ein. Sie können dann diese Datei in einen anderen Prozessschritt desselben Typs importieren, um die gleichen Einstellungen zu erreichen.
Regulärer Ausdrücke überprüfen	Öffnet einen Testdialog, in dem Sie reguläre Ausdrücke überprüfen können.

ReadSoft Capture-Aktivitäten: Überblick

XBOUND Aktivitäten: Überblick (XBOUND-Hilfe Thema)