Fenster Erweiterte Einstellungen für High Performance Zonal – Registerkarte Markierung und Wörterbuch

In diesem Fenster können Sie Einstellungen für die Markierung unsicherer Zeichen und für die Verbesserung der Genauigkeit des Erkennungssystems mithilfe von Wörterbüchern angeben.

Verknüpfte Registerkarten

Einstellungen für Markierung

Diese Einstellung beeinflusst die Anzeige der Zeichen, die vom Erkennungssystem nicht mit einer Mindestzuverlässigkeit erkannt werden.

Fehler-Flag

Eingeben eines Fehler-Flags. Standardmäßig wird als Fehler-Flag das Null-Zeichen verwendet, das im Fenster als Leerzeichen angezeigt wird. Mit dem Fehler-Flag markiert das Erkennungssystem Zeichen, die nicht mit einer bestimmten Zuverlässigkeit (Markierungsstufe) erkannt werden können. Sie können ein einzelnes Zeichen angeben (häufig wird ^ verwendet).

Markierungsstufen

Mit diesen Einstellungen können Sie die Mindestzuverlässigkeit festlegen, die bei der Zeichenerkennung akzeptiert wird. Zeichen, die diese Mindeststufe nicht erfüllen, werden mit dem Fehler-Flag markiert.

Allgemein

Bei Auswahl der Option Allgemein können Sie in der nebenstehenden Dropdown-Liste eine von drei Zuverlässigkeitsstufen auswählen. Die Standardstufe ist Mittel. Weiterhin kann Gering oder Hoch ausgewählt werden.

Gering bedeutet eine minimale Erkennungszuverlässigkeit. Die Folge sind weniger Fehler-Flags und eventuell mehr falsche Zeichen (Falscherkennungen). Diese Einstellung eignet sich für unkritische Daten.

Mittel bedeutet mäßige Erkennungszuverlässigkeit. Die Folge sind mehr Fehler-Flags als bei Gering und weniger Fehler bei den Ergebnissen. Diese Einstellung eignet sich für mäßig kritische Daten.

Hoch bedeutet ein hohes Maß an Erkennungszuverlässigkeit. Die Folge sind viele Fehler-Flags, die Aufmerksamkeit erfordern, jedoch höhere Genauigkeit. Diese Einstellung eignet sich für hochkritische Daten.

Spezifisch

Bei dieser Option können Sie genaue Zuverlässigkeitsstufen bei maschinellen Zeichen und bei Druckschrift angeben.

Maschinenschrift

Sie können einen beliebigen Wert zwischen 0 und 100 eingeben oder auswählen. Dieser Wert entspricht der Markierungsstufe für maschinelle Zeichen. Zeichen, die unter diesem Wert liegen, werden mit dem Fehler-Flag markiert. Wenn dieser Wert auf 0 eingestellt wird, werden fast keine Zeichen markiert, da eine Zuverlässigkeit von Null für ein bestimmtes Zeichen sehr selten ist. Wenn dieser Wert auf 100 eingestellt wird, werden fast alle Zeichen markiert, da eine absolute Zuverlässigkeit für ein bestimmtes Zeichen sehr selten ist. Der Standardwert ist 40.

Handschrift

Sie können einen beliebigen Wert zwischen 0 und 100 eingeben oder auswählen. Dieser Wert entspricht der Markierungsstufe für Zeichen in Druckschrift. Zeichen, die unter diesem Wert liegen, werden mit dem Fehler-Flag markiert. Wenn dieser Wert auf 0 eingestellt wird, werden fast keine Zeichen markiert, da eine Zuverlässigkeit von Null für ein bestimmtes Zeichen sehr selten ist. Wenn dieser Wert auf 100 eingestellt wird, werden fast alle Zeichen markiert, da eine absolute Zuverlässigkeit für ein bestimmtes Zeichen sehr selten ist. Der Standardwert ist 40.

Einstellungen für Wörterbuch

Diese Einstellungen wirken sich auf die Nutzung des Bereichswörterbuchs durch Kofax Capture aus. Das zu verwendende Bereichswörterbuch kann nicht auf der Registerkarte Markierung und Wörterbuch angegeben werden. Das Bereichswörterbuch wird im Fenster Eigenschaften des Feldtyps oder im Fenster Feldtyp erstellen festgelegt.

Worttyp

Mit dieser Einstellung können Sie den Worttyp angeben, der beim Vergleich des erkannten Texts mit dem Wörterbuch verwendet werden soll. Bei Kofax Capture bezieht sich Worttyp auf das Verfahren, mit dem Wörter im erkannten Text getrennt werden. Meistens werden Wörter durch ein Leerzeichen getrennt, andere Verfahren sind jedoch möglich. Einige Wörter können beispielsweise durch Satzzeichen oder Tabulatorzeichen getrennt sein.

Um zu verstehen, wie Wörter aus dem erkannten Text extrahiert werden, müssen Sie zuerst wissen, wie das Erkennungssystem Leerräume im Text behandelt. Das Erkennungssystem gibt nicht nur die Größe eines Leerraums zurück, sondern auch die Anzahl aufeinanderfolgender Leerzeichen. Diese Zahl wird anhand der Breiteneinstellung für Zeichen in der Zeile berechnet. Wenn die Breite variabel sein kann, wird der Zeichenabstand anhand der durchschnittlichen Breite aller Zeichen in der Zeile berechnet. Wenn dies nicht möglich ist (beispielsweise bei einem Wechsel der Schriftart in der Zeile), wird die Berechnung wortweise durchgeführt. Die durchschnittliche Zeichenbreite für das aktuelle Wort wird dann zur Berechnung der Anzahl der Leerzeichen vor diesem Wort verwendet.

Abhängig von der Einstellung für den Drucktyp (z. B. Handschrift oder Maschinenschrift) beeinflussen Leerzeichen die Trennung der Ergebnisse in Wörter. Bei Text in Druckschrift definiert jedes Leerzeichen eine Wortgrenze. Wenn die Leerräume zwischen den Zeichen ausreichend groß sind, werden die einzelnen Zeichen als Wort interpretiert. Aufgrund der Regelmäßigkeit maschineller Zeichen unterscheidet das Erkennungssystem häufig absichtliche von ungewollten Leerzeichen.

Betrachten Sie beispielsweise die Zeichenfolge ABC E F G HIJ.

Wenn das Original in Druckschrift geschrieben wurde, wird die Zeichenfolge aufgrund der Leerräume zwischen E, F und G in die Wörter ABC, E, F, G und HIJ aufgeteilt.

Bei Maschinenschrift wird die gleiche Zeichenfolge jedoch in die Wörter ABC, EFG und HIJ aufgelöst. Aufgrund der regelmäßigen Abstände bei der Maschinenschrift kann das Erkennungssystem ein typisches Abstandsmuster ableiten. Der Algorithmus errät daher, dass der Leerraum auf beiden Seiten des F nicht beabsichtigt ist.

Es stehen 7 mögliche Einstellungen für Worttypen zur Verfügung.

Logisch

Logische Wörter sind Gruppen von alphabetischen Zeichen oder Zahlen, die durch Leerräume, bestimmte Satzzeichen oder Schriftartwechsel getrennt sind.

Logische Buchstaben

Logische Buchstabenwörter sind Gruppen von alphabetischen Zeichen, die durch Leerräume, bestimmte Satzzeichen oder Schriftartwechsel getrennt sind.

Logische Zahlen

Logische Zahlenwörter sind Gruppen von Zahlen, die durch Leerräume, bestimmte Satzzeichen oder Schriftartwechsel getrennt sind.

Geometrisch

Geometrische Wörter sind Zeichenfolgen, die durch den Bereichsrand, Leerräume oder Schriftartwechsel getrennt sind.

Gesamte Zeile

Die gesamte Zeile wird als einzelnes Wort behandelt. Leerräume und andere Unterbrechungen werden ignoriert.

Buchstabenzeile

Diese Option ist mit Gesamte Zeile identisch, außer dass logische Zahlenwörter ignoriert werden.

Zahlenzeile

Diese Option ist mit Gesamte Zeile identisch, außer dass logische Buchstabenwörter ignoriert werden.

Maximaler Längenunterschied

Mit dieser Einstellung können Sie festlegen, im welchem Maß die Länge (Anzahl der Zeichen) eines erkannten Wortes mit einem Wort im Wörterbuch übereinstimmen muss. Der zulässige Bereich für dieses Feld beträgt 0 bis 3. Wenn der Unterschied auf 0 eingestellt ist, muss die Länge exakt übereinstimmen. Wenn er auf 3 eingestellt ist, kann der erkannte Text bis zu drei Zeichen länger oder kürzer sein als ein passendes Wort im Wörterbuch. Wenn ein anderer Wert als 0 eingestellt ist, ermöglicht diese Funktion, dass das Erkennungssystem eine optimale Übereinstimmung aus dem Wörterbuch auswählt, sofern keine genaue Übereinstimmung verfügbar ist. Bei der Einstellung 1 wird das erkannte Wort book dem Wort books im Wörterbuch zugeordnet.

Wenn der Unterschied die angegebene Grenze überschreitet, wird das erkannte Wort nicht dem Wort im Wörterbuch zugeordnet. In der Regel erhalten Sie die besten Ergebnisse, wenn Sie für dieses Feld den Standardwert 1 belassen.