Fenster Erweiterte Einstellungen für High Performance Zonal – Registerkarte Markierung und Wörterbuch
In diesem Fenster können Sie Einstellungen für die Markierung unsicherer Zeichen und für die Verbesserung der Genauigkeit des Erkennungssystems mithilfe von Wörterbüchern angeben.
Verknüpfte Registerkarten
Einstellungen für Markierung
Diese Einstellung beeinflusst die Anzeige der Zeichen, die vom Erkennungssystem nicht mit einer Mindestzuverlässigkeit erkannt werden.
- Fehler-Flag
-
Eingeben eines Fehler-Flags. Standardmäßig wird als Fehler-Flag das Null-Zeichen verwendet, das im Fenster als Leerzeichen angezeigt wird. Mit dem Fehler-Flag markiert das Erkennungssystem Zeichen, die nicht mit einer bestimmten Zuverlässigkeit (Markierungsstufe) erkannt werden können. Sie können ein einzelnes Zeichen angeben (häufig wird
^
verwendet). - Markierungsstufen
-
Mit diesen Einstellungen können Sie die Mindestzuverlässigkeit festlegen, die bei der Zeichenerkennung akzeptiert wird. Zeichen, die diese Mindeststufe nicht erfüllen, werden mit dem Fehler-Flag markiert.
- Allgemein
-
Bei Auswahl der Option Allgemein können Sie in der nebenstehenden Dropdown-Liste eine von drei Zuverlässigkeitsstufen auswählen. Die Standardstufe ist Mittel. Weiterhin kann Gering oder Hoch ausgewählt werden.
Gering
bedeutet eine minimale Erkennungszuverlässigkeit. Die Folge sind weniger Fehler-Flags und eventuell mehr falsche Zeichen (Falscherkennungen). Diese Einstellung eignet sich für unkritische Daten.Mittel
bedeutet mäßige Erkennungszuverlässigkeit. Die Folge sind mehr Fehler-Flags als beiGering
und weniger Fehler bei den Ergebnissen. Diese Einstellung eignet sich für mäßig kritische Daten.Hoch
bedeutet ein hohes Maß an Erkennungszuverlässigkeit. Die Folge sind viele Fehler-Flags, die Aufmerksamkeit erfordern, jedoch höhere Genauigkeit. Diese Einstellung eignet sich für hochkritische Daten.
- Spezifisch
-
Bei dieser Option können Sie genaue Zuverlässigkeitsstufen bei maschinellen Zeichen und bei Druckschrift angeben.
- Maschinenschrift
-
Sie können einen beliebigen Wert zwischen 0 und 100 eingeben oder auswählen. Dieser Wert entspricht der
Markierungsstufe
für maschinelle Zeichen. Zeichen, die unter diesem Wert liegen, werden mit dem Fehler-Flag markiert. Wenn dieser Wert auf 0 eingestellt wird, werden fast keine Zeichen markiert, da eine Zuverlässigkeit von Null für ein bestimmtes Zeichen sehr selten ist. Wenn dieser Wert auf 100 eingestellt wird, werden fast alle Zeichen markiert, da eine absolute Zuverlässigkeit für ein bestimmtes Zeichen sehr selten ist. Der Standardwert ist 40.
- Handschrift
-
Sie können einen beliebigen Wert zwischen 0 und 100 eingeben oder auswählen. Dieser Wert entspricht der
Markierungsstufe
für Zeichen in Druckschrift. Zeichen, die unter diesem Wert liegen, werden mit dem Fehler-Flag markiert. Wenn dieser Wert auf 0 eingestellt wird, werden fast keine Zeichen markiert, da eine Zuverlässigkeit von Null für ein bestimmtes Zeichen sehr selten ist. Wenn dieser Wert auf 100 eingestellt wird, werden fast alle Zeichen markiert, da eine absolute Zuverlässigkeit für ein bestimmtes Zeichen sehr selten ist. Der Standardwert ist 40.
Einstellungen für Wörterbuch
Diese Einstellungen wirken sich auf die Nutzung des Bereichswörterbuchs durch Kofax Capture aus. Das zu verwendende Bereichswörterbuch kann nicht auf der Registerkarte Markierung und Wörterbuch angegeben werden. Das Bereichswörterbuch wird im Fenster Eigenschaften des Feldtyps oder im Fenster Feldtyp erstellen festgelegt.
- Worttyp
-
Mit dieser Einstellung können Sie den Worttyp angeben, der beim Vergleich des erkannten Texts mit dem Wörterbuch verwendet werden soll. Bei Kofax Capture bezieht sich Worttyp auf das Verfahren, mit dem Wörter im erkannten Text getrennt werden. Meistens werden Wörter durch ein Leerzeichen getrennt, andere Verfahren sind jedoch möglich. Einige Wörter können beispielsweise durch Satzzeichen oder Tabulatorzeichen getrennt sein.
Um zu verstehen, wie Wörter aus dem erkannten Text extrahiert werden, müssen Sie zuerst wissen, wie das Erkennungssystem Leerräume im Text behandelt. Das Erkennungssystem gibt nicht nur die Größe eines Leerraums zurück, sondern auch die Anzahl aufeinanderfolgender Leerzeichen. Diese Zahl wird anhand der Breiteneinstellung für Zeichen in der Zeile berechnet. Wenn die Breite variabel sein kann, wird der Zeichenabstand anhand der durchschnittlichen Breite aller Zeichen in der Zeile berechnet. Wenn dies nicht möglich ist (beispielsweise bei einem Wechsel der Schriftart in der Zeile), wird die Berechnung wortweise durchgeführt. Die durchschnittliche Zeichenbreite für das aktuelle Wort wird dann zur Berechnung der Anzahl der Leerzeichen vor diesem Wort verwendet.
Abhängig von der Einstellung für den Drucktyp (z. B. Handschrift oder Maschinenschrift) beeinflussen Leerzeichen die Trennung der Ergebnisse in Wörter. Bei Text in Druckschrift definiert jedes Leerzeichen eine Wortgrenze. Wenn die Leerräume zwischen den Zeichen ausreichend groß sind, werden die einzelnen Zeichen als Wort interpretiert. Aufgrund der Regelmäßigkeit maschineller Zeichen unterscheidet das Erkennungssystem häufig
absichtliche
vonungewollten
Leerzeichen.Betrachten Sie beispielsweise die Zeichenfolge
ABC E F G HIJ
.Wenn das Original in Druckschrift geschrieben wurde, wird die Zeichenfolge aufgrund der Leerräume zwischen
E
,F
undG
in die WörterABC
,E
,F
,G
undHIJ
aufgeteilt.Bei Maschinenschrift wird die gleiche Zeichenfolge jedoch in die Wörter
ABC
,EFG
undHIJ
aufgelöst. Aufgrund der regelmäßigen Abstände bei der Maschinenschrift kann das Erkennungssystem eintypisches
Abstandsmuster ableiten. Der Algorithmuserrät
daher, dass der Leerraum auf beiden Seiten desF
nicht beabsichtigt ist.Es stehen 7 mögliche Einstellungen für Worttypen zur Verfügung.
- Logisch
-
Logische Wörter sind Gruppen von alphabetischen Zeichen oder Zahlen, die durch Leerräume, bestimmte Satzzeichen oder Schriftartwechsel getrennt sind.
- Logische Buchstaben
-
Logische Buchstabenwörter sind Gruppen von alphabetischen Zeichen, die durch Leerräume, bestimmte Satzzeichen oder Schriftartwechsel getrennt sind.
- Logische Zahlen
-
Logische Zahlenwörter sind Gruppen von Zahlen, die durch Leerräume, bestimmte Satzzeichen oder Schriftartwechsel getrennt sind.
- Geometrisch
-
Geometrische Wörter sind Zeichenfolgen, die durch den Bereichsrand, Leerräume oder Schriftartwechsel getrennt sind.
- Gesamte Zeile
-
Die gesamte Zeile wird als einzelnes Wort behandelt. Leerräume und andere Unterbrechungen werden ignoriert.
- Buchstabenzeile
-
Diese Option ist mit Gesamte Zeile identisch, außer dass logische Zahlenwörter ignoriert werden.
- Zahlenzeile
-
Diese Option ist mit Gesamte Zeile identisch, außer dass logische Buchstabenwörter ignoriert werden.
- Maximaler Längenunterschied
-
Mit dieser Einstellung können Sie festlegen, im welchem Maß die Länge (Anzahl der Zeichen) eines erkannten Wortes mit einem Wort im Wörterbuch übereinstimmen muss. Der zulässige Bereich für dieses Feld beträgt 0 bis 3. Wenn der Unterschied auf 0 eingestellt ist, muss die Länge exakt übereinstimmen. Wenn er auf 3 eingestellt ist, kann der erkannte Text bis zu drei Zeichen länger oder kürzer sein als ein
passendes
Wort im Wörterbuch. Wenn ein anderer Wert als 0 eingestellt ist, ermöglicht diese Funktion, dass das Erkennungssystem eineoptimale
Übereinstimmung aus dem Wörterbuch auswählt, sofern keine genaue Übereinstimmung verfügbar ist. Bei der Einstellung1
wird das erkannte Wortbook
dem Wortbooks
im Wörterbuch zugeordnet.Wenn der Unterschied die angegebene Grenze überschreitet, wird das erkannte Wort nicht dem Wort im Wörterbuch zugeordnet. In der Regel erhalten Sie die besten Ergebnisse, wenn Sie für dieses Feld den Standardwert 1 belassen.