Fenster Erkennungsprofile – High Performance Zonal-System
In diesem Fenster können Sie zahlreiche Einstellungen für die Profile Kofax High Performance ICR Zonal, Kofax High Performance OCR Zonal und Kofax ICR Zonal anpassen.
Obwohl die Suche der optimalen Einstellungen durch Ausprobieren erfolgt, kann die richtige Einstellung Erkennungsgenauigkeit und -geschwindigkeit erheblich steigern.
Name
Wählen Sie aus dieser Liste ein Erkennungsprofil aus. Die anderen Einstellungen im Fenster werden mit den für das ausgewählte Profil definierten Einstellungen aktualisiert.
System
High Performance Zonal ist die Standardeinstellung.
Sprache
Wählen Sie eine der folgenden Zielsprachen:
-
Aserbeidschanisch
-
Brasilianisch
-
Bulgarisch
-
Mitteleuropäisch
-
Kroatisch
-
Tschechisch/Slowakisch
-
Dänisch
-
Niederländisch
-
Niederländisch – Belgien
-
Englisch – Kanada
-
Englisch – Irland
-
Englisch – Großbritannien
-
Englisch – USA
-
Estnisch
-
Finnisch
-
Französisch
-
Französisch – Belgien
-
Französisch – Kanada
-
Französisch – Schweiz
-
Deutsch
-
Deutsch – Österreich
-
Deutsch – Schweiz
-
Griechisch
-
Ungarisch
-
Italienisch
-
Italienisch – Schweiz
-
Litauisch
-
Malaiisch
-
Norwegisch
-
Polnisch
-
Portugiesisch
-
Russisch
-
Skandinavisch
-
Slowenisch
-
Südamerikanisch
-
Spanisch
-
Schwedisch
-
Türkisch
-
Westeuropäisch
Drucktyp
Mit diesen Einstellungen können Sie den Drucktyp angeben, der voraussichtlich im Bereich verwendet wird. Wenn Kofax Capture den Drucktyp im Voraus kennt, wird die Erkennungsgenauigkeit erheblich verbessert.
- Unbekannt
-
Wählen Sie diese Option aus, wenn Sie nicht wissen oder vorhersehen können, welcher Drucktyp im Bereich verwendet wird. In diesem Fall sucht Kofax Capture den optimalen Drucktyp aus. Sie sollten diese Option ebenfalls auswählen, wenn der Bereich mehrere Drucktypen enthält.
- Handschrift
-
Wählen Sie diese Option für deutliche handschriftliche Zeichen aus. Diese Option wird als Voreinstellung für ICR-Erkennungsprofile verwendet.
- Farrington 7B
-
Wählen Sie diese Option aus, wenn im Bereich die Schriftart Farrington 7B verwendet wird. Farrington 7B wird oftmals zum Prägen von Texten auf Kredit- und ID-Karten verwendet.
Hinweis Sie erhalten bei dieser Schriftart bessere Ergebnisse, wenn Sie eine manuelle Breiteneinstellung anstelle einer festen oder variablen Breite verwenden. - Maschinenschrift
-
Wählen Sie diese Option für maschinengedruckte Zeichen in anderen Schriftarten als den hier aufgeführten. Diese Option wird als Standardwert für OCR-Erkennungsprofile verwendet.
- OCR-A
-
Wählen Sie diese Option aus, wenn im Bereich die Schriftart OCR-A verwendet wird. OCR-Schriftarten werden häufig verwendet, wenn Standardzeichenformen erforderlich sind, um Zahlen einzuscannen, sowie für Text ohne Barcodes. Beispiele für die Verwendung von OCR-A umfassen Bankschecks, Pässe, Etiketten und Briefsendungen.
- CMC7
-
Wählen Sie diese Option aus, wenn im Bereich die Schriftart CMC7 verwendet wird. Bei der Schriftart CMC-7 handelt es sich um eine spezielle Schriftart für MICR (Magnetic Ink Character Recognition), die in Frankreich und vielen spanisch sprechenden Ländern (z. B. Spanien und Mexiko) zum Drucken von Zeichen für magnetische Tinten- und optische Zeichenerkennungssysteme verwendet wird. Diese Schriftart umfasst die Zeichen 0 bis 9 und fünf spezielle Symbole.
Hinweis Sie erhalten bei dieser Schriftart bessere Ergebnisse, wenn Sie eine manuelle Breiteneinstellung anstelle einer festen oder variablen Breite verwenden. - Fest
-
Wählen Sie diese Option für Maschinenschrift mit festgelegter Breite.
- OCR-B
-
Wählen Sie diese Option aus, wenn im Bereich die Schriftart OCR-B verwendet wird. OCR-B wird für dieselben Einsatzbereiche verwendet wie OCR-A, die Zeichenformen unterscheiden sich jedoch geringfügig.
- E13B
-
Wählen Sie diese Option aus, wenn im Bereich die Schriftart E13B verwendet wird. Die Schriftart E13B wird auf Bankschecks und Wechseln in den USA, Kanada, Puerto Rico, Panama, Großbritannien und einigen anderen Ländern für magnetische Tinten- und optische Zeichenerkennungssysteme verwendet. Diese Schriftart umfasst die Zeichen 0 bis 9 und vier spezielle Symbole: Transit, Betrag, Autorisierung (on-us) und Bindestrich.
Hinweis Sie erhalten bei dieser Schriftart bessere Ergebnisse, wenn Sie eine manuelle Breiteneinstellung anstelle einer festen oder variablen Breite verwenden.
Inhalt
Mit diesen Einstellungen können Sie die Art des Inhalts angeben, der voraussichtlich im Bereich verwendet wird. Abhängig von der ausgewählten Zielsprache und dem ausgewählten Drucktyp sind einige Optionen deaktiviert.
- Alphanumerisch
-
Mit dieser Option wird der gesamte Zeichenbereich in der ausgewählten Sprache zugelassen.
- Numerisch
-
Verwenden Sie diese Option für Zahlen und einige Sonderzeichen.
- Menge
-
Verwenden Sie diese Option für arithmetische Beträge.
Bei Auswahl dieser Option interpretiert Kofax Capture den Betrag als Kombination von führenden Füllzeichen, dem Hauptbetrag, einem Trennzeichen, den Dezimalstellen und Füllzeichen am Ende. Diese Interpretation erfolgt intern und wirkt sich nur auf die Überprüfung von Wörtern im Wörterbuch aus. Das endgültige Ergebnis wird weiterhin in ein einzelnes Indexfeld ausgegeben. Falls jedoch ein Element die Wörterbuchüberprüfung nicht besteht, wird das gesamte Feld markiert.
Zeichensatz
Diese Option ermöglicht die Angabe einer Maske für den Erkennungstext. Diese Maske legt die zulässigen Zeichen und die Formatierung für das Indexfeld fest. Sie können eine der Standardmasken auswählen oder eine eigene benutzerdefinierte Maske für das Feld erstellen.
Diese Option ermöglicht die Angabe eines Zeichensatzes und einer Maske für den Erkennungstext. Mit dem Zeichensatz und der Maske kann das Erkennungssystem die korrekten Zeichen für die Erkennung durch Festlegen der zulässigen Zeichentypen und Formatierung für das Indexfeld finden. Beispiel: Wählen Sie den Zeichensatz 0-9 für ein Indexfeld aus, das nur Zahlen enthält, oder den Zeichensatz a-z für ein Indexfeld, das Kleinbuchstaben von a bis z enthält. Sie können eine der Standardmasken auswählen oder eine eigene benutzerdefinierte Maske für das Feld erstellen.
Wenn Sie eine eigene Maske erstellen, wird sie nicht zu der Dropdown-Liste hinzugefügt. Wenn Sie diese benutzerdefinierte Maske in mehr als einem Bereich verwenden möchten, müssen Sie sie in die Zwischenablage oder eine Textdatei kopieren.
Maskenmuster können in beliebiger Reihenfolge verwendet werden. Sie weisen die folgende Syntax auf:
|
Muster |
Bedeutung |
|---|---|
|
A-Z |
Lässt alle Großbuchstaben von A bis Z zu. |
|
a-z |
Lässt alle Kleinbuchstaben von a bis z zu. |
|
0-9 |
Lässt eine beliebige Zahl von 0 bis 9 zu. |
|
{n} |
Ziffern in Klammern zeigen die Anzahl der zulässigen Zeichen des vorangehenden Typs an. Diese Struktur muss am Ende des Ausdrucks stehen. Aus dem folgenden Beispiel ergibt sich, dass das Ergebnis dreistellig ist: 0-9{3} |
|
\ |
Escape-Zeichen, mit dem angegeben wird, dass das Ergebnis Zeichen enthalten kann, die normalerweise Bestandteil der Maskensyntax (z. B.-{ }) sind. Beispielsweise wird der Bindestrich (-) in der Maskensyntax verwendet (wie in A-Z). Wenn in den Bereichsergebnissen ein Bindestrich zulässig sein soll, muss in der Maske \- (Escape-Zeichen + Bindestrich) enthalten sein. Für einen umgekehrten Schrägstrich muss die Maske \\ enthalten. |
|
Literal |
Alle anderen Zeichen in der Maske werden als Literalzeichen in der angegebenen Position relativ zu den anderen Elementen in der Maske behandelt. |
Trigrammmodus
Bei Trigrammen handelt es sich um Kombinationen von drei Buchstaben, die häufig in vielen Sprachen zu finden sind. Ein gebräuchliches englisches Trigramm ist ing
. Kofax Capture kann Trigramme zur Erhöhung der Erkennungsgenauigkeit nutzen
Hier sind ein paar Beispiele:

Im ersten Fall weist die Bilddatei für Walking
Fehlstellen auf. Insbesondere der Buchstabe n
ist schwer zu erkennen. Das Erkennungssystem kann nicht entscheiden, ob es sich um ein r
gefolgt von einem i
oder um ein einzelnes n
handelt, so dass das Zeichen in den ersten Ergebnissen als Abgelehnt
gekennzeichnet wird. Das erste Ergebnis wird einer Trigrammanalyse unterzogen, und das Erkennungssystem entscheidet, dass die wahrscheinlichste Kombination der drei Buchstaben in diesem Fall ing
lautet.
Im zweiten Fall ist die Bilddatei erheblich verrauscht. Wegen dieses Rauschens wird das zweite i
in Dictionary
als l
interpretiert. Die Trigrammanalyse ergibt, Dass ion
wahrscheinlicher als lon
ist und das Wort wird korrigiert.
Es ist wichtig, im Gedächtnis zu behalten, dass die Trigrammanalyse ein statistischer Prozess ist. Kofax Capture Bietet für die meisten unterstützten Sprachen Trigrammtabellen. Jede Tabelle enthält eine Liste der möglichen Dreibuchstabenkombinationen und deren Vorkommenshäufigkeit in der jeweiligen Sprache. Obwohl es Tausende solcher Kombinationen gibt, werden viele niemals verwendet, so dass deren Vorkommenshäufigkeit dann nahezu bei Null liegt. Durch Trigramme wird versucht, Buchstabenkombinationen zu identifizieren (und ggf. zu korrigieren), die sehr geringe Zuverlässigkeit sowie auch niedrige Vorkommenshäufigkeit aufweisen.
In seltenen Fällen können die Daten viele ungebräuchliche Trigramme enthalten. Eine Liste der Funkstationen in Chicago kann beispielsweise WGN, WLS, WNVR, WKTAF, WZRD, WBEZ oder WXRT umfassen. Wenn in solchen Fällen Erkennungsprobleme auftreten, sollten Sie die Trigramme in diesem Erkennungsprofil deaktivieren.
- Aus
-
Diese Option deaktiviert die Trigrammfunktion.
- Überprüfen
-
Diese Option aktiviert die Trigrammfunktion, beschränkt sich allerdings auf das Markieren verdächtiger Zeichen.
- Reparieren
-
Diese Option aktiviert die Trigrammfunktion und ermöglicht Kofax Capture durch die Auswahl des nächsten und wahrscheinlichsten Trigramms die Reparatur fraglicher Kombinationen. So kann iog beispielsweise durch ing ersetzt werden.
Logischer Kontext
Mit dieser Einstellung können Sie logischen Kontext auswählen. Falls aktiviert, versucht das Erkennungssystem, unsichere Zeichen auf der Grundlage des Kontexts aufzulösen. Diese Funktion ist bei der Unterscheidung von Zeichen wie 1 (eins) und l (der Kleinbuchstabe l
) von Nutzen. Nehmen Sie beispielsweise an, dass das Erkennungssystem aus einem Bereich te1l
extrahiert. Der logische Kontext löst diesen Text in tell
auf, da es wenig wahrscheinlich ist, dass die 1(eins) in Buchstaben eingebettet ist.
Verwenden Sie den logischen Kontext nicht, wenn in dem Bereich Wörter
vorkommen, die eine Kombination von alphabetischen und numerischen Zeichen enthalten, wie z. B. Abc123def
.
Schaltfläche Erweitert
Wenn Sie auf diese Schaltfläche klicken, wird ein Fenster mit mehreren erweiterten Optionen angezeigt.
Bildreinigung
Wählen Sie ein Bildreinigungsprofil aus der Dropdown-Liste aus.
Schaltfläche Bearbeiten
Klicken Sie auf Bearbeiten, wenn Sie ein vorhandenes Bildreinigungsprofil ändern oder ein neues erstellen möchten. Dadurch wird das Fenster Bildreinigungsprofile geöffnet, in dem Sie den zu verwendenden Bildreinigungstyp angeben können.
Schaltfläche Löschen
Klicken Sie auf diese Schaltfläche, um das derzeit ausgewählte Profil zu löschen. In Kofax Capture integrierte Profile können nicht gelöscht werden.
Schaltfläche Skript
Falls aktiviert, klicken Sie auf diese Schaltfläche, um dem ausgewählten Profil ein Erkennungsskript zuzuweisen. Dadurch wird das Fenster Erkennungsskript geöffnet, in dem Sie das Erkennungsprofil mit einem Erkennungsskript assoziieren können.
Schaltfläche Test
Klicken Sie auf diese Schaltfläche, um die Bereichseinstellungen zu testen. Ihre Erkennungs- und Reinigungseinstellungen werden auf den Bereich angewendet und die Ergebnisse im Fenster "Bereichstest" angezeigt.