Fönstret Avancerade, högpresterande zoninställningar - fliken Markering och ordlista

Använd detta fönster för att ange inställningar för märkning (flaggning) av osäkra tecken och för att förbättra igenkänningsmotorns noggrannhet med hjälp av ordböcker.

Relaterade flikar

Markeringsinställningar

Påverkar visningen av de tecken som inte känns igen av igenkänningsmotorn med en lägsta konfidensnivå.

Felflagga

Ange en felflagga. Standardfelflaggan är null-tecknet som visas som ett blanksteg i fönstret. Felflaggan används av igenkänningsmotorerna för att markera tecken som inte kan identifieras med den konfidensnivå som du anger genom att ställa in markeringsnivån. Du kan ange ett enstaka tecken ( ^ används vanligen).

Markeringsnivåer

Det går att ange den lägsta konfidensnivån som du godkänner för teckenigenkänning. Tecken som inte uppnår denna miniminivå markeras med felflaggan.

Allmänt

Om du väljer alternativet Allmänt, visas en lista med tre konfidensnivåer. Standardinställningen är Mellan. Övriga alternativ är Låg och Hög.

Inställningen Låg innebär att du godkänner den lägsta nivån igenkänningskonfidens, vilket leder till färre felflaggor och troligen ett större antal felaktiga tecken (falska felmarkeringar). Detta är en lämplig inställning för data som inte är extra viktig.

Inställningen Medel innebär att du godkänner ett måttligt igenkänningskonfidens, vilket leder till fler felflaggor än med inställningen Låg och färre fel i resultaten. Detta är en lämplig inställning för data som är måttligt kritisk.

Inställningen Hög innebär att du kräver en hög igenkänningskonfidens, vilket leder till många felflaggor som kräver uppmärksamhet men bättre noggrannhet. Detta är en lämplig inställning för data som är mycket viktig.

Specifik

Med valet går det att ange exakta igenkänningskonfidensnivåer för maskin- och handskrivna tecken.

Maskinskrift

Välj eller ange ett valfritt värde mellan 0 och 100. Det här värdet motsvarar markeringsnivån för maskinskrivna tecken. Tecken under den här punkten markeras med felflagga. Om du ställer in det här värdet på 0 markeras nästan inga tecken, eftersom konfidens 0 är mycket ovanligt för alla tecken. Om det här värdet ställs in på 100 markeras nästan alla tecken, eftersom absolut konfidens är mycket ovanligt för alla tecken. Standardvärdet är 40.

Handskrift

Välj eller ange ett valfritt värde mellan 0 och 100. Det här värdet motsvarar markeringsnivån för handskrivna tecken. Tecken under den här punkten markeras med felflagga. Om du ställer in det här värdet på 0 markeras nästan inga tecken, eftersom konfidens 0 är mycket ovanligt för alla tecken. Om det här värdet ställs in på 100 markeras nästan alla tecken, eftersom absolut konfidens är mycket ovanligt för alla tecken. Standardvärdet är 40.

Ordlisteinställningar

Dessa inställningar påverkar hur Kofax Capture använder Zonordlistan. Tänk på att fliken Markering och ordlista inte går att använda för att ange vilken zonordlista du vill använda. Zonordlistan väljs i Fälttypsegenskaper eller i fönstret Skapa fälttyp.

Ordtyp

Det går att ange vilken ordtyp som används vid jämförelse av igenkänd text mot ordlistan. I Kofax Capture betyder ordtyp sättet på vilket ord skiljs åt i den igenkända texten. Den vanligaste metoden för avgränsning av engelska ord är mellanslag, men även andra metoder är möjliga. Vissa ord avgränsas till exempel av skiljetecken eller tabbar i stället för mellanslag.

För att förstå hur ord hämtas från den tolkade texten måste du först veta lite om hur igenkänningsmotorn behandlar blanksteg i texten. Igenkänningsmotorn returnerar inte bara storleken på ett tomt utrymme, utan också antalet på varandra följande tomma utrymmen. Detta antal beräknas utifrån inställningar för teckenbredd för raden. Om detta är inställt på en variabel typ, beräknas teckenavståndet baserat på den genomsnittliga bredden av alla tecken i raden. Om detta inte är möjligt, t.ex. om teckensnittet ändras på raden, utförs beräkningen på ord för ord basis. Den genomsnittliga teckenbredden för det aktuella ordet används sedan för att beräkna antalet mellanslag före ordet.

Beroende på inställningar för utskriftstyp (såsom handskrivet eller maskinskrivet), påverkar mellanslag uppdelningen av orden. För handskriven text definieras varje mellanslag ordens avgränsningar. Om avståndet mellan tecknen är tillräckligt stora, tolkas varje tecken som ett ord. Å andra sidan urskiljer igenkänningsmotorn ofta avsiktliga mellanslag från oavsiktliga mellanslag tack vare regelbundenheten hos maskinskrivna tecken.

Titta t.ex.på textsträngen ABC E F G HIJ.

Om originalet är handskrivet delas strängen upp i orden ABC, E, F, G och HIJ på grund av mellanslagen mellan E, F och G.

Med maskinskriven text, resulterar istället samma sträng i orden ABC, EFG och HIJ. På grund av regelbundna mellanrum som finns i maskinskriven text, fastställer igenkänningsmotorn ett typiskt avståndsmönster. Följaktligen gissar algoritmen att mellanslaget på varje sida om F inte är avsiktligt.

Det finns sju möjliga ordtypsinställningar.

Logisk

Logiska ord är grupper av alfabetiska tecken eller siffror åtskilda av mellanslag, vissa skiljetecken eller teckensnittsförändringar.

Logiskt alfatecken

Logiska alfabetiska ord är grupper med alfabetiska tecken avgränsade av mellanslag, vissa skiljetecken eller teckensnittsförändringar.

Logiskt numeriskt tecken

Logisk numeriska ord är grupper med numeriska tecken avgränsade av mellanslag, vissa skiljetecken eller teckensnittsförändringar.

Geometrisk

Geometriska ord är en teckensträng åtskild av zongränsen, mellanslag eller av teckensnittförändringar.

Helrad

Hela raden behandlas som ett enkelt ord. Mellanslag och andra brytningar ignoreras.

Bokstavsrad

Detta är samma som Hela raden utom att logiskt numeriska ord ignoreras.

Numerisk rad

Detta är samma som Hela raden utom att logiskt alfabetiska ord ignoreras.

Maximal längdskillnad

Det går att bestämma hur nära längden (antal tecken) ett igenkänt ord måste matcha ett ord i ordlistan. De tillåtna intervallen för detta fält är 0-3. Om du ställer in skillnaden 0, måste längderna matcha exakt Om du sätter till 3, kan den tolkade texten vara upp till tre tecken längre eller kortare än ett matchande ord från ordlistan. Om satt till annat värde än 0 får igenkänningsmotorn välja en bästa matchning från ordlistan när ingen exakt matchning är tillgänglig. Om det t.ex. ställs in på 1 matchas det igenkända ordet bok med böcker i ordlistan.

Om skillnaden överstiger det inställda gränsvärdet, matchar inte det igenkända ordet ordlistans ord. Generellt bör du få bästa resultat genom att låta detta fält ha standardvärdet 1.