Fönstret Igenkänningsprofiler - högpresterande zonverktyg
Använd det här fönstret till att ställa in Kofax högpresterande zon-ICR, Kofax högpresterande zon-OCR och Kofax zon-ICR-profiler.
Även om man får pröva sig fram för att hitta bäst inställningar, kan rätt inställning öka igenkänningens noggrannhet och hastighet dramatiskt.
Namn
Välj en igenkänningsprofil på listan. De övriga inställningarna i fönstret uppdateras med inställningarna definierade för den valda profilen.
Motor
Standardinställningen är Högpresterande zon.
Språk
Välj något av följande målspråk:
-
Azeriska
-
Brasilianska
-
Bulgariska
-
Centraleuropeiska
-
Kroatiska
-
Tjeckiska/slovakiska
-
Danska
-
Nederländska
-
Holländska – Belgien
-
Engelska – Kanada
-
Engelska – Irland
-
Engelska – Storbritannien
-
Engelska – USA
-
Estniska
-
Finska
-
Franska
-
Franska – Belgien
-
Franska – Kanada
-
Franska – Schweiz
-
Tyska
-
Tyska – Österrike
-
Tyska – Schweiz
-
Grekiska
-
Ungerska
-
Italienska
-
Italienska – Schweiz
-
Litauiska
-
Malajiska
-
Norska
-
Polska
-
Portugisiska
-
Ryska
-
Skandinaviska
-
Slovenska
-
SYDAMERIKANSKA
-
Spanska
-
Svenska
-
Turkiska
-
VÄSTEUROPEISKA
Utskriftstyp
Med dessa alternativ går det att ange den typ av skrift som du förväntar dig att hitta i din zon. Om Kofax Capture känner till skrifttypen i förväg, förbättras igenkänningens noggrannhet avsevärt.
- Okänd
-
Välj det här alternativet om du inte känner till eller kan förutsäga, vilken skrifttyp som visas i zonen. I detta fall gissar Kofax Capture. Du ska också välja detta alternativ om din zon innehåller mer än en skrifttyp.
- Handskrift
-
Välj det här alternativet för välformade handskrivna tecken. Det här är standardinställningen för ICR-igenkänningsprofiler.
- Farrington 7B
-
Välj det här alternativet om teckensnittet Farrington 7B visas i zonen. Farrington 7B används ofta till reliefmönstrad text på kredit- och ID-kort.
Obs! Det går att få bättre resultat med detta teckensnitt om du använder en manuell breddstegsinställning istället för ett fast eller variabelt breddsteg. - Maskinskrift
-
Välj detta alternativ för maskinskrivna tecken, andra än de särskilda teckensnitt listade här. Detta är standardvärdet för OCR-igenkänningsprofiler.
- OCR-A
-
Välj det här alternativet om teckensnittet OCR-A visas i zonen. OCR-teckensnitt används ofta när standardteckenformer behövs för att skanna siffror och för text utan streckkoder. Exempel på användning av OCR-A innefattar bankcheckar, pass, etiketter och brev.
- CMC7
-
Välj det här alternativet om teckensnittet CMC7 visas i zonen. Teckensnittet CMC-7 är ett speciellt typsnitt för magnetisk teckenigenkänning (MICR) som används i Frankrike och de flesta spansktalande länder (till exempel Spanien och Mexiko) för att skriva ut tecken för magnetiskt bläck och optisk teckenläsning. Detta teckensnitt innehåller tecknen 0 till 9 och fem specialtecken.
Obs! Det går att få bättre resultat med detta teckensnitt om du använder en manuell breddstegsinställning istället för ett fast eller variabelt breddsteg. - Fast
-
Välj detta alternativ för teckensnitt till maskiner med fast breddsteg.
- OCR-B
-
Välj det här alternativet om teckensnittet OCR-B visas i zonen. OCR-B används för samma ändamål som OCR-A men teckenformerna är lite olika.
- E13B
-
Välj det här alternativet om teckensnittet E13B visas i zonen. Teckensnittet E13B används för bankcheckar och postväxlar i USA, Kanada, Puerto Rico, Panama, Storbritannien och några andra länder för magnetiskt bläck och optisk teckenläsning. Det här teckensnittet innehåller tecknen 0 till 9 och fyra specialtecken: överföring, summa, skuld och tankstreck.
Obs! Det går att få bättre resultat med detta teckensnitt om du använder en manuell breddstegsinställning istället för ett fast eller variabelt breddsteg.
Innehåll
Använd de här alternativen för att ange innehållstypen som förväntas i zonen. Beroende på val av målspråk och skrifttyp, kan några alternativ vara inaktiverade.
- Alfanumerisk
-
Använd detta alternativ för att tillåta alla tecken i det valda språket.
- Numerisk
-
Använd detta alternativ för siffror och några specialtecken.
- Antal
-
Använd detta alternativ för aritmetiska summor.
Väljer du detta alternativ, tolkar Kofax Capture summan som en kombination av inledande fyllnadstecken, en större summa, en avgränsare, en mindre summa och avslutande fyllnadstecken. Denna tolkning är intern och påverkar bara hur ord kontrolleras i din ordlista. Slutresultatet är fortfarande utdata till ett enda indexfält, men om något element misslyckas så flaggas hela fältet.
Teckenuppsättning
Med detta objekt går det att ange en mask för igenkänningstexten. Masken anger tillåtna tecken och formatering för indexfältet. Det går att välja antingen en standardmask eller skapa din egen anpassade mask för fältet.
Med detta objekt går det att ange teckenuppsättning och en mask för igenkänningstexten. Teckenuppsättningen och masken hjälper igenkänningsverktyget att hitta rätt tecken för igenkänning genom att ange tillåtna teckentyper och formatering för indexfältet. Välj exempelvis teckenuppsättningen 0-9 till ett indexfält som endast innehåller siffror, eller teckenuppsättningen a-z till ett indexfält som innehåller gemener från a-z. Det går att välja antingen en standardmask eller skapa din egen anpassade mask för fältet.
Skapar du din egen mask läggs den inte till i den nedrullningsbara listan. Det betyder att om du vill använda samma anpassade mask i mer än en zon, ska du kopiera den till urklipp (eller en textfil).
Maskmönster går att använda i valfri ordningsföljd och har följande syntax:
|
Mönster |
Innebörd |
|---|---|
|
A-Z |
Tillåter alla versaler från A-Z |
|
a-z |
Tillåter alla gemener från a-z |
|
0-9 |
Tillåter alla siffror från 0-9 |
|
{n} |
Siffror i hakparenteser indikerar antalet tillåtna tecken av föregående typ. Denna struktur måste visas i slutet av varje uttryck. Följande exempel indikerar att resultatet är tre siffror: 0-9{3} |
|
\ |
Escape-tecken används för att ange att resultatet kan innehålla tecken som normalt är del av masksyntax (t.ex.-{ }) Bindestreck (-) används till exempel i masksyntax (som i A-Z). Vill du tillåta ett bindestreck i zonresultaten, måste du inkludera \- (escape-bindestreck) i masken. Inkludera \\ i masken för att tillåta omvänt snedstreck. |
|
bokstav |
Alla andra tecken i masken behandlas som bokstavstecken i den angivna positionen i förhållande till andra element i masken. |
Trigramläge
Trigram är kombinationer av tre bokstäver som hittas ofta i många språk. Ett vanligt engelskt trigram är ing.
Kofax Capture drar använder trigram för att öka igenkänningens noggrannhet.
Beakta dessa exempel:

I det första fallet, besväras bildfilen för Walking
av släpp utåt. Speciellt n
är dåligt tonad. Igenkänningsverktyget kan inte bestämma om det är ett r
följt av ett i,
eller om det är ett enda n,
så tecknet markeras som avvisat
i de första resultaten. Trigramanalys används på det första resultatet och igenkänningsverktyget bestämmer att den mest sannolika kombinationen av tre bokstäver, i det här fallet, är ing.
I det andra fallet, innehåller bildfilen avsevärt brus. Bruset gör att det andra i
i Dictionary
tolkas som bokstaven l.
Trigramanalys visar att "ion" är mer sannolikt än lon
och ordet rättas till.
Det är viktigt att komma ihåg att trigramanalys är en statistisk process. Kofax Capture levereras med trigramtabeller för de flesta språken som stöds. Varje tabell innehåller en lista över möjliga trebokstavskombinationer och deras förekomstfrekvens i det språket. Även om det finns tusentals sådana kombinationer, används många av dem nästan aldrig så att deras förekomstfrekvens blir nära noll. Trigram försöker identifiera (och kan rätta till) bokstavskombinationer som både har en låg konfidensnivå och en låg förekomstfrekvens.
Det kan finnas några få tillfällen där dina data innehåller många ovanliga trigram. En lista över radiostationer i Chicago kan exempelvis innehålla WGN, WLS, WNVR, WKTAF, WZRD, WBEZ eller WXRT. I sådana fall och om du får problem, bör du överväga att inaktivera trigram för din igenkänningsprofil.
- Av
-
Detta alternativ inaktiverar trigramfunktionen.
- Kontrollera
-
Detta alternativ aktiverar trigramfunktionen, men begränsar dess beteende att markera misstänkta tecken.
- Reparera
-
Detta alternativ aktiverar trigramfunktionen och tillåter Kofax Capture att reparera tveksamma kombinationer genom att ta det närmaste och mest troliga trigrammet. Exempelvis kan
iog
ersättas aving.
Logiskt sammanhang
Välj logiskt sammanhang med denna inställning. Vid aktivering försöker igenkänningsverktyget att lösa osäkra tecken grundat på deras sammanhang. Detta är användbart för att skilja på tecken som 1 (ett) och l (bokstaven l
). Anta exempelvis att igenkänningsverktyget extraherar te1l
ur en zon. Logiskt sammanhang löser detta till tell
eftersom det är mindre sannolikt att 1(ett) skulle vara omgivet av bokstäver.
Använd inte logiskt sammanhang om zonen har ord
som innehåller en kombination av alfabetiska och numeriska tecken, som till exempel Abc123def.
Knappen Avancerat
Denna knapp öppnar ett fönster med avancerade alternativ.
Bildrensning
Välj en bildrensningsprofil från den nedrullningsbara listan.
Knappen Redigera
För att ändra en befintlig bildrensningsprofil eller för att skapa en ny, klicka på knappen Redigera. Fönstret Bildrensningsprofiler öppnas där det går att ange vilken bildrensningstyp som används.
Knappen Ta bort
Klicka på den här knappen för att ta bort den valda profilen. Det går inte att ta bort profiler som är inbyggda i Kofax Capture.
Knappen Skript
Om aktiverad, använd denna knapp för att tilldela den utvalda profilen ett igenkänningsskript. Fönstret Igenkänningsskript öppnas och gör det möjligt att associera ett igenkänningsskript med igenkänningsprofilen.
Knappen Testa
Klicka på den här knappen för att testa zoninställningarna. Din igenkänningsprofil och rensningsinställningar tillämpas på zonen och resultaten visas i fönstret Zontest.