Fönstret Igenkänningsspråk för avancerad och förbättrad OCR Full Text
Använd det här fönstret för att välja språk för OCR Full Text-igenkänning.
Textkodning
Välj en av följande textkodningsmetoder.
-
UTF16 är det ursprungliga Unicode-formatet, där varje tecken eller symbol representeras av en två byte-sekvens.
-
UTF8 är ett format som använder en sträng av bytes för att representera en 16-bits Unicode-sträng där ASCII-text (U+007F eller mindre) förblir oförändrad som en enda byte, U+0080-07FF (som till exempel latin, grekiska, kyrilliska, hebreiska och arabiska) konverteras till en 2-byte-sekvens och U+0800-FFFF (som till exempel kinesiska, japanska och koreanska) blir en 3-byte-sekvens.
-
ANSI är en teckenuppsättning med en byte per symbol. Om du väljer ANSI, måste du också välja en teckentabell. Listan över tillgängliga språk ändras beroende på val av teckentabell.
Användning av ett utdataformat som endast stöder UTF16, som till exempel Rich Text Format, Microsoft Word eller Microsoft Excel, åsidosätter dina val av textkodning (inklusive teckentabellen) och ställer automatiskt in textkodningen på UTF16.
Följande tabell visar vilka utdataformat som har stöd av de tre typerna av textkodning.
|
Utdataformat |
UTF16 |
UTF8 |
ANSI |
|---|---|---|---|
|
Oformaterad text (.txt) |
• |
• |
• |
|
RTF-format (.rtf) |
• |
||
|
HTML (.mht) |
• |
• |
• |
|
Microsoft Word (.doc) |
• |
||
|
Kommaavgränsade värden (.csv) |
• |
• |
• |
|
Microsoft Excel (.xls) |
• |
Listan med teckentabeller innehåller alla tillgängliga teckentabeller som kan användas med teckenuppsättningen ANSI. När ANSI inte är valt, är teckentabellens nedrullningsbara lista inaktiverad.
Varje teckentabell stöder vissa språk, vilket visas i följande tabell.
|
Teckentabell |
Språk med stöd |
|---|---|
|
[ 1250 WINDOWS LATIN 2 ] |
ALBANSKA KROATISKA TJECKISKA UNGERSKA POLSKA RUMÄNSKA SERBISKA-LATINSK SLOVAKISKA SLOVENSKA UZBEKISKA-LATINSK |
|
[ 1251 WINDOWS KYRILLISK ] |
AZERISKA-KYRILLISK VITRYSKA BULGARISKA KAZAKISKA MAKEDONSKA MONGOLISKA RYSKA SERBISKA-KYRILLISK TATARISKA UKRAINSKA UZBEKISKA-KYRILLISK |
|
[ 1252 WINDOWS LATIN 1 ] |
AFRIKAANS BASKISKA BRASILIANSKA KATALANSKA DANSKA NEDERLÄNDSKA HOLLÄNDSKA BELGIEN ENGELSKA FINSKA FRANSKA GALICISKA TYSKA TYSKA-LUXEMBURG TYSKA-NY-STAVNING ISLÄNDSKA INDONESISKA IRISKA ITALIENSKA MALAJISKA NORSKA-BOKMÅL NORSKA-NYNORSK PORTUGISISKA SPANSKA SWAHILI SVENSKA |
|
[ 1253 WINDOWS GREKISKA ] |
GREKISKA |
|
[ 1254 WINDOWS TURKISKA ] |
TURKISKA |
|
[ 1257 WINDOWS BALTISK ] |
ESTNISKA LETTISKA LITAUISKA |
Textorientering
Dessa alternativ gäller bara om något av de valda språken är KINESISKA - FÖRENKLAD, KINESISKA - TRADITIONELL, japanska eller koreanska.
Välj textriktning på texten i formuläret. Väljer du fler än ett språk eller om utdataformatet ställs in på RTF, HTML eller Microsoft Word, inaktiveras vågräta och lodräta alternativ och alternativet Automatisk upptäckt används. Välj alternativet Horisontell eller Vertikal (snarare än alternativet Automatisk upptäckt) baserat på den igenkända zonen för bästa igenkänningsresultat.
Tillgängliga språk
Detta är en lista över språk som stöds av igenkänningsverktyget. Är ANSI valt, visas endast de språk som är associerade med den aktuella kodsidan, annars visas alla språk på listan.
Valda språk
Denna lista innehåller de språk du har valt ut. Språk läggs till i kolumnen i den ordning som de väljs ut från listan Tillgängliga. Det första språket som visas längst upp i listan är primärspråket och de övriga språken är sekundärspråk. Du kan välja upp till fem språk.
Lägg till eller ta bort objekt från listan med tillgängliga eller valda språk genom att dubbelklicka på ett språk. Användardefinierade ordlistor stöds inte om du väljer kinesiska, japanska eller koreanska som primärspråk.
Knappen Lägg till
Lägger till ett språk på listan Valda. Markera ett språk på listan Tillgängliga och klicka på Lägg till. Det går att ha maximalt fem språk i listan Valda.
Knappen Ta bort
Tar bort ett språk från listan Valda. Markera ett språk på listan Valda och klicka på Ta bort.