Fönstret Igenkänningsspråk för avancerad och förbättrad OCR Full Text

Använd det här fönstret för att välja språk för OCR Full Text-igenkänning.

Textkodning

Välj en av följande textkodningsmetoder.

  • UTF16 är det ursprungliga Unicode-formatet, där varje tecken eller symbol representeras av en två byte-sekvens.

  • UTF8 är ett format som använder en sträng av bytes för att representera en 16-bits Unicode-sträng där ASCII-text (U+007F eller mindre) förblir oförändrad som en enda byte, U+0080-07FF (som till exempel latin, grekiska, kyrilliska, hebreiska och arabiska) konverteras till en 2-byte-sekvens och U+0800-FFFF (som till exempel kinesiska, japanska och koreanska) blir en 3-byte-sekvens.

  • ANSI är en teckenuppsättning med en byte per symbol. Om du väljer ANSI, måste du också välja en teckentabell. Listan över tillgängliga språk ändras beroende på val av teckentabell.

Användning av ett utdataformat som endast stöder UTF16, som till exempel Rich Text Format, Microsoft Word eller Microsoft Excel, åsidosätter dina val av textkodning (inklusive teckentabellen) och ställer automatiskt in textkodningen på UTF16.

Följande tabell visar vilka utdataformat som har stöd av de tre typerna av textkodning.

Utdataformat

UTF16

UTF8

ANSI

Oformaterad text (.txt)

RTF-format (.rtf)

HTML (.mht)

Microsoft Word (.doc)

Kommaavgränsade värden (.csv)

Microsoft Excel (.xls)

Listan med teckentabeller innehåller alla tillgängliga teckentabeller som kan användas med teckenuppsättningen ANSI. När ANSI inte är valt, är teckentabellens nedrullningsbara lista inaktiverad.

Varje teckentabell stöder vissa språk, vilket visas i följande tabell.

Teckentabell

Språk med stöd

[ 1250 WINDOWS LATIN 2 ]

ALBANSKA

KROATISKA

TJECKISKA

UNGERSKA

POLSKA

RUMÄNSKA

SERBISKA-LATINSK

SLOVAKISKA

SLOVENSKA

UZBEKISKA-LATINSK

[ 1251 WINDOWS KYRILLISK ]

AZERISKA-KYRILLISK

VITRYSKA

BULGARISKA

KAZAKISKA

MAKEDONSKA

MONGOLISKA

RYSKA

SERBISKA-KYRILLISK

TATARISKA

UKRAINSKA

UZBEKISKA-KYRILLISK

[ 1252 WINDOWS LATIN 1 ]

AFRIKAANS

BASKISKA

BRASILIANSKA

KATALANSKA

DANSKA

NEDERLÄNDSKA

HOLLÄNDSKA BELGIEN

ENGELSKA

FINSKA

FRANSKA

GALICISKA

TYSKA

TYSKA-LUXEMBURG

TYSKA-NY-STAVNING

ISLÄNDSKA

INDONESISKA

IRISKA

ITALIENSKA

MALAJISKA

NORSKA-BOKMÅL

NORSKA-NYNORSK

PORTUGISISKA

SPANSKA

SWAHILI

SVENSKA

[ 1253 WINDOWS GREKISKA ]

GREKISKA

[ 1254 WINDOWS TURKISKA ]

TURKISKA

[ 1257 WINDOWS BALTISK ]

ESTNISKA

LETTISKA

LITAUISKA

Textorientering

Dessa alternativ gäller bara om något av de valda språken är KINESISKA - FÖRENKLAD, KINESISKA - TRADITIONELL, japanska eller koreanska.

Välj textriktning på texten i formuläret. Väljer du fler än ett språk eller om utdataformatet ställs in på RTF, HTML eller Microsoft Word, inaktiveras vågräta och lodräta alternativ och alternativet Automatisk upptäckt används. Välj alternativet Horisontell eller Vertikal (snarare än alternativet Automatisk upptäckt) baserat på den igenkända zonen för bästa igenkänningsresultat.

Tillgängliga språk

Detta är en lista över språk som stöds av igenkänningsverktyget. Är ANSI valt, visas endast de språk som är associerade med den aktuella kodsidan, annars visas alla språk på listan.

Valda språk

Denna lista innehåller de språk du har valt ut. Språk läggs till i kolumnen i den ordning som de väljs ut från listan Tillgängliga. Det första språket som visas längst upp i listan är primärspråket och de övriga språken är sekundärspråk. Du kan välja upp till fem språk.

Lägg till eller ta bort objekt från listan med tillgängliga eller valda språk genom att dubbelklicka på ett språk. Användardefinierade ordlistor stöds inte om du väljer kinesiska, japanska eller koreanska som primärspråk.

Knappen Lägg till

Lägger till ett språk på listan Valda. Markera ett språk på listan Tillgängliga och klicka på Lägg till. Det går att ha maximalt fem språk i listan Valda.

Knappen Ta bort

Tar bort ett språk från listan Valda. Markera ett språk på listan Valda och klicka på Ta bort.