Weergeven 

Start > Talen, woordenboeken, training > Aziatische tekst herkennen

Aziatische tekst herkennen

Er worden vier talen in Aziatisch schrift ondersteund: Japans, Koreaans, Traditioneel Chinees en Vereenvoudigd Chinees. De ideale tekengrootte voor platte tekst is 12 punts, gescand met een resolutie van 300 dpi. Dit resulteert in tekens van ongeveer 48 x 48 pixels. De minimumvereiste is 30 x 30. Dit is 10,5 punts bij 300 dpi. Gebruik voor kleinere tekens 400 dpi.

Japanse en Chinese tekst kan horizontaal (van links naar rechts) of verticaal (van boven naar onder, van rechts naar links) zijn geplaatst. Koreaanse tekst is altijd horizontaal.

Hier ziet u een voorbeeld van Chinese tekst

en van Koreaanse tekst

Japanse tekst wordt hieronder weergegeven.

Door OmniPage ondersteunde besturingssystemen kunnen met Aziatische talen werken, maar u moet deze ondersteuning wel hebben geselecteerd tijdens de systeeminstallatie. Als dat niet is gebeurd, moet u de ondersteuning voor Oost-Aziatische talen toevoegen via Configuratiescherm > Landinstellingen > Talen > Extra talen > Bestanden voor Oost-Aziatische talen installeren. Het is mogelijk dat u hiervoor een Windows-systeemschijf in het station moet plaatsen.

De vier Aziatische talen staan met de andere talen in een alfabetische lijst in het deelvenster Opties > OCR. Selecteer per keer slechts een van deze talen en vermijd hierbij de selectie van andere talen. Bij Aziatische OCR kan het programma ook korte Engelse teksten verwerken die zijn ingesloten en waarvoor Engels niet expliciet is ingesteld. Dit is echter niet geschikt voor langere Engelse teksten of voor teksten in andere Westerse talen.

 

Verticale tekst in het Japans en Chinees kan Engelse tekst bevatten in verschillende richtingen:

Neon

Correct

Naast elkaar

 

Uitvoer

 

Het programma kan dit allemaal verwerken. In de uitvoer verschijnt het Engels rechtsom gedraaid.

Taal controleren

Naast de talenlijst is er de optie Taalkeuzes controleren. Hiermee wordt de taal automatisch gedetecteerd en wordt u gewaarschuwd als de gedetecteerde taal afwijkt van de taalinstelling. Deze functie werkt op paginaniveau en identificeert vier categorieën: Japans, Chinees, Koreaans en niet-Aziatisch. Onderscheid tussen Traditioneel en Vereenvoudigd Chinees of tussen niet-Aziatische talen is niet mogelijk. Met Niet-Aziatisch wordt aangegeven dat er geen Japanse, Chinese of Koreaanse tekens zijn gedetecteerd. De controle vindt plaats bij het vooraf verwerken van beelden, dus u moet de vereiste herkenningstaal instellen voordat de beelden worden geladen. De detectie is het meest effectief als er sprake is van meerdere regels tekst en een minimale hoeveelheid ingesloten Engelse tekst.

Eén taal detecteren

Aziatische talen kunnen worden verwerkt met de optie Eén taal automatisch detecteren. Dit is handig voor onbeheerde verwerking van invoerdocumenten die mogelijk in verschillende talen zijn opgesteld. Zie OCR-opties. Kies Aziatische talen of Latijns alfabet en Aziatische talen in de keuzelijst zodat tijdens de detectie op deze talen wordt gecontroleerd. Als deze optie is geselecteerd, kunt u de optie Taalkeuzes controleren niet gebruiken en is het ook niet mogelijk om afzonderlijke talen te selecteren.

Lay-out en zones

Voor Aziatische pagina's raden we u aan de lay-out en zones automatisch in te stellen. Hiermee wordt alle gedetecteerde tekst in zones geplaatst. Door een Aziatische herkenningstaal te kiezen bepaalt u dat de Aziatische OCR wordt uitgevoerd op deze zones en dat de tekstrichting automatisch wordt gedetecteerd en overgebracht, waarbij gebieden met zowel horizontale als verticale tekst op één pagina geen probleem vormen.

U kunt echter de zonefunctie gebruiken om herkenning van verticale Aziatische tekst af te dwingen via handmatige zones. Teken met deze functie rechthoekige zones. Als u handmatig zones wilt aanbrengen voor horizontale Aziatische tekst, gebruikt u het normale type tekstzone. Gebruik de twee andere functies voor verticale tekst niet voor Aziatische tekst. Als u een verticale Aziatische zone tekent, schakelt u daarmee niet automatisch een Aziatische taal in. De zone heeft ook geen invloed op de automatische taaldetectie.

Digitale-camerabeelden

Digitale foto's van Aziatische tekst worden ondersteund. Het algoritme dat wordt gebruikt voor het automatisch rechtzetten van 3D is waarschijnlijk echter niet bruikbaar, zeker niet voor verticale teksten. Gebruik bij voorkeur de standaardopdracht voor het laden van beelden en zet 3D-beelden zo nodig handmatig recht met de bijbehorende SET-functie. In het algemeen kunt u SET-functies gebruiken voor Aziatische beelden.

Aziatische tekst in de Teksteditor

Herkende Aziatische pagina's verschijnen, altijd in de horizontale tekstrichting, in de Teksteditor als op uw systeem Oost-Aziatische talen worden ondersteund. U hoeft geen Aziatische lettertypen op te geven onder Opties > OCR. Er wordt automatisch een standaardlettertype toegepast, meestal Arial Unicode MS. U kunt in de Teksteditor andere lettertypen op uw systeem kiezen die Aziatische talen ondersteunen. Als u een lettertype gebruikt dat Aziatische talen niet ondersteunt, worden de Aziatische tekens vervangen door rechthoekjes.

In de Teksteditor kunt u tekst bekijken en controleren. Gebruik voor verticale tekst bij voorkeur geen True Page. Als u grootschalige bewerkingen en spellingscontroles wilt uitvoeren, kunt u dit beter doen in het doelprogramma. Aziatische tekst kunt u niet proeflezen en training en woordenlijsten zijn niet beschikbaar. Schakel daarom woordmarkering, automatisch proeflezen en IntelliTrain uit en zorg ervoor dat er geen trainingsbestand is geladen voordat u OCR uitvoert op Aziatische tekst. Ga hiervoor naar het deelvenster Proeflezen (onder Opties). U kunt Aziatische tekst zwart maken via selectie of de zoekfunctie.

Uitvoer van Aziatische tekst

Aziatische tekstuitvoer wordt meestal geconverteerd naar RTF, Microsoft Word, doorzoekbare PDF of XPS. De tekstrichting die tijdens de voorverwerking is gedetecteerd, wordt toegepast op het uitvoerbestand als u voor het exporteren True Page of Doorlopende pagina kiest. Wijzigingen die u in de Teksteditor heeft aangebracht (waar de tekst altijd horizontaal is), worden geëxporteerd, ook naar verticale tekst. Het programma biedt conversie naar tekst zonder opmaak (Unicode TXT, Kladblok), maar hierbij wordt de tekstrichting altijd horizontaal.