Fenster Erkennungssprachen für erweitertes und verbessertes OCR Full Text
Wählen Sie in diesem Fenster Sprachen für OCR Full Text-Erkennung aus.
Textcodierung
Wählen Sie eine der folgenden Textcodierungsmethoden aus.
-
UTF16 ist das Unicode-Originalformat, in dem jedes Zeichen oder Symbol durch eine Zwei-Byte-Sequenz dargestellt wird.
-
UTF8 ist ein Format, das eine Bytefolge für die Darstellung einer 16-Bit-Unicode-Zeichenfolge verwendet. Dabei bleibt ASCII-Text (U+007F oder kleiner) unverändert als einzelnes Byte bestehen. Die Zeichen U+0080-07FF (wie z. B. Lateinisch, Griechisch, Kyrillisch, Hebräisch und Arabisch) werden in eine 2-Byte-Sequenz konvertiert, die Zeichen U+0800-FFFF (wie z. B. Chinesisch, Japanisch und Koreanisch) in eine 3-Byte-Sequenz.
-
ANSI ist ein Zeichensatz mit einem Byte pro Symbol. Bei Auswahl von ANSI muss auch eine Codeseite ausgewählt werden. Die Liste der verfügbaren Sprachen ändert sich entsprechend der ausgewählten Codeseite.
Wenn ein Ausgabeformat verwendet wird, das nur UTF16 unterstützt, wie z. B. Rich Text Format, Microsoft Word oder Microsoft Excel, wird die ausgewählte Textcodierung (einschließlich Codeseite) außer Kraft gesetzt und die Textcodierung automatisch auf UTF16 eingestellt.
In der folgenden Tabelle sind die von den drei Textcodierungstypen unterstützten Ausgabeformate aufgeführt.
|
Ausgabeformat |
UTF16 |
UTF8 |
ANSI |
|---|---|---|---|
|
Nur Text (.txt) |
• |
• |
• |
|
Rich Text Format (.rtf) |
• |
||
|
HTML (.htm) |
• |
• |
• |
|
Microsoft Word (.doc) |
• |
||
|
Kommagetrennte Werte (.csv) |
• |
• |
• |
|
Microsoft Excel (.xls) |
• |
Die Liste der Codeseiten enthält alle verfügbaren Codeseiten, die mit dem ANSI-Zeichensatz verwendet werden können. Wenn ANSI nicht ausgewählt wird, ist die Dropdown-Liste Codeseiten
deaktiviert.
Jede Codeseite unterstützt bestimmte Sprachen (siehe folgende Tabelle).
|
Codeseite |
Unterstützte Sprachen |
|---|---|
|
[ 1250 WINDOWS LATEINISCH 2 ] |
ALBANISCH KROATISCH TSCHECHISCH UNGARISCH POLNISCH RUMÄNISCH SERBISCH – LATEINISCH SLOWAKISCH SLOWENISCH USBEKISCH – LATEINISCH |
|
[ 1251 WINDOWS KYRILLISCH ] |
ASERBEIDSCH. – KYRILL. WEISSRUSSISCH BULGARISCH KASACHISCH MAZEDONISCH MONGOLISCH RUSSISCH SERBISCH – KYRILLISCH TATARISCH UKRAINISCH USBEKISCH – KYRILLISCH |
|
[ 1252 WINDOWS LATEINISCH 1 ] |
AFRIKAANS BASKISCH BRASILIANISCH KATALANISCH DÄNISCH NIEDERLÄNDISCH NIEDERLÄNDISCH – BELGIEN ENGLISCH FINNISCH FRANZÖSISCH GALIZISCH DEUTSCH DEUTSCH – LUXEMBURGISCH DEUTSCH – NEUE RECHTSCHREIBUNG ISLÄNDISCH INDONESISCH IRISCH ITALIENISCH MALAIISCH NORWEGISCH – BOKMAL NORWEGISCH – NYNORSK PORTUGIESISCH SPANISCH SUAHELI SCHWEDISCH |
|
[ 1253 WINDOWS GRIECHISCH ] |
GRIECHISCH |
|
[ 1254 WINDOWS TÜRKISCH ] |
TÜRKISCH |
|
[ 1257 WINDOWS BALTISCH ] |
ESTNISCH LETTISCH LITAUISCH |
Textrichtung
Diese Optionen gelten nur, falls eine der gewählten Sprachen Vereinfachtes Chinesisch, Traditionelles Chinesisch, Japanisch oder Koreanisch ist.
Wählen Sie die Textausrichtung auf dem Formular. Wenn mehr als eine Sprache ausgewählt oder das gewählte Ausgabeformat RTF, HTML oder Microsoft Word ist, sind die Optionen Horizontal
und Vertikal
deaktiviert und Automatische Erkennung wird verwendet. Beste Erkennungsergebnisse erzielen Sie, wenn Sie basierend auf der erkannten Seite an Stelle von Automatische Erkennung die Optionen Horizontal und Vertikal wählen.
Verfügbare Sprachen
Eine Liste der vom Erkennungssystem unterstützten Sprachen. Bei Auswahl von ANSI werden die der aktuellen Codeseite zugeordneten Sprachen angezeigt. Andernfalls werden in der Liste alle Sprachen angezeigt.
Ausgewählte Sprachen
Diese Liste enthält die ausgewählten Sprachen. Die Sprachen werden der Spalte in der Reihenfolge hinzugefügt, in der sie in der Liste Verfügbar ausgewählt werden. Die erste Sprache, die am Anfang der Liste angezeigt wird, ist die primäre Sprache, die restlichen Sprachen sind sekundäre Sprachen. Sie können bis zu fünf Sprachen auswählen.
Sie können Einträge durch Doppelklicken auf eine Sprache aus der Liste der verfügbaren bzw. ausgewählten Sprachen entfernen oder dieser hinzufügen. Wenn Sie Chinesisch, Japanisch oder Koreanisch als Hauptsprache auswählen, werden benutzerdefinierte Wörterbücher nicht unterstützt.
Schaltfläche Hinzufügen
Fügt eine Sprache zur Liste Ausgewählt hinzu. Wählen Sie eine Sprache in der Liste Verfügbar aus, und klicken Sie auf Hinzufügen. In der Liste Ausgewählt dürfen maximal fünf Sprachen stehen.
Schaltfläche Entfernen
Entfernt eine Sprache aus der Liste Ausgewählt. Wählen Sie eine Sprache in der Liste Ausgewählt aus, und klicken Sie auf Entfernen.