Fenster Erkennungssprachen für erweitertes und verbessertes OCR Full Text

Wählen Sie in diesem Fenster Sprachen für OCR Full Text-Erkennung aus.

Textcodierung

Wählen Sie eine der folgenden Textcodierungsmethoden aus.

  • UTF16 ist das Unicode-Originalformat, in dem jedes Zeichen oder Symbol durch eine Zwei-Byte-Sequenz dargestellt wird.

  • UTF8 ist ein Format, das eine Bytefolge für die Darstellung einer 16-Bit-Unicode-Zeichenfolge verwendet. Dabei bleibt ASCII-Text (U+007F oder kleiner) unverändert als einzelnes Byte bestehen. Die Zeichen U+0080-07FF (wie z. B. Lateinisch, Griechisch, Kyrillisch, Hebräisch und Arabisch) werden in eine 2-Byte-Sequenz konvertiert, die Zeichen U+0800-FFFF (wie z. B. Chinesisch, Japanisch und Koreanisch) in eine 3-Byte-Sequenz.

  • ANSI ist ein Zeichensatz mit einem Byte pro Symbol. Bei Auswahl von ANSI muss auch eine Codeseite ausgewählt werden. Die Liste der verfügbaren Sprachen ändert sich entsprechend der ausgewählten Codeseite.

Wenn ein Ausgabeformat verwendet wird, das nur UTF16 unterstützt, wie z. B. Rich Text Format, Microsoft Word oder Microsoft Excel, wird die ausgewählte Textcodierung (einschließlich Codeseite) außer Kraft gesetzt und die Textcodierung automatisch auf UTF16 eingestellt.

In der folgenden Tabelle sind die von den drei Textcodierungstypen unterstützten Ausgabeformate aufgeführt.

Ausgabeformat

UTF16

UTF8

ANSI

Nur Text (.txt)

Rich Text Format (.rtf)

HTML (.htm)

Microsoft Word (.doc)

Kommagetrennte Werte (.csv)

Microsoft Excel (.xls)

Die Liste der Codeseiten enthält alle verfügbaren Codeseiten, die mit dem ANSI-Zeichensatz verwendet werden können. Wenn ANSI nicht ausgewählt wird, ist die Dropdown-Liste Codeseiten deaktiviert.

Jede Codeseite unterstützt bestimmte Sprachen (siehe folgende Tabelle).

Codeseite

Unterstützte Sprachen

[ 1250 WINDOWS LATEINISCH 2 ]

ALBANISCH

KROATISCH

TSCHECHISCH

UNGARISCH

POLNISCH

RUMÄNISCH

SERBISCH – LATEINISCH

SLOWAKISCH

SLOWENISCH

USBEKISCH – LATEINISCH

[ 1251 WINDOWS KYRILLISCH ]

ASERBEIDSCH. – KYRILL.

WEISSRUSSISCH

BULGARISCH

KASACHISCH

MAZEDONISCH

MONGOLISCH

RUSSISCH

SERBISCH – KYRILLISCH

TATARISCH

UKRAINISCH

USBEKISCH – KYRILLISCH

[ 1252 WINDOWS LATEINISCH 1 ]

AFRIKAANS

BASKISCH

BRASILIANISCH

KATALANISCH

DÄNISCH

NIEDERLÄNDISCH

NIEDERLÄNDISCH – BELGIEN

ENGLISCH

FINNISCH

FRANZÖSISCH

GALIZISCH

DEUTSCH

DEUTSCH – LUXEMBURGISCH

DEUTSCH – NEUE RECHTSCHREIBUNG

ISLÄNDISCH

INDONESISCH

IRISCH

ITALIENISCH

MALAIISCH

NORWEGISCH – BOKMAL

NORWEGISCH – NYNORSK

PORTUGIESISCH

SPANISCH

SUAHELI

SCHWEDISCH

[ 1253 WINDOWS GRIECHISCH ]

GRIECHISCH

[ 1254 WINDOWS TÜRKISCH ]

TÜRKISCH

[ 1257 WINDOWS BALTISCH ]

ESTNISCH

LETTISCH

LITAUISCH

Textrichtung

Diese Optionen gelten nur, falls eine der gewählten Sprachen Vereinfachtes Chinesisch, Traditionelles Chinesisch, Japanisch oder Koreanisch ist.

Wählen Sie die Textausrichtung auf dem Formular. Wenn mehr als eine Sprache ausgewählt oder das gewählte Ausgabeformat RTF, HTML oder Microsoft Word ist, sind die Optionen Horizontal und Vertikal deaktiviert und Automatische Erkennung wird verwendet. Beste Erkennungsergebnisse erzielen Sie, wenn Sie basierend auf der erkannten Seite an Stelle von Automatische Erkennung die Optionen Horizontal und Vertikal wählen.

Verfügbare Sprachen

Eine Liste der vom Erkennungssystem unterstützten Sprachen. Bei Auswahl von ANSI werden die der aktuellen Codeseite zugeordneten Sprachen angezeigt. Andernfalls werden in der Liste alle Sprachen angezeigt.

Ausgewählte Sprachen

Diese Liste enthält die ausgewählten Sprachen. Die Sprachen werden der Spalte in der Reihenfolge hinzugefügt, in der sie in der Liste Verfügbar ausgewählt werden. Die erste Sprache, die am Anfang der Liste angezeigt wird, ist die primäre Sprache, die restlichen Sprachen sind sekundäre Sprachen. Sie können bis zu fünf Sprachen auswählen.

Sie können Einträge durch Doppelklicken auf eine Sprache aus der Liste der verfügbaren bzw. ausgewählten Sprachen entfernen oder dieser hinzufügen. Wenn Sie Chinesisch, Japanisch oder Koreanisch als Hauptsprache auswählen, werden benutzerdefinierte Wörterbücher nicht unterstützt.

Schaltfläche Hinzufügen

Fügt eine Sprache zur Liste Ausgewählt hinzu. Wählen Sie eine Sprache in der Liste Verfügbar aus, und klicken Sie auf Hinzufügen. In der Liste Ausgewählt dürfen maximal fünf Sprachen stehen.

Schaltfläche Entfernen

Entfernt eine Sprache aus der Liste Ausgewählt. Wählen Sie eine Sprache in der Liste Ausgewählt aus, und klicken Sie auf Entfernen.