Erweitertes OCR-Ausgabeformat – HTML
In diesem Fenster können Sie das Ausgabeformat der HTML-Datei steuern, die vom erweiterten OCR Full Text-Erkennungssystem von Kofax generiert wird. Es gelten die folgenden Regeln:
- Das ursprüngliche Seitenlayout wird, sofern möglich, beibehalten.
- Die Textattribute (Fett, Kursiv, Unterstrichen) werden immer beibehalten, wenn die erkannten Daten in der Ausgabedatei gespeichert werden.
- Die Textfarbe wird immer beibehalten.
- Die Bilder werden (falls möglich) immer erkannt und in die Ausgabedatei eingebettet. Eine Änderung der Auflösung von Bildern ist nicht möglich.
Ausgabeformat
Durch eine Änderung des Ausgabeformats werden ggf. weitere Optionen angezeigt. Die Einstellungen der deaktivierten Optionen bleiben dabei erhalten, so dass bei erneuter Auswahl des Formats die zuletzt vorgenommenen Einstellungen verwendet werden.
Wählen Sie ein Ausgabeformat aus dieser Liste:
-
Nur Text (.txt)
-
Rich Text Format (.rtf)
-
HTML (.mht)
-
Microsoft Word (*.doc)
-
Kommagetrennte Werte (*.csv)
-
Microsoft Excel (*.xls)
-
Microsoft Word 2007 oder später (*.docx)
-
Microsoft Excel 2007 oder später (*.xlsx)
Indexseite
Konfigurieren Sie die Indexseite der exportierten HTML-Dateien. Zur Auswahl stehen folgende Werte:
-
Keine: Es gibt keine Indexseite.
-
Einseitig: Die Indexseite wird als separate Datei gespeichert. Dies ist die Standardeinstellung.
-
Frame: The index page is a frame.
Zeilenumbrüche unterdrücken
Aktivieren Sie diese Option, um beim Speichern der erkannten Daten Zeilenumbrüche im Originaldokument zu unterdrücken (entfernen). Andernfalls werden die Zeilenumbrüche übernommen.
Seitenumbruch als Seitentrennung verwenden
Aktivieren Sie diese Option, um beim Speichern der erkannten Daten Seitenumbrüche im Originaldokument zur Trennung der Seiten zu verwenden. Andernfalls werden die Seitenumbrüche ignoriert.