Integriertes OCR

OCR bezeichnet den Prozess, bei dem Text aus einem Bild extrahiert wird. Dieses Bild kann aus einem gescannten Dokument, einer elektronischen Bilddatei oder einer PDF-Datei stammen. Bilder beinhalten keine bearbeitbaren Textzeichen. Sie bestehen aus unzähligen winzigen Bildpunkten (Pixel), die zusammen gesehen die Buchstaben oder Ziffern bilden, die einem Bild des Texts auf der Seite entsprechen.

Vom Zeichenabbild … ... zu bearbeitbarem Text
Rasterbild-Illustration Bearbeitbarer Text-Illustration