Konvertieren Sie gescannte pdf zu .txt-Dateien mit tesseract
Habe ich zu konvertieren ein .pdf
- Datei enthält gescannte Bilder in .txt
- Dateien. Die tesseract ocr
wandelt nur Bilder zu .txt
, aber ich müssen Sie zuerst extrahieren Sie die .tif
Bilder und dann konvertieren. Kann mir jemand helfen mit diesem?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Verwenden Sie Imagemagick:
Dichte in DPI aus meiner Erfahrung 600 DPI arbeitet der beste.
%04d
im Namen der output-Datei und sehen, wie es funktioniert.