Konvertieren Sie gescannte pdf zu .txt-Dateien mit tesseract

Habe ich zu konvertieren ein .pdf - Datei enthält gescannte Bilder in .txt - Dateien. Die tesseract ocr wandelt nur Bilder zu .txt, aber ich müssen Sie zuerst extrahieren Sie die .tif Bilder und dann konvertieren. Kann mir jemand helfen mit diesem?

InformationsquelleAutor Ganesh Nannaware | 2014-01-31

tesseract

19

Verwenden Sie Imagemagick:
```
convert -density 600 input.pdf output.tif
```
Dichte in DPI aus meiner Erfahrung 600 DPI arbeitet der beste.
- Kann convert-Befehl verwendet werden, um erzeugen mehrerer Ausgabe-Dateien? bitte helfen Sie mir mit der Nutzung von it.
- Ja, es kann. Setzen %04d im Namen der output-Datei und sehen, wie es funktioniert.
- Thanx alot @Karol S
InformationsquelleAutor Karol S

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.