Extrahieren Sie text pro Seite mit Python pdfMiner?
Habe ich experimentierte mit beiden pyPdf und pdfMiner zum extrahieren von text aus pdf-Dateien. Ich habe einige unfreundliche PDF-Dateien, die nur pdfMiner ist in der Lage zu extrahieren erfolgreich. Ich bin mit dem code hier zum extrahieren von text für die gesamte Datei. Allerdings würde ich wirklich gerne zum extrahieren von text auf einer basis pro Seite, wie die getPage(i).extractText()
Funktionalität in pyPdf. Weiß jemand, wie extrahieren von text pro Seite pdfMiner?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Gibt es einen ziemlich guten Artikel hier.
pdfminer
dieser code funktionieren?Dies ist, wie Sie schreiben, alle Seiten in separaten Dateien:
Ersetzen Sie einfach page_no mit Seitennummer, die Sie wollen, wenn Sie wollen, bestimmte Seitenzahlen.