Extrahieren von Text aus einer PDF-Datei mit Python

Ich versuche, zu extrahieren die text enthalten in diese PDF-Datei mit Python.

Ich bin mit dem PyPDF2 Modul, und haben das folgende Skript:

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

Wenn ich den code ausführen möchte, bekomme ich folgende Ausgabe, die Verschieden ist von der, eingeschlossen in das PDF-Dokument:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

Wie kann ich extrahieren Sie den text in das PDF-Dokument?

Dank.

InformationsquelleAutor der Frage Simplicity | 2016-01-17

Schreibe einen Kommentar