PyPDF2 nicht alle extrahieren von text aus PDF

Ich versuche zum extrahieren von text aus einer PDF-Datei (https://www.sec.gov/litigation/admin/2015/34-76574.pdf) mit PyPDF2, und das einzige Ergebnis das ich bekommen hab ist folgende Zeichenfolge:

b''

Hier ist mein code:

import PyPDF2
import urllib.request
import io

url = 'https://www.sec.gov/litigation/admin/2015/34-76574.pdf'
remote_file = urllib.request.urlopen(url).read()
memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfFileReader(memory_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(1)
page_content = page.extractText()
print(page_content.encode('utf-8'))

Dieser code war richtig, auf ein paar PDF-Dateien, mit dem ich arbeite (z.B. https://www.sec.gov/litigation/admin/2016/34-76837-proposed-amended-distribution-plan.pdf), aber die anderen wie die oben genannte Datei hat nicht funktioniert. Irgendeine Idee was falsch?

  • Möglich, Duplikat der Python text-Extraktion funktioniert nicht auf PDF-Dateien
  • Wie in den nahezu exakten Kopie Python-extrahieren von text funktioniert nicht auf PDF-Dateien, "diese Funktionalität wird nicht funktionieren gut für einige PDF-Dateien; in anderen Worten, Sie suchen eine Einschränkung der Bibliothek" (David van Driessche). Ich kann auch repliziert sein Testergebnis mit Ihrer Datei; meine eigenen PDF-Extraktor ist durchaus in der Lage, den text zu Lesen; daher ist es pypdf, die das problem verursacht, nicht Ihr code.
  • 34-76574.pdf wurde montiert in einem sub-optimalen Weg von einem oder mehreren anderen Dokumenten (Inbetriebnahme des importierten Seiten in form xobjects und auf Sie von der Seite zur hand). Vielleicht PyPDF2 hat Probleme mit einer solchen form xobjects?
InformationsquelleAutor Al_C91 | 2016-01-29
Schreibe einen Kommentar