PyPDF2 nicht alle extrahieren von text aus PDF
Ich versuche zum extrahieren von text aus einer PDF-Datei (https://www.sec.gov/litigation/admin/2015/34-76574.pdf) mit PyPDF2, und das einzige Ergebnis das ich bekommen hab ist folgende Zeichenfolge:
b''
Hier ist mein code:
import PyPDF2
import urllib.request
import io
url = 'https://www.sec.gov/litigation/admin/2015/34-76574.pdf'
remote_file = urllib.request.urlopen(url).read()
memory_file = io.BytesIO(remote_file)
read_pdf = PyPDF2.PdfFileReader(memory_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(1)
page_content = page.extractText()
print(page_content.encode('utf-8'))
Dieser code war richtig, auf ein paar PDF-Dateien, mit dem ich arbeite (z.B. https://www.sec.gov/litigation/admin/2016/34-76837-proposed-amended-distribution-plan.pdf), aber die anderen wie die oben genannte Datei hat nicht funktioniert. Irgendeine Idee was falsch?
- Möglich, Duplikat der Python text-Extraktion funktioniert nicht auf PDF-Dateien
- Wie in den nahezu exakten Kopie Python-extrahieren von text funktioniert nicht auf PDF-Dateien, "diese Funktionalität wird nicht funktionieren gut für einige PDF-Dateien; in anderen Worten, Sie suchen eine Einschränkung der Bibliothek" (David van Driessche). Ich kann auch repliziert sein Testergebnis mit Ihrer Datei; meine eigenen PDF-Extraktor ist durchaus in der Lage, den text zu Lesen; daher ist es pypdf, die das problem verursacht, nicht Ihr code.
- 34-76574.pdf wurde montiert in einem sub-optimalen Weg von einem oder mehreren anderen Dokumenten (Inbetriebnahme des importierten Seiten in form xobjects und auf Sie von der Seite zur hand). Vielleicht PyPDF2 hat Probleme mit einer solchen form xobjects?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich weiß nicht, warum pypdf2 kann nicht extrahieren Sie die Informationen aus diesem PDF, aber das Paket
pdftotext
können:Extrahiert
Ich denke, dass es möglicherweise ein Problem mit, wie Sie das extrahieren der Seiten versuchen, indem Sie eine Schleife und ruft jede Seite separat wie so