Extrahieren von Text Mit PdfMiner und PyPDF2 Verschmilzt Spalten

Ich versuche zu analysieren, die pdf-Datei, text mit pdfMiner, aber der extrahierte text wird zusammengeführt. Ich bin mit der pdf-Datei aus dem folgenden link.

PDF-Datei

Ich bin gut mit jeder Art der Ausgabe (Datei/string). Hier ist der code, der gibt den extrahierten text als string für mich, aber für einige Grund, Spalten zusammengeführt werden.

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
import StringIO

def convert_pdf(filename):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec)

    fp = file(filename, 'rb')
    process_pdf(rsrcmgr, device, fp)
    fp.close()
    device.close()

    str = retstr.getvalue()
    retstr.close()
    return str

Habe ich auch schon versucht PyPdf2, aber vor dem gleichen Problem. Hier ist der Beispielcode für PyPDF2

from PyPDF2.pdf import PdfFileReader
import StringIO
import time

def getDataUsingPyPdf2(filename):
    pdf = PdfFileReader(open(filename, "rb"))
    content = ""

    for i in range(0, pdf.getNumPages()):
        print str(i)
        extractedText = pdf.getPage(i).extractText()
        content +=  extractedText + "\n"

    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content.encode("ascii", "ignore")

Habe ich auch schon versucht pdf2txt.py aber nicht in der Lage, um die formatierte Ausgabe.

Sollte das erste code-block Lesen retstr = StringIO.StringIO()?
Mehrere Spalten sind wirklich eine Qual zum Lesen von pdf-Dokumenten. Je nachdem, was Sie wollen, k2pdfopt, macht ein Bild von jeder Seite.

InformationsquelleAutor user2151334 | 2013-04-01

Schreibe einen Kommentar