Leerzeichen Weg von PDF-Extraktion und-seltsames Wort-interpretation

Mit dem snippet unten, ich habe versucht, zu extrahieren die text-Daten aus diese PDF-Datei.

import pyPdf

def get_text(path):
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    content = ""
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"  # Extract text from page and add to content
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

Den die Ausgabe habe ich erhalten, jedoch ohne Leerzeichen zwischen den meisten die Worte. Dies macht es schwierig zum durchführen der Verarbeitung natürlicher Sprache auf den text (auf mein Ziel, hier).

Auch das 'fi' in das Wort 'finger' ist konsequent interpretiert, als etwas anderes. Dies ist sehr problematisch, da diese ein Papier über spontane Fingerbewegungen...

Weiß jemand, warum dies geschehen könnte? Ich weiß gar nicht, wo man anfangen soll!

InformationsquelleAutor blz | 2012-06-18
Schreibe einen Kommentar