PDF zu text-Python-3.6 pdfminer kein Modul mit dem Namen 'pdfminer'

Ich versuche es mal mit pdfminer.sechs konvertieren Sie mehrere pdfs in ein Verzeichnis zu mehreren .txt-Dateien mit python 3.6.3

Bekam ich diese Fehlermeldung: ModuleNotFoundError: Kein Modul mit dem Namen 'pdfminer' beim ausführen des folgenden codes. Oder, wenn ich laufen pdf2txt.py mit dem Namen.pdf, es gibt dortenv: python - \r: Keine solche Datei oder Verzeichnis

Habe ich einige der Forschung über das Thema. Ich habe das original entfernt pdfminer von meinem pip, derzeit hat nur die pdfminer.sechs in meiner bib. Auch ich bin mit python 3.6.3 auf virtualenv.

Unten ist der code, den ich ausführen:

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import os
import sys, getopt

#converts pdf, returns its text content as a string
def convert(fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)

    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = file(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)
    infile.close()
    converter.close()
    text = output.getvalue()
    output.close
    return text 

#converts all pdfs in directory pdfDir, saves all resulting txt files to txtdir
def convertMultiple(pdfDir, txtDir):
    if pdfDir == "": pdfDir = os.getcwd() + "\\" #if no pdfDir passed in 
    for pdf in os.listdir(pdfDir): #iterate through pdfs in pdf directory
        fileExtension = pdf.split(".")[-1]
        if fileExtension == "pdf":
            pdfFilename = pdfDir + pdf 
            text = convert(pdfFilename) #get string of text content of pdf
            textFilename = txtDir + pdf + ".txt"
            textFile = open(textFilename, "w") #make text file
            textFile.write(text) #write text to text file

pdfDir = "../../data/raw/"
txtDir = "../../data/interim/"
convertMultiple(pdfDir, txtDir)
  • this könnte hilfreich sein
  • Haben Sie den Namen Ihres python-Datei pdfminer.py ?
  • Nein, es ist nicht pdfminer.py für die Datei vor.
InformationsquelleAutor Huy Le | 2018-01-02
Schreibe einen Kommentar