Extrahieren von Text aus einer PDF-Datei mit Python

Ich versuche, zu extrahieren die text enthalten in diese PDF-Datei mit Python.

Ich bin mit dem PyPDF2 Modul, und haben das folgende Skript:

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

Wenn ich den code ausführen möchte, bekomme ich folgende Ausgabe, die Verschieden ist von der, eingeschlossen in das PDF-Dokument:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

Wie kann ich extrahieren Sie den text in das PDF-Dokument?

Dank.

InformationsquelleAutor der Frage Simplicity | 2016-01-17

pdf python

23

Verwenden textract.
- http://textract.readthedocs.io/en/latest/
- https://github.com/deanmalmgren/textract
Es unterstützt viele Arten von Dateien, einschließlich PDF-Dateien
```
import textract
text = textract.process("path/to/file.extension")
```
InformationsquelleAutor der Antwort Jakobovski

Blick auf diese code:

import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content.encode('utf-8')

Ausgabe:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

Mit dem gleichen code zu Lesen, eine pdf-Datei aus 201308FCR.pdf
.Der output ist normal.

Seine Dokumentation erklärt, warum:

def extractText(self):
    """
    Locate all text drawing commands, in the order they are provided in the
    content stream, and extract the text.  This works well for some PDF
    files, but poorly for others, depending on the generator used.  This will
    be refined in the future.  Do not rely on the order of text coming out of
    this function, as it will change if this function is made more
    sophisticated.
    :return: a unicode string object.
    """

InformationsquelleAutor der Antwort Quinn

6

War auf der Suche nach einer einfachen Lösung für python 3.x und windows. Es scheint nicht zu sein, Unterstützung von textractdas ist bedauerlich, aber wenn Sie sind auf der Suche für eine einfache Lösung, für windows/python 3 Kasse der tika Paket, wirklich geradeaus zum Lesen von PDF-Dateien
```
from tika import parser

raw = parser.from_file('sample.pdf')
print(raw['content'])
```
InformationsquelleAutor der Antwort DJK
4

Können Sie verwenden möchten Zeit bewiesen xPDF und daraus abgeleitete Werkzeuge zum extrahieren von text statt als pyPDF2 zu haben scheint verschiedene Themen mit der text-Extraktion noch.

Die lange Antwort ist, dass es gibt viele Variationen, wie ein text codiert ist in PDF und kann es erfordern,, um entschlüsselt PDF-Zeichenkette selbst, dann müssen möglicherweise die Karte mit CMAP, dann kann analysieren muss, um Abstand zwischen den Wörtern und Buchstaben etc.

Fall, dass die PDF beschädigt ist (d.h. die Anzeige der richtige text, aber beim kopieren gibt es Müll) und Sie wirklich brauchen, um text zu extrahieren, dann möchten Sie vielleicht zu prüfen, konvertieren von PDF-in-Bild (mit ImageMagik) und verwenden Sie dann Tesseract um text aus Bildern mit OCR.

InformationsquelleAutor der Antwort Eugene M
4

Nach dem Versuch textract (der anscheinend über zu viele Abhängigkeiten) und pypdf2 (Sie konnte nicht extrahieren von text aus PDF-Dateien, die ich getestet habe) und tika (war zu langsam) landete ich mit pdftotext von xpdf (wie schon in einer anderen Antwort) und nur als binary von python direkt (Sie müssen möglicherweise passen Sie den Pfad zu pdftotext):
```
import os, subprocess
SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
args = ["/usr/local/bin/pdftotext",
        '-enc',
        'UTF-8',
        "{}/my-pdf.pdf".format(SCRIPT_DIR),
        '-']
res = subprocess.run(args, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
output = res.stdout.decode('utf-8')
```
Es ist pdftotext die macht im Grunde das gleiche, aber dies setzt Voraus, pdftotext in /usr/local/bin, während ich diese in AWS lambda und wollte es aus dem aktuellen Verzeichnis.

Btw: Für die Verwendung dieses auf lambda, die Sie benötigen, um die Binär-und die Abhängigkeit libstdc++.so in Ihrer lambda-Funktion. Ich persönlich benötigt, um zu kompilieren xpdf. Als Anleitung für diese sprengen würde, diese Antwort habe ich Sie auf meinem persönlichen blog.

InformationsquelleAutor der Antwort hansaplast
2

Können Sie PDFtoText
https://github.com/jalan/pdftotext

PDF zu text hält-text-format, Einzug, egal, ob Sie über Tabellen verfügen.

InformationsquelleAutor der Antwort Máxima Alekz

Ich bin das hinzufügen von code, um dies zu erreichen:
Es ist in Ordnung für mich:

# This works in python 3
# required python packages
# tabula-py==1.0.0
# PyPDF2==1.26.0
# Pillow==4.0.0
# pdfminer.six==20170720

import os
import shutil
import warnings
from io import StringIO

import requests
import tabula
from PIL import Image
from PyPDF2 import PdfFileWriter, PdfFileReader
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage

warnings.filterwarnings("ignore")


def download_file(url):
    local_filename = url.split('/')[-1]
    local_filename = local_filename.replace("%20", "_")
    r = requests.get(url, stream=True)
    print(r)
    with open(local_filename, 'wb') as f:
        shutil.copyfileobj(r.raw, f)

    return local_filename


class PDFExtractor():
    def __init__(self, url):
        self.url = url

    # Downloading File in local
    def break_pdf(self, filename, start_page=-1, end_page=-1):
        pdf_reader = PdfFileReader(open(filename, "rb"))
        # Reading each pdf one by one
        total_pages = pdf_reader.numPages
        if start_page == -1:
            start_page = 0
        elif start_page < 1 or start_page > total_pages:
            return "Start Page Selection Is Wrong"
        else:
            start_page = start_page - 1

        if end_page == -1:
            end_page = total_pages
        elif end_page < 1 or end_page > total_pages - 1:
            return "End Page Selection Is Wrong"
        else:
            end_page = end_page

        for i in range(start_page, end_page):
            output = PdfFileWriter()
            output.addPage(pdf_reader.getPage(i))
            with open(str(i + 1) + "_" + filename, "wb") as outputStream:
                output.write(outputStream)

    def extract_text_algo_1(self, file):
        pdf_reader = PdfFileReader(open(file, 'rb'))
        # creating a page object
        pageObj = pdf_reader.getPage(0)

        # extracting extract_text from page
        text = pageObj.extractText()
        text = text.replace("\n", "").replace("\t", "")
        return text

    def extract_text_algo_2(self, file):
        pdfResourceManager = PDFResourceManager()
        retstr = StringIO()
        la_params = LAParams()
        device = TextConverter(pdfResourceManager, retstr, codec='utf-8', laparams=la_params)
        fp = open(file, 'rb')
        interpreter = PDFPageInterpreter(pdfResourceManager, device)
        password = ""
        max_pages = 0
        caching = True
        page_num = set()

        for page in PDFPage.get_pages(fp, page_num, maxpages=max_pages, password=password, caching=caching,
                                      check_extractable=True):
            interpreter.process_page(page)

        text = retstr.getvalue()
        text = text.replace("\t", "").replace("\n", "")

        fp.close()
        device.close()
        retstr.close()
        return text

    def extract_text(self, file):
        text1 = self.extract_text_algo_1(file)
        text2 = self.extract_text_algo_2(file)

        if len(text2) > len(str(text1)):
            return text2
        else:
            return text1

    def extarct_table(self, file):

        # Read pdf into DataFrame
        try:
            df = tabula.read_pdf(file, output_format="csv")
        except:
            print("Error Reading Table")
            return

        print("\nPrinting Table Content: \n", df)
        print("\nDone Printing Table Content\n")

    def tiff_header_for_CCITT(self, width, height, img_size, CCITT_group=4):
        tiff_header_struct = '<' + '2s' + 'h' + 'l' + 'h' + 'hhll' * 8 + 'h'
        return struct.pack(tiff_header_struct,
                           b'II',  # Byte order indication: Little indian
                           42,  # Version number (always 42)
                           8,  # Offset to first IFD
                           8,  # Number of tags in IFD
                           256, 4, 1, width,  # ImageWidth, LONG, 1, width
                           257, 4, 1, height,  # ImageLength, LONG, 1, lenght
                           258, 3, 1, 1,  # BitsPerSample, SHORT, 1, 1
                           259, 3, 1, CCITT_group,  # Compression, SHORT, 1, 4 = CCITT Group 4 fax encoding
                           262, 3, 1, 0,  # Threshholding, SHORT, 1, 0 = WhiteIsZero
                           273, 4, 1, struct.calcsize(tiff_header_struct),  # StripOffsets, LONG, 1, len of header
                           278, 4, 1, height,  # RowsPerStrip, LONG, 1, lenght
                           279, 4, 1, img_size,  # StripByteCounts, LONG, 1, size of extract_image
                           0  # last IFD
                           )

    def extract_image(self, filename):
        number = 1
        pdf_reader = PdfFileReader(open(filename, 'rb'))

        for i in range(0, pdf_reader.numPages):

            page = pdf_reader.getPage(i)

            try:
                xObject = page['/Resources']['/XObject'].getObject()
            except:
                print("No XObject Found")
                return

            for obj in xObject:

                try:

                    if xObject[obj]['/Subtype'] == '/Image':
                        size = (xObject[obj]['/Width'], xObject[obj]['/Height'])
                        data = xObject[obj]._data
                        if xObject[obj]['/ColorSpace'] == '/DeviceRGB':
                            mode = "RGB"
                        else:
                            mode = "P"

                        image_name = filename.split(".")[0] + str(number)

                        print(xObject[obj]['/Filter'])

                        if xObject[obj]['/Filter'] == '/FlateDecode':
                            data = xObject[obj].getData()
                            img = Image.frombytes(mode, size, data)
                            img.save(image_name + "_Flate.png")
                            # save_to_s3(imagename + "_Flate.png")
                            print("Image_Saved")

                            number += 1
                        elif xObject[obj]['/Filter'] == '/DCTDecode':
                            img = open(image_name + "_DCT.jpg", "wb")
                            img.write(data)
                            # save_to_s3(imagename + "_DCT.jpg")
                            img.close()
                            number += 1
                        elif xObject[obj]['/Filter'] == '/JPXDecode':
                            img = open(image_name + "_JPX.jp2", "wb")
                            img.write(data)
                            # save_to_s3(imagename + "_JPX.jp2")
                            img.close()
                            number += 1
                        elif xObject[obj]['/Filter'] == '/CCITTFaxDecode':
                            if xObject[obj]['/DecodeParms']['/K'] == -1:
                                CCITT_group = 4
                            else:
                                CCITT_group = 3
                            width = xObject[obj]['/Width']
                            height = xObject[obj]['/Height']
                            data = xObject[obj]._data  # sorry, getData() does not work for CCITTFaxDecode
                            img_size = len(data)
                            tiff_header = self.tiff_header_for_CCITT(width, height, img_size, CCITT_group)
                            img_name = image_name + '_CCITT.tiff'
                            with open(img_name, 'wb') as img_file:
                                img_file.write(tiff_header + data)

                            # save_to_s3(img_name)
                            number += 1
                except:
                    continue

        return number

    def read_pages(self, start_page=-1, end_page=-1):

        # Downloading file locally
        downloaded_file = download_file(self.url)
        print(downloaded_file)

        # breaking PDF into number of pages in diff pdf files
        self.break_pdf(downloaded_file, start_page, end_page)

        # creating a pdf reader object
        pdf_reader = PdfFileReader(open(downloaded_file, 'rb'))

        # Reading each pdf one by one
        total_pages = pdf_reader.numPages

        if start_page == -1:
            start_page = 0
        elif start_page < 1 or start_page > total_pages:
            return "Start Page Selection Is Wrong"
        else:
            start_page = start_page - 1

        if end_page == -1:
            end_page = total_pages
        elif end_page < 1 or end_page > total_pages - 1:
            return "End Page Selection Is Wrong"
        else:
            end_page = end_page

        for i in range(start_page, end_page):
            # creating a page based filename
            file = str(i + 1) + "_" + downloaded_file

            print("\nStarting to Read Page: ", i + 1, "\n -----------===-------------")

            file_text = self.extract_text(file)
            print(file_text)
            self.extract_image(file)

            self.extarct_table(file)
            os.remove(file)
            print("Stopped Reading Page: ", i + 1, "\n -----------===-------------")

        os.remove(downloaded_file)


# I have tested on these 3 pdf files
# url = "http://s3.amazonaws.com/NLP_Project/Original_Documents/Healthcare-January-2017.pdf"
url = "http://s3.amazonaws.com/NLP_Project/Original_Documents/Sample_Test.pdf"
# url = "http://s3.amazonaws.com/NLP_Project/Original_Documents/Sazerac_FS_2017_06_30%20Annual.pdf"
# creating the instance of class
pdf_extractor = PDFExtractor(url)

# Getting desired data out
pdf_extractor.read_pages(15, 23)

InformationsquelleAutor der Antwort Ritesh Shanker

0

Den code unten ist die Lösung der Frage in Python 3. Bevor der code ausgeführt wird, stellen Sie sicher, dass Sie installiert haben PyPDF2 Bibliothek in Ihrer Umgebung. Wenn nicht installiert ist, öffnen Sie die Eingabeaufforderung und führen Sie den folgenden Befehl ein:
```
pip3 install PyPDF2
```
Lösung Code:
```
import PyPDF2
pdfFileObject = open('sample.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
for i in range(count):
    page = pdfReader.getPage(i)
    print(page.extractText())
```
InformationsquelleAutor der Antwort Steffi Keran Rani J

Hier ist der einfachste code zum extrahieren von text

code:

      # importing required modules
      import PyPDF2

      # creating a pdf file object
      pdfFileObj = open('filename.pdf', 'rb')

      # creating a pdf reader object
      pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

      # printing number of pages in pdf file
      print(pdfReader.numPages)

      # creating a page object
      pageObj = pdfReader.getPage(5)

      # extracting text from page
      print(pageObj.extractText())

      # closing the pdf file object
      pdfFileObj.close()

InformationsquelleAutor der Antwort Infinity

Multi - page pdf-Dateien können als text extrahiert werden, auf einzelnen Strecken, anstatt eine einzelne Seitennummer als argument verwenden Sie folgenden code

import PyPDF2
import collections
pdf_file = open('samples.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
c = collections.Counter(range(number_of_pages))
for i in c:
   page = read_pdf.getPage(i)
   page_content = page.extractText()
   print page_content.encode('utf-8')

InformationsquelleAutor der Antwort Yogi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.