Python: Extrahieren Sie eine Seite aus einem pdf-Dokument als jpeg

In python-code, wie effizient zu speichern, eine bestimmte Seite in einem pdf-Dokument als jpeg-Datei? (Anwendungsfall: ich habe ein python flask web-server, auf dem pdf-s werden hochgeladen und jpeg-s entsprechend jede Seite speichert.)

Diese Lösung ist nah, aber das problem ist, dass es konvertiert nicht die gesamte Seite zu jpeg.

Ich habe gerade eine Lösung gefunden, die funktioniert in Antwort.

InformationsquelleAutor vishvAs vAsuki | 2017-09-12

48

Den pdf2image-Bibliothek verwendet werden.

Können Sie es einfach verwenden,
```
pip install pdf2image
```
Einmal installiert, können Sie verwenden Sie folgenden code, um Bilder.
```
from pdf2image import convert_from_path
pages = convert_from_path('pdf_file', 500)
```
Speichern von Seiten im jpeg-format
```
for page in pages:
    page.save('out.jpg', 'JPEG')
```
Edit: das Github-repo pdf2image auch erwähnt, dass es verwendet pdftoppm sind und dass andere Installationen:

pdftoppm ist das Stück software, dass macht die eigentliche Magie. Es verteilt sich als Teil eines größeren Pakets als poppler.
Windows-Benutzer installieren müssen poppler für Windows.
Mac-Benutzer installieren müssen poppler für Mac.
Linux-Benutzer haben pdftoppm pre-installiert mit der Distribution (Getestet auf Ubuntu und Archlinux), wenn es nicht so ist, laufen sudo apt install poppler-utils.

Hier ist die richtige installation für Windows: http://blog.alivate.com.au/poppler-windows/

Hi, die poppler ist nur eine Zip Datei, nicht alles installieren, was soll man mit den dll ' s oder die bin-Dateien ?
Verwenden Sie den folgenden link zu poppler. Aus irgendeinem Grund ist der link in der Beschreibung von Rodrigo ist nicht das gleiche wie in dem github-repo.
Dave Hast du installiert poppler und versuchte pdf2image auf einer Windows Maschine? Die Windows bitte?
Ich habe diese mit windows 10 und 64bit-Maschine. Finden Sie installation von poppler in windows aus zu beantworten.
Diese Pakete gibt einen weißen Rand um das Bild, so entfernt es nach diesem stackoverflow-Frage

InformationsquelleAutor Keval Dave
11

Die Python-Bibliothek pdf2image (in der anderen Antwort) in der Tat nicht viel mehr als nur starten pdttoppm mit subprocess.Popen, also hier ist die kurze version, es zu tun direkt:
```
PDFTOPPMPATH = r"D:\Documents\software\____PORTABLE\poppler-0.51\bin\pdftoppm.exe"
PDFFILE = "SKM_28718052212190.pdf"

import subprocess
subprocess.Popen('"%s" -png "%s" out' % (PDFTOPPMPATH, PDFFILE)) #have updated the values here
```
Hier wird die Windows-Installations-link für pdftoppm (enthalten in einem Paket namens poppler): http://blog.alivate.com.au/poppler-windows/

Hallo, die Windows-Installations-link für pdftoppm ist nur ein buncho von Zip-Dateien, was hast du mit Ihnen zu tun ? Danke!
im arbeiten auf linux, obwohl, ist es eine Arbeit um?

InformationsquelleAutor Basj
3

@gaurwraith, install poppler für Windows und verwenden pdftoppm.exe wie folgt:
1. Download zip-Datei mit Poppler neuesten binaries/dlls aus http://blog.alivate.com.au/poppler-windows/ und entpacken in ein neuen Ordner in Ihrem Ordner "Programme". Zum Beispiel: "C:\Program Files (x86)\Poppler".
2. Hinzufügen "C:\Program Files (x86)\Poppler\poppler-0.68.0\bin" zu Ihrem SYSTEM-PATH-Umgebungsvariable.
3. Vom cmd-line installieren pdf2image-Modul -> "pip installieren pdf2image".
4. Oder alternativ direkt ausführen pdftoppm.exe aus dem code mit Python-subprocess-Modul erläutert, die von Nutzer Basj.
@vishvAs vAsuki, sollte dieser code erzeugen der jpgs, die Sie wollen durch das subprocess-Modul für alle Seiten einer oder mehrerer PDF-Dateien in einem bestimmten Ordner:
```
import os, subprocess

pdf_dir = r"C:\yourPDFfolder"
os.chdir(pdf_dir)

pdftoppm_path = r"C:\Program Files (x86)\Poppler\poppler-0.68.0\bin\pdftoppm.exe"

for pdf_file in os.listdir(pdf_dir):

    if pdf_file.endswith(".pdf"):

        subprocess.Popen('"%s" -jpeg %s out' % (pdftoppm_path, pdf_file))
```
Oder mit dem pdf2image-Modul:
```
import os
from pdf2image import convert_from_path

pdf_dir = r"C:\yourPDFfolder"
os.chdir(pdf_dir)

    for pdf_file in os.listdir(pdf_dir):

        if pdf_file.endswith(".pdf"):

            pages = convert_from_path(pdf_file, 300)
            pdf_file = pdf_file[:-4]

            for page in pages:

               page.save("%s-page%d.jpg" % (pdf_file,pages.index(page)), "JPEG")
```
InformationsquelleAutor photek1944

Gibt es keine Notwendigkeit zu installieren Poppler auf Ihrem OS. Dies funktioniert:

pip installieren Zauberstab

from wand.image import Image

with(Image(filename="somefile.pdf", resolution=120)) as source: 
    images = source.sequence
    pages = len(images)
    for i in range(pages):
        n = i + 1
        newfilename = f[:-4] + str(n) + '.jpeg'
        Image(images[i]).save(filename=newfilename)

die ImageMagick-Bibliothek muss installiert werden, um Arbeit auf den Zauberstab.

InformationsquelleAutor DevB2F

Ihre ist ein Dienstprogramm namens pdftojpg die verwendet werden können, um das pdf zu konvertieren img

Finden Sie den code hier https://github.com/pankajr141/pdf2jpg

from pdf2jpg import pdf2jpg
inputpath = r"D:\inputdir\pdf1.pdf"
outputpath = r"D:\outputdir"
# To convert single page
result = pdf2jpg.convert_pdf2jpg(inputpath, outputpath, pages="1")
print(result)

# To convert multiple pages
result = pdf2jpg.convert_pdf2jpg(inputpath, outputpath, pages="1,0,3")
print(result)

# to convert all pages
result = pdf2jpg.convert_pdf2jpg(inputpath, outputpath, pages="ALL")
print(result)

habe dieses java Ding " einfach löschen, meine ganzen Ordner voller pdf-Bearbeiten von python-Skripten....?
ja zu mir! pls löschen mit dieser letzten Kommentar

InformationsquelleAutor duck

Fand ich diese einfache Lösung, PyMuPDF, Ausgabe als png-Datei

    import fitz
    pdffile = "infile.pdf"
    doc = fitz.open(pdffile)
    page = doc.loadPage(0) #number of page
    pix = page.getPixmap()
    output = "outfile.png"
    pix.writePNG(output)

Fügen Sie bitte die Erklärung auf deine Antwort.

InformationsquelleAutor JJPty

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.