Extrahieren Sie Bilder und Worte, die mit den Koordinaten und Größen von PDF

Ich hab viel gelesen über PDF-Extraktionen und Bibliotheken (wie iText), aber ich habe nicht gefunden, eine Lösung zum extrahieren von Bildern und text (mit Koordinaten) aus einer PDF-Datei.

Ist die Aufgabe, scan-PDF-Katalog der Produkte extrahieren und jedes Bild. Es ist ein Bild-code gedruckt neben jedes Bild und auch eine Liste von Produkt-codes für Produkte, die auf dem Bild gezeigt.

Ich weiß, dass es keine Möglichkeit zum extrahieren von strukturierten Informationen aus PDF wie das aber mit den Koordinaten aller Bild-und text-Objekte, die ich schreiben könnte-code zu identifizieren verlinkten text durch den Abstand vom Bild. Dann könnte ich den split text mit einer RegExp und finden Sie heraus, was ist ein Produkt-code, was ist ein Bild-code etc.

Könnten Sie empfehlen eine gute und funktionierende Lösung für die Aufgabe?

Sind Sie targeting eine bestimmte Plattform/Sprache? Wenn Sie sagen, "scan" meinst du "look-through" oder sind Sie tatsächlich Scannen eines physischen Objekts und würde dafür müssen OCR-Funktionen?
Vielen Dank für die Antwort! ich programmiere in .NET so jede Bibliothek haben .net portieren ist gut. aber ich weiß auch JAVA, damit in extremis könnte ich eine java-Bibliothek. trotzdem brauche ich nicht die OCR-Funktion. Mein PDF-Dokument enthält text und Bilder. Text gerendert wird in den content-stream der PDF-also ich würde nees eine Art von parser/render, die mir nur sagen, wo ein String dargestellt werden soll auf einer Seite. ich brauche nur die Koords.

InformationsquelleAutor Alex | 2011-11-23

3

Verwenden XPDF (http://www.foolabs.com/xpdf/)

Kann es zu extrahieren alle Zeichen in der PDF-Datei mit Koordinaten (pdftotext -bbox [sourcefile] [outputfile]) und auch all die Bilder und SVGs in PDF.

Es ist open-source (GPLv2) und unterstützt eine Vielzahl von zusätzlichen Extraktion Funktionalitäten sowie.
- Ich habe mit pdftotext seit Jahren und noch nie twigged es hatte diese Funktion! Noch nie in der Lage, herauszufinden, wie man leicht extrahieren Koordinaten vor.
- Ist das richtig? Die bbox-option scheint nicht zu funktionieren für mich, und ich kann nicht finden, etwas über Sie in der Dokumentation.
InformationsquelleAutor Balamurugan Muthiah
0

Mehrere Java-Bibliotheken, die dies tun können. Haben Sie sah JPedal oder PdfBox?
- ich habe gerade versucht iTextSharp mit der RenderListener. es scheint zu funktionieren, aber nicht sehr gut. iTextSharp für meine PDF-return-Bilder mit den richtigen Koords, aber alle die text-layer haben den falschen Koords. ich denke, als meine PDF 2 text-Ebene und iTextSharp dont give me coords. ich habe versucht zu zeichnen, die auf eine imagebox, was iTextSharp zurück und ich sehe schnell, dass es 3 layer (1 Bild und 2 für den text) und diese layer sind nicht ausgerichtet auf alle.
- Kannst du uns den code, den Sie verwendet, um zu extrahieren-image-coords ? renderImage übergeben ImageRenderInfo. Wie extrahiere ich die Koordinaten ab ?
InformationsquelleAutor mark stephens
0

Wenn eine kommerzielle Bibliothek ist eine option für Sie, Sie könnten versuchen, Amyuni PDF Creator .Net oder Amyuni PDF Creator ActiveX. Könnten Sie die Methode IacDocument.GetObjectsInRectangle zum abrufen der "Grafik-Objekte" von Ihrem Interesse, dann nutzen Sie die ObjectType Attribut zu trennen Bilder aus dem text. Die Bibliothek bietet bereits ein Algorithmus für die Umsetzung schließen text zusammen. Aus der Dokumentation:
```
IacDocument.GetObjectsInRectangle Method

The GetObjectsInRectangle method gets all the objects that are in the specified rectangle.
```
Übliche disclaimer gilt.

InformationsquelleAutor yms

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.