Extrahieren Sie Bilder und Worte, die mit den Koordinaten und Größen von PDF
Ich hab viel gelesen über PDF-Extraktionen und Bibliotheken (wie iText), aber ich habe nicht gefunden, eine Lösung zum extrahieren von Bildern und text (mit Koordinaten) aus einer PDF-Datei.
Ist die Aufgabe, scan-PDF-Katalog der Produkte extrahieren und jedes Bild. Es ist ein Bild-code gedruckt neben jedes Bild und auch eine Liste von Produkt-codes für Produkte, die auf dem Bild gezeigt.
Ich weiß, dass es keine Möglichkeit zum extrahieren von strukturierten Informationen aus PDF wie das aber mit den Koordinaten aller Bild-und text-Objekte, die ich schreiben könnte-code zu identifizieren verlinkten text durch den Abstand vom Bild. Dann könnte ich den split text mit einer RegExp und finden Sie heraus, was ist ein Produkt-code, was ist ein Bild-code etc.
Könnten Sie empfehlen eine gute und funktionierende Lösung für die Aufgabe?
- Sind Sie targeting eine bestimmte Plattform/Sprache? Wenn Sie sagen, "scan" meinst du "look-through" oder sind Sie tatsächlich Scannen eines physischen Objekts und würde dafür müssen OCR-Funktionen?
- Vielen Dank für die Antwort! ich programmiere in .NET so jede Bibliothek haben .net portieren ist gut. aber ich weiß auch JAVA, damit in extremis könnte ich eine java-Bibliothek. trotzdem brauche ich nicht die OCR-Funktion. Mein PDF-Dokument enthält text und Bilder. Text gerendert wird in den content-stream der PDF-also ich würde nees eine Art von parser/render, die mir nur sagen, wo ein String dargestellt werden soll auf einer Seite. ich brauche nur die Koords.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Verwenden XPDF (http://www.foolabs.com/xpdf/)
Kann es zu extrahieren alle Zeichen in der PDF-Datei mit Koordinaten (
pdftotext -bbox [sourcefile] [outputfile]
) und auch all die Bilder und SVGs in PDF.Es ist open-source (GPLv2) und unterstützt eine Vielzahl von zusätzlichen Extraktion Funktionalitäten sowie.
Mehrere Java-Bibliotheken, die dies tun können. Haben Sie sah JPedal oder PdfBox?
Wenn eine kommerzielle Bibliothek ist eine option für Sie, Sie könnten versuchen, Amyuni PDF Creator .Net oder Amyuni PDF Creator ActiveX. Könnten Sie die Methode IacDocument.GetObjectsInRectangle zum abrufen der "Grafik-Objekte" von Ihrem Interesse, dann nutzen Sie die ObjectType Attribut zu trennen Bilder aus dem text. Die Bibliothek bietet bereits ein Algorithmus für die Umsetzung schließen text zusammen. Aus der Dokumentation:
Übliche disclaimer gilt.