Extrahieren Sie Bilder und Worte, die mit den Koordinaten und Größen von PDF

Ich hab viel gelesen über PDF-Extraktionen und Bibliotheken (wie iText), aber ich habe nicht gefunden, eine Lösung zum extrahieren von Bildern und text (mit Koordinaten) aus einer PDF-Datei.

Ist die Aufgabe, scan-PDF-Katalog der Produkte extrahieren und jedes Bild. Es ist ein Bild-code gedruckt neben jedes Bild und auch eine Liste von Produkt-codes für Produkte, die auf dem Bild gezeigt.

Ich weiß, dass es keine Möglichkeit zum extrahieren von strukturierten Informationen aus PDF wie das aber mit den Koordinaten aller Bild-und text-Objekte, die ich schreiben könnte-code zu identifizieren verlinkten text durch den Abstand vom Bild. Dann könnte ich den split text mit einer RegExp und finden Sie heraus, was ist ein Produkt-code, was ist ein Bild-code etc.

Könnten Sie empfehlen eine gute und funktionierende Lösung für die Aufgabe?

  • Sind Sie targeting eine bestimmte Plattform/Sprache? Wenn Sie sagen, "scan" meinst du "look-through" oder sind Sie tatsächlich Scannen eines physischen Objekts und würde dafür müssen OCR-Funktionen?
  • Vielen Dank für die Antwort! ich programmiere in .NET so jede Bibliothek haben .net portieren ist gut. aber ich weiß auch JAVA, damit in extremis könnte ich eine java-Bibliothek. trotzdem brauche ich nicht die OCR-Funktion. Mein PDF-Dokument enthält text und Bilder. Text gerendert wird in den content-stream der PDF-also ich würde nees eine Art von parser/render, die mir nur sagen, wo ein String dargestellt werden soll auf einer Seite. ich brauche nur die Koords.
InformationsquelleAutor Alex | 2011-11-23
Schreibe einen Kommentar