PDF-Extraktion Tabelle

Ich habe die (gleichen) Daten gespeichert als GIF-Bild-Datei und als PDF-Datei und ich möchte das Parsen in HTML-oder XML. Die Daten ist eigentlich das Menü für meine Uni-cafeteria. Das bedeutet, dass es eine neue version der Datei, die analysiert werden jede Woche!
Im Allgemeinen enthalten die Dateien ein paar header-und footer-text, sowie einen Tisch voll von anderen Daten in-zwischen.
Ich habe gelesen, einige Beiträge auf stackoverflow und ich hatte auch begonnen, einige versuche zu analysieren die Daten der Tabelle als HTML - /XML:

PDF

  • PDFBox || iText (Java)
  • Google Docs Importieren
  • PDF2HTML || PDF2Table

GIF

  • Tesseract-OCR

Hab ich das beste Ergebnis aus dem Parsen der PDF-Datei mit PDFBox, aber immer noch (wie die Speisekarte wechselt wöchentlich, es ist nicht zuverlässig genug. Die HTML, die ich erhalte, enthält manchmal mehr, manchmal weniger "Absätze" (<p>), so dass ich nicht in der Lage, um die Daten analysieren precice genug.

Deshalb würde ich gerne wissen, ob es einen anderen Weg, es zu tun?

PDF->text ist selten einfach. PDF ist ein Dokument-layout-Sprache, nicht eine markup-Sprache. Je nachdem, wie die pdf-generator, die Stimmung ist an diesem Tag kann es zu generieren völlig verschiedene Dokumente, die jeder Zeit.
Ich sehe. Das einzige, was mich stört ist, dass einige pdf -, xls-Parser arbeiten ziemlich gut. Also warum wird da nicht jeder open-source-Projekte, die auch fähig sind zu analysieren, eine pdf-Tabelle verlässlich?
Wenn Sie Kontakt mit den Menschen, die schreiben in diesem Menü sehen, welches format produziert wird. Sie könnten es schaffen, in einem format, das ist viel einfacher zum extrahieren von text aus.
Das war auch eine option, die ich dachte, aber es gab zwei Probleme mit ihm: 1. Universitäten wie verstecken Ihre Informationen und nur zugänglich machen, wenn Sie wollen und 2. Ich dachte auch zu finden, ein Ansatz wäre einlösbar, mehrere Cafeterien, dann nur die, die ich meinte 😉 ich werde einfach weiter mit meinem "trial and error" Methode!
Post einen link zu einem Beispiel-PDF.

InformationsquelleAutor Vilius | 2012-04-24

Schreibe einen Kommentar