PDF-Extraktion Tabelle
Ich habe die (gleichen) Daten gespeichert als GIF-Bild-Datei und als PDF-Datei und ich möchte das Parsen in HTML-oder XML. Die Daten ist eigentlich das Menü für meine Uni-cafeteria. Das bedeutet, dass es eine neue version der Datei, die analysiert werden jede Woche!
Im Allgemeinen enthalten die Dateien ein paar header-und footer-text, sowie einen Tisch voll von anderen Daten in-zwischen.
Ich habe gelesen, einige Beiträge auf stackoverflow und ich hatte auch begonnen, einige versuche zu analysieren die Daten der Tabelle als HTML - /XML:
- PDFBox || iText (Java)
- Google Docs Importieren
- PDF2HTML || PDF2Table
GIF
- Tesseract-OCR
Hab ich das beste Ergebnis aus dem Parsen der PDF-Datei mit PDFBox, aber immer noch (wie die Speisekarte wechselt wöchentlich, es ist nicht zuverlässig genug. Die HTML, die ich erhalte, enthält manchmal mehr, manchmal weniger "Absätze" (<p>
), so dass ich nicht in der Lage, um die Daten analysieren precice genug.
Deshalb würde ich gerne wissen, ob es einen anderen Weg, es zu tun?
Ich sehe. Das einzige, was mich stört ist, dass einige pdf -, xls-Parser arbeiten ziemlich gut. Also warum wird da nicht jeder open-source-Projekte, die auch fähig sind zu analysieren, eine pdf-Tabelle verlässlich?
Wenn Sie Kontakt mit den Menschen, die schreiben in diesem Menü sehen, welches format produziert wird. Sie könnten es schaffen, in einem format, das ist viel einfacher zum extrahieren von text aus.
Das war auch eine option, die ich dachte, aber es gab zwei Probleme mit ihm: 1. Universitäten wie verstecken Ihre Informationen und nur zugänglich machen, wenn Sie wollen und 2. Ich dachte auch zu finden, ein Ansatz wäre einlösbar, mehrere Cafeterien, dann nur die, die ich meinte 😉 ich werde einfach weiter mit meinem "trial and error" Methode!
Post einen link zu einem Beispiel-PDF.
InformationsquelleAutor Vilius | 2012-04-24
Du musst angemeldet sein, um einen Kommentar abzugeben.
Tabula ist ein ziemlich guter start auf JRuby web-Schnittstelle für die Extraktion von CSV - /TSV-Tabellen aus beliebigen PDF-Dateien.
Oh, es ist. Der Motor, die Befugnisse der Tabula ist tabula-extractor, und Sie können es hier herunterladen: github.com/jazzido/tabula-extractor - es ist geschrieben mit jruby, die Sie benötigen, aber die Anweisungen sind klar.
Eine aktualisierte Liste der tools: okfnlabs.org/blog/2016/04/19/...
InformationsquelleAutor thadk
Implementierte ich meine eigenen Algorithmus ( sein name ist
traprange
) zu analysieren tabellarische Daten in pdf-Dateien.Folgenden sind einige Beispiel-pdf-Dateien und Ergebnisse:
Besuchen Sie meine Projekt-Seite bei traprange
oder meine Artikel bei traprange
InformationsquelleAutor ThoQ
Wenn Sie schauen, um Daten aus Tabellen extrahieren, einmal die Woche und Sie sind auf Windows dann, bitte überprüfen Sie diese freeware-pdf-Dienstprogramm, das enthält automatisierte Tisch-Erkennung und-Tabelle, CSV -, XML-Konvertierung: PDF-Viewer-Dienstprogramm.
Das Dienstprogramm ist kostenlos für kommerzielle und nicht kommerzielle Nutzung für nicht-Entwickler (und da ist die separate version für Entwickler, die automatisieren möchten über API).
Disclaimer: ich arbeite für ByteScout
pdf utility (PDF-Multitool) ist völlig kostenlos, meinst du PDF Extractor SDK?
Ich habe gerade getestet der option konvertieren in HTML ist dies mit Abstand die beste software dass ich jemals gefunden. Haben Sie gearbeitet an der software? Ich will zu verwenden, extrahieren Sie innerhalb einer software-also ja, ich meine das SDK.
gibt es eine Möglichkeit eine PM an dich?
sicher, Sie können mich per E-Mail an jackj33 bei den google-mail-server
InformationsquelleAutor Eugene M
Ich habe versucht, viele der OCR-und-text-Konverter-software, und obwohl ich glaube, einmal sollte schreiben Sie das Programm selbst Konvertierung von PDF zu text als Bild ist besser verstanden von der person, die Durchführung der Aufgabe.
Hatte ich auch versucht, Google und viele andere Online - (über 900 website) und Offline(über 1000 Software -) Produkte von verschiedenen Firmen. Wenn Sie möchten, zu extrahieren text aus einer beliebigen Methode wie OCR oder Text aus PDF -, dann möglichst genaue Programm, das ich gefunden ist PDFTOHTML. Die Genauigkeit rate von PDFTOHTML ist über 98% und Google-Online hat über 94% Genauigkeit. Es ist eine sehr gute software, die auch Ihnen das richtige format für text also Fett, Kursiv usw. der text.
Niemand, niemand in der Welt kann extrahieren Sie die ocr/Bild zu html-Tabellen oder andere Sache. Tabellen sind nicht für den Zweck verwendet, der der text angezeigt und wenn die Tabellen haben Grenzen, dann könnte es sein, wäre möglich, aber ziemlich schwierig. Man muss sich um die 2 Dinge, OCR und PDF. Nichts ist unmöglich, aber sehr schwierig. Muss man zuerst extrahieren Sie den text für jede position von text aus ocr und dann markieren Sie Sie als PDF. Versuche zu machen mit PS (ghost-script) auch so viele Druck-Techniken, die Sie verwenden. Ändern Sie Ihre gif-Bild in PS dann erst auf PDF geben könnte, um richtige Antwort
InformationsquelleAutor Vineet1982
Sind die Tabellen an der gleichen Stelle jeder Zeit? Wenn du die Abmessungen der einzelnen box, könnten Sie ein tool verwenden, um split PDF-Dokumente in mehrere Dokumente, von denen jedes enthalten ein Feld, nach dem Sie verwenden können, was auch immer Werkzeug, das Sie konvertieren möchten, jedes kleinere PDF zu HTML (wie die erwähnten tools in anderen Antworten). Zufällige Google-Suche nach oben gezogen PyPdf, die sah aus wie es könnten einige nützliche Funktionen.
Wenn Sie nicht in der Lage, hart-code die Größe der box (oder anwenden möchten, das problem, um mehrere Menüs in unterschiedlichen Formaten), die offensichtliche Methode für mich (ich sagte, offensichtlich nicht einfach ist), wäre edge-detection zu finden, wo die Grenze der Tabelle wäre, und wenden Sie dann die Aufteilung, die ich darüber gesprochen, bevor.
warum nicht die transformation komplett "fit" [Ihr] Anforderungen"?
Da gibt es verschiedene Arten von Menüs, ich würde wahrscheinlich benötigen, um fest eine Menge Zeug, aber ich will es machen mehr Generika. Also die Hough-Transformation wäre ausreichend, aber nicht effizient genug.
InformationsquelleAutor Ryan Leonard
Ich habe vor kurzem lief in ein ähnliches problem.
Einer alternativen Lösung, die ich fand, war das öffnen eines PDF-Dokuments in Adobe und nach xml exportieren. Zumindest nicht mit meinen PDF-Dateien Sie erhalten die Informationen der Tabelle und dann war ich in der Lage, programmgesteuert arbeiten mit dem XML zu erzeugen tabular-Dateien wie excel usw.
Die andere Frage, die ich begegnete, war, dass Adobe können Sie nur exportieren Sie eine Datei zu einem Zeitpunkt, und ich hatte viele Dateien. Zum Glück Adobe hat auch eine merge-Funktion. Ich landete Zusammenführen alle Dateien zusammen, und dann exportieren Sie Sie als eine einzige große XML-Datei und arbeitet mit dieser Datei zu generieren, was, die ich brauchte.
InformationsquelleAutor Shaun Poore
Können Sie Camelot zum extrahieren von Tabellen aus PDF-und exportieren, um eine HTML-Datei. CSV -, Excel-und JSON werden auch unterstützt. Sie können sich die Dokumentation unter: http://camelot-py.readthedocs.io. Es liefert genauere Ergebnisse als im Vergleich zu anderen open-source-Tisch-Extraktion-tools und Bibliotheken. Hier ist ein Vergleich.
Können Sie den folgenden Codeausschnitt verwenden, um vorwärts zu gehen mit Ihre Aufgabe:
Disclaimer: ich bin der Autor der Bibliothek.
InformationsquelleAutor Vinayak Mehta