PDF-Extraktion Tabelle

Ich habe die (gleichen) Daten gespeichert als GIF-Bild-Datei und als PDF-Datei und ich möchte das Parsen in HTML-oder XML. Die Daten ist eigentlich das Menü für meine Uni-cafeteria. Das bedeutet, dass es eine neue version der Datei, die analysiert werden jede Woche!
Im Allgemeinen enthalten die Dateien ein paar header-und footer-text, sowie einen Tisch voll von anderen Daten in-zwischen.
Ich habe gelesen, einige Beiträge auf stackoverflow und ich hatte auch begonnen, einige versuche zu analysieren die Daten der Tabelle als HTML - /XML:

PDF

PDFBox || iText (Java)
Google Docs Importieren
PDF2HTML || PDF2Table

GIF

Tesseract-OCR

Hab ich das beste Ergebnis aus dem Parsen der PDF-Datei mit PDFBox, aber immer noch (wie die Speisekarte wechselt wöchentlich, es ist nicht zuverlässig genug. Die HTML, die ich erhalte, enthält manchmal mehr, manchmal weniger "Absätze" (<p>), so dass ich nicht in der Lage, um die Daten analysieren precice genug.

Deshalb würde ich gerne wissen, ob es einen anderen Weg, es zu tun?

PDF->text ist selten einfach. PDF ist ein Dokument-layout-Sprache, nicht eine markup-Sprache. Je nachdem, wie die pdf-generator, die Stimmung ist an diesem Tag kann es zu generieren völlig verschiedene Dokumente, die jeder Zeit.
Ich sehe. Das einzige, was mich stört ist, dass einige pdf -, xls-Parser arbeiten ziemlich gut. Also warum wird da nicht jeder open-source-Projekte, die auch fähig sind zu analysieren, eine pdf-Tabelle verlässlich?
Wenn Sie Kontakt mit den Menschen, die schreiben in diesem Menü sehen, welches format produziert wird. Sie könnten es schaffen, in einem format, das ist viel einfacher zum extrahieren von text aus.
Das war auch eine option, die ich dachte, aber es gab zwei Probleme mit ihm: 1. Universitäten wie verstecken Ihre Informationen und nur zugänglich machen, wenn Sie wollen und 2. Ich dachte auch zu finden, ein Ansatz wäre einlösbar, mehrere Cafeterien, dann nur die, die ich meinte 😉 ich werde einfach weiter mit meinem "trial and error" Methode!
Post einen link zu einem Beispiel-PDF.

InformationsquelleAutor Vilius | 2012-04-24

10

Tabula ist ein ziemlich guter start auf JRuby web-Schnittstelle für die Extraktion von CSV - /TSV-Tabellen aus beliebigen PDF-Dateien.

Vereinbart ist, die Genauigkeit, die ich bisher gesehen habe, ist hervorragend (es wird erwähnt, dass die Tabellenüberschriften können noch problematisch sein, aber ich habe keine Probleme mit Ihnen, so weit). Ich wünschte nur, es war eine API...
Oh, es ist. Der Motor, die Befugnisse der Tabula ist tabula-extractor, und Sie können es hier herunterladen: github.com/jazzido/tabula-extractor - es ist geschrieben mit jruby, die Sie benötigen, aber die Anweisungen sind klar.
Eine aktualisierte Liste der tools: okfnlabs.org/blog/2016/04/19/...

InformationsquelleAutor thadk
8

Implementierte ich meine eigenen Algorithmus ( sein name ist traprange ) zu analysieren tabellarische Daten in pdf-Dateien.

Folgenden sind einige Beispiel-pdf-Dateien und Ergebnisse:
1. Input-Datei: Beispiel-1.pdf, Ergebnis: sample-1.html
2. Input-Datei: Beispiel-4.pdf, Ergebnis: sample-4.html
Besuchen Sie meine Projekt-Seite bei traprange

oder meine Artikel bei traprange

großartige Arbeit an diesem Projekt! vielleicht möchten erwägen, hinzufügen von Unterstützung für die Grenzen der Analyse zu trennen von Zeilen und Spalten, nicht nur durch die Entfernung

InformationsquelleAutor ThoQ
3

Wenn Sie schauen, um Daten aus Tabellen extrahieren, einmal die Woche und Sie sind auf Windows dann, bitte überprüfen Sie diese freeware-pdf-Dienstprogramm, das enthält automatisierte Tisch-Erkennung und-Tabelle, CSV -, XML-Konvertierung: PDF-Viewer-Dienstprogramm.

Das Dienstprogramm ist kostenlos für kommerzielle und nicht kommerzielle Nutzung für nicht-Entwickler (und da ist die separate version für Entwickler, die automatisieren möchten über API).

Disclaimer: ich arbeite für ByteScout

Die software ist genial aber der Fürst, nicht viel für eine person, wo man dollar 1 ist fast 4. 🙁
pdf utility (PDF-Multitool) ist völlig kostenlos, meinst du PDF Extractor SDK?
Ich habe gerade getestet der option konvertieren in HTML ist dies mit Abstand die beste software dass ich jemals gefunden. Haben Sie gearbeitet an der software? Ich will zu verwenden, extrahieren Sie innerhalb einer software-also ja, ich meine das SDK.
gibt es eine Möglichkeit eine PM an dich?
sicher, Sie können mich per E-Mail an jackj33 bei den google-mail-server

InformationsquelleAutor Eugene M
2

Ich habe versucht, viele der OCR-und-text-Konverter-software, und obwohl ich glaube, einmal sollte schreiben Sie das Programm selbst Konvertierung von PDF zu text als Bild ist besser verstanden von der person, die Durchführung der Aufgabe.

Hatte ich auch versucht, Google und viele andere Online - (über 900 website) und Offline(über 1000 Software -) Produkte von verschiedenen Firmen. Wenn Sie möchten, zu extrahieren text aus einer beliebigen Methode wie OCR oder Text aus PDF -, dann möglichst genaue Programm, das ich gefunden ist PDFTOHTML. Die Genauigkeit rate von PDFTOHTML ist über 98% und Google-Online hat über 94% Genauigkeit. Es ist eine sehr gute software, die auch Ihnen das richtige format für text also Fett, Kursiv usw. der text.

Du hast Recht mit der Fähigkeit, text-Erkennung selbst. PDF2HTML bietet ein ganz gutes Ergebnis, aber es immer noch nicht verarbeiten können Tabellen innerhalb eines pdf-Dokuments - es kann einfach nicht erkennen, seine Existenz. Ich aber war auf der Suche nach einem "Werkzeug", das kann auch erkennen, Tabellen und konvertieren Sie Sie (zusammen mit den Informationen, die in es), um Daten wie HTML oder XML.
Niemand, niemand in der Welt kann extrahieren Sie die ocr/Bild zu html-Tabellen oder andere Sache. Tabellen sind nicht für den Zweck verwendet, der der text angezeigt und wenn die Tabellen haben Grenzen, dann könnte es sein, wäre möglich, aber ziemlich schwierig. Man muss sich um die 2 Dinge, OCR und PDF. Nichts ist unmöglich, aber sehr schwierig. Muss man zuerst extrahieren Sie den text für jede position von text aus ocr und dann markieren Sie Sie als PDF. Versuche zu machen mit PS (ghost-script) auch so viele Druck-Techniken, die Sie verwenden. Ändern Sie Ihre gif-Bild in PS dann erst auf PDF geben könnte, um richtige Antwort

InformationsquelleAutor Vineet1982
0

Sind die Tabellen an der gleichen Stelle jeder Zeit? Wenn du die Abmessungen der einzelnen box, könnten Sie ein tool verwenden, um split PDF-Dokumente in mehrere Dokumente, von denen jedes enthalten ein Feld, nach dem Sie verwenden können, was auch immer Werkzeug, das Sie konvertieren möchten, jedes kleinere PDF zu HTML (wie die erwähnten tools in anderen Antworten). Zufällige Google-Suche nach oben gezogen PyPdf, die sah aus wie es könnten einige nützliche Funktionen.

Wenn Sie nicht in der Lage, hart-code die Größe der box (oder anwenden möchten, das problem, um mehrere Menüs in unterschiedlichen Formaten), die offensichtliche Methode für mich (ich sagte, offensichtlich nicht einfach ist), wäre edge-detection zu finden, wo die Grenze der Tabelle wäre, und wenden Sie dann die Aufteilung, die ich darüber gesprochen, bevor.

Die hardcoded Ansatz ist nicht anwendbar auf meine situation. Da gibt es neue Menüs jede Woche mit der unterschiedlichen Menge der Mahlzeiten, die Struktur der Tabelle ändert sich in der Größe der Zellen der Tabelle... Nach der Lektüre eine Menge mehr Zeug auf und SO Zeug von google, habe ich tatsächlich einen Weg gefunden haben, um zu erkennen, "Daten" in Bildern: Hough-transformation. Es ist noch gar nicht vollständig meine Ansprüche
warum nicht die transformation komplett "fit" [Ihr] Anforderungen"?
Da gibt es verschiedene Arten von Menüs, ich würde wahrscheinlich benötigen, um fest eine Menge Zeug, aber ich will es machen mehr Generika. Also die Hough-Transformation wäre ausreichend, aber nicht effizient genug.

InformationsquelleAutor Ryan Leonard
0

Ich habe vor kurzem lief in ein ähnliches problem.

Einer alternativen Lösung, die ich fand, war das öffnen eines PDF-Dokuments in Adobe und nach xml exportieren. Zumindest nicht mit meinen PDF-Dateien Sie erhalten die Informationen der Tabelle und dann war ich in der Lage, programmgesteuert arbeiten mit dem XML zu erzeugen tabular-Dateien wie excel usw.

Die andere Frage, die ich begegnete, war, dass Adobe können Sie nur exportieren Sie eine Datei zu einem Zeitpunkt, und ich hatte viele Dateien. Zum Glück Adobe hat auch eine merge-Funktion. Ich landete Zusammenführen alle Dateien zusammen, und dann exportieren Sie Sie als eine einzige große XML-Datei und arbeitet mit dieser Datei zu generieren, was, die ich brauchte.

InformationsquelleAutor Shaun Poore
0

Können Sie Camelot zum extrahieren von Tabellen aus PDF-und exportieren, um eine HTML-Datei. CSV -, Excel-und JSON werden auch unterstützt. Sie können sich die Dokumentation unter: http://camelot-py.readthedocs.io. Es liefert genauere Ergebnisse als im Vergleich zu anderen open-source-Tisch-Extraktion-tools und Bibliotheken. Hier ist ein Vergleich.

Können Sie den folgenden Codeausschnitt verwenden, um vorwärts zu gehen mit Ihre Aufgabe:
```
>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')
```
Disclaimer: ich bin der Autor der Bibliothek.

InformationsquelleAutor Vinayak Mehta

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.