Extrahieren Sie Tabelle aus einer PDF-Datei
Ich versuche, zu extrahieren, eine Tabelle aus einer pdf - Dokument
Ich habe versucht, die route von pdf -> html> Extrakt-Tabelle. Die pdf-Datei, die ich oben erwähnt, werden bei der Konvertierung nach html produziert Müll, vielleicht auch wegen der Schrift, das Dokument nicht in Englisch.
Extrahieren der pdf-Datei mithilfe von x-und y-Koordinate ist keine option, da diese Lösung muss für die Zukunft pdf aus der url, die oben erwähnt wird die Tabelle aber nicht immer in der gleichen position.
Bitte helfen,
Vielen Dank im Voraus.
- Das PDF enthält keine ausdrücklichen Tabelle Daten. Es enthält nur Zeilen-und Zeichen-Glyphen, die wir neigen dazu, zu interpretieren als Tabellen. Damit Ihre Aufgabe besteht darin, unseren human table recognition Funktionen in den code, das ist schon eine Aufgabe.
- also kurz, wenn Ihr nicht ein do or die situation, dass ich besser bin, nicht darüber nachzudenken Analyse dieses pdf? 🙂
- Ich hab sowas schon mal mit PDFMiner. Das können Sie im Grunde Holen Sie sich einen Strom von Objekten zusammen mit Ihren x-und y-Positionen, und gruppieren Sie Sie dann von oben nach unten, von Links nach rechts (für Englisch zumindest), dann machen einige intelligente Vermutungen darüber, wo die Zellen Ende auf der Grundlage Ihrer Kenntnisse des Kontextes. Es ist schmerzhaft und bei jedem PDF-Dokument ist anders. Wenn Sie nicht haben, um zu analysieren es nicht. Wie Häufig wird dieses veröffentlicht?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Die PDF-Datei enthält keine ausdrücklichen Tabelle Daten. Es enthält nur Zeilen-und Zeichen-Glyphen, die wir neigen dazu, zu interpretieren als Tabellen. Damit Ihre Aufgabe besteht darin, unseren human table recognition Funktionen in den code, das ist schon eine Aufgabe.
Generell, wenn Sie sicher sind, dass genügend zukünftige PDF-Dokumente generiert werden, die von der gleichen software in einer sehr ähnlichen Art und Weise, es könnte werden lohnt sich die Zeit zum untersuchen der Datei für einige einfach zu Folgen, Hinweise zu erkennen, die Inhalte der einzelnen Felder.
Ihre spezifischen Dokument, obwohl, hat sich eine zusätzliche Schwierigkeit: Es enthält nicht die erforderlichen Informationen für die direkte text-Extraktion! Sie können versuchen, kopieren & einfügen von Adobe Reader und Sie erhalten (zumindest ich) semi-zufällige Zeichen aus dem WinAnsi-Bereich.
Dies ist aufgrund der Tatsache, dass alle Schriftarten in das Dokument behaupten, dass Sie verwenden WinAnsiEncoding auch wenn die Charaktere verwiesen wird auf diese Weise definitiv nicht von der WinAnsi-Zeichen Auswahl.
Damit die zuverlässige extrahieren von text aus Ihrem Dokument ohne OCR unmöglich ist, nachdem alle!
(Versucht copy&paste aus Adobe-Reader in der Regel ist ein guter Erster test, ob der text-Extraktion ist möglich, und der text-Extraktions-Methoden der Leser entwickelt worden für viele, viele Jahre und haben daher inzwischen Recht gut. Wenn Sie nicht extrahieren kann etwas vernünftiges mit dem Acrobat Reader, text-Extraktion wird eine sehr schwierige Aufgabe in der Tat.)
.docx
- Datei. Meine Frage ist, dass, wenn die Formatierung ist nicht da, wie kann Acrobat eine perfekte Extraktion der Tabelle?Könnten Sie Tabula:
http://tabula.nerdpower.org
Es ist kostenlos und irgendwie einfach zu bedienen
Ist eine option, um pdf-Tabelle-Auszug: https://github.com/ashima/pdf-table-extract.