Extrahieren Sie Tabelle aus einer PDF-Datei

Ich versuche, zu extrahieren, eine Tabelle aus einer pdf - Dokument

Ich habe versucht, die route von pdf -> html> Extrakt-Tabelle. Die pdf-Datei, die ich oben erwähnt, werden bei der Konvertierung nach html produziert Müll, vielleicht auch wegen der Schrift, das Dokument nicht in Englisch.

Extrahieren der pdf-Datei mithilfe von x-und y-Koordinate ist keine option, da diese Lösung muss für die Zukunft pdf aus der url, die oben erwähnt wird die Tabelle aber nicht immer in der gleichen position.

Bitte helfen,

Vielen Dank im Voraus.

  • Das PDF enthält keine ausdrücklichen Tabelle Daten. Es enthält nur Zeilen-und Zeichen-Glyphen, die wir neigen dazu, zu interpretieren als Tabellen. Damit Ihre Aufgabe besteht darin, unseren human table recognition Funktionen in den code, das ist schon eine Aufgabe.
  • also kurz, wenn Ihr nicht ein do or die situation, dass ich besser bin, nicht darüber nachzudenken Analyse dieses pdf? 🙂
  • Ich hab sowas schon mal mit PDFMiner. Das können Sie im Grunde Holen Sie sich einen Strom von Objekten zusammen mit Ihren x-und y-Positionen, und gruppieren Sie Sie dann von oben nach unten, von Links nach rechts (für Englisch zumindest), dann machen einige intelligente Vermutungen darüber, wo die Zellen Ende auf der Grundlage Ihrer Kenntnisse des Kontextes. Es ist schmerzhaft und bei jedem PDF-Dokument ist anders. Wenn Sie nicht haben, um zu analysieren es nicht. Wie Häufig wird dieses veröffentlicht?
InformationsquelleAutor meadhikari | 2013-07-11
Schreibe einen Kommentar