Extrahieren Sie Tabelle aus einer PDF-Datei

Ich versuche, zu extrahieren, eine Tabelle aus einer pdf - Dokument

Ich habe versucht, die route von pdf -> html> Extrakt-Tabelle. Die pdf-Datei, die ich oben erwähnt, werden bei der Konvertierung nach html produziert Müll, vielleicht auch wegen der Schrift, das Dokument nicht in Englisch.

Extrahieren der pdf-Datei mithilfe von x-und y-Koordinate ist keine option, da diese Lösung muss für die Zukunft pdf aus der url, die oben erwähnt wird die Tabelle aber nicht immer in der gleichen position.

Bitte helfen,

Vielen Dank im Voraus.

Das PDF enthält keine ausdrücklichen Tabelle Daten. Es enthält nur Zeilen-und Zeichen-Glyphen, die wir neigen dazu, zu interpretieren als Tabellen. Damit Ihre Aufgabe besteht darin, unseren human table recognition Funktionen in den code, das ist schon eine Aufgabe.
also kurz, wenn Ihr nicht ein do or die situation, dass ich besser bin, nicht darüber nachzudenken Analyse dieses pdf? 🙂
Ich hab sowas schon mal mit PDFMiner. Das können Sie im Grunde Holen Sie sich einen Strom von Objekten zusammen mit Ihren x-und y-Positionen, und gruppieren Sie Sie dann von oben nach unten, von Links nach rechts (für Englisch zumindest), dann machen einige intelligente Vermutungen darüber, wo die Zellen Ende auf der Grundlage Ihrer Kenntnisse des Kontextes. Es ist schmerzhaft und bei jedem PDF-Dokument ist anders. Wenn Sie nicht haben, um zu analysieren es nicht. Wie Häufig wird dieses veröffentlicht?

InformationsquelleAutor meadhikari | 2013-07-11

5

Die PDF-Datei enthält keine ausdrücklichen Tabelle Daten. Es enthält nur Zeilen-und Zeichen-Glyphen, die wir neigen dazu, zu interpretieren als Tabellen. Damit Ihre Aufgabe besteht darin, unseren human table recognition Funktionen in den code, das ist schon eine Aufgabe.

Generell, wenn Sie sicher sind, dass genügend zukünftige PDF-Dokumente generiert werden, die von der gleichen software in einer sehr ähnlichen Art und Weise, es könnte werden lohnt sich die Zeit zum untersuchen der Datei für einige einfach zu Folgen, Hinweise zu erkennen, die Inhalte der einzelnen Felder.

Ihre spezifischen Dokument, obwohl, hat sich eine zusätzliche Schwierigkeit: Es enthält nicht die erforderlichen Informationen für die direkte text-Extraktion! Sie können versuchen, kopieren & einfügen von Adobe Reader und Sie erhalten (zumindest ich) semi-zufällige Zeichen aus dem WinAnsi-Bereich.

Dies ist aufgrund der Tatsache, dass alle Schriftarten in das Dokument behaupten, dass Sie verwenden WinAnsiEncoding auch wenn die Charaktere verwiesen wird auf diese Weise definitiv nicht von der WinAnsi-Zeichen Auswahl.

Damit die zuverlässige extrahieren von text aus Ihrem Dokument ohne OCR unmöglich ist, nachdem alle!

(Versucht copy&paste aus Adobe-Reader in der Regel ist ein guter Erster test, ob der text-Extraktion ist möglich, und der text-Extraktions-Methoden der Leser entwickelt worden für viele, viele Jahre und haben daher inzwischen Recht gut. Wenn Sie nicht extrahieren kann etwas vernünftiges mit dem Acrobat Reader, text-Extraktion wird eine sehr schwierige Aufgabe in der Tat.)
- Können Sie mir einige Richtung will ich gehen, durch die OCR-route?
- Leider Nein, ich habe noch nicht hatte, zu greifen, zu OCR-mich noch.
- Ich versuche in Angriff zu nehmen als gut. Interessante Sache stieß ich auf: ich parse ein PDF-Dokument, das klar aussieht, es war erzeugt von dem html/word-Dokument in pdf. Wenn ich exportieren Sie es aus Acrobat Pro Word-Dokument die Formatierung der Tabelle ist zu 100% richtig in der Ausgabe .docx - Datei. Meine Frage ist, dass, wenn die Formatierung ist nicht da, wie kann Acrobat eine perfekte Extraktion der Tabelle?
- die Beispiel-Datei präsentiert von der original-poster nicht enthalten die erforderlichen Informationen für die direkte text-Extraktion, aber die Datei kann auch enthalten es... b Acrobat hat ein OCR-Modul und tun könnten, anwenden, OCR, wenn nötig... c wie genau acrobat extrahiert Informations-Struktur, ist nicht klar. Vielleicht ist das PDF enthält zusätzliche tags, wahrscheinlich acrobat weiß, wie das Programm erstellt Ihr PDF rendert Tabellen, wahrscheinlich gilt es für generische künstliche Intelligenz, zu erkennen, Tabellen...
InformationsquelleAutor mkl
2

Könnten Sie Tabula:
http://tabula.nerdpower.org
Es ist kostenlos und irgendwie einfach zu bedienen
- Haben Sie versucht, Tabula auf der Dokument zur Verfügung gestellt von der OP? Wie ich bereits in meiner Antwort das Dokument nicht enthalten die erforderlichen Informationen für die direkte extrahieren von text, d.h. der text-Extraktion mit codierten Informationen in der PDF-syntax und Tabula setzt auf PDFBox für die text-Extraktion, die nur diese Daten nutzt. Also, ich bezweifle, Tabula helfen Sie jetzt hier.
- Nach Ihrem Kommentar, ich habe tabula extrahieren 1. Tabelle Daten als csv-Datei. Es scheint zu funktionieren, obwohl der text geändert wird (wegen enconding glaube ich). Dennoch, ich nicht denke, dass ich das technische wissen, um einen erweiterten Antwort.
- Gut, der text ist höchstwahrscheinlich geändert, da das Dokument findet die Informationen für die gerade vorwärts-text-Extraktion und-Annahmen, die im Ort von diesen Informationen sind wahrscheinlich falsch.
- Jaaaaa! Tabula ist besser und besser jede Woche... 🙂
InformationsquelleAutor panchtox
0

Ist eine option, um pdf-Tabelle-Auszug: https://github.com/ashima/pdf-table-extract.

InformationsquelleAutor amergin

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.