Tag: pdf-parsing
Beschäftigt sich mit dem extrahieren von nützlichen Informationen aus den PDF-Inhalt (zum Beispiel text oder Bilder)
3
Antworten
Ich versuche, zu extrahieren, eine Tabelle aus einer pdf - Dokument Ich habe versucht, die route von pdf -> html> Extrakt-Tabelle. Die pdf-Datei, die ich oben erwähnt, werden bei der Konvertierung nach html produziert Müll, vielleicht auch
2
Antworten
Habe ich zum analysieren von PDF-Dateien werden in HDFS in eine Karte Reduzieren Programm in Hadoop. So bekomme ich die PDF-Datei aus dem HDFS als Input splits und es muss analysiert werden und an die Mapper-Klasse. Für
1
Antworten
Entwickeln wir eine Pdf-parser verwendet werden, zusammen mit unserem system. Die Vorschrift ist so, dass wir speichern alle Informationen, die auf alle pdf-Dokumente und sollten in der Lage sein zu reproduzieren, das Dokument als solches (mit minimalen
6
Antworten
Ich bin auf der Suche für eine schnelle und zuverlässige Möglichkeit für das Lesen/analysieren von großen PDF-Dateien, die in Ruby (unter Linux und OSX). Ich bis jetzt gefunden habe, die eher alt und einfach PDF-toolkit (a pdftotext-wrapper)
1
Antworten
Ich habe einen Stapel von PDF-Dateien - möglicherweise Hunderte oder Tausende. Sie sind nicht alle gleich formatiert, aber jeder von Ihnen KANN eine oder mehrere Tabellen mit interessanten Informationen, die ich sammeln gern in einer separaten Datenbank.