Tag: pdf-parsing

Beschäftigt sich mit dem extrahieren von nützlichen Informationen aus den PDF-Inhalt (zum Beispiel text oder Bilder)

Extrahieren Sie Tabelle aus einer PDF-Datei

Anzahl der Antworten 3 Antworten
Ich versuche, zu extrahieren, eine Tabelle aus einer pdf - Dokument Ich habe versucht, die route von pdf -> html> Extrakt-Tabelle. Die pdf-Datei, die ich oben erwähnt, werden bei der Konvertierung nach html produziert Müll, vielleicht auch

Parsen von PDF-Dateien im Hadoop-Karte Reduzieren

Anzahl der Antworten 2 Antworten
Habe ich zum analysieren von PDF-Dateien werden in HDFS in eine Karte Reduzieren Programm in Hadoop. So bekomme ich die PDF-Datei aus dem HDFS als Input splits und es muss analysiert werden und an die Mapper-Klasse. Für

Unterschied zwischen iTextSharp 4.1.6 und 5.x-Versionen

Anzahl der Antworten 1 Antworten
Entwickeln wir eine Pdf-parser verwendet werden, zusammen mit unserem system. Die Vorschrift ist so, dass wir speichern alle Informationen, die auf alle pdf-Dokumente und sollten in der Lage sein zu reproduzieren, das Dokument als solches (mit minimalen

Ruby: Lesen von PDF-Dateien

Anzahl der Antworten 6 Antworten
Ich bin auf der Suche für eine schnelle und zuverlässige Möglichkeit für das Lesen/analysieren von großen PDF-Dateien, die in Ruby (unter Linux und OSX). Ich bis jetzt gefunden habe, die eher alt und einfach PDF-toolkit (a pdftotext-wrapper)

Extrahieren von Tabelleninhalten aus einer Sammlung von PDF-Dateien

Anzahl der Antworten 1 Antworten
Ich habe einen Stapel von PDF-Dateien - möglicherweise Hunderte oder Tausende. Sie sind nicht alle gleich formatiert, aber jeder von Ihnen KANN eine oder mehrere Tabellen mit interessanten Informationen, die ich sammeln gern in einer separaten Datenbank.