Gewusst wie: extrahieren/erkennen von text aus Dokumenten?

Muss ich extrahieren einfachen text aus hochgeladenen Dokumente, um Sie durchsuchbar zu gestalten. Dokumente MS-Word-oder pdf-Format (entweder gescannt oder mit text). Die Applikation läuft auf einem LAMP-stack, aber die Installation anderer software eine option sein könnte. Gibt es irgendein tool, service, Bibliothek oder einer Kombination von diesen, dass Sie empfehlen könnte, diese Aufgabe zu erfüllen?

  • Für gescannte Dokumente, die ich denke, Sie brauchen ein bisschen von OCR
  • Extrahieren von text aus alt-Stil .doc-Dateien ist eine schwere Schmerzen. Sie sind nicht gedacht, um einfach HIERFÜR gültigen. .docx ist etwas leichter, als Sie sind, nur RV .xml-Dateien für die meisten Teil.
  • Ich weiß. Ich nicht zu erwähnen ausdrücklich, weil ich annahm, es war offensichtlich.
InformationsquelleAutor Maarten | 2011-12-22
Schreibe einen Kommentar