Gewusst wie: extrahieren/erkennen von text aus Dokumenten?

Muss ich extrahieren einfachen text aus hochgeladenen Dokumente, um Sie durchsuchbar zu gestalten. Dokumente MS-Word-oder pdf-Format (entweder gescannt oder mit text). Die Applikation läuft auf einem LAMP-stack, aber die Installation anderer software eine option sein könnte. Gibt es irgendein tool, service, Bibliothek oder einer Kombination von diesen, dass Sie empfehlen könnte, diese Aufgabe zu erfüllen?

Für gescannte Dokumente, die ich denke, Sie brauchen ein bisschen von OCR
Extrahieren von text aus alt-Stil .doc-Dateien ist eine schwere Schmerzen. Sie sind nicht gedacht, um einfach HIERFÜR gültigen. .docx ist etwas leichter, als Sie sind, nur RV .xml-Dateien für die meisten Teil.
Ich weiß. Ich nicht zu erwähnen ausdrücklich, weil ich annahm, es war offensichtlich.

InformationsquelleAutor Maarten | 2011-12-22

4

Können Sie eine Kombination von shell-utilities wie pdftotext für PDF-Dateien, wvWare für DOCs, docx2txt.pl für DOCX ist, wie die textractor rubygem tut.
```
# on Ubuntu
apt-get install wv xpdf-utils links
```
Gibt es auch native php-Klassen für das extrahieren PDF und docx.

Anderen rubygem, die sogar OCR für Sie, obwohl Tesseract, ist docsplit.

Könnte es eine gute Idee zu prüfen, Solr für die Indizierung und Suche. Sie können die Solr Cell plugin zum indizieren und durchsuchen von Word-Dokumenten, PDF-Dateien und mehr. Ich verwende es erfolgreich in eins meiner Projekte. Solr Cell basiert auf mehreren Projekten wie Apache POI, Tika und PDFBox.

Der schwierige Teil ist, um alle Zell-abhängigen jars und solr-schema, und um herauszufinden, die Indizierung request-Parameter, sondern alles gedacht werden kann, aus der wiki Dokumentation. Hier meine Gläser und schema, um Ihnen den Einstieg, den relevanten Teil des Schemas ist die Zeile mit "Anlage".

Solr Zelle nicht tun, OCR, obwohl. Müssen Sie eine OCR-Engine zuerst, Sie durchsuchbar zu machen.

Für OCR können Sie die OpenSource-Engine Tesseract, welches von Google entwickelt oder wollen Sie vielleicht einen Blick auf die kommerziellen engine Abbyy. Beide kommen als Kommandozeilen-utils, die Sie ausführen können Ihre php-Skripte. Um die vergleichbare Ergebnisse Tesseract als von Abbyy, Sie haben zu tun, einige vor - und Nachbearbeitung Eins. Es gibt auch cloud-Dienste, die möglicherweise eine einfachere Möglichkeit. Zum Beispiel, Wisetrend und Abbyy Cloud. Letzteres ist in der beta im moment, so es ist kostenlos und es hat " ready-to-go PHP-code-Beispiele.
- Tut Solr Zelle mit OCR zu extrahieren von text aus gescannten PDF-Dateien?
- Ich bin mir nicht sicher, aber ich glaube nicht. Ich glaube, dass die OCR-sollte getan werden, weiter oben in der pipeline, und ich habe gehört, dass tesseract ist ein großes freies Werkzeug zu tun mit.
- Dann ist es gerade gewonnen ' T Arbeit für Sie gescannte PDF ist. Sollten Sie erst konvertiert werden, um durchsuchbare PDF-Dateien (mit zusätzlichen text-layer) durch eine OCR-software.
- Danke! Ihre Antwort war prolly die meisten hilfsbereit. Ich merke, die Frage war ein wenig breit, so dass es nicht wirklich eine definitive Antwort. Ich bearbeitete einige Infos über OCR, und machte es eine Antwort wiki, so dass andere Personen beitragen kann, die Dinge als gut.
InformationsquelleAutor clyfe
3

Soweit ich bin besorgt, es gibt nicht viel Sie tun können, mit OCR auf PHP. Die beste Lösung wäre die Verwendung eines cloud-service - ein web-api, mit der Sie ein Bild hochladen und senden Sie Sie zurück, ein OCR-Daten. Versuchen http://www.ocrsdk.com, es ist eine cloud-basierte OCR-SDK vor kurzem von ABBYY. Es ist jetzt in der beta also ist es völlig kostenlos zu benutzen und es hat " ready-to-go PHP-code-Beispiele. Disclamer: ich arbeite @ ABBYY
- Interessant! Da dies nur Teil der Lösung, obwohl, bearbeitete ich die andere Antwort statt (edit ist noch ausstehend). Ich hoffe Ihr verzeiht mir.
InformationsquelleAutor Nikolay
0

Ich kenne keine software, die konvertiert PDF zu text, aber für die MS-Word-Teil, können Sie die Apache POI: http://poi.apache.org/ das ist in JAVA so müssten Sie zum ausführen der Binärdatei aus Ihrer PHP-Datei, damit es funktioniert.

Weitere option ist die Verwendung der JODConverter (die ich derzeit benutze für diesen Zweck) http://code.google.com/p/jodconverter/
Also wenn der Apache POI funktioniert nicht, ich kenne den jodconverter tut. Ich bin mit der 3.0 beta.

In meinem PHP-code, ich bin speichern die Datei hochladen und ausführen der converter binary auf die Datei im tmp-Verzeichnis, erstellen Sie eine neue Datei in das tmp-Verzeichnis und ziehe ich den plain-text aus der neuen Datei.
- Hinweis: es ist vielleicht effizienter, eine Eingabe die Datei über stdin, so dass Sie nicht haben, um es zu speichern auf der Festplatte zuerst. Wenn das uitility in Frage, nicht eine cli-Schalter für diese, können Sie /dev/stdin unter Linux.
InformationsquelleAutor Francis Lewis

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.