Extrahieren von text aus PDF-Datei(ich habe den link zum PDF) in ruby
Habe ich einen link, wie
http://www.downloads.com/help.pdf
Ich wollen laden Sie diese, und analysieren Sie diese, um die text-Inhalte.
Wie mache ich das? Ich Plane auch tag-ize(wenn es ein Wort wie das) den extrahierten text
InformationsquelleAutor theReverseFlick | 2011-02-05
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie entweder den pdf-reader gem (im Beispiel/text.rb Beispiel einfach und für mich gearbeitet): https://github.com/yob/pdf-reader
Oder das Befehlszeilen-Dienstprogramm " pdftotext.
Ich würde nicht sagen, dass die Anpassung der Ihr Beispiel ist eine schlechte Sache. Hier ist ein tutorial aber das kann Sie interessieren, und erklärt die Begriffe ein wenig: pullmonkey.com/2010/01/18/ruby-pdf-reader-gem-tutorial
InformationsquelleAutor seeingidog
Den Yomu gem werden auch in der Lage extrahieren von text aus einem PDF-Dokument (wie auch andere MIME-Typen) für Sie.
Ich habe versucht, ein paar Edelsteine und fand das Genaueste.
InformationsquelleAutor diasks2
Können Sie auch einen Blick auf DocRipper, ein Juwel ich behaupte, dass stellt eine Ruby-Schnittstelle für die text-Extraktion aus einer Reihe von Dokument-Formate, einschließlich PDF, doc, docx und Skizze.
DocRipper verwendet pdftotext unter der Haube und vermeidet Java-Abhängigkeiten.
Lesen Sie remote-Dateien mit der Ruby standard library:
Beziehen Sie sich auf eine remote-Datei-Pfad?
ja!!! Ich bin mit amazon s3-Speicher, so dass ich nur die links zu den Dateien.
Ich habe ein Beispiel, wie Sie möglicherweise die Interaktion mit einem remote-Pfad. Sie müssen die Datei schreiben auf die Festplatte in irgendeiner Weise, so dass DocRipper können, kratzen Sie das Dokument.
InformationsquelleAutor Paul