Extrahieren von text aus PDF-Datei(ich habe den link zum PDF) in ruby

Habe ich einen link, wie

      http://www.downloads.com/help.pdf

Ich wollen laden Sie diese, und analysieren Sie diese, um die text-Inhalte.

Wie mache ich das? Ich Plane auch tag-ize(wenn es ein Wort wie das) den extrahierten text

InformationsquelleAutor theReverseFlick | 2011-02-05

pdf ruby

15

Können Sie entweder den pdf-reader gem (im Beispiel/text.rb Beispiel einfach und für mich gearbeitet): https://github.com/yob/pdf-reader

Oder das Befehlszeilen-Dienstprogramm " pdftotext.

Ist es wie ein gutes tutorial Art der Sache? Ich bin neu in ruby aber nur das kopieren der Beispiel-code fühlt sich schlecht für mich
Ich würde nicht sagen, dass die Anpassung der Ihr Beispiel ist eine schlechte Sache. Hier ist ein tutorial aber das kann Sie interessieren, und erklärt die Begriffe ein wenig: pullmonkey.com/2010/01/18/ruby-pdf-reader-gem-tutorial

InformationsquelleAutor seeingidog
3

Den Yomu gem werden auch in der Lage extrahieren von text aus einem PDF-Dokument (wie auch andere MIME-Typen) für Sie.
```
require 'yomu'
Yomu.new(file_path).text
```
Er fragt nach Java.
Ich habe versucht, ein paar Edelsteine und fand das Genaueste.

InformationsquelleAutor diasks2
0

Können Sie auch einen Blick auf DocRipper, ein Juwel ich behaupte, dass stellt eine Ruby-Schnittstelle für die text-Extraktion aus einer Reihe von Dokument-Formate, einschließlich PDF, doc, docx und Skizze.

DocRipper verwendet pdftotext unter der Haube und vermeidet Java-Abhängigkeiten.
```
require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"
```
Lesen Sie remote-Dateien mit der Ruby standard library:
```
require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)
```
Hi. Könnten Sie bitte lassen Sie uns wissen, die syntax für die Verwendung docripper mit link zu den Datei-Pfad und nicht als lokale Datei-Pfad?
Beziehen Sie sich auf eine remote-Datei-Pfad?
ja!!! Ich bin mit amazon s3-Speicher, so dass ich nur die links zu den Dateien.
Ich habe ein Beispiel, wie Sie möglicherweise die Interaktion mit einem remote-Pfad. Sie müssen die Datei schreiben auf die Festplatte in irgendeiner Weise, so dass DocRipper können, kratzen Sie das Dokument.

InformationsquelleAutor Paul

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.