Wie kann ich PDF-Dateien Indizieren und die Suche nach keywords?

Was ich habe ist ein Haufen von PDF-Dateien (einige 100). Sie haben keine richtige Struktur, noch haben Sie bestimmte Felder. Alles, was Sie haben, ist viel text.

, Was ich zu tun versuche :

Index der PDF-Dateien und Suche für einige Schlüsselwörter, die gegen den index.
Ich bin daran interessiert, wenn Sie, dass bestimmtes Schlüsselwort wird in der PDF-doc und wenn es ist, ich will die Zeile, wo das Schlüsselwort gefunden wird.
Wenn ich suchte für 'Google' in ein PDF-doc, das hat, Begriff ich möchte sehen, wie 'Google ist eine große Suchmaschine", die die Zeile in der PDF-Datei.

, Wie ich beschloss, das zu tun :

Entweder SOLR oder Schwups aber SOLR wird suchen gute für eingebaute PDF-Unterstützung. Ich bevorzuge code in Python und Sunburst ist ein wrapper auf SOLR, die ich mag.
SOLR-sample/Beispiel-Projekt hat einige Preis-Vergleich Basis-schema-Datei. Jetzt bin ich nicht sicher, ob ich benutzen kann SOLR zu beantworten mein problem.

Was habt Ihr Jungs vor? Jede Eingabe wird sehr geschätzt.

Sie schlägt vor, index jedes Dokument von jedem einzelnen Wort oder phrase, die es enthält? Wenn nicht, wie wird Sie generieren eine Liste von keywords?
Ich habe eine Liste von keywords, die tatsächlich. Ich möchte indizieren Sie alle Inhalte im PDF und führen Sie dann eine Suche in diesem index mit meinen keywords.

InformationsquelleAutor ThinkCode | 2011-07-25

5

Ich denke, dass Solr die Ihren Bedürfnissen passt.

Den "Hervorheben" - Funktion ist, was Sie suchen.. Für die, die Sie haben, zu indizieren und zur Speicherung der Dokumente in den lucene-index.

Die Markierfunktion gibt einen Schnitt, wo der gesuchte text markiert ist.

Schau mal hier: http://wiki.apache.org/solr/HighlightingParameters
- Wie kann ich Sie aktivieren/display 'Hervorhebung' in die Suchergebnisse in der Standard-Vorlage? Jetzt sehe ich nur XML (Autor, content_type, id, zuletzt geändert und Titel). Danke!
- Hervorhebung nedds die TermVecors wiki.apache.org/solr/TermVectorComponent so dass Sie auf index neu Hexe aktiviert TermVectorComponent
- Vielen vielen Dank, es zeigt nun den text aus der PDF-Datei. Ich copyField ' ed text in einem Textfeld 'text'. Wenn ich jetzt Suche, ist es mit all den text, während ich nur die Zeile von 'text', die den passenden string. Meine schema-Datei : pastebin.com/Cp1CsZ9Z
InformationsquelleAutor The Bndr
4

Anderen offline - /standalone-Lösung:
- https://github.com/WolfgangFahl/pdfindexer
  Es nutzt PDFBox und Apache Lucene und erstellt eine HTML-index-Datei mit links zu den Seiten in der PDF-Datei für jedes keyword gefunden.
InformationsquelleAutor Wolfgang Fahl
2

Ich einmal lösten dieses Problem durch die Umwandlung der PDF-Dateien in text-utilities wie pdftotext (pdftohtml würde auch funktionieren denke ich mal), die Generierung einer 'cache' von einigen Arten. Dann mit einigen grep suchte ich in der text-Datei-cache für die keywords.

Dies ist etwas anders von Ihr vorgeschlagenen Lösung, aber ich kann mir vorstellen, dieses rufen Sie aus Python als gut.
- Dank Tim. Ihre Lösung war mein Erster Ansatz bis ich gefunden SOLR. SOLR hat dies auf die Nachfrage und viel schneller. Einfach Fragen, wenn SOLR verwendet werden kann, in meinem Zusammenhang, und ich denke, ich kann!
- ok das klingt gut 🙂 Vielleicht ist dieses "offline" - Lösung könnte nützlich sein, für jemand anderes dies Lesen...
InformationsquelleAutor Tim

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.