Wie kann ich PDF-Dateien Indizieren und die Suche nach keywords?

Was ich habe ist ein Haufen von PDF-Dateien (einige 100). Sie haben keine richtige Struktur, noch haben Sie bestimmte Felder. Alles, was Sie haben, ist viel text.

, Was ich zu tun versuche :

Index der PDF-Dateien und Suche für einige Schlüsselwörter, die gegen den index.
Ich bin daran interessiert, wenn Sie, dass bestimmtes Schlüsselwort wird in der PDF-doc und wenn es ist, ich will die Zeile, wo das Schlüsselwort gefunden wird.
Wenn ich suchte für 'Google' in ein PDF-doc, das hat, Begriff ich möchte sehen, wie 'Google ist eine große Suchmaschine", die die Zeile in der PDF-Datei.

, Wie ich beschloss, das zu tun :

Entweder SOLR oder Schwups aber SOLR wird suchen gute für eingebaute PDF-Unterstützung. Ich bevorzuge code in Python und Sunburst ist ein wrapper auf SOLR, die ich mag.
SOLR-sample/Beispiel-Projekt hat einige Preis-Vergleich Basis-schema-Datei. Jetzt bin ich nicht sicher, ob ich benutzen kann SOLR zu beantworten mein problem.

Was habt Ihr Jungs vor? Jede Eingabe wird sehr geschätzt.

  • Sie schlägt vor, index jedes Dokument von jedem einzelnen Wort oder phrase, die es enthält? Wenn nicht, wie wird Sie generieren eine Liste von keywords?
  • Ich habe eine Liste von keywords, die tatsächlich. Ich möchte indizieren Sie alle Inhalte im PDF und führen Sie dann eine Suche in diesem index mit meinen keywords.
InformationsquelleAutor ThinkCode | 2011-07-25
Schreibe einen Kommentar