Suche nach Schlüsselwörtern in Word-Dokumente und index-Ihnen
Ich bin auf der Suche nach einem Weg zu suchen, in Word-Dokumenten, und zeigen ein Ergebnis von Dokumenten, der auf der Suche nach Kriterien. Ich werde versuchen zu beschreiben, das Szenario im detail hier.
Auf einem Windows-system habe ich einen Haufen Ordner. Jeder Ordner hat eine Menge von Word-Dokumenten. Jetzt brauche ich eine Anwendung, die die Suche in einem bestimmten Ordner für keywords, die möglicherweise auftreten, in denen word-Dokumente. So etwas wie die FULLTEXT suchen, die MySQL hat.
Also wenn ich Suche nach folgenden keywords: microsoft, windows XP
dann will ich es auf die Liste jedes Word-Dokument enthält ein oder mehrere dieser keywords.
Natürlich, je mehr diese keywords erscheinen ein Dokument, desto höher ist Ihr Rang sollte in der resultierenden Liste.
Nun meine Frage, gibt es so ein tool gibt, das genau das tut dieser? Oder bin ich besser schreiben, so ein tool selber in C#.NET? Wenn ja, an welche API muss ich suchen?
PS. Sie sind .doc
und .docx
- Dateien.
InformationsquelleAutor Vivendi | 2012-08-21
Du musst angemeldet sein, um einen Kommentar abzugeben.
Sieht aus wie Sie einen ausgewachsenen Suchmaschine zu mir, einschließlich der Analyse, Indizierung, ranking, search, etc. Wohl nicht sehr angenehm, um es selbst implementieren... Sie konnte einen Blick auf Apache Lucene.
InformationsquelleAutor Tudor
Gibt es ein tool unter die Nase. Es ist die Windows-Suche und es hat eine API, das sollte erfüllen Ihre Bedürfnisse perfekt.
Müssen Sie möglicherweise installieren Sie die filter packs, um Office-spezifische Indexierung, wenn Sie nicht über Office installiert ist.
InformationsquelleAutor Tim Rogers
Indizierung ist nur mit Windows und kann sich mit Word-Dokumenten :
Wenn Sie wollen, bauen Sie Ihren eigenen index, den Sie verwenden können IFilter extrahiert text aus Dokumenten : Wie zum extrahieren von text aus MS office-Dokumenten in C#
Aufbau einer Funktion, die bereits Teil des Betriebssystems ist selten eine gute Idee. Tut Lucene extrahieren von text aus doc-und docx-Dateien ?
Nein, müssen Sie verwenden eine externe Bibliothek zum extrahieren von text, aber es ist besser als kämpfen IFilter Fremdheit. Wir verwendet, Index Server seit Jahren und es ist dumm. Die größten Probleme sind die Bereitstellung (Installation von PDF IFilter und andere, die Tatsache, dass die Benutzer wechseln können, suchen ab für die performance) und der schlechten Qualität suchen. Es ist wirklich eine sehr alte Technologie, die wir versuchen unter allen Umständen zu vermeiden nun.
Also nur eine Frage über Lucene. Sie sagen, dass es nicht extrahieren von text aus doc-und docx-Dateien. Aber es kann Lesen, Suche (und Rang) durch doc-Dateien richtig? Ich weiß nicht wirklich brauchen, zu extrahieren text aus dem doc-Dateien. Alles, was ich zu tun ist, Suche durch die Sie für bestimmte Schlüsselwörter und ordnen Sie Sie.
InformationsquelleAutor Guillaume