Was ist der Unterschied zwischen einer phrase, die Abfrage und mit einem Kies-filter?

Ich bin derzeit Indizierung Webseite mit lucene. Das Ziel ist es, in der Lage sein, schnell zu extrahieren, die Seite enthalten, einen bestimmten Ausdruck (in der Regel 1, 2 oder 3 Wörter), und die anderen Wörter (oder eine Gruppe von 1 bis 3), sind auch in der Seite.
Dies wird verwendet, um zu bauen /bereichern /verändern eines thesaurus (festes Vokabular).

Aus den Artikeln, die ich gefunden, es scheint das problem zu finden n-Gramm (oder Kies).

Lucene hat eine ShingleFilter, ein ShingleMatrixFilter, und ein ShingleAnalyzerWrapper, die scheinen im Zusammenhang mit dieser Aufgabe.

Aus diesem Präsentation, habe ich gelernt, dass Lucene können die Suche auch nach Begriffen, getrennt durch eine Feste Anzahl von Wörtern (genannt slops). Ein Beispiel hier.

Allerdings verstehe ich nicht ganz klar der Unterschied zwischen diesen Ansatz? Sind Sie grundlegend Verschieden sind, oder ist es eine performance - /index-Größe Wahl, die Sie treffen müssen?

Was ist der Unterschied zwischen ShingleMatrixFilter und ShingleFilter?

Hoffen, dass ein Lucene-guru FINDE diese Frage und Antwort 😉 !

InformationsquelleAutor blackbox | 2011-12-20
Schreibe einen Kommentar