Unterschied zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory
Ich bin neu auf Solr. Durch das Lesen Solr wiki, ich verstehe nicht die Unterschiede zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory. Was ist Ihr Unterschied?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Unterscheiden Sie sich in, wie Sie teilen sich die analysierten text in Token.
Den StandardTokenizer tut dies auf der Grundlage der folgenden (aus-lucene-javadoc):
Allerdings, ein Punkt, der nicht gefolgt von whitespace-Zeichen als Teil
ein token.
token, in welchem Fall das gesamte token interpretiert wird, als ein Produkt
Zahl und ist nicht gespalten.
Hostnamen als ein token.
Den WhitespaceTokenizer tut dies basierend auf whitespace-Zeichen:
Einen WhitespaceTokenizer ist ein tokenizer teilt, dass der text bei Leerzeichen. Benachbarte Sequenzen von nicht-Whitespace-Zeichen form Token.
Sollten Sie wählen die tokenisierung, die am besten Ihre Anwendung. In jedem Fall müssen Sie auf die gleiche analyzer/tokenizer für die Indizierung und Suche!
@
ist in der Menge der token-splitting Satzzeichen, sowie Bindestriche und "dot/Ziffer-Kombinationen", so E-Mail-Adressen sind nicht erhalten, als einzelne Token, und die Eingänge wie :my-domain2.com
ist einfach nur gesplittet so :my
,domain2
, undcom
.