Unterschied zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory

Ich bin neu auf Solr. Durch das Lesen Solr wiki, ich verstehe nicht die Unterschiede zwischen WhitespaceTokenizerFactory und StandardTokenizerFactory. Was ist Ihr Unterschied?

InformationsquelleAutor trillions | 2012-06-25

solr tokenize

26

Unterscheiden Sie sich in, wie Sie teilen sich die analysierten text in Token.

Den StandardTokenizer tut dies auf der Grundlage der folgenden (aus-lucene-javadoc):
- Teilt Worten, Satzzeichen entfernen, Satzzeichen.
  Allerdings, ein Punkt, der nicht gefolgt von whitespace-Zeichen als Teil
  ein token.
- Spaltet Worte Bindestriche, es sei denn, es ist eine Zahl, die in der
  token, in welchem Fall das gesamte token interpretiert wird, als ein Produkt
  Zahl und ist nicht gespalten.
- Erkennt E-Mail-Adressen und internet
  Hostnamen als ein token.
Den WhitespaceTokenizer tut dies basierend auf whitespace-Zeichen:

Einen WhitespaceTokenizer ist ein tokenizer teilt, dass der text bei Leerzeichen. Benachbarte Sequenzen von nicht-Whitespace-Zeichen form Token.

Sollten Sie wählen die tokenisierung, die am besten Ihre Anwendung. In jedem Fall müssen Sie auf die gleiche analyzer/tokenizer für die Indizierung und Suche!
- Dank csupnig! Wenn u sagen "benutzen Sie die gleichen analyzer/tokenizer" für index und Suche, Sie meinte, der Analysator muss abgeglichen werden mit der Art der tokenizer verwendet wird, m ich Recht?
- Ja, Sie sollten das gleiche tun, um zu produzieren, ähnlich wie Token. Es gibt nur seltene Fälle wo Sie wollen unterschiedliche tokenizer in der query parser als der tokenizer Sie verwendet werden, während die Indizierung.
- Dank csupnig 🙂
- StandardTokenizer nicht erkennt E-Mail-Adressen und internet-Hostnamen als ein token : @ ist in der Menge der token-splitting Satzzeichen, sowie Bindestriche und "dot/Ziffer-Kombinationen", so E-Mail-Adressen sind nicht erhalten, als einzelne Token, und die Eingänge wie : my-domain2.com ist einfach nur gesplittet so :my, domain2, und com.
- Folgende Punkte sind falsch, Namen StandardTokenizer : 1) Teilt die Wörter auf Bindestriche, es sei denn, es ist eine Zahl, die in das token, in welchem Fall das gesamte token interpretiert wird, als ein Produkt, - Nummer und ist nicht gespalten. 2) Erkennt E-Mail-Adressen und internet-Hostnamen als ein token.
InformationsquelleAutor csupnig

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.