Wie mache ich eine partial match in Elasticsearch?

Habe ich einen link, wie http://drive.google.com und ich will match "google" aus dem link.

Habe ich:

query: {
    bool : {
        must: {
            match: { text: 'google'} 
        }
    }
}

Aber nur passt, wenn der ganze text ist 'google' (groß-und Kleinschreibung, so ist es auch mit Google oder GooGlE etc.). Wie kann ich match für die 'google' innerhalb eines anderen Strings?

Vielleicht match: { text: '.*google.*'} helfen können.
Genial, das funktioniert! Kannst du deine Antwort als "Antwort" also ich kann abholen es, der beste zu sein?
Ich habe die Antwort und lieferte einige relevante Referenz.
Sie müssen die Versionsnummern hier so die richtige Lösung gepostet wird für Ihre version.

InformationsquelleAutor PraneethVT | 2016-06-08

9

Der Punkt ist, dass die ElasticSearch regex, die Sie verwenden erfordert ein full-string-match:

Lucene die Muster sind immer verankert. Das Muster zur Verfügung gestellt muss mit dem gesamten string.

So, um die Entsprechung ein beliebiges Zeichen (aber ein Zeilenumbruch), die Sie verwenden können .* Muster:
```
match: { text: '.*google.*'}
                ^^      ^^
```
Eine weitere Variante ist für die Fälle, wenn Sie Ihre Zeichenkette kann newlines: match: { text: '(.|\n)*google(.|\n)*'}. Diese schreckliche (.|\n)* ist ein muss in ElasticSearch, da diese regex Geschmack lässt keine [\s\S] workarounds, noch DOTALL/"Singleline" - flags. die "Der Lucene-engine für reguläre Ausdrücke ist nicht Perl-kompatibel, sondern unterstützt eine kleinere Auswahl von Operatoren."
- Dies funktioniert nicht für mich.
- Fühlen Sie sich frei, Fragen zu stellen. Wahrscheinlich gibt es ein problem mit wie sind Sie mit der regex.
- Ein gutes analyzer split auf Punkt-zum Beispiel durch die Verwendung von standard analyzer oder custom analyzer statt mit wildcard-Abfrage. Es ist verbrauchen viele Ressourcen und es ist wirklich nicht der elasticsearch-Logik...
- Es ist der einzige Weg, dies zu tun mit einem regex. Und seine Ressource verbraucht Charakter erklärt in der Dokumentation.
- "google" ist ein Begriff, der so nicht notwendig ist, ein regex zu finden. Regex Abfrage verwenden, um ein Muster finden, nicht ein Begriff. Es ist eine komplette Gegenteil von der Elasticseach Logik.
- ist ein Beispiel. Ony verwenden könnte [0-9]+ gr[ea]y hats? statt.
- Dies ist eine differente Fall. In Ihnen ist letzteres der Fall, du hast Recht, dies ist der Weg, das zu tun. Aber in Bezug auf die Frage von @user3835653 regex muss nicht die Lösung sein. Ich sah viele Projekte mit der regex-Implementierung.. weil die Leute nicht wissen, wie zu konfigurieren, tokenizer und analyzer...
- Ankern ist das, was war, dass alle meine Recherchen scheitern. Sehr nützliche info.
InformationsquelleAutor Wiktor Stribiżew
10

verwenden Sie wildcard-Abfrage:
```
'{"query":{ "wildcard": { "text.keyword" : "*google*" }}}'
```
- Diese Abfrage (wildcard) ist derjenige, der bei mir funktioniert: elastisch.co/guide/de/elasticsearch/Referenz/current/...
InformationsquelleAutor weijh
4

Ich nicht finden können, ein brechen ändern deaktivieren reguläre Ausdrücke in match, aber match: { text: '.*google.*'} funktioniert nicht auf meinem Elasticsearch 6.2 Cluster. Vielleicht ist es konfigurierbar?

Regexp funktioniert:
```
"query": {
   "regexp": { "text": ".*google.*"} 
}
```
InformationsquelleAutor Steven Ensslen

Sowohl für Teil-und full-text-matching im folgenden arbeitete

"query" : {
    "query_string" : {
      "query" : "*searchText*",
      "fields" : [
        "fieldName"
      ]
    }

InformationsquelleAutor Priya darshini M

1

Für eine generische Lösung, die Sie schauen können in einem anderen analyzer oder definieren Sie Ihre eigenen. Ich gehe davon aus, dass Sie mit dem standard-Analysator, der teilen würde http://drive.google.com in die Token "http" und "drive.google.com". Dies ist der Grund, warum die Suche bei google einfach nicht funktioniert, weil es versucht, zu vergleichen, um die volle "drive.google.com".

Wenn Sie stattdessen indiziert Ihre Dokumente mit einfachen Analysator würde es aufteilen in "http", "drive", "google", und "com". Dies ermöglicht das anpassen von jeder der diese Begriffe auf Ihre eigenen.

InformationsquelleAutor pythonHelpRequired
0

For partial matching können Sie entweder Präfix oder match_phrase_prefix.

InformationsquelleAutor Josué Zatarain Espinosa

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.