Solr: Was sind die Vorteile der Länge Normalisierung/omitNorms=false?

Sind wir mit Solr für die Suche von Artikeln in verschiedenen Längen. Wir der index sowohl beschreibende Metadaten (Titel, Autor, Kategorie, Stichwörter, etc) und den kompletten Artikel-text. Wir tun nicht steigern Relevanz zum Zeitpunkt der index - steigert alle fertig sind zum Zeitpunkt der Abfrage (wir verwenden dismax, gepaart mit verschiedenen qf, pf und bf erhöht).

Derzeit unsere Volltext-Feld verwendet die standard-omitNorms=false; und als ein Ergebnis, alles andere gleich, kürzere Artikel (Spalte 2-3 Zoll Artikel) wird Häufig eine höhere Relevanz als mehr feature-Länge (multi-Seite) Artikel.

In unserem Fall die Länge der Artikel ist ein wesentlicher Indikator für Relevanz, und so überlege ich, die Einstellung omitNorms=true auf unsere Volltext-Feld.

Fragen: 1. Warum ist das Standard lucene/solr Verhalten zu steigern, kürzere Feld-Längen über höher? Was ist der Grund?
2. Warum würde ich nicht wollen omitNorms? Ich brauche nicht zu steigern Abfragen, die auf diesem besonderen Feld, noch jegliche Art der Facettierung auf diesem Gebiet.

InformationsquelleAutor Oskar Austegard | 2011-07-26

34

Frage 1:

Steigerung der kürzeren Feld-Längen über höhere Feld-Längen zu tun hat mit einem grundlegenden Konzept der Bestimmung Dokument Relevanz namens TF-IDF (siehe http://en.wikipedia.org/wiki/Tf%E2%80%93idf). Als Beispiel, betrachten Sie Ihre Suche kehrte zwei Dokumente: die ersten 100 Wörter und das zweite ist 1000 Worte. Jedes enthält Ihren Suchbegriff nur einmal. Da das keyword im ersten Dokument war 1% von dem text, den kurzen Dokument wird als relevant für Ihre Suche sind als die langen Dokument, wo das Schlüsselwort, nach dem Sie gesucht wurde, nur 0,1% des Textes.

Frage 2:

Es klingt wie basierend auf Ihren Anforderungen, möchten Sie vielleicht versuchen, weglassen Normen. Dies kann jedoch verzerren die Suchergebnisse in einer Weise, die Sie nicht erwarten. Könnte es sein, dass Ihr den Genuss einige der schönen Eigenschaften Länge Normalisierung und es nicht realisieren. Ein anderer Ansatz könnte sein, zu speichern Dokument Länge als eine Art tag-Feld wie die Kennzeichnung von Dokumenten als "kurz", "Mittel" und "lang" und dann-boost-Dokumente, die auf passen, lang-oder long-und medium oder was auch immer. Dies würde auch der Endverbraucher die Möglichkeit, filter auf Dokument-Länge, wenn Sie sich auf die Suche.

Wieder, wenn ich erwähne nette Eigenschaften Länge Normalisierung, die Sie denken, die Fälle, in denen ein super langer Artikel vorhanden ist, berührt auf 10 verschiedene Themen, von denen 1 entspricht dem Benutzer die Suche oder ein langer Artikel vorhanden ist, dass die Gespräche über nur 1 Thema, der, der gesucht wurde. In diesem Fall würden Sie wahrscheinlich bevorzugen die langen Artikel über die super langen Artikel (auch wenn die super lange Artikel entsprachen den Suchbegriff mal mehr). Es kommt mehr auf Ihre Daten und Ihre use cases.
- Mike, danke. Das klingt wie das, was ich mir schon gedacht - schön, die Bestätigung bekommen.
InformationsquelleAutor Mike

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.