Mehrere oder einzelne index in Lucene?
Habe ich nach index unterschiedliche Arten von Daten (text, Dokumente, forum, Nachrichten, user-Profil-Daten, etc), die durchsucht werden sollen, zusammen (ie, a single-Suche Ergebnisse zurück, die verschiedenen Arten von Daten).
-
Was sind die Vorteile und Nachteile darin, dass mehrere Indizes, eine für jede Art von Daten?
-
Sowie vor-und Nachteile der Verwendung eines einzelnen index für alle Arten von Daten?
Danke.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie wollen, suchen alle Arten von Dokumenten mit einer Suche , es ist besser, dass Sie alle
Arten in einem index . Im index können Sie festlegen, mehr Feld Typ, den Sie möchten, um die Tokenisierung oder Vectore Sie .
Es dauert eine Zeit vorstellen, die jeder IndexSearcher ein Verzeichnis gehören, die indeces .
Möchten Sie Suchbegriffe getrennt , wäre es besser, der index jeder Art zu einem index .
single-index ist mehrere strukturelle als Multi-index.
In der anderen hand , können wir die balance unserer laden mit mehreren indeces .
Nicht unbedingt Antworten auf deine direkten Fragen, aber... 😉
Ich würde mich mit einem index, fügen Sie ein Stichwort (indexiert, gespeichert) - Feld für den Typ, werde es können Sie filter, wenn erforderlich, sowie sagen, der Unterschied zwischen den Ergebnissen, erhalten Sie zurück.
(und vielleicht in der Richtung von Ihre Fragen... mit getrennten Indizes ermöglichen jedem Korpus zu haben, es ist eigene relevency score, weiß nicht, ob übermäßig wiederholt Begriffe, die in einem Korpus wird abwerfen, die Relevanz von Dokumenten in andere?)
Sollten Sie logisch denken, was jeder Datensatz enthält und das design Ihrer Indizes nach Gegenstand oder anderen Kriterien (z.B. Geographie, business unit etc.). Als eine Allgemeine Regel, die Ihre index-Architektur ist ähnlich wie die, die Sie würde die Datenbanken (die Sie wahrscheinlich würde nicht kombinieren in der Buchhaltung mit einer Personal-Datenbank für das Beispiel auch wenn technisch machbar).
Als @Lama wies darauf hin, erstellen einen einzelnen uber-index wirkt sich auf die Relevanz erzielt, security/access-Probleme, unter anderem und bewirkt eine ganze Reihe von Kopfschmerzen.
Zusammenfassend: denken Sie an eine logische Partitionierung Struktur je nach Ihren Geschäftsanforderungen. Wäre schwer zu erklären, ohne weiteren hintergrund.