Wie die meisten relevanten Ergebnisse mit Multi-Faktor Gewichtete Sortierung

Brauche ich, um eine gewichtete Sortierung auf 2+ Faktoren, sortiert nach "Relevanz". Aber die Faktoren sind nicht völlig isoliert, in, ich möchte einen oder mehrere der Faktoren, die Einfluss auf die "Dringlichkeit" (Gewicht) des anderen.

Beispiel: beigetragenen Inhalte (Artikel) können die up-/down-gevotet, und damit eine Bewertung, Sie haben eine post-Datum, und Sie sind auch markiert mit Kategorien. Benutzer die Artikel schreiben und abstimmen kann, und kann oder kann nicht auch eine Art ranking selbst (expert, etc). Wahrscheinlich ähnlich wie bei StackOverflow, richtig?

Ich möchte, dass jeder Benutzer eine Liste mit Artikeln, gruppiert nach tag, aber sortiert nach "Relevanz", wo Relevanz wird berechnet basierend auf der Bewertung und dem Alter der Artikel, und potenziell betroffene durch das ranking des Autors. I. E. eine hoch bewertete Artikel, der geschrieben wurde, die vor einigen Jahren nicht unbedingt so relevant wie ein mittlerer Platz Artikel gestern geschrieben. Und vielleicht, wenn ein Artikel von einem Experten geschrieben, es würde so behandelt werden, als relevanter als ein geschrieben von "Joe Schmoe".

Weiteres gutes Beispiel wäre zuweisen hotels eine "meta-score", bestehend aus Preis, Bewertung und Sehenswürdigkeiten.

Meine Frage ist, was ist der beste Algorithmus für die Multi-Faktor Sortieren? Dies kann ein Duplikat diese Frage, aber ich bin daran interessiert, einen generischen Algorithmus für eine beliebige Anzahl von Faktoren (mehr zumutbar ist, 2 - 4 Faktoren), vorzugsweise eine "voll-Automatik" - Funktion, dass ich mich nicht zu zwicken oder Benutzereingaben erforderlich, und ich kann nicht analysieren, lineare algebra und Eigenvektor Verrücktheit.

Möglichkeiten, die ich bisher gefunden habe:

Hinweis: S ist der "Sortier-score"

"Linear gewichtet" - eine Funktion wie: S = (w₁ * F₁) + (w₂ * F₂) + (w₃ * F₃), wo w_x sind willkürlich zugeordneten GEWICHTE, und F_x sind die Werte der Faktoren. Sie würde auch wollen zu normalisieren F (d.h. F_{x_n} = F_x /F_max). Ich denke, dies ist ein bisschen wie Lucene-Suche funktioniert.
"Base-N gewichtet" mehr wie Gruppierung als Gewichtung, es ist nur eine lineare Gewichtung, wobei die GEWICHTE erhöhen Vielfache von Basis-10 (einem ähnlichen Prinzip wie CSS-Selektor-Spezifität), so dass weitere wichtige Faktoren sind erheblich höher: S = 1000 * F₁ + 100 * F₂ + 10 * F₃ ....
Geschätzte Wert True (ETV) - dies ist offenbar das, was Google Analytics vorgestellt in Ihrer Berichterstattung, wo der Wert von einem Faktor beeinflusst (GEWICHTE) ein weiterer Faktor - die Folge wird zum Sortieren auf mehr "statistisch signifikante" Werte. Der link erklärt es ziemlich gut, so dass hier nur die Gleichung: S = (F₂ /F_{2_max} * F₁) + ((1 - (F₂ /F_{2_max})) * F_{1_avg}), wo F₁ ist das "wichtiger" Faktor ("bounce rate" in den Artikel), und F₂ ist die "Bedeutung ändern" - Faktor ("Besuche" im Artikel).
Bayes-Schätzung - sieht wirklich ähnlich, ETV, das ist wie IMDb berechnet Ihre Bewertung. Sehen in diesem StackOverflow post für die Erklärung; Gleichung: S = (F₂ /(F₂+F_{2_lim})) * F₁ + (F_{2_lim} /(F₂+F_{2_lim})) × F_{1_avg}, wo F_x sind die selben wie #3, und F_{2_lim} ist der minimale Grenzwert für die "Bedeutung" - Faktor (d.h. ein Wert kleiner als X sollte nicht in Betracht gezogen werden).

Optionen #3 und #4 sehen wirklich vielversprechend, da Sie nicht wirklich wählen eine beliebige Gewichtung Regelung, wie Sie in #1 und #2, aber das problem ist, wie wollen Sie tun dies für mehr als zwei Faktoren?

Stieß ich auch auf die SQL-Implementierung für eine zwei-Faktor-Gewichtung Algorithmus, das ist im Grunde das, was ich schreiben müssen, irgendwann.

Nur für die Klarheit, die ein Faktor, die Sie haben, ändern Sie die GEWICHTE, welche anderen Faktoren in deinem Beispiel? Einer von Ihnen ist viel wichtiger als die anderen, oder willst du einfach nur vermeiden Sie manuell die Festlegung der GEWICHTE?
Ich weiß es ehrlich gesagt nicht erinnern (2+ Jahre her); ich wohl gerade vermeiden wollte manuell die Festlegung der GEWICHTE, da jeder Zeit änderten wir unsere Meinung hinsichtlich der Bedeutung, die wir haben würden, zum bereitstellen von code, sowie die Auswahl der richtigen GEWICHTE in den ersten Platz.
Sorry, ich erkannte, es war eine 2-jährige post-nach dem Kommentar. Ich wollte vorschlagen, die Sie verwenden, was heißt eine "Kompromiss-Lösung" Optimierung von lingo. Im Grunde wählen Sie die absoluten ideale "Punkt" im "solution space" (höchster Rang Plakat, neustes Datum, etc.) und dann die inverse der euklidischen Distanz von diesem Punkt aus wäre die Punktzahl. d.h. S = 1/(sqrt((Rang - rank_ideal)^2 + (Alter - age_ideal)^2 ... (xn - xn_ideal)^2); wie auch immer, hoffe, Sie haben es herausgefunden.
keine sorgen; Sie sollten die post, dass suggestion als eine Antwort, so werde es leichter gefunden werden
Für den Linear gewichteten Algorithmus, machen die GEWICHTE bis zu 1? Was passiert, wenn ich so etwas wie S = (f1 * .80) + (f2 * .80)?
das internet explodiert, und Sie bekommen etwas, was wie SO ist April Fools redesign (Comic Sans Kommentare!!!)...aber wahrscheinlicher wäre es nur willkürlich Blasen Sie Ihre endgültige Wert, der vielleicht nicht gleich, wenn es nur für die Sortierung.

InformationsquelleAutor drzaus | 2012-01-06

6

Wie bereits erwähnt in den Kommentaren, ich würde vorschlagen, was die sogenannte "Kompromiss-Lösung", um jemand mit einem ähnlichen problem, der ist mehr um nicht mit zu Satz GEWICHTE als mit ein Kriterium stärker gewichtet als die anderen.

Grundsätzlich, überlegen Sie jede Ihrer als Kriterium einer Koordinate (nach Normalisierung, natürlich). Basierend auf Ihr Urteil, Sie wählen den absolut optimalen Zeitpunkt, z.B. in diesem Fall, der höchste Rang, den Autor, die neuesten Artikel, etc. Sobald Sie die optimale Lösung, jede andere "Lösung" wird bewertet, basierend auf seine Entfernung aus, die eine optimale. Eine Beispiel-Formel wäre das inverse der euklidischen Distanz für jeden Artikel Partitur: S = 1/(sqrt((Rang - rank_ideal)^2 + (Alter - age_ideal)^2 + ... + (xn - xn_ideal)^2)).

Dieser behandelt alle Kriterien als gleich, also behalte das im Hinterkopf.
- nicht das eine division durch null, wenn trifft es das exakt gleiche Spiel?
- Ja, in den Fall, Sie haben eine nicht-eindeutige Gruppe, die division durch null möglich ist. Dies ist trivial zu behandeln, die im code (berechnen Sie den divisor prüfen Sie zunächst, für die "Kleinheit" Fehler/throw-out, wenn nötig). Das heißt, in diesem Anwendungsfall, nicht-Eindeutigkeit a) war nicht erwähnt, wie eine Einschränkung und b) scheint unwahrscheinlich, da der Typ des Datensatzes und die Anzahl der Dimensionen.
- Sorry für stört Sie, Sir, aber ich habe noch eine Frage! was ist, wenn die Werte der einzelnen Kriterien hat einen sehr großen Unterschied, wie die Kriterien #1 reicht von 1-30 und Kriterien #2 Bereiche auf 1000+? Die GEWICHTE würden zu stark gezogen werden, die Kriterien #2 richtig? wie kann ich die normalisieren das?
- Teilen Sie die einzelnen Kriterien/Messung durch die maximal mögliche für diese Kriterien. Diese normalisieren die einzelnen Kriterien zu 1.
InformationsquelleAutor gankoji
0

Betrachten die Verkettung der GEWICHTE. E. g. Sie haben 3 Faktoren: X, Y und Z.
Berechnen Sie ETVyz als W = (Z/Zmax * Y) + (1 - Z/Zmax) * Yavg für jeden Datensatz und berechnen Sie dann ETVxw als S = (W/Wmax * X) + (1 - W/Wmax) * Xavg.
Sie können die Kette mehr Faktoren ähnlich.
- aber Sie können sich nicht normalisieren W (die W vs Wmax), die in der Funktion ETVxw, denn es ist bereits das Ergebnis der intern normalisierten Faktoren
InformationsquelleAutor well-wisher

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.