Wie berechnen Sie precision und recall in clustering?

Ich bin wirklich verwirrt, wie berechnen Sie precision und recall, die in clustering-Anwendungen.

Ich habe die folgende situation:

Gegeben zwei Mengen A und B. Durch die Verwendung einer eindeutigen Schlüssel für jedes element kann ich bestimmen, welche der Elemente von A und B übereinstimmen. Ich will diese cluster-Elemente basierend auf Funktionen (nicht mit dem eindeutigen Schlüssel natürlich).

Mache ich die clustering-aber ich bin mir nicht sicher wie die Berechnung precision und recall. Die Formeln,nach dem Papier "Extended Performance-Graphen für Cluster-Retrieval" (http://staff.science.uva.nl/~nicu/Publikationen/CVPR01_nies.pdf) sind:

p = precision = relevante abgerufenen Artikel/abgerufenen Artikel und
r = recall = relevante abgerufenen Artikel/relevante Elemente

Ich weiß wirklich nicht, was Elemente fallen unter die Kategorie.

Was ich Tat, so weit ist, habe ich geprüft, die innerhalb der Cluster, wie viele Paare habe ich (mit dem eindeutigen Schlüssel). Ist bereits ein von precision oder recall? Und wenn ja, welches ist es und wie kann ich berechnen, die anderen?

Update: ich habe gerade ein weiteres Papier mit dem Titel "Ein F-Measure für die Bewertung des Unüberwachten Clustering mit Nicht Festgelegten Anzahl von Clustern" am http://mtg.upf.edu/files/publications/unsuperf.pdf.

Schreibe einen Kommentar