Wie berechnen Sie precision und recall in clustering?
Ich bin wirklich verwirrt, wie berechnen Sie precision und recall, die in clustering-Anwendungen.
Ich habe die folgende situation:
Gegeben zwei Mengen A und B. Durch die Verwendung einer eindeutigen Schlüssel für jedes element kann ich bestimmen, welche der Elemente von A und B übereinstimmen. Ich will diese cluster-Elemente basierend auf Funktionen (nicht mit dem eindeutigen Schlüssel natürlich).
Mache ich die clustering-aber ich bin mir nicht sicher wie die Berechnung precision und recall. Die Formeln,nach dem Papier "Extended Performance-Graphen für Cluster-Retrieval" (http://staff.science.uva.nl/~nicu/Publikationen/CVPR01_nies.pdf) sind:
p = precision = relevante abgerufenen Artikel/abgerufenen Artikel und
r = recall = relevante abgerufenen Artikel/relevante Elemente
Ich weiß wirklich nicht, was Elemente fallen unter die Kategorie.
Was ich Tat, so weit ist, habe ich geprüft, die innerhalb der Cluster, wie viele Paare habe ich (mit dem eindeutigen Schlüssel). Ist bereits ein von precision oder recall? Und wenn ja, welches ist es und wie kann ich berechnen, die anderen?
Update: ich habe gerade ein weiteres Papier mit dem Titel "Ein F-Measure für die Bewertung des Unüberwachten Clustering mit Nicht Festgelegten Anzahl von Clustern" am http://mtg.upf.edu/files/publications/unsuperf.pdf.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich glaube, Sie finden es in wikipedia eine hilfreiche Artikel auf precision und recall. Kurz gesagt:
Precision = true positives /(true positives + false positives)
Recall = true positives /( true positivies + false negatives)
Gibt es mehrere andere Maßnahmen der cluster Geltung, die habe ich mit in einige der Forschung, die ich getan habe in den Zugriff auf clustering-Methoden. In Fällen, In denen Sie einen Datensatz gelabelt mit Klassen (supervised clustering), die Sie verwenden können, precision und recall, wie oben erwähnt, oder die Reinheit und die Entropie.
Reinheit der cluster = Anzahl der vorkommen der häufigsten Klasse /die Größe der cluster (sollte hoch sein)
Entropie ein cluster = ein Maß, wie verstreut die Klassen sind mit einem cluster (dieser sollte niedrig sein)
In Fällen, In denen Sie nicht die Klasse Etiketten (unüberwachten clustering), intra-und inter-ähnlichkeit sind gute Maßnahmen.
Intra-cluster-ähnlichkeit für einen einzelnen cluster = Durchschnittliche Kosinus-ähnlichkeit aller Paare innerhalb eines Clusters (sollte hoch sein)
Inter-cluster-ähnlichkeit für einen einzelnen cluster = Durchschnittliche Kosinus-sim alle Objekte in einem cluster im Vergleich zu allen Elementen in jeder anderen cluster (dieser sollte niedrig sein)
Dieses Papier hat einige gute Beschreibungen, alle diese vier Maßnahmen.
http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf
Netter link mit der unüberwachten F-Maßnahme, ich bin auf der Suche in die jetzt.
Was ich von diesem problem ist:
Einer der Mengen A und B ist die "positive" ein. Lets nehme an, A ist positiv
Gegeben, dass für ein element a in Einem cluster
Dann verwenden Sie einfach
Precision = true positives /(true positives + false positives)
Recall = true positives /( true positivies + false negatives)
wie bereits von jemand
Ich denke, es gibt ein problem mit den Definitionen.
Precision und recall sind geeignet für die Einstufung problem, die sind im Grunde zwei-Cluster-Probleme. Hatten Sie gruppierten sich in etwas wie "guter Artikel" (=abgerufenen items) und "schlechte Elemente" (=nicht abgerufenen items), dann ist deine definition Sinn machen würde.
In Ihrem Fall, Sie berechnet den Prozentsatz der korrekten clustering aus all den Positionen, die in der Art, wie die präzise, aber nicht wirklich, weil wie gesagt die Definitionen nicht anwenden.
Finden Sie unter "Introduction to Information Retrieval", Kapitel 18 (Fett-clustering), Möglichkeiten zur Bewertung der clustering-algorithmen.
http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html
Diesem Abschnitt des Buches kann auch als nützlich erweisen, da es beschreibt Metriken wie precision und recall:
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html
Das problem mit precision und recall ist, dass Sie in der Regel verlangen, dass Sie irgendeine Idee, was die 'wahren' - labels sind, in der Erwägung, dass in vielen Fällen (und Ihrer Beschreibung) Sie nicht wissen, die Etiketten, aber Sie wissen, die partition gegen vergleichen. Ich würde vorschlagen, die adjusted Rand index vielleicht:
http://en.wikipedia.org/wiki/Rand_index
Wenn man bedenkt, einer der Sätze, die sagen, wie gold clustering und der andere (B) als Ausgang des clustering-Prozess (genau) precision und recall-Werte können geschätzt werden als:
Aus diesen standard F-Maßnahme geschätzt werden kann als gut.