Wie berechnen Sie precision und recall in clustering?

Ich bin wirklich verwirrt, wie berechnen Sie precision und recall, die in clustering-Anwendungen.

Ich habe die folgende situation:

Gegeben zwei Mengen A und B. Durch die Verwendung einer eindeutigen Schlüssel für jedes element kann ich bestimmen, welche der Elemente von A und B übereinstimmen. Ich will diese cluster-Elemente basierend auf Funktionen (nicht mit dem eindeutigen Schlüssel natürlich).

Mache ich die clustering-aber ich bin mir nicht sicher wie die Berechnung precision und recall. Die Formeln,nach dem Papier "Extended Performance-Graphen für Cluster-Retrieval" (http://staff.science.uva.nl/~nicu/Publikationen/CVPR01_nies.pdf) sind:

p = precision = relevante abgerufenen Artikel/abgerufenen Artikel und
r = recall = relevante abgerufenen Artikel/relevante Elemente

Ich weiß wirklich nicht, was Elemente fallen unter die Kategorie.

Was ich Tat, so weit ist, habe ich geprüft, die innerhalb der Cluster, wie viele Paare habe ich (mit dem eindeutigen Schlüssel). Ist bereits ein von precision oder recall? Und wenn ja, welches ist es und wie kann ich berechnen, die anderen?

Update: ich habe gerade ein weiteres Papier mit dem Titel "Ein F-Measure für die Bewertung des Unüberwachten Clustering mit Nicht Festgelegten Anzahl von Clustern" am http://mtg.upf.edu/files/publications/unsuperf.pdf.

InformationsquelleAutor Christian Stade-Schuldt | 2009-03-18

cluster-analysis precision-recall

8

Ich glaube, Sie finden es in wikipedia eine hilfreiche Artikel auf precision und recall. Kurz gesagt:

Precision = true positives /(true positives + false positives)

Recall = true positives /( true positivies + false negatives)

InformationsquelleAutor theycallmemorty
8

Gibt es mehrere andere Maßnahmen der cluster Geltung, die habe ich mit in einige der Forschung, die ich getan habe in den Zugriff auf clustering-Methoden. In Fällen, In denen Sie einen Datensatz gelabelt mit Klassen (supervised clustering), die Sie verwenden können, precision und recall, wie oben erwähnt, oder die Reinheit und die Entropie.

Reinheit der cluster = Anzahl der vorkommen der häufigsten Klasse /die Größe der cluster (sollte hoch sein)

Entropie ein cluster = ein Maß, wie verstreut die Klassen sind mit einem cluster (dieser sollte niedrig sein)

In Fällen, In denen Sie nicht die Klasse Etiketten (unüberwachten clustering), intra-und inter-ähnlichkeit sind gute Maßnahmen.

Intra-cluster-ähnlichkeit für einen einzelnen cluster = Durchschnittliche Kosinus-ähnlichkeit aller Paare innerhalb eines Clusters (sollte hoch sein)

Inter-cluster-ähnlichkeit für einen einzelnen cluster = Durchschnittliche Kosinus-sim alle Objekte in einem cluster im Vergleich zu allen Elementen in jeder anderen cluster (dieser sollte niedrig sein)

Dieses Papier hat einige gute Beschreibungen, alle diese vier Maßnahmen.
http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Netter link mit der unüberwachten F-Maßnahme, ich bin auf der Suche in die jetzt.
- Ist das wirklich "unbeaufsichtigt F-measure", oder es eine "betreute F-measure" (brauchen ground truth berechnet werden), die nur verwendet für die Auswertung der unüberwachten clustering ?
InformationsquelleAutor
2

Was ich von diesem problem ist:

Einer der Mengen A und B ist die "positive" ein. Lets nehme an, A ist positiv

Gegeben, dass für ein element a in Einem cluster
1. passende element von B ist im selben cluster. es ist eine echte, positive
2. passende element von B ist nicht im selben cluster. es ist eine falsch-negative
3. nicht passendes element von B ist im selben cluster. ist ein false positive
4. nicht passendes element von B ist nicht im selben cluster. ist ist eine wahre negative.
Dann verwenden Sie einfach

Precision = true positives /(true positives + false positives)

Recall = true positives /( true positivies + false negatives)
wie bereits von jemand

InformationsquelleAutor Midhat
1

Ich denke, es gibt ein problem mit den Definitionen.

Precision und recall sind geeignet für die Einstufung problem, die sind im Grunde zwei-Cluster-Probleme. Hatten Sie gruppierten sich in etwas wie "guter Artikel" (=abgerufenen items) und "schlechte Elemente" (=nicht abgerufenen items), dann ist deine definition Sinn machen würde.

In Ihrem Fall, Sie berechnet den Prozentsatz der korrekten clustering aus all den Positionen, die in der Art, wie die präzise, aber nicht wirklich, weil wie gesagt die Definitionen nicht anwenden.
- können Sie diese Frage auch? stackoverflow.com/questions/32404742/...
InformationsquelleAutor daphshez
1

Finden Sie unter "Introduction to Information Retrieval", Kapitel 18 (Fett-clustering), Möglichkeiten zur Bewertung der clustering-algorithmen.
http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Diesem Abschnitt des Buches kann auch als nützlich erweisen, da es beschreibt Metriken wie precision und recall:
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html
- ty für die Antwort kann u überprüfen Sie diese Frage auch? stackoverflow.com/questions/32404742/...
InformationsquelleAutor SquareCog
1

Das problem mit precision und recall ist, dass Sie in der Regel verlangen, dass Sie irgendeine Idee, was die 'wahren' - labels sind, in der Erwägung, dass in vielen Fällen (und Ihrer Beschreibung) Sie nicht wissen, die Etiketten, aber Sie wissen, die partition gegen vergleichen. Ich würde vorschlagen, die adjusted Rand index vielleicht:

http://en.wikipedia.org/wiki/Rand_index

InformationsquelleAutor Dan Stowell
0

Wenn man bedenkt, einer der Sätze, die sagen, wie gold clustering und der andere (B) als Ausgang des clustering-Prozess (genau) precision und recall-Werte können geschätzt werden als:

Precision = (Anzahl von Elementen, die gemeinsam für A und B)/(Anzahl der Elemente in B)

Recall = (Anzahl von Elementen, die gemeinsam für A und B)/(Anzahl der Elemente in A)

Aus diesen standard F-Maßnahme geschätzt werden kann als gut.
- Es ist nicht so einfach. A und B sind verschiedene Unterteilungen des Datensatzes, nicht einzelne Teile. Also in der Regel sowohl A als auch B enthalten nur die kompletten Daten. Daher können Sie nicht verwenden Sie die - Elemente. Was Sie tun können, ist zu verwenden, alle Paare von Objekten, in denen ein paar vorhanden ist, in einem clustering-wenn, und nur wenn beide Elemente sind in der dieselbe cluster.
InformationsquelleAutor user1483031

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.