Wie berechne Klassifizierung Fehler-rate
In Ordnung. Nun, diese Frage ist ziemlich schwer. Ich werde Ihnen ein Beispiel geben.
Nun die linken zahlen sind mein Algorithmus, der die Klassifizierung und die richtigen zahlen sind die ursprünglichen Klasse-Nummern
177 86
177 86
177 86
177 86
177 86
177 86
177 86
177 86
177 86
177 89
177 89
177 89
177 89
177 89
177 89
177 89
So, hier mein Algorithmus zusammengeführt 2 verschiedene Klassen in 1. Wie Sie sehen können zusammengeführt Klasse 86 und 89, in einer Klasse. Also, was wäre der Fehler bei dem oben genannten Beispiel ?
Oder hier ein anderes Beispiel
203 7
203 7
203 7
203 7
16 7
203 7
17 7
16 7
203 7
Im Beispiel oben Links zahlen sind mein Algorithmus, der die Klassifizierung und die richtigen zahlen sind die ursprünglichen Klassen-ids. Wie oben zu sehen ist es miss klassifiziert 3 Produkte (ich bin die Klassifizierung gleiche kommerzielle Produkte). So ist an diesem Beispiel, was wäre die Fehlerquote? Wie würden Sie berechnen.
Diese Frage ist ziemlich schwer und Komplex. Wir haben fertig, die Einstufung aber wir sind nicht in der Lage, richtig zu finden Algorithmus für die Berechnung der Erfolgsquote 😀
InformationsquelleAutor MonsterMMORPG | 2012-04-08
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hier ist ein länglicher Beispiel, eine echte confuson matrix mit 10 Eingabe-Klassen "0" - "9"
(handschriftliche Ziffern),
und 10 output-Cluster beschriftet A - J.
Beispielsweise cluster A hat 580 Punkte, 415 die "8"s;
cluster-B-383-Daten-Punkte, 249 die "1"s und so weiter.
Das problem ist, dass die Ausgabe-Klassen, die verschlüsselt sind, permuted;
Sie entsprechen in dieser Reihenfolge, mit zählt:
Einer könnte sagen, dass die "Erfolgsquote" ist
75 % = (415 + 249 + 483 + 507 + 294 + 546 + 546 + 480 + 460 + 257) /5620
aber das wirft Sie Weg nützliche Informationen —
hier, dass E und J beide sagen, "6", und keine cluster-sagt "9".
So, summieren sich die größte Zahl in jeder Spalte der matrix Verwirrung
und dividieren Sie durch die Summe.
Aber, wie zu zählen überlappende /fehlenden Clustern,
wie die 2 "6"s, keine "9"s hier ?
Ich weiß nicht, sich auf eine gemeinsam vereinbarte Art und Weise
(Zweifel daran, dass die Ungarischer Algorithmus
in der Praxis verwendet wird).
Bottom line: nicht wegwerfen Informationen; schauen Sie die ganze Verwirrung matrix.
NB so eine "Erfolgsquote" wird optimistisch für die neuen Daten !
Es ist üblich, teilen Sie die Daten in sagen 2/3 "training set" und 1/3 "test-set"
Zug z.B. k-means auf die 2/3 allein,
dann Messen Verwirrung /Erfolgsquote auf der test-set — in der Regel schlechter als auf dem Trainings-set allein.
Viel mehr gesagt werden kann; siehe z.B.
Cross-Validierung.
InformationsquelleAutor denis
Haben Sie zum definieren der fehlerkriterien, wenn Sie möchten, bewerten die Leistung eines Algorithmus, also ich bin mir nicht ganz sicher, was Sie Fragen. In einigen clustering-und machine-learning-algorithmen, die Sie definieren, die der Fehler-Metrik und minimiert es.
Werfen Sie einen Blick auf diese
https://en.wikipedia.org/wiki/Confusion_matrix
einige Ideen bekommen
InformationsquelleAutor dfb
Definition eines Fehlers Metrik zur Messung selbst. In Ihrem Fall, eine einfache Methode zu finden, die Eigenschaften die Zuordnung der Produkt-als
wo
id
ist die Produkt-id, undp
ist wahrscheinlich ein Vektor sein, in dem jeder Eintrag von unterschiedlichen Eigenschaften. Dann legen Sie die error-Funktione
(oder den Abstand) zwischen zwei Produkten wieSicher, die einzelnen Eigenschaften müssen ausgewertet werden, um eine Zahl in diese Funktion. Dann diese error-Funktion kann verwendet werden, in der Klassifikation der Algorithmus und das lernen.
In Ihrem zweiten Beispiel scheint es, dass Sie behandeln das paar (203 7) als erfolgreiche Klassifizierung, so dass ich denke, Sie haben bereits eine Metrik selbst. Sie können genauer zu sein, um besser zu beantworten.
Also, ich habe nur beschrieben, die Allgemeine Idee hier. Eine Eigenschaft eines Produkts kann seinen Typ oder Preis. Wenn die Menschen bevorzugen das Produkt mit dem gleichen Preis, können Sie einfach verwenden Sie d(price1, - Preis-2)
Ich glaube, Sie verstehen nicht, die Frage richtig. Stellen Sie sich vor Sie haben 100 verschiedene Produkte, und jedes Produkt wird verkauft an 10 verschiedenen Händler, die macht 1000 Produkte insgesamt. So sind Sie versuchen, um der Gruppe jeder das Produkt korrekt, aber der Algorithmus klassifiziert wie in den obigen Beispielen. Wie würden Sie also berechnen Sie Ihren Algorithmus Klassifizierung Erfolgsquote.
warum nicht (korrekt)/(Gesamt)?
InformationsquelleAutor unsym
Classification Error Rate(CER) 1 - Reinheit (http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html)
Code von @john-colby
Oder
InformationsquelleAutor Sibelius Seraphini