Wie berechne Klassifizierung Fehler-rate

In Ordnung. Nun, diese Frage ist ziemlich schwer. Ich werde Ihnen ein Beispiel geben.

Nun die linken zahlen sind mein Algorithmus, der die Klassifizierung und die richtigen zahlen sind die ursprünglichen Klasse-Nummern

So, hier mein Algorithmus zusammengeführt 2 verschiedene Klassen in 1. Wie Sie sehen können zusammengeführt Klasse 86 und 89, in einer Klasse. Also, was wäre der Fehler bei dem oben genannten Beispiel ?

Oder hier ein anderes Beispiel

Im Beispiel oben Links zahlen sind mein Algorithmus, der die Klassifizierung und die richtigen zahlen sind die ursprünglichen Klassen-ids. Wie oben zu sehen ist es miss klassifiziert 3 Produkte (ich bin die Klassifizierung gleiche kommerzielle Produkte). So ist an diesem Beispiel, was wäre die Fehlerquote? Wie würden Sie berechnen.

Diese Frage ist ziemlich schwer und Komplex. Wir haben fertig, die Einstufung aber wir sind nicht in der Lage, richtig zu finden Algorithmus für die Berechnung der Erfolgsquote 😀

InformationsquelleAutor MonsterMMORPG | 2012-04-08

4

Hier ist ein länglicher Beispiel, eine echte confuson matrix mit 10 Eingabe-Klassen "0" - "9"
(handschriftliche Ziffern),
und 10 output-Cluster beschriftet A - J.
```
Confusion matrix for 5620 optdigits:

True 0 - 9 down, clusters A - J across
-----------------------------------------------------
      A    B    C    D    E    F    G    H    I    J
-----------------------------------------------------
0:    2         4         1       546    1
1:   71  249        11    1    6            228    5
2:   13    5        64    1   13    1       460
3:   29    2       507        20         5    9
4:        33  483         4   38         5    3    2
5:    1    1    2   58    3            480   13
6:    2    1    2       294         1         1  257
7:    1    5    1            546         6    7
8:  415   15    2    5    3   12        13   87    2
9:   46   72    2  357        35    1   47    2
----------------------------------------------------
    580  383  496 1002  307  670  549  557  810  266  estimates in each cluster

y class sizes: [554 571 557 572 568 558 558 566 554 562]
kmeans cluster sizes: [ 580  383  496 1002  307  670  549  557  810  266]
```
Beispielsweise cluster A hat 580 Punkte, 415 die "8"s;
cluster-B-383-Daten-Punkte, 249 die "1"s und so weiter.

Das problem ist, dass die Ausgabe-Klassen, die verschlüsselt sind, permuted;
Sie entsprechen in dieser Reihenfolge, mit zählt:
```
      A    B    C    D    E    F    G    H    I    J
      8    1    4    3    6    7    0    5    2    6
    415  249  483  507  294  546  546  480  460  257
```
Einer könnte sagen, dass die "Erfolgsquote" ist
75 % = (415 + 249 + 483 + 507 + 294 + 546 + 546 + 480 + 460 + 257) /5620

aber das wirft Sie Weg nützliche Informationen —
hier, dass E und J beide sagen, "6", und keine cluster-sagt "9".

So, summieren sich die größte Zahl in jeder Spalte der matrix Verwirrung
und dividieren Sie durch die Summe.

Aber, wie zu zählen überlappende /fehlenden Clustern,
wie die 2 "6"s, keine "9"s hier ?

Ich weiß nicht, sich auf eine gemeinsam vereinbarte Art und Weise
(Zweifel daran, dass die Ungarischer Algorithmus
in der Praxis verwendet wird).

Bottom line: nicht wegwerfen Informationen; schauen Sie die ganze Verwirrung matrix.

NB so eine "Erfolgsquote" wird optimistisch für die neuen Daten !

Es ist üblich, teilen Sie die Daten in sagen 2/3 "training set" und 1/3 "test-set"
Zug z.B. k-means auf die 2/3 allein,

dann Messen Verwirrung /Erfolgsquote auf der test-set — in der Regel schlechter als auf dem Trainings-set allein.

Viel mehr gesagt werden kann; siehe z.B.
Cross-Validierung.

InformationsquelleAutor denis
0

Haben Sie zum definieren der fehlerkriterien, wenn Sie möchten, bewerten die Leistung eines Algorithmus, also ich bin mir nicht ganz sicher, was Sie Fragen. In einigen clustering-und machine-learning-algorithmen, die Sie definieren, die der Fehler-Metrik und minimiert es.

Werfen Sie einen Blick auf diese
https://en.wikipedia.org/wiki/Confusion_matrix
einige Ideen bekommen

Ich Frage die Kriterien.

InformationsquelleAutor dfb
0

Definition eines Fehlers Metrik zur Messung selbst. In Ihrem Fall, eine einfache Methode zu finden, die Eigenschaften die Zuordnung der Produkt-als
```
p = properties(id)
```
wo id ist die Produkt-id, und p ist wahrscheinlich ein Vektor sein, in dem jeder Eintrag von unterschiedlichen Eigenschaften. Dann legen Sie die error-Funktion e (oder den Abstand) zwischen zwei Produkten wie
```
e = d(p1, p2)
```
Sicher, die einzelnen Eigenschaften müssen ausgewertet werden, um eine Zahl in diese Funktion. Dann diese error-Funktion kann verwendet werden, in der Klassifikation der Algorithmus und das lernen.

In Ihrem zweiten Beispiel scheint es, dass Sie behandeln das paar (203 7) als erfolgreiche Klassifizierung, so dass ich denke, Sie haben bereits eine Metrik selbst. Sie können genauer zu sein, um besser zu beantworten.

naja, eigentlich fordere ich, dass die Metrik bei dieser Frage. wir definieren unsere Fehler Erfolgsquote von unseren Bedingungen und fordere ich auf, Ihre Vorstellungen darüber, wie Sie sich zu definieren.
Also, ich habe nur beschrieben, die Allgemeine Idee hier. Eine Eigenschaft eines Produkts kann seinen Typ oder Preis. Wenn die Menschen bevorzugen das Produkt mit dem gleichen Preis, können Sie einfach verwenden Sie d(price1, - Preis-2)
Ich glaube, Sie verstehen nicht, die Frage richtig. Stellen Sie sich vor Sie haben 100 verschiedene Produkte, und jedes Produkt wird verkauft an 10 verschiedenen Händler, die macht 1000 Produkte insgesamt. So sind Sie versuchen, um der Gruppe jeder das Produkt korrekt, aber der Algorithmus klassifiziert wie in den obigen Beispielen. Wie würden Sie also berechnen Sie Ihren Algorithmus Klassifizierung Erfolgsquote.
warum nicht (korrekt)/(Gesamt)?

InformationsquelleAutor unsym
-1

Classification Error Rate(CER) 1 - Reinheit (http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html)
```
ClusterPurity <- function(clusters, classes) {
    sum(apply(table(classes, clusters), 2, max)) /length(clusters)
}
```
Code von @john-colby
Oder
```
CER <- function(clusters, classes) {
    1- sum(apply(table(classes, clusters), 2, max)) /length(clusters)
}
```
clustering ist nicht das gleiche wie die Klassifizierung. Klassifizierung betreut wird.

InformationsquelleAutor Sibelius Seraphini

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.