Warum ist der F-Measure eine harmonische Mittelwert und nicht das arithmetische Mittel von Präzision und Recall-Maßnahmen?
Wenn wir die Berechnung der F-Measure unter Berücksichtigung von Precision und Recall, wir nehmen das harmonische Mittel der beiden Maßnahmen, anstatt eine einfache arithmetische Mittel.
Was ist der intuitive Grund hinter der Einnahme das harmonische Mittel und nicht ein einfacher Durchschnitt?
- Die intuition ist eine balance zwischen precision und recall (in der Regel die beste Messung, aber in einigen Fällen, die Sie wollen zu maximieren precision oder recall, das ist eine andere Geschichte). Man kann nicht ein high-f-score-Wert, wenn entweder eine ist sehr gering.
- cse.unsw.edu.au/~teachadmin/info/harmonic3.html Dies ist eine gute Ressource zu verstehen, HM
- Beheben Sie den obigen link: di.unipi.es/~bozzo/The%20Harmonic%20Mean.htm oder das original @archive.org
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hier haben wir schon einige aufwendige Antworten, aber ich dachte, etwas mehr Informationen wäre hilfreich für einige Leute, die tiefer eintauchen wollen(vor allem, warum F-measure).
Gemäß der Theorie der Messung des composite Maßnahme sollte genügen die folgenden 6 Definitionen:
Können wir dann ableiten und erhalten die Funktion der Effektivität:
Und die wir normalerweise nicht die Wirksamkeit, sondern die viel simper F-score da:
Nun haben wir die Allgemeine Formel der F-measure:
wo können wir mehr emphesis auf recall oder Präzision bei der Einstellung der beta, weil die beta ist wie folgt definiert:
Wenn wir Gewicht recall wichtiger als Präzision(alle relevanten ausgewählt) können wir einstellen, beta 2, und wir erhalten die F2-Maßnahme. Und wenn wir das tun, die umkehren und Gewicht Präzision höher als erinnern(so viel ausgewählten Elemente relevant sind, wie möglich, zum Beispiel in einigen Grammatik-Fehler-Korrektur-Szenarien wie CoNLL) setzen wir einfach die beta als 0,5 und Holen Sie sich die F0.5 Messen. Und natürlich können wir als beta 1 zu Holen, die den meist verwendeten F1-measure(harmonisches Mittel von Präzision und recall).
Ich denke, zum Teil habe ich schon beantwortet, warum wir nicht das arithmetische Mittel.
Referenzen:
1. https://en.wikipedia.org/wiki/F1_score
2. Die Wahrheit, der F-measure
3. Information retrival
Zu erklären, denken Sie zum Beispiel an, was der Durchschnitt von 30mph und 40 Stundenmeilen ist? fahren Sie für 1 Stunde bei jeder Geschwindigkeit, die Durchschnittliche Geschwindigkeit in den 2 Stunden ist in der Tat der arithmetische Mittelwert, 35mph.
Allerdings, wenn Sie fahren für die gleiche Distanz bei jeder Geschwindigkeit-sagen wir 10-Meilen-dann ist die Durchschnittliche Geschwindigkeit über 20 km ist das harmonische Mittel von 30 und 40, über 34.3 km /h.
Der Grund dafür ist, dass für den durchschnittlichen, um gültig zu sein, die Sie wirklich brauchen, werden die Werte in den gleichen Einheiten skaliert. Meilen pro Stunde abgeglichen werden müssen über die gleiche Anzahl von Stunden, zu vergleichen, über die gleiche Anzahl von Meilen, die Sie brauchen, um Durchschnittliche Stunden pro Meile statt, das ist genau das, was das harmonische Mittel hat.
Precision und recall haben beide echt positiv im Zähler und verschiedene Nenner. Durchschnittliche bis Sie es wirklich macht nur Sinn, Durchschnitt Ihre kehrwerte, also das harmonische Mittel.
Weil es bestraft extreme Werte mehr.
Betrachten trivial Methode (z.B. Rückgabe immer Klasse A). Es gibt unendlich viele Daten-Elemente der Klasse B, und ein einzelnes element der Klasse A:
Wenn das arithmetische Mittel wäre, hätte es 50% richtig. Trotz der schlimmsten mögliche Ergebnis! Mit das harmonische Mittel, das F1-Maß ist 0.
In anderen Worten, Sie haben einen hohen F1, Sie müssen beide haben eine hohe precision und recall.
Das harmonische Mittel entspricht dem arithmetischen Mittelwert für kehrwerte von Mengen, sollten gemittelt werden, indem der arithmetische Mittelwert. Genauer gesagt, das harmonische Mittel, verwandeln Sie alle Ihre zahlen, um die "averageable" form (durch Einnahme der Gegenseitigkeit), Sie nehmen Ihre arithmetische Mittelwert und dann transformieren Sie das Ergebnis zurück in die ursprüngliche Darstellung (durch die Berücksichtigung der wechselseitigen wieder).
Precision und der recall sind "natürlich" kehrwerte, weil Ihr Zähler ist die gleiche, und deren Nenner unterschiedlich sind. Fraktionen sind sinnvoller Mittelwert das arithmetische Mittel, wenn Sie den gleichen Nenner.
Für mehr intuition, nehmen wir an, wir halten die Anzahl der true positive Elemente konstant. Dann, indem die harmonische Mittel von precision und recall, die Sie implizit nehmen das arithmetische Mittel der false positives und false negatives. Im Grunde bedeutet es, dass false-positives und false-negatives sind gleichermaßen wichtig für Sie, wenn Sie das wahre positive Ergebnisse bleiben die gleichen. Wenn ein Algorithmus hat N mehr falsch positive Elemente, aber N weniger false negative-Fehler (während mit dem gleichen true-positive), das F-Maß bleibt das gleiche.
In anderen Worten, die F-Maßnahme ist geeignet, wenn:
Punkt 1 kann oder kann nicht wahr sein, es gibt gewichteten Variante (N) der F-measure, die genutzt werden kann, wenn diese Annahme nicht stimmt. Punkt 2 ist ganz natürlich, denn wir können erwarten, die Ergebnisse zu Skala, wenn wir nur zu klassifizieren, mehr und mehr Punkte. Die relativen zahlen sollte die gleiche bleiben.
Punkt 3 ist sehr interessant. In vielen Anwendungen negative sind die Natürliche Standard-und es kann sogar schwer sein, oder willkürlich festlegen, was wirklich zählt, als true negative. Zum Beispiel ein Feuer-alarm ist mit einem true negatives Ereignis, jede Sekunde, jede Nanosekunde, jedes mal eine Planck-Zeit vergangen ist usw. Sogar ein Stück der rock hat diese wahre negative Feuer-detection-Ereignisse.
Oder in einer face-detection-Fall, die meisten der Zeit, die Sie "richtig nicht zurück" Milliarden von möglichen Bereiche im Bild, aber das ist nicht interessant. Die interessanten Fälle sind, wenn Sie tun Rückkehr eine vorgeschlagene Nachweis-oder wenn Sie sollte zurück.
Hingegen die Klassifizierung Genauigkeit kümmert sich gleichermaßen über die wahre positive und wahre negative und ist mehr geeignet, wenn die Gesamtzahl der Proben (Klassifizierung von Ereignissen) ist gut definiert und eher klein.
Den oben genannten Antworten sind gut erklärt. Dies ist nur für eine schnelle Referenz zu verstehen, die Natur des arithmetischen mittels und das harmonische Mittel mit Grundstücken. Wie Sie sehen können aus die Handlung, betrachten Sie die X-Achse und Y-Achse als precision und recall, und die Z-Achse als die F1-Score. Also, von der Handlung, von der das harmonische Mittel, sowohl die precision und recall soll dazu beitragen, die gleichmäßig für die F1-score zu steigen-anders als der Arithmetische Mittelwert.
Dies ist für den arithmetischen Mittelwert.
Dies ist für das Harmonische Mittel.