Warum ist der F-Measure eine harmonische Mittelwert und nicht das arithmetische Mittel von Präzision und Recall-Maßnahmen?

Wenn wir die Berechnung der F-Measure unter Berücksichtigung von Precision und Recall, wir nehmen das harmonische Mittel der beiden Maßnahmen, anstatt eine einfache arithmetische Mittel.

Was ist der intuitive Grund hinter der Einnahme das harmonische Mittel und nicht ein einfacher Durchschnitt?

Die intuition ist eine balance zwischen precision und recall (in der Regel die beste Messung, aber in einigen Fällen, die Sie wollen zu maximieren precision oder recall, das ist eine andere Geschichte). Man kann nicht ein high-f-score-Wert, wenn entweder eine ist sehr gering.
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Dies ist eine gute Ressource zu verstehen, HM
Beheben Sie den obigen link: di.unipi.es/~bozzo/The%20Harmonic%20Mean.htm oder das original @archive.org

InformationsquelleAutor London guy | 2014-10-14

3

Hier haben wir schon einige aufwendige Antworten, aber ich dachte, etwas mehr Informationen wäre hilfreich für einige Leute, die tiefer eintauchen wollen(vor allem, warum F-measure).

Gemäß der Theorie der Messung des composite Maßnahme sollte genügen die folgenden 6 Definitionen:
1. Verbundenheit(zwei Paare bestellt werden können) und Transitivität(wenn e1 >= e2 und e2 >= e3 dann e1 >= e3)
2. Unabhängigkeit: zwei Komponenten, die dazu beitragen, Ihre Effekte unabhängig voneinander die Wirksamkeit.
3. Thomsen-Bedingung: Angesichts der Tatsache, dass bei einer Konstanten recall (precision) finden wir einen Unterschied in der Wirksamkeit für die beiden Werte precision (recall), dann ist dieser Unterschied nicht beseitigt werden kann oder Umgekehrt durch änderung der Konstante Wert.
4. Eingeschränkte Lösbarkeit.
5. Jede Komponente ist wichtig: Abweichungen in der einen, während die anderen konstant gibt eine Veränderung in der Wirksamkeit.
6. Archimedische Eigenschaft für jede Komponente. Es lediglich gewährleistet, dass die Intervalle auf eine Komponente vergleichbar sind.
Können wir dann ableiten und erhalten die Funktion der Effektivität:

Und die wir normalerweise nicht die Wirksamkeit, sondern die viel simper F-score da:

Nun haben wir die Allgemeine Formel der F-measure:

wo können wir mehr emphesis auf recall oder Präzision bei der Einstellung der beta, weil die beta ist wie folgt definiert:

Wenn wir Gewicht recall wichtiger als Präzision(alle relevanten ausgewählt) können wir einstellen, beta 2, und wir erhalten die F2-Maßnahme. Und wenn wir das tun, die umkehren und Gewicht Präzision höher als erinnern(so viel ausgewählten Elemente relevant sind, wie möglich, zum Beispiel in einigen Grammatik-Fehler-Korrektur-Szenarien wie CoNLL) setzen wir einfach die beta als 0,5 und Holen Sie sich die F0.5 Messen. Und natürlich können wir als beta 1 zu Holen, die den meist verwendeten F1-measure(harmonisches Mittel von Präzision und recall).

Ich denke, zum Teil habe ich schon beantwortet, warum wir nicht das arithmetische Mittel.

Referenzen:

1. https://en.wikipedia.org/wiki/F1_score

2. Die Wahrheit, der F-measure

3. Information retrival

InformationsquelleAutor Lerner Zhang
64

Zu erklären, denken Sie zum Beispiel an, was der Durchschnitt von 30mph und 40 Stundenmeilen ist? fahren Sie für 1 Stunde bei jeder Geschwindigkeit, die Durchschnittliche Geschwindigkeit in den 2 Stunden ist in der Tat der arithmetische Mittelwert, 35mph.

Allerdings, wenn Sie fahren für die gleiche Distanz bei jeder Geschwindigkeit-sagen wir 10-Meilen-dann ist die Durchschnittliche Geschwindigkeit über 20 km ist das harmonische Mittel von 30 und 40, über 34.3 km /h.

Der Grund dafür ist, dass für den durchschnittlichen, um gültig zu sein, die Sie wirklich brauchen, werden die Werte in den gleichen Einheiten skaliert. Meilen pro Stunde abgeglichen werden müssen über die gleiche Anzahl von Stunden, zu vergleichen, über die gleiche Anzahl von Meilen, die Sie brauchen, um Durchschnittliche Stunden pro Meile statt, das ist genau das, was das harmonische Mittel hat.

Precision und recall haben beide echt positiv im Zähler und verschiedene Nenner. Durchschnittliche bis Sie es wirklich macht nur Sinn, Durchschnitt Ihre kehrwerte, also das harmonische Mittel.
- Danke, das ist ein gutes argument, warum dies unterstützt die Theorie, meine Antwort war mehr auf der pragmatischen Seite.
InformationsquelleAutor Sean Owen
59

Weil es bestraft extreme Werte mehr.

Betrachten trivial Methode (z.B. Rückgabe immer Klasse A). Es gibt unendlich viele Daten-Elemente der Klasse B, und ein einzelnes element der Klasse A:
```
Precision: 0.0
Recall:    1.0
```
Wenn das arithmetische Mittel wäre, hätte es 50% richtig. Trotz der schlimmsten mögliche Ergebnis! Mit das harmonische Mittel, das F1-Maß ist 0.
```
Arithmetic mean: 0.5
Harmonic mean:   0.0
```
In anderen Worten, Sie haben einen hohen F1, Sie müssen beide haben eine hohe precision und recall.
- Wenn der Rückruf ist 0,0 die Präzision größer als 0.0 richtige? Aber ich habe den Punkt in deinem Beispiel. Schön erklärt - vielen Dank.
- In deinem Beispiel, Genauigkeit Klasse A von 0,5 statt 0 und recall der Klasse A ist 1; Präzision für die Klasse B ist 0 und recall der Klasse B ist 0, da wir dann. Ich nehme an, Ihr ausgewogenes Klasse bedeutet das wahre Etiketten sind A und B; jeder bezieht sich auf 50% der Daten.
- Lasst uns die unendlichen Elemente der Klasse B, und ein einzelnes element der Klasse A. Es ändert nichts an der Mathematik hinter F1.
- Das hört sich gut an!
- Es ist nicht nur eine Heuristik auswählen, mehr balance. Das harmonische Mittel ist es nur sinnvoll gegeben werden die Einheiten für diese Verhältnisse. Meine hätte kein Sinn im Vergleich
- Wo steht denn "Heuristik", und wo kommt dein Kommentar unterscheiden sich von meiner Antwort? Aber: F-measure ist eine Heuristik, die es annimmt, precision und recall sind ebenso wichtig. Das ist der Grund, warum die beta-Begriff gewählt werden muss - heuristisch, ein in der Regel verwendet, beta=1 ist.
InformationsquelleAutor Anony-Mousse
21

Das harmonische Mittel entspricht dem arithmetischen Mittelwert für kehrwerte von Mengen, sollten gemittelt werden, indem der arithmetische Mittelwert. Genauer gesagt, das harmonische Mittel, verwandeln Sie alle Ihre zahlen, um die "averageable" form (durch Einnahme der Gegenseitigkeit), Sie nehmen Ihre arithmetische Mittelwert und dann transformieren Sie das Ergebnis zurück in die ursprüngliche Darstellung (durch die Berücksichtigung der wechselseitigen wieder).

Precision und der recall sind "natürlich" kehrwerte, weil Ihr Zähler ist die gleiche, und deren Nenner unterschiedlich sind. Fraktionen sind sinnvoller Mittelwert das arithmetische Mittel, wenn Sie den gleichen Nenner.

Für mehr intuition, nehmen wir an, wir halten die Anzahl der true positive Elemente konstant. Dann, indem die harmonische Mittel von precision und recall, die Sie implizit nehmen das arithmetische Mittel der false positives und false negatives. Im Grunde bedeutet es, dass false-positives und false-negatives sind gleichermaßen wichtig für Sie, wenn Sie das wahre positive Ergebnisse bleiben die gleichen. Wenn ein Algorithmus hat N mehr falsch positive Elemente, aber N weniger false negative-Fehler (während mit dem gleichen true-positive), das F-Maß bleibt das gleiche.

In anderen Worten, die F-Maßnahme ist geeignet, wenn:
1. Fehler sind gleich schlecht, ob Sie false positives oder false negatives
2. die Anzahl der Fehler gemessen wird, relativ zu der Anzahl der true-positives
3. wahr negativ sind uninteressant
Punkt 1 kann oder kann nicht wahr sein, es gibt gewichteten Variante (N) der F-measure, die genutzt werden kann, wenn diese Annahme nicht stimmt. Punkt 2 ist ganz natürlich, denn wir können erwarten, die Ergebnisse zu Skala, wenn wir nur zu klassifizieren, mehr und mehr Punkte. Die relativen zahlen sollte die gleiche bleiben.

Punkt 3 ist sehr interessant. In vielen Anwendungen negative sind die Natürliche Standard-und es kann sogar schwer sein, oder willkürlich festlegen, was wirklich zählt, als true negative. Zum Beispiel ein Feuer-alarm ist mit einem true negatives Ereignis, jede Sekunde, jede Nanosekunde, jedes mal eine Planck-Zeit vergangen ist usw. Sogar ein Stück der rock hat diese wahre negative Feuer-detection-Ereignisse.

Oder in einer face-detection-Fall, die meisten der Zeit, die Sie "richtig nicht zurück" Milliarden von möglichen Bereiche im Bild, aber das ist nicht interessant. Die interessanten Fälle sind, wenn Sie tun Rückkehr eine vorgeschlagene Nachweis-oder wenn Sie sollte zurück.

Hingegen die Klassifizierung Genauigkeit kümmert sich gleichermaßen über die wahre positive und wahre negative und ist mehr geeignet, wenn die Gesamtzahl der Proben (Klassifizierung von Ereignissen) ist gut definiert und eher klein.
- Sehr gut erklärt!
InformationsquelleAutor isarandi
17

Den oben genannten Antworten sind gut erklärt. Dies ist nur für eine schnelle Referenz zu verstehen, die Natur des arithmetischen mittels und das harmonische Mittel mit Grundstücken. Wie Sie sehen können aus die Handlung, betrachten Sie die X-Achse und Y-Achse als precision und recall, und die Z-Achse als die F1-Score. Also, von der Handlung, von der das harmonische Mittel, sowohl die precision und recall soll dazu beitragen, die gleichmäßig für die F1-score zu steigen-anders als der Arithmetische Mittelwert.

Dies ist für den arithmetischen Mittelwert.

Dies ist für das Harmonische Mittel.
- Bitte verwenden Sie die Formatierung tools, um ordnungsgemäß zu Bearbeiten und formatieren Sie Ihre Antwort. Bild sollte hier angezeigt werden , ist es nicht ein hyperlink.
InformationsquelleAutor gadde saikumar

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.