mAP-Metrik in Objekterkennung und Computer Vision

In der computer vision und Objekterkennung, die gemeinsame Bewertung Methode anzeigen.
Was ist das und wie wird es berechnet?

InformationsquelleAutor der Frage cerebrou | 2016-03-29

27

Sind Zitate aus der oben genannten Zisserman Papier - 4.2 Auswertung der Ergebnisse (Seite 11):

Zunächst eine "overlap-Kriterium" ist definiert als eine Kreuzung-over-union größer als 0,5. (z.B. wenn eine vorhergesagte box erfüllt dieses Kriterium mit Bezug auf eine Boden-Wahrheit-box, wird dies als Erkennung). Dann ein matching zwischen dem GT-Boxen und die prognostizierte Boxen, die mit dieser "gierig" - Ansatz:

Erkennungen Ausgabe durch ein Verfahren zugeordnet wurden ground truth-Objekte
die Befriedigung der überlappung Kriterium, um Platz durch die (abnehmende)
Vertrauen Ausgabe. Mehrere detektionen desselben Objekts in einem Bild
wurden als falsch-Erkennungen z.B. 5 Erkennungen von einem einzigen Objekt
als 1 gezählt korrekte Erkennung und 4 Fehlerkennungen

Daher jedes vorhergesagte Feld ist entweder wahr (True-Positive oder Falsch-Positiv.
Jede Boden-Wahrheit-box ist entweder wahr (True-Positive oder Falsch-Negative.
Es sind keine True-Negative.

Dann die Durchschnittliche precision berechnet sich durch Mittelung der precision-Werte auf die precision-recall-Kurve, wo der recall in der Auswahl [0, 0.1, ..., 1] (z.B. Durchschnitt von 11 precision-Werte). Um genauer zu sein, betrachten wir eine leicht korrigierte PR-Kurve, wo für jeden Kurvenpunkt (p, r), wenn es eine andere Kurve zeigen (p', r') so, dass p' > p-und r' >= r ersetzen wir p mit maximal p " der Punkte.

Was ist mir noch immer unklar ist, was geschieht mit denen, GT-Boxen nie erkannt (auch wenn das Vertrauen ist 0). Dies bedeutet, dass es bestimmte recall-Werte, dass die precision-recall-Kurve nie erreichen wird, und dies macht die Durchschnittliche Genauigkeit der Berechnung oben nicht definiert.

Edit:

Kurze Antwort: in der region, wo der Rückruf nicht erreichbar ist, die Präzision sinkt auf 0.

Einen Weg dies zu erklären ist zu vermuten, dass, wenn der Schwellenwert für das Vertrauen, das die Ansätze 0, eine unendliche Anzahl von vorhergesagt bounding-Boxen Leuchten alle über das Bild. Die Präzision, dann geht sofort auf 0 (da es nur eine endliche Anzahl von GT-Boxen) und dem erinnern wächst auf diesen flachen Kurve bis wir 100% erreichen.

InformationsquelleAutor der Antwort Jonathan
32

Karte ist der Mittelwert Präzision.

Seine Verwendung ist anders in den Bereich des Information Retrieval (Referenz [1] [2] )und Multi-Class classification (Objekt-Erkennung) Einstellungen.

Berechnen Sie für die Objekterkennung, berechnen Sie die Durchschnittliche Genauigkeit für jede Klasse in Ihren Daten auf Basis des Modells Vorhersagen. Durchschnittliche Genauigkeit ist in Bezug auf die Fläche unter der precision-recall-Kurve für die a-Klasse. Dann Nehmen Sie das Mittel dieser Durchschnittliche Individuum-Klasse-Präzision bietet Ihnen die Mean Average Precision.

Zur Berechnung der Durchschnittlichen Genauigkeit, siehe [3]

InformationsquelleAutor der Antwort Ankitp94
15

Zur Erkennung, einen gemeinsamen Weg zu bestimmen, ob ein Objekt Vorschlag war
rechts ist Kreuzung Union - (IoU, IU). Dieser nimmt den Satz A
der vorgeschlagene Objekt-Pixel und die Menge der echten Objekt-Pixel B und
berechnet:
```
IoU(A, B) = \frac{A \cap B}{A \cup B}
```
Allgemein, IoU > 0.5 bedeutet, dass es war ein Treffer, ansonsten war es ein fail. Für jede Klasse, kann man berechnen der
- True Positive TP(c): der Vorschlag gemacht wurde für die Klasse c und es war eigentlich ein Objekt der Klasse c
- False Positive FP(c): der Vorschlag gemacht wurde für Klasse c, aber es ist kein Objekt von der Klasse c
- Durchschnittliche Genauigkeit für Klasse c: \frac{#TP(c)}{#TP(c) + #FP(c)}
Des mAP (mean average precision) ist dann:
```
mAP = \frac{1}{|classes|}\sum_{c \in classes} \frac{\#TP(c)}{\#TP(c) + \#FP(c)}
```
Hinweis:
Will man bessere Vorschläge, erhöhen Sie den Schuldschein von 0,5 auf einen höheren Wert (bis zu 1,0 das wäre perfekt). Kann man bezeichnen dies mit anzeigen@p, wo p \in (0, 1) ist die IoU.

mAP@[.5:.95] bedeutet, dass die Karte ist berechnet über mehrere Schwellenwerte und dann wieder gemittelt wird

Edit:
Weitere detaillierte Informationen finden Sie in der COCO Bewertung von Metriken

InformationsquelleAutor der Antwort vanilla
7

Ich glaube, der wichtige Teil hierbei ist die Verlinkung, wie Objekt-Erkennung kann als die gleiche wie die standard-information-retrieval-Probleme, für die es existiert zumindest eine hervorragende Beschreibung der durchschnittlichen Präzision.

Die Ausgabe einer Objekt-Erkennung-Algorithmus ist eine Menge von vorgeschlagen bounding-Boxen, und für jedes, das Vertrauen und die Einstufung erzielt wird (ein Ergebnis pro Klasse). Wir ignorieren die Klassifizierung erreicht souverän für jetzt, und nutzen das Vertrauen als input für eine Schwellenwert binäre Klassifikation. Intuitiv die Durchschnittliche Genauigkeit ist eine aggregation über alle Entscheidungen, die für die Schwellenwert - /cut-off-Wert. Aber warten Sie, um zu berechnen, Präzision, wir müssen wissen, ob eine box ist richtig!!!!

Dies ist, wo es verwirrend/schwierig; im Gegensatz zu typischen information retrieval-Probleme, wir haben tatsächlich eine zusätzliche Ebene der Klassifizierung. Das heißt, wir können nicht eine genaue übereinstimmung zwischen den Boxen, also müssen wir klassifizieren, wenn eine bounding box korrekt ist oder nicht. Die Lösung ist im wesentlichen tun, eine hart codierte Klassifizierung der box Dimensionen; wir prüfen, ob es genügend überschneidungen mit jedem Boden Wahrheit, um als 'richtig'. Der Schwellenwert für diesen Teil gewählt wird, die durch den gesunden Menschenverstand. Das dataset, auf dem Sie arbeiten, wird wahrscheinlich definieren, was in dieser Schwellenwert für eine 'richtige' bounding box ist. Die meisten Datensätze nur setzen Sie ihn auf 0,5 IoU und lassen Sie es zu, dass (ich empfehle, ein paar manuelle IoU Berechnungen [Sie sind nicht schwer] ein Gefühl dafür zu bekommen, wie streng IoU von 0,5 tatsächlich ist).

Nun, wir haben eigentlich definiert, was es bedeutet, "richtig" ist, können wir einfach mit dem gleichen Verfahren wie information retrieval.

Finden mean average precision (mAP), die Sie nur unterteilen, deine vorgeschlagenen Boxen basiert auf dem maximal von der Klassifizierung erzielt im Zusammenhang mit diesen Boxen, dann ist der Durchschnitt (Mittelwert) die Durchschnittliche Präzision (AP) über den Klassen.

TLDR; die Unterscheidung zwischen der Bestimmung, ob eine bounding box Vorhersage ist die "richtige" (extra-Ebene der Klassifikation) und die Auswertung, wie gut die box Vertrauens informiert Sie der "richtige" bounding-box-Vorhersage (völlig Analog zu information-retrieval-Fall) und die typischen Beschreibungen der Karte Sinn machen wird.

Es ist erwähnenswert, dass Die Fläche unter der Precision/Recall-Kurve ist die gleiche wie die Durchschnittliche Präzisionund wir sind im wesentlichen die Angleichung in diesem Bereich mit der Trapez-oder Rechte-hand-Regel für die Angleichung der Integrale.

InformationsquelleAutor der Antwort Multihunter
0

Es ist ein repository , bietet eine detaillierte Erklärung der wichtigsten verwendeten Metriken zur Bewertung der Objekterkennung, einschließlich Karte.

Es ist auch einfach zu bedienen Funktionen, die Sie verwenden können, um bewerten Sie Ihre eigenen Objekt-Erkennung-Algorithmus.

Objekt-Detecion-Metrik-repository zugegriffen werden kann hier.

https://github.com/rafaelpadilla/Object-Detection-Metrics

InformationsquelleAutor der Antwort Rafael Padilla

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.