YOLO-Objekt-Erkennung Modell?

Derzeit lese ich die Yolo9000 Modell "https://arxiv.org/pdf/1612.08242.pdf" und ich bin sehr verwirrt, wie kann das Modell Vorhersagen, die bounding box für die Objekterkennung, ich habe viele Beispiele mit Tensorflow, und in den meisten von Ihnen geben wir dem Modell "- Bilder und Beschriftung von Bildern".

Meine Fragen sind:
1 - Wie können wir übergeben der bounding-box anstelle des labels am Modell?
2 - Wie kann man den das Modell erfahren, dass viele Boxen gehören zu einer Bilder?

InformationsquelleAutor Kamel BOUYACOUB | 2017-03-29

8

In YOLO, teilen wir das Bild in 7X7 raster. Für jede der raster Lage, das Netzwerk prognostiziert drei Dinge
1. Die Wahrscheinlichkeit, dass ein Objekt anwesend ist, ist das Gitter
2. Wenn ein Objekt liegt, in dieses raster, was wäre dann die Koordinaten des
  bounding box?
3. Wenn ein Objekt liegt, in diesem Netz, welche Klasse funktioniert es
  gehören?
Wenn wir die regression für alle Variablen, die für alle 49-grid-Standorten, können wir sagen, welche grid-Standorte von Objekten(mit ersten parameter). Für den Netz-Standorten, die über Objekte verfügen, können wir sagen, die bounding-box-Koordinaten und richtig Klasse mit dem zweiten und Dritten Parameter.

Einmal haben wir ein Netzwerk, in dem die Ausgabe aller Informationen, die wir benötigen, bereiten Sie die Trainingsdaten in diesem format z.B. finden Sie diese Parameter für jede 7X7-raster-Position in jedem Bild, in dem dataset. Neben Sie einfach den Zug der tiefen neuronalen Netzes zur Rückbildung für diese Parameter.

InformationsquelleAutor Tejus Gupta
0

Übergeben bounding Box eines Bildes müssen wir ihn zuerst erstellen. Können Sie erstellen, bounding boxes für jedes Bild mithilfe von speziellen tools. Hier müssen Sie Grenzen setzen, die gebunden oder ein Objekt aus und dann Etikett, bounding-box/Rechteck. Sie tun dies für jedes Objekt in dem Bild, das Sie wollen, um das Modell in Zug/erkennen.

Es ist ein sehr sinnvolles Projekt in diesem link, sollten Sie überprüfen, dass aus, wenn Sie verstehen müssen, über die bounding Boxen.

Ich habe gerade angefangen zu lernen, Objekterkennung mit tensorflow. Also wie und wo bekomm ich die richtige info auf die Bereitstellung von bounding-Boxen, um das Objekt-Erkennung Modell werde ich das update auch hier. Auch wenn Sie dieses problem gelöst haben, können Sie jetzt auch die details, um zu helfen, andere vor gleichen Art von Problemen.

Ich weiß, wie kommentieren Sie die Bilder, aber was ich nicht verstehe ist, wie man tensorflow kann Vorhersagen, die Koordinaten, die ich trainiere, und ich Teste viele CNN, aber alle filter anwenden, um alle Bilder, aber im Fall der Objekterkennung, müssen wir extrahieren Sie die POSITION des Objekts, wie Tensoflow tun können ?
Was ich weiß, bis jetzt ist, dass es konvertiert jedes Bild in Graustufen, aber danach war ich auch nicht in der Lage zu begreifen, weitere details. Wenn jemand weiß, diesen Prozess besser erklären würden, ist es dann das beste wäre.

InformationsquelleAutor Abhishek Soni
0

1 - Wie können wir übergeben der bounding-box anstelle des labels am Modell?

Wenn wir trainieren wollen, ein Modell, das führt Objekterkennung (kein Objekt-Klassifizierung), die wir zu Durchlaufen haben, die Wahrheit labels wie .xml-Dateien, zum Beispiel. Eine xml-Datei enthält Informationen über Objekte, die es in ein Bild. Jede information über das Objekt, bestehend aus 5 Werten:
1. Klassennamen dieses Objekts, wie Auto oder Mensch...
2. xmin: x-Koordinate der box, oben Links, Punkt
3. ymin: y-Koordinate der box, oben Links, Punkt
4. xmax: x-Koordinate der box mit dem unteren rechten Punkt
5. ymax: y-Koordinate der box ' x unteren rechten Punkt
Einer bounding box innerhalb eines Bildes ist definiert als ein Satz von 5 Werten wie oben. Wenn dort sind 3 Objekte in einem Bild, die xml-Datei enthält 3 Sätze von diesen Werten.

2 - Wie kann man den das Modell erfahren, dass viele Boxen gehören zu einer Bilder?

Wie Sie wissen, ist die Ausgabe von YOLOv2 oder YOLO9000 hat die Form (13, 13, D), wobei D hängt davon ab, wie viele Klasse des Objekts, Sie gehen zu erkennen. Sie können sehen, dass es 13x13 = 169-Zellen (grid-Zellen) und jede Zelle als D-Werte (Tiefe).

Unter 169 grid-Zellen, es gibt einige grid-Zellen, die verantwortlich sind, um vorherzusagen, bounding-Boxen. Wenn das Zentrum eines wahren bounding box fällt auf eine grid-Zelle in diesem raster Zelle verantwortlich ist, um vorherzusagen, dass die bounding-box, wenn es gegeben ist, das gleiche Bild.

Ich denke, es muss eine Funktion sein, die liest die xml-annotation-Dateien und ermittelt, welche raster-Zellen verantwortlich sind, zu erkennen bounding-Boxen.

Machen das Modell lernen Sie die Kontrollkästchen der Positionen und der Formen, die nicht nur die Klassen, die wir haben, um eine entsprechende Verlust-Funktion. Die Verlust-Funktion verwendet, in YOLOv stellt Kosten-auch auf dem Feld-Formen und-Positionen. Also der Verlust ist berechnet als die gewichtete Summe der einzelnen Dämpfungswerte:
1. Verlust auf den Namen der Klasse
2. Verlust an der box-position (x- /y-Koordinaten)
3. Verlust auf die Form des Kastens (box Breite und Höhe)
SEITE HINWEIS:
- Eigentlich eine grid-Zelle erkennen kann, bis zur B-Boxen, in denen B abhängt
  Implementierungen von YOLOv2. Ich verwendet darkflow zu trainieren YOLOv2 auf meinem
  
  kundenspezifische Trainings-Daten, die in die B 5 war. So kann das Modell erkennen 169*B
  Boxen insgesamt, und der Verlust ist die Summe von 169*B, kleine Verluste.
- D = B*(5+C), wobei C die Anzahl der Klassen, die Sie wollen, zu erkennen.
- Vor dem Modell übergeben, die box-Formen und-Positionen sind
  Umgerechnet in relative Werte, um die Größe des Bildes.
InformationsquelleAutor Yoshio Yamauchi 山内義生

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.