YOLO-Objekt-Erkennung Modell?
Derzeit lese ich die Yolo9000 Modell "https://arxiv.org/pdf/1612.08242.pdf" und ich bin sehr verwirrt, wie kann das Modell Vorhersagen, die bounding box für die Objekterkennung, ich habe viele Beispiele mit Tensorflow, und in den meisten von Ihnen geben wir dem Modell "- Bilder und Beschriftung von Bildern".
Meine Fragen sind:
1 - Wie können wir übergeben der bounding-box anstelle des labels am Modell?
2 - Wie kann man den das Modell erfahren, dass viele Boxen gehören zu einer Bilder?
InformationsquelleAutor Kamel BOUYACOUB | 2017-03-29
Du musst angemeldet sein, um einen Kommentar abzugeben.
In YOLO, teilen wir das Bild in 7X7 raster. Für jede der raster Lage, das Netzwerk prognostiziert drei Dinge
bounding box?
gehören?
Wenn wir die regression für alle Variablen, die für alle 49-grid-Standorten, können wir sagen, welche grid-Standorte von Objekten(mit ersten parameter). Für den Netz-Standorten, die über Objekte verfügen, können wir sagen, die bounding-box-Koordinaten und richtig Klasse mit dem zweiten und Dritten Parameter.
Einmal haben wir ein Netzwerk, in dem die Ausgabe aller Informationen, die wir benötigen, bereiten Sie die Trainingsdaten in diesem format z.B. finden Sie diese Parameter für jede 7X7-raster-Position in jedem Bild, in dem dataset. Neben Sie einfach den Zug der tiefen neuronalen Netzes zur Rückbildung für diese Parameter.
InformationsquelleAutor Tejus Gupta
Übergeben bounding Box eines Bildes müssen wir ihn zuerst erstellen. Können Sie erstellen, bounding boxes für jedes Bild mithilfe von speziellen tools. Hier müssen Sie Grenzen setzen, die gebunden oder ein Objekt aus und dann Etikett, bounding-box/Rechteck. Sie tun dies für jedes Objekt in dem Bild, das Sie wollen, um das Modell in Zug/erkennen.
Es ist ein sehr sinnvolles Projekt in diesem link, sollten Sie überprüfen, dass aus, wenn Sie verstehen müssen, über die bounding Boxen.
Ich habe gerade angefangen zu lernen, Objekterkennung mit tensorflow. Also wie und wo bekomm ich die richtige info auf die Bereitstellung von bounding-Boxen, um das Objekt-Erkennung Modell werde ich das update auch hier. Auch wenn Sie dieses problem gelöst haben, können Sie jetzt auch die details, um zu helfen, andere vor gleichen Art von Problemen.
Was ich weiß, bis jetzt ist, dass es konvertiert jedes Bild in Graustufen, aber danach war ich auch nicht in der Lage zu begreifen, weitere details. Wenn jemand weiß, diesen Prozess besser erklären würden, ist es dann das beste wäre.
InformationsquelleAutor Abhishek Soni
1 - Wie können wir übergeben der bounding-box anstelle des labels am Modell?
Wenn wir trainieren wollen, ein Modell, das führt Objekterkennung (kein Objekt-Klassifizierung), die wir zu Durchlaufen haben, die Wahrheit labels wie .xml-Dateien, zum Beispiel. Eine xml-Datei enthält Informationen über Objekte, die es in ein Bild. Jede information über das Objekt, bestehend aus 5 Werten:
Einer bounding box innerhalb eines Bildes ist definiert als ein Satz von 5 Werten wie oben. Wenn dort sind 3 Objekte in einem Bild, die xml-Datei enthält 3 Sätze von diesen Werten.
2 - Wie kann man den das Modell erfahren, dass viele Boxen gehören zu einer Bilder?
Wie Sie wissen, ist die Ausgabe von YOLOv2 oder YOLO9000 hat die Form (13, 13, D), wobei D hängt davon ab, wie viele Klasse des Objekts, Sie gehen zu erkennen. Sie können sehen, dass es 13x13 = 169-Zellen (grid-Zellen) und jede Zelle als D-Werte (Tiefe).
Unter 169 grid-Zellen, es gibt einige grid-Zellen, die verantwortlich sind, um vorherzusagen, bounding-Boxen. Wenn das Zentrum eines wahren bounding box fällt auf eine grid-Zelle in diesem raster Zelle verantwortlich ist, um vorherzusagen, dass die bounding-box, wenn es gegeben ist, das gleiche Bild.
Ich denke, es muss eine Funktion sein, die liest die xml-annotation-Dateien und ermittelt, welche raster-Zellen verantwortlich sind, zu erkennen bounding-Boxen.
Machen das Modell lernen Sie die Kontrollkästchen der Positionen und der Formen, die nicht nur die Klassen, die wir haben, um eine entsprechende Verlust-Funktion. Die Verlust-Funktion verwendet, in YOLOv stellt Kosten-auch auf dem Feld-Formen und-Positionen. Also der Verlust ist berechnet als die gewichtete Summe der einzelnen Dämpfungswerte:
SEITE HINWEIS:
Implementierungen von YOLOv2. Ich verwendet darkflow zu trainieren YOLOv2 auf meinem
kundenspezifische Trainings-Daten, die in die B 5 war. So kann das Modell erkennen 169*B
Boxen insgesamt, und der Verlust ist die Summe von 169*B, kleine Verluste.
Umgerechnet in relative Werte, um die Größe des Bildes.
InformationsquelleAutor Yoshio Yamauchi 山内義生