Batch-Normalisierung in Convolutional Neural Network

Ich bin Neuling in convolutional neural networks und habe nur Ahnung von feature maps und wie Faltung erfolgt auf Bilder zum extrahieren von features. Ich wäre froh, zu wissen, einige details über die Anwendung batch-Normalisierung in der CNN.

Ich Las dieses Papier https://arxiv.org/pdf/1502.03167v3.pdf und verstehen konnte der BN-Algorithmus angewendet auf eine Daten-aber am Ende werden Sie erwähnt, dass eine leichte Modifikation ist erforderlich, wenn auf CNN:

Für convolutional Layer, haben wir zusätzlich wollen, dass die Normalisierung zu gehorchen, die convolutional-Eigenschaft – so, dass verschiedene Elemente der gleichen feature-Karte, die an verschiedenen Orten sind normiert auf die gleiche Weise. Um dies zu erreichen, haben wir gemeinsam normalisieren alle Aktivierungen an einem mini - batch über alle Standorte. In Alg. 1, lassen wir mit B die Menge aller Werte die in einem feature anzeigen über beide Elemente eines mini-batch-und Ortslagen – also für einen mini-batch-Größe m-und feature-Karten der Größe p × q verwenden wir die effektiven mini-batch-Größe m' = |B| = m · pq. Wir lernen ein paar Parameter γ(k) und β(k) pro-feature-map, als pro Aktivierung. Alg. 2 geändert wird, ähnlich, so dass bei der Ableitung der BN-Transformation gilt die gleiche lineare transformation auf jede Aktivierung einer bestimmten Funktion anzeigen.

Ich bin total verwirrt, wenn Sie sagen
", so dass verschiedene Elemente der gleichen feature-Karte, die an verschiedenen Orten sind normiert auf die gleiche Weise"

Ich wissen, welche feature-Karten bedeuten und die verschiedenen Elemente sind die GEWICHTE in jeder Funktion anzeigen. Aber ich konnte nicht verstehen, was Standort oder räumliche Lage bedeutet.

Konnte ich nicht verstehen, die unterhalb Satz überhaupt
"In Alg. 1, lassen wir mit B die Menge aller Werte die in einem feature anzeigen über beide Elemente eines mini-batch-und Ortslagen"

Ich würde mich freuen wenn mir kalt erarbeiten und erklären Sie mir, in viel einfacheren Worten

InformationsquelleAutor akshata bhat | 2016-07-24

57

Beginnen wir mit den Bedingungen. Denken Sie daran, dass der Ausgang des convolutional layer ist ein 4-Rang-tensor [B, H, W, C], wo B ist die batch-Größe, (H, W) ist die feature map Größe C ist die Anzahl der Kanäle. Ein index (x, y) wo 0 <= x < H und 0 <= y < W ist ein räumliche Lage.

Üblichen batchnorm

Nun, hier ist, wie die batchnorm angewendet wird, in einer üblichen Art und Weise (in pseudo-code):
```
# t is the incoming tensor of shape [B, H, W, C]
# mean and stddev are computed along 0 axis and have shape [H, W, C]
mean = mean(t, axis=0)
stddev = stddev(t, axis=0)
for i in 0..B-1:
  out[i,:,:,:] = norm(t[i,:,:,:], mean, stddev)
```
Grundsätzlich berechnet H*W*C bedeutet und H*W*C Standardabweichungen über B Elemente. Sie können feststellen, dass verschiedene Elemente auf unterschiedlichen räumlichen Orten haben Ihre eigenen Mittelwert und die Varianz und sammeln nur B Werte.

Batchnorm in conv Schicht

Diese Art und Weise ist völlig möglich. Aber der convolutional layer hat eine Besondere Eigenschaft: filter-GEWICHTE beziehen sich auf die input-Bild (Sie können Lesen Sie im detail in dieser Beitrag). Deshalb ist es sinnvoll, normalisieren die Ausgabe in der gleichen Weise, so dass jeder output mit dem Wert nimmt der Mittelwert und die Varianz der B*H*W Werte, an verschiedenen stellen.

Hier ist, wie der code aussieht, wie in diesem Fall (mal wieder pseudo-code):
```
# t is still the incoming tensor of shape [B, H, W, C]
# but mean and stddev are computed along (0, 1, 2) axes and have just [C] shape
mean = mean(t, axis=(0, 1, 2))
stddev = stddev(t, axis=(0, 1, 2))
for i in 0..B-1, x in 0..H-1, y in 0..W-1:
  out[i,x,y,:] = norm(t[i,x,y,:], mean, stddev)
```
Insgesamt gibt es nur C Mittelwerte und Standardabweichungen, und jeder von Ihnen wird berechnet über B*H*W Werte. Das ist, was Sie meinen, wenn Sie sagen "effektive mini-batch": den Unterschied zwischen den beiden ist nur in der Achse der Auswahl " (oder gleichwertig "mini-batch-Auswahl").
- Tolle Antwort, aber ich denke du meinst, wir sollten nehmen Sie den Mittelwert und die Varianz der B*H*W Werte, nicht B*H*C Werte. Siehe den ersten Absatz nach dem Batchnorm in conv layer. So oder so, +1.
- vielen Dank, ein Tippfehler in der Tat korrigiert werden.
- Könnten wir nicht einfach schreiben: out[:,:,:,:] = norm(t[:,:,:,:], mean, stddev) ohne Schleife? Der Mittelwert und die Varianz berechnet werden, die über den ganzen Stapel und dann wird für jedes element im batch einzeln, anstatt auf einmal? @maxim
- In Bezug auf die BN für conv Schichten, man kann hier mehr Informationen bekommen - arxiv.org/pdf/1502.03167.pdf im Abschnitt 3.2. Die jist ist, dass wir erhalten wollen, convolutional Eigenschaften (z.B. räumliche übersetzung Invarianz der Funktion) und damit der Mittelwert, berechnet über die Achsen von BxHxW
InformationsquelleAutor Maxim
1

Ich bin nur zu 70% sicher, was ich sage, also wenn es nicht sinnvoll ist, bitte editieren oder zu erwähnen, bevor downvoting.

Über location oder spatial location: Sie bedeuten, dass die position der Pixel in einem Bild oder ein feature anzeigen. Eine feature map ist vergleichbar mit einer lichten modifizierte version von dem Bild, wo Konzepte vertreten sind.

Über so that different elements of the same feature map, at different locations, are normalized in the same way:
einige Normalisierung algorithmen sind lokal, also abhängig von Ihrem näheren Umfeld (Lage) und nicht die Dinge, die weit auseinander in der Bild. Sie wahrscheinlich bedeuten, dass jedes pixel unabhängig von Ihrem Standort, wird genauso behandelt wie das element eines Satzes, unabhängig von direkten speziellen Umgebung.

Über In Alg. 1, we let B be the set of all values in a feature map across both the elements of a mini-batch and spatial locations: Sie erhalten eine flache Liste aller Werte für jedes training Beispiel in der minibatch, und diese Liste vereint die Dinge unabhängig von Ihrem Standort auf der feature map.
- Wollte nur klar meine Idee mit einem Beispiel. Also im Grunde, wenn wir 10 feature maps der Größe 5x5 und mini-batch-Größe von 20, so können wir versuchen zu normalisieren jedes feature-Karte auch einzeln? So ist die neue mini-batch-Größe = 20 * 25.(25, weil die feature map ist in der Größe 5x5). Ich bin verwirrt, wenn einzelne feature map ist normiert mit seinen eigenen Mittelwert und Varianz oder der Mittelwert und die Varianz ist die gleiche für alle 10-feature-maps. Wenn letzteres der Fall ist, was wird das neue mini-batch-Größe?
InformationsquelleAutor Guillaume Chevalier

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Üblichen batchnorm

Batchnorm in conv Schicht