Wie berechne rezeptive Feld Größe?

Bin ich beim Lesen Papier über die Verwendung von CNN(Convolutional neural network) für die Objekterkennung.

Umfangreiche feature-Hierarchien für eine genaue Objekterkennung und semantische Segmentierung

Hier ist ein Zitat, über das rezeptive Feld:

The pool5 feature map is 6x6x256 = 9216 dimensional. Ignoring boundary effects, each pool5 unit has a receptive field of 195x195 pixels in the original 227x227 pixel input. A central pool5 unit has a nearly global view,
while one near the edge has a smaller, clipped support.

Meine Fragen sind:

Was ist die definition der rezeptiven Feld?
Wie Sie berechnen Lage und Größe der rezeptiven Feld?
Wie können wir berechnen bounding-rect der rezeptiven Feld mit caffe/pycaffe?

hier ist ein on-line-Rechner von rezeptiven Feld: fomoro.com/tools/receptive-fields

InformationsquelleAutor mrgloom | 2016-02-23

computer-vision deep-learning

6

1) Es ist die Größe der Fläche der Pixel, die Auswirkungen auf die Leistung der letzten Gehirnwindung.

2) Für jede Faltung und Bündelung Betrieb, berechnen Sie die Größe der Ausgabe. Nun finden Sie die input-Größe, die Ergebnisse in einer output-Größe von 1x1. Das ist die Größe der rezeptiven Feld

3) brauchen Sie nicht zu verwenden eine Bibliothek, um es zu tun. Für jeden 2x2-pooling wird die Ausgabe der Größe um die Hälfte reduziert wird entlang jeder dimension. Für strided Windungen, die Sie auch teilen Sie die Größe der einzelnen Dimensionen durch die Schrittlänge. Können Sie haben, sich zu rasieren Weg von etwas von der dimension abhängig, wenn Sie Polsterung für Ihren Windungen. Der einfachste Fall ist die Verwendung von padding = floor(kernel size/2), so dass eine Faltung Dosis über keine zusätzlichen Veränderungen auf der Ausgabe-Größe.

InformationsquelleAutor Raff.Edward
6

Hier ist ein weiterer Weg, um berechnet rezeptive Feld direkt. Stackoverflow unterstützt keine mathematische Formel, für eine besser lesbare version, entnehmen Sie bitte Berechnung Rezeptive Feld von CNN

Des rezeptiven Feldes (RF) $l_k$ layer $k$ ist:

$$ l_k = l_{k-1} + ((f_k - 1) * prod_{i=1}^{k-1}s_i) $$

wo $l_{k-1}$ ist das rezeptive Feld des layer - $k-1$, $f_k$ ist der filter Größe
(Höhe oder Breite, aber vorausgesetzt, Sie sind gleich hier), und $s_i$ ist die Schrittlänge
der layer $i$.

Den oben aufgeführten Formel berechnet rezeptive Feld von unten nach oben (aus der Schicht
1). Intuitiv, RF in der Ebene $k$ deckt $(f_k - 1) * s_{k-1}$ mehr Pixel
relativ mit layer - $k-1$. Jedoch das Inkrement umgesetzt werden muss, um die
erste Schicht, also die Schrittweite ist ein Fakt --- ein Schritt in layer - $k-1$ ist
exponentiell mehr Fortschritte in den unteren Schichten.

Hoffe, das ist hilfreich.
- Der link ist kaputt
- Vielen Dank für den Hinweis. Jetzt sollte es funktionieren.
InformationsquelleAutor Shawn Lee
5

Tensorflow unterstützt nun das rezeptive Feld der Berechnung, indem Sie einfach tf.contrib.receptive_field

Sehen https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/receptive_field für details.

InformationsquelleAutor André Araujo

Wie oben, mit möglicherweise korrekte Berechnung von RF:

#Compute input size that leads to a 1x1 output size, among other things   

# [filter size, stride, padding]

convnet =[[11,4,0],[3,2,0],[5,1,2],[3,2,0],[3,1,1],[3,1,1],[3,1,1],[3,2,0],[6,1,0]]
layer_name = ['conv1','pool1','conv2','pool2','conv3','conv4','conv5','pool5','fc6-conv']
imsize = 227

def outFromIn(isz, layernum = 9, net = convnet):
    if layernum>len(net): layernum=len(net)

    totstride = 1
    insize = isz
    #for layerparams in net:
    for layer in range(layernum):
        fsize, stride, pad = net[layer]
        outsize = (insize - fsize + 2*pad) /stride + 1
        insize = outsize
        totstride = totstride * stride
    return outsize, totstride

def inFromOut( layernum = 9, net = convnet):
    if layernum>len(net): layernum=len(net)
    outsize = 1
    #for layerparams in net:
    for layer in reversed(range(layernum)):
        fsize, stride, pad = net[layer]
        outsize = ((outsize -1)* stride) + fsize
    RFsize = outsize
    return RFsize

if __name__ == '__main__':

    print "layer output sizes given image = %dx%d" % (imsize, imsize)
    for i in range(len(convnet)):
        p = outFromIn(imsize,i+1)
        rf = inFromOut(i+1)
        print "Layer Name = %s, Output size = %3d, Stride = % 3d, RF size = %3d" % (layer_name[i], p[0], p[1], rf)

InformationsquelleAutor Dushyant Mehta

Hier ist das python-Skript berechnet den RF-Größe zusätzlich zu der Schrittlänge und der Größe der Ausgabe.

    # [filter size, stride, padding]

convnet =[[11,4,0],[3,2,0],[5,1,2],[3,2,0],[3,1,1],[3,1,1],[3,1,1],[3,2,0],[6,1,0]]
layer_name = ['conv1','pool1','conv2','pool2','conv3','conv4','conv5','pool5','fc6-conv']
imsize = 227


def outFromIn(isz, layernum = 9, net = convnet):
    if layernum>len(net): layernum=len(net)

    totstride = 1
    insize = isz
    #for layerparams in net:
    for layer in range(layernum):
        fsize, stride, pad = net[layer]
        outsize = (insize - fsize + 2*pad) /stride + 1
        insize = outsize
        totstride = totstride * stride

    RFsize = isz - (outsize - 1) * totstride

    return outsize, totstride, RFsize

if __name__ == '__main__':

    print "layer output sizes given image = %dx%d" % (imsize, imsize)
    for i in range(len(convnet)):
        p = outFromIn(imsize,i+1)
        print "Layer Name = %s, Output size = %3d, Stride = % 3d, RF size = %3d" % (layer_name[i], p[0], p[1], p[2])

Ich denke, es ist falsch.
welcher Teil? Bitte sein spezifisch. Würde ich mich über einen bug-report, wenn es irgendwelche

InformationsquelleAutor GieBur

0

Davon ausgehen, dass wir eine Netzwerk-Architektur, die nur umfassen mehrere convolution-Schichten. Für jede convolution-Schicht, definieren wir ein Quadrat kernel-Größe und eine Dilatation rate. Auch, davon Ausgehen, dass die Schrittlänge ist 1. So können Sie berechnen die rezeptiven Feldes von dem Netzwerk, indem Sie das folgende Stück python-code:
```
K=[3,3]   # Kernel Size
R=[1,2]  # Dilation Rate

RF=1
d=1 # Depth
for k,r in zip(K,R):
    support=k+(k-1)*(r-1) # r-dilated conv. adds r-1 zeros among coefficients
    RF=support+(RF-1)
    print('depth=%d, K=%d, R=%d, kernel support=%d'%(d,k,r,support))
    d=d+1
print('Receptive Field: %d'%RF)
```
Als ein Beispiel, lassen Sie uns berechnen, das rezeptive Feld (RF) der bekannten DnCNN (Rauschunterdrückung convolutional neural network) [1].
Verwenden Sie das obige Stück code mit der folgenden Eingänge werden zur Berechnung des RF des Netzwerks. (Sie erhalten RF=35).
```
# In DnCNN-S, the network has 17 convolution layers.
K=[3]*17  # Kernel Size
R=[1]*17  # Dilation Rate
```
[1] Zhang, Kai, et al. "Über eine Gauß-denoiser: Passives lernen von deep cnn für Bild-Rauschunterdrückung." IEEE Transactions on Image Processing 26.7 (2017): 3142-3155.

InformationsquelleAutor ashkan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.