Was ist die definition eines nicht-trainierbare parameter?

Was ist die definition von nicht trainierbar parameter in einem Modell?

Zum Beispiel, während Sie den Aufbau Ihrer eigenen Modell, dessen Wert 0 ist als default, aber wenn Sie verwenden möchten, ein inception-Modell, es ist immer etwas anderes, anstatt 0. Was wäre der Grund dahinter?

InformationsquelleAutor TheWho | 2017-11-15

14

Nicht-trainierbare Parameter sind Recht breit gefächertes Thema. Eine einfache Beispiel betrachten wir den Fall einer bestimmten NN-Modell und seine Architektur.

Sagen, wir haben bereits die setup-Ihr Netzwerk-definition in Keras, und Ihre Architektur ist so etwas wie 256->500->500->1. Basierend auf dieser definition, die wir zu haben scheinen, eine Regression-Modell (ein Ausgang) mit zwei versteckten Schichten (500 Knoten) und einer Eingabe von 256.

Einer nicht-trainierbare Parameter des Modells ist, zum Beispiel, die Anzahl der versteckten Schichten selbst (2). Anderen könnte die Knoten auf jede versteckte Schicht (500 in diesem Fall), oder auch die Knoten auf den einzelnen Ebenen, indem Sie einen parameter pro Schicht und die Anzahl der Schichten selbst.

Diese Parameter sind "nicht trainierbar", weil kann man nicht optimieren Sie Ihren Wert durch Ihre Trainingsdaten. Ausbildung-algorithmen (wie z.B. back-propagation) optimieren und aktualisieren des GEWICHTE von Ihrem Netzwerk, die die tatsächliche trainierbare Parameter, die hier (meist mehrere tausend, je nach verbindungen). Ihre Trainingsdaten, wie es ist, nicht helfen kann, Sie feststellen, diejenigen, die nicht trainierbar Parameter.

Jedoch dies bedeutet nicht, dass numberHiddenLayers ist nicht trainierbar, es bedeutet nur, dass in dieses Modell und seine Umsetzung sind wir nicht in der Lage, dies zu tun. Wir könnten numberHiddenLayers trainierbar; der einfachste Weg wäre zu definieren anderen ML-Algorithmus, nimmt dieses Modell als Eingabe und Züge mit mehreren Werten numberHiddenLayers. Den besten Wert erhalten, mit dem Modell, besser als der andere, also der Optimierung der numberHiddenLayers variable.

In anderen Worten, nicht-trainierbare Parameter des Modells sind diejenigen, die Sie werden nicht aktualisiert und optimiert, während der Ausbildung, und müssen definiert werden a priori, weitergegeben oder als Eingänge.
- Ich glaube, es ist ein Durcheinander hier... der Netzwerk-Topologie und die gleichen (Lern-rate, dropout-rate, etc.) werden nicht die 'nicht-trainierbare Parameter'; Sie sind vielmehr sogenannte 'hyperparameters'. Parameter werden automatisch optimiert (mit gradient descent) während der Ausbildung, mit der Ausbildung festgelegt. Hyperparameters optimiert werden manuell (über Ingenieur-Gehirn) und ausgewertet mit der dev-set.
- Bezüglich der ursprünglichen Frage, ich glaube "nicht-trainierbare Parameter' würde zum Beispiel die Bedeutung 'mu' und die Standardabweichung 'sigma' berechnet eine BatchNorm Schicht, in der Erwägung, dass die Parameter "gamma" und "beta" sind trainierbar Parameter. Sum-up: "trainierbare Parameter' sind solche, deren Wert geändert wird, gemäß Ihrer Gradienten (die Ableitung des Fehler - /Verlust/Kosten im Vergleich zu den parameter), während der 'nicht-trainierbare Parameter' sind solche, deren Wert nicht entsprechend optimiert Ihren Verlauf.
- vielen Dank für das feedback @JulienREINAULD es gibt viel Platz für mehr Antworten, ich glaube, wenn Sie fühlen sich Sie etwas hinzufügen möchten 🙂 Durch Ihre definition, hyper-Parameter sind auch nicht trainierbar (es sei denn, Sie entwerfen Ihren Algorithmus zu trainieren, die über Ihnen).
InformationsquelleAutor DarkCygnus
18

In keras, nicht trainierbar Parameter (wie gezeigt in model.summary()) bedeutet, dass die Anzahl der GEWICHTE, die nicht aktualisiert, während das training mit backpropagation.

Gibt es hauptsächlich zwei Arten von nicht-trainierbarer GEWICHTE:
- Diejenigen, die Sie gewählt haben, halten Sie konstant beim training. Dies bedeutet, dass keras nicht aktualisieren diese GEWICHTE während des Trainings überhaupt.
- Die funktionieren, wie Statistiken in BatchNormalization Schichten. Sie aktualisiert sind mit Mittelwert und Varianz, aber Sie sind nicht "trainiert mit RÜCKFÜHRUNG".
GEWICHTE sind die Werte innerhalb des Netzwerks, die die Operationen durchführen und kann angepasst werden, um das Ergebnis in das, was wir wollen. Der backpropagation Algorithmus-änderung der GEWICHTE in Richtung einer niedrigeren Fehler am Ende.

Standardmäßig, alle GEWICHTE in einem keras Modell sind trainierbar.

Wenn Sie Ebenen erstellen, die intern erzeugt es seine eigenen GEWICHTE und Sie sind trainierbar. (Der backpropagation Algorithmus-update diese GEWICHTE)

Wenn du Sie nicht auszubilden, der Algorithmus wird nicht aktualisiert, diese GEWICHTE mehr. Dies ist zum Beispiel hilfreich, wenn Sie möchten, dass ein convolutional layer mit einem bestimmten filter, wie ein Sobel-filter, zum Beispiel. Sie wollen nicht die Ausbildung ändern, diesen Vorgang, so dass diese GEWICHTE/Filter sollte konstant gehalten werden.

Gibt es eine Menge anderer Gründe, warum möchten Sie vielleicht, um GEWICHTE nicht auszubilden.

Changing-Parameter:

Für die Entscheidung, ob die GEWICHTE sind trainierbar oder nicht, nehmen Sie Ebenen aus dem Modell und legen Sie trainable:
```
model.get_layer(layerName).trainable = False #or True
```
Muss getan werden vor der Kompilierung.
- "Es gibt eine Menge anderer Gründe, warum möchten Sie vielleicht, um GEWICHTE nicht auszubilden." Was sind diese, wenn Sie Pflege zu erklären, bitte?
- Sie haben möglicherweise eine "pretrained-Modell" zum Beispiel, das Sie kennen, gut funktioniert und Sie nicht wollen, zu ändern. Sie können die Ausbildung von GAN und arbeiten nur von einer Seite zu einer Zeit. Es gibt wirklich viele kreative Gründe, je nachdem, was Sie wollen.
- Danke erstmal an alle, aber was ist, wenn die Leistung steigt, wenn mit pretrained Modelle
InformationsquelleAutor Daniel Möller

Gibt es einige details, die andere Antworten nicht decken.

In Keras, nicht-trainierbare Parameter sind diejenigen, die sind nicht geschult mit gradient descent. Dies ist auch gesteuert durch die trainable parameter in jeder Schicht, zum Beispiel:

from keras.layers import *
from keras.models import *
model = Sequential()
model.add(Dense(10, trainable=False, input_shape=(100,)))
model.summary()

Diese Drucke null trainierbare Parameter, und 1010 nicht-trainierbare Parameter.

_________________________________________________________________    
Layer (type)                 Output Shape              Param #   
=================================================================
dense_1 (Dense)              (None, 10)                1010      
=================================================================
Total params: 1,010
Trainable params: 0
Non-trainable params: 1,010
_________________________________________________________________

Nun, wenn Sie den layer als trainierbar mit model.layers[0].trainable = True dann druckt es:

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_1 (Dense)              (None, 10)                1010      
=================================================================
Total params: 1,010
Trainable params: 1,010
Non-trainable params: 0
_________________________________________________________________

Nun alle Parameter sind trainierbar und es gibt keine nicht-trainierbare Parameter. Aber es gibt auch Schichten, die sowohl in trainierbare und nicht-trainierbare Parameter, ein Beispiel ist der BatchNormalization Schicht, wobei der Mittelwert und die Standardabweichung der Aktivierungen ist für die Verwendung gespeichert, während die test-Zeit. Ein Beispiel:

model.add(BatchNormalization())
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_1 (Dense)              (None, 10)                1010      
_________________________________________________________________
batch_normalization_1 (Batch (None, 10)                40        
=================================================================
Total params: 1,050
Trainable params: 1,030
Non-trainable params: 20
_________________________________________________________________

Diesem speziellen Fall BatchNormalization hat 40 Parameter in insgesamt 20 trainierbar, und 20 nicht trainierbar. Die 20 nicht-trainierbare Parameter entsprechen den berechneten Mittelwert und die Standardabweichung von den Aktivierungen, die während der test-Zeit, und diese Parameter werden nie trainierbar mit gradient descent, und sind nicht betroffen von der trainable Flagge.

Das ist eigentlich die richtige Antwort auf diese Frage, da der Autor fragt sich, warum manche Parameter in Inception Modell sind immer "nicht trainierbar", obwohl man alle Schichten zu trainierbar. Die Antwort Mittelwert/Varianz-params für die batchnorm Schichten.

InformationsquelleAutor Matias Valdenegro

1

Ist es klar, dass, wenn Sie frieren jede Ebene des Netzwerks. alle Parameter auf, die gefrorenen Schicht wiederum nicht trainierbar. Auf der anderen Seite, wenn Sie entwerfen Ihr Netzwerk von Grund auf neu, es könnten auch einige nicht-trainierbare Parameter zu. Zum Beispiel batchnormalization Ebene hat 4 parameter, die;

[gamma weights, beta weights, moving_mean, moving_variance]

Den ersten zwei von Ihnen sind trainierbar, aber die letzten beiden nicht. Also die batch-Normalisierung Schicht ist sehr wahrscheinlich der Grund dafür, dass Sie Ihre eigene Netzwerk ist nicht trainierbar paramteres.

InformationsquelleAutor M. Balcilar
0

In jedem Modell, das wir definieren, gibt es Parameter und dann gibt es hyperparameters. Parameter, die hauptsächlich aus der Gewichtungen und Verzerrungen, während die hyperparameters besteht aus Anzahl der Filter, filter Größe, dropout-rate, learning rate, etc.

Kommen zurück zu deiner Frage, in einem Modell trainieren wir die Schichten zu verringern die Verluste und optimieren die Parameter, halten die hyperparameters konstant. So, während der RÜCKFÜHRUNG, wo wir anwenden gradient descent oder andere Optimierungs-Algorithmus wir aktualisieren die GEWICHTE und die Verzerrungen nach jeder RÜCKFÜHRUNG Schritt.

In einfachen Worten, trainierbare Parameter optimiert werden, während die Ausbildung in der Erwägung, dass nicht-trainierbare Parameter nicht optimiert werden, während der Ausbildung.

InformationsquelleAutor Subham Tiwari

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.