Tensorflow: Verwirrung in Bezug auf die adam-Optimierer

Ich bin verwirrt in Bezug darauf, wie die adam optimizer funktioniert tatsächlich in tensorflow.

Dem Weg, ich lese die docs, es sagt, dass die learning-rate geändert wird jedem gradient-descent-iteration.

Aber wenn ich die Funktion aufrufen ich ihm eine Lern-rate. Und ich glaube nicht, rufen Sie die Funktion sagen wir mal, eine Epoche (implizit aufrufen # Iterationen so durch meine Daten training). Rufe ich die Funktion für jeden batch explizit wie

for epoch in epochs
     for batch in data
          sess.run(train_adam_step, feed_dict={eta:1e-3})

Also mein eta kann nicht verändert werden. Und ich bin nicht durch eine Zeit-variable in. Oder ist dies eine Art generator geben, was wo auf der Sitzung Schöpfung t jedes mal erhöht wird, nenne ich den optimizer?

Vorausgesetzt, es ist einige generator-Typ-Sache und die learning-rate wird unsichtbar, reduziert: Wie bekomme ich die zum ausführen der adam-Optimierer, ohne verfallende die learning-rate? Es scheint mir, wie RMSProp ist im Grunde das gleiche, das einzige, was ich würde tun müssen, um es gleich (learning rate ignoriert) ist die änderung der hyperparameters momentum und decay passend beta1 und beta2 beziehungsweise. Ist das richtig?

InformationsquelleAutor Nimitz14 | 2016-06-15
Schreibe einen Kommentar