Politik-Gradienten in Keras

Ich habe versucht, ein Modell aufzubauen, mit dem "Tiefen Q-Learning', wo ich eine große Anzahl von Aktionen (2908). Nach einigen begrenzten Erfolg bei der Verwendung von standard DQN:
(https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf), Beschloss ich, etwas mehr Forschung zu tun, weil ich dachte, die action der Raum war zu groß, um eine effiziente exploration.

Dann entdeckte ich dieses Papier: https://arxiv.org/pdf/1512.07679.pdf, wo Sie einen Akteur-Kritiker-Modell und policy-Verläufe, die dann führte mich zu: https://arxiv.org/pdf/1602.01783.pdf wo Sie use policy Gradienten sehr viel bessere Ergebnisse, dann DQN insgesamt.

Habe ich fand ein paar Webseiten, wo Sie umgesetzt haben, Politik Gradienten in Keras, https://yanpanlau.github.io/2016/10/11/Torcs-Keras.html und https://oshearesearch.com/index.php/2016/06/14/kerlym-a-deep-reinforcement-learning-toolbox-in-keras/ aber ich bin verwirrt, wie Sie umgesetzt werden. In der ehemaligen (und wenn ich Zeitungen Lesen) wie es scheint, statt ein input-und ein output-paar für die Akteur-Netzwerk-stellen Sie die Verläufe für alle GEWICHTE und verwenden Sie dann das Netzwerk zu aktualisieren, in der Erwägung, dass im letzteren Sie berechnen Sie einfach eine Eingabe-Ausgabe-paar.

Habe ich einfach nur verwirrt mich? Ich soll nur die Ausbildung des Netzwerks durch eine Eingabe-Ausgabe-paar und verwenden Sie die standard - 'fit', oder muss ich etwas besonderes tun? Wenn letzteres, wie mache ich es mit der Theano backend? (die obigen Beispiele verwenden TensorFlow).

  • Haben Sie gesehen, github.com/matthiasplappert/keras-rl ?
  • Ein Grund für das Inverkehrbringen nicht in der Zustand-Aktion-Paare ist, dass es dauert eine lange Zeit, wenn Sie eine große Anzahl von Aktionen. Stattdessen ist es oft hilfreich, das Netzwerk vorherzusagen, werden die Werte aller Aktionen auf einmal und dann machen Sie Ihre Aktion nach Auswahl
InformationsquelleAutor simeon | 2016-11-05
Schreibe einen Kommentar