Q-learning vs temporale-Differenz vs. model-based reinforcement learning

Ich bin in einem Kurs namens "Intelligente Maschinen" an der Universität. Wir wurden mit 3 Methoden verstärkt lernen, und mit denen wir die intuition, Wann Sie zu benutzen, und ich zitiere:

  1. Q-Learning - am Besten, wenn SDV nicht gelöst werden kann.
  2. Zeitliche Differenz Lernen - am besten, wenn MDP bekannt ist oder gelernt werden kann, kann aber nicht gelöst werden.
  3. Model-based - am besten, wenn SDV kann nicht gelernt werden.

Gibt es gute Beispiele, die erklären, Wann wählen Sie eine Methode gegenüber der anderen?

Q-learning ist eine zeitliche Differenz-Algorithmus.
Ist nicht Q-Learning verwendet, um die Berechnung der Q-Wert, Während die Zeitliche Differenz Lernen zu Berechnung der Value-Funktion? [Sie sind verwandt, Aber nicht genau das gleiche, ich denke] Oder täusche ich mich?
V ist die Zustand-Wert-Funktion Q ist die Aktion-Wert-Funktion, und Q-learning ist eine spezielle off-policy temporal-difference-learning-Algorithmus. Sie können lernen, entweder Q oder V mit verschiedenen TD-oder nicht-TD-Methoden, die beide könnte Modell-basierte oder nicht.
Vielen Dank für die Semantik, Aber es immer noch nicht helfen, mich zu finden, ein Beispiel, Wann welcher zu benutzen ist. Wann ist es gut zu wählen, Q-Wert über V-Funktion?
Müssen Sie die Aktion-Wert-Funktion, um die form einer Richtlinie. Sie erfahren es direkt, oder Sie können es abrufen aus der state-value-Funktion, wenn Sie wissen, die state transition probability-Funktion.

InformationsquelleAutor StationaryTraveller | 2015-12-09

Schreibe einen Kommentar