Q-learning vs temporale-Differenz vs. model-based reinforcement learning

Ich bin in einem Kurs namens "Intelligente Maschinen" an der Universität. Wir wurden mit 3 Methoden verstärkt lernen, und mit denen wir die intuition, Wann Sie zu benutzen, und ich zitiere:

Q-Learning - am Besten, wenn SDV nicht gelöst werden kann.
Zeitliche Differenz Lernen - am besten, wenn MDP bekannt ist oder gelernt werden kann, kann aber nicht gelöst werden.
Model-based - am besten, wenn SDV kann nicht gelernt werden.

Gibt es gute Beispiele, die erklären, Wann wählen Sie eine Methode gegenüber der anderen?

Q-learning ist eine zeitliche Differenz-Algorithmus.
Ist nicht Q-Learning verwendet, um die Berechnung der Q-Wert, Während die Zeitliche Differenz Lernen zu Berechnung der Value-Funktion? [Sie sind verwandt, Aber nicht genau das gleiche, ich denke] Oder täusche ich mich?
V ist die Zustand-Wert-Funktion Q ist die Aktion-Wert-Funktion, und Q-learning ist eine spezielle off-policy temporal-difference-learning-Algorithmus. Sie können lernen, entweder Q oder V mit verschiedenen TD-oder nicht-TD-Methoden, die beide könnte Modell-basierte oder nicht.
Vielen Dank für die Semantik, Aber es immer noch nicht helfen, mich zu finden, ein Beispiel, Wann welcher zu benutzen ist. Wann ist es gut zu wählen, Q-Wert über V-Funktion?
Müssen Sie die Aktion-Wert-Funktion, um die form einer Richtlinie. Sie erfahren es direkt, oder Sie können es abrufen aus der state-value-Funktion, wenn Sie wissen, die state transition probability-Funktion.

InformationsquelleAutor StationaryTraveller | 2015-12-09

29

Zeitliche Differenz ist ein Ansatz, um zu lernen, wie zu sagen eine Menge, dass hängt davon ab, zukünftige Werte eines Signals. Es kann verwendet werden, um zu lernen, sowohl die V-Funktion und Q-Funktion, in der Erwägung, dass Q-learning ist eine spezielle TD-Algorithmus zum lernen der Q-Funktion. Wie bereits von Don Reba, müssen Sie die Q-Funktion, um eine Aktion auszuführen (z.B. nach einer epsilon-greedy-policy). Wenn Sie nur die V-Funktion können Sie noch die Ableitung der Q-Funktion durch Iteration über alle möglichen nächsten Zustände und die Wahl der Maßnahmen, führt Sie an den Staat mit der höchsten V-Wert. Für Beispiele und weitere Einblicke empfehle ich den klassischen Buch von Sutton und Barto.

In Modell-freie RL Sie lernen nicht, die state-transition-Funktion (das Modell) und verlassen Sie sich nur auf die Proben. Allerdings könnten Sie interessieren auch lernen, zum Beispiel, weil Sie nicht sammeln viele Proben und generieren möchten einige virtuelle. In diesem Fall wir sprechen über Modell-basierte RL.
Model-based RL ist durchaus üblich, in der Robotik, wo Sie nicht durchführen, viele real-Simulationen oder der Roboter wird zerstört. Diese ist, einen guten überblick mit vielen Beispielen (aber er spricht nur über policy search algorithmen). Für ein weiteres Beispiel haben Sie einen Blick auf dieses Papier. Hier werden die Autoren lernen - zusammen mit einer Politik - ein Gauß-Prozess zur Annäherung an das vorwärts-Modell des Roboters, um zu simulieren, Bahnen und verringern die Zahl der realen Roboter-Interaktion.

InformationsquelleAutor Simon

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.