Tag: q-learning

Q-learning ist eine model-free reinforcement learning Technik.

Sind Q-learning und SARSA mit gierigen Auswahl entspricht?

Anzahl der Antworten 3 Antworten
Den Unterschied zwischen Q-learning und SARSA ist, dass Q-learning vergleicht den aktuellen Zustand und die best möglichen nächsten Zustand, während SARSA vergleicht den aktuellen Zustand gegen die eigentliche nächsten Stand. Wenn ein gierig-Auswahl-Richtlinie verwendet wird, ist, dass

Politik-Gradienten in Keras

Anzahl der Antworten 2 Antworten
Ich habe versucht, ein Modell aufzubauen, mit dem "Tiefen Q-Learning', wo ich eine große Anzahl von Aktionen (2908). Nach einigen begrenzten Erfolg bei der Verwendung von standard DQN: (https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf), Beschloss ich, etwas mehr Forschung zu tun, weil

Wie kann ich mich bewerben reinforcement learning für kontinuierliche Handlung Räumen?

Anzahl der Antworten 6 Antworten
Ich versuche, einen Agenten zu lernen, die Maus-Bewegungen notwendig, um am besten führen Sie eine bestimmte Aufgabe in einem reinforcement learning-Einstellung (D. H. die Belohnung signal ist das einzige feedback für das lernen). Ich bin der Hoffnung,

Q-learning vs temporale-Differenz vs. model-based reinforcement learning

Anzahl der Antworten 1 Antworten
Ich bin in einem Kurs namens "Intelligente Maschinen" an der Universität. Wir wurden mit 3 Methoden verstärkt lernen, und mit denen wir die intuition, Wann Sie zu benutzen, und ich zitiere: Q-Learning - am Besten, wenn SDV

Optimale epsilon (ϵ-gierig) Wert

Anzahl der Antworten 2 Antworten
ϵ-gierig Politik Ich kenne die Q-learning-Algorithmus, der sollte versuchen, ein Gleichgewicht zwischen der exploration und Ausbeutung. Da ich ein Anfänger in diesem Bereich, wollte ich implementieren Sie eine einfache version von exploration/Ausbeutung Verhalten. Optimale epsilon-Wert Meine Implementierung

Was ist der Unterschied zwischen Q-learning und SARSA?

Anzahl der Antworten 5 Antworten
Obwohl ich weiß, dass SARSA auf-Politik, während Q-learning ist off-policy, bei der Suche auf Ihre Formeln, es ist schwer (für mich) einen Unterschied zwischen diesen beiden algorithmen. Laut dem Buch Reinforcement Learning: An Introduction (von Sutton und