Tag: sarsa
SARSA (State-Action-Reward-State-Action) ist ein Algorithmus zum lernen einer Markov decision process Politik, die in der reinforcement learning-Bereich des maschinellen Lernens.
3
Antworten
Den Unterschied zwischen Q-learning und SARSA ist, dass Q-learning vergleicht den aktuellen Zustand und die best möglichen nächsten Zustand, während SARSA vergleicht den aktuellen Zustand gegen die eigentliche nächsten Stand. Wenn ein gierig-Auswahl-Richtlinie verwendet wird, ist, dass
5
Antworten
Obwohl ich weiß, dass SARSA auf-Politik, während Q-learning ist off-policy, bei der Suche auf Ihre Formeln, es ist schwer (für mich) einen Unterschied zwischen diesen beiden algorithmen. Laut dem Buch Reinforcement Learning: An Introduction (von Sutton und