Wie kann ich mich bewerben reinforcement learning für kontinuierliche Handlung Räumen?

Ich versuche, einen Agenten zu lernen, die Maus-Bewegungen notwendig, um am besten führen Sie eine bestimmte Aufgabe in einem reinforcement learning-Einstellung (D. H. die Belohnung signal ist das einzige feedback für das lernen).

Ich bin der Hoffnung, verwenden Sie die Q-learning-Technik, aber wenn ich die gefunden habe eine Erweiterung dieser Methode continuous state spaces, ich kann nicht scheinen, um herauszufinden, wie um ein problem mit einer kontinuierlichen handlungsraum.

Konnte ich nur die Kraft aller Bewegung der Maus zu einer bestimmten Größenordnung und in nur eine bestimmte Anzahl von verschiedenen Richtungen, aber jede vernünftige Weg, um die Aktionen der diskreten ergäbe eine riesige Aktionsfläche. Da die standard Q-learning erfordert, dass der agent bewerten alle mögliche Maßnahmen, wie eine Angleichung nicht lösen das problem in jedem praktischen Sinn.

InformationsquelleAutor zergylord | 2011-08-17
Schreibe einen Kommentar