Wie kann ich mich bewerben reinforcement learning für kontinuierliche Handlung Räumen?
Ich versuche, einen Agenten zu lernen, die Maus-Bewegungen notwendig, um am besten führen Sie eine bestimmte Aufgabe in einem reinforcement learning-Einstellung (D. H. die Belohnung signal ist das einzige feedback für das lernen).
Ich bin der Hoffnung, verwenden Sie die Q-learning-Technik, aber wenn ich die gefunden habe eine Erweiterung dieser Methode continuous state spaces, ich kann nicht scheinen, um herauszufinden, wie um ein problem mit einer kontinuierlichen handlungsraum.
Konnte ich nur die Kraft aller Bewegung der Maus zu einer bestimmten Größenordnung und in nur eine bestimmte Anzahl von verschiedenen Richtungen, aber jede vernünftige Weg, um die Aktionen der diskreten ergäbe eine riesige Aktionsfläche. Da die standard Q-learning erfordert, dass der agent bewerten alle mögliche Maßnahmen, wie eine Angleichung nicht lösen das problem in jedem praktischen Sinn.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Den gemeinsamen Umgang mit diesem problem ist mit actor-critic-Methoden. Diese natürlich erweitern, um eine kontinuierliche Handlung Räumen. Basic Q-learning könnten abweichen, wenn die Arbeit mit Annäherungen, jedoch, wenn Sie weiterhin verwenden möchten es, können Sie versuchen, die Kombination mit einer self-organizing map, wie in "Anwendungen der selbstorganisierenden Karte, um reinforcement learning". Das Papier enthält auch einige weitere Verweise, die Sie nützlich finden könnten.
Fast forward bis dieses Jahr, die Leute von DeepMind schlägt eine Tiefe reinforcement learning actor-critic-Methode für den Umgang mit beide kontinuierliche Staats-und handlungsraum. Es basiert auf einer Technik namens eine deterministische policy Gradienten. Siehe das Papier Eine kontinuierliche Kontrolle mit deep reinforcement learning und einige Implementierungen.
Gibt es zahlreiche Möglichkeiten zu erweitern reinforcement learning für kontinuierliche Aktionen. Eine Möglichkeit ist die Verwendung von actor-critic-Methoden. Ein anderer Weg ist die Verwendung von policy-gradient-Methoden.
Einer sehr ausführlichen Erklärung der verschiedenen Methoden finden Sie in der folgenden Papier, das auch online verfügbar ist:
Reinforcement Learning in Continuous State and Action Spaces (von Hado van Hasselt und Marco A. Wiering).
Für das, was du tust, ich glaube nicht, dass Sie arbeiten müssen, in ständiger Aktion Räume. Obwohl die physische Maus bewegt sich in einem kontinuierlichen Raum, intern der cursor bewegt sich in diskreten Schritten (in der Regel auf pixel-Ebene), so dass immer genau über diesem Grenzwert liegen, wie es scheint, haben keine Wirkung auf Ihr agent Auftritt. Der Zustandsraum ist immer noch ziemlich groß, aber es ist endlich und diskret.
Ich weiß, dieser post ist etwas alt, aber im Jahr 2016, eine Variante des Q-Lernens, angewandt auf die stetige Räume wurde vorgeschlagen, als alternative zu den actor-critic-Methoden. Es heißt normalisiert Vorteil Funktionen (NAF). Hier ist das paper: Kontinuierliche Tiefe Q-Lernen mit Modell-basierter Beschleunigung
Einem anderen Papier, um die Liste, aus der value-based-Schule, ist Eingang Konvex Neuronale Netze. Die Idee ist, zu verlangen, Q(s,a) konvex in Aktionen (nicht unbedingt Staaten). Dann, die Lösung des argmax Q Inferenz ist reduziert auf die Suche nach dem globalen optimum mit der Konvexität, viel schneller als eine umfassende Austragung und einfacher zu implementieren als andere Wert-basierte Ansätze. Doch, wahrscheinlich auf Kosten einer reduzierten Darstellung macht als üblich, feedforward-oder convolutional neural networks.