Wie kann ich mich bewerben reinforcement learning für kontinuierliche Handlung Räumen?

Ich versuche, einen Agenten zu lernen, die Maus-Bewegungen notwendig, um am besten führen Sie eine bestimmte Aufgabe in einem reinforcement learning-Einstellung (D. H. die Belohnung signal ist das einzige feedback für das lernen).

Ich bin der Hoffnung, verwenden Sie die Q-learning-Technik, aber wenn ich die gefunden habe eine Erweiterung dieser Methode continuous state spaces, ich kann nicht scheinen, um herauszufinden, wie um ein problem mit einer kontinuierlichen handlungsraum.

Konnte ich nur die Kraft aller Bewegung der Maus zu einer bestimmten Größenordnung und in nur eine bestimmte Anzahl von verschiedenen Richtungen, aber jede vernünftige Weg, um die Aktionen der diskreten ergäbe eine riesige Aktionsfläche. Da die standard Q-learning erfordert, dass der agent bewerten alle mögliche Maßnahmen, wie eine Angleichung nicht lösen das problem in jedem praktischen Sinn.

InformationsquelleAutor zergylord | 2011-08-17

8

Den gemeinsamen Umgang mit diesem problem ist mit actor-critic-Methoden. Diese natürlich erweitern, um eine kontinuierliche Handlung Räumen. Basic Q-learning könnten abweichen, wenn die Arbeit mit Annäherungen, jedoch, wenn Sie weiterhin verwenden möchten es, können Sie versuchen, die Kombination mit einer self-organizing map, wie in "Anwendungen der selbstorganisierenden Karte, um reinforcement learning". Das Papier enthält auch einige weitere Verweise, die Sie nützlich finden könnten.
- Oh wow, sowohl der sound spot-on. Werde ich testen Sie aus, und akzeptiere Ihre Antwort, wenn Sie arbeiten, wie ich erwarte, dass Sie werden.
- beide links sind tot. Würde gerne aktualisieren, wenn Sie Sie haben immer noch
InformationsquelleAutor Don Reba
15

Fast forward bis dieses Jahr, die Leute von DeepMind schlägt eine Tiefe reinforcement learning actor-critic-Methode für den Umgang mit beide kontinuierliche Staats-und handlungsraum. Es basiert auf einer Technik namens eine deterministische policy Gradienten. Siehe das Papier Eine kontinuierliche Kontrolle mit deep reinforcement learning und einige Implementierungen.
- Ja, Sie haben wirklich populär reinforcement learning -- nun, es gibt durchaus ein paar Möglichkeiten zu handhaben, kontinuierliche Aktionen! Die wichtigsten glaube ich ist Q-learning mit normalisierten Vorteil Funktionen, da Ihr die gleichen q-learning-Algorithmus, der an seinem Herzen. Es nur Kräfte der Aktion werden die Werte einer quadratischen form, aus der Sie der greedy-Aktion analytisch. arxiv.org/pdf/1603.00748.pdf
- Sie werden auch wollen einen Blick auf die Atari-Papier cs.toronto.edu/~vmnih/docs/dqn.pdf
- Für eine schnelle Referenz, die Methode, in der Zeitung, @zergylord einen link bereitgestellt hat, ist aufgerufen, NAF (normalisiert Vorteil-Funktion)
InformationsquelleAutor zaxliu
10

Gibt es zahlreiche Möglichkeiten zu erweitern reinforcement learning für kontinuierliche Aktionen. Eine Möglichkeit ist die Verwendung von actor-critic-Methoden. Ein anderer Weg ist die Verwendung von policy-gradient-Methoden.

Einer sehr ausführlichen Erklärung der verschiedenen Methoden finden Sie in der folgenden Papier, das auch online verfügbar ist:
Reinforcement Learning in Continuous State and Action Spaces (von Hado van Hasselt und Marco A. Wiering).
- Actor–critic-Methoden sind eine Art von policy-gradient-Methoden. Die Schauspieler, die parametriert wird, setzt die Politik, und die Parameter sind verschoben in der Richtung des Verlaufs des Schauspielers Leistung, die geschätzt wird, indem der Kritiker.
InformationsquelleAutor Peter
4

Für das, was du tust, ich glaube nicht, dass Sie arbeiten müssen, in ständiger Aktion Räume. Obwohl die physische Maus bewegt sich in einem kontinuierlichen Raum, intern der cursor bewegt sich in diskreten Schritten (in der Regel auf pixel-Ebene), so dass immer genau über diesem Grenzwert liegen, wie es scheint, haben keine Wirkung auf Ihr agent Auftritt. Der Zustandsraum ist immer noch ziemlich groß, aber es ist endlich und diskret.
- Dies führt zu dem problem, das ich erwähnt mit Bezug auf diskrete Approximationen (wenn ich merke, meine domain ist technisch diskret zu beginnen), ist, dass es unmöglich zu denken, der alle möglichen Koordinaten-pair-Mädchen als eine mögliche Aktion.
- Ich Stimme mit @templatetypedef. Sie können diskrete Aktionen mit einem kontinuierlichen Zustandsraum. Diskrete Aktionen sind viel schöner mit zu arbeiten.
InformationsquelleAutor templatetypedef
1

Ich weiß, dieser post ist etwas alt, aber im Jahr 2016, eine Variante des Q-Lernens, angewandt auf die stetige Räume wurde vorgeschlagen, als alternative zu den actor-critic-Methoden. Es heißt normalisiert Vorteil Funktionen (NAF). Hier ist das paper: Kontinuierliche Tiefe Q-Lernen mit Modell-basierter Beschleunigung

InformationsquelleAutor Santiago Benoit
0

Einem anderen Papier, um die Liste, aus der value-based-Schule, ist Eingang Konvex Neuronale Netze. Die Idee ist, zu verlangen, Q(s,a) konvex in Aktionen (nicht unbedingt Staaten). Dann, die Lösung des argmax Q Inferenz ist reduziert auf die Suche nach dem globalen optimum mit der Konvexität, viel schneller als eine umfassende Austragung und einfacher zu implementieren als andere Wert-basierte Ansätze. Doch, wahrscheinlich auf Kosten einer reduzierten Darstellung macht als üblich, feedforward-oder convolutional neural networks.

InformationsquelleAutor dhfromkorea

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.