Alpha-und Gamma-Parametern in QLearning
Was ist der Unterschied zu dem Algorithmus macht es mit einem großen oder kleinen gamma-Wert? In meinem optic, solange es weder 0 oder 1 ist, sollte es gleich funktionieren. Auf der anderen Seite, gamma was auch immer ich wähle, es scheint, die Qvalues ziemlich nahe null wirklich schnell(ich habe hier Werte um die 10^-300 nur in einem quick-test). Wie kann in der Regel die Menschen plot Qvalues (ich bin Verschwörung (x, y, beste QValue für diesen Staat) da das problem? Ich bin versucht zu umgehen mit Logarithmen aber selbst dann fühlt sich ein bisschen umständlich.
Außerdem habe ich nicht bekommen, was ist der Grund hinter mit und alpha-parameter in der Q-Learning update-Funktion. Es ist im Grunde legt die Größe des Updates werden wir machen, um den Q-Wert Funktion. Ich habe die Idee, dass es in der Regel verringert sich im Laufe der Zeit. Was ist das Interesse, dass es mit der Zeit verringern? Ein update Wert am Anfang sollte mehr Bedeutung als 1000 Episoden später?
Außerdem dachte ich, dass eine gute Idee für die Erkundung der Zustandsraum jedes mal, wenn der agent nicht will der gierige Aktion wäre zu erkunden, jeder Staat, der hat immer noch eine null QValue(das bedeutet, dass zumindest die meisten der Zeit, ein Zustand der noch nie zuvor getan), aber ich sehe nicht, dass nach den in jeder Literatur. Gibt es irgendwelche Nachteile dadurch? Ich weiß, dies kann nicht verwendet werden (zumindest einige) Verallgemeinerung der Funktionen.
Andere Idee wäre, führen Sie eine Tabelle der besuchten Staaten/Aktionen, und versuchen Sie, die Maßnahmen, die versucht wurden weniger Male zuvor in diesem Staat. Natürlich ist dies nur in relativ kleinen Staat Leerzeichen(in meinem Fall ist es definitiv möglich).
Eine Dritte Idee für spät in der exploration Prozess wäre zu schauen, nicht nur, um die ausgewählte Aktion auf der Suche für die besten qvalues aber auch einen Blick in all den Aktionen, die möglich ist und diesem Zustand, und dann in den anderen von diesem Staat und so.
Ich weiß, solche Fragen sind irgendwie nicht verwandten, aber ich würde gerne die Meinungen der Leute, die gearbeitet haben, bevor Sie mit diesem und (wahrscheinlich) kämpfte mit einigen von Ihnen zu.
- Was war die Politik? Was ist das problem? Was sind die USA? Was motiviert die Arbeit? Welchen code hast du verwendet? Haben Sie ein Referenz-problem zu zeigen, dein code funktioniert?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Aus einer Verstärkung Schiefen Meister Kandidaten:
Alpha ist die learning rate. Wenn der Lohn oder die übergangs-Funktion ist die stochastische (zufällige), dann alpha soll im Laufe der Zeit ändern, nähert sich null auf unendlich. Dies hat zu tun mit Annäherung an das erwartete Ergebnis von einem inneren Produkt (T(transition)*R(reward)), wenn einer der beiden, oder beide, haben zufällige Verhalten.
Diese Tatsache ist wichtig zu beachten.
Gamma-Wert wird der Wert der künftigen Belohnung. Es kann sich auf das lernen ganz ein bisschen, und kann eine dynamische oder statische Wert. Wenn man gleich dabei ist, der agent Werte zukünftigen Lohn ebenso WIE aktuelle Belohnung. Das bedeutet, in zehn Aktionen, wenn ein agent etwas tut, gut das ist NUR SO WERTVOLL, wie diese Aktion direkt. So lernen nicht mehr funktioniert, dass auch bei hohen gamma-Werte.
Umgekehrt wird ein gamma von null führen wird, dass der agent nur Wert sofortiger Belohnungen, die funktioniert nur mit sehr detaillierten Lohn-Funktionen.
Auch - wie für Explorations-Verhalten... es gibt tatsächlich TONNEN von Literatur zu diesem. Alle Ihre Ideen haben, 100%, schon ausprobiert. Ich würde empfehlen, eine detailliertere Suche, und sogar anfangen zu googeln Entscheidung Theorie und Politik "Verbesserung".
Nur eine note hinzufügen, die auf Alpha: stellen Sie sich vor, Sie haben eine reward-Funktion, die spuckt 1 oder null ist, für eine bestimmte Staatliche Maßnahme combo SA. Jetzt jedes mal, wenn Sie ausführen, SA, erhalten Sie 1 oder 0 sind. Wenn Sie halten die alpha als 1, erhalten Sie die Q-Werte von 1 oder null. Wenn es mit 0,5, erhalten Sie Werte von +0,5, oder 0, und die Funktion wird immer oszillieren zwischen den beiden Werten für immer. Jedoch, wenn jedes mal, wenn Sie verringern Sie Ihre alpha um 50 Prozent, bekommen Sie Werte wie diese. (vorausgesetzt Belohnung erhielt 1,0,1,0,...). Ihr Q-Werte am Ende wird, 1,0.5,0.75,0.9,0.8,.... Und schließlich konvergieren Art von nahe bei 0.5. Bei infinity wird es bei 0,5, das ist die erwartete Belohnung in einem probabilistischen Sinn.
gammas entsprechen sollten, um die Größe der Beobachtung Raum: Sie sollten größere gammas (dh näher an 1) für die großen staatlichen Räume und kleinere gammas für kleinere Räume.
einer Art und Weise zu denken über gamma ist, es stellt die decay-rate der Belohnung aus dem letzten, erfolgreichen Staat.
Habe ich noch nicht gearbeitet, mit Systemen, die genau so vor, also weiß ich nicht, wie hilfreich ich sein kann, aber...
Gamma ist ein Maß für die agent Tendenz, nach vorne zu schauen, um zukünftige Belohnungen. Der kleiner es ist, desto mehr wird der agent neigen dazu, die Aktion mit die größte Belohnung, unabhängig von der resultierenden Zustand. Agenten mit größeren gamma-lernen lange Wege, um große Belohnungen. Für alle Q-Werte gegen null gehen, haben Sie versucht, mit einem sehr einfachen Zustand anzeigen (sagen wir, ein Staat und zwei Aktionen) mit gamma=0? Das sollte schnell Ansatz Q=Belohnung.
Die Idee der Verringerung der alpha ist zu feucht-down-Schwingungen in den Q-Werten, so dass der agent sich in einer stabilen Muster nach einer wilden Jugend.
Erkundung der Zustandsraum? Warum nicht einfach Durchlaufen, haben die Agenten versuchen alles? Es gibt keinen Grund, der agent tatsächlich Folgen Sie einem Kurs der Aktion in seinem lernen-es sei denn, das ist der Sinn der simulation. Wenn die Idee ist, nur zu finden, die ein optimales Verhalten Muster, passen alle Q ' s, nicht nur die höchsten entlang eines Pfades.