Alpha-und Gamma-Parametern in QLearning

Was ist der Unterschied zu dem Algorithmus macht es mit einem großen oder kleinen gamma-Wert? In meinem optic, solange es weder 0 oder 1 ist, sollte es gleich funktionieren. Auf der anderen Seite, gamma was auch immer ich wähle, es scheint, die Qvalues ziemlich nahe null wirklich schnell(ich habe hier Werte um die 10^-300 nur in einem quick-test). Wie kann in der Regel die Menschen plot Qvalues (ich bin Verschwörung (x, y, beste QValue für diesen Staat) da das problem? Ich bin versucht zu umgehen mit Logarithmen aber selbst dann fühlt sich ein bisschen umständlich.

Außerdem habe ich nicht bekommen, was ist der Grund hinter mit und alpha-parameter in der Q-Learning update-Funktion. Es ist im Grunde legt die Größe des Updates werden wir machen, um den Q-Wert Funktion. Ich habe die Idee, dass es in der Regel verringert sich im Laufe der Zeit. Was ist das Interesse, dass es mit der Zeit verringern? Ein update Wert am Anfang sollte mehr Bedeutung als 1000 Episoden später?

Außerdem dachte ich, dass eine gute Idee für die Erkundung der Zustandsraum jedes mal, wenn der agent nicht will der gierige Aktion wäre zu erkunden, jeder Staat, der hat immer noch eine null QValue(das bedeutet, dass zumindest die meisten der Zeit, ein Zustand der noch nie zuvor getan), aber ich sehe nicht, dass nach den in jeder Literatur. Gibt es irgendwelche Nachteile dadurch? Ich weiß, dies kann nicht verwendet werden (zumindest einige) Verallgemeinerung der Funktionen.

Andere Idee wäre, führen Sie eine Tabelle der besuchten Staaten/Aktionen, und versuchen Sie, die Maßnahmen, die versucht wurden weniger Male zuvor in diesem Staat. Natürlich ist dies nur in relativ kleinen Staat Leerzeichen(in meinem Fall ist es definitiv möglich).

Eine Dritte Idee für spät in der exploration Prozess wäre zu schauen, nicht nur, um die ausgewählte Aktion auf der Suche für die besten qvalues aber auch einen Blick in all den Aktionen, die möglich ist und diesem Zustand, und dann in den anderen von diesem Staat und so.

Ich weiß, solche Fragen sind irgendwie nicht verwandten, aber ich würde gerne die Meinungen der Leute, die gearbeitet haben, bevor Sie mit diesem und (wahrscheinlich) kämpfte mit einigen von Ihnen zu.

  • Was war die Politik? Was ist das problem? Was sind die USA? Was motiviert die Arbeit? Welchen code hast du verwendet? Haben Sie ein Referenz-problem zu zeigen, dein code funktioniert?
Schreibe einen Kommentar