Tag: reinforcement-learning

Reinforcement learning ist ein Bereich des maschinellen Lernens und der informatik befasst sich mit, wie Sie wählen Sie eine Aktion in einem Zustand, maximiert eine numerische Belohnung in einer bestimmten Umgebung.

Sind Q-learning und SARSA mit gierigen Auswahl entspricht?

Anzahl der Antworten 3 Antworten
Den Unterschied zwischen Q-learning und SARSA ist, dass Q-learning vergleicht den aktuellen Zustand und die best möglichen nächsten Zustand, während SARSA vergleicht den aktuellen Zustand gegen die eigentliche nächsten Stand. Wenn ein gierig-Auswahl-Richtlinie verwendet wird, ist, dass

Mit Tensorflow Huber Verlust in Keras

Anzahl der Antworten 4 Antworten
Ich versuche, mit huber-Verlust in einem keras Modell (schreiben DQN), aber ich bin immer schlechtes Ergebnis, ich glaube ich bin etwas falsch mache. Mein code ist unten. model = Sequential() model.add(Dense(output_dim=64, activation='relu', input_dim=state_dim)) model.add(Dense(output_dim=number_of_actions, activation='linear')) loss =

Alpha-und Gamma-Parametern in QLearning

Anzahl der Antworten 3 Antworten
Was ist der Unterschied zu dem Algorithmus macht es mit einem großen oder kleinen gamma-Wert? In meinem optic, solange es weder 0 oder 1 ist, sollte es gleich funktionieren. Auf der anderen Seite, gamma was auch immer

Wie kann ich mich bewerben reinforcement learning für kontinuierliche Handlung Räumen?

Anzahl der Antworten 6 Antworten
Ich versuche, einen Agenten zu lernen, die Maus-Bewegungen notwendig, um am besten führen Sie eine bestimmte Aufgabe in einem reinforcement learning-Einstellung (D. H. die Belohnung signal ist das einzige feedback für das lernen). Ich bin der Hoffnung,

Tensorflow und Multiprocessing: die Übergabe von Sessions

Anzahl der Antworten 2 Antworten
Ich habe vor kurzem an einem Projekt arbeiten, mit einem neuronalen Netzwerk für die virtuellen Roboter zu Steuern. Ich verwendet tensorflow zu Programmieren und es läuft reibungslos. Bisher verwendete ich die sequentiellen Simulationen zu evaluieren, wie gut

Was tun Modell.predict() und Modell.fit() zu tun?

Anzahl der Antworten 1 Antworten
Werde ich durch dieses reinforcement learning tutorial und Es war wirklich toll so weit, aber könnte jemand bitte erklären, was newQ = model.predict(new_state.reshape(1,64), batch_size=1) und model.fit(X_train, y_train, batch_size=batchSize, nb_epoch=1, verbose=1) bedeuten? Als in was die Argumente bach_size,

Was ist eine Richtlinie im reinforcement learning?

Anzahl der Antworten 3 Antworten
Ich habe gesehen, wie Worte wie: Einer Richtlinie definiert die Lern-agent Art und Weise zu Verhalten, zu einer bestimmten Zeit. Rund sprechen, eine Politik, die eine Zuordnung von wahrgenommenen Zustände der Umwelt zu Maßnahmen, die ergriffen werden,

Q-learning vs temporale-Differenz vs. model-based reinforcement learning

Anzahl der Antworten 1 Antworten
Ich bin in einem Kurs namens "Intelligente Maschinen" an der Universität. Wir wurden mit 3 Methoden verstärkt lernen, und mit denen wir die intuition, Wann Sie zu benutzen, und ich zitiere: Q-Learning - am Besten, wenn SDV

Optimale epsilon (ϵ-gierig) Wert

Anzahl der Antworten 2 Antworten
ϵ-gierig Politik Ich kenne die Q-learning-Algorithmus, der sollte versuchen, ein Gleichgewicht zwischen der exploration und Ausbeutung. Da ich ein Anfänger in diesem Bereich, wollte ich implementieren Sie eine einfache version von exploration/Ausbeutung Verhalten. Optimale epsilon-Wert Meine Implementierung

Was ist der Unterschied zwischen Q-learning und SARSA?

Anzahl der Antworten 5 Antworten
Obwohl ich weiß, dass SARSA auf-Politik, während Q-learning ist off-policy, bei der Suche auf Ihre Formeln, es ist schwer (für mich) einen Unterschied zwischen diesen beiden algorithmen. Laut dem Buch Reinforcement Learning: An Introduction (von Sutton und

Support Vector Machines - Besser als künstliche neuronale Netze in welchen Lernsituationen?

Anzahl der Antworten 4 Antworten
Ich weiß SVMs angeblich "ANN-Killer', dass Sie automatisch, wählen Sie " Darstellung der Komplexität und finden Sie ein globales optimum (siehe hier für einige SVM loben Zitate). Aber hier ist, wo ich bin unklar -- tun, alle

Was ist der Unterschied zwischen Wert-Iteration und Policy-Iteration?

Anzahl der Antworten 3 Antworten
In reinforcement learning, was ist der Unterschied zwischen policy iteration und Wert iteration? Soweit wie ich es verstehe, in der Wert-iteration verwenden Sie die Bellman-Gleichung zu lösen, für die optimale Politik, in der Erwägung, dass in der

Wie trainiert man ein künstliches neuronales Netzwerk, um Diablo 2 mit visueller Eingabe zu spielen?

Anzahl der Antworten 7 Antworten
Ich bin derzeit versucht, ein ANN zu spielen, ein Videospiel und und ich war in der Hoffnung etwas Hilfe zu bekommen von der wunderbaren Gemeinschaft hier. Ich mich eingelebt habe über Diablo 2. Spiel ist somit in

Training eines Neuronalen Netzwerks mit Reinforcement Learning

Anzahl der Antworten 2 Antworten
Ich kenne die Grundlagen der feedforward neural networks, und wie Sie zu trainieren, mit dem backpropagation-Algorithmus, aber ich bin auf der Suche nach einem Algorithmus, als ich nutzen kann für das training eines ANN online mit reinforcement