Verständnis Neuronalen Netzes Backpropagation

Update: eine bessere Formulierung der Frage.

Ich versuche zu verstehen, der backpropagation-Algorithmus mit einem XOR neuronale Netzwerk als ein Beispiel. Für diesen Fall gibt es 2 eingabeneuronen + 1 Neigung, 2 Neuronen in der hidden-layer + 1 bias-und 1 output-neuron.

 A   B  A XOR B
 1    1   -1
 1   -1    1
-1    1    1
-1   -1   -1

Verständnis Neuronalen Netzes Backpropagation

_{(Quelle: wikimedia.org)}

Ich bin mit stochastische RÜCKFÜHRUNG.

Nach der Lektüre ein bisschen mehr ich haben heraus gefunden, dass der Fehler der die Ausgabe-Einheit weitergegeben wird, um die ausgeblendeten Ebenen... anfangs verwirrend, weil, wenn Sie die input-layer des neuronalen Netzes, dann ist jedes neuron bekommt eine Fehlermeldung Anpassung von sowohl der Neuronen in der versteckten Schicht. In allem die Art, wie der Fehler verteilt ist, ist schwer auf den ersten zu erfassen.

Schritt 1 berechnen der Ausgabe für jede Instanz von Eingabe.

Schritt 2 berechne den Fehler zwischen dem output-neuron(s) (in unserem Fall gibt es nur eine) und der Sollwert(s):

Verständnis Neuronalen Netzes Backpropagation

Schritt 3 verwenden wir die Fehler aus Schritt 2 zur Berechnung des Fehlers für jede hidden unit h:

Das "Gewicht kh' ist der GEWICHTE zwischen der hidden-unit h und die Ausgabe-Einheit k, auch dies ist verwirrend, da sich die input-Einheit nicht direkt Gewicht im Zusammenhang mit der output-unit. Nach starrte auf die Formel für ein paar Stunden fing ich an zu denken über das, was die Summe bedeutet, und ich fange an, kommen zu dem Schluss, dass jedes input-neuron, das Gewicht, das in Verbindung zu dem verborgenen Schicht Neuronen multipliziert wird, indem der Ausgang Fehler und summiert. Dies ist eine logische Schlussfolgerung, aber die Formel scheint ein wenig verwirrend, da es sagt ganz klar das "Gewicht kh' (zwischen der output-Schicht k und der verdeckten Schicht h).

Verstehe ich alles richtig hier? Kann jemand dies bestätigen?

Was ist O(h) von der input-Schicht? Mein Verständnis ist, dass jeder Eingabe-Knoten hat zwei Ausgänge: einen, der geht in den ersten Knoten der verborgenen Schicht und eine, die geht in die zweiten Knoten der verborgenen Ebene. Welcher der beiden Ausgänge sollten eingesteckt werden in die O(h)*(1 - O(h)) Teil der Formel?

Verständnis Neuronalen Netzes Backpropagation

dies sah referenziert gestern und bemerkt, dass die Schritt 2-Bild hat sich verschoben. sowie die Schritt 3-Bild

InformationsquelleAutor Kiril | 2010-02-03

30

Dem tutorial das hier gepostet ist, es tatsächlich zu tun falsch. Ich doppelt überprüft es gegen Bishop ' s zwei standard-Bücher und zwei von meinen arbeiten Implementierungen. Ich will darauf hinweisen, unter dem genau.

Eine wichtige Sache im Auge zu behalten ist, dass Sie sind immer auf der Suche für Derivate, die der error-Funktion, mit Bezug auf ein Gerät oder Gewicht. Die ersteren sind die deltas, die letztere ist, was Sie verwenden, um aktualisieren Sie Ihre GEWICHTE.

Wenn man verstehen will, RÜCKFÜHRUNG, müssen Sie verstehen, die Kettenregel. Es ist alles über die Kettenregel hier. Wenn Sie nicht wissen, wie es genau funktioniert, check-up-bei wikipedia - es ist nicht so schwer. Aber sobald Sie verstehen, die Ableitungen, alles fällt in Platz. Versprechen! 🙂

∂E/∂W aus in ∂E/∂o ∂o/∂W über die Kettenregel. ∂o/∂W leicht berechnet werden, da es nur die Ableitung des Aktivierungs - /Ausgabe eine Einheit mit Bezug auf die GEWICHTE. ∂E/∂o ist eigentlich das, was wir nennen die deltas. (Ich gehe davon aus, dass E, o und W sind Vektoren/Matrizen hier)

Wir haben Sie für die Ausgabe-Einheiten, da das ist, wo können wir berechnen, den Fehler. (Wir haben meistens eine Fehler-Funktion, kommt es auf delta (t_k - o_k), z.B. für quadratische Fehler-Funktion im Fall von linearen Ausgängen und cross-Entropie für den Fall für Logistik-Ausgänge.)

Die Frage ist jetzt, wie bekommen wir die Ableitungen für die interne Einheiten? Gut, wir wissen, dass der Ausgang eines Gerätes ist die Summe aller ankommenden Einheiten gewichtet mit den gewichten und die Anwendung des transfer-Funktion danach. So o_k = f(sum(w_kj * o_j, für alle j)).

Also, was wir tun, ist, ableiten o_k mit Bezug auf o_j. Da delta_j = ∂E/∂o_j = ∂E/∂o_k ∂o_k/∂o_j = delta_k ∂o_k/o_j. Also da delta_k, können wir berechnen, delta_j!

Lassen Sie uns dies tun. o_k = f(sum(w_kj * o_j, für alle j)) => ∂o_k/∂o_j = f'(sum(w_kj * o_j, für alle j)) * w_kj = f'(z_k) * w_kj.

Für den Fall, dass die sigmoidale Transferfunktion, dies wird z_k(1 - z_k) * w_kj. (Hier ist der Fehler im tutorial, der Autor sagt o_k(1 - o_k) * w_kj!)
- +1 für die Verschachtelung der rechnerische details zu w/ die intuition hinter backprop.
- Das tutorial ist nicht falsch. f'(z_k) = f(z_k)(1 - f(z_k)) entspricht o_k(1 - o_k).
- Sie scheinen zu wissen, Backpropagation gut @bayer, vielleicht hätten Sie eine Idee für stackoverflow.com/questions/53287032/...? Vielen Dank im Voraus
InformationsquelleAutor bayer
8

Ich bin mir nicht sicher, was deine Frage ist, aber ich ging eigentlich durch das tutorial mich und ich kann Ihnen versichern, andere als eine offensichtliche Tippfehler, es ist nichts falsch daran.

Mache ich die Annahme, dass Ihre Frage ist, weil Sie verwirrt sind, wie die RÜCKFÜHRUNG versteckt delta abgeleitet ist. Ist dies Ihre Frage, dann überlegen Sie bitte

_{(Quelle: pandamatak.com)}

Sind Sie wahrscheinlich verwirrt, wie die Autorin dieser Gleichung abgeleitet. Dies ist eigentlich eine einfache Anwendung der multivariate Kettenregel. Nämlich, (was folgt, stammt aus wikipedia)

"Nehmen wir an, dass jedes argument von z = f(u, v) ist eine zwei-Variablen-Funktion, so dass u = h(x, y) und v = g(x, y), und, dass diese Funktionen alle differenzierbar. Dann die Ketten-Regel würde wie folgt Aussehen:

"

Nun Stell dir vor, die Verlängerung der Kette, in der Regel durch Induktion argument

E(z'₁,z'₂,..'z' _n)
wo z'_k ist der Ausgang des kth-output-layer der pre-Aktivierung,
und z'_k(w_ji), die ist zu sagen, dass E eine Funktion von z' und z " selbst ist eine Funktion von w_ji (wenn dies nicht sinnvoll Sie auf den ersten denke sehr sorgfältig über wie ein NN-setup.) Die Anwendung der Kettenregel direkt erweitert auf n Variablen:

^{δE(z'₁,z'₂,..'z' _n)}/_δw_ji = Σ_k ^δE/_δz'_k ^δz'_k/_δw_ji

ist der wichtigste Schritt, den Autor, dann gilt die Kettenregel noch einmal, dieses mal in der Summe, erweitern Sie den ^δz'_k/_δw_ji - Begriff, das ist

^δz'_k/_δw_ji = ^δz'_k/_δo_j
^δo_j/_δz_j
^δz_j/_δw_ji.

Wenn Sie Schwierigkeiten haben, das Verständnis der Kettenregel, können Sie brauchen, um einen Kurs zu nehmen auf multivariate Kalkül, oder Lesen wie ein Abschnitt in einem lehrbuch.

Glück.
- vielen Dank für die Teilnahme... die Frage ist ein wenig alt (feb 2010), aber ich habe herausgefunden, wo ich war mit dem problem.
- oder wer läuft in dieser später, den link für die first-Algorithmus hat bewegt
InformationsquelleAutor ldog
3

Was ich gelesen habe von Schritt 3 die Gleichung ist:
1. O_h = Letzte Ausgabe dieses versteckte Einheit (O_h auf der input-Ebene wird der tatsächliche Eingangswert)
2. w_kh = Gewicht der Verbindung zwischen dieser verborgenen Einheit und eine Einheit der nächsten Schicht (in Richtung Ausgang)
3. delta_k = Fehler der Einheit der nächsten Schicht (in Richtung Ausgang, gleiche Einheit wie die Vorherige Kugel)
Jede Einheit hat nur einen Ausgang, aber jede Verbindung zwischen der Ausgabe und der nächsten Schicht gewichtet wird. Also die Ausgabe ist die gleiche, aber auf dem empfangenden Ende, jede Einheit wird einen anderen Wert erhalten, wenn das Gewicht der verbindungen ist unterschiedlich. O_h bezieht sich immer auf den Wert dieses neuron für die Letzte iteration. Fehler gilt nicht für die input-Ebene, wie durch definition, der Eingang hat keine "Fehler" per se.

Den Fehler berechnet werden muss Schicht für Schicht, beginnend auf der output-Seite, da müssen wir die Fehler-Werte der Schicht N+1 zu berechnen Schicht N. Sie haben Recht, es gibt keine direkte Verbindung zwischen input-und output-in der RÜCKFÜHRUNG.

Glaube ich, dass die Gleichung korrekt ist, wenn es unlogisch scheint. Was ist wahrscheinlich verwirrend ist, dass in der vorwärts-propagation für jede Einheit, die wir haben, um alle Einheiten und verbindungen auf der linken Seite des Gerätes (Eingabe von Werten), aber für die Fehlerfortpflanzung (RÜCKFÜHRUNG) war zu beachten, dass die Einheiten auf der rechten Seite (output-Wert) des Gerätes bearbeitet.
- OK, nach der Lektüre einige mehr, die ich auch mit Ihnen überein: O_h ist der tatsächliche Wert des Geräts. Ein wenig Aufklärung über delta_k: wie würde man es berechnen sich für die versteckte Schicht? Ich verstehe, wie man es berechnet für die Ausgabe-Schicht, da können wir direkt vergleichen, um die XOR-Zielwert. Aber was ist der Zielwert für die versteckte Schicht? Ich nahm an, wir rechnen nur einmal mit Bezug auf die output-Ebene, und wir verwenden es für alle Schichten.
- Es gibt keine "target-Wert" für die hidden-Neuronen. Sie müssen verwenden Sie die Gleichung, die Sie haben in Schritt 3 aufgeführt zu berechnen, delta_k für die versteckte Schicht von Neuronen. Beachten Sie, dass Sie müssen nur die Ausgabe Wert und die Fehler der Neuronen in den Schichten, um das richtige zu tun - das ist, warum der Fehler berechnet werden MÜSSEN, ausgehend vom Ausgang zurück zum Eingang.
- Gleichung in Schritt 2 soll nur für die output-Neuronen' - Fehler. Gleichung in Schritt 3 gemeint ist, für die hidden-Neuronen' - Fehler. Input-Schicht Neuronen haben keine Fehler Begriff.
- OK, also das delta für ein Eingabe-neuron berechnet sich durch die Multiplikation Ihrer output-Oh(1-Oh) und die Summe der GEWICHTE * Fehler berechnet sich für die verborgenen Einheiten nach rechts. Sagen die verborgene Einheit hat einen Fehler von 0,02 und unten von 0,01, die GEWICHTE von der Eingabe-Einheit in Richtung auf die beiden versteckten Einheiten sind 0,5, und der Ausgang für die input-unit 1 ist, dann werden wir am Ende mit 1(1-1)(0.5*0.02+0.5*0.01) = 0; daher ist keine Einstellung vorgenommen, um das Gewicht von der input-Einheit.
- Nur etwas gefunden, das helfen kann, Lirik. Werfen Sie einen Blick auf die C/C++ - source-code hier: codeproject.com/KB/recipes/BP.aspx - es ist alles da.
InformationsquelleAutor cjcela

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.