Wie berechnen Sie die Anzahl der Parameter eines LSTM-Netz?

Gibt es eine Möglichkeit zu berechnen, die Gesamtanzahl der Parameter in einem LSTM-Netz.

Ich habe ein Beispiel, aber ich bin mir nicht sicher, wie richtig diese ist oder Wenn ich es richtig verstanden habe.

ZB betrachten Sie das folgende Beispiel:-

from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.layers import Embedding
from keras.layers import LSTM
model = Sequential()
model.add(LSTM(256, input_dim=4096, input_length=16))
model.summary()

Ausgang

____________________________________________________________________________________________________
Layer (type)                       Output Shape        Param #     Connected to                     
====================================================================================================
lstm_1 (LSTM)                      (None, 256)         4457472     lstm_input_1[0][0]               
====================================================================================================
Total params: 4457472
____________________________________________________________________________________________________

Gemäß Meinem Verständnis n ist der Eingabevektor der Länge.
Und m ist die Anzahl der Zeitschritte. und in diesem Beispiel betrachten Sie die Anzahl der verborgenen Ebenen 1.

Daher nach der Formel in die post. 4(nm+n^2) in meinem Beispiel m=16;n=4096;num_of_units=256

4*((4096*16)+(4096*4096))*256 = 17246978048

Warum ist da so ein Unterschied?
Habe ich missverstanden, das Beispiel oder war die Formel falsch ?

Siehe diesen link, wenn Sie benötigt einige visuelle Hilfe: datascience.stackexchange.com/questions/10615/...

InformationsquelleAutor Arsenal Fanatic | 2016-06-28

22

Nein - die Anzahl der Parameter einer LSTM-Ebene in Keras gleich:
```
params = 4 * ((size_of_input + 1) * size_of_output + size_of_output^2)
```
Zusätzliche 1 kommt von bias-Bedingungen. So n ist die Größe der Eingabe (durch den erhöhten bias-term) und m die Größe der Ausgabe eines LSTM-Schicht.

Also endlich :
```
4 * (4097 * 256 + 256^2) = 4457472
```
- Danke für die Antwort.. Könnte Sie auch hinzufügen, die Quelle
- Danke! Ich versuchte Ableitung dieser, und konnte einfach nicht herausfinden, was eingefügt, die fehlende "+1" Begriff.
- Also wenn ich mich nicht Irre die input_length wie keine Auswirkungen auf die Parameter als das gleiche Gewicht matrix wiederverwendet werden, für 1 oder 100 Zeitschritte ??
- Bild der Komplexität des Modells erhöhen würde mit der Menge der Daten, die Sie zur Verfügung haben. Dies wäre nicht skalierbar, von einer usability-Perspektive. (Ich bin nur zu beantworten, denn am Anfang dachte ich auch, dass die Anzahl von Zeitintervallen ist wichtig 😉 ).
- Können Sie erklären, warum die Formel 4-Koeffizient und warum nehmen wir das Quadrat der Anzahl der Neuronen (Größe der Ausgabe)?
- In stackoverflow.com/questions/50947079 ich machte ein paar Fehler beim anwenden dieser Formel. Könnten Sie ein Aussehen?
- Ich will auch wissen, warum 4
InformationsquelleAutor Marcin Możejko
10

Bild über diesem post
```
num_params = [(num_units + input_dim + 1) * num_units] * 4
```
num_units + input_dim: concat [h(t-1), x(t)]

+ 1: bias

* 4: es gibt 4 neural network Layer (gelbes Feld) {W_forget, W_input, W_output, W_cell}
```
model.add(LSTM(units=256, input_dim=4096, input_length=16))
```
[(256 + 4096 + 1) * 256] * 4 = 4457472

PS: num_units = num_hidden_units = output_dims

InformationsquelleAutor FelixHo
6

Formel erweitern für @JohnStrong :

4 heißt, wir haben unterschiedliche Gewicht und bias-Variablen für 3 Tore (Lesen /schreiben /froget) und - 4-th - für die Zelle Stand (innerhalb der gleichen ausgeblendeten Zustand).
(Diese genannten sind gemeinsam von Zeitintervallen zusammen bestimmten hidden state vector)
```
4 * lstm_hidden_state_size * (lstm_inputs_size + bias_variable + lstm_outputs_size) 
```
als LSTM-Ausgang (y) ist h (hidden state) durch Ansatz, also ohne eine zusätzliche Projektion, für LSTM-Ausgänge, die wir haben :
```
lstm_hidden_state_size = lstm_outputs_size 
```
lassen Sie uns sagen, es ist d :
```
d = lstm_hidden_state_size = lstm_outputs_size 
```
Dann
```
params = 4 * d * ((lstm_inputs_size + 1) + d) = 4 * ((lstm_inputs_size + 1) * d + d^2)
```
InformationsquelleAutor Elena Viter
2

LSTM Gleichungen (via deeplearning.ai Coursera)
- Ergibt sich aus den Gleichungen, dass die endgültigen Maße von allen 6 Gleichungen werden gleichzeitig und Letzte dimension muss unbedingt gleich der dimension von a(t).
- Aus diesen 6 Gleichungen, nur 4 Gleichungen dazu beitragen, die Anzahl der Parameter und von den Blick auf die Gleichungen, abgeleitet werden kann, dass alle 4 Gleichungen symmetrisch sind. Also,wenn wir finden, aus der Anzahl der Parameter für Gleichung 1 können wir nur multiplizieren Sie mit 4 und sagen, die Gesamtzahl der Parameter.
- Ein wichtiger Punkt ist zu beachten, dass die Gesamtzahl der Parameter hängt nicht von den Zeit-Schritte(oder input_length) als gleiche "W" und "b" freigegeben ist, während der gesamten Zeit-Schritt.
- Vorausgesetzt, insider des LSTM-Zelle mit einer Schicht für ein gate(wie in Keras).
- Nehmen, Gleichung 1 und können beziehen. Lassen Sie die Anzahl der Neuronen in der Schicht n und die Anzahl der die dimension von x sei m (nicht einschließlich der Anzahl der Beispiel-und Zeit-Schritte). Daher, dimension vergessen Tor n zu. Nun,dasselbe ist wie das in ANN dimension "Wf" werden n*(n+m) und dimension der "bf" n. Daher wird die Anzahl der Parameter für eine Gleichung wird [{n*(n+m)} + n]. Daher wird die Anzahl der Parameter 4*[{n*(n+m)} + n].Können öffnen Sie die Klammern, und wir erhalten -> 4*(nm + n² + n).
- So,wie pro Ihre Werte. Die Einspeisung in die Formel ergibt:->(n=256,m=4096),die Gesamtzahl der Parameter 4*((256*256) + (256*4096) + (256) ) = 4*(1114368) = 4457472.
InformationsquelleAutor Kenpachi Zaraki
0

Ich denke, es wäre einfacher zu verstehen, wenn wir beginnen mit einem einfachen RNN.

Nehmen wir an, wir haben 4 Einheiten (ignorieren Sie bitte die ... in der Netzwerk-und konzentrieren Sie sich nur auf sichtbare Einheiten), und die input-Größe (Anzahl der Dimensionen) 3:

Die Anzahl der GEWICHTE ist 28 = 16 (num_units * num_units) für die wiederkehrenden verbindungen + 12 (input_dim * num_units) für die Eingabe. Die Zahl der Vorurteile ist einfach num_units.

Recurrency bedeutet, dass jedes neuron die Ausgabe wird ebenfalls wieder in das gesamte Netzwerk, so dass, wenn wir bringen es in der zeitlichen Reihenfolge, es sieht aus wie zwei Dichte Schichten:

und er macht deutlich, warum wir num_units * num_units GEWICHTE für die wiederkehrenden Teil.

Die Anzahl der Parameter für dieses einfache RNN 32 = 4 * 4 + 3 * 4 + 4, und kann ausgedrückt werden als num_units * num_units + input_dim * num_units + num_units oder num_units * (num_units + input_dim + 1)

Nun, für LSTM, müssen wir multiplizieren die Anzahl dieser Parameter von 4, da dies die Anzahl der sub-Parameter, die innerhalb jeder Einheit, und es war sehr schön illustriert in der Antwort von @FelixHo

InformationsquelleAutor tromgy

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.