Häufige Ursachen von nans während der Ausbildung

Habe ich bemerkt, dass ein häufiges auftreten während der Ausbildung NANs eingeführt.

Oft scheint es eingeführt werden durch GEWICHTE im inneren-Produkt - /voll-angeschlossen oder convolution-Schichten Sprengung.

Ist, dass dies geschieht, weil die Gradienten-Berechnung ist die Sprengung? Oder ist es wegen des Gewichts der Initialisierung (wenn ja, warum wird das Gewicht der Initialisierung haben diese Wirkung)? Oder ist es wahrscheinlich verursacht durch die Art der input-Daten?

Die übergeordnete Frage ist hier einfach: Was ist der häufigste Grund für NANs zu, die während der Ausbildung? Und zweitens, was sind einige der Methoden für die Bekämpfung dieser (und warum Sie funktionieren)?

Rufen Sie an speziellen MATLAB-Funktionen? Ist es die alle Ihren eigenen code?
Ich glaube nicht, dass diese Frage matlab-spezifisch, sondern eher caffeim Zusammenhang.

InformationsquelleAutor Aidan Gomez | 2015-11-27

99

Gute Frage.

Ich stieß auf dieses Phänomen mehrfach. Hier sind meine Beobachtungen:

Gradient blow-up

Grund: großen Steigungen werfen den Lernprozess off-track.

, Was Sie erwarten sollten: Blick auf die runtime anmelden, sollten Sie sich über den Verlust der Werte pro iteration. Sie werden bemerken, dass der Verlust beginnt zu wachsen deutlich von iteration zu iteration, schließlich wird der Verlust zu groß ist, um dargestellt werden, eine floating point-variable und es wird nan.

Was du tun kannst: Abnahme der base_lr (in den solver.prototxt) um eine Größenordnung (mindestens). Wenn Sie mehrere Verlust-Schichten, Sie sollten überprüfen Sie das log, um zu sehen, welche Ebene ist verantwortlich für den Verlauf sprengen und verringern die loss_weight (in train_val.prototxt) für eine bestimmte Schicht, die anstelle des Allgemeinen base_lr.

Bad learning rate policy und params

Grund: caffe schlägt zur Berechnung eines gültigen learning rate und bekommt 'inf' oder 'nan' statt, diese ungültigen rate multipliziert alle updates und damit ungültig alle Parameter.

, Was Sie erwarten sollten: Blick auf die Laufzeitumgebung melden, Sie sollten sehen, dass die learning-rate selbst wird 'nan' zum Beispiel:
```
... sgd_solver.cpp:106] Iteration 0, lr = -nan
```
Was du tun kannst: fix alle Parameter, die die learning-rate in Ihrem 'solver.prototxt' - Datei.

Zum Beispiel, wenn Sie lr_policy: "poly" und Sie vergessen, zu definieren max_iter parameter, Sie werden am Ende mit lr = nan...

Für weitere Informationen über die learning-rate im caffe, siehe dieser thread.

Fehlerhafte Verlust-Funktion

Grund: Manchmal ist die Berechnung der Verluste in den Verlust Schichten Ursachen nans zu erscheinen. Zum Beispiel, die Fütterung InfogainLoss layer mit nicht-normalisierten Werte mithilfe von benutzerdefinierten Verlust Schicht mit bugs, etc.

, Was Sie erwarten sollten: Blick auf die Laufzeit-Protokoll werden Sie wahrscheinlich nicht bemerken, dass etwas ungewöhnliches: Verlust verringert sich allmählich, und plötzlich ein nan erscheint.

Was du tun kannst: Sehen, ob Sie den Fehler reproduzieren können, hinzufügen Ausdruck um den Verlust Schicht und Debuggen den Fehler.

Beispiel: Einmal habe ich eine Verlust, normalisiert sich die Strafe durch die Häufigkeit der Bezeichnung auftreten, die in einem batch. Es ist einfach so passiert, dass, wenn man von der Ausbildung Etiketten, die nicht in der batch überhaupt - der Verlust berechnet, produziert nans. In diesem Fall arbeiten mit ausreichend großen Chargen (mit Bezug auf die Anzahl der Etiketten in dem Satz) war genug, um diesen Fehler zu vermeiden.

Fehlerhafte Eingabe

Grund: Sie haben einen Eingang mit nan!

, Was Sie erwarten sollten: sobald der Prozess des Lernens "trifft" diese fehlerhafte Eingabe - Ausgabe wird nan. Blick auf die Laufzeit-Protokoll werden Sie wahrscheinlich nicht bemerken, dass etwas ungewöhnliches: Verlust verringert sich allmählich, und plötzlich ein nan erscheint.

Was du tun kannst: re-bauen Sie Ihre Eingabe-datasets (lmdb/leveldn/im HDF5...) stellen Sie sicher, dass Sie nicht haben schlechte Bild-Dateien in Ihrem Trainings - /Validierungsdaten. Für debug-Sie bauen ein einfaches Netz, das Lesen der input-Schicht, hat eine dummy-Verlust oben drauf und zieht sich durch alle Eingänge: wenn einer von Ihnen defekt ist, das dummy-net sollte auch produzieren nan.

Schrittlänge größer als kernel-Größe in "Pooling" Schicht

Für einige Grund, die Wahl stride > kernel_size für eine Bündelung der Resultate können mit nans. Zum Beispiel:
```
layer {
  name: "faulty_pooling"
  type: "Pooling"
  bottom: "x"
  top: "y"
  pooling_param {
    pool: AVE
    stride: 5
    kernel: 3
  }
}
```
Ergebnisse mit nans in y.

Instabilitäten in "BatchNorm"

Es wurde berichtet, dass unter bestimmten Einstellungen "BatchNorm" Ebene möglicherweise, Ausgabe nans aufgrund von numerischen Instabilitäten.

Diese Problem wuchs in bvlc/caffe und PR #5136 versucht, es zu beheben.

Kürzlich, wurde mir bewusst, debug_info Flagge: Einstellung debug_info: true im 'solver.prototxt' machen caffe drucken zur Protokollierung von mehr debug-Informationen (einschließlich Steigung Größen und Aktivierungs-Werte), die während der Ausbildung: Diese Informationen können Hilfe in spotting-gradient blowups und anderen Problemen in der Ausbildung.

Danke, wie stellt man das interpretieren Sie diese zahlen? Was sind diese zahlen? pastebin.com/DLYgXK5v, warum ist dort nur eine Nummer pro Schicht Ausgabe!? wie sollten diese zahlen ungefähr so Aussehen, dass jemand weiß, es gibt ein problem oder es gibt keine!?
das ist genau das, was diesem post ist alles über.

InformationsquelleAutor Shai
3

In meinem Fall, nicht die Einstellung der Neigung in die Faltung/Entfaltung Schichten war die Ursache.

Lösung: fügen Sie den folgenden, um die convolution-Schicht-Parameter.

bias_filler {
Typ: "konstant"
Wert: 0
}

wie würde das Aussehen in matconvnet? Ich habe so etwas wie 'Vorurteile'.init_bias*ones(1,4,single)

InformationsquelleAutor izady

Diese Antwort ist nicht etwa eine Ursache für nans, sondern schlägt vor, eine Möglichkeit zum Debuggen.
Sie können das python-Ebene:

class checkFiniteLayer(caffe.Layer):
  def setup(self, bottom, top):
    self.prefix = self.param_str
  def reshape(self, bottom, top):
    pass
  def forward(self, bottom, top):
    for i in xrange(len(bottom)):
      isbad = np.sum(1-np.isfinite(bottom[i].data[...]))
      if isbad>0:
        raise Exception("checkFiniteLayer: %s forward pass bottom %d has %.2f%% non-finite elements" %
                        (self.prefix,i,100*float(isbad)/bottom[i].count))
  def backward(self, top, propagate_down, bottom):
    for i in xrange(len(top)):
      if not propagate_down[i]:
        continue
      isf = np.sum(1-np.isfinite(top[i].diff[...]))
        if isf>0:
          raise Exception("checkFiniteLayer: %s backward pass top %d has %.2f%% non-finite elements" %
                          (self.prefix,i,100*float(isf)/top[i].count))

Hinzufügen, dass diese Schicht in Ihrer train_val.prototxt auf bestimmte Punkte, die Sie vermuten, kann Probleme verursachen:

layer {
  type: "Python"
  name: "check_loss"
  bottom: "fc2"
  top: "fc2"  # "in-place" layer
  python_param {
    module: "/path/to/python/file/check_finite_layer.py" # must be in $PYTHONPATH
    layer: "checkFiniteLayer"
    param_str: "prefix-check_loss" # string for printouts
  }
}

InformationsquelleAutor Shai

-1

Ich habe versucht, bauen eine spärliche autoencoder und hatte mehrere Ebenen in es zu induzieren sparsity. Während der Ausführung meiner net, stieß ich auf die Nans. Auf entfernen Sie einige der Schichten (in meinem Fall, ich hatte tatsächlich zu entfernen 1), fand ich, dass die NaN ' s verschwunden. Also, ich denke zu viel sparsity führen kann NaN ' s (einige 0/0 Berechnungen kann aufgerufen worden sein!?)

kannst du ein wenig konkreter? können Sie uns details über die Konfiguration, die hatte nans und die Feste Konfiguration? welche Art von Schichten sind? welche Parameter?
Ich hatte mehrere InnerProduct (lr_mult 1, decay_mult 1, lr_mult 2, decay_mult 0, xavier, std: 0.01) Schichten, jeweils gefolgt von aufgrund der Kr (außer der letzten). Ich arbeite mit der MNIST, und wenn ich mich richtig erinnere, wurde die Architektur 784 -> 1000 -> 500 -> 250 -> 100 -> 30 (und einem symmetrischen decoder phase); entfernen der 30-layer alongwith seine aufgrund der Kr aus den NaN ' s verschwinden.

InformationsquelleAutor LKB

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Häufige Ursachen von nans während der Ausbildung

Gradient blow-up

Bad learning rate policy und params

Fehlerhafte Verlust-Funktion

Fehlerhafte Eingabe

Schrittlänge größer als kernel-Größe in `"Pooling"` Schicht

Instabilitäten in `"BatchNorm"`