Tiefe neuronale Netzwerk, das die Genauigkeit für die Bilderkennung, float oder double?

Neural networks for image recognition) können sehr groß werden.
Es kann Tausende von ein - /hidden-Neuronen, Millionen von verbindungen, welche
kann bis eine Menge von computer-Ressourcen.

Während float allgemein 32bit und Doppel 64bit in c++, Sie haben nicht viel performance-Unterschied in der Geschwindigkeit noch mit Schwimmern können sparen Sie Speicherplatz.

Dass ein neuronales Netz, was ist mit Sigma als Aktivierungs-Funktion,
wenn wir wählen könnten, die Variablen im neuronalen Netzwerk, float oder double
die konnte float zu speichern bis Speicher ohne neuronale Netzwerk nicht in der Lage zu führen?

Während Eingänge und Ausgänge für training/Testdaten können auf jeden Fall schwimmt
da Sie nicht verlangen, double precision, da die Farben im Bild können
nur im Bereich von 0-255 und wenn die normalisierte 0.0-1.0 Skala Einheit Wert wäre
1 /255 = 0.0039~

1. was ist mit verborgenen Neuronen output-Präzision,
wäre es sicher, um Sie schweben zu?

verborgenen neuron die Ausgabe bekommt den Wert von der Summe der vorherigen Schicht neuron die Ausgabe * die Verbindung Gewicht derzeit der Berechnung neuron und dann die Summe, die übergeben wird, in der Aktivierung-Funktion(derzeit Sigma), um die neue Ausgabe. Variable Summe könnte sich verdoppeln, denn Sie könnte sich eine wirklich große Zahl, wenn das Netzwerk groß ist.

Tiefe neuronale Netzwerk, das die Genauigkeit für die Bilderkennung, float oder double?

2. was über die Verbindung zu gewichten, könnten Sie schwimmt?

während Eingänge und neuron die Ausgänge sind auf den Bereich von 0-1.0 weil von Sigma,
GEWICHTE sind erlaubt, um größer zu sein als das.

Stochastic gradient descent RÜCKFÜHRUNG leidet auf vanishing gradient problem wegen der Aktivierung der Funktion die Ableitung, habe ich beschlossen, nicht zu setzen, dies als eine Frage, was Präzision sollte der Verlauf variabler sein, das Gefühl, zu schweben, einfach nicht genau genug sein, speziell, wenn das Netzwerk ist tief.

InformationsquelleAutor Aiden Anomaly | 2016-11-10

c++machine-learning neural-network precision

3
1. was über versteckte Neuronen output-Präzision, wäre es sicher um Sie schweben zu?
Mit float32 überall ist in der Regel der sichere erste Wahl für die meisten der neuronale Netzwerk-Anwendungen. GPUs unterstützen derzeit nur float32, so viele Praktizierende stick zu float32 überall. Für viele Anwendungen, auch 16-bit-floating-point-Werte ausreichend sein könnte. Einige extreme Beispiele zeigen, dass eine hohe Genauigkeit Netze können trainiert werden, mit nur weniger als 2 bits pro Gewicht (https://arxiv.org/abs/1610.00324).

Die Komplexität der tief-Netzwerke ist in der Regel begrenzt, nicht durch die Rechenzeit, aber durch die Menge an RAM auf einem single-GPU und den Durchsatz des Speicher-bus. Auch wenn Sie die Arbeit auf die CPU, mit einem kleineren Datentyp noch hilft, den cache effizienter zu gestalten. Sie sind selten begrenzt durch die Maschine Datentyp Präzision.

da die Farben im Bild können nur im Bereich von 0-255,

Du machst es falsch. Sie zwingen das Netzwerk zu lernen, die Größe der input-Daten, wenn es bereits bekannt ist (es sei denn, Sie verwenden eine benutzerdefinierte Gewicht-Initialisierung-Prozedur). Die besten Ergebnisse werden meist erzielt, wenn die input-Daten normalisiert auf den Bereich (-1, 1) oder (0, 1) und die GEWICHTE initialisiert werden, um die Durchschnittliche Leistung der Ebene auf der gleichen Skala. Dies ist eine beliebte Initialisierung Technik: http://andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization

Wenn die Eingaben im Bereich [0, 255], dann mit einer durchschnittlichen input-als ~ 100, und die GEWICHTE als ~ 1, wird der Aktivierungs-potential (das argument der Aktivierungsfunktion) wird zu ~ 100×N, wo N ist die Anzahl von Schicht-Eingänge, die wahrscheinlich weit Weg in der "flachen" Teil der sigmoid. Also entweder Sie initialisieren Sie Ihre GEWICHTE auf ~ 1/(100×N), oder Sie skalieren Sie Ihre Daten und verwenden alle gängigen Initialisierungs-Methode. Ansonsten ist das Netz haben zu verbringen viel training, Zeit, nur um bringen Sie die GEWICHTE in dieser Größenordnung.

Stochastic gradient descent RÜCKFÜHRUNG leidet auf vanishing gradient problem, weil der Aktivierungs-Funktion Ableitung, habe ich beschlossen, nicht zu setzen, dies als eine Frage, was Präzision sollte der Verlauf variabler sein, das Gefühl, zu schweben, einfach nicht genau genug sein, speziell, wenn das Netzwerk ist tief.

Es ist viel weniger eine Frage der Maschine arithmetische Präzision, aber der Umfang der Ausgaben für jede der Schichten. In der Praxis:
- Vorverarbeitung von Eingabedaten (normalisieren auf (-1, 1) (mittelkampf)
- wenn du mehr als 2 Schichten, dann verwenden Sie nicht sigmoids, verwenden Sie gleichgerichtet linear-Einheiten statt
- initialisieren Sie die GEWICHTE vorsichtig
- verwenden Sie batch-Normalisierung
Dieses video sollte hilfreich sein, zu lernen, diese Konzepte, wenn Sie nicht vertraut mit Ihnen.
- Danke!!! Es ist wirklich verstärkt mein Vertrauen mit schwimmt. Ich habe gelesen, den Artikel über die 16-bit-Daten Genauigkeit, sondern gehen weiter in google, die meisten Menschen Antworten hast, verwirrt mich ein bisschen. Artikel:arxiv.org/pdf/1502.02551.pdf Ein Wesen: scicomp.stackexchange.com/questions/21402/... Über den input-Normalisierung, Aktualisiert, main-post, Danke! Über die GPUPU, neuere GPU ' s unterstützen, Doppel NVIDIA CUDA-eins-seins: developer.nvidia.com/cuda-faq Es ist die einzige, die ich habe, arbeiten mit
- Auch, wenn Sie mit einer CPU, die SSE - /AVX - /NEON-Vektor-Prozessor in der Regel verarbeiten können doppelt so viele float32 Werte.
InformationsquelleAutor sastanin
2

Vom wenigsten bits benötigt, für einzelne neuron:

Folgende Unterlagen studiert haben, diese Frage (absteigender chronologischer Reihenfolge):
- Beschleunigung Deep Convolutional Networks mit geringer Präzision und sparsity. Ganesh Venkatesh, Eriko Nurvitadhi, Debbie Marr. 2016-10-02. https://arxiv.org/abs/1610.00324
- Binarized Neuronale Netze: Training der Neuronalen Netze mit Gewichten und Aktivierungen beschränkt sich auf +1 oder -1
  Matthieu Courbariaux, Itay Hubara, Daniel Soudry, Ran El-Yaniv, Yoshua Bengio
  arxiv: http://arxiv.org/abs/1602.02830
- Suyog Gupta, Ankur Agrawal, Kailash Gopalakrishnan, Pritish Narayanan
  Tiefe Lernen mit Begrenzten Numerischen Genauigkeit https://arxiv.org/abs/1502.02551
- Courbariaux, Matthieu, Jean-Pierre David, und Yoshua Bengio. "Ausbildung Tiefe neuronale Netze mit geringer Präzision Multiplikationen." arXiv preprint arXiv:1412.7024 (2014). https://arxiv.org/abs/1412.7024
- Vanhoucke, Vincent, Andrew Senior, und Mark Z. Mao. "Die Verbesserung der Geschwindigkeit der neuronalen Netze auf CPUs." (2011). https://scholar.google.com/scholar?cluster=14667574137314459294&hl=de&as_sdt=0,22 ; https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/37631.pdf
Beispiel aus Tiefe Lernen mit Begrenzten Numerischen Genauigkeit:

InformationsquelleAutor Franck Dernoncourt

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.