Was ist logits, softmax und softmax_cross_entropy_with_logits?

Ging ich durch die tensorflow API-docs hier. In der tensorflow Dokumentation, nutzten Sie ein Stichwort genannt logits. Was ist es? In eine Menge von Methoden, die in den API-docs steht geschrieben wie

tf.nn.softmax(logits, name=None)

Wenn das, was geschrieben ist, ist diese logits sind nur Tensors, warum halten Sie einen anderen Namen wie logits?

Andere Sache ist, dass es zwei Methoden, ich könnte nicht differenzieren. Sie waren

tf.nn.softmax(logits, name=None)
tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None)

Was sind die Unterschiede zwischen Ihnen? Die docs sind mir nicht klar. Ich weiß, was tf.nn.softmax tut. Aber nicht die anderen. Ein Beispiel soll das wirklich hilfreich ist.

InformationsquelleAutor Shubhashis | 2015-12-12

387

Logits bedeutet einfach, dass die Funktion arbeitet auf die nicht skalierte Ausgabe der älteren Schichten, und dass die relative Skala zu verstehen, die Einheiten linear ist. Es bedeutet, in der insbesondere die Summe der Eingaben dürfen nicht gleich 1 sein, dass die Werte nicht Wahrscheinlichkeiten Sie haben könnten, einen input von 5).

tf.nn.softmax produziert nur das Ergebnis der Anwendung der softmax-Funktion, um eine input-tensor. Die softmax "squishes" die Eingänge, so dass sum(input) = 1: es ist ein Weg der Normalisierung. Die Form der Ausgabe einer softmax ist der gleiche wie der Eingang: es normalisiert die Werte. Die Ausgänge der softmax kann interpretiert werden als Wahrscheinlichkeiten.
```
a = tf.constant(np.array([[.1, .3, .5, .9]]))
print s.run(tf.nn.softmax(a))
[[ 0.16838508  0.205666    0.25120102  0.37474789]]
```
Im Gegensatz dazu tf.nn.softmax_cross_entropy_with_logits berechnet die cross Entropie des Ergebnisses nach Anwendung der softmax-Funktion (aber es tut es alle zusammen in einem mehr mathematisch vorsichtig Weg). Es ist ähnlich dem Ergebnis:
```
sm = tf.nn.softmax(x)
ce = cross_entropy(sm)
```
Die cross Entropie ist eine Zusammenfassung Metrik: es werden Summen über die Elemente. Die Ausgabe von tf.nn.softmax_cross_entropy_with_logits auf eine Form [2,5] tensor ist von der Form [2,1] (die erste dimension behandelt die batch).

Wenn Sie wollen, um die Optimierung zur Minimierung der cross Entropie UND du bist softmaxing, nachdem Sie Ihre Letzte Schicht, die Sie verwenden sollten tf.nn.softmax_cross_entropy_with_logits zu tun, anstatt es selbst, denn es deckt numerisch instabil Ecke Fälle in der mathematisch richtige Weg. Andernfalls werden Sie am Ende hacken Sie durch Zugabe von wenig epsilons hier und da.

Bearbeitet 2016-02-07:
Wenn Sie single-class-labels, wo ein Objekt kann nur gehören zu einer Klasse, Sie könnten jetzt überlegen, mit tf.nn.sparse_softmax_cross_entropy_with_logits so dass Sie nicht haben, um konvertieren Sie Ihre Etiketten mit einem dichten one-hot-array. Diese Funktion wurde Hinzugefügt, nach dem release 0.6.0.
- Über die softmax_cross_entropy_with_logits, ich weiß nicht, ob ich es richtig zu verwenden. Das Ergebnis ist nicht stabil in meinem code. Der gleiche code läuft zweimal die Gesamtgenauigkeit änderungen von 0.6 bis 0.8. cross_entropy = tf.nn.softmax_cross_entropy_with_logits(tf.nn.softmax(tf.add(tf.matmul(x,W),b)),y) cost=tf.reduce_mean(cross_entropy). Aber wenn ich einen anderen Weg, pred=tf.nn.softmax(tf.add(tf.matmul(x,W),b)) cost =tf.reduce_mean(-tf.reduce_sum(y*tf.log(pred),reduction_indices=1)) das Ergebnis ist stabiler und besser.
- Sie sind Doppel-softmaxing in Ihrer ersten Linie. softmax_cross_entropy_with_logits erwartet unskalierte logits, nicht die Ausgabe von tf.nn.softmax. Sie wollen einfach nur tf.nn.softmax_cross_entropy_with_logits(tf.add(tf.matmul(x, W, b)) in Ihrem Fall.
- Ich denke du hast einen Tippfehler in deinem code, die b muss außerhalb der Klammer, tf.nn.softmax_cross_entropy_with_logits(tf.add(tf.matmul(x, W), b)
- was bedeutet, "dass der relative Skala zu verstehen, die Einheiten linear ist." Teil dein Erster Satz bedeuten?
- Re: "denn das deckt numerisch instabil Grenzfällen" ich Frage mich, ob es wahr ist. Durch die definition von Softmax, es ist numerisch stabil, auch wenn die Werte sind alles Nullen oder negative.
- Von Ihnen positiv bewertet werden-aber deine Antwort ist etwas falsch, wenn Sie sagen, dass "[D]IE Form der Ausgabe einer softmax ist die gleiche wie die input - es normalisiert die Werte". Softmax nicht nur "squash" die Werte so, dass Ihre Summe gleich 1 ist. Außerdem verteilt Sie, und das ist möglicherweise der Hauptgrund, warum es verwendet wird. Siehe stackoverflow.com/questions/17187507/..., vor allem Piotr Czapla Antwort.
InformationsquelleAutor dga
257

Kurze version:

Angenommen, Sie haben zwei Tensoren, wo y_hat enthält berechnete Werte für jede einzelne Klasse (Z. B. aus y = W*x +b) und y_true enthält eine one-hot codiert true-Etiketten.
```
y_hat  = ... # Predicted label, e.g. y = tf.matmul(X, W) + b
y_true = ... # True label, one-hot encoded
```
Interpretiert man das erreicht souverän in y_hat als nicht normalisierte log-Wahrscheinlichkeiten, dann sind Sie logits.

Zusätzlich, die gesamte cross-Entropie-Verlust berechnet, die in dieser Weise:
```
y_hat_softmax = tf.nn.softmax(y_hat)
total_loss = tf.reduce_mean(-tf.reduce_sum(y_true * tf.log(y_hat_softmax), [1]))
```
ist im wesentlichen äquivalent zu der Gesamtmenge cross-Entropie-Verlust berechnet mit der Funktion softmax_cross_entropy_with_logits():
```
total_loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_hat, y_true))
```
Lange version:

In der output-Schicht Ihr neuronales Netzwerk, werden Sie wahrscheinlich berechnen, die ein array enthält, die die Klasse souverän für jedes Ihrer Ausbildung Instanzen, wie aus einer Berechnung y_hat = W*x + b. Zu dienen, wie ein Beispiel weiter unten habe ich einen y_hat 2 x 3-array, wobei die Zeilen entsprechen der Trainings-Instanzen und die Spalten entsprechen den Klassen. Also hier gibt es 2 Trainings-Instanzen und 3 Klassen.
```
import tensorflow as tf
import numpy as np

sess = tf.Session()

# Create example y_hat.
y_hat = tf.convert_to_tensor(np.array([[0.5, 1.5, 0.1],[2.2, 1.3, 1.7]]))
sess.run(y_hat)
# array([[ 0.5,  1.5,  0.1],
#        [ 2.2,  1.3,  1.7]])
```
Beachten, dass die Werte werden nicht normalisiert (d.h. die Zeilen nicht summieren sich zu 1). Um zu normalisieren, können wir die softmax-Funktion, die, interpretiert die Eingabe als nicht normalisierte log-Wahrscheinlichkeiten (aka logits) - und Ausgänge normalisiert lineare Wahrscheinlichkeiten.
```
y_hat_softmax = tf.nn.softmax(y_hat)
sess.run(y_hat_softmax)
# array([[ 0.227863  ,  0.61939586,  0.15274114],
#        [ 0.49674623,  0.20196195,  0.30129182]])
```
Es ist wichtig zu verstehen, was die softmax-Ausgabe sagt. Unten habe ich gezeigt, dass eine Tabelle, die mehr ist offensichtlich der obigen Ausgabe. Es kann gesehen werden, dass, zum Beispiel, die Wahrscheinlichkeit der Ausbildung Beispiel 1 wird mit der Klasse "class 2" ist 0.619. Die Klasse Wahrscheinlichkeiten für jede Schulung Instanz sind normalisiert, so dass die Summe jeder Zeile 1.0.
```
                      Pr(Class 1)  Pr(Class 2)  Pr(Class 3)
                    ,--------------------------------------
Training instance 1 | 0.227863   | 0.61939586 | 0.15274114
Training instance 2 | 0.49674623 | 0.20196195 | 0.30129182
```
So, jetzt haben wir Klasse Wahrscheinlichkeiten für jede Schulung Beispiel, wo können wir das argmax() für jede Zeile generieren, die eine endgültige Einstufung. Von oben, wir können generieren, dass die Ausbildung von Beispiel 1 gehört zu der Klasse "class 2" - und Weiterbildung Beispiel 2 gehört der "Class 1".

Sind diese Klassifizierungen korrekt? Wir Messen müssen, gegen die wahren Bezeichnungen aus dem Trainings-set. Sie benötigen einen one-hot kodiert y_true array, wobei wieder die Zeilen-training-Instanzen und-Spalten sind Klassen. Unten habe ich ein Beispiel erstellt y_true one-hot-array, wo die wahre Bezeichnung für die Ausbildung Instanz 1 ist "Klasse 2" und die wahre Bezeichnung für die Ausbildung Beispiel 2 ist "Klasse 3".
```
y_true = tf.convert_to_tensor(np.array([[0.0, 1.0, 0.0],[0.0, 0.0, 1.0]]))
sess.run(y_true)
# array([[ 0.,  1.,  0.],
#        [ 0.,  0.,  1.]])
```
Ist die Wahrscheinlichkeitsverteilung in y_hat_softmax Nähe der Wahrscheinlichkeitsverteilung in y_true? Wir können cross-Entropie-Verlust zur Messung der Fehler.

Können wir die Berechnung der Kreuz-Entropie-Verlust bei einem row-wise basis, und die Ergebnisse sehen. Unten sehen wir, dass die Ausbildung der Instanz 1 hat einen Verlust von 0.479, während die Schulung Beispiel 2 hat einen höheren Verlust von 1.200. Dieses Ergebnis macht Sinn, weil in unserem Beispiel oben y_hat_softmax zeigte, dass die Ausbildung von Beispiel 1 die höchste Wahrscheinlichkeit für "Klasse 2", was mit Ausbildung Instanz 1 in y_true; aber die Vorhersage für die Ausbildung Beispiel 2 zeigte eine höchste Wahrscheinlichkeit für "Klasse 1", das entspricht nicht der wahren Klasse "Klasse 3".
```
loss_per_instance_1 = -tf.reduce_sum(y_true * tf.log(y_hat_softmax), reduction_indices=[1])
sess.run(loss_per_instance_1)
# array([ 0.4790107 ,  1.19967598])
```
Was wir wirklich wollen, ist der totale Verlust über alle Trainings-Instanzen. So können wir berechnen:
```
total_loss_1 = tf.reduce_mean(-tf.reduce_sum(y_true * tf.log(y_hat_softmax), reduction_indices=[1]))
sess.run(total_loss_1)
# 0.83934333897877944
```
Mit softmax_cross_entropy_with_logits()

Stattdessen können wir die Berechnung der Gesamt-Kreuz-Entropie-Verlust mit dem tf.nn.softmax_cross_entropy_with_logits() - Funktion, wie unten gezeigt.
```
loss_per_instance_2 = tf.nn.softmax_cross_entropy_with_logits(y_hat, y_true)
sess.run(loss_per_instance_2)
# array([ 0.4790107 ,  1.19967598])

total_loss_2 = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_hat, y_true))
sess.run(total_loss_2)
# 0.83934333897877922
```
Beachten Sie, dass total_loss_1 und total_loss_2 produzieren im wesentlichen gleichwertige Ergebnisse mit einigen kleinen unterschieden in der sehr Endziffern. Jedoch, Sie könnte genauso gut verwenden Sie die zweite Methode: man nimmt eine weniger code-Zeile und sammelt sich weniger numerische Fehler, weil die softmax erfolgt für Sie innerhalb von softmax_cross_entropy_with_logits().

InformationsquelleAutor stackoverflowuser2010
45

tf.nn.softmax berechnet die vorwärts-Propagierung durch eine softmax-Schicht. Verwenden Sie es während Bewertung des Modells, wenn Sie berechnen die Wahrscheinlichkeiten, dass das Modell Ausgänge.

tf.nn.softmax_cross_entropy_with_logits berechnet die Kosten für eine softmax-Schicht. Es wird nur verwendet, während Ausbildung.

Die logits sind die nicht normalisierte log-Wahrscheinlichkeiten output-Modell (das Werte-Ausgabe vor der Normalisierung durch softmax wird angewendet).
- Ich bekomme es. Warum nicht rufen Sie die Funktion, tf.nn.softmax_cross_entropy_sans_normalization?
- weil es normalisiert die Werte (intern) während der cross-Entropie-Berechnung. Der Punkt, der tf.nn.softmax_cross_entropy_with_logits ist zu beurteilen, wie viel das Modell weicht von der gold-Etiketten, nicht auf eine normierte Leistung.
- Im Falle der Verwendung von tf.nn.sparse_softmax_cross_entropy_with_logits() berechnet die Kosten einer sparse-softmax-Schicht, und sollten daher nur verwendet werden, während der Ausbildung, was wäre die alternative beim ausführen des Modells mit neuen Daten, ist es möglich, um Wahrscheinlichkeiten aus diesem.
- es ist nicht möglich, Wahrscheinlichkeiten von tf.nn.sparse_softmax_cross_entropy_with_logits. Um Wahrscheinlichkeiten verwenden tf.nn.softmax.
InformationsquelleAutor Ian Goodfellow
3

Oben Antworten, die haben genug Beschreibung für die gestellte Frage.

Hinzu kommt, dass Tensorflow optimiert die Bedienung der Anwendung die Aktivierung der Funktion dann die Berechnung der Kosten, die mit eigenen Aktivierung, gefolgt von Kosten-Funktionen. Daher ist es eine gute Praxis zu verwenden: tf.nn.softmax_cross_entropy() über tf.nn.softmax(); tf.nn.cross_entropy()

Finden Sie markante Unterschied zwischen Ihnen in eine ressourcenintensive Modell.
- die Antwort oben eindeutig nicht gelesen haben, die Frage.. alle sagen, die gleichen Dinge, die bekannt sind, aber nicht die Frage selber beantworten
- Meinst du, tf.nn.softmax gefolgt von tf.losses.softmax_cross_entropy?
InformationsquelleAutor Abish
0

Was immer geht softmax ist das logit -, das ist, was J. Hinton wiederholt in coursera videos die ganze Zeit.

InformationsquelleAutor prosti

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.