Custom-Verlust-Funktion im PyTorch

Ich habe drei einfache Fragen.

Was passieren wird, ob meine custom-Verlust-Funktion ist nicht differenzierbar? Wird pytorch durch Fehler oder etwas anderes tun?
Wenn ich erkläre einem Verlust variable in meine benutzerdefinierte Funktion, die repräsentieren den endgültigen Verlust des Modells, soll ich requires_grad = True für diese variable? oder ist es egal? Wenn es egal ist, warum dann?
Ich habe gesehen, dass Leute manchmal schreiben einer separaten Ebene und berechnen Sie den Verlust in der forward Funktion. Welcher Ansatz vorzuziehen ist, schreiben Sie eine Funktion oder eine Ebene? Warum?

Ich brauche eine klare und schöne Erklärung auf diese Fragen zu lösen, meine Verwirrungen. Bitte helfen Sie.

InformationsquelleAutor Wasi Ahmad | 2017-06-16

pytorch

12

Lass mich gehen.
1. Dies hängt davon ab, was du damit meinst "nicht-differenzierbar". Die erste definition, die Sinn macht ist hier, dass PyTorch nicht wissen, wie die Berechnung von Gradienten. Wenn Sie versuchen, um zu berechnen, Verläufe dennoch wird ein Fehler ausgelöst. Zwei mögliche Szenarien sind:
  
  a) Sie verwenden eine benutzerdefinierte PyTorch operation, für die Verläufe wurden nicht umgesetzt, z.B. torch.svd(). In diesem Fall erhalten Sie eine TypeError:
```
import torch
from torch.autograd import Function
from torch.autograd import Variable

A = Variable(torch.randn(10,10), requires_grad=True)
u, s, v = torch.svd(A) # raises TypeError
```
  b), die Sie eingerichtet haben Ihren eigenen Betrieb, aber nicht definieren backward(). In diesem Fall erhalten Sie eine NotImplementedError:
```
class my_function(Function): # forgot to define backward()

    def forward(self, x):
        return 2 * x

A = Variable(torch.randn(10,10))
B = my_function()(A)
C = torch.sum(B)
C.backward() # will raise NotImplementedError
```
  Die zweite definition, die Sinn macht, ist "mathematisch nicht differenzierbar". Klar, eine operation, die mathematisch nicht differenzierbar, sollte entweder keine backward() Methode implementiert oder sinnvolle sub-Gradienten. Betrachten Sie zum Beispiel torch.abs() deren backward() Methode gibt die subgradient 0 0:
```
A = Variable(torch.Tensor([-1,0,1]),requires_grad=True)
B = torch.abs(A)
B.backward(torch.Tensor([1,1,1]))
A.grad.data
```
  Für diese Fälle, Sie sollten sich auf die PyTorch Dokumentation direkt und Graben, die backward() Methode von dem jeweiligen Betrieb direkt.
2. Ist es egal. Die Verwendung von requires_gradist zu vermeiden, um unnötige Berechnungen von Gradienten für Teilgraphen. Wenn es eine einzige Eingabe in einen Vorgang, der erfordert, Farbverlauf, wird seine Produktion auch erfordern Farbverlauf. Umgekehrt, nur wenn alle Eingänge benötigen keine Steigung, die Ausgabe auch nicht verlangen, es. Rückwärts Berechnung wird nie ausgeführt, in der Teilgraphen, in denen alle Variablen, die nicht verlangen, Verläufe.
  
  Da gibt es wahrscheinlich einige Variables (z.B. Parameter einer Unterklasse von nn.Module()), Ihre loss Variable erfordert auch Farbverläufe automatisch. Allerdings sollten Sie beachten, dass genau wie requires_grad funktioniert (siehe oben erneut), können Sie nur ändern requires_grad für den Blatt-Variablen Ihres Diagramms sowieso.
3. Alle benutzerdefinierten PyTorch-Verlust-Funktionen, sind Unterklassen von _Loss welche eine Unterklasse von nn.Module. Siehe hier. Wenn Sie möchten, um an diese Konvention sollten Sie Unterklasse _Loss bei der Definition Ihrer benutzerdefinierten Verlust-Funktion. Abgesehen von der Konsistenz, ein Vorteil ist, dass die Unterklasse wird zu erhöhen eine AssertionError, wenn Sie noch nicht markiert Ihr Ziel-Variablen als volatile oder requires_grad = False. Ein weiterer Vorteil ist, dass Sie Schachteln können Sie Ihre Verlust-Funktion im nn.Sequential(), weil Ihr eine nn.Module ich würde empfehlen, diesen Ansatz für diese Gründe.
- Du bist herzlich willkommen. Kann nicht öffnen Sie den link leider.
- Ich entfernte die Frage eigentlich nur, weil ich es gelöst. Aber können Sie mir helfen in dieser Frage - stackoverflow.com/questions/44580450/... ?
InformationsquelleAutor mexmex

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.