Wie man mini-batches in pytorch in eine saubere und effiziente Art und Weise?

Ich versuche zu tun, eine einfache Sache, die war Zug ein lineares Modell mit Stochastic Gradient Descent (SGD) mit Fackel:

import numpy as np

import torch
from torch.autograd import Variable

import pdb

def get_batch2(X,Y,M,dtype):
    X,Y = X.data.numpy(), Y.data.numpy()
    N = len(Y)
    valid_indices = np.array( range(N) )
    batch_indices = np.random.choice(valid_indices,size=M,replace=False)
    batch_xs = torch.FloatTensor(X[batch_indices,:]).type(dtype)
    batch_ys = torch.FloatTensor(Y[batch_indices]).type(dtype)
    return Variable(batch_xs, requires_grad=False), Variable(batch_ys, requires_grad=False)

def poly_kernel_matrix( x,D ):
    N = len(x)
    Kern = np.zeros( (N,D+1) )
    for n in range(N):
        for d in range(D+1):
            Kern[n,d] = x[n]**d;
    return Kern

## data params
N=5 # data set size
Degree=4 # number dimensions/features
D_sgd = Degree+1
##
x_true = np.linspace(0,1,N) # the real data points
y = np.sin(2*np.pi*x_true)
y.shape = (N,1)
## TORCH
dtype = torch.FloatTensor
# dtype = torch.cuda.FloatTensor # Uncomment this to run on GPU
X_mdl = poly_kernel_matrix( x_true,Degree )
X_mdl = Variable(torch.FloatTensor(X_mdl).type(dtype), requires_grad=False)
y = Variable(torch.FloatTensor(y).type(dtype), requires_grad=False)
## SGD mdl
w_init = torch.zeros(D_sgd,1).type(dtype)
W = Variable(w_init, requires_grad=True)
M = 5 # mini-batch size
eta = 0.1 # step size
for i in range(500):
    batch_xs, batch_ys = get_batch2(X_mdl,y,M,dtype)
    # Forward pass: compute predicted y using operations on Variables
    y_pred = batch_xs.mm(W)
    # Compute and print loss using operations on Variables. Now loss is a Variable of shape (1,) and loss.data is a Tensor of shape (1,); loss.data[0] is a scalar value holding the loss.
    loss = (1/N)*(y_pred - batch_ys).pow(2).sum()
    # Use autograd to compute the backward pass. Now w will have gradients
    loss.backward()
    # Update weights using gradient descent; w1.data are Tensors,
    # w.grad are Variables and w.grad.data are Tensors.
    W.data -= eta * W.grad.data
    # Manually zero the gradients after updating weights
    W.grad.data.zero_()

#
c_sgd = W.data.numpy()
X_mdl = X_mdl.data.numpy()
y = y.data.numpy()
#
Xc_pinv = np.dot(X_mdl,c_sgd)
print('J(c_sgd) = ', (1/N)*(np.linalg.norm(y-Xc_pinv)**2) )
print('loss = ',loss.data[0])

der code läuft einwandfrei und obwohl mein get_batch2 Methode scheint wirklich dum/naiv, seine wahrscheinlich, weil ich bin neu auf pytorch, aber ich habe nicht einen guten Platz gefunden, wo Sie diskutieren, wie Sie Daten abrufen, die Chargen. Ich ging durch Ihren tutorials (http://pytorch.org/tutorials/beginner/pytorch_with_examples.html) und durch die Daten festgelegt (http://pytorch.org/tutorials/beginner/data_loading_tutorial.html) mit kein Glück. Die tutorials scheinen alle davon ausgehen, dass man bereits die batch-und batch-Größe am Anfang und fährt dann mit dem Zug mit, dass Sie Daten, ohne es zu ändern (speziell schauen http://pytorch.org/tutorials/beginner/pytorch_with_examples.html#pytorch-variables-and-autograd).

Also meine Frage ist brauche ich wirklich, um meine Daten wieder in numpy, so dass ich abholen können einige zufällige Stichprobe, und dann schalten Sie es zurück zu pytorch mit Variablen in der Lage sein Zug in Speicher? Gibt es keine Möglichkeit, an mini-batches, die mit der Fackel?

Sah ich ein paar Funktionen Taschenlampe bietet aber mit kein Glück:

#pdb.set_trace()
#valid_indices = torch.arange(0,N).numpy()
#valid_indices = np.array( range(N) )
#batch_indices = np.random.choice(valid_indices,size=M,replace=False)
#indices = torch.LongTensor(batch_indices)
#batch_xs, batch_ys = torch.index_select(X_mdl, 0, indices), torch.index_select(y, 0, indices)
#batch_xs,batch_ys = torch.index_select(X_mdl, 0, indices), torch.index_select(y, 0, indices)

obwohl ich den code zur Verfügung gestellt, funktioniert einwandfrei ich bin besorgt, dass es sich nicht um eine effiziente Umsetzung UND, wenn ich die Verwendung von GPUs, dass es eine weitere erhebliche verlangsamen (weil ich Schätze, Sie setzen Dinge in Erinnerung und dann Holen Sie Sie zurück zu setzen GPU wie das ist albern).

Implementiert habe ich eine neue die auf der Antwort basiert, die vorgeschlagen, dass die Verwendung torch.index_select():

def get_batch2(X,Y,M):
    '''
    get batch for pytorch model
    '''
    # TODO fix and make it nicer, there is pytorch forum question
    #X,Y = X.data.numpy(), Y.data.numpy()
    X,Y = X, Y
    N = X.size()[0]
    batch_indices = torch.LongTensor( np.random.randint(0,N+1,size=M) )
    pdb.set_trace()
    batch_xs = torch.index_select(X,0,batch_indices)
    batch_ys = torch.index_select(Y,0,batch_indices)
    return Variable(batch_xs, requires_grad=False), Variable(batch_ys, requires_grad=False)

jedoch, diese Fragen zu haben scheint, weil es nicht funktioniert, wenn X,Y sind KEINE Variablen...das ist wirklich seltsam. Ich habe dies nur Hinzugefügt, um die pytorch forum: https://discuss.pytorch.org/t/how-to-get-mini-batches-in-pytorch-in-a-clean-and-efficient-way/10322

Jetzt, was ich bin kämpfen, ist mit dieser Arbeit für die gpu. Meine aktuelle version:

def get_batch2(X,Y,M,dtype):
    '''
    get batch for pytorch model
    '''
    # TODO fix and make it nicer, there is pytorch forum question
    #X,Y = X.data.numpy(), Y.data.numpy()
    X,Y = X, Y
    N = X.size()[0]
    if dtype ==  torch.cuda.FloatTensor:
        batch_indices = torch.cuda.LongTensor( np.random.randint(0,N,size=M) )# without replacement
    else:
        batch_indices = torch.LongTensor( np.random.randint(0,N,size=M) ).type(dtype)  # without replacement
    pdb.set_trace()
    batch_xs = torch.index_select(X,0,batch_indices)
    batch_ys = torch.index_select(Y,0,batch_indices)
    return Variable(batch_xs, requires_grad=False), Variable(batch_ys, requires_grad=False)

den Fehler:

RuntimeError: tried to construct a tensor from a int sequence, but found an item of type numpy.int64 at index (0)

Ich verstehe es nicht, muss ich wirklich zu tun haben:

ints = [ random.randint(0,N) for i i range(M)]

bekommen die ganzen zahlen?

Wäre es auch ideal, wenn die Daten für eine variable. Es scheint, dass es torch.index_select funktioniert nicht für Variable Typ data.

diese Liste von Integer-zahlen, was immer noch nicht funktioniert:

TypeError: torch.addmm received an invalid combination of arguments - got (int, torch.cuda.FloatTensor, int, torch.cuda.FloatTensor, torch.FloatTensor, out=torch.cuda.FloatTensor), but expected one of:
 * (torch.cuda.FloatTensor source, torch.cuda.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
 * (torch.cuda.FloatTensor source, torch.cuda.sparse.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
 * (float beta, torch.cuda.FloatTensor source, torch.cuda.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
 * (torch.cuda.FloatTensor source, float alpha, torch.cuda.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
 * (float beta, torch.cuda.FloatTensor source, torch.cuda.sparse.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
 * (torch.cuda.FloatTensor source, float alpha, torch.cuda.sparse.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
 * (float beta, torch.cuda.FloatTensor source, float alpha, torch.cuda.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
      didn't match because some of the arguments have invalid types: (int, torch.cuda.FloatTensor, int, torch.cuda.FloatTensor, torch.FloatTensor, out=torch.cuda.FloatTensor)
 * (float beta, torch.cuda.FloatTensor source, float alpha, torch.cuda.sparse.FloatTensor mat1, torch.cuda.FloatTensor mat2, *, torch.cuda.FloatTensor out)
      didn't match because some of the arguments have invalid types: (int, torch.cuda.FloatTensor, int, torch.cuda.FloatTensor, torch.FloatTensor, out=torch.cuda.FloatTensor)

auf der pytorch forum: discuss.pytorch.org/t/...
nützlich Kommentar vielleicht: Stellen Sie sicher, rufen Sie index_select mit der gleichen Art von Argumenten, d.h. zwei Tensoren oder zwei Variablen. Wickeln Sie Ihre batch_indices in eine Variable oder nutzen Sie einfach X[batch_indices, :].
auch im Zusammenhang: discuss.pytorch.org/t/...

InformationsquelleAutor Charlie Parker | 2017-07-15

24

Verwenden Sie data loader.

Datensatz

Zuerst definieren Sie einen Datensatz. Mit Paketen können Sie Datensätze in torchvision.datasets oder verwenden Sie ImageFolder dataset-Klasse, die entsprechend der Struktur des Imagenet.
```
trainset=torchvision.datasets.ImageFolder(root='/path/to/your/data/trn', transform=generic_transform)
testset=torchvision.datasets.ImageFolder(root='/path/to/your/data/val', transform=generic_transform)
```
Verwandelt

Transformationen sind sehr nützlich für die Vorverarbeitung der geladenen Daten on-the-fly. Wenn Sie Bilder, die Sie verwenden müssen, die ToTensor() Transformation zum konvertieren von geladenen Bilder aus PIL zu torch.tensor. Mehr verwandelt werden können, verpackt in ein composit-Transformation wie folgt.
```
generic_transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.ToPILImage(),
    #transforms.CenterCrop(size=128),
    transforms.Lambda(lambda x: myimresize(x, (128, 128))),
    transforms.ToTensor(),
    transforms.Normalize((0., 0., 0.), (6, 6, 6))
])
```
Data Loader

Dann definieren Sie eine Daten-loader bereitet die nächste charge während der Ausbildung. Sie können die Anzahl der threads, die für das laden von Daten.
```
trainloader=torch.utils.data.DataLoader(trainset, batch_size=32, shuffle=True, num_workers=8)
testloader=torch.utils.data.DataLoader(testset, batch_size=32, shuffle=False, num_workers=8)
```
Für die Ausbildung, die Sie nur aufzählen, auf die Daten loader.
```
  for i, data in enumerate(trainloader, 0):
    inputs, labels = data    
    inputs, labels = Variable(inputs.cuda()), Variable(labels.cuda())
    # continue training...
```
NumPy Zeug

Ja. Sie haben zu konvertieren torch.tensor zu numpy mit .numpy() Methode zu arbeiten. Wenn Sie mit der CUDA-Sie haben zum download der Daten von der GPU auf die CPU zuerst mit der .cpu() - Methode vor dem Aufruf .numpy(). Persönlich, kommen aus der MATLAB-hintergrund, ziehe ich es vor, die meiste Arbeit mit Fackel-tensor, dann Konvertierung der Daten in numpy nur für die Visualisierung. Auch Bedenken, dass die Fackel speichert Daten in einem Kanal-ersten-Modus, während numpy und PIL arbeiten mit channel-letzten. Dies bedeutet, dass Sie verwenden müssen np.rollaxis bewegen Sie den Kanal-Achse auf die Letzte. Ein Beispiel-code ist unten.
```
np.rollaxis(make_grid(mynet.ftrextractor(inputs).data, nrow=8, padding=1).cpu().numpy(), 0, 3)
```
Protokollierung

Die beste Methode, die ich gefunden, um die Visualisierung der feature-Karten ist mit tensor-board. Ein code ist verfügbar unter yunjey/pytorch-tutorial.
- Die tensor-board-Verbindung wird unterbrochen, und Sie können auch verwenden np.transpose() konvertieren von Kanal Erster Kanal letzter Darstellung.
- wenn mein Datensatz ist nur ein numpy-array, wie kann ich deine Lösung? Ich bin verwirrt, sorry für die noob-Frage.
InformationsquelleAutor Mo Hossny
23

Wenn ich verstehen Sie Ihren code richtig, Ihre get_batch2 - Funktion erscheint unter zufälligen mini-Chargen aus Ihrem Datenbestand ohne tracking die Indizes, die Sie verwendet haben, bereits in einer Epoche. Das Problem mit dieser Implementierung ist, dass es wahrscheinlich nicht machen, verwenden Sie alle Ihre Daten.

Die Art, wie ich normalerweise tun, Batchverarbeitung, ist das erstellen einer zufälligen permutation aller möglichen Ecken mit torch.randperm(N) Schleife durch Sie in den Reihen. Zum Beispiel:
```
n_epochs = 100 # or whatever
batch_size = 128 # or whatever

for epoch in range(n_epochs):

    # X is a torch Variable
    permutation = torch.randperm(X.size()[0])

    for i in range(0,X.size()[0], batch_size):
        optimizer.zero_grad()

        indices = permutation[i:i+batch_size]
        batch_x, batch_y = X[indices], Y[indices]

        # in case you wanted a semi-full example
        outputs = model.forward(batch_x)
        loss = lossfunction(outputs,batch_y)

        loss.backward()
        optimizer.step()
```
Wenn Sie möchten, kopieren und einfügen, stellen Sie sicher, dass Sie definieren Ihre Optimierer -, Modell-und lossfunction irgendwo vor dem Beginn der Epoche Schleife.

In Bezug auf Ihre Fehler, versuchen Sie es mit torch.from_numpy(np.random.randint(0,N,size=M)).long() statt torch.LongTensor(np.random.randint(0,N,size=M)). Ich bin mir nicht sicher, ob dies zu lösen, wird die Fehlermeldung, die Sie bekommen, aber es löst eine Zukunft Fehler.
- wie funktioniert torch.randperm(N) helfen?
- Es hilft in zweierlei Hinsicht. Die erste ist, dass es ist sichergestellt, dass jeder Datenpunkt in X der Stichprobe in einer einzigen Epoche. Es ist in der Regel gut zu verwenden, der alle Ihre Daten, um zu helfen Ihr Modell zu verallgemeinern. Der zweite Weg, es hilft, ist, dass es relativ einfach zu implementieren. Sie müssen nicht, um eine ganze Funktion wie get_batch2().
- Ich war mir nicht bewusst, dass die Menschen tatsächlich immer den überblick über die Indizes, die Sie gesehen haben, ist dieses gängige Praxis? Ich dachte, es war nur das abrufen von Daten, ohne Ersatz, was war die gängige Praxis, zumindest in neuronalen Netzen, nicht?
- Ja, die wichtigsten Teile sind die Sicherstellung, dass Daten nicht wiederholt in einer Epoche und alle Daten verwendet, die in jeder Epoche. Andernfalls könnte das Modell overfit zu bestimmten Daten und-noch schlimmer-bei der Verallgemeinerung auf ungesehenen Testdaten. Die Verfolgung der Indizes ist eine einfache Methode, um dieses Ziel zu erreichen. Ein weiterer Ansatz wäre es, schieben Sie die Daten am Anfang jeder Epoche. Was auch immer funktioniert. Es sah aus wie dein Beispiel-code war möglicherweise die Wiederverwendung einige Daten und vernachlässigen andere Daten, die innerhalb einer Epoche. Sorry, wenn ich missverstanden code.
- Ein Vorteil der index-Permutationen ist, dass Sie können es verwenden, egal, welches framework du verwendest. Numpy hat np.random.permutation() so es einfach ist zu tun, wenn Sie tensorflow.
- Mein code ist nur Probenahme ohne Ersatz und hat die Wiederholung auf Ihr Problem hingewiesen. Aber das ist, was ich dachte, war der standard. Ich verstehe, was Nachteile hat es (wie Sie sagten), aber ich dachte trotzdem, daß es das ist, was verwendet wurde, denn mit einer massiven Datenmengen, die heute nur zu teuer, zu verfolgen, Indizes und so...Nein?
- Guter Punkt, hatte ich nicht gedacht. Wenn Sie über einen ausreichend großen Datensatz ist es wahrscheinlich egal, zu viel. Ich nehme an, das ist eine Abwägung, die jeder dev hat, für Ihre self.
- Ich möchte nur darauf hinweisen, dass dies verwirft alle Beispiele in der E-Modul des batch_size. Also, wenn Sie 10 Beispiele, und legen Sie die batch-Größe 3, Sie nicht zu nutzen, die letzten 1 Beispiel. Nur etwas bewusst zu sein
InformationsquelleAutor saetch_g

Nicht sicher, was Sie zu tun versuchten. W. r.t. die Dosierung, die Sie nicht haben, um zu konvertieren, um numpy. Sie konnte einfach index_select() , z.B.:

for epoch in range(500):
    k=0
    loss = 0
    while k < X_mdl.size(0):

        random_batch = [0]*5
        for i in range(k,k+M):
            random_batch[i] = np.random.choice(N-1)
        random_batch = torch.LongTensor(random_batch)
        batch_xs = X_mdl.index_select(0, random_batch)
        batch_ys = y.index_select(0, random_batch)

        # Forward pass: compute predicted y using operations on Variables
        y_pred = batch_xs.mul(W)
        # etc..

Den rest des Codes müsste geändert werden, sowie though.

Meine Vermutung, Sie würde gern ein get_batch-Funktion verbindet Ihren X-Tensoren und Y-Tensoren. So etwas wie:

def make_batch(list_of_tensors):
    X, y = list_of_tensors[0]
    # may need to unsqueeze X and y to get right dimensions
    for i, (sample, label) in enumerate(list_of_tensors[1:]):
        X = torch.cat((X, sample), dim=0)
        y = torch.cat((y, label), dim=0)
    return X, y

Dann während des Trainings Sie wählen, z.B. max_batch_size = 32, Beispiele durch schneiden.

for epoch:
  X, y = make_batch(list_of_tensors)
  X = Variable(X, requires_grad=False)
  y = Variable(y, requires_grad=False)

  k = 0   
   while k < X.size(0):
     inputs = X[k:k+max_batch_size,:]
     labels = y[k:k+max_batch_size,:]
     # some computation
     k+= max_batch_size

es ist wirklich ärgerlich, index_select() benötigt die Daten, um nicht eine variable sein...warum?
Wahrscheinlich, weil die änderung nur Teile der Daten innerhalb einer Variablen nicht aktivieren Gradienten-Berechnung.
aber die Daten hat immer seine requires_grad=False...wie spielt das eine Rolle?
Du hast Recht, requires_grad ist nur ein boolescher Wert, der angibt, ob die Variable erstellt wurde, durch einen Teilgraphen. Die Daten-Variable sollte nicht grad, denn Sie werden das überschreiben der ursprünglichen Inhalte sowieso. Anscheinend können Sie index_select eine Variable mit einer Variable: discuss.pytorch.org/t/indexing-a-variable-with-a-variable/2111
Im verwirrt über eine Sache, was ist der Unterschied zwischen index_select() vs-nur die Indizierung direkt X[k1:k2,:]? Wie, als würden wir einer gegen den anderen?

InformationsquelleAutor Forcetti

Erstellen Sie eine Klasse, die eine Unterklasse von torch.utils.data.Dataset und übergeben es an einem torch.utils.data.Dataloader. Unten ist ein Beispiel für mein Projekt.

class CandidateDataset(Dataset):
    def __init__(self, x, y):
        self.len = x.shape[0]
        if torch.cuda.is_available():
            device = 'cuda'
        else:
            device = 'cpu'
        self.x_data = torch.as_tensor(x, device=device, dtype=torch.float)
        self.y_data = torch.as_tensor(y, device=device, dtype=torch.long)

    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]

    def __len__(self):
        return self.len

def fit(self, candidate_count):
        feature_matrix = np.empty(shape=(candidate_count, 600))
        target_matrix = np.empty(shape=(candidate_count, 1))
        fill_matrices(feature_matrix, target_matrix)
        candidate_ds = CandidateDataset(feature_matrix, target_matrix)
        train_loader = DataLoader(dataset = candidate_ds, batch_size = self.BATCH_SIZE, shuffle = True)
        for epoch in range(self.N_EPOCHS):
            print('starting epoch ' + str(epoch))
            for batch_idx, (inputs, labels) in enumerate(train_loader):
                print('starting batch ' + str(batch_idx) + ' epoch ' + str(epoch))
                inputs, labels = Variable(inputs), Variable(labels)
                self.optimizer.zero_grad()
                inputs = inputs.view(1, inputs.size()[0], 600)
                # init hidden with number of rows in input
                y_pred = self.model(inputs, self.model.initHidden(inputs.size()[1]))
                labels.squeeze_()
                # labels should be tensor with batch_size rows. Column the index of the class (0 or 1)
                loss = self.loss_f(y_pred, labels)
                loss.backward()
                self.optimizer.step()
                print('done batch ' + str(batch_idx) + ' epoch ' + str(epoch))

InformationsquelleAutor gary69

Können Sie torch.utils.data

vorausgesetzt, Sie haben geladen, die Daten aus dem Verzeichnis, in Zug-und test-numpy-arrays können Erben von torch.utils.data.Dataset Klasse zu erstellen, die das dataset-Objekt

class MyDataset(Dataset):
    def __init__(self, x, y):
        super(MyDataset, self).__init__()
        assert x.shape[0] == y.shape[0] # assuming shape[0] = dataset size
        self.x = x
        self.y = y


    def __len__(self):
        return self.y.shape[0]

    def __getitem__(self, index):
        return self.x[index], self.y[index]

Erstellen Sie dann das dataset-Objekt

traindata = MyDataset(train_x, train_y)

Schließlich verwenden DataLoader zu erstellen Sie Ihre mini-batches

trainloader = torch.utils.data.DataLoader(traindata, batch_size=64, shuffle=True)

InformationsquelleAutor Jibin Mathew

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Datensatz

Verwandelt

Data Loader

NumPy Zeug

Protokollierung