Wie mein dataset in einem .pkl-Datei genau in dem format und Struktur der Daten, die in "mnist.pkl.gz"?

Ich versuche, die Theano Bibliothek in python zu tun, einige Experimente mit Deep belief Networks. Ich benutze den code in diese Adresse: DBN vollständige code. Dieser code verwendet die MNIST Handschriftliche Datenbank. Diese Datei ist bereits in Gurke-format.
Es ist unpicked in:

train_set
valid_set
test_set

Welches weiter unpickled in:

train_set_x, train_set_y = train_set
valid_set_x, valid_set_y = valid_set
test_set_x, test_set_y = test_set

Bitte kann mir jemand den code, dass Konstrukte dieser Datensatz um meine eigenen erstellen?
Der DBN Beispiel verwende ich die Daten in diesem format und ich weiß nicht, wie es zu tun.
wenn jemand eine Idee hat wie man das beheben kann, bitte mir mitteilen.

Hier ist mein code:

from datetime import datetime
import time
import os
from pprint import pprint
import numpy as np
import gzip, cPickle
import theano.tensor as T
from theano import function


os.system("cls")

filename = "completeData.txt"


f = open(filename,"r")
X = []
Y = []

for line in f:
        line = line.strip('\n')  
        b = line.split(';')
        b[0] = float(b[0])
        b[1] = float(b[1])
        b[2] = float(b[2])
        b[3] = float(b[3])
        b[4] = float(b[4])
        b[5] = float(b[5])
        b[6] = float(b[6])
        b[7] = float(b[7])
        b[8] = float(b[8])
        b[9] = float(b[9])
        b[10] = float(b[10])
        b[11] = float(b[11])
        b[12] = float(b[12])
        b[13] = float(b[13])
        b[14] = float(b[14])
        b[15] = float(b[15])
        b[17] = int(b[17])
        X.append(b[:16])
        Y.append(b[17])

Len = len(X);
X = np.asmatrix(X)
Y = np.asarray(Y)

sizes = [0.8, 0.1, 0.1]
arr_index = int(sizes[0]*Len)
arr_index2_start = arr_index + 1
arr_index2_end = arr_index + int(sizes[1]*Len)
arr_index3_start = arr_index2_start + 1

"""
train_set_x = np.array(X[:arr_index])
train_set_y = np.array(Y[:arr_index])

val_set_x = np.array(X[arr_index2_start:arr_index2_end])
val_set_y = np.array(Y[arr_index2_start:arr_index2_end])

test_set_x = np.array(X[arr_index3_start:])
test_set_y = np.array(X[arr_index3_start:])

train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y
"""
x = T.dmatrix('x')
z = x
t_mat = function([x],z)

y = T.dvector('y')
k = y
t_vec = function([y],k)

train_set_x = t_mat(X[:arr_index].T)
train_set_y = t_vec(Y[:arr_index])
val_set_x = t_mat(X[arr_index2_start:arr_index2_end].T)
val_set_y = t_vec(Y[arr_index2_start:arr_index2_end])
test_set_x = t_mat(X[arr_index3_start:].T)
test_set_y = t_vec(Y[arr_index3_start:])

train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y

dataset = [train_set, val_set, test_set]

f = gzip.open('..\..\..\data\dex.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=-1)
f.close()

pprint(train_set_x.shape)

print('Finished\n')

Sie können einfach zu implementieren-Python-basiert auf der Beschreibung unten.

InformationsquelleAutor John Krit | 2014-09-29

6

Ein .pkl-Datei ist nicht notwendig, sich den code von der Theano tutorial zu den eigenen Daten. Sie brauchen nur zu imitieren, um Ihre Daten-Struktur.

Quick fix

Suchen Sie die folgenden Zeilen. Es ist die Linie 303 auf DBN.py.
```
datasets = load_data(dataset)
train_set_x, train_set_y = datasets[0]
```
Ersetzen Sie mit Ihrem eigenen train_set_x und train_set_y.
```
my_x = []
my_y = []
with open('path_to_file', 'r') as f:
    for line in f:
        my_list = line.split(' ') # replace with your own separator instead
        my_x.append(my_list[1:-1]) # omitting identifier in [0] and target in [-1]
        my_y.append(my_list[-1])
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))
```
Diese anpassen, um Ihre input-Daten und den code, den Sie verwenden.

Das gleiche funktioniert für cA.py, dA.py und SdA.py aber Sie verwenden Sie nur train_set_x.

Blick für Orte wie n_ins=28 * 28 wo mnist Bildgrößen sind hardcoded. Ersetzen 28 * 28 mit Ihrer eigenen Reihe von Spalten.

Erklärung

Dies ist, wo Sie Ihre Daten in einem format, dass Theano arbeiten kann.
```
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))
```
shared() stellt sich ein numpy-array in der Theano-format, entworfen für Effizienz auf GPUs.

dtype='float64' wird erwartet, Theano arrays.

Mehr details auf basic-tensor-Funktionalität.

.pkl-Datei

Den .pkl-Datei ist eine Möglichkeit zum speichern Ihrer Daten-Struktur.

Können Sie Ihre eigenen erstellen.
```
import cPickle
f = file('my_data.pkl', 'wb')
    cPickle.dump((train_set_x, train_set_y), f, protocol=cPickle.HIGHEST_PROTOCOL)
f.close()
```
Mehr details auf laden und speichern.

InformationsquelleAutor xagg
5

Den eingelegten Datei repräsentiert ein Tupel von 3 Listen : die Ausbildung, die validation set und Test-set. (Zug, val, test)
- Jede der drei Listen ein paar, gebildet aus einer Liste von Bildern und einer Liste von class-labels für die einzelnen Bilder.
- Ein Bild ist dargestellt, wie numpy 1-dimensionales array von 784 (28 x 28) float-Werte zwischen 0 und 1 (0 steht für schwarz, 1 für weiß).
- Die Etiketten sind zahlen zwischen 0 und 9, die angibt, welche Stelle des Bildes darstellt.
InformationsquelleAutor anh_ng8

Diese können helfen:

from PIL import Image
from numpy import genfromtxt
import gzip, cPickle
from glob import glob
import numpy as np
import pandas as pd
Data, y = dir_to_dataset("trainMNISTForm\\*.BMP","trainLabels.csv")
# Data and labels are read 

train_set_x = Data[:2093]
val_set_x = Data[2094:4187]
test_set_x = Data[4188:6281]
train_set_y = y[:2093]
val_set_y = y[2094:4187]
test_set_y = y[4188:6281]
# Divided dataset into 3 parts. I had 6281 images.

train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, val_set_y

dataset = [train_set, val_set, test_set]

f = gzip.open('file.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=2)
f.close()

Dies ist die Funktion die ich verwendet habe. Kann sich ändern, nach Informationen Ihrer Datei.

def dir_to_dataset(glob_files, loc_train_labels=""):
    print("Gonna process:\n\t %s"%glob_files)
    dataset = []
    for file_count, file_name in enumerate( sorted(glob(glob_files),key=len) ):
        image = Image.open(file_name)
        img = Image.open(file_name).convert('LA') #tograyscale
        pixels = [f[0] for f in list(img.getdata())]
        dataset.append(pixels)
        if file_count % 1000 == 0:
            print("\t %s files processed"%file_count)
    # outfile = glob_files+"out"
    # np.save(outfile, dataset)
    if len(loc_train_labels) > 0:
        df = pd.read_csv(loc_train_labels)
        return np.array(dataset), np.array(df["Class"])
    else:
        return np.array(dataset)

InformationsquelleAutor sinhayash

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Quick fix

Erklärung

.pkl-Datei