Wie die geteilten Daten auf einem ausgewogenen Trainings-set und test-set auf sklearn

Ich bin mit sklearn für multi-Klassifizierung Aufgabe. Ich brauche split alldata in train_set und test_set. Ich will, dass der zufällig die gleiche sample-Anzahl pro Klasse.
Eigentlich habe ich amüsant diese Funktion

X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=0)

aber es gibt unsymmetrisch dataset! Jede Anregung.

wenn Sie noch verwenden möchten cross_validation.train_test_split und Sie sind auf sklearn 0.17 Sie können die balance-training und-test, überprüfen Sie heraus meine Antwort
Auf einer Seite Hinweis, für eine unausgewogene Ausbildung mit sklearn.ensemble.RandomForestClassifier zum Beispiel class_weight="balanced" verwendet werden kann.

InformationsquelleAutor Jeanne | 2016-02-18

13

Können Sie StratifiedShuffleSplit zu erstellen, die Datensätze mit den gleichen Prozentsatz von Klassen als das original:
```
import numpy as np
from sklearn.cross_validation import StratifiedShuffleSplit
X = np.array([[1, 3], [3, 7], [2, 4], [4, 8]])
y = np.array([0, 1, 0, 1])
stratSplit = StratifiedShuffleSplit(y, 1, test_size=0.5,random_state=42)
StratifiedShuffleSplit(y, n_iter=1, test_size=0.5)
for train_idx,test_idx in stratSplit:
    X_train=X[train_idx]
    y_train=y[train_idx]
print(X_train)
print(y_train)
//[[3 7]
//[2 4]]
//[1 0]
```
Hinweis aus der Dokumentation: StratifiedShuffleSplit ist veraltet seit version 0.18: Dieses Modul entfernt werden, 0.20. sklearn.model_selection.StratifiedShuffleSplit statt.
"zu erstellen, die Datensätze mit den gleichen Prozentsatz von Klassen als das original:" nach github.com/scikit-learn/scikit-learn/issues/8913 dies ist nicht immer der Fall.

InformationsquelleAutor Christian Hirsch
11

Obwohl Christian ' s Vorschlag ist richtig, technisch train_test_split sollte Ihnen geschichteten Ergebnisse durch die Verwendung des stratify param.

Damit Sie tun könnten:
```
X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=0, stratify=Target)
```
Der trick hier ist, dass es beginnt ab der version 0.17 im sklearn.

Aus der Dokumentation über die parameter stratify:

Schichten : array-like oder None (default None)
Wenn nicht None, werden die Daten aufgeteilt in einen geschichteten Mode, mit dieser als die labels-array.
Neu in version 0.17: unterteilen, aufspalten

aber wenn die Klassen nicht ausgeglichen sind, in Daten (class1=200 Proben, class2=250 samples,..) und ich brauche (100, 100) für die Ausbildung und (50 ,50) für den test. Wie Kann ich es tun
es gibt zwei weitere Parameter in der train_test_split: train_size, test_size (und die, abgesehen von der Vertretung einen Anteil, wenn float werden, können Sie auch int). Noch nie ausprobiert, aber ich denke, dass train_size=100, test_size=50 kombiniert mit der stratify param funktionieren sollte.
Ich habe nicht versucht es, aber wenn Sie das o, Sie sollten 100 Ausbildungs-Proben folgt, dass die ursprüngliche Verteilung und 50 folgt, dass die ursprüngliche Verteilung zu. (Ich ändere das Beispiel ein wenig zu klären, suppouse class1=200 Proben, class2=400 Proben), dann ist dein Zug gesetzt haben 33 Beispiele aus der class1 und 67 von class2, und Ihre test-set 18-Beispiele aus der class1 und 32 von class2. Soweit ich das verstanden habe, die ursprüngliche Frage ist zu versuchen, um ein Zug-set mit 50 Beispiele aus der class1 und 50 von class2, aber ein test-set mit 18 Beispiele von class1 und 32 von class2.
Um zu klären, split mit Schichten schafft Proben der Daten in der gleichen Anteil der das original. z.B. wenn die Klassen in Ihre Daten sind split von 70/30, dann Schichten aufgeteilt wird, erstellen Sie Proben mit 70/30 split.

InformationsquelleAutor Guiem Bosch

Wenn die Klassen nicht ausgeglichen sind, aber Sie wollen das split ausgeglichen zu sein, dann stratifying ist nicht zu helfen. Es scheint nicht zu sein, eine Methode, das zu tun ausgewogenes sampling in sklearn, aber es ist einfach basic verwenden, numpy, zum Beispiel eine Funktion wie diese Ihnen helfen könnten:

def split_balanced(data, target, test_size=0.2):

    classes = np.unique(target)
    # can give test_size as fraction of input data size of number of samples
    if test_size<1:
        n_test = np.round(len(target)*test_size)
    else:
        n_test = test_size
    n_train = max(0,len(target)-n_test)
    n_train_per_class = max(1,int(np.floor(n_train/len(classes))))
    n_test_per_class = max(1,int(np.floor(n_test/len(classes))))

    ixs = []
    for cl in classes:
        if (n_train_per_class+n_test_per_class) > np.sum(target==cl):
            # if data has too few samples for this class, do upsampling
            # split the data to training and testing before sampling so data points won't be
            #  shared among training and test data
            splitix = int(np.ceil(n_train_per_class/(n_train_per_class+n_test_per_class)*np.sum(target==cl)))
            ixs.append(np.r_[np.random.choice(np.nonzero(target==cl)[0][:splitix], n_train_per_class),
                np.random.choice(np.nonzero(target==cl)[0][splitix:], n_test_per_class)])
        else:
            ixs.append(np.random.choice(np.nonzero(target==cl)[0], n_train_per_class+n_test_per_class,
                replace=False))

    # take same num of samples from all classes
    ix_train = np.concatenate([x[:n_train_per_class] for x in ixs])
    ix_test = np.concatenate([x[n_train_per_class:(n_train_per_class+n_test_per_class)] for x in ixs])

    X_train = data[ix_train,:]
    X_test = data[ix_test,:]
    y_train = target[ix_train]
    y_test = target[ix_test]

    return X_train, X_test, y_train, y_test

Beachten Sie, dass wenn Sie diese und Beispiel mehr Punkte pro Klasse als in der input-Daten, dann werden diese mit Upsampling (Probe mit Ersatz). Als Ergebnis, werden einige Daten Punkte wird mehrmals angezeigt und kann dies einen Effekt auf die Genauigkeit Maßnahmen etc. Und wenn manche Klasse hat nur einen Datenpunkt, gibt es einen Fehler. Sie können leicht überprüfen, die zahlen der Punkte pro Klasse zum Beispiel mit np.unique(target, return_counts=True)

Ich mag das Prinzip, aber ich denke, es gibt ein problem mit der aktuellen Implementierung, dass die zufällige Probenahme zuordnen kann identische Proben zu trainieren und test-sets. Die Probenahme sollte wohl sammeln, trainieren und testen Indizes in separaten pools.
Du hast absolut Recht und ich versuchte zu erwähnen, das mit den Worten: "haben Sie vielleicht repliziert Punkte in Ihrem Trainings-und Testdaten, die verursachen können Ihre Modell-performance suchen allzu optimistisch," aber nun verstehe ich auch die Formulierung ist vielleicht nicht perfekt gewesen, sorry. Ich werde Bearbeiten Sie den code so, dass es nicht freigegebenen Daten Punkte mehr.

InformationsquelleAutor antike

Dies ist meine Umsetzung, die ich verwendet, um-Zug - /Testdaten-Indizes

def get_safe_balanced_split(target, trainSize=0.8, getTestIndexes=True, shuffle=False, seed=None):
    classes, counts = np.unique(target, return_counts=True)
    nPerClass = float(len(target))*float(trainSize)/float(len(classes))
    if nPerClass > np.min(counts):
        print("Insufficient data to produce a balanced training data split.")
        print("Classes found %s"%classes)
        print("Classes count %s"%counts)
        ts = float(trainSize*np.min(counts)*len(classes)) /float(len(target))
        print("trainSize is reset from %s to %s"%(trainSize, ts))
        trainSize = ts
        nPerClass = float(len(target))*float(trainSize)/float(len(classes))
    # get number of classes
    nPerClass = int(nPerClass)
    print("Data splitting on %i classes and returning %i per class"%(len(classes),nPerClass ))
    # get indexes
    trainIndexes = []
    for c in classes:
        if seed is not None:
            np.random.seed(seed)
        cIdxs = np.where(target==c)[0]
        cIdxs = np.random.choice(cIdxs, nPerClass, replace=False)
        trainIndexes.extend(cIdxs)
    # get test indexes
    testIndexes = None
    if getTestIndexes:
        testIndexes = list(set(range(len(target))) - set(trainIndexes))
    # shuffle
    if shuffle:
        trainIndexes = random.shuffle(trainIndexes)
        if testIndexes is not None:
            testIndexes = random.shuffle(testIndexes)
    # return indexes
    return trainIndexes, testIndexes

InformationsquelleAutor Cobry

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.