sklearn train_test_split auf pandas Schichten von mehreren Spalten

Ich bin ein relativ neuer Benutzer sklearn und führen Sie in eine unerwartete Verhalten in train_test_split von sklearn.model_selection. Ich habe ein pandas dataframe, dass ich möchte, aufgeteilt in eine Trainings-und Testsatz. Ich möchte zu Schichten, dass meine Daten von mindestens 2, idealerweise aber 4 Spalten in meiner dataframe.

Gab es keine Warnungen aus sklearn, wenn ich versuchte, dies zu tun, jedoch fand ich später, dass es wiederholte Zeilen in meinem letzten Datensatz. Erstellt habe ich ein Probe-test zeigen dieses Verhalten:

from sklearn.model_selection import train_test_split
a = np.array([i for i in range(1000000)])
b = [i%10 for i in a]
c = [i%5 for i in a]
df = pd.DataFrame({'a':a, 'b':b, 'c':c})

Es scheint zu funktionieren wie erwartet, wenn ich die Schichten entweder durch Spalte:

train, test = train_test_split(df, test_size=0.2, random_state=0, stratify=df[['b']])
print(len(train.a.values))  # prints 800000
print(len(set(train.a.values)))  # prints 800000

train, test = train_test_split(df, test_size=0.2, random_state=0, stratify=df[['c']])
print(len(train.a.values))  # prints 800000
print(len(set(train.a.values)))  # prints 800000

Aber wenn ich versuche zu Schichten, die durch beide Spalten, bekomme ich wiederholte Werte:

train, test = train_test_split(df, test_size=0.2, random_state=0, stratify=df[['b', 'c']])
print(len(train.a.values))  # prints 800000
print(len(set(train.a.values)))  # prints 640000

InformationsquelleAutor Caitlin | 2017-08-04

11

Deshalb sind Sie immer Duplikate, weil train_test_split() schließlich definiert Schichten als eindeutigen Satz von Werten von was auch immer Sie ging in die stratify argument. Da die Schichten definiert sind, die aus zwei Spalten, eine Zeile von Daten darstellen können mehr als eine Schicht, und so kann die Probenahme wählen Sie die gleiche Zeile zweimal, weil es denkt, es ist die Probenahme aus verschiedenen Klassen.

Den train_test_split() Funktion Aufrufe StratifiedShuffleSplit, die verwendet np.unique() auf y (das ist, was Sie über stratify). Aus dem Quellcode:
```
classes, y_indices = np.unique(y, return_inverse=True)
n_classes = classes.shape[0]
```
Hier ist ein Vereinfachtes Beispiel, eine variation auf das Beispiel, das Sie zur Verfügung gestellt:
```
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd

N = 20
a = np.arange(N)
b = np.random.choice(["foo","bar"], size=N)
c = np.random.choice(["y","z"], size=N)
df = pd.DataFrame({'a':a, 'b':b, 'c':c})

print(df)
     a    b  c
0    0  bar  y
1    1  foo  y
2    2  bar  z
3    3  bar  y
4    4  foo  z
5    5  bar  y
...
```
Die Schichtung Funktion denkt, es gibt vier Klassen aufteilen auf: foo, bar, y, und z. Aber da diese Klassen sind im wesentlichen geschachtelte, Bedeutung y und z beide zeigen, bis in b == foo und b == bar wir erhalten Duplikate, wenn der splitter versucht, Muster aus jeder Klasse.
```
train, test = train_test_split(df, test_size=0.2, random_state=0, 
                               stratify=df[['b', 'c']])
print(len(train.a.values))  # 16
print(len(set(train.a.values)))  # 12

print(train)
     a    b  c
3    3  bar  y   # selecting a = 3 for b = bar*
5    5  bar  y
13  13  foo  y
4    4  foo  z
14  14  bar  z
10  10  foo  z
3    3  bar  y   # selecting a = 3 for c = y
6    6  bar  y
16  16  foo  y
18  18  bar  z
6    6  bar  y
8    8  foo  y
18  18  bar  z
7    7  bar  z
4    4  foo  z
19  19  bar  y

#* We can't be sure which row is selecting for `bar` or `y`, 
#  I'm just illustrating the idea here.
```
Gibt es eine größere design-Frage hier: wollen Sie verwendet verschachtelte stratified sampling, oder tun Sie eigentlich nur behandeln wollen jede Klasse df.b und df.c als eine separate Klasse Probe aus? Wenn letzteres, das ist, was du bist schon immer. Das erstere ist komplizierter, und das ist nicht das, was train_test_split eingerichtet ist, zu tun.

Finden Sie vielleicht diese Diskussion verschachtelt geschichteten Probenahme sinnvoll.

InformationsquelleAutor andrew_reece
5

Welche version von scikit-learn verwenden Sie ? Sie können sklearn.__version__ zu überprüfen.

Vorherige version 0.19.0, scikit-learn ist nicht in der Lage 2-dimensionale Schichtung richtig. Es ist gepatcht 0.19.0.

Ist es describled in Ausgabe #9044.

Aktualisieren Sie Ihre scikit-learn sollte das problem lösen. Wenn Sie nicht aktualisieren Sie Ihre scikit-lernen, sehen diese commit-Historie hier für das Update.
- Was bedeutet "richtig" hier gemeint? Bedeutet es, dass es führt die verschachtelt geschichteten Stichproben, andrew_reece erwähnt?
- Habe es gerade getestet, und es scheint, dass es in der Tat tun, die verschachtelt geschichteten Probenahme. Vielen Dank für Ihre Antwort, es war sehr hilfreich!!!
InformationsquelleAutor Louis T
3

Wenn Sie wollen train_test_split zu Verhalten, als Sie erwarten (Schichten von mehreren Spalten ohne Duplikate) erstellen Sie eine neue Spalte, die eine Verkettung der Werte in den anderen Spalten und Schichten auf die neue Spalte.
```
df['bc'] = df['b'].astype(str) + df['c'].astype(str)
train, test = train_test_split(df, test_size=0.2, random_state=0, stratify=df[['bc']])
```
Wenn Sie besorgt sind über den Zusammenstoß durch Werte wie 11 und 3 und 1 und 13 sowohl die Erstellung einer verketteten Wert von 113, dann kannst du einen beliebigen string in der Mitte:
```
df['bc'] = df['b'].astype(str) + "_" + df['c'].astype(str)
```
InformationsquelleAutor Sesquipedalism

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.