Wie die geteilten Daten auf einem ausgewogenen Trainings-set und test-set auf sklearn

Ich bin mit sklearn für multi-Klassifizierung Aufgabe. Ich brauche split alldata in train_set und test_set. Ich will, dass der zufällig die gleiche sample-Anzahl pro Klasse.
Eigentlich habe ich amüsant diese Funktion

X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=0)

aber es gibt unsymmetrisch dataset! Jede Anregung.

wenn Sie noch verwenden möchten cross_validation.train_test_split und Sie sind auf sklearn 0.17 Sie können die balance-training und-test, überprüfen Sie heraus meine Antwort
Auf einer Seite Hinweis, für eine unausgewogene Ausbildung mit sklearn.ensemble.RandomForestClassifier zum Beispiel class_weight="balanced" verwendet werden kann.

InformationsquelleAutor Jeanne | 2016-02-18

Schreibe einen Kommentar