k-fold stratified cross-validation mit unausgewogenen Klassen

Habe ich die Daten mit 4 Klassen und ich bin versucht, erstellen Sie eine benutzerdefinierte klassifizierungsfunktion. Ich habe ~1000 Vektoren für eine Klasse, ~10^4 für andere, ~10^5 für das Dritte und ~10^6 für die vierte. Ich hatte gehofft, mit cross-validation so dass ich schaute auf die scikit-learn docs .

Meinem ersten Versuch war der Einsatz von StratifiedShuffleSplit aber das gibt den gleichen Prozentsatz für jede Klasse, verlassen die Klassen drastisch unausgewogen immer noch.

Gibt es einen Weg, um cross-validation aber mit den Klassen ausgeglichen
die Trainings-und test-set?


Als eine Randnotiz, ich konnte allerdings nicht herausfinden, den Unterschied zwischen StratifiedShuffleSplit und StratifiedKFold . Die Beschreibungen sind sich sehr ähnlich.

bitte zeigen Sie einige code

InformationsquelleAutor eleanora | 2015-09-16

Schreibe einen Kommentar