Scikit-lernen ausgeglichenes Subsampling

Ich versuche zu schaffen, N symmetrisch Zufallsprinzip ausgewählt meine große unausgeglichenen Datensatz. Gibt es eine Möglichkeit, dies zu tun, einfach mit scikit-learn /pandas oder muss ich es umsetzen, mich? Alle Zeiger auf code, der dies tut?

Diese teilproben werden sollten, zufällig und können sich überlappende, als ich Futter jeweils separate classifier in einem sehr großen ensemble von Klassifikatoren.

In Weka gibt es tool namens spreadsubsample, ist es äquivalent in sklearn?
http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample

(Ich weiß über die Gewichtung, aber das ist nicht das, was ich Suche.)

InformationsquelleAutor der Frage mikkom | 2014-05-04

Schreibe einen Kommentar