Resample-Filter von WEKA - Wie das Ergebnis zu interpretieren ist

Ich bin derzeit strugeling mit einem machine-learning-problem an, während ich zu tun haben mit großem unsymmetrische Daten-sets. Das heißt, es gibt sechs Klassen ('1','2'...'6'). Leider gibt es z.B. für die Klasse '1' 150 Beispiele/Instanzen, für '2' 90-Instanzen und für die Klasse '3' nur 20. Alle anderen Klassen können nicht "trainiert", da gibt es keine verfügbaren Instanzen dieser Klassen.

Bisher habe ich herausgefunden, dass WEKA (die machine learning toolkit benutze ich) bietet das betreute "Resample" - filter. Wenn ich diesen filter anwenden, mit 'noReplacement'=false und 'bialToUniformClass'=1.0 dann diese Ergebnisse in einem Datensatz, wobei die Anzahl der Instanzen ist schön und fast gleich (für die Klasse '1'..'3' und die anderen bleiben leer).

Meine Frage ist nun: wie funktioniert WEKA und diese filter generieren "neue"/weitere Instanzen für die verschiedenen Klassen.

Vielen Dank im Voraus für irgendwelche Tipps oder Anregungen.

Cheers
Julian

InformationsquelleAutor Julian | 2009-12-09
Schreibe einen Kommentar