Wie Teile ich ein dataset in Trainings-und test sets mit Weka?

Möchte ich teilen eine million-Datensatz Datensatz im CSV-format in 80% training und 20% für die Prüfung. Wie kann ich den code für das Java-oder Weka-Bibliothek?

Warum nicht tun Sie es einfach zufällig durch die Verwendung von standard-Zufallszahlen-Generatoren?
JS Meier sagte: Lesen Sie die Datei zeilenweise ein und entscheiden Sie, wenn Sie wollen, um eine solche Linie zu TESTEN.csv-Datei oder ZUG.csv-Datei. Es gibt Hunderte von Beispielen, die auf der web zu behandeln, wie text-Dateien.
Ich kann verstehen, dass du gesagt hast. Aber Freunde, wenn ich ändern und aktualisieren von Daten, die ich brauche, um die manuelle Vorgang für jeden Datensatz. Eigentlich will ich diese benutzen für maschinelles lernen, so Bedarf es der richtigen zufällige Datensätze zu verarbeiten und Ihre Idee erhöht die Kosten des Prozesses. Wenn Sie verstehen, was ich sage, dann gib mir eine andere Idee.

InformationsquelleAutor Jeet | 2015-01-24

4

Können Sie verwenden Sie die bereitgestellten Methoden Instances Zuerst zufällig, Ihre Daten
```
Random rand = new Random(seed);   //create seeded number generator
randData = new Instances(data);   //create copy of original data
randData.randomize(rand);         //randomize data with number generator
```
In Fall werden Ihre Daten über eine Nominale Klasse und Sie will ausführen stratified cross-validation:
```
randData.stratify(folds);
```
Nun, normalerweise würden Sie wollen, um ein cross-Validierung und tun Sie dies:
```
for (int n = 0; n < folds; n++) {
    Instances train = randData.trainCV(folds, n);
    Instances test = randData.testCV(folds, n);

    //further processing, classification, etc.
    ...
}
```
(Die Quelle eigentlich erwähnt, dass "der obige code wird durch die weka.filters.supervised.instance.StratifiedRemoveFolds filter")

Aber wenn Sie nur wollen, eine Reihe von 80/20 Instanzen, dann tun Sie es einfach einmal:
```
Instances train = randData.trainCV(folds, 0);
Instances test = randData.testCV(folds, 0);
```
Quelle
- Wie macht sich deine for-Schleife teilen Sie die Trainings-und Testsätze? Zum Beispiel, wenn ich will, %90 meiner Daten ist die Ausbildung eingestellt, und %10 test-set, wie kann man ihn erstellen?
- Den Weg habe ich Sie (verwenden Weka-Methoden), werden die Daten immer so verteilt, dass (k-1)/k-training-set und 1/k test set. Wenn Sie teilen möchten, 90/10, Sie haben die Wahl k=10. Und wenn Sie nicht wollen, zu 10 verschiedenen Teilungen, verwenden Sie die Methode, die oben beschrieben und nicht mit einer for-Schleife.
InformationsquelleAutor Sentry

Dazu können Sie in Java mit der Weka-Bibliothek mit einem filter namens StratifiedRemoveFolds

//Load data  
DataSource source = new DataSource("/some/where/data.csv");
Instances data = source.getDataSet();

//Set class to last attribute
if (data.classIndex() == -1)
    data.setClassIndex(data.numAttributes() - 1);

//use StratifiedRemoveFolds to randomly split the data  
StratifiedRemoveFolds filter = new StratifiedRemoveFolds();

//set options for creating the subset of data
String[] options = new String[6];

options[0] = "-N";                 //indicate we want to set the number of folds                        
options[1] = Integer.toString(5);  //split the data into five random folds
options[2] = "-F";                 //indicate we want to select a specific fold
options[3] = Integer.toString(1);  //select the first fold
options[4] = "-S";                 //indicate we want to set the random seed
options[5] = Integer.toString(1);  //set the random seed to 1

filter.setOptions(options);        //set the filter options
filter.setInputFormat(data);       //prepare the filter for the data format    
filter.setInvertSelection(false);  //do not invert the selection

//apply filter for test data here
Instances test = Filter.useFilter(data, filter);

// prepare and apply filter for training data here
filter.setInvertSelection(true);     //invert the selection to get other data 
Instances train = Filter.useFilter(data, filter);

InformationsquelleAutor Walter

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.