Wie Teile ich ein dataset in Trainings-und test sets mit Weka?

Möchte ich teilen eine million-Datensatz Datensatz im CSV-format in 80% training und 20% für die Prüfung. Wie kann ich den code für das Java-oder Weka-Bibliothek?

  • Warum nicht tun Sie es einfach zufällig durch die Verwendung von standard-Zufallszahlen-Generatoren?
  • JS Meier sagte: Lesen Sie die Datei zeilenweise ein und entscheiden Sie, wenn Sie wollen, um eine solche Linie zu TESTEN.csv-Datei oder ZUG.csv-Datei. Es gibt Hunderte von Beispielen, die auf der web zu behandeln, wie text-Dateien.
  • Ich kann verstehen, dass du gesagt hast. Aber Freunde, wenn ich ändern und aktualisieren von Daten, die ich brauche, um die manuelle Vorgang für jeden Datensatz. Eigentlich will ich diese benutzen für maschinelles lernen, so Bedarf es der richtigen zufällige Datensätze zu verarbeiten und Ihre Idee erhöht die Kosten des Prozesses. Wenn Sie verstehen, was ich sage, dann gib mir eine andere Idee.
InformationsquelleAutor Jeet | 2015-01-24
Schreibe einen Kommentar