Zeit-Serien - Daten-splitting und Modell Bewertung

Habe ich versucht die Maschine zu lernen, Vorhersage auf der Basis von Zeitreihen-Daten. In einer stackoverflow-Frage (createTimeSlices Funktion in der CARET-Paket in R) ist ein Beispiel für die Verwendung createTimeSlices cross-Validierung für das Modell Ausbildung und parameter-tuning:

    library(caret)
    library(ggplot2)
    library(pls)
    data(economics)
    myTimeControl <- trainControl(method = "timeslice",
                                  initialWindow = 36,
                                  horizon = 12,
                                  fixedWindow = TRUE)

    plsFitTime <- train(unemploy ~ pce + pop + psavert,
                        data = economics,
                        method = "pls",
                        preProc = c("center", "scale"),
                        trControl = myTimeControl)

Mein Verständnis ist:

  1. Ich brauche, um split können Daten in Trainings-und test-set.
  2. Verwenden von Trainings-set für die Parameter-tuning.
  3. Bewerten, erhalten das Modell auf dem test-set (R2, RMSE, etc.)

Weil meine Daten ist Zeit-Serie, nehme ich an, dass ich nicht verwenden können, bootstraping für spliting Daten in Trainings-und test-set. So, meine Fragen sind: Bin ich richtig? Und Wenn ja - Wie zu verwenden createTimeSlices für Modell Bewertung?

Würde es helfen, wenn Sie definiert, was Sie bedeuten, von "model evaluation".
Ich habe bearbeitet Sie meine Frage. Vielleicht ist jetzt einfacher zu verstehen?
1. Paket 'pls' muss installiert werden 2. wenn Sie nur besorgt über die Reihenfolge der Proben (nicht den Monat oder das Jahr genau zu sein), könnten Sie geben Sie eine numerische ID und konnte Sie noch verwenden bootstrapping-3. warum nicht so etwas einfaches wie ein glm?

InformationsquelleAutor Jot eN | 2014-07-15

Schreibe einen Kommentar