Daten die Vorhersage mit Entscheidungsbaum des rpart

Ich bin mit R zu klassifizieren, die einen Daten-frame 'd' enthält Daten, die strukturiert wie unten:

Daten die Vorhersage mit Entscheidungsbaum des rpart

Daten 576666 Zeilen und die Spalte "classLabel" hat einen Faktor von 3 Ebenen: EINS, ZWEI, DREI.

Ich mache einen Entscheidungsbaum mit rpart:

fitTree = rpart(d$classLabel ~ d$tripduration + d$from_station_id + d$gender +  d$birthday)

Und ich möchte, um vorherzusagen, die Werte für die "classLabel" für newdata:

newdata = data.frame( tripduration=c(345,244,543,311), 
                      from_station_id=c(60,28,100,56),
                      gender=c("Male","Female","Male","Male"),  
                      birthday=c(1972,1955,1964,1967) )

 p <- predict(fitTree, newdata)

Ich erwarte, dass mein Ergebnis eine matrix von 4 Zeilen jeweils mit einer Wahrscheinlichkeit von drei möglichen Werte für "classLabel" von newdata. Aber was bekomme ich als Ergebnis in p, ist ein dataframe von 576666 Zeilen wie unten:

Daten die Vorhersage mit Entscheidungsbaum des rpart

Bekomme ich auch die folgende Warnung beim ausführen der predict Funktion:

Warning message:
'newdata' had 4 rows but variables found have 576666 rows 

Wo bin ich falsch?!

Verwenden Sie nicht $ in Ihren Formeln. Verwenden Sie stattdessen ` rpart(classLabel ~ tripduration + from_station_id + Geschlecht + Geburtstag, data=d) " ansonsten werden die Variablen gebunden sind "d" und nicht gelöst werden, in Ihrem newdata Daten.frame. In der Zukunft, sicher sein, eine reproduzierbare Beispiel mit Beispiel-input-Daten, so können wir die gleichen Fehler wie du (Bilder, Daten zählen nicht).

InformationsquelleAutor Saba Jamalian | 2015-04-11

Schreibe einen Kommentar