Wie die Berechnung der Fehlerquote von ein Entscheidungsbaum?

Weiß jemand, wie die Berechnung der Fehlerquote für einen Entscheidungsbaum mit R?
Ich bin mit der rpart() Funktion.

InformationsquelleAutor der Frage teo6389 | 2012-03-12

classification decision-tree r rpart

51

Vorausgesetzt, du meinst computing-Fehler-rate auf die Probe, die auf das Modell passt, können Sie printcp(). Zum Beispiel, indem Sie die on-line Beispiel,
```
> library(rpart)
> fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis)
> printcp(fit)

Classification tree:
rpart(formula = Kyphosis ~ Age + Number + Start, data = kyphosis)

Variables actually used in tree construction:
[1] Age   Start

Root node error: 17/81 = 0.20988

n= 81 

        CP nsplit rel error  xerror    xstd
1 0.176471      0   1.00000 1.00000 0.21559
2 0.019608      1   0.82353 0.82353 0.20018
3 0.010000      4   0.76471 0.82353 0.20018
```
Den Root node error wird verwendet, um zu berechnen, sind zwei Maßnahmen von predictive performance, wenn man Werte in den rel error und xerror Spalte, und abhängig von der Komplexität der parameter (erste Spalte):
- 0.76471 x 0.20988 = 0.1604973 (16.0%) ist die resubstitution error rate (D. H., Fehler-rate berechnet, die auf die Ausbildung-Beispiel) - das ist ungefähr die
```
class.pred <- table(predict(fit, type="class"), kyphosis$Kyphosis)
1-sum(diag(class.pred))/sum(class.pred)
```
- 0.82353 x 0.20988 = 0.1728425 (17.2%) ist die cross-validierten Fehlerquote (mit 10-fold CV, siehe xval im rpart.control(); siehe aber auch xpred.rpart() und plotcp() die sich auf diese Art der Maßnahme). Diese Maßnahme ist ein objektiver Indikator für die prädiktive Genauigkeit.
Beachten Sie, dass es mehr oder weniger in übereinstimmung mit der Klassifizierung Richtigkeit von tree:
```
> library(tree)
> summary(tree(Kyphosis ~ Age + Number + Start, data=kyphosis))

Classification tree:
tree(formula = Kyphosis ~ Age + Number + Start, data = kyphosis)
Number of terminal nodes:  10 
Residual mean deviance:  0.5809 = 41.24 / 71 
Misclassification error rate: 0.1235 = 10 / 81 
```
wo Misclassification error rate berechnet sich aus der Trainings-Stichprobe.

InformationsquelleAutor der Antwort chl

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.