Skalierung der unabhängigen Variablen, während die Vorhersage mit linearen Regressionsmodell

Ich versuche, ein lineares Modell wobei Y die abhängige variable und X1, X2, X3 sind meine unabhängigen Variablen.

Skaliert haben meine Eingabe mit 'scale-Methode in R und habe die eo-efficients und abfangen.

Y = a1X1 + a2X2 + a3X3 + c

Nun, zur Vorhersage von Y bei gegebenen Wert von (X1, X2, X3), ist es in Ordnung direkt berechnen den Wert von Y unter Verwendung der obigen Gleichung oder sollte die input-Variablen werden skaliert, bevor man Sie in die Gleichung ?
Wenn ja, wie können wir Sie skalieren ?

InformationsquelleAutor Mohit Verma | 2014-07-09

Wenn Sie ein Trainings-set (original-Daten) und test-set (neue Daten) und bauen Sie ein Modell mit dem Trainings-set skaliert auf [0,1], dann, wenn Sie Vorhersagen mit diesem Modell mit der test-set, die Sie haben, zu skalieren, die erste sowie. Aber Vorsicht: Sie müssen zum Maßstab der test mit den gleichen Parameter wie das training-set. Also, wenn Sie x-min(x)/(max(x)-min(x)) zu skalieren, müssen Sie die Werte von max(x) und min(x) von der Ausbildung dataset. Hier ist ein Beispiel:

set.seed(1)      # for reproducible example
train <- data.frame(X1=sample(1:100,100),
                 X2=1e6*sample(1:100,100),
                 X3=1e-6*sample(1:100,100))
train$y <- with(train,2*X1 + 3*1e-6*X2 - 5*1e6*X3 + 1 + rnorm(100,sd=10))

fit  <- lm(y~X1+X2+X3,train)
summary(fit)
# ...
# Coefficients:
#               Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  1.063e+00  3.221e+00    0.33    0.742    
# X1           2.017e+00  3.698e-02   54.55   <2e-16 ***
# X2           2.974e-06  3.694e-08   80.51   <2e-16 ***
# X3          -4.988e+06  3.715e+04 -134.28   <2e-16 ***
# ---

# scale the predictor variables to [0,1]
mins   <- sapply(train[,1:3],min)
ranges <- sapply(train[,1:3],function(x)diff(range(x)))
train.scaled <- as.data.frame(scale(train[,1:3],center=mins,scale=ranges))
train.scaled$y <- train$y
fit.scaled <- lm(y ~ X1 + X2 + X3, train.scaled)
summary(fit.scaled)
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)    1.066      3.164    0.337    0.737    
# X1           199.731      3.661   54.553   <2e-16 ***
# X2           294.421      3.657   80.508   <2e-16 ***
# X3          -493.828      3.678 -134.275   <2e-16 ***
# ---

Beachten Sie, dass, wie erwartet, die Skalierung wirkt sich auf den Wert des Koeffizienten (natürlich...), nicht aber die t-Werte, oder die se von der Passform, oder BESTIMMTHEITSMASS, oder F (ich habe nur reproduziert, Teil der Zusammenfassungen hier).

Nun vergleichen wir den Effekt der Skalierung mit einem test-Datensatz.

# create test dataset
test <- data.frame(X1=sample(-5:5,10),
                      X2=1e6*sample(-5:5,10),
                      X3=1e-6*sample(-5:5,10))
# predict y based on test data with un-scaled fit
pred   <- predict(fit,newdata=test)

# scale the test data using min and range from training dataset
test.scaled <- as.data.frame(scale(test[,1:3],center=mins,scale=ranges))
# predict y based on new data scaled, with fit from scaled dataset
pred.scaled   <- predict(fit.scaled,newdata=test.scaled)

all.equal(pred,pred.scaled)
# [1] TRUE

Also Vorhersagen unter Verwendung der un-skalierte fit mit un-skalierte Daten ergibt genau das gleiche Ergebnis als Vorhersage über die skalierte fit mit der skalierten Daten.

InformationsquelleAutor jlhoward

2

ist es in Ordnung direkt berechnen den Wert von Y unter Verwendung der obigen Gleichung oder sollte die input-Variablen werden skaliert, bevor man Sie in Gleichung

Die input-Variablen skaliert werden soll, in der gleichen Weise, wie Sie Ihre anfängliche Skalierung.

Wenn ja, wie können wir Sie skalieren ?

Lesen Sie die Dokumentation für den Befehl, den Sie verwendet (?scale) und sehen, was er Tat! Dann replizieren, für Sie neue Vorhersage-Daten. Wenn Sie die Standardeinstellungen, es abgezogen, das heißt von Ihrer ursprünglichen Prädiktoren, dividiert durch die Standardabweichung. Sie sollten zurück in den raw-Daten, berechnen Sie die Mittelwerte und Standardabweichungen, und skalieren Sie Ihre Daten für die Vorhersage in der gleichen Weise.

Transformieren ausgestattet Koeffizienten

Ihre andere option ist zum transformieren der Koeffizienten. Dies dauert nur ein bisschen algebra. Wenn deine Skalierung ist f(x) = mx + b, und Ihr Modell ausgestattet ist y = a * f(x), es ist leicht zu sehen, dass
```
y = a * f(x) + c
y = a * (mx + b) + c
y = a m x + a b + c
```
So, mit nicht-transformierten Daten x Ihre Steigung ist a * m und Ihren Achsenabschnitt a * b + c. Dies ist leicht erweitert werden, um mehrere Variablen oder eine andere transformation. Wenn Sie die Transformation auf [0, 1], Ihre transformation ist wahrscheinlich f(x) = (x - min(x)) /(max(x) - min(x))... die algebra sollte nicht schwierig sein, aber ich überlasse es dir.
- Ich Plane, verwenden Sie die min-max-Normalisierung hier, was bedeutet, die Werte liegen immer zwischen [0,1]. Wenn ich mit min, max von raw-Daten nur, gibt es die chance, dass der neue Wert ist noch aus der min-max-Bereich. Wird es Auswirkungen ? oder sind Sie darauf hindeutet, dass ich fügen Sie dieser neuen Wert zurück zu raw-Daten und skalieren Sie es ?
- Alles was ich sage ist, dass, wenn Sie skalieren Sie Ihre raw-Daten, Sie müssen, um die gleiche transformation auf die Daten, die Sie wollen, um vorherzusagen, auf. Indem Sie Ihre Vorhersage-Daten in die ursprünglichen Daten-set, um es zu skalieren, dann stattet Ihr Modell funktionieren würde.
- Ihre andere option ist es, verwandeln die Einbauküche Koeffizienten, so dass Sie angewendet werden können, um raw-Prädiktoren.
- "verwandeln die Einbauküche Koeffizienten" ..wie wird dies erreicht ?
- siehe auch stackoverflow.com/questions/24268031/...
- Wow, eine schöne ausführliche Antwort gibt.
- Danke!
InformationsquelleAutor Gregor

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Transformieren ausgestattet Koeffizienten