R: Vorhersage (0,1) in die Logistische regression in glm()

Ich versuche, das Modell einer "was wäre wenn" - situation in einem binären logit-Modell. Ich bin der Schätzung der Wahrscheinlichkeit, an einem test, da der Schwierigkeitsgrad der Prüfung (1=einfachste, 5=härteste), mit Geschlecht als Kontrolle. (Die Daten hier). Studenten verwaltet werden, ist eine Prüfung, die ist in der Regel hart ("HIGH" in den Daten). Aus dieser können wir schätzen die Auswirkungen der test-Schwierigkeit auf die Wahrscheinlichkeit der Weitergabe:

model = glm(PASS ~ as.factor(SEX) + as.factor(HIGH), family=binomial(link="logit"), data=df)
summary(model)

Können wir uns auch die vorhergesagten Wahrscheinlichkeiten der Weitergabe mit:

predict.high = predict(model, type="response")

Die Frage ist, was ist, wenn die "LOW" - test gegeben wurden, statt? Um die neue Wahrscheinlichkeiten, die wir tun können:

newdata = rename.vars(subset(df, select=c(-HIGH)), 'LOW','HIGH')
predict.low = predict(model, newdata=newdata, type="response")

Aber wie kann ich wissen, wie viele zusätzliche Studenten bestanden haben würde, in diesem Fall? Ist es eine offensichtliche Schalter in glm() ich bin nicht zu sehen?

  • Ich bin nicht klar, was die HOHEN und NIEDRIGEN stellen. Ich denke, dass HOHE Reichweiten von 1 bis 5 und also nicht GERING. Das lässt mich vermuten, es sind 10 verschiedene tests. Auch, prüfen, ob Sie auf der Stats-forum.
  • Mark, ich bin im wesentlichen die Durchführung der simulation, D. H. das ersetzen der tatsächlichen Werte von "HOCH" mit "NIEDRIG".
  • Okay, es scheint, dass HIGH steht für 5 tests. Nach Schätzung der Wahrscheinlichkeit der Weitergabe dieser 5 tests, die Sie verwenden das gleiche Modell, um vorherzusagen, die Wahrscheinlichkeit der übergabe von 5 neuen tests vertreten durch NIEDRIGE. Ich lief den code mit Ihren Daten nach der Installation des Pakets 'gregmisc'. Jedoch, ich habe nicht mein Exemplar von Gelman und Hill (2006) mit mir. Ich habe meine Anmerkungen zu Versionen Ihrer code-und kann vielleicht Graben Sie es aus über das Wochenende und versuchen herauszufinden, die Antwort, wenn Ihre Frage nicht beantwortet wird, zunächst von jemand anderem.
  • Vielen Dank im Voraus, Mark. Da Sie erwähnen, G&H, ich möchte auch den Hinweis auf bayesglm() in den "arm" - Paket. Es ist sehr, sehr flexibel.
  • Vielleicht habe ich nicht ein kompletter Griff die Frage noch nicht, aber dieses Verfahren scheint nicht ganz angemessen. Die PASS variable spiegelt lediglich die Weitergabe der schwierige Prüfung, richtig? So die Vorhersage über Ihr Modell würde nur richtig sein für Schüler, die sich für die schwierige Prüfung. Stellen Sie sich zwei Fuß-Rennen, die beide einen kilometer lang. Man befindet sich auf flachen Boden, der andere auf einem steilen Hügel. Basierend auf der Teilnehmer-mal von dem flachen Boden Rennen, ich denke, du wärst hart gedrückt, um vorherzusagen, Ihre Zeit für die bergauf-Rennen. Aber wie ich schon schrieb, vielleicht habe ich nicht ein kompletter Griff die Frage auf der hand!
  • Ben... Sie können sich "HIGH" und "LOW" einfach als zwei alternativen zieht der zahlen für die gleichen "Schwierigkeiten" - variable. Ich bin mit dem "HIGH" - Werte zur Schätzung der Koeffizienten-Werte. Wenn ich stecken Sie das "HOHE" Werte in die geschätzte Gleichung, bekomme ich einen Satz von vorhergesagten Wahrscheinlichkeiten. Wenn ich die Stecker in den "NIEDRIGEN" Werten in der gleichen geschätzte Gleichung - ich werde einen anderen Satz von vorhergesagten Werten. Ich kann das Gefühl der Differenz, die durch die überlagerung von zwei vorhergesagten Dichte-plots. Aber meine Frage ist ob es möglich ist, bekommen die Differenz in zahlen ausgedrückt. Ich will sagen, dass die Verwendung der "HOCH" - Werte
  • (das ging in die Schätzung des Koeffizienten", sage ich Voraus, dass 800 Studierende übergeben. Nun, wenn ich einen Stecker in den "NIEDRIGEN" Werte statt, 1000 Studenten übergeben. Ist das möglich zu tun, der in R?

InformationsquelleAutor user702432 | 2012-06-23
Schreibe einen Kommentar