R - Lineare Regression - Kontrolle für eine variable
Habe ich einen informatik-hintergrund & ich bin versucht, mir beibringen, Daten Wissenschaft von der Lösung der Probleme, die im internet verfügbar
Habe ich ein kleineres Daten-set, die hat 3 Variablen Rasse, Geschlecht und jährlichen Erträgen. Es gibt ungefähr 10.000 ausgewählte Beobachtungen. Ich bin zu versuchen, vorherzusagen, Erträge aus Rennen & gender.
Habe ich unterteilt die Daten in 2 Teile, eines für jedes Geschlecht & jetzt bin ich versucht zu erstellen 2 REGRESSIONSMODELLE. Ist das möglich in der R? Kann jemand bieten Beispiel-syntax.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Du nicht angeben, wie Ihre Daten gespeichert werden oder wie die variable Rennen aufgezeichnet wird (ist es ein Faktor?)
[Wenn Sie gerade fitting Einkommen gegen Rennen für Männer, sagen Sie, und Sie hatte das männliche Einkommen und Rennen in
income.m
undrace.m
und wenn der zweite war ein Faktor in R, dannlm(income.m~race.m)
passt die Linie für Männer (verwenden Siesummary
auf das resultierende Objekt, um Informationen zu erhalten). Sie könnten etwas ähnliches tun für die Frauen. Aber die meisten Leute nicht passen, die Modelle auf diese Weise.]Wenn Sie bereit sind, davon ausgehen, dass die variation über die Zeilen ist die gleiche für beide Geschlechter, können Sie die beiden Linien mit einem Modell.
Diese hat mehrere Vorteile gegenüber der Analyse der Linien getrennt, aber das kann auch getan werden.
Wenn Geschlecht ist entweder ein Faktor oder eine numerische variable erfasst (0/1), und Rasse ist ein Faktor, und Sie haben die Daten in einem Daten-frame (genannt, zum Beispiel
incdata
), dann würden Sie passen beide Zeilen auf einmal mit:ist R die Kurzform für
wo
race:gender
ist eine Interaktion Begriff.Wenn Sie weiter davon ausgehen, dass der Effekt des Geschlechts ist die gleiche für beide Geschlechter, dann ist das kleinere Modell:
würden stattdessen verwendet werden. Dies würde oft die Modell-Menschen passen würde, wenn aufgefordert, "die Kontrolle für Geschlecht", obwohl viele denken würden, die Interaktion Modell, das ich bereits erwähnt statt.
Ich würde dringend raten, die Arbeit auf mehr einfache regression Probleme zuerst mit einem lehrbuch oder einen Satz von Notizen geeignet für die Führung, die Sie durch die Ideen.
Wenn Sie haven ' T bereits eingebaut ist eine regression in R, ich würde anfangen mit einem kleineren Datensatz, der nur einen einzigen Indikator, nur um sich an der grundlegenden mechanik.
R kommt mit vielen Daten-sets bereits integriert. Siehe zum Beispiel
library(help=datasets)
die etwa 80 Datensätze, einige der Pakete, die kommen mit R mehr (MASS
hat über 80, zum Beispiel). Viele R-Pakete auf CRAN sind vollgepackt mit Daten-sets, geeignet für viele regression.Beispielsweise die
cars
Daten festgelegt (siehe?cars
in R) zeichnet den Bremsweg von Autos, aufgrund Ihrer Geschwindigkeit. Sie brauchen nicht, um Daten zu Lesen, es ist bereits da.Einer einfachen linearen regression (nicht unbedingt das beste Modell gegeben, das Verständnis der Physik, sondern nur um ausreichend für die Daten) wäre:
Wieder, verwenden Sie
summary
um es zu untersuchen. z.B. (ich schlage vor, Sie geben diese eins zu einem Zeitpunkt):carsfit <- lm(dist~speed, cars)
Zusammenfassung(carsfit)
plot(dist~speed, cars)
abline(carsfit, col=2)
Die Beispiele in der Hilfe an den Autos Datensatz (
?cars
) gibt mehrere andere Modelle und Darstellungen. Sie könnten versuchen, diese ein zu einer Zeit auch.Den
car
- Paket (AUTO ist die Abkürzung für "Companion to Applied Regression") hat viele kleine Daten-sets, die speziell für die regression.Ist es sehr einfach.
Ich würde nicht empfehlen, mit zwei dataframes. Es sei denn, Sie sind mit fortgeschrittenen statistischen Methoden, die erfordern die Verwendung von zwei dataframes. Verwenden Sie einfach Ihr Geschlecht variable.
Überprüfen Sie auch diese Seite aus: http://www.statmethods.net/stats/regression.html
Könnte man in der Tat nicht so Abhi aber ich glaube, Ihre Frage ist sehr breit.
(1) Sie Vorhersagen könnten, Einkommen von Rasse und Geschlecht. Dies kann auf verschiedene Weise getan werden, aber der allgemeinste wäre vielleicht "regression analysis". Ich schlage vor, Sie tun einige Recherchen im internet zu diesem Thema. Die Beantwortung, welche Art von Regressions-und, wie zu ausführen es ist eine Frage der situation. Sie würden wahrscheinlich feststellen, selbst nach der Lektüre über regression.
(2) R tun kann. Aber ich schlage vor, Sie Lesen Sie etwas über regression, bevor Sie in R.
(3) Wenn ich zu analysieren, wenn Rasse und Geschlecht Vorhersagen kann Einkommen würde ich einfach eine lineare regression, wo das Einkommen wäre die abhängige variable und Rasse und Geschlecht wäre auch unabhängig (Prädiktoren). Dies kann durch die "lm" - Funktion in R.
Oder habe ich da etwas missverstehen hier?
Hinsichtlich
Müssen Sie tun, einige Lesen auf Linear/Multiple Regression. Nicht sicher, warum Sie teilen Daten in 2 Gruppen basierend auf Geschlecht. Zufällige Aufteilung der Daten in Schulen und zu Testen, so dass Sie Modell auf Zug und Validierung testen.