Wie finde ich die Korrelation und die Kovarianz-matrix, die aus a-Daten mit einer dummy-variable?
Ich habe einen Datensatz, der die Spalte Namen, Geschlecht, IQ, und Brain_Mass. Nur das Geschlecht ist eine kategoriale variable natürlich, also gab ich es eine dummy-variable, indem es als gender=factor(Gender)
.
Allerdings möchte ich zu finden, die Kovarianzmatrix und die Korrelationsmatrix. Ich weiß, dass kann ich einfach die cov2cor(V)
um die Korrelation-matrix, aber wie bekomme ich die Kovarianz-matrix aus diesen Daten? Ich glaube nicht, ich kann einfach die var(data)
da eine dummy-variable existiert..
Ich würde wirklich schätzen, es wenn jemand aushelfen könnte. Danke.
- Für die künftigen Beobachter, ich glaube nicht, dass mit
cov
(auch mit method =spearman
) ist nicht korrekt. Die Spearman-Korrelation ist für kontinuierliche und ordinale Daten, und das Geschlecht gehört nicht in diesen!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie einen legitimen Grund für die Berechnung der Korrelationsmatrix, die auf einer Kombination von kontinuierlichen und kategorialen Daten (z.B. benötigen Sie für die Eingabe in einer anderen Funktion), dann ein Ansatz ist es, die
model.matrix
Funktion zum konvertieren der Faktoren, die Ihre dummy-Variablen-Codierung, dann übergeben Sie das Ergebnis an dencor
oder andere Funktion für die Berechnung der Korrelationen oder Kovarianzen:Ich sehe nicht ein, warum würden Sie wollen, um eine Faktor-variable in die Berechnung der Korrelation. Ich würde empfehlen, das entfernen dieser variable und nur die Berechnung
cor
für die kleineren Daten.Rahmen:Könnte man technisch konvertieren
Gender
numerische und dann das gleiche tun:Obwohl es nichts (technisch) verhindern, dass Sie von computing-Pearson-oder Spearman-Rho-Korrelationen zwischen kontinuierlichen und dichotomen Variablen, die würde ich auch nehmen einen Blick an, was heißt "die point-biserial-Korrelation", ein eher exotischer name für das, was in der Tat sehr eng mit der Pearson Korrelation, aber mit einem twist !
Es ist ein R-Paket, dafür 😉
Es ist nicht das beste, was die Verwendung der gleichen Korrelation (oder Kovarianz) Berechnung zwischen kategorischen und kontinuierlichen Daten. Sie sollten die Verwendung der pearson-Korrelation für kontinuierliche Daten und die spearman Korrelation für kategoriale Daten. Diese beiden Methoden könnten produzieren ähnliche Ergebnisse in einigen Fällen.
für die Kovarianz versuchen:
oder
je nach der Methode, die Sie möchten, wählen Sie nach Ihren Daten geben.
Für die Korrelation ersetzen Sie die
cov()
Funktion mitcor()
.Den Faktor Variablen, die Sie haben muss umgewandelt werden in numerische vorher:
UPDATE:
Nur um sicherzugehen, dass Sie die Berechnung von Korrelationen in einem richtigen Weg ich glaube, Sie sollten wahrscheinlich konvertieren Sie alle Ihre Variablen in einem Typ, D. H. alle kontinuierlichen oder alle kategorisch. Der typische Weg ist, bin Ihre kontinuierliche Daten in kategoriale (ja, verlieren Sie möglicherweise einige Informationen Wert, aber im Allgemeinen werden Sie bekommen, was Sie wollen) und dann verwenden Sie die spearman-Korrelation/Kovarianz-matrix. Diese Weise zumindest Ihre Berechnungen konsistent sind, und Sie können alles in einem Rutsch mit
cov()
odercor()