Numpy - Korrelationskoeffizienten und die zugehörigen statistischen Funktionen nicht geben, die gleichen Ergebnisse

Für Daten X = [0,0,1,1,0]und Y = [1,1,0,1,1]

>> np.corrcoef(X,Y)

gibt

array([[ 1.        , -0.61237244],
       [-0.61237244,  1.        ]])

Kann ich jedoch nicht reproduzieren dieses Ergebnis mit np.var und np.cov gegeben die Gleichung gezeigt, in http://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html:

>> np.cov([0,0,1,1,0],[1,1,0,1,1])/sqrt(np.var([0,0,1,1,0])*np.var([1,1,0,1,1]))

array([[ 1.53093109, -0.76546554],
       [-0.76546554,  1.02062073]])

Was ist denn hier Los?

InformationsquelleAutor neither-nor | 2014-04-05

4

Dies ist, weil np.var Standard-delta Grad der Freiheit ist 0, nicht 1.
```
In [57]:

X = [0,0,1,1,0]
Y = [1,1,0,1,1]
np.corrcoef(X,Y) 
Out[57]:
array([[ 1.        , -0.61237244],
       [-0.61237244,  1.        ]])
In [58]:

V = np.sqrt(np.array([np.var(X, ddof=1), np.var(Y, ddof=1)])).reshape(1,-1)
np.matrix(np.cov(X,Y))
Out[58]:
matrix([[ 0.3 , -0.15],
        [-0.15,  0.2 ]])
In [59]:

np.matrix(np.cov(X,Y))/(V*V.T)
Out[59]:
matrix([[ 1.        , -0.61237244],
        [-0.61237244,  1.        ]])
```
Oder sieht es die otherway:
```
In [70]:

V=np.diag(np.cov(X,Y)).reshape(1,-1) #the diagonal elements
In [71]:

np.matrix(np.cov(X,Y))/np.sqrt(V*V.T)
Out[71]:
matrix([[ 1.        , -0.61237244],
        [-0.61237244,  1.        ]])
```
Was wirklich Los ist, np.cov(m, y=None, rowvar=1, bias=0, ddof=None), wenn bias und ddof beide nicht zur Verfügung gestellt, die Standard-Normalisierung wird durch N-1, wobei N die Anzahl der Beobachtungen. So, das ist äquivalent zu haben von delta Freiheitsgrade 1. Leider ist die Standardeinstellung für np.var(a, axis=None, dtype=None, out=None, ddof=0, keepdims=False) hat die Standard-delta-Grad-of-Freiheit der 0.

Wann immer Sie sich unsicher sind, der sicherste Weg ist, greifen die diagonal-Elemente der Kovarianzmatrix anstatt berechnen var getrennt, um ein konsistentes Verhalten sicherzustellen.

2 schnelle und möglicherweise die elementaren Fragen: Warum sind Sie die Multiplikation von V mit Transposition, anstatt nur die Multiplikation der beiden Abweichungen? Und was ist die Bedeutung des ddof, insbesondere, wenn ich es auf 1 festlegen, anstelle der standardmäßig 0?
Wenn Sie nur V*V es wird ein elememnt-wise operation und das Ergebnis ist nicht der 2-by-2 matrix, die wir wollen. Die zweite Frage finden Sie unter msu.edu/user/sw/statrev/strv155.htm (Beispiel-Varianz v. s. populationsvarianz). Aber das ist nicht das richtige Thema hier, siehe edit.

InformationsquelleAutor CT Zhu

Laut Ihrem link ( http://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html ), müssen Sie darauf achten, die Indizes...

c = np.cov([0,0,1,1,0],[1,1,0,1,1])
corrcoef = [[ c[0,0]/np.sqrt(c[0,0]*c[0,0]), c[0,1]/np.sqrt(c[0,0]*c[1,1]) ],
           [ c[1,0]/np.sqrt(c[1,1]*c[0,0]), c[1,1]/np.sqrt(c[1,1]*c[1,1]) ]]

print corrcoef
# [[1.0, -0.61237243569579447], [-0.61237243569579447, 1.0]]

Es ist richtig!

InformationsquelleAutor Travis D.

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.