numpy corrcoef - compute correlation matrix, während die fehlenden Daten zu ignorieren

Ich versuche zur Berechnung einer Korrelationsmatrix mehrerer Werte. Diese Werte beinhalten einige 'nan' - Werte. Ich bin mit numpy.corrcoef. Für das element(i,j) des Ausgangs-Korrelationsmatrix, würde ich gerne die Korrelation errechnet, indem alle Werte, die es für die beiden Variablen i und der Variablen j.

Dies ist, was ich jetzt habe:

In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]: 
array([[ 1.        ,         nan,         nan, -0.10998411],
       [        nan,         nan,         nan,         nan],
       [        nan,         nan,         nan,         nan],
       [-0.10998411,         nan,         nan,  1.        ]])

Zu viele nan ' s 🙁

InformationsquelleAutor Selah | 2015-07-24

Eines der wichtigsten Merkmale von pandas wird NaN freundlich. Zur Berechnung der Korrelation-matrix, rufen Sie einfach df_counties.corr(). Unten ist ein Beispiel um zu demonstrieren df.corr() ist NaN tolerant in der Erwägung, dass np.corrcoef nicht.

import pandas as pd
import numpy as np

# data
# ==============================
np.random.seed(0)
df = pd.DataFrame(np.random.randn(100,5), columns=list('ABCDE'))
df[df < 0] = np.nan
df

         A       B       C       D       E
0   1.7641  0.4002  0.9787  2.2409  1.8676
1      NaN  0.9501     NaN     NaN  0.4106
2   0.1440  1.4543  0.7610  0.1217  0.4439
3   0.3337  1.4941     NaN  0.3131     NaN
4      NaN  0.6536  0.8644     NaN  2.2698
5      NaN  0.0458     NaN  1.5328  1.4694
6   0.1549  0.3782     NaN     NaN     NaN
7   0.1563  1.2303  1.2024     NaN     NaN
8      NaN     NaN     NaN  1.9508     NaN
9      NaN     NaN  0.7775     NaN     NaN
..     ...     ...     ...     ...     ...
90     NaN  0.8202  0.4631  0.2791  0.3389
91  2.0210     NaN     NaN  0.1993     NaN
92     NaN     NaN     NaN  0.1813     NaN
93  2.4125     NaN     NaN     NaN  0.2515
94     NaN     NaN     NaN     NaN  1.7389
95  0.9944  1.3191     NaN  1.1286  0.4960
96  0.7714  1.0294     NaN     NaN  0.8626
97     NaN  1.5133  0.5531     NaN  0.2205
98     NaN     NaN  1.1003  1.2980  2.6962
99     NaN     NaN     NaN     NaN     NaN

[100 rows x 5 columns]

# calculations
# ================================
df.corr()

        A       B       C       D       E
A  1.0000  0.2718  0.2678  0.2822  0.1016
B  0.2718  1.0000 -0.0692  0.1736 -0.1432
C  0.2678 -0.0692  1.0000 -0.3392  0.0012
D  0.2822  0.1736 -0.3392  1.0000  0.1562
E  0.1016 -0.1432  0.0012  0.1562  1.0000


np.corrcoef(df, rowvar=False)

array([[ nan,  nan,  nan,  nan,  nan],
       [ nan,  nan,  nan,  nan,  nan],
       [ nan,  nan,  nan,  nan,  nan],
       [ nan,  nan,  nan,  nan,  nan],
       [ nan,  nan,  nan,  nan,  nan]])

Es lässt mich nicht Bearbeiten die post, aber die erste Zeile im code-block sollte lauten: "... als pd", statt "... wie np".
Epische Antwort! Sie hat mir gerade geholfen Umgang mit fehlenden Daten und entfernt eine verschachtelte for-Schleife aus meinem code. Danke!
Pandas-corr-Funktion ist sehr langsam im Vergleich zu numpy durch die Art und Weise.

InformationsquelleAutor Jianxun Li

Diese arbeiten werden, mit der maskierte array numpy Modul:

import numpy as np
import numpy.ma as ma

A = [1, 2, 3, 4, 5, np.NaN]
B = [2, 3, 4, 5.25, np.NaN, 100]

print(ma.corrcoef(ma.masked_invalid(A), ma.masked_invalid(B)))

It-Ausgänge:

[[1.0 0.99838143945703]
 [0.99838143945703 1.0]]

Lesen Sie hier mehr: https://docs.scipy.org/doc/numpy/reference/maskedarray.generic.html

InformationsquelleAutor bers

0

In Fall, dass Sie erwarten, dass eine unterschiedliche Anzahl von nans in jedem array, können Sie erwägen, eine logische UND-nicht-nan-Masken.
```
import numpy as np
import numpy.ma as ma

a=ma.masked_invalid(A)
b=ma.masked_invalid(B)

msk = (~a.mask & ~b.mask)

print(ma.corrcoef(a[msk],b[msk]))
```
- Macht das ein Unterschied zu meiner Antwort? Sollte nicht numpy.ma intelligent genug sein, um Einträge zu entfernen, aus der Berechnung der Korrelation, die fehlen in einem der beiden Eingänge? (Hint: tut es nicht :D)
InformationsquelleAutor Marcin Kawka

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.