Wie gehen Sie mit fehlenden Daten mithilfe von numpy/scipy?

Eines der Dinge, die ich mit den meisten in der Datenbereinigung fehlende Werte. R beschäftigt sich mit diesem sowie mit dem "NA" fehlende Daten label. In python, es scheint, dass ich ' ll haben, um mit maskierten arrays, die scheinen zu sein ein großer Schmerz, einrichten und scheinen nicht zu werden, gut dokumentiert. Irgendwelche Vorschläge, was diesen Prozess einfacher in Python? Dies ist immer ein deal-breaker, ein Wechsel in Python for data analysis. Dank

Update Es ist natürlich schon eine Weile her ist, habe ich mich an die Methoden in der numpy.ma-Modul. Es scheint, dass zumindest die grundlegenden Analyse-Funktionen sind verfügbar für maskierte arrays, und die Beispiele die mir geholfen zu verstehen, wie das erstellen maskierte arrays (Dank den Autoren). Ich würde gerne sehen, wenn einige neuere statistische Methoden in Python (entwickelt im diesjährigen GSoC) enthält diesen Aspekt, und zumindest ist es die komplette case-Analyse.

Warum nicht mit numpy.NaN zu identifizieren, fehlende Daten?

InformationsquelleAutor Abhijit | 2009-09-04

4

Wenn Sie bereit sind, zu prüfen, eine Bibliothek, pandas (http://pandas.pydata.org/) ist eine Bibliothek, die aufbauend auf numpy, die unter vielen anderen Dingen bietet:

Intelligent data alignment und integrierten Umgang mit fehlenden Daten: gewinnen Sie automatischen label-based-alignment in Berechnungen und leicht zu manipulieren chaotisch Daten in geordneter form

Ich benutze es schon seit fast einem Jahr in der Finanzbranche, wo fehlende und schlecht ausgerichtet-Daten ist die norm und das hat wirklich mein Leben erleichtert.

InformationsquelleAutor aristotle

Ich auch Frage, das problem mit maskierten arrays. Hier sind ein paar Beispiele:

import numpy as np
data = np.ma.masked_array(np.arange(10))
data[5] = np.ma.masked # Mask a specific value

data[data>6] = np.ma.masked # Mask any value greater than 6

# Same thing done at initialization time
init_data = np.arange(10)
data = np.ma.masked_array(init_data, mask=(init_data > 6))

InformationsquelleAutor DopplerShift

Maskierte arrays sind anwswer, als DpplerShift beschreibt. Für quick-and-dirty verwenden, können Sie mit fancy indexing mit boolean-arrays:

>>> import numpy as np
>>> data = np.arange(10)
>>> valid_idx = data % 2 == 0 #pretend that even elements are missing

>>> # Get non-missing data
>>> data[valid_idx]
array([0, 2, 4, 6, 8])

Können Sie jetzt mit valid_idx als schnelle Maske auf anderen Daten, als auch

>>> comparison = np.arange(10) + 10
>>> comparison[valid_idx]
array([10, 12, 14, 16, 18])

InformationsquelleAutor Barry Wark

Sehen sklearn.Vorverarbeitung.Imputer

import numpy as np
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))

Beispiel aus http://scikit-learn.org/

InformationsquelleAutor Timo Richter

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.