Wie gehen Sie mit fehlenden Daten mithilfe von numpy/scipy?
Eines der Dinge, die ich mit den meisten in der Datenbereinigung fehlende Werte. R beschäftigt sich mit diesem sowie mit dem "NA" fehlende Daten label. In python, es scheint, dass ich ' ll haben, um mit maskierten arrays, die scheinen zu sein ein großer Schmerz, einrichten und scheinen nicht zu werden, gut dokumentiert. Irgendwelche Vorschläge, was diesen Prozess einfacher in Python? Dies ist immer ein deal-breaker, ein Wechsel in Python for data analysis. Dank
Update Es ist natürlich schon eine Weile her ist, habe ich mich an die Methoden in der numpy.ma-Modul. Es scheint, dass zumindest die grundlegenden Analyse-Funktionen sind verfügbar für maskierte arrays, und die Beispiele die mir geholfen zu verstehen, wie das erstellen maskierte arrays (Dank den Autoren). Ich würde gerne sehen, wenn einige neuere statistische Methoden in Python (entwickelt im diesjährigen GSoC) enthält diesen Aspekt, und zumindest ist es die komplette case-Analyse.
- Warum nicht mit numpy.NaN zu identifizieren, fehlende Daten?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie bereit sind, zu prüfen, eine Bibliothek, pandas (http://pandas.pydata.org/) ist eine Bibliothek, die aufbauend auf numpy, die unter vielen anderen Dingen bietet:
Ich benutze es schon seit fast einem Jahr in der Finanzbranche, wo fehlende und schlecht ausgerichtet-Daten ist die norm und das hat wirklich mein Leben erleichtert.
Ich auch Frage, das problem mit maskierten arrays. Hier sind ein paar Beispiele:
Maskierte arrays sind anwswer, als DpplerShift beschreibt. Für quick-and-dirty verwenden, können Sie mit fancy indexing mit boolean-arrays:
Können Sie jetzt mit valid_idx als schnelle Maske auf anderen Daten, als auch
Sehen sklearn.Vorverarbeitung.Imputer
Beispiel aus http://scikit-learn.org/