wie entfernen Sie Spalten mit zu vielen fehlenden Werten in Python
Arbeite ich auf einer machine-learning-problem, in denen es viele fehlende Werte in den Funktionen. Es gibt 100 von den features, und ich möchte zu löschen, diese Funktionen, die zu viele fehlende Werte (es kann sein, Funktionen mit mehr als 80% fehlende Werte). Wie kann ich das in Python.
p.s. meine Daten ist ein Pandas dataframe.
- Sie haben eine chance von 100%, erhalten Sie eine schnellere Antwort, wenn Sie nach ein paar Beispieldaten, stackoverflow.com/help/mcve, z.B. df.Leiter (in).to_dict()
- google.com/...
Du musst angemeldet sein, um einen Kommentar abzugeben.
Demo:
Setup:
Lösung:
Folgenden MaxU Beispiel ist dies die option für das filtern von Zeilen:
Zeilen
Verallgemeinern innerhalb pandas können Sie die folgenden zur Berechnung der Prozent-Werte in einer Spalte mit fehlenden Werten. Von diesen Spalten, die Sie filtern können Sie die Funktionen mit mehr als 80% NULL-Werte und löschen Sie dann die Spalten aus dem DataFrame.
Können Sie pandas dropna.
Hier ist eine einfache Funktion, die Sie direkt verwenden können, durch die übergabe dataframe und Schwelle
Nun erstellen neuer dataframe ohne diese Spalten
Bonus Schritt
Finden Sie den Prozentsatz von fehlenden Werten für jede Spalte (optional)
Den schnellsten Weg zu finden, die Summe von NaN oder der Prozentsatz, um den Spalten ist :