Imputieren Sie kategoriale fehlende Werte in scikit-learn

Ich habe pandas-Daten mit mehreren Spalten des Typs text. Es gibt einige NaN-Werte zusammen mit diesen text-Spalten. Was ich versuche zu tun, ist zu unterstellen, diejenigen, die NaN ' s von sklearn.preprocessing.Imputer (ersetzt NaN durch den häufigsten Wert). Das problem ist in der Umsetzung.
Angenommen, es ist ein Pandas dataframe df mit 30 Spalten, von denen 10 sind kategorialer Natur.
Sobald ich laufen:

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='most_frequent', axis=0)
imp.fit(df) 

Python erzeugt eine error: 'could not convert string to float: 'run1''wo "run1" ist eine gewöhnliche (nicht fehlenden) Wert aus der ersten Spalte mit kategorischen Daten.

Jede Hilfe wäre sehr willkommen

InformationsquelleAutor der Frage night_bat | 2014-08-11

Schreibe einen Kommentar