Tag: imputation

Missing data imputation ist das ersetzen von fehlenden Daten mit Subst, ‚best guess‘, Werte. Aufgrund fehlender Daten kann zu Problemen führen, für die Analyse von Daten und kann dazu führen, missing-data-bias, die Zuschreibung als ein Weg gesehen, um zu vermeiden, dass die Probleme im Zusammenhang mit listwise deletion (ignorieren Sie alle Beobachtungen mit fehlenden Werten).

Pyspark Dataframe Zuschreibungen — Ersetzen Unbekannt & Fehlende Werte mit der Spalte Bedeuten, basierend auf der angegebenen Bedingung

Anzahl der Antworten 1 Antworten
Gegeben ein Funken dataframe, ich möchte zur Berechnung einer Spalte bedeuten basiert auf der nicht-fehlenden und nicht unbekannte Werte für diese Spalte. Ich würde dann gerne diese bedeuten und es verwenden, um ersetzen Sie die Spalte fehlt

Anrechnung in R

Anzahl der Antworten 3 Antworten
Ich bin neu in der R-Programmiersprache. Ich wollte nur wissen, gibt es eine Möglichkeit, zu unterstellen, null-Werte nur eine Spalte in unserem Datenbestand. Da alle von Zuschreibungen Befehle und Bibliotheken, die ich gesehen habe, zu unterstellen, die

Vorhersage der fehlenden Werte mit scikit-learn ist Imputer Modul

Anzahl der Antworten 2 Antworten
Schreibe ich ein sehr einfaches Programm, um vorherzusagen, fehlende Werte in einem Datensatz unter Verwendung scikit-learn ist Imputer Klasse. Ich habe ein NumPy-array, erstellt eine Imputer Objekt mit Strategie='mean' und durchgeführt fit_transform() auf der NumPy-array. Wenn ich

Imputieren Sie kategoriale fehlende Werte in scikit-learn

Anzahl der Antworten 6 Antworten
Ich habe pandas-Daten mit mehreren Spalten des Typs text. Es gibt einige NaN-Werte zusammen mit diesen text-Spalten. Was ich versuche zu tun, ist zu unterstellen, diejenigen, die NaN ' s von sklearn.preprocessing.Imputer (ersetzt NaN durch den häufigsten

Ersetzen Sie fehlende Werte durch den Spaltenmittelwert

Anzahl der Antworten 8 Antworten
Ich bin mir nicht sicher, wie eine Schleife über die einzelnen Spalten ersetzen die NA-Werte mit der Spalte bedeuten. Wenn ich versuche zu ersetzen, die für eine Spalte mit dem folgenden, es funktioniert gut. Column1[is.na(Column1)] <- round(mean(Column1,