Tag: data-cleaning
Daten Reinigung ist der Prozess der Beseitigung oder Reparatur Fehler, und die Normalisierung der Daten verwendet, die in computer-Programmen. Zum Beispiel, Ausreißer entfernt werden kann, fehlt, können die Proben interpoliert werden, ungültige Werte können als nicht verfügbar gekennzeichnet werden, und gleichbedeutend Werte zusammengeführt werden.
Ein Ansatz zur Datenbereinigung ist die „tidy data“ – framework von Wickham, http://vita.had.co.nz/papers/tidy-data.pdf, was bedeutet, dass jede Zeile ist eine Beobachtung und jede Spalte ist eine variable.
3
Antworten
Ich würde gerne einige Ratschläge, wie man mit dem SQL replace-Anweisung zu bereinigen, Daten mit neuen Worten, die in zwei Spalten in separate Tabelle. Ich versuche, mit dynamic SQL und Variablen zu erzeugen, die replace-Anweisung wie folgt:
2
Antworten
Ich habe einen dataframe mit Spalten mit Werten wie: "Durchschnittliche 18.24" "Fehler 23.34". Mein Ziel ist, ersetzen Sie den folgenden text und Raum von diesen. in R. Kann jeder Körper helfen, mich mit einem regex-pattern zu tun?
4
Antworten
Ich extrahierten tweets von twitter mit den twitteR-Paket gespeichert und Sie in eine text-Datei. Habe ich durchgeführt, die im folgenden auf das corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,removePunctuation, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,strip_retweets, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,removeWords,stopwords(english), lazy=TRUE,
1
Antworten
Ich habe eine CSV-Datei aufgerufen test_20171122 Oft, Datensätze, die ich mit arbeiten waren ursprünglich in der Buchhaltung oder im Währungsformat in Excel und später umgewandelt in eine CSV-Datei. Ich bin auf der Suche in die optimale Art
1
Antworten
Liste mit Attributen von Personen geladen pandas dataframe df2. Für die Bereinigung möchte ich ersetzen mit dem Wert null (0 oder '0') von np.nan. df2.dtypes ID object Name object Weight float64 Height float64 BootSize object SuitSize object
2
Antworten
Habe ich einen dataframe mit den Spalten namens "id", country_name, Lage und total_deaths. Während Daten-Reinigung, stieß ich auf einen Wert in einer Zeile, die '\r' befestigt. Sobald ich die komplette Reinigung von Prozess -, Speicher ich die
2
Antworten
Bin ich dabei eine Daten-Reinigungs-übung auf python und der text, den ich bin Reinigung enthält italienische Wörter, die ich gerne entfernen. Ich habe die online-Suche, ob ich in der Lage wäre, dies zu tun, auf Python mit
2
Antworten
Anwendung pandas.to_numeric zu einem dataframe Spalte enthält die Zeichenfolgen, die zahlen darstellen (und vielleicht auch andere unparsable strings) führt zu einer Fehlermeldung wie dieser: --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-66-07383316d7b6> in <module>() 1 for column
3
Antworten
In Python, ich habe ein pandas DataFrame die der folgenden ähnelt: Item | shop1 | shop2 | shop3 | Category ------------------------------------ Shoes| 45 | 50 | 53 | Clothes TV | 200 | 300 | 250 |