Tag: data-cleaning

Daten Reinigung ist der Prozess der Beseitigung oder Reparatur Fehler, und die Normalisierung der Daten verwendet, die in computer-Programmen. Zum Beispiel, Ausreißer entfernt werden kann, fehlt, können die Proben interpoliert werden, ungültige Werte können als nicht verfügbar gekennzeichnet werden, und gleichbedeutend Werte zusammengeführt werden.

Ein Ansatz zur Datenbereinigung ist die „tidy data“ – framework von Wickham, http://vita.had.co.nz/papers/tidy-data.pdf, was bedeutet, dass jede Zeile ist eine Beobachtung und jede Spalte ist eine variable.

SQL replace-Anweisung mit Variablen

Anzahl der Antworten 3 Antworten
Ich würde gerne einige Ratschläge, wie man mit dem SQL replace-Anweisung zu bereinigen, Daten mit neuen Worten, die in zwei Spalten in separate Tabelle. Ich versuche, mit dynamic SQL und Variablen zu erzeugen, die replace-Anweisung wie folgt:

Wie eine Zeichenfolge suchen und Leerzeichen in R

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe mit Spalten mit Werten wie: "Durchschnittliche 18.24" "Fehler 23.34". Mein Ziel ist, ersetzen Sie den folgenden text und Raum von diesen. in R. Kann jeder Körper helfen, mich mit einem regex-pattern zu tun?

Wie reinige ich die twitter-Daten in R?

Anzahl der Antworten 4 Antworten
Ich extrahierten tweets von twitter mit den twitteR-Paket gespeichert und Sie in eine text-Datei. Habe ich durchgeführt, die im folgenden auf das corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,removePunctuation, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,strip_retweets, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,removeWords,stopwords(english), lazy=TRUE,

Mit gsub() ein dataframe

Anzahl der Antworten 1 Antworten
Ich habe eine CSV-Datei aufgerufen test_20171122 Oft, Datensätze, die ich mit arbeiten waren ursprünglich in der Buchhaltung oder im Währungsformat in Excel und später umgewandelt in eine CSV-Datei. Ich bin auf der Suche in die optimale Art

Python Pandas ersetzen mehrere Spalten null und Nan

Anzahl der Antworten 1 Antworten
Liste mit Attributen von Personen geladen pandas dataframe df2. Für die Bereinigung möchte ich ersetzen mit dem Wert null (0 oder '0') von np.nan. df2.dtypes ID object Name object Weight float64 Height float64 BootSize object SuitSize object

Wie entfernen, Zeilenumbruch in einem dataframe

Anzahl der Antworten 2 Antworten
Habe ich einen dataframe mit den Spalten namens "id", country_name, Lage und total_deaths. Während Daten-Reinigung, stieß ich auf einen Wert in einer Zeile, die '\r' befestigt. Sobald ich die komplette Reinigung von Prozess -, Speicher ich die

Entfernen von nicht-englischen Wörtern aus dem text mit Python

Anzahl der Antworten 2 Antworten
Bin ich dabei eine Daten-Reinigungs-übung auf python und der text, den ich bin Reinigung enthält italienische Wörter, die ich gerne entfernen. Ich habe die online-Suche, ob ich in der Lage wäre, dies zu tun, auf Python mit

pandas.to_numeric - finden Sie heraus, welche saite es war nicht in der Lage zu analysieren

Anzahl der Antworten 2 Antworten
Anwendung pandas.to_numeric zu einem dataframe Spalte enthält die Zeichenfolgen, die zahlen darstellen (und vielleicht auch andere unparsable strings) führt zu einer Fehlermeldung wie dieser: --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-66-07383316d7b6> in <module>() 1 for column

Python pandas groupby-Aggregat über mehrere Spalten, dann pivot

Anzahl der Antworten 3 Antworten
In Python, ich habe ein pandas DataFrame die der folgenden ähnelt: Item | shop1 | shop2 | shop3 | Category ------------------------------------ Shoes| 45 | 50 | 53 | Clothes TV | 200 | 300 | 250 |