Tag: data-cleaning

Daten Reinigung ist der Prozess der Beseitigung oder Reparatur Fehler, und die Normalisierung der Daten verwendet, die in computer-Programmen. Zum Beispiel, Ausreißer entfernt werden kann, fehlt, können die Proben interpoliert werden, ungültige Werte können als nicht verfügbar gekennzeichnet werden, und gleichbedeutend Werte zusammengeführt werden.

Ein Ansatz zur Datenbereinigung ist die „tidy data“ – framework von Wickham, http://vita.had.co.nz/papers/tidy-data.pdf, was bedeutet, dass jede Zeile ist eine Beobachtung und jede Spalte ist eine variable.

SQL replace-Anweisung mit Variablen

3 Antworten

Ich würde gerne einige Ratschläge, wie man mit dem SQL replace-Anweisung zu bereinigen, Daten mit neuen Worten, die in zwei Spalten in separate Tabelle. Ich versuche, mit dynamic SQL und Variablen zu erzeugen, die replace-Anweisung wie folgt:

Wie eine Zeichenfolge suchen und Leerzeichen in R

2 Antworten

Ich habe einen dataframe mit Spalten mit Werten wie: "Durchschnittliche 18.24" "Fehler 23.34". Mein Ziel ist, ersetzen Sie den folgenden text und Raum von diesen. in R. Kann jeder Körper helfen, mich mit einem regex-pattern zu tun?

data-cleaning r regex

Wie reinige ich die twitter-Daten in R?

4 Antworten

Ich extrahierten tweets von twitter mit den twitteR-Paket gespeichert und Sie in eine text-Datei. Habe ich durchgeführt, die im folgenden auf das corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,removePunctuation, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,strip_retweets, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,removeWords,stopwords(english), lazy=TRUE,

data-cleaning r text-mining twitter

Mit gsub() ein dataframe

1 Antworten

Ich habe eine CSV-Datei aufgerufen test_20171122 Oft, Datensätze, die ich mit arbeiten waren ursprünglich in der Buchhaltung oder im Währungsformat in Excel und später umgewandelt in eine CSV-Datei. Ich bin auf der Suche in die optimale Art

data-cleaning dataframe formatting gsub r

Python Pandas ersetzen mehrere Spalten null und Nan

1 Antworten

Liste mit Attributen von Personen geladen pandas dataframe df2. Für die Bereinigung möchte ich ersetzen mit dem Wert null (0 oder '0') von np.nan. df2.dtypes ID object Name object Weight float64 Height float64 BootSize object SuitSize object

data-cleaning dataframe pandas python

Wie entfernen, Zeilenumbruch in einem dataframe

2 Antworten

Habe ich einen dataframe mit den Spalten namens "id", country_name, Lage und total_deaths. Während Daten-Reinigung, stieß ich auf einen Wert in einer Zeile, die '\r' befestigt. Sobald ich die komplette Reinigung von Prozess -, Speicher ich die

carriage-return data-cleaning pandas python replace

Entfernen von nicht-englischen Wörtern aus dem text mit Python

2 Antworten

Bin ich dabei eine Daten-Reinigungs-übung auf python und der text, den ich bin Reinigung enthält italienische Wörter, die ich gerne entfernen. Ich habe die online-Suche, ob ich in der Lage wäre, dies zu tun, auf Python mit

data-cleaning data-science python

pandas.to_numeric - finden Sie heraus, welche saite es war nicht in der Lage zu analysieren

2 Antworten

Anwendung pandas.to_numeric zu einem dataframe Spalte enthält die Zeichenfolgen, die zahlen darstellen (und vielleicht auch andere unparsable strings) führt zu einer Fehlermeldung wie dieser: --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-66-07383316d7b6> in <module>() 1 for column

data-cleaning data-science pandas python

Python pandas groupby-Aggregat über mehrere Spalten, dann pivot

3 Antworten

In Python, ich habe ein pandas DataFrame die der folgenden ähnelt: Item | shop1 | shop2 | shop3 | Category ------------------------------------ Shoes| 45 | 50 | 53 | Clothes TV | 200 | 300 | 250 |

data-cleaning dataframe pandas pivot python