Trim-string-Spalte in PySpark dataframe
Ich bin Anfänger auf Python und Funken. Nach dem erstellen eines DataFrame
aus CSV
Datei, ich würde gerne wissen, wie ich trimmen kann eine Spalte. Ich habe versucht:
df = df.withColumn("Product", df.Product.strip())
df
ist meine Daten-frame, Product
ist eine Spalte in meiner Tabelle
Aber ich sehe immer den Fehler:
Column object is not callable
Haben Sie irgendwelche Vorschläge?
Hat die Lösung funktioniert???
InformationsquelleAutor minh-hieu.pham | 2016-02-02
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ab version 1.5, Spark SQL bietet zwei spezielle Funktionen für das trimmen von Leerzeichen,
ltrim
undrtrim
(Suche nach "trimmen" in der DataFrame Dokumentation); Sie werden importieren müssenpyspark.sql.functions
ersten. Hier ist ein Beispiel:InformationsquelleAutor desertnaut
Den pyspark version des strip-Funktion namens trim.
Trim wird "trim die Leerzeichen von beiden enden nach der angegebenen Zeichenkette Spalte".
Stellen Sie sicher, um importieren Sie die Funktion zuerst zu setzen und die Spalte, die Sie trimmen sind innerhalb Ihrer Funktion.
Sollten die folgenden arbeiten:
InformationsquelleAutor jdhaen
InformationsquelleAutor novice
Hab ich das mit der udf wie diese:
Ausgabe sieht wie folgt aus:
InformationsquelleAutor Babu