Entfernen von Leeren Zeichenfolgen aus einer Spark-Dataframe

Versuch, entfernen Sie Zeilen, in denen ein Funke dataframe Spalte enthält leere strings. Ursprünglich val df2 = df1.na.drop() aber es stellt sich heraus, viele dieser Werte werden kodiert, wie "".

Ich bin stecken, mit Funken 1.3.1 und auch nicht setzen auf DSL. (Import spark.implicit_ nicht funktioniert.)

was willst du mit leeren Saiten ? legen Sie die Zeile ?

InformationsquelleAutor mongolol | 2016-10-10

16

Entfernen, die Dinge aus einem dataframe erfordert filter().
```
newDF = oldDF.filter("colName != ''")
```
oder bin ich Missverständnis deiner Frage?

Wie kann ich das schreiben mithilfe der Where-Klausel
WHERE colName IS NOT NULL oder WHERE colName IS NOT EMPTY ... denke ich.
Oder, mit DataFrames/Datasets oldDF.filter($"colName" =!= ""). Vergessen Sie nicht import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._

InformationsquelleAutor Kristian
3

Den Fall, dass jemand nicht wollen, zum löschen der Datensätze mit leeren Saiten, aber nur convvert die leeren Saiten auf einen Konstanten Wert.
```
val newdf = df.na.replace(df.columns,Map("" -> "0")) //to convert blank strings to zero
newdf.show()
```
InformationsquelleAutor Gaurav Khare
0

Ich bin auch neu zu entfachen, Also ich weiß nicht, ob die unten genannten code komplexer ist oder nicht, aber es funktioniert.

Hier wir erstellen udf, die Umwandlung von leeren Werte auf null.
```
sqlContext.udf().register("convertToNull",(String abc) -> (abc.trim().length() > 0 ? abc : null),DataTypes.StringType);
```
Nach oben code, den Sie verwenden können, "convertToNull" (funktioniert auch mit Strings) in der select-Klausel, und stellen Sie alle Felder, die null, die leere und als nutzen .na().drop().
```
crimeDataFrame.selectExpr("C0","convertToNull(C1)","C2","C3").na().drop()
```
Hinweis : Sie können, verwenden Sie das gleiche Konzept in scala.
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-sql-udfs.html

InformationsquelleAutor cody123
0
```
df.filter(!($"col_name"===""))
```
Während dieser code kann, löst die Frage, einschließlich einer Erklärung, wie und warum diese das problem behebt, das würde wirklich helfen zu verbessern, die Qualität Ihrer post, und wahrscheinlich dazu führen, dass mehr up-votes. Denken Sie daran, dass Sie die Beantwortung der Frage für die Leser in der Zukunft, nicht nur die person, die jetzt. Bitte Bearbeiten Sie Ihre Antwort hinzuzufügen Erläuterungen und geben einen Hinweis darauf, welche Einschränkungen und Annahmen anwenden.
Während dieser code kann die Frage beantworten, die Bereitstellung zusätzlicher Rahmen an, wie und/oder warum es das problem behebt, das würde verbessern die Antwort, die langfristigen Wert.

InformationsquelleAutor Akshat Chaturvedi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.