Wie man Zeilen von DF enthalten, dass der Wert None in pyspark (Funke)

Im Beispiel unten df.a == 1 Prädikat gibt richtige Ergebnis, sondern df.a == None gibt 0 zurück, wenn Sie zurückkehren sollte, 1.

l = [[1], [1], [2], [2], [None]]
df = sc.parallelize(l).toDF(['a'])
df    # DataFrame[a: bigint]
df.collect()    # [Row(a=1), Row(a=1), Row(a=2), Row(a=2), Row(a=None)]
df.where(df.a == 1).count()   # 2L
df.where(df.a == None).count()   # 0L

Verwendung Von Spark-1.3.1

InformationsquelleAutor marcin_koss | 2015-08-26

19

Können Sie die Spalte.isNull Methode:
```
df.where(df.a.isNull()).count()
```
Auf einer Seite Hinweis: dieses Verhalten ist das, was man erwarten könnte von einem normale SQL-Abfrage. Da NULL Marken "fehlende Informationen und unzutreffender Informationen" [1] es macht keinen Sinn zu Fragen, wenn etwas ist, gleich NULL. Es ist einfach entweder IS oder IS NOT fehlt.\

Scala-API stellt spezielle null-sichere Gleichheit <=> - operator, so ist es möglich, so etwas zu tun:
```
df.where($"a" <=> lit(null))
```
aber es sieht nicht wie eine gute Idee, wenn Sie mich Fragen.

1.Wikipedia, Null (SQL)
- Super Antwort, Jungs. Ich verstehe die Frage hier ist spezifisch zu pyspark aber dachte, es könnte nicht Schaden, auch, wie eine ähnliche Logik gelöst werden können, wird in Scala als auch df.filter(df).col("ein").isNull() oder df.col("ein").isNaN() ).die count () - ich hoffe, das war hilfreich
- Gibt es eine Möglichkeit zum filtern der Zeile, wenn eine Spalte null ist?
InformationsquelleAutor zero323

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.