Wie man Zeilen von DF enthalten, dass der Wert None in pyspark (Funke)
Im Beispiel unten df.a == 1
Prädikat gibt richtige Ergebnis, sondern df.a == None
gibt 0 zurück, wenn Sie zurückkehren sollte, 1.
l = [[1], [1], [2], [2], [None]]
df = sc.parallelize(l).toDF(['a'])
df # DataFrame[a: bigint]
df.collect() # [Row(a=1), Row(a=1), Row(a=2), Row(a=2), Row(a=None)]
df.where(df.a == 1).count() # 2L
df.where(df.a == None).count() # 0L
Verwendung Von Spark-1.3.1
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie die
Spalte.isNull
Methode:Auf einer Seite Hinweis: dieses Verhalten ist das, was man erwarten könnte von einem normale SQL-Abfrage. Da
NULL
Marken "fehlende Informationen und unzutreffender Informationen" [1] es macht keinen Sinn zu Fragen, wenn etwas ist, gleichNULL
. Es ist einfach entwederIS
oderIS NOT
fehlt.\Scala-API stellt spezielle null-sichere Gleichheit
<=>
- operator, so ist es möglich, so etwas zu tun:aber es sieht nicht wie eine gute Idee, wenn Sie mich Fragen.
1.Wikipedia, Null (SQL)