Wie man Zeilen von DF enthalten, dass der Wert None in pyspark (Funke)

Im Beispiel unten df.a == 1 Prädikat gibt richtige Ergebnis, sondern df.a == None gibt 0 zurück, wenn Sie zurückkehren sollte, 1.

l = [[1], [1], [2], [2], [None]]
df = sc.parallelize(l).toDF(['a'])
df    # DataFrame[a: bigint]
df.collect()    # [Row(a=1), Row(a=1), Row(a=2), Row(a=2), Row(a=None)]
df.where(df.a == 1).count()   # 2L
df.where(df.a == None).count()   # 0L

Verwendung Von Spark-1.3.1

InformationsquelleAutor marcin_koss | 2015-08-26
Schreibe einen Kommentar