Ableitung von Perzentil der Verwendung von Spark-Daten-frame und GroupBy in python

Ich habe eine Spark-dataframe die Date, Group und Price Spalten.

Ich versuche zur Ableitung der percentile(0.6) für die Price Spalte,
dataframe in Python. Außerdem muss ich hinzufügen, um die Ausgabe in einer neuen Spalte.

Habe ich versucht den folgenden code:

perudf = udf(lambda x: x.quantile(.6))
df1 = df.withColumn("Percentile", df.groupBy("group").agg("group"),perudf('price'))

aber es wirft die folgende Fehlermeldung:

assert all(isinstance(c, Column) for c in exprs), "all exprs should be Column"
AssertionError: all exprs should be Column

InformationsquelleAutor Somashekar Muniyappa | 2016-05-03

Schreibe einen Kommentar