Ableitung von Perzentil der Verwendung von Spark-Daten-frame und GroupBy in python

Ich habe eine Spark-dataframe die Date, Group und Price Spalten.

Ich versuche zur Ableitung der percentile(0.6) für die Price Spalte,
dataframe in Python. Außerdem muss ich hinzufügen, um die Ausgabe in einer neuen Spalte.

Habe ich versucht den folgenden code:

perudf = udf(lambda x: x.quantile(.6))
df1 = df.withColumn("Percentile", df.groupBy("group").agg("group"),perudf('price'))

aber es wirft die folgende Fehlermeldung:

assert all(isinstance(c, Column) for c in exprs), "all exprs should be Column"
AssertionError: all exprs should be Column

InformationsquelleAutor Somashekar Muniyappa | 2016-05-03

3

Können Sie "percentile_approx" mithilfe von sql. Es ist schwierig zu erstellen UDF in pyspark.

Unter diesem link für weitere details: https://mail-archives.apache.org/mod_mbox/spark-user/201510.mbox/%3CCALte62wQV68D6J87EVq6AD5-T3D0F3fHjuzs+1C5aCHOUUQS8w@mail.gmail.com%3E

Für Interessenten/lazy, das ist from pyspark import SparkContext, HiveContext; sc = SparkContext(); hiveContext = HiveContext(sc); hiveContext.registerDataFrameAsTable(df, "df"); hiveContext.sql("SELECT percentile(price, 0.75) FROM df"); um den Preis zu bekommen, bei der 75% - Perzentil.

InformationsquelleAutor user3343061

Weiß ich eine Lösung, um die Perzentil jede Zeile mit RDDs. Zuerst konvertieren Sie Ihre RDD, um einen DataFrame:

# convert to rdd of dicts
rdd = df.rdd
rdd = rdd.map(lambda x: x.asDict())

Dann können Sie berechnen jede Zeile Perzentil:

column_to_decile = 'price'
total_num_rows = rdd.count()


def add_to_dict(_dict, key, value):
    _dict[key] = value
    return _dict


def get_percentile(x, total_num_rows):
    _dict, row_number = x
    percentile = x[1] / float(total_num_rows)
    return add_to_dict(_dict, "percentile", percentile)


rdd_percentile = rdd.map(lambda d: (d[column_to_decile], d)) # make column_to_decile a key
rdd_percentile = rdd_percentile.sortByKey(ascending=False) # so 1st decile has largest
rdd_percentile = rdd_percentile.map(lambda x: x[1]) # remove key
rdd_percentile = rdd_percentile.zipWithIndex() # append row number
rdd_percentile = rdd_percentile.map(lambda x: get_percentile(x, total_num_rows))

Und schließlich wieder zurück konvertieren in ein DataFrame mit:

df = sqlContext.createDataFrame(rdd_percentile)

Um die Zeile mit dem nächsten Perzentil 0,6, könnte man etwas wie das hier tun:

from pyspark.sql.types import *
from pyspark.sql.functions import udf


def get_row_with_percentile(df, percentile):
    func = udf(lambda x: abs(x), DoubleType())
    df_distance = df.withColumn("distance", func(df['percentile'] - percentile))
    min_distance = df_distance.groupBy().min('distance').collect()[0]['min(distance)']
    result = df_distance.filter(df_distance['distance'] == min_distance)
    result.drop("distance")
    return result


get_row_with_percentile(df, 0.6).show()

InformationsquelleAutor Galen Long

1

Können Sie window-Funktionen, einfach definieren, eine aggregation Fenster (alle Daten in Ihrem Fall) und dann filter-Perzentil-Wert:
```
from pyspark.sql.window import Window
from pyspark.sql.functions import percent_rank

w =  Window.orderBy(df.price)
df.select('price', percent_rank().over(w).alias("percentile"))\
    .where('percentile == 0.6').show()
```
percent_rank ist in pyspark.sql.Funktionen

Wenn Sie möchten, können Sie verwenden die SQL-Schnittstelle in diesem databricks post

Ich fand, dass databricks Beitrag nützlich, danke! Hier ist ein funktionierender link: databricks.com/blog/2015/07/15/...

InformationsquelleAutor bigonazzi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.