PySpark - das Hinzufügen einer Spalte aus einer Liste von Werten mithilfe einer UDF

Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten.

a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"])

Habe ich eine Liste namens rating, die Bewertung jedes Haustier.

rating = [5,4,1]

Muss ich anfügen das dataframe mit einer Spalte namens " Rating, so dass

+------+-----+------+
|Animal|Enemy|Rating|
+------+-----+------+
|   Dog|  Cat|     5|
|   Cat|  Dog|     4|
| Mouse|  Cat|     1|
+------+-----+------+

Habe ich Folgendes getan aber es ist wieder nur der erste Wert in der Liste in der Spalte Bewertung

def add_labels():
    return rating.pop(0)

labels_udf = udf(add_labels, IntegerType())

new_df = a.withColumn('Rating', labels_udf()).cache()

out:

+------+-----+------+
|Animal|Enemy|Rating|
+------+-----+------+
|   Dog|  Cat|     5|
|   Cat|  Dog|     5|
| Mouse|  Cat|     5|
+------+-----+------+

InformationsquelleAutor Bryce Ramgovind | 2018-01-09

Hoffe, das hilft!

from pyspark.sql.functions import monotonically_increasing_id

#sample data
a= sqlContext.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],
                               ["Animal", "Enemy"])
a.show()

#convert list to a dataframe
rating = [5,4,1]
b = sqlContext.createDataFrame([(l,) for l in rating], ['Rating'])

#join both dataframe to get the final result
a = a.withColumn("row_idx", monotonically_increasing_id())
b = b.withColumn("row_idx", monotonically_increasing_id())
final_df = a.join(b, a.row_idx == b.row_idx).\
             drop("row_idx")
final_df.show()

Eingang:

+------+-----+
|Animal|Enemy|
+------+-----+
|   Dog|  Cat|
|   Cat|  Dog|
| Mouse|  Cat|
+------+-----+

Ausgabe:

+------+-----+------+
|Animal|Enemy|Rating|
+------+-----+------+
|   Cat|  Dog|     4|
|   Dog|  Cat|     5|
| Mouse|  Cat|     1|
+------+-----+------+

InformationsquelleAutor Prem

Wie erwähnt von @Tw UxTLi51Nus, wenn Sie können, um den DataFrame, sagen wir mal, durch ein Tier, ohne diese ändern sich Ihre Ergebnisse, Sie können dann Folgendes tun:

def add_labels(indx):
    return rating[indx-1] # since row num begins from 1
labels_udf = udf(add_labels, IntegerType())

a = spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"])
a.createOrReplaceTempView('a')
a = spark.sql('select row_number() over (order by "Animal") as num, * from a')

a.show()


+---+------+-----+
|num|Animal|Enemy|
+---+------+-----+
|  1|   Dog|  Cat|
|  2|   Cat|  Dog|
|  3| Mouse|  Cat|
+---+------+-----+

new_df = a.withColumn('Rating', labels_udf('num'))
new_df.show()
+---+------+-----+------+
|num|Animal|Enemy|Rating|
+---+------+-----+------+
|  1|   Dog|  Cat|     5|
|  2|   Cat|  Dog|     4|
|  3| Mouse|  Cat|     1|
+---+------+-----+------+

Und dann fallen die num Spalte:

new_df.drop('num').show()
+------+-----+------+
|Animal|Enemy|Rating|
+------+-----+------+
|   Dog|  Cat|     5|
|   Cat|  Dog|     4|
| Mouse|  Cat|     1|
+------+-----+------+

Edit:

Anderen - aber vielleicht hässlich und ein bisschen ineffizient, wenn Sie nicht Sortieren nach einer Spalte, gehen Sie zurück zu rdd und Folgendes tun:

a = spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"])

# or create the rdd from the start:
# a = spark.sparkContext.parallelize([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")])

a = a.rdd.zipWithIndex()
a = a.toDF()
a.show()

+-----------+---+
|         _1| _2|
+-----------+---+
|  [Dog,Cat]|  0|
|  [Cat,Dog]|  1|
|[Mouse,Cat]|  2|
+-----------+---+

a = a.select(bb._1.getItem('Animal').alias('Animal'), bb._1.getItem('Enemy').alias('Enemy'), bb._2.alias('num'))

def add_labels(indx):
    return rating[indx] # indx here will start from zero

labels_udf = udf(add_labels, IntegerType())

new_df = a.withColumn('Rating', labels_udf('num'))

new_df.show()

+---------+--------+---+------+
|Animal   |   Enemy|num|Rating|
+---------+--------+---+------+
|      Dog|     Cat|  0|     5|
|      Cat|     Dog|  1|     4|
|    Mouse|     Cat|  2|     1|
+---------+--------+---+------+

(Würde ich nicht empfehlen, wenn Sie viel Daten)

Hoffe, dieses hilft, viel Glück!

InformationsquelleAutor mkaran

Können Sie konvertieren Sie Ihre Bewertung in rdd

rating = [5,4,1]
ratingrdd = sc.parallelize(rating)

Konvertieren und dann Ihre dataframe zu rdd befestigen jeder Wert ratingrdd zu rdd dataframe Verwendung zip und konvertieren Sie die RV rdd zu dataframe wieder

sqlContext.createDataFrame(a.rdd.zip(ratingrdd).map(lambda x: (x[0][0], x[0][1], x[1])), ["Animal", "Enemy", "Rating"]).show()

Sollte es geben, Sie

+------+-----+------+
|Animal|Enemy|Rating|
+------+-----+------+
|   Dog|  Cat|     5|
|   Cat|  Dog|     4|
| Mouse|  Cat|     1|
+------+-----+------+

InformationsquelleAutor Ramesh Maharjan

Ich mag mich irren, aber ich glaube, dass die Antwort akzeptiert wird nicht funktionieren. monotonically_increasing_id garantiert nur, dass die ids eindeutig sein und steigt, nicht, dass Sie aufeinander Folgen. Daher verwenden Sie es auf zwei verschiedene dataframes werden wahrscheinlich zwei sehr unterschiedliche Spalten, und die Verknüpfung wird meistens leer zurück.

inspiriert von dieser Antwort https://stackoverflow.com/a/48211877/7225303 auf eine ähnliche Frage, wir ändern könnte die falsche Antwort auf:

from pyspark.sql.window import Window as W
from pyspark.sql import functions as F

a= sqlContext.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],
                               ["Animal", "Enemy"])

a.show()

+------+-----+
|Animal|Enemy|
+------+-----+
|   Dog|  Cat|
|   Cat|  Dog|
| Mouse|  Cat|
+------+-----+



#convert list to a dataframe
rating = [5,4,1]
b = sqlContext.createDataFrame([(l,) for l in rating], ['Rating'])
b.show()

+------+
|Rating|
+------+
|     5|
|     4|
|     1|
+------+


a = a.withColumn("idx", F.monotonically_increasing_id())
b = b.withColumn("idx", F.monotonically_increasing_id())

windowSpec = W.orderBy("idx")
a = a.withColumn("idx", F.row_number().over(windowSpec))
b = b.withColumn("idx", F.row_number().over(windowSpec))

a.show()
+------+-----+---+
|Animal|Enemy|idx|
+------+-----+---+
|   Dog|  Cat|  1|
|   Cat|  Dog|  2|
| Mouse|  Cat|  3|
+------+-----+---+

b.show()
+------+---+
|Rating|idx|
+------+---+
|     5|  1|
|     4|  2|
|     1|  3|
+------+---+

final_df = a.join(b, a.idx == b.idx).drop("idx")

+------+-----+------+
|Animal|Enemy|Rating|
+------+-----+------+
|   Dog|  Cat|     5|
|   Cat|  Dog|     4|
| Mouse|  Cat|     1|
+------+-----+------+

InformationsquelleAutor Biggus

0

Was Sie versuchen zu tun, nicht funktioniert, weil die rating Liste ist in Ihrem Fahrer-memory, in der Erwägung, dass die a dataframe ist in der Vollzieher Gedächtnis (die udf funktioniert auf den Vollziehern zu).

Was Sie tun müssen, ist fügen Sie die-Tasten, um die ratings Liste, etwa so:
```
ratings = [('Dog', 5), ('Cat', 4), ('Mouse', 1)]
```
Dann erstellen Sie ein ratings dataframe aus der Liste und kommen beide, um die neue Spalte Hinzugefügt:
```
ratings_df = spark.createDataFrame(ratings, ['Animal', 'Rating'])
new_df = a.join(ratings_df, 'Animal')
```
- Das problem ist ich kann nicht setzen Sie in eine Taste. Grundsätzlich indiziert die in einer bestimmten Reihenfolge.
- Spark Dataframes keine Garantie für eine bestimmte Bestellung, es sei denn, Sie rufen orderBy auf Sie. Also, wenn Sie wissen, die Reihenfolge der beiden a dataframe und der ratings dataframe, können Sie kommen mit einem Schlüssel zu kombinieren. Wenn Sie nicht wissen, es gibt keine Möglichkeit die beiden zu verbinden dataframes...
InformationsquelleAutor Tw UxTLi51Nus

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.