Funkenverbindung mehrerer RDDs
In mein Schwein code, mit dem ich dies tun:
all_combined = Union relation1, relation2,
relation3, relation4, relation5, relation 6.
Möchte ich das gleiche tun mit spark. Jedoch, leider, ich sehe, dass ich zu tun zu halten Sie paarweise:
first = rdd1.union(rdd2)
second = first.union(rdd3)
third = second.union(rdd4)
# .... and so on
Gibt es einen union-operator, mit denen ich mehrere rdds:
z.B. union(rdd1, rdd2,rdd3, rdd4, rdd5, rdd6)
Ist es eine Frage von Bequemlichkeit.
InformationsquelleAutor der Frage user3803714 | 2015-11-16
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn diese RDDs können Sie
SparkContext.union
Methode:Gibt es keine
DataFrame
gleichwertig, aber es ist nur eine Frage der einem einfachen Einzeiler:Wenn die Anzahl der
DataFrames
ist groß mitSparkContext.union
auf RDDs und neuDataFrame
kann eine bessere Wahl zu vermeiden Fragen zu den Kosten der Ausarbeitung eines ausführungsplanes:InformationsquelleAutor der Antwort zero323
Leider ist es der einzige Weg, um
UNION
Tabellen in der Funke. Aber stattkönnen Sie es in ein wenig sauberer Art und Weise, wie diese:
InformationsquelleAutor der Antwort Nhor
InformationsquelleAutor der Antwort evan912