Das kartesische Produkt von zwei RDD-Zündkerzen
Ich bin völlig neu zu Apache Spark und ich versucht zu kartesischen Produkt zwei RDD. Als Beispiel habe ich A und B wie :
A = {(a1,v1),(a2,v2),...}
B = {(b1,s1),(b2,s2),...}
Brauche ich eine neue RDD wie:
C = {((a1,v1),(b1,s1)), ((a1,v1),(b2,s2)), ...}
Irgendeine Idee, wie ich dies tun kann? So einfach wie möglich 🙂
Vielen Dank im Voraus
PS: endlich habe ich habe es so wie vorgeschlagen von @Amit Kumar:
cartesianProduct = A. kartesische(B)
Du musst angemeldet sein, um einen Kommentar abzugeben.
Das ist nicht das Skalarprodukt, das ist das kartesische Produkt. Verwenden Sie die
cartesian
Methode:Quelle
Können Sie es tun, wie die folgenden:
Und wenn Sie das tun:
Können Sie sehen, dass dies ist, was Sie wollen.
Nur im Fall, wenn Sie neugierig sind, wie man mit mehreren Listen, hier ein Beispiel in pyspark