Apache Spark - foreach-Vs foreachPartitions, Wann, Was?

Ich würde gerne wissen, ob die foreachPartitions wird zu besserer Leistung führt, aufgrund einer höheren Ebene der Parallelität ist, im Vergleich zu den foreach - Methode unter Berücksichtigung der Fall, in denen ich bin, die durch einen RDD um einige Summen in eine Akkumulator-variable.

Schreibe einen Kommentar