Spark-cache vs broadcast

Sieht es aus wie broadcast-Methode macht eine verteilte Kopie von RDD in meinem cluster. Auf der anderen Seite die Ausführung von cache () - Methode lädt einfach Daten im Speicher.

Aber ich verstehe nicht, wie funktioniert zwischengespeichert RDD, verteilt im cluster.

Könnten Sie mir bitte sagen, in welchen Fällen sollte ich rdd.cache() und rdd.broadcast() Methoden?

InformationsquelleAutor dmreshet | 2016-06-27
Schreibe einen Kommentar