pyspark Partitionierung von Daten mit partitionby

Ich verstehe, dass partitionBy Funktion Partitionen meine Daten. Wenn ich rdd.partitionBy(100) es wird die partition meine Daten durch Schlüssel in 100 Teile. D. H. Daten, die im Zusammenhang mit ähnlichen Tasten gruppiert werden,

  1. Ist mein Verständnis richtig?
  2. Ist es ratsam, die Anzahl der Partitionen gleich der Anzahl der
    Kerne? Das macht die Bearbeitung effizienter?
  3. was, wenn meine Daten nicht in Schlüssel-Wert-format. Kann ich trotzdem diese Funktion verwenden?
  4. können sagen, meine Daten sind serial_number_of_student,student_name. In diesem
    Fall kann ich die partition meine Daten von student_name, anstatt die
    Seriennummer?
InformationsquelleAutor user2543622 | 2016-03-13
Schreibe einen Kommentar