Macht eine Verknüpfung von co-partitioniert RDDs verursachen einen shuffle in Apache Spark?

Wird rdd1.join(rdd2) Ursache shuffle passieren, wenn rdd1 und rdd2 haben die gleichen Partitionierer?

Können Sie umschreiben diese Frage, um deutlicher zu sein? Nur weil RDDs Partitionen auf derselben Maschine bedeutet nicht, dass alle Tasten immer auf der gleichen partition über beide. Was fragst du dann?
Ich habe umgeschrieben, die Frage vollständig. Ich denke, es macht jetzt Sinn, aber ich bin mir nicht sicher, es ist das, was @zwb gemeint. Ich habe nicht wirklich verstehen, das original. Fühlen Sie sich frei, um wieder meine Bearbeiten und aktualisieren Sie die Frage, falls erforderlich.
Danke, ich komme aus china und mein Englisch ist schlecht,ich kann nicht, drücke mich sehr klar und deutlich, was Sie umgeschrieben ist mein Gefühl.

InformationsquelleAutor zwb | 2015-02-08

34

Nicht. Wenn zwei RDDs haben die gleichen Partitionierer, der join wird nicht zu einem shuffle. Sie können dies in CoGroupedRDD.scala:
```
override def getDependencies: Seq[Dependency[_]] = {
  rdds.map { rdd: RDD[_ <: Product2[K, _]] =>
    if (rdd.partitioner == Some(part)) {
      logDebug("Adding one-to-one dependency with " + rdd)
      new OneToOneDependency(rdd)
    } else {
      logDebug("Adding shuffle dependency with " + rdd)
      new ShuffleDependency[K, Any, CoGroupCombiner](rdd, part, serializer)
    }
  }
}
```
Beachten Sie jedoch, dass das fehlen einer shuffle bedeutet nicht, dass keine Daten bewegt werden müssen zwischen den Knoten. Es ist möglich für zwei RDDs haben die gleichen Partitionierer (co-partitioniert) noch die entsprechenden Partitionen auf verschiedenen Knoten (nicht co-located).

Diese situation ist immer noch besser als ein shuffle, aber es ist etwas im Auge zu behalten. Co-location können die Leistung verbessern, ist aber schwer zu garantieren.
- Vielen Dank nochmal, ich im Grunde unstand, und ich werde den Quellcode zu Lesen, um mehr zu bekommen.
- Follow-up-Frage: gibt es irgendeinen Funken SQL-Implementierungen (einschließlich separate Projekte, die nicht in der main Distribution), die die Vorteile von co-Partitionierung?
- Es ist wahrscheinlich lohnt sich, in eine separate Frage. spark.apache.org/docs/latest/sql-programming-guide.html, sagt etwa spark.sql.shuffle.partitions dass es "konfiguriert die Anzahl der Partitionen zu verwenden, wenn das mischen der Daten für joins oder Aggregationen." das ist Also ein gutes Zeichen.
- darabos stackoverflow.com/questions/28850596/...
- was genau ist der Unterschied in Bezug auf Leistung, wenn Sie sagen: das fehlen einer shuffle bedeutet nicht, dass keine Daten bewegt werden müssen zwischen den Knoten. Wenn ich gut verstanden RDDs co-partitioniert mit entsprechenden Partitionen auf verschiedenen Knoten, wird dazu führen, dass alle Partitionen eines der RDD verschoben werden in den Knoten, wo sind die entsprechenden Partitionen der anderen RDD, ist es richtig? Alle, die Daten bewegen kann als ein shuffle, nachdem alle?
- Sicher, wenn Sie erstellen Sie Ihre eigene definition, was "shuffle" bedeutet, können Sie immer machen es so, dass das, was passiert, wenn die co-partitioniert RDDs verbunden sind, ist ein "shuffle". Aber dieses Wort eigentlich eine definition, die innerhalb Funken, und die Antwort verwendet diese definition. Keine shuffle findet statt, wenn co-partitioniert RDDs verbunden sind.
- Thx für die Antwort! Ich habe zwei follow-up-Fragen. Wie viel der Umzug ist schneller als die Neupartitionierung? Wie co-location gewährleistet werden kann?
- Repartitionierung ist ein shuffle: alle Vollzieher kopieren auf alle anderen treckern. Umzug ist eine eins-zu-eins-Abhängigkeit: jeder Testamentsvollstrecker nur Kopien von höchstens eines anderen Testamentsvollstreckers. Wie viel schneller ist es in Ihrem Fall, Sie finden können, durch benchmarking. Ein Weg, um sicherzustellen colocation ist für die beiden RDDs zu werden, von einem gemeinsamen Vorfahren ableiten.
- TWIMC, ich bin über eine benutzerdefinierte Partitionierer in PySpark, und fügen co-partitioniert RDDs löst dennoch einen shuffle (Spark 1.6).
InformationsquelleAutor Daniel Darabos

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.