Funke: coalesce sehr langsam, auch die Datenausgabe ist sehr klein

Ich habe den folgenden code in Spark:

myData.filter(t => t.getMyEnum() == null)
      .map(t => t.toString)
      .saveAsTextFile("myOutput")

Gibt es 2000+ Dateien in der myOutput", aber nur ein paar t.getMyEnum() == null, so gibt es nur sehr wenige output records. Da ich nicht möchte, Suche nur ein paar Ausgänge in 2000+ Ausgabe-Dateien, die ich versuchte zu kombinieren, die Ausgabe mit coalesce wie unten:

myData.filter(t => t.getMyEnum() == null)
      .map(t => t.toString)
      .coalesce(1, false)
      .saveAsTextFile("myOutput")

Dann wird die Aufgabe EXTREM LANGSAM! Ich Frage mich, warum es so langsam ist? Es war nur ein paar output records Streuung im Jahr 2000+ - Partitionen? Gibt es einen besseren Weg, um dieses problem zu lösen?

InformationsquelleAutor Edamame | 2015-06-25

15

wenn Sie tun eine drastische verschmelzen, z.B. numPartitions = 1, dies kann dazu führen, Ihre Berechnung stattfindet, auf weniger Knoten als die, die Sie mögen (z.B. ein Knoten im Falle von numPartitions = 1). Um dies zu vermeiden, können Sie pass shuffle = true. Dies wird fügen Sie eine shuffle-Schritt, aber bedeutet das aktuelle upstream-Partitionen werden parallel ausgeführt (pro was auch immer die aktuelle Partitionierung).

Hinweis: Mit "shuffle =" true, können Sie tatsächlich verbinden sich zu einem größeren
Anzahl der Partitionen. Dies ist nützlich, wenn Sie eine kleine Anzahl von Partitionen, sagen wir 100, - eventuell mit ein paar Partitionen als ungewöhnlich groß. Aufruf coalesce(1000, shuffle = true) Ergebnis in 1000 Partitionen mit den Daten, verteilt über einen hash-partitioner.

Also versuchen, durch übergabe der wahre an coalesce Funktion. also
```
myData.filter(_.getMyEnum == null)
      .map(_.toString)
      .coalesce(1, shuffle = true)
      .saveAsTextFile("myOutput")
```
- Ist coalesce(1, shuffle = true) entspricht repartition(1) ?
- Ja, es ist das gleiche: wenn Sie sich den Quellcode ansehen, partitionieren(1) hat der shuffle die standardmäßig auf true gesetzt.
InformationsquelleAutor Zia Kayani

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.