DataFrame / Dataset groupBy-Verhalten/ - Optimierung

Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten:

Name, Vorname, Größe, Breite, Länge, Wiegen

Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe und Breite.

val df1 = df.groupBy("surname").agg( sum("size") )
val df2 = df.groupBy("surname").agg( sum("width") )

wie Sie sehen können, die anderen Säulen, wie die Länge werden nicht überall eingesetzt. Ist Spark smart genug, um Tropfen, die redundanten Spalten, bevor die schlurfenden phase oder sind Sie mit sich herumgeschleppt? Wil läuft:

val dfBasic = df.select("surname", "size", "width")

bevor Gruppierung irgendwie beeinflussen die Leistung?

  • Funke wählt die Spalten, die er bat, ihm von auf. Können Sie das erklären, um den physischen plan zu Ihrer Abfrage
InformationsquelleAutor Niemand | 2015-10-02
Schreibe einen Kommentar