PySpark - Split/Filter DataFrame Spalte Werte
Ich habe einen DataFrame ähnlich wie in diesem Beispiel:
Timestamp | Word | Count
30/12/2015 | example_1 | 3
29/12/2015 | example_2 | 1
28/12/2015 | example_2 | 9
27/12/2015 | example_3 | 7
... | ... | ...
und ich teilen möchten, auf das Daten-frame von 'word' - Spalte Werte zu erhalten, eine "Liste" von DataFrame (zeichnen einiger Figuren in einem nächsten Schritt). Zum Beispiel:
DF1
Timestamp | Word | Count
30/12/2015 | example_1 | 3
DF2
Timestamp | Word | Count
29/12/2015 | example_2 | 1
28/12/2015 | example_2 | 9
DF3
Timestamp | Word | Count
27/12/2015 | example_3 | 7
Gibt es eine Möglichkeit, dies zu tun mit PySpark (1.6)?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Es wird nicht effizient sein, aber Sie können die Karte mit dem filter über der Liste der einzigartigen Werte:
Post Spark 2.0
Zusätzlich zu dem, was zero323 sagte, ich würde vielleicht hinzufügen
vor der Erschaffung der dfs, so dass die "Worte" dataframe nicht umgewandelt werden müssen, jedes mal, wenn Sie eine Aktion für jede Ihrer "dfs"