PySpark - Split/Filter DataFrame Spalte Werte

Ich habe einen DataFrame ähnlich wie in diesem Beispiel:

Timestamp | Word | Count

30/12/2015 | example_1 | 3

29/12/2015 | example_2 | 1

28/12/2015 | example_2 | 9

27/12/2015 | example_3 | 7

... | ... | ...

und ich teilen möchten, auf das Daten-frame von 'word' - Spalte Werte zu erhalten, eine "Liste" von DataFrame (zeichnen einiger Figuren in einem nächsten Schritt). Zum Beispiel:

DF1

Timestamp | Word | Count

30/12/2015 | example_1 | 3

DF2

Timestamp | Word | Count

29/12/2015 | example_2 | 1

28/12/2015 | example_2 | 9

DF3

Timestamp | Word | Count

27/12/2015 | example_3 | 7

Gibt es eine Möglichkeit, dies zu tun mit PySpark (1.6)?

InformationsquelleAutor | 2016-02-03

4

Es wird nicht effizient sein, aber Sie können die Karte mit dem filter über der Liste der einzigartigen Werte:
```
words = df.select("Word").distinct().flatMap(lambda x: x).collect()
dfs = [df.where(df["Word"] == word) for word in words]
```
Post Spark 2.0
```
words = df.select("Word").distinct().rdd.flatMap(lambda x: x).collect()
```
- Beachten Sie, dass nach Spark 2.0 der richtige Befehl wäre Worte = df.wählen("Wort").distinct().rdd.flatMap(lambda x: x).sammeln()
InformationsquelleAutor zero323
1

Zusätzlich zu dem, was zero323 sagte, ich würde vielleicht hinzufügen
```
word.persist()
```
vor der Erschaffung der dfs, so dass die "Worte" dataframe nicht umgewandelt werden müssen, jedes mal, wenn Sie eine Aktion für jede Ihrer "dfs"

InformationsquelleAutor JustinCase

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.