Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

Sagen wir, ich habe die folgende Tabelle:

+--------------------+--------------------+------+------------+--------------------+
|                host|                path|status|content_size|                time|
+--------------------+--------------------+------+------------+--------------------+
|js002.cc.utsunomi...|/shuttle/resource...|   404|           0|1995-08-01 00:07:...|
|    tia1.eskimo.com |/pub/winvn/releas...|   404|           0|1995-08-01 00:28:...|
|grimnet23.idirect...|/www/software/win...|   404|           0|1995-08-01 00:50:...|
|miriworld.its.uni...|/history/history.htm|   404|           0|1995-08-01 01:04:...|
|      ras38.srv.net |/elv/DELTA/uncons...|   404|           0|1995-08-01 01:05:...|
| cs1-06.leh.ptd.net |                    |   404|           0|1995-08-01 01:17:...|
|dialip-24.athenet...|/history/apollo/a...|   404|           0|1995-08-01 01:33:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:35:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:36:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:36:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:36:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:36:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:36:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:36:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:37:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:37:...|
|  h96-158.ccnet.com |/history/apollo/a...|   404|           0|1995-08-01 01:37:...|
|hsccs_gatorbox07....|/pub/winvn/releas...|   404|           0|1995-08-01 01:44:...|
|www-b2.proxy.aol....|/pub/winvn/readme...|   404|           0|1995-08-01 01:48:...|
|www-b2.proxy.aol....|/pub/winvn/releas...|   404|           0|1995-08-01 01:48:...|
+--------------------+--------------------+------+------------+--------------------+

Wie ich den filter in dieser Tabelle haben nur unterschiedliche Wege in PySpark?
Aber sollte die Tabelle enthält alle Spalten.

InformationsquelleAutor likern | 2016-09-02

23

Wenn Sie möchten, speichern Sie die Zeilen, wo alle Werte in bestimmte Spalten unterscheiden, Sie zu rufen dropDuplicates Methode auf DataFrame.
Wie bei meinem Beispiel:
```
dataFrame = ... 
dataFrame.dropDuplicates(['path'])
```
wo Pfad ist die Spalte name
- aus der doppelten Datensätze, wie würde dropDuplicates entscheiden, welcher Datensatz zu löschen?
- Sie können Sie nicht tune dieses Verhalten. Wenn Sie brauchen, wahrscheinlich sollten Sie andere Abfrage, zum Beispiel mit filter / groupby
- Nicht wahr. Hier finden Sie Beispiele, wie Sie ist, nur das erste auftreten in einer geordneten dataframe: stackoverflow.com/a/54738843/4166885
InformationsquelleAutor likern
0

Als für tuning, welche Aufzeichnungen aufbewahrt werden und verworfen, wenn Sie arbeiten können, Ihre Bedingungen in einem Fenster Ausdruck, den Sie verwenden können, so etwas wie dieses. Dies ist in scala (mehr oder weniger), aber ich denke, Sie können es in PySpark auch.

val Window = Fenster.parititionBy('Spalten'zu'machen,'eindeutig ist).orderBy('conditionToPutRowToKeepFirst)

dataframe.withColumn("row_number",row_number().over(window)).where('row_number===1).drop('row_number)

InformationsquelleAutor Mark Hanson

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.