Gibt es eine Möglichkeit zu filtern, ein Feld nicht mit etwas in einem spark-dataframe mit scala?
Hoffentlich bin ich dumm und das wird einfach sein.
Ich habe einen dataframe mit den Spalten " url " und "referrer'.
Möchte ich extrahieren Sie alle Verweise enthalten die top-level-domain 'www.mydomain.com' und 'mydomain.co'.
Kann ich verwenden
val filteredDf = unfilteredDf.filter(($"referrer").contains("www.mydomain."))
Jedoch, dieser zieht aus dem url-www.google.co.uk such-url enthält, die auch mein web-domain aus irgendeinem Grund. Gibt es eine Möglichkeit, mit scala in der Funke, dass ich filtern kann, alles, was mit google in es-unter Beibehaltung des richtigen Ergebnisse habe ich?
Dank
Dean
InformationsquelleAutor Dean | 2015-11-09
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie negieren Prädikat entweder
not
oder!
also alles, was übrig bleibt, ist eine weitere Bedingung hinzufügen:oder separate filter:
hey! Hilfe!!!, jeder Weg, dies zu erreichen durch einen Vergleich einer Spalte? wie $"referrer".enthält, ($"- Spalte,-das-sollten-nicht-Spiel")
macht diese Arbeit für bestimmte pyspark version, bin ich immer der import org.apache.spark.sql.Funktionen.nicht DELV_all_cleaned_df2 = DELV_all_cleaned_df.wo(nicht($'DELIV_LOC_DESC'.enthält(expr))) import org.apache.spark.sql.Funktionen.nicht DELV_all_cleaned_df2 = DELV_all_cleaned_df.wo(nicht($'DELIV_LOC_DESC'.enthält(expr))) ungültige syntax (<stdin>, Zeile 1) Datei "<stdin>", Zeile 1 importieren Sie org.apache.spark.sql.Funktionen.nicht ^ SyntaxError: invalid syntax
Ich habe sowohl df.filter und df.wo zusammen, und Sie arbeiteten gut, danke
InformationsquelleAutor zero323
Können Sie einen
Regex
. Hier finden Sie eine Referenz für die Verwendung von regex in Scala. Und hier finden Sie einige Hinweise über, wie man erstellen Sie eine korrekte regex für URLs.So, in Ihrem Fall haben Sie etwas wie:
Diese Lösung erfordert ein bisschen Arbeit, aber ist die sicherste.
like
mit SQL einfachen regulären Ausdruck, 2) UDF mit standard Scala regex, 3) convert to RDD und filterRow
ObjekteInformationsquelleAutor mgaido