Fügen Sie eine leere Spalte auf Spark-DataFrame

Wie bereits in viele andere Orte auf der Website, das hinzufügen einer neuen Spalte zu einer vorhandenen DataFrame ist nicht einfach. Leider ist es wichtig, diese Funktionalität (auch wenn es ineffizient ist, die in einer verteilten Umgebung) vor allem, wenn Sie versuchen zu verketten von zwei DataFrames mit unionAll.

Was ist die eleganteste Problemumgehung zum hinzufügen eines null Spalte zu einer DataFrame zu erleichtern unionAll?

Meine version geht so:

from pyspark.sql.types import StringType
from pyspark.sql.functions import UserDefinedFunction
to_none = UserDefinedFunction(lambda x: None, StringType())
new_df = old_df.withColumn('new_column', to_none(df_old['any_col_from_old']))

InformationsquelleAutor architectonic | 2015-10-09

Schreibe einen Kommentar