Hinzufügen einer Spalte rowsums über eine Liste von Spalten in Spark-Dataframe

Ich habe eine Spark-dataframe mit mehreren Spalten. Ich möchte eine Spalte hinzufügen, die auf der dataframe, die eine Summe einer bestimmten Anzahl von Spalten.

Beispielsweise meine Daten sieht wie folgt aus:

ID var1 var2 var3 var4 var5
a   5     7    9    12   13
b   6     4    3    20   17
c   4     9    4    6    9
d   1     2    6    8    1

Möchte ich eine Spalte Hinzugefügt, die Summe der Zeilen für bestimmte Spalten:

ID var1 var2 var3 var4 var5   sums
a   5     7    9    12   13    46
b   6     4    3    20   17    50
c   4     9    4    6    9     32
d   1     2    6    8    10    27

Ich weiß, es ist möglich, fügen Sie Spalten zusammen, wenn man das spezifische Spalten hinzufügen:

val newdf = df.withColumn("sumofcolumns", df("var1") + df("var2"))

Ist es jedoch möglich, übergeben eine Liste von Spaltennamen und fügen Sie Sie zusammen? Basierend auf dieser Antwort, die im Grunde, was ich will, aber es ist mit Hilfe der python-API von scala (Fügen Sie eine Spalte Summe als neue Spalte in PySpark dataframe) ich denke, dass so etwas funktionieren würde:

//Select columns to sum
val columnstosum = ("var1", "var2","var3","var4","var5")

//Create new column called sumofcolumns which is sum of all columns listed in columnstosum
val newdf = df.withColumn("sumofcolumns", df.select(columstosum.head, columnstosum.tail: _*).sum)

Löst dies den Fehler mit dem Wert der Summe der nicht Mitglied der org.apache.spark.sql.DataFrame. Gibt es eine Möglichkeit, um die Summe über mehrere Spalten?

Vielen Dank im Voraus für Ihre Hilfe.

InformationsquelleAutor Sarah | 2016-06-03

Sollten Sie versuchen, die folgenden:

import org.apache.spark.sql.functions._

val sc: SparkContext = ...
val sqlContext = new SQLContext(sc)

import sqlContext.implicits._

val input = sc.parallelize(Seq(
  ("a", 5, 7, 9, 12, 13),
  ("b", 6, 4, 3, 20, 17),
  ("c", 4, 9, 4, 6 , 9),
  ("d", 1, 2, 6, 8 , 1)
)).toDF("ID", "var1", "var2", "var3", "var4", "var5")

val columnsToSum = List(col("var1"), col("var2"), col("var3"), col("var4"), col("var5"))

val output = input.withColumn("sums", columnsToSum.reduce(_ + _))

output.show()

Dann ist das Ergebnis:

+---+----+----+----+----+----+----+
| ID|var1|var2|var3|var4|var5|sums|
+---+----+----+----+----+----+----+
|  a|   5|   7|   9|  12|  13|  46|
|  b|   6|   4|   3|  20|  17|  50|
|  c|   4|   9|   4|   6|   9|  32|
|  d|   1|   2|   6|   8|   1|  18|
+---+----+----+----+----+----+----+

InformationsquelleAutor Paweł Jurczenko

Schlicht und einfach:

import org.apache.spark.sql.Column
import org.apache.spark.sql.functions.{lit, col}

def sum_(cols: Column*) = cols.foldLeft(lit(0))(_ + _)

val columnstosum = Seq("var1", "var2", "var3", "var4", "var5").map(col _)
df.select(sum_(columnstosum: _*))

mit Python-äquivalent:

from functools import reduce
from operator import add
from pyspark.sql.functions import lit, col

def sum_(*cols):
    return reduce(add, cols, lit(0))

columnstosum = [col(x) for x in ["var1", "var2", "var3", "var4", "var5"]]
select("*", sum_(*columnstosum))

Beiden wird standardmäßig " NA, wenn es einen fehlenden Wert in der Zeile. Sie können DataFrameNaFunctions.fill oder coalesce Funktion zu vermeiden.

InformationsquelleAutor zero323

2

Ich nehme an, Sie haben einen dataframe df. Dann können Sie die Summe aller Spalten, außer Ihre ID-col. Dies ist hilfreich, wenn Sie viele Spalten und Sie wollen nicht manuell zu erwähnen, die Namen aller Spalten, wie alle oben genannten. Dieser Beitrag hat die gleiche Antwort.
```
val sumAll = df.columns.collect{ case x if x != "ID" => col(x) }.reduce(_ + _)
df.withColumn("sum", sumAll)
```
InformationsquelleAutor Abu Shoeb
0

Hier ist eine elegante Lösung mit python:
```
NewDF = OldDF.withColumn('sums', sum(OldDF[col] for col in OldDF.columns[1:]))
```
Hoffentlich wird dies etwas beeinflussen ähnlich in der Funke ... wer?.

InformationsquelleAutor Aerianis

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.