Tag: apache-spark-1.3

Verwenden Sie für spezifische Fragen zu Apache Spark 1.3 Für Allgemeine Fragen zu Apache Spark verwenden Sie die tag – [apache-spark].

Pyspark dataframe: Summieren über eine Spalte, während die Gruppierung über die andere

Anzahl der Antworten 2 Antworten
Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5

Wie kann man einen Iterator von Zeilen mit Dataframe in SparkSQL

Anzahl der Antworten 2 Antworten
Ich habe eine Anwendung in SparkSQL gibt große Anzahl von Zeilen, die sind sehr schwer zu passen in den Speicher, so dass ich nicht in der Lage zu verwenden collect-Funktion auf DataFrame, gibt es eine Möglichkeit mit

GenericRowWithSchema Ausnahme im casting-ArrayBuffer, HashSet in DataFrame zu RDD von Hive-Tabelle

Anzahl der Antworten 1 Antworten
Habe ich eine Hive-Tabelle in Parkett-format, generiert wurde, mit create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array<struct<a:int,b:string>>) stored as parquet; Ich bin in der Lage, um zu überprüfen, dass es voll war-hier