Tag: spark-csv

Eine Bibliothek für die Bearbeitung von CSV-Dateien in Apache Spark.

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

Anzahl der Antworten 1 Antworten
Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

Scala: Spark SQL to_date(unix_timestamp) NULL zurückgeben

Anzahl der Antworten 1 Antworten
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich bin das laden eines raw-csv zu einem DataFrame. In csv -, obwohl die Spalte ist zu unterstützen, die im Datum-format, Sie werden so geschrieben, wie 20161025 statt 2016-10-25. Die parameter date_format

Spark DataFrame übergabe leerer String in OneHotEncoder

Anzahl der Antworten 3 Antworten
Bin ich den Import einer CSV-Datei (mit Funken -, csv) in eine DataFrame die leere String Werte. Bei Anwendung der OneHotEncoder werden, stürzt die Anwendung mit Fehler requirement failed: Cannot have an empty string for name.. Gibt

Wie schätzen dataframe echte Größe in pyspark?

Anzahl der Antworten 2 Antworten
Wie bestimmen Sie einen dataframe Größe? Ich jetzt schätzen die wahre Größe eines dataframe wie folgt: headers_size = key for key in df.first().asDict() rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum() total_size = headers_size +

inferSchema in spark-csv-Paket

Anzahl der Antworten 1 Antworten
Als CSV gelesen als dataframe Zündkerzen, alle Spalten gelesen werden als string. Gibt es eine Möglichkeit, um die tatsächliche Art der Spalte? Habe ich folgende csv-Datei Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Data Analytics,3,1992-10-10 Ich habe gelesen, die CSV über den

Wie zum analysieren einer csv verwendet ^Ein (d.h. \001) als Trennzeichen mit spark-csv?

Anzahl der Antworten 1 Antworten
Schrecklich neue spark-und hive-und big-data-und scala und alle. Ich bin versucht, zu schreiben eine einfache Funktion, die einen sqlContext, lädt eine csv-Datei aus s3 und gibt einen DataFrame. Das problem ist, dass diese Besondere csv wird die

Bieten-schema beim Lesen der csv-Datei als dataframe

Anzahl der Antworten 5 Antworten
Ich versuche, mich zum Lesen einer csv-Datei in einem dataframe. Ich weiß, was das schema meiner dataframe sollte, da ich weiß, dass meine csv-Datei. Auch ich bin mit spark csv-Paket zum Lesen der Datei. Ich habe versucht,

Parse CSV als DataFrame/DataSet mit Apache Spark und Java

Anzahl der Antworten 4 Antworten
Ich bin neu zu entfachen, und ich möchte der Gruppe-durch & verringern Sie finden die folgenden von CSV (eine Zeile nach Beschäftigten): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000,

Wie zeigt man den gesamten Spalteninhalt in einem Spark-Dataframe an?

Anzahl der Antworten 10 Antworten
Bin ich mit spark-csv zum laden von Daten in einem DataFrame. Ich möchte eine simple Abfrage und Anzeige der Inhalte: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col scheint abgeschnitten: scala>

Schreiben Sie eine einzelne CSV-Datei mit Spark-CSV

Anzahl der Antworten 7 Antworten
Ich bin mit https://github.com/databricks/spark-csv , ich bin versucht zu schreiben, eine einzelne CSV -, aber nicht in der Lage, es auf einem Ordner. Brauchen eine Scala-Funktion, die parameter wie Pfad-und Dateinamen und schreiben, die CSV-Datei. InformationsquelleAutor der