So exportieren Sie DataFrame csv in Scala?
Wie kann ich exportieren Spark DataFrame in eine csv-Datei mit Scala?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wie kann ich exportieren Spark DataFrame in eine csv-Datei mit Scala?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Einfachste und beste Weg, dies zu tun ist die Verwendung
spark-csv
Bibliothek. Sie können überprüfen, dass die Dokumentation in den zur Verfügung gestellten link undhere
ist die scala Beispiel zum laden und speichern von Daten von/zu DataFrame.Code (Spark 1.4+):
Edit:
Spark erstellt Teil-Dateien, die beim speichern der csv-Daten, wenn Sie wollen Zusammenführen der Teil-Dateien in einer einzigen csv -, bitte beachten Sie die folgenden:
Merge-Spark-CSV-Ausgabe-Ordner, um eine Einzige Datei
In Spark-Versionen 2+ können Sie einfach das folgende;
Wenn Sie sicherstellen möchten, dass die Dateien nicht mehr partitioniert, dann fügen Sie ein
.coalesce(1)
wie folgt;cp <old filepath> <new filepath>
(oderhdfs dfs -cp <old filepath> <new filepath>
wenn die Datei noch in hdfs) kopieren Sie die Datei auf Ihren aktuellen Standort, aber mit dem neuen NamenObige Lösung Exporte als csv-mehrere Partitionen. Ich habe eine andere Lösung gefunden, indem zero323 auf dieser stackoverflow-Seite, dass die Exporte einen dataframe in eine einzige CSV-Datei, wenn Sie mit
coalesce
.Dies würde erstellen Sie ein Verzeichnis namens
mydata
wo finden Sie einecsv
- Datei, die die Ergebnisse enthält.