Wie kann ich merge spark-Ergebnis-Dateien ohne neu partitionieren und copyMerge?

Verwende ich folgenden code:

csv.saveAsTextFile(pathToResults, classOf[GzipCodec])

pathToResults Verzeichnis viele Dateien hat, wie Teil-0000, Teil-0001 usw.
Die ich verwenden kann, FileUtil.copyMerge(), aber es ist wirklich langsam ist, ist es alle Dateien herunterladen, auf Fahrer-Programm und dann laden Sie Sie in hadoop. Aber FileUtil.copyMerge() schneller als:

csv.repartition(1).saveAsTextFile(pathToResults, classOf[GzipCodec])

Wie kann ich merge spark-Ergebnis-Dateien ohne neu partitionieren und FileUtil.copyMerge()?

InformationsquelleAutor Leonard | 2015-03-13
Schreibe einen Kommentar