Ist gzip-format unterstützt in der Funke?
Für eine Big-Data-Projekt, ich bin der Planung bis zur Nutzung spark, die hat einige nette features, wie in-memory-Berechnungen für die wiederholte workloads. Es kann auf lokale Dateien oder auf dem HDFS.
Jedoch in der offiziellen Dokumentation kann ich nicht finden, irgendeinen Hinweis, wie zu Verfahren Gzip-Dateien. In der Praxis kann es sehr effizient zu verarbeiten .gz-Dateien anstelle der entpackten Dateien.
Gibt es eine Möglichkeit manuell zu implementieren, die das Lesen von Gzip-Dateien oder dem entpacken schon automatisch beim Lesen ein .gz-Datei?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Aus der Spark-Scala Programming guide s Abschnitt "Hadoop-Datasets":
Unterstützung für gzip-input-Dateien sollte das gleiche wie in Hadoop. Zum Beispiel
sc.textFile("myFile.gz")
sollten sich automatisch entpacken und Lesen Sie die gzip-komprimierte Dateien (textFile()
ist eigentlich umgesetzt Verwendung von Hadoop istTextInputFormat
unterstützt gzip-komprimierte Dateien).Wie erwähnt von @nick-chammas in die Kommentare:
logs = sc.textFile("logs/*.bz2")
bekomme ich einen Fehler bei nachfolgendenlogs.count()
. Irgendwelche Ideen, warum?.gz
Dateiendung für komprimierte Dateien. Ich hatte eine komprimierte Datei, die gelesen wird, auch mitsc.textFile()
gibt aber byte-strings, wenn ich Durcheinander herum mit der Erweiterung sosomefile.gz.bkp