Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate

Ich versuche, mit Spark SQL zu schreiben parquet Datei.

Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo.

Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für die Arbeit mit Hive laden.

Es scheint, dass standardmäßig Spark wird "bissig" und nicht "gzip". Zumindest ist das, was ich sehe, auf s3: Dateien angelegt, die mit der Zeichenfolge "bissig" als Teil Ihrer Namen.
die neueren Versionen von spark geändert, die default-format zu bissig, bis 1.6.1 kann ich den Standard-Parkett-Kompressionsformat ist gzip.

InformationsquelleAutor Shankar | 2016-03-04

Schreibe einen Kommentar