Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate
Ich versuche, mit Spark SQL zu schreiben parquet
Datei.
Standardmäßig Spark SQL unterstützt gzip
, aber es unterstützt auch andere Kompressions-Formate wie snappy
und lzo
.
Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für die Arbeit mit Hive
laden.
Es scheint, dass standardmäßig Spark wird "bissig" und nicht "gzip". Zumindest ist das, was ich sehe, auf s3: Dateien angelegt, die mit der Zeichenfolge "bissig" als Teil Ihrer Namen.
die neueren Versionen von spark geändert, die default-format zu bissig, bis 1.6.1 kann ich den Standard-Parkett-Kompressionsformat ist gzip.
die neueren Versionen von spark geändert, die default-format zu bissig, bis 1.6.1 kann ich den Standard-Parkett-Kompressionsformat ist gzip.
InformationsquelleAutor Shankar | 2016-03-04
Du musst angemeldet sein, um einen Kommentar abzugeben.
Probieren Sie Sie einfach auf Ihre Daten.
lzo und bissig sind schnell Kompressoren und sehr schnell Dekomprimierprogramme, aber mit weniger Kompression, als im Vergleich zu gzip komprimiert besser, aber ist ein wenig langsamer.
InformationsquelleAutor Mark Adler
Verwenden Bissig, wenn Sie mit höheren datenträgerauslastung für die performance-Vorteile (geringere CPU + Teilbare).
Wenn die Funke aus geschaltet GZIP zu Bissig standardmäßig, dies war die Argumentation:
Bissig:
GZIP:
1) http://boristyukin.com/is-snappy-compressed-parquet-file-splittable/
InformationsquelleAutor Garren S