Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate

Ich versuche, mit Spark SQL zu schreiben parquet Datei.

Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo.

Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für die Arbeit mit Hive laden.

Es scheint, dass standardmäßig Spark wird "bissig" und nicht "gzip". Zumindest ist das, was ich sehe, auf s3: Dateien angelegt, die mit der Zeichenfolge "bissig" als Teil Ihrer Namen.
die neueren Versionen von spark geändert, die default-format zu bissig, bis 1.6.1 kann ich den Standard-Parkett-Kompressionsformat ist gzip.

InformationsquelleAutor Shankar | 2016-03-04

14

Probieren Sie Sie einfach auf Ihre Daten.

lzo und bissig sind schnell Kompressoren und sehr schnell Dekomprimierprogramme, aber mit weniger Kompression, als im Vergleich zu gzip komprimiert besser, aber ist ein wenig langsamer.

InformationsquelleAutor Mark Adler
12

Verwenden Bissig, wenn Sie mit höheren datenträgerauslastung für die performance-Vorteile (geringere CPU + Teilbare).

Wenn die Funke aus geschaltet GZIP zu Bissig standardmäßig, dies war die Argumentation:

Basierend auf unseren tests, gzip Dekompression ist sehr langsam (< 100 MB/s),
Abfragen Dekompression gebunden. Bissig Dekomprimieren kann bei ~ 500MB/s
auf einem single-core.

Bissig:
- Speicherplatz: Hohe
- CPU-Auslastung: Gering
- Teilbare: Ja (1)
GZIP:
- Speicherplatz: Medium
- CPU-Auslastung: Mittlere
- Teilbare: Keine
1) http://boristyukin.com/is-snappy-compressed-parquet-file-splittable/

InformationsquelleAutor Garren S

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.