Wie zu Lesen, mehrere Gzip-Dateien aus dem S3 in einer einzigen RDD?

Ich habe viele Gzip-Dateien auf S3, die-organisiert von der Projekt-und Stunden pro Tag, das Muster der Pfade der Dateien ist wie:

s3://<bucket>/project1/20141201/logtype1/logtype1.0000.gz
s3://<bucket>/project1/20141201/logtype1/logtype1.0100.gz
....
s3://<bucket>/project1/20141201/logtype1/logtype1.2300.gz

Da die Daten analysiert werden, auf einer täglichen basis, ich habe den download und entpacken Sie die Datei gehört zu einem bestimmten Tag, dann montieren Sie den Inhalt als eine einzige RDD.

Sollte es mehrere Möglichkeiten, können Sie dies tun, aber ich würde gerne wissen, der beste Praxis-für die Funke.

Vielen Dank im Voraus.

InformationsquelleAutor shihpeng | 2014-12-15
Schreibe einen Kommentar