Lesen Sie einige Parkett-Dateien zur gleichen Zeit Funken
Ich Lesen kann, einige json-Dateien zur gleichen Zeit mit * (Stern):
sqlContext.jsonFile('/path/to/dir/*.json')
Gibt es eine Möglichkeit, das gleiche zu tun, für Parkett? Sterne nicht funktioniert.
InformationsquelleAutor SkyFox | 2015-05-24
Du musst angemeldet sein, um einen Kommentar abzugeben.
Sehen dieses Problem auf der Funke jira. Es wird unterstützt von 1,4 ab.
Ohne Upgrade auf 1.4, könnten Sie entweder auf die top-level-Verzeichnis:
dem laden alle Dateien in dem Verzeichnis. Alternativ können Sie die HDFS-API zu finden, die Dateien, die Sie möchten, und geben Sie Sie in parquetFile (es akzeptiert varargs).
AttributeError: 'SQLContext' object has no attribute 'parquetFile'
InformationsquelleAutor dpeacock
FYI, können Sie auch:
Lesen Teilmenge von Parkett-Dateien verwenden das wildcard-symbol *
sqlContext.read.parquet("/path/to/dir/part_*.gz")
Lesen mehrerer Parkett-Dateien, indem Sie explizit angeben, Sie
sqlContext.read.parquet("/path/to/dir/part_1.gz", "/path/to/dir/part_2.gz")
InformationsquelleAutor Boris
InformationsquelleAutor user6602391
Für das Lesen: Geben Sie den Pfad der Datei und '*'
Beispiel
InformationsquelleAutor Idrees