Gewusst wie: laden-Verzeichnis von JSON-Dateien in Apache Spark Python

Ich bin relativ neu in Apache Spark, und ich möchte erstellen Sie eine einzelne RDD in Python aus Listen von Wörterbüchern gespeichert sind, in mehrere JSON-Dateien (jede ist gzipped und enthält eine Liste von Wörterbüchern). Die daraus resultierende RDD würde dann, grob gesagt, enthalten alle Listen von Wörterbüchern kombiniert in einer einzigen Liste der Wörterbücher. Ich habe nicht in der Lage zu finden diese in der Dokumentation (https://spark.apache.org/docs/1.2.0/api/python/pyspark.html), aber wenn ich es verpasst, bitte lassen Sie mich wissen.

So weit ich habe versucht, das Lesen der JSON-Dateien und die Erstellung der kombinierten Liste in Python, dann mit sc.parallelisieren(), jedoch wird der komplette Datensatz ist zu groß, um im Speicher, so ist dies nicht eine praktische Lösung. Wie es scheint, Spark wäre eine intelligente Art und Weise des Umgangs mit diesen use-case, aber ich bin mir nicht bewusst es.

Wie kann ich eine einzelne RDD in Python, bestehend aus den Listen in allen JSON-Dateien?

Sollte ich auch erwähnen, dass ich nicht wollen, verwenden Sie Spark SQL. Ich möchte die Funktionen wie map, filter, etc., wenn das möglich ist.

InformationsquelleAutor Brandt | 2015-01-28
Schreibe einen Kommentar