Wie dem Namen der Datei, wenn saveAsTextFile in der Funke?
Beim speichern als Textdatei in spark version 1.5.1, die ich benutze: rdd.saveAsTextFile('<drectory>')
.
Aber wenn ich will, zu finden ist die Datei in diesem Verzeichnis, wie kann ich es nennen, was ich will?
Derzeit, ich denke, es ist benannt part-00000
müssen einige Standard. Wie kann ich ihm einen Namen geben?
Dies ist die Dokumentation, die ich gefunden habe: spark.apache.org/docs/1.1.1/api/python/... Können Sie vorschlagen, eine andere Quelle?
Welche version von spark verwenden Sie?
siehe aktualisierte Frage
Sie Lesen veralteten Dokumentation, jedoch ist die neueste doc kann hier gefunden werden Spark-1.5.2 s saveAsTextFile Anmerkung: Es gibt keinen Unterschied in diesem Bereich zwischen den Versionen 1.5.1 und 1.5.2.
Welche version von spark verwenden Sie?
siehe aktualisierte Frage
Sie Lesen veralteten Dokumentation, jedoch ist die neueste doc kann hier gefunden werden Spark-1.5.2 s saveAsTextFile Anmerkung: Es gibt keinen Unterschied in diesem Bereich zwischen den Versionen 1.5.1 und 1.5.2.
InformationsquelleAutor Hunle | 2015-11-11
Du musst angemeldet sein, um einen Kommentar abzugeben.
Als ich sagte in meinem Kommentar oben, die Dokumentation mit Beispielen gefunden werden können hier. Und unter Angabe der Beschreibung der Methode
saveAsTextFile
:Im folgenden Beispiel sichere ich eine einfache RDD in eine Datei, dann lade ich es und drucken Sie dessen Inhalt.
Wird die Ausgabe
Werfen wir einen Blick mit einem Unix-basierten terminal.
InformationsquelleAutor Alberto Bonsanto
Die richtige Antwort auf diese Frage ist, dass
saveAsTextFile
ermöglicht es Ihnen nicht um den Namen der aktuellen Datei.Der Grund dafür ist, dass die Daten partitioniert und in einem Pfad als parameter angegeben, um den Anruf zu
saveAsTextFile(...)
es behandeln, wie ein Verzeichnis, und schreiben Sie dann eine Datei pro partition.Können Sie anrufen
rdd.coalesce(1).saveAsTextFile('/some/path/somewhere')
und es wird/some/path/somewhere/part-0000.txt
.Wenn Sie mehr Kontrolle benötigen, als dies, Sie brauchen, um eine tatsächliche Datei auf Ihr Ende, nachdem Sie die
rdd.collect()
.Hinweis, diese ziehen Sie alle Daten in einen Testamentsvollstrecker, so dass Sie möglicherweise ausführen in den Speicher Probleme. Das ist das Risiko nehmen Sie.
InformationsquelleAutor nod
Es ist nicht möglich, benennen Sie die Datei als @kräftig gesagt. Es ist jedoch möglich, die Datei umzubenennen, rechts danach. Ein Beispiel für die Verwendung PySpark:
InformationsquelleAutor Juan Riaza