Zum ausführen mehrerer jobs in einer Sparkcontext von separaten threads in PySpark?

Es versteht sich von Spark Dokumentation über Scheduling Innerhalb einer Anwendung:

Innerhalb einer bestimmten Funke Anwendung (SparkContext-Instanz), die mehrere parallele jobs können gleichzeitig ausgeführt werden, wenn Sie eingereicht wurden aus separaten threads. Durch "job" in diesem Abschnitt, meinen wir, ein Funke-Aktion (z.B. speichern, sammeln) und alle Aufgaben, die ausgeführt werden müssen, zu bewerten, die Aktion. Spark ' s scheduler ist vollständig thread-safe und die diesen Anwendungsfall unterstützt, damit die Anwendungen, die dazu dienen, mehrere Anfragen (z.B. Abfragen für mehrere Benutzer)."

Konnte ich einige Beispiel-code in Scala und Java.
Kann jemand ein Beispiel geben, wie diese umgesetzt werden können, mit PySpark?

  • Jemals eine Antwort hier? Ich versuche das gleiche zu tun, und denken, es ist eigentlich unmöglich, bis bessere Verriegelung Hinzugefügt SparkContexts.
  • was meinst du ? Dieses Stück doc reden auch nicht über einen spezifischen Spark-API, es nur scheint zu funktionieren für alle. Der eigentliche code, der ausgeführt wird, wenn Sie mithilfe der APIs ist der Scala-code, und einige interface-code für Java und Python.
  • Kannst du den link, wo diese Aussage herkommt?
Schreibe einen Kommentar