Wie kann PySpark genannt werden im debug-Modus?

Habe ich IntelliJ IDEA einrichten mit Apache Spark 1.4.

Will ich in der Lage, die debug-Punkte auf meine Spark Python-Skripte, so dass ich Debuggen kann Ihnen leicht.

Ich bin derzeit etwas Python zu initialisieren, die Funke-Prozess

proc = subprocess.Popen([SPARK_SUBMIT_PATH, scriptFile, inputFile], shell=SHELL_OUTPUT, stdout=subprocess.PIPE)

if VERBOSE:
    print proc.stdout.read()
    print proc.stderr.read()

Wenn spark-submit schließlich fordert myFirstSparkScript.py, der debug-Modus ist nicht aktiviert und es wird als normal. Leider Bearbeiten Sie die Apache-Spark-source-code und läuft eine angepasste Kopie ist keine akzeptable Lösung.

Weiß jemand, ob es möglich ist, haben Funke-submit-Aufruf des Apache-Spark-Skript im debug-Modus? Wenn ja, wie?

Debug-Meldungen oft schreibt stderr, aber Sie drucken nur stdout
Aktualisiert code, der aber klar zu sein, das Problem ist nicht die Konsole Inhalt, sondern die Tatsache, dass der debugger nicht binden, um die Pyspark Teilprozess
haben Sie versucht mit IPython Notebook auf Ihren Fahrer und Durchlaufen pyspark Skript Zeile für Zeile? Dies ist in der Regel meine erste Schritt, um sicherzustellen, dass das Skript funktioniert, weil ich finde Spark-Protokollierung zu werden, ziemlich verwirrend. Siehe diese Anleitung: blog.cloudera.com/blog/2014/08/...

InformationsquelleAutor Toby Leheup | 2015-07-06

Schreibe einen Kommentar