Hinzufügen von Jar zu eigenständigen pyspark

Starte ich eine pyspark Programm:

$ export SPARK_HOME=
$ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip
$ python

Und dem py-code:

from pyspark import SparkContext, SparkConf

SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)

Wie füge ich jar-Abhängigkeiten, wie etwa die Databricks csv-jar? Über die Befehlszeile kann ich hinzufügen das Paket wie dieses:

$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0 

Aber ich bin nicht mit jedem dieser. Das Programm ist Teil eines größeren workflow, der nicht mit Funken-submit ich sollte in der Lage sein, um mein ./foo.py Programm und es sollte einfach funktionieren.

  • Ich weiß, können Sie die spark-Eigenschaften für extraClassPath aber Sie müssen kopieren von JAR-Dateien zu jedem Knoten?
  • Versucht conf.- Satz("der Funke.Gläser", "jar1,jar2"), dass hat nicht funktioniert, auch mit einem py4j CNF Ausnahme
InformationsquelleAutor Nora Olsen | 2016-03-03
Schreibe einen Kommentar