Hinzufügen von Jar zu eigenständigen pyspark

Starte ich eine pyspark Programm:

$ export SPARK_HOME=
$ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip
$ python

Und dem py-code:

from pyspark import SparkContext, SparkConf

SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)

Wie füge ich jar-Abhängigkeiten, wie etwa die Databricks csv-jar? Über die Befehlszeile kann ich hinzufügen das Paket wie dieses:

$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0

Aber ich bin nicht mit jedem dieser. Das Programm ist Teil eines größeren workflow, der nicht mit Funken-submit ich sollte in der Lage sein, um mein ./foo.py Programm und es sollte einfach funktionieren.

Ich weiß, können Sie die spark-Eigenschaften für extraClassPath aber Sie müssen kopieren von JAR-Dateien zu jedem Knoten?
Versucht conf.- Satz("der Funke.Gläser", "jar1,jar2"), dass hat nicht funktioniert, auch mit einem py4j CNF Ausnahme

InformationsquelleAutor Nora Olsen | 2016-03-03

19

Gibt es viele Ansätze hier (Einstellung ENV vars hinzufügen $SPARK_HOME/conf/Funke-defaults.conf, etc...) einige der Antworten, die bereits heute decken diese. Ich wollte noch hinzufügen eines zusätzliche Antwort für diejenigen, die speziell mit Jupyter Notebooks und die Erstellung des Spark-Sitzung innerhalb des Notebooks. Hier ist die Lösung, die funktionierte für mich am besten (in meinem Fall wollte ich die Kafka-Paket geladen):
```
spark = SparkSession.builder.appName('my_awesome')\
    .config('spark.jars.packages', 'org.apache.spark:spark-sql-kafka-0-10_2.11:2.2.0')\
    .getOrCreate()
```
Mithilfe dieser code-Zeile habe ich nicht brauchen, um etwas anderes zu tun (keine ENVs oder conf-Datei geändert).
- Diese option scheint oft ignoriert/nicht dokumentierte woanders... wie gesagt, das ist eine gute Lösung für jupyter Benutzer.
- für Gläser, verwenden Sie " Funke.Gläser'
- Diese Antwort ist perfekt für alle, die starten ein Funke Umgebung von code im Allgemeinen und Bedürfnisse, ziehen Sie eine jar während der Laufzeit. Ich bin erfolgreich mit diesem laden ein GraphFrames-Glas auf einige sehr beschränkter Zugang zu den Systemen, die keine Möglichkeit zum erstellen einer benutzerdefinierten SparkConf-Datei. Danke für das klare Beispiel!
- Aber wussten Sie müssen downloaden und legen Sie eine jar-Datei irgendwo??? Ich habe eine jar -tvf fileName.jar | grep -i kafka für jedes Glas in die Funke .../jars/ Verzeichnis, und nichts gefunden für kafka. Wo war Ihre Lage? Ich bin nicht unbedingt daran interessiert, kafka-pro-se; ich bin nur nach deinem Beispiel versuchen zu verallgemeinern.
InformationsquelleAutor Briford Wylie
11

Alle Abhängigkeiten übergeben werden können, mit spark.Gläser.packages (Einstellung spark.Gläser sollte auch funktionieren) - Eigenschaft in der $SPARK_HOME/conf/spark-defaults.conf. Es sollte eine kommagetrennte Liste von Koordinaten.

Und Pakete oder classpath Eigenschaften müssen festgelegt werden, bevor die JVM gestartet wird, und dies geschieht während der SparkConf Initialisierung. Es bedeutet, dass SparkConf.set Methode hier nicht verwendet werden können.

Alternativer Ansatz ist, um PYSPARK_SUBMIT_ARGS Umgebungsvariable vor SparkConf - Objekt initialisiert wird:
```
import os
from pyspark import SparkConf

SUBMIT_ARGS = "--packages com.databricks:spark-csv_2.11:1.2.0 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

conf = SparkConf()
sc = SparkContext(conf=conf)
```
- Diese Lösung scheint nicht zu funktionieren für mich, zumindest in der notebook -; ich bekomme immer noch Klasse-nicht-gefunden-Fehler. In der Tat, keiner von den Umgebungsvariablen, die ich scheine zu bekommen, nahm von der Funke. Es scheint, wie os.environ setzt die Umgebung nur für den Prozess, in dem die python-kernel, aber alle Teilprozesse nicht Holen, diese environment-Variablen. In anderen Worten, es nicht zu tun, das äquivalent von export .... Irgendwelche Gedanken?
- subprocess.Popen nimmt env argument, wo Sie übergeben eine Kopie der aktuellen Umgebung.
InformationsquelleAutor zero323
3

Stieß ich auf ein ähnliches Problem bei einem anderen jar ("MongoDB Connector für Spark", mongo-spark-connector), aber der große Nachteil war, dass ich installiert Spark über pyspark im conda (conda install pyspark). Deshalb alle Unterstützung für Spark-spezifische Antworten waren nicht gerade hilfreich. Für diejenigen von Ihnen, die Installation mit conda hier ist der Prozess, den ich zusammen gebastelt:

1) Finden, wo Sie Ihre pyspark/jars befinden. Mir wurden in diesem Pfad: ~/anaconda2/pkgs/pyspark-2.3.0-py27_0/lib/python2.7/site-packages/pyspark/jars.

2) Download die jar Datei in den Pfad der in Schritt 1 gefunden, von diese Lage.

3) Nun sollten Sie in der Lage zu laufen, so etwas wie dieses (code entnommen MongoDB offizielle tutorial, mit Briford Wylie ' s Antwort oben):
```
from pyspark.sql import SparkSession

my_spark = SparkSession \
    .builder \
    .appName("myApp") \
    .config("spark.mongodb.input.uri", "mongodb://127.0.0.1:27017/spark.test_pyspark_mbd_conn") \
    .config("spark.mongodb.output.uri", "mongodb://127.0.0.1:27017/spark.test_pyspark_mbd_conn") \
    .config('spark.jars.packages', 'org.mongodb.spark:mongo-spark-connector_2.11:2.2.2') \
    .getOrCreate()
```
Haftungsausschluss:

1) ich weiß nicht, ob diese Antwort ist der richtige Ort,/SO Frage dies; bitte geben Sie eine besseren Ort und ich werde es verschieben.

2) Wenn Sie denken, ich habe fehlerhaft oder haben die Verbesserung der Verfahren oben, bitte Kommentar, und ich werde überarbeiten.

InformationsquelleAutor ximiki
2

Endlich die Antwort gefunden, nach mehreren versuchen. Die Antwort ist spezifisch für die Verwendung von spark-csv-Glas. Erstellen Sie einen Ordner, in den Sie die Festplatte sagen D:\Spark\spark_jars. Legen Sie die folgenden jar-Dateien, die es gibt:
1. spark-csv_2.10-1.4.0.jar (dies ist die version, die ich benutze)
2. commons-csv-1.1.jar
3. univocity-parsers-1.5.1.jar
2 und 3 sind die Abhängigkeiten erforderlich, die durch Funken -, csv -, also diese beiden Dateien, die heruntergeladen werden müssen auch. Gehen Sie zu Ihrem conf-Verzeichnis, in dem Sie heruntergeladen haben, zu Funken. In der Funke-defaults.conf Datei fügen Sie die Zeile:

Funken.- Treiber.extraClassPath D:/Spark/spark_jars/*

Die Sternchen sollten alle die Gläser. Jetzt führen Sie Python erstellen SparkContext SQLContext, wie Sie normalerweise würden. Jetzt sollten Sie in der Lage sein zu verwenden spark-csv-als
```
sqlContext.read.format('com.databricks.spark.csv').\
options(header='true', inferschema='true').\
load('foobar.csv')
```
InformationsquelleAutor Indrajit

import os
import sys
spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, spark_home + "/python")
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.10.4-src.zip'))

Hier kommt es....

sys.path.insert(0, <PATH TO YOUR JAR>)

Dann...

import pyspark
import numpy as np

from pyspark import SparkContext

sc = SparkContext("local[1]")
.
.
.

Scheint nicht zu funktionieren.

InformationsquelleAutor Thierry Barnier

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.