Einfachste Möglichkeit zur Installation von Python-Abhängigkeiten auf Spark Testamentsvollstrecker Knoten?

Ich verstehe, dass Sie können senden Sie einzelne Dateien als Abhängigkeiten mit Spark Python-Programme. Aber was ist mit vollwertigen Bibliotheken (z.B. numpy)?

Tut Funke eine Möglichkeit haben, verwenden Sie eine bereitgestellte Paket-manager (z.B. pip) zum installieren von library-Abhängigkeiten? Oder muss das manuell gemacht werden, bevor Spark-Programme ausgeführt werden?

Wenn die Antwort-Handbuch, welches sind dann die "best practice" - Ansätze für die Synchronisierung von Bibliotheken (installation, Pfad, version, etc.) über eine große Anzahl verteilter Knoten?

Es ist frustrierend schwer zu finden, eine Antwort auf diese Frage, aber schließlich fand ich diese beantwortet SO die Frage, die deckt, denke ich: stackoverflow.com/questions/24686474/...
Möglich, Duplikat der Versand python-Module, die in pyspark zu anderen Knoten?

InformationsquelleAutor trianta2 | 2015-04-07

20

Eigentlich haben wirklich versucht, ich denke der link, den ich gepostet als Kommentar nicht genau das tun, was Sie wollen mit Abhängigkeiten. Was Sie ganz vernünftig gefragt für einen Weg zu haben, der Funke spielen schön mit setuptools und pip hinsichtlich der Abhängigkeiten zu installieren. Es weht meinem Kopf, dass dies nicht unterstützt, bessere Zündkerzen. Die third-party-dependency problem ist weitgehend gelöst, in den Allgemeinen Python, aber unter Spark, scheint es die Annahme ist, gehen Sie zurück, um die manuelle dependency management oder so etwas.

Habe ich mit einer unvollständigen, aber funktional-pipeline auf virtualenv. Die grundlegende Idee ist
1. Erstellen Sie eine virtualenv rein für Ihren Spark-Knoten
2. Jedes mal, wenn Sie einen Funken job, führen Sie eine frische pip install alle Ihre eigenen in-house Python-Bibliotheken. Wenn Sie diese einrichten, mit setuptools diese installieren Ihre Abhängigkeiten
3. Reißverschluss des site-packages-dir des virtualenv. Dazu gehören die Bibliothek und die Abhängigkeiten, die den worker-Knoten benötigen, aber nicht die standard-Python-Bibliothek, die Sie bereits haben
4. Pass die einzige .zip - Datei, mit Ihren Bibliotheken und deren Abhängigkeiten als argument zu --py-files
Natürlich würden Sie wollen, um code bis einige Hilfs-Skripte, diesen Prozess zu managen. Hier ist ein Helfer-Skript angepasst, von einem habe ich, die könnte sicherlich noch einiges verbessert:
```
#!/usr/bin/env bash
# helper script to fulfil Spark's python packaging requirements.
# Installs everything in a designated virtualenv, then zips up the virtualenv for using as an the value of
# supplied to --py-files argument of `pyspark` or `spark-submit`
# First argument should be the top-level virtualenv
# Second argument is the zipfile which will be created, and
#   which you can subsequently supply as the --py-files argument to 
#   spark-submit
# Subsequent arguments are all the private packages you wish to install
# If these are set up with setuptools, their dependencies will be installed

VENV=$1; shift
ZIPFILE=$1; shift
PACKAGES=$*

. $VENV/bin/activate
for pkg in $PACKAGES; do
  pip install --upgrade $pkg
done
TMPZIP="$TMPDIR/$RANDOM.zip" # abs path. Use random number to avoid clashes with other processes
( cd "$VENV/lib/python2.7/site-packages" && zip -q -r $TMPZIP . )
mv $TMPZIP $ZIPFILE
```
Habe ich eine Sammlung von einfachen wrapper-Skripte, die ich ausführen, um meine Funke Arbeitsplätze. Ich einfach dieses Skript aufrufen, zunächst als Teil des Prozesses, und stellen Sie sicher, dass das zweite argument (der name der zip-Datei) ist dann bestanden, wie --py-Dateien-argument, wenn ich laufen spark-submit (wie dokumentiert in den Kommentaren). Ich habe immer diese Skripts ausführen, so dass ich nie am Ende versehentlich die alte code. Im Vergleich zu den Spark-overhead, der Verpackungs-overhead ist minimal, für meinen kleinen Maßstab Projekt.

Gibt es viele Verbesserungen, die gemacht werden können – z.B. smart über, wenn zum erstellen einer neuen zip-Datei, splitten Sie in zwei zip-Dateien, die man mit Häufig wechselnden privaten Paketen, und eine, die nur selten ändern von Abhängigkeiten, die müssen nicht neu erstellt werden, so oft. Sie könnte schlauer sein, etwa die überprüfung für die Datei-änderungen vor dem Umbau der zip. Auch die überprüfung der Gültigkeit von Argumenten wäre eine gute Idee. Aber für jetzt, das genügt für meine Zwecke.

Die Lösung, die ich habe kommen mit ist nicht konzipiert für große-scale-Abhängigkeiten wie NumPy spezifisch (obwohl es möglicherweise nicht für Sie arbeiten). Auch funktioniert es nicht, wenn Sie sind, building C-basierte Erweiterungen, und Ihr Fahrer-Knoten hat eine andere Architektur, um den cluster-Knoten.

Habe ich gesehen, Empfehlungen an anderer Stelle führen Sie einfach eine Python-distribution wie Anaconda auf allen Knoten, da er bereits NumPy (und viele andere Pakete), und das könnte der bessere Weg, um NumPy sowie andere C-basierten Erweiterungen gehen. Egal, wir können nicht immer erwarten, dass Anaconda haben die PyPI-Paket wollen wir in der richtigen version, und außerdem sind Sie möglicherweise nicht in der Lage, Steuern Sie Ihre Spark-Umgebung in der Lage, die Anaconda, so dass ich denke, das virtualenv-basierte Ansatz ist immer noch hilfreich.
- eine API in der Funke Zusammenhang wie diesem: sc.addDependencies('numpy') ist ein muss
- sc.addPyFile(<.py oder .zip-Pfad>) funktioniert jetzt
- das ist nicht das gleiche wie die Bereitstellung Ihrer pip-Abhängigkeit, als guilhermecgs gefragt.
- sicher, es ist nur eine einfache schnelle Lösung, wenn Sie brauchen, um die Verwendung von externen Abhängigkeiten sofort
- Ist das noch der einfachste Weg zu gehen über diese? Dies ist immer noch lächerlich verworren und imo macht mich nicht wollen, verwenden Sie spark...
InformationsquelleAutor Andy MacKinlay

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.