Erstellen pyspark kernel für Jupyter
Ich war auf der Suche auf Apache Toree zu verwenden, wie Pyspark kernel für Jupyter
https://github.com/apache/incubator-toree
Allerdings war es mit älteren version von Spark (1.5.1 vs aktuelle 1.6.0). Ich habe versucht, diese Methode hier http://arnesund.com/2015/09/21/spark-cluster-on-openstack-with-multi-user-jupyter-notebook/ durch die Schaffung kernel.js
{
"display_name": "PySpark",
"language": "python",
"argv": [
"/usr/bin/python",
"-m",
"ipykernel",
"-f",
"{connection_file}"
],
"env": {
"SPARK_HOME": "/usr/local/Cellar/apache-spark/1.6.0/libexec",
"PYTHONPATH": "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/:/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/py4j-0.9-src.zip",
"PYTHONSTARTUP": "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master local[*] pyspark-shell"
}
}
Allerdings bekam ich einige Probleme:
-
Gibt es keine
/jupyter/kernels
Pfad in meinem Mac. Also ich landete diesem Weg~/.jupyter/kernels/pyspark
. Ich bin nicht sicher, ob das ist der richtige Weg. -
Selbst nachdem Sie alle Pfade korrekt, ich verstehe immer noch nicht
PySpark
zeigt sich als kernel-innen Jupyter.
Hab ich was verpasst?
- Lesen Sie in diesem Jupyter für Pyspark
Du musst angemeldet sein, um einen Kommentar abzugeben.
Jupyter Kernel sollte gehen in $JUPYTER_DATA_DIR. Auf OSX, das ist ~/Library/Jupyter. Siehe: http://jupyter.readthedocs.org/en/latest/system.html
404
link, auch, möglicherweise out-of-date Informationen. Derzeit finden Sie in jupyter.readthedocs.io/de/latest/Projekte/... , was darauf hindeutet, könnte es nun sein$JUPYTER_PATH
, obwohl die oben genannten "data dir" env var kann noch eingehalten werden. Nach Abfrage, wo das Verzeichnis auf Ihrem system ausführenjupyter --data-dir
starten jupyter notebook mit python-kernel und führen Sie dann die folgenden Befehle zum initialisieren pyspark innerhalb Jupyter.
FYI: habe versucht, die meisten configs zu starten Apache Toree mit pyspark kernel in Jupyter ohne Erfolg,
export SPARK_HOME=/usr/lib/spark
findspark
🙂