konvertieren pandas dataframes zu entfachen, dataframe im zeppelin
Ich bin der neue zeppelin. Ich habe einen Anwendungsfall, worin ich ein pandas dataframe.Ich brauche zu visualisieren, die Sammlungen mit in-built-Diagramm von zeppelin, die ich nicht haben eine klare Vorgehensweise hier. MEIN Verständnis ist, mit zeppelin können wir visualisieren die Daten, wenn Sie eine RDD-format. So, ich wollte zu konvertieren pandas dataframe in spark dataframe, und führen Sie einige Abfragen (mit sql), ich werde zu visualisieren.
So starten Sie mit, ich habe versucht, zu konvertieren pandas dataframe zu spark ' s, aber ich konnte
%pyspark
import pandas as pd
from pyspark.sql import SQLContext
print sc
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print type(df)
print df
sqlCtx = SQLContext(sc)
sqlCtx.createDataFrame(df).show()
Und ich bekam die folgende Fehlermeldung
Traceback (most recent call last): File "/tmp/zeppelin_pyspark.py",
line 162, in <module> eval(compiledCode) File "<string>",
line 8, in <module> File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py",
line 406, in createDataFrame rdd, schema = self._createFromLocal(data, schema) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py",
line 322, in _createFromLocal struct = self._inferSchemaFromList(data) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py",
line 211, in _inferSchemaFromList schema = _infer_schema(first) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/types.py",
line 829, in _infer_schema raise TypeError("Can not infer schema for type: %s" % type(row))
TypeError: Can not infer schema for type: <type 'str'>
Kann mir bitte jemand helfen hier? Auch, korrigiert mich wenn ich falsch bin überall.
InformationsquelleAutor der Frage Bala | 2015-10-06
Du musst angemeldet sein, um einen Kommentar abzugeben.
Folgende Werke für mich mit Zeppelin 0.6.0, Spark 1.6.2 und Python 3.5.2:
rendert als:
InformationsquelleAutor der Antwort eddies
Ich habe gerade kopiert und eingefügt, den code in eine notebook und es funktioniert.
Ich bin mit dieser version:
zeppelin-0.5.0-bebrüten-bin-spark-1.4.0_hadoop-2.3.tgz
InformationsquelleAutor der Antwort leleplx
Versuchen Sie, die SPARK_HOME und PYTHONPATH Variablen in der bash und dann erneut ausführen es
InformationsquelleAutor der Antwort Jay Feng