konvertieren pandas dataframes zu entfachen, dataframe im zeppelin

Ich bin der neue zeppelin. Ich habe einen Anwendungsfall, worin ich ein pandas dataframe.Ich brauche zu visualisieren, die Sammlungen mit in-built-Diagramm von zeppelin, die ich nicht haben eine klare Vorgehensweise hier. MEIN Verständnis ist, mit zeppelin können wir visualisieren die Daten, wenn Sie eine RDD-format. So, ich wollte zu konvertieren pandas dataframe in spark dataframe, und führen Sie einige Abfragen (mit sql), ich werde zu visualisieren.
So starten Sie mit, ich habe versucht, zu konvertieren pandas dataframe zu spark ' s, aber ich konnte

%pyspark
import pandas as pd
from pyspark.sql import SQLContext
print sc
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print type(df)
print df
sqlCtx = SQLContext(sc)
sqlCtx.createDataFrame(df).show()

Und ich bekam die folgende Fehlermeldung

Traceback (most recent call last): File "/tmp/zeppelin_pyspark.py", 
line 162, in <module> eval(compiledCode) File "<string>", 
line 8, in <module> File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 406, in createDataFrame rdd, schema = self._createFromLocal(data, schema) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 322, in _createFromLocal struct = self._inferSchemaFromList(data) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 211, in _inferSchemaFromList schema = _infer_schema(first) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/types.py", 
line 829, in _infer_schema raise TypeError("Can not infer schema for type: %s" % type(row)) 
TypeError: Can not infer schema for type: <type 'str'>

Kann mir bitte jemand helfen hier? Auch, korrigiert mich wenn ich falsch bin überall.

InformationsquelleAutor der Frage Bala | 2015-10-06

Folgende Werke für mich mit Zeppelin 0.6.0, Spark 1.6.2 und Python 3.5.2:

%pyspark
import pandas as pd
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
z.show(sqlContext.createDataFrame(df))

rendert als:

konvertieren pandas dataframes zu entfachen, dataframe im zeppelin

InformationsquelleAutor der Antwort eddies

Ich habe gerade kopiert und eingefügt, den code in eine notebook und es funktioniert.

%pyspark
import pandas as pd
from pyspark.sql import SQLContext
print sc
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print type(df)
print df
sqlCtx = SQLContext(sc)
sqlCtx.createDataFrame(df).show()

<pyspark.context.SparkContext object at 0x10b0a2b10>
<class 'pandas.core.frame.DataFrame'>
     k  v
0  foo  1
1  bar  2
+---+-+
|  k|v|
+---+-+
|foo|1|
|bar|2|
+---+-+

Ich bin mit dieser version:
zeppelin-0.5.0-bebrüten-bin-spark-1.4.0_hadoop-2.3.tgz

InformationsquelleAutor der Antwort leleplx

Versuchen Sie, die SPARK_HOME und PYTHONPATH Variablen in der bash und dann erneut ausführen es

    export SPARK_HOME=path to spark
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
    export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH

InformationsquelleAutor der Antwort Jay Feng

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.