Erstellen Funke DataFrame. Lässt sich nicht entnehmen schema für Typ: <type 'float'>

Könnte mir jemand helfen dieses problem zu lösen, habe ich mit Spark DataFrame?

Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung:

TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float'

Ich verstehe nicht, warum...

Beispiel:

myFloatRdd = sc.parallelize([1.0,2.0,3.0])
df = myFloatRdd.toDF()

Dank

InformationsquelleAutor Breach | 2015-09-23

79

SparkSession.createDataFrame, die verwendet wird, unter der Haube, benötigt ein RDD /list von Row/tuple/list/~~dict~~* oder pandas.DataFrame, es sei denn, schema mit DataType zur Verfügung. Versuchen, zu konvertieren von float-zu-Tupel wie diese:
```
myFloatRdd.map(lambda x: (x, )).toDF()
```
oder noch besser:
```
from pyspark.sql import Row

row = Row("val") # Or some other column name
myFloatRdd.map(row).toDF()
```
Erstellen DataFrame aus einer Liste von skalaren, die Sie verwenden müssen SparkSession.createDataFrame direkt und stellen ein schema***:
```
from pyspark.sql.types import FloatType

df = spark.createDataFrame([1.0, 2.0, 3.0], FloatType())

df.show()

## +-----+
## |value|
## +-----+
## |  1.0|
## |  2.0|
## |  3.0|
## +-----+
```
aber für eine einfache Auswahl, es wäre besser, verwenden SparkSession.range:
```
from pyspark.sql.functions import col

spark.range(1, 4).select(col("id").cast("double"))
```
* Nicht mehr unterstützt.

** Spark SQL bietet auch eine eingeschränkte Unterstützung für schema-Ableitung auf Python-Objekte freilegen __dict__.

*** Unterstützung nur für Spark 2.0 oder höher.

Ich bin ein Neuling auf spark. können Sie bitte erklären, wie funktioniert myFloatRdd.map(lambda x: (x, )).toDF() dieses problem zu beheben? Hat die map(lambda x: (x,)) umwandeln, nur die RDD-Objekt in eine Liste von Zeilen?
Es ist Inferenz-mapping für tuples (-> struct), es ist nicht für Skalare.

InformationsquelleAutor zero323

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.