So konvertieren Sie eine Fall-Klasse-basierten RDD in ein DataFrame?

Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:

//sc is the SparkContext, while sqlContext is the SQLContext.

//Define the case class and raw data
case class Dog(name: String)
val data = Array(
    Dog("Rex"),
    Dog("Fido")
)

//Create an RDD from the raw data
val dogRDD = sc.parallelize(data)

//Print the RDD for debugging (this works, shows 2 dogs)
dogRDD.collect().foreach(println)

//Create a DataFrame from the RDD
val dogDF = sqlContext.createDataFrame(dogRDD, classOf[Dog])

//Print the DataFrame for debugging (this fails, shows 0 dogs)
dogDF.show()

Den Ausgang bin ich zu sehen ist:

Dog(Rex)
Dog(Fido)
++
||
++
||
||
++

Was bin ich?

Dank!

InformationsquelleAutor sparkour | 2016-05-03

16

Alles, was Sie brauchen, ist nur
```
val dogDF = sqlContext.createDataFrame(dogRDD)
```
Zweite parameter ist Teil der Java-API und erwartet, dass Sie Klasse folgt java beans Konvention (Getter/setter). Ihr Fall Klasse, dieser Konvention nicht folgt, ist also keine Eigenschaft erkannt wird, führt das zu leere DataFrame mit keine Spalten.
- Dieser arbeitete. Ich hatte auch zum verschieben der definition der Fall-Klasse außerhalb meiner main-Funktion zu vermeiden error: No TypeTag available for Dog. Danke!
- Ich sehe, sehr interessant, also der zweite parameter ist immer nur erforderlich, wenn der Aufruf aus der Java-API, scala wird nur automatisch erkennen, die Felder des Typs konvertiert werden sollen zu Spalten?
- Es funktionierte nur, wenn case class nach außerhalb der main. @Vitalii , @ sparkour .. gibt es eine Erklärung dafür, warum case class verschoben werden müssen, außerhalb der main.
- Ich bin immer abstract ist ein reserviertes Schlüsselwort und kann nicht verwendet werden, die als Feld-Namen wie mein Fall Klasse abstract als Feld-Namen. Abhilfe für dieses.
InformationsquelleAutor Vitalii Kotliarenko
6

Können Sie erstellen eine DataFrame direkt von einem Seq von Fall Klasse Instanzen, die mit toDF wie folgt:
```
val dogDf = Seq(Dog("Rex"), Dog("Fido")).toDF
```
InformationsquelleAutor David Griffin
0

Fall Class-Ansatz wird nicht Funktionieren, in den cluster-Modus. Es gebe ClassNotFoundException zu Fall Klasse, die Sie definiert.

Konvertieren es eine RDD[Row] und definieren das schema Ihrer RDD mit StructField und dann createDataFrame wie
```
val rdd = data.map { attrs => Row(attrs(0),attrs(1)) }  

val rddStruct = new StructType(Array(StructField("id", StringType, nullable = true),StructField("pos", StringType, nullable = true)))

sqlContext.createDataFrame(rdd,rddStruct)
```
toDF() wird nicht funktionieren, entweder
- alle Erklärungen , warum es nicht funktionieren im cluster-Modus?
InformationsquelleAutor Kamaldeep Singh

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.