Erzeugen einen Funken StructType / Schema von Fall Klasse

Wenn ich wollte eine StructType (d.h. eine DataFrame.schema) aus einem case class gibt es einen Weg, es zu tun, ohne eine DataFrame? Das kann ich leicht tun:

case class TestCase(id: Long)
val schema = Seq[TestCase]().toDF.schema

Aber es scheint übertrieben, tatsächlich erstellt einen DataFrame wenn alles was ich will ist das schema.

(Wenn Sie neugierig sind, der Grund hinter der Frage ist, dass ich die Definition eines UserDefinedAggregateFunction, und zu tun, so überschreiben Sie ein paar Methoden, die Rückkehr StructTypes und ich use case-Klassen.)

InformationsquelleAutor David Griffin | 2016-04-20

apache-spark apache-spark-sql

68

Können Sie auf dieselbe Art und Weise SQLContext.createDataFrame es macht:
```
import org.apache.spark.sql.catalyst.ScalaReflection
val schema = ScalaReflection.schemaFor[TestCase].dataType.asInstanceOf[StructType]
```
- Danke -- hatte nicht ganz in o.a.s.sql.catalyst noch. Und ich dachte gerade, ich hätte angefangen mit createDataFrame genau wie Sie es Tat. :-(
- Süß, Sie können sogar tun ...schemaFor[(Long,Int,Long)]...
- Keine Sorge - ich fand es nur leicht, weil ich versucht habe etwas ähnliches selbst vor einer Weile 😉 Und ja, die funktionieren würde für alle Product, danke Scala!
- Irgendwie mag ich die toDF version nur für frische, obwohl
- Wissen Sie, wie Sie ein Array vom Typ T mit diesem Ansatz? Ich habe versucht, das einwickeln T in einem anderen Fall Klasse, aber es funktioniert nicht wie erwartet
- Wie Encoders in einer anderen Antwort, alle org.apache.spark.sql.catalyst als experimentell eingestuft (z.B. es ist nicht in der online-Dokumentation): github.com/apache/spark/blob/v2.4.0/sql/catalyst/src/main/scala/...
InformationsquelleAutor Tzach Zohar
59

Ich weiß, diese Frage ist fast ein Jahr alt, aber ich stieß es und dachte, die anderen, die auch wissen möchte, dass ich gerade gelernt haben, um diesen Ansatz verwenden:
```
import org.apache.spark.sql.Encoders
val mySchema = Encoders.product[MyCaseClass].schema
```
- Seien Sie sich bewusst - die Encoders Objekt ist gekennzeichnet durch die @Experimental Anmerkung: "Eine experimentelle user-facing-API. Experimentelle API ' s ändern kann oder entfernt werden in minor-Versionen des Spark, oder angenommen werden als first-class-Spark-API." Entdeckt, dass, in einer Anstrengung, um herauszufinden, vor - /Nachteile der verschiedenen Ansätze (aktuelle Antwort vs akzeptierte Antwort.)
InformationsquelleAutor Kurt
6

den Fall, dass jemand will, dies zu tun für eine benutzerdefinierte Java-bean:
```
ExpressionEncoder.javaBean(Event.class).schema().json()
```
- Es gibt auch Encoders.bean(Event.class).schema() was ich davon ausgehen, das gleiche tut.
- Wenn ich verwenden Sie diese Option, um das schema, ich habe das problem, dass die obige Funktion gibt Daten der Mitglieder in alphabetischer position während meinen Spalten Daten in der Datei nicht. Als es versucht, auf, um statt auf Namen, führt dies zu korrupten Daten. Irgendwelche Ideen auf, wie man dieses Problem lösen?
InformationsquelleAutor Art
2

Statt manuell reproduzieren die Logik für die Erstellung der impliziten Encoder - Objekt übergeben bekommt, um toDF kann man verwenden, die direkt (oder, genauer gesagt, die implizit in der gleichen Weise wie toDF):
```
//spark: SparkSession

import spark.implicits._

implicitly[Encoder[MyCaseClass]].schema
```
Leider tatsächlich leidet unter dem gleichen problem wie mit org.apache.spark.sql.catalyst oder Encoders wie in den anderen Antworten: die Encoder Eigenschaft ist experimentell.

Wie funktioniert das? Die toDF Methode auf Seq stammt aus einer DatasetHolder", der über die implizite localSeqToDatasetHolder, die importiert werden, über spark.implicits._. Die Funktion ist folgendermaßen definiert:
```
implicit def localSeqToDatasetHolder[T](s: Seq[T])(implicit arg0: Encoder[T]): DatasetHolder[T]
```
Wie Sie sehen können, dauert es eine implicit Encoder[T] argument, was für einen case class, kann berechnet werden über newProductEncoder (auch importiert über spark.implicits._). Wir reproduzieren diese implizite Logik, um eine Encoder für unseren Fall Klasse, über die Bequemlichkeit scala.Vordef.implizit (im Lieferumfang standardmäßig, weil es von Predef), der nur gibt die angeforderten implizite argument:
```
def implicitly[T](implicit e: T): T
```
InformationsquelleAutor huon

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.