Tag: apache-spark-dataset

Spark-Dataset ist eine stark typisierte Auflistung von Objekten zugeordnet, um ein relationales schema. Es unterstützt die ähnliche Optimierungen Funke DataFrames Bereitstellung von Typ-safe-Programmierung Schnittstelle zur gleichen Zeit.

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

1 Antworten

Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

Wie man Schlüssel und Werte aus MapType Spalte in SparkSQL DataFrame

2 Antworten

Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)

apache-spark apache-spark-dataset apache-spark-sql dataframe scala

Data type mismatch, während die Umwandlung von Daten in spark-dataset

1 Antworten

Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

apache-spark apache-spark-dataset apache-spark-sql java parquet

Führen Sie eine typisierte Verknüpfung in Scala mit Funken-Datasets

2 Antworten

Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.

apache-spark apache-spark-dataset apache-spark-sql join scala

Encoder für Zeile Typ Spark-Datasets

2 Antworten

Möchte ich schreiben, ist ein encoder für einen Zeile geben Sie im DataSet, für eine map-operation, die ich mache. Im wesentlichen, ich verstehe nicht, wie man schreiben Encoder. Unten ist ein Beispiel für eine map-operation: In the

apache-spark apache-spark-dataset apache-spark-encoders apache-spark-sql java

groupByKey in Spark-dataset

1 Antworten

Bitte helfen Sie mir zu verstehen, die parameter, die wir übergeben groupByKey, wenn er auf ein dataset scala> val data = spark.read.text("Sample.txt").as[String] data: org.apache.spark.sql.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).groupByKey(l=>l).count.show In den obigen code bitte helfen Sie

apache-spark apache-spark-dataset

Wie der name Aggregat-Spalten?

2 Antworten

Ich bin mit der Funke in Scala und mein aggregierte Spalten sind anonym. Gibt es eine bequeme Möglichkeit zum umbenennen mehrerer Spalten aus einem Datensatz? Ich dachte über die Verhängung eines Schemas mit as aber die key-Spalte

apache-spark apache-spark-dataset scala

Wie zum speichern benutzerdefinierter Objekte im Dataset?

8 Antworten

Laut Einführung Spark-Datasets: Als wir freuen uns auf Spark 2.0, planen wir einige spannende Verbesserungen zu Datensätzen, insbesondere: ... Benutzerdefinierte Encoder – während wir derzeit autogenerate-Encoder für eine Vielzahl von Typen, die wir öffnen möchten, eine API

apache-spark apache-spark-dataset apache-spark-encoders scala

Unterschied zwischen DataFrame, Dataset, und RDD Spark

14 Antworten

Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20

apache-spark apache-spark-dataset apache-spark-sql rdd

Wie beide dataset.wählen Sie und selectExpr in apache spark

1 Antworten

Möchte ich die unten genannten Daten mit Spark (2.2) dataset Name Age Age+5 A 10 15 B 5 10 C 25 30 Ich habe versucht mit der folgenden : dataset.select( dataset.col("Name"), dataset.col("Age), dataset.col( dataset.selectExpr("Age"+5).toString() ) ); Dies

apache-spark apache-spark-dataset

Konvertieren scala Liste DataFrame oder ein DataSet

1 Antworten

Ich bin neu in Scala. Ich bin versucht, zu konvertieren, eine scala-Liste (die holding die Ergebnisse der berechneten Daten auf eine Quelle DataFrame) Dataframe oder ein Dataset. Ich bin nicht auf der Suche nach einer direkten Methode

apache-spark apache-spark-dataset apache-spark-encoders apache-spark-sql scala

Gewusst wie: Durchlaufen/iterieren ein Dataset in Spark Java?

1 Antworten

Ich versuche, durchqueren Sie ein Dataset, um einige der string-ähnlichkeit Berechnungen wie Jaro-winkler-oder Kosinus-Ähnlichkeit. Ich meine konvertieren Dataset Liste von Zeilen und dann Durchlaufen mit der for-Anweisung, die nicht effizient Funke Weg, es zu tun. Also freue

apache-spark apache-spark-2.0 apache-spark-dataset iterator java

Wie konvertiert man die Datensätze der Funke Zeile in string?

2 Antworten

Ich geschrieben habe, der code für den Zugriff auf die Hive-Tabelle mit SparkSQL. Hier ist der code: SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("local[*]") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("select survey_response_value from

apache-spark apache-spark-dataset apache-spark-sql java string

So ändern Sie den Fall, der ganze Spalte in Kleinbuchstaben?

2 Antworten

apache-spark apache-spark-dataset apache-spark-sql spark-dataframe

Wie konvertieren von DataFrame Dataset in Apache Spark in Java?

2 Antworten

Kann ich umwandeln DataFrame Dataset in Scala sehr einfach: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchema aber in der Java-version weiß ich nicht, wie zu konvertieren Dataframe Dataset? Irgendeine Idee? mein

apache-spark apache-spark-dataset java spark-dataframe

Warum wird der Fehler "Unable to find encoder für Typ in einem Dataset gespeichert werden" beim Kodieren von JSON mithilfe von case-Klassen?

3 Antworten

Habe ich geschrieben Funken job: object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ctx = new org.apache.spark.sql.SQLContext(sc) import ctx.implicits._ case class Person(age: Long, city: String, id:

apache-spark apache-spark-dataset scala

Wie, um einen Funken zu erzeugen Dataset aus einer RDD

1 Antworten

Ich habe eine RDD[LabeledPoint] verwendet werden soll, innerhalb eines machine-learning-pipeline. Wie wir zu konvertieren, dass RDD zu einem DataSet? Hinweis: die neuere spark.ml apis erfordern Eingänge in die Dataset format. InformationsquelleAutor der Frage javadba | 2016-05-29

apache-spark apache-spark-dataset dataset scala

Spark-Dataset API - beitreten

3 Antworten

Ich versuche zu verwenden die Spark - Dataset API, aber ich habe einige Probleme dabei eine einfache Verknüpfung. Sagen wir, ich habe zwei dataset-Feldern: date | valuedann im Falle des DataFrame meinen Beitritt Aussehen würde: val dfA

apache-spark apache-spark-dataset apache-spark-sql scala

Codiererfehler beim Versuch, die Datenframezeile der aktualisierten Zeile zuzuordnen

2 Antworten

Wenn ich m versuchen, das gleiche zu tun, in meinem code, wie unten erwähnt dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Ich habe die obige

apache-spark apache-spark-dataset apache-spark-sql scala

Wie speichern Sie benutzerdefinierte Objekte in Dataset?

6 Antworten

Laut Einführung Spark-Datasets: Als wir freuen uns auf Spark 2.0, planen wir einige spannende Verbesserungen zu Datensätzen, insbesondere: ... Benutzerdefinierte Encoder – während wir derzeit autogenerate-Encoder für eine Vielzahl von Typen, die wir öffnen möchten, eine API

apache-spark apache-spark-dataset scala

Unterschied zwischen DataFrame (in Spark 2.0, d. H. DataSet [Zeile]) und RDD in Spark

11 Antworten

Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor der Frage menorah84 |

apache-spark apache-spark-dataset rdd spark-dataframe