Tag: apache-spark-dataset

Spark-Dataset ist eine stark typisierte Auflistung von Objekten zugeordnet, um ein relationales schema. Es unterstützt die ähnliche Optimierungen Funke DataFrames Bereitstellung von Typ-safe-Programmierung Schnittstelle zur gleichen Zeit.

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

Anzahl der Antworten 1 Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

Wie man Schlüssel und Werte aus MapType Spalte in SparkSQL DataFrame

Anzahl der Antworten 2 Antworten
Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)

Data type mismatch, während die Umwandlung von Daten in spark-dataset

Anzahl der Antworten 1 Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

Führen Sie eine typisierte Verknüpfung in Scala mit Funken-Datasets

Anzahl der Antworten 2 Antworten
Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.

Encoder für Zeile Typ Spark-Datasets

Anzahl der Antworten 2 Antworten
Möchte ich schreiben, ist ein encoder für einen Zeile geben Sie im DataSet, für eine map-operation, die ich mache. Im wesentlichen, ich verstehe nicht, wie man schreiben Encoder. Unten ist ein Beispiel für eine map-operation: In the

groupByKey in Spark-dataset

Anzahl der Antworten 1 Antworten
Bitte helfen Sie mir zu verstehen, die parameter, die wir übergeben groupByKey, wenn er auf ein dataset scala> val data = spark.read.text("Sample.txt").as[String] data: org.apache.spark.sql.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).groupByKey(l=>l).count.show In den obigen code bitte helfen Sie

Wie der name Aggregat-Spalten?

Anzahl der Antworten 2 Antworten
Ich bin mit der Funke in Scala und mein aggregierte Spalten sind anonym. Gibt es eine bequeme Möglichkeit zum umbenennen mehrerer Spalten aus einem Datensatz? Ich dachte über die Verhängung eines Schemas mit as aber die key-Spalte

Wie zum speichern benutzerdefinierter Objekte im Dataset?

Anzahl der Antworten 8 Antworten
Laut Einführung Spark-Datasets: Als wir freuen uns auf Spark 2.0, planen wir einige spannende Verbesserungen zu Datensätzen, insbesondere: ... Benutzerdefinierte Encoder – während wir derzeit autogenerate-Encoder für eine Vielzahl von Typen, die wir öffnen möchten, eine API

Unterschied zwischen DataFrame, Dataset, und RDD Spark

Anzahl der Antworten 14 Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20

Wie beide dataset.wählen Sie und selectExpr in apache spark

Anzahl der Antworten 1 Antworten
Möchte ich die unten genannten Daten mit Spark (2.2) dataset Name Age Age+5 A 10 15 B 5 10 C 25 30 Ich habe versucht mit der folgenden : dataset.select( dataset.col("Name"), dataset.col("Age), dataset.col( dataset.selectExpr("Age"+5).toString() ) ); Dies

Konvertieren scala Liste DataFrame oder ein DataSet

Anzahl der Antworten 1 Antworten
Ich bin neu in Scala. Ich bin versucht, zu konvertieren, eine scala-Liste (die holding die Ergebnisse der berechneten Daten auf eine Quelle DataFrame) Dataframe oder ein Dataset. Ich bin nicht auf der Suche nach einer direkten Methode

Gewusst wie: Durchlaufen/iterieren ein Dataset in Spark Java?

Anzahl der Antworten 1 Antworten
Ich versuche, durchqueren Sie ein Dataset, um einige der string-ähnlichkeit Berechnungen wie Jaro-winkler-oder Kosinus-Ähnlichkeit. Ich meine konvertieren Dataset Liste von Zeilen und dann Durchlaufen mit der for-Anweisung, die nicht effizient Funke Weg, es zu tun. Also freue

Wie konvertiert man die Datensätze der Funke Zeile in string?

Anzahl der Antworten 2 Antworten
Ich geschrieben habe, der code für den Zugriff auf die Hive-Tabelle mit SparkSQL. Hier ist der code: SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("local[*]") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("select survey_response_value from

So ändern Sie den Fall, der ganze Spalte in Kleinbuchstaben?

Anzahl der Antworten 2 Antworten
Möchte ich Ändern bei ganze Spalte in Kleinbuchstaben Funke Dataset Desired Input +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|BRUSH & BROOM HAN...| | XYZ|WHEEL BRUSH PARTS...| +------+--------------------+ Desired Output +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|brush &

Wie konvertieren von DataFrame Dataset in Apache Spark in Java?

Anzahl der Antworten 2 Antworten
Kann ich umwandeln DataFrame Dataset in Scala sehr einfach: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchema aber in der Java-version weiß ich nicht, wie zu konvertieren Dataframe Dataset? Irgendeine Idee? mein

Warum wird der Fehler "Unable to find encoder für Typ in einem Dataset gespeichert werden" beim Kodieren von JSON mithilfe von case-Klassen?

Anzahl der Antworten 3 Antworten
Habe ich geschrieben Funken job: object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ctx = new org.apache.spark.sql.SQLContext(sc) import ctx.implicits._ case class Person(age: Long, city: String, id:

Wie, um einen Funken zu erzeugen Dataset aus einer RDD

Anzahl der Antworten 1 Antworten
Ich habe eine RDD[LabeledPoint] verwendet werden soll, innerhalb eines machine-learning-pipeline. Wie wir zu konvertieren, dass RDD zu einem DataSet? Hinweis: die neuere spark.ml apis erfordern Eingänge in die Dataset format. InformationsquelleAutor der Frage javadba | 2016-05-29

Spark-Dataset API - beitreten

Anzahl der Antworten 3 Antworten
Ich versuche zu verwenden die Spark - Dataset API, aber ich habe einige Probleme dabei eine einfache Verknüpfung. Sagen wir, ich habe zwei dataset-Feldern: date | valuedann im Falle des DataFrame meinen Beitritt Aussehen würde: val dfA

Codiererfehler beim Versuch, die Datenframezeile der aktualisierten Zeile zuzuordnen

Anzahl der Antworten 2 Antworten
Wenn ich m versuchen, das gleiche zu tun, in meinem code, wie unten erwähnt dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Ich habe die obige

Wie speichern Sie benutzerdefinierte Objekte in Dataset?

Anzahl der Antworten 6 Antworten
Laut Einführung Spark-Datasets: Als wir freuen uns auf Spark 2.0, planen wir einige spannende Verbesserungen zu Datensätzen, insbesondere: ... Benutzerdefinierte Encoder – während wir derzeit autogenerate-Encoder für eine Vielzahl von Typen, die wir öffnen möchten, eine API

Unterschied zwischen DataFrame (in Spark 2.0, d. H. DataSet [Zeile]) und RDD in Spark

Anzahl der Antworten 11 Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor der Frage menorah84 |