Tag: apache-spark-dataset
Spark-Dataset ist eine stark typisierte Auflistung von Objekten zugeordnet, um ein relationales schema. Es unterstützt die ähnliche Optimierungen Funke DataFrames Bereitstellung von Typ-safe-Programmierung Schnittstelle zur gleichen Zeit.
1
Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe
2
Antworten
Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)
1
Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");
2
Antworten
Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.
2
Antworten
Möchte ich schreiben, ist ein encoder für einen Zeile geben Sie im DataSet, für eine map-operation, die ich mache. Im wesentlichen, ich verstehe nicht, wie man schreiben Encoder. Unten ist ein Beispiel für eine map-operation: In the
1
Antworten
Bitte helfen Sie mir zu verstehen, die parameter, die wir übergeben groupByKey, wenn er auf ein dataset scala> val data = spark.read.text("Sample.txt").as[String] data: org.apache.spark.sql.Dataset[String] = [value: string] scala> data.flatMap(_.split(" ")).groupByKey(l=>l).count.show In den obigen code bitte helfen Sie
2
Antworten
Ich bin mit der Funke in Scala und mein aggregierte Spalten sind anonym. Gibt es eine bequeme Möglichkeit zum umbenennen mehrerer Spalten aus einem Datensatz? Ich dachte über die Verhängung eines Schemas mit as aber die key-Spalte
8
Antworten
Laut Einführung Spark-Datasets: Als wir freuen uns auf Spark 2.0, planen wir einige spannende Verbesserungen zu Datensätzen, insbesondere: ... Benutzerdefinierte Encoder – während wir derzeit autogenerate-Encoder für eine Vielzahl von Typen, die wir öffnen möchten, eine API
14
Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20
1
Antworten
Möchte ich die unten genannten Daten mit Spark (2.2) dataset Name Age Age+5 A 10 15 B 5 10 C 25 30 Ich habe versucht mit der folgenden : dataset.select( dataset.col("Name"), dataset.col("Age), dataset.col( dataset.selectExpr("Age"+5).toString() ) ); Dies
1
Antworten
Ich bin neu in Scala. Ich bin versucht, zu konvertieren, eine scala-Liste (die holding die Ergebnisse der berechneten Daten auf eine Quelle DataFrame) Dataframe oder ein Dataset. Ich bin nicht auf der Suche nach einer direkten Methode
1
Antworten
Ich versuche, durchqueren Sie ein Dataset, um einige der string-ähnlichkeit Berechnungen wie Jaro-winkler-oder Kosinus-Ähnlichkeit. Ich meine konvertieren Dataset Liste von Zeilen und dann Durchlaufen mit der for-Anweisung, die nicht effizient Funke Weg, es zu tun. Also freue
2
Antworten
Ich geschrieben habe, der code für den Zugriff auf die Hive-Tabelle mit SparkSQL. Hier ist der code: SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("local[*]") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("select survey_response_value from
2
Antworten
Möchte ich Ändern bei ganze Spalte in Kleinbuchstaben Funke Dataset Desired Input +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|BRUSH & BROOM HAN...| | XYZ|WHEEL BRUSH PARTS...| +------+--------------------+ Desired Output +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|brush &
2
Antworten
Kann ich umwandeln DataFrame Dataset in Scala sehr einfach: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchema aber in der Java-version weiß ich nicht, wie zu konvertieren Dataframe Dataset? Irgendeine Idee? mein
3
Antworten
Habe ich geschrieben Funken job: object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ctx = new org.apache.spark.sql.SQLContext(sc) import ctx.implicits._ case class Person(age: Long, city: String, id:
1
Antworten
Ich habe eine RDD[LabeledPoint] verwendet werden soll, innerhalb eines machine-learning-pipeline. Wie wir zu konvertieren, dass RDD zu einem DataSet? Hinweis: die neuere spark.ml apis erfordern Eingänge in die Dataset format. InformationsquelleAutor der Frage javadba | 2016-05-29
3
Antworten
Ich versuche zu verwenden die Spark - Dataset API, aber ich habe einige Probleme dabei eine einfache Verknüpfung. Sagen wir, ich habe zwei dataset-Feldern: date | valuedann im Falle des DataFrame meinen Beitritt Aussehen würde: val dfA
2
Antworten
Wenn ich m versuchen, das gleiche zu tun, in meinem code, wie unten erwähnt dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Ich habe die obige
6
Antworten
Laut Einführung Spark-Datasets: Als wir freuen uns auf Spark 2.0, planen wir einige spannende Verbesserungen zu Datensätzen, insbesondere: ... Benutzerdefinierte Encoder – während wir derzeit autogenerate-Encoder für eine Vielzahl von Typen, die wir öffnen möchten, eine API
11
Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor der Frage menorah84 |