Tag: apache-spark-2.0

Verwenden Sie für spezifische Fragen zu Apache Spark 2.0. Für Allgemeine Fragen zu Apache Spark verwenden Sie die tag – [apache-spark].

Lesen Avro Nachrichten von Kafka mit Spark 2.0.2 (strukturierte streaming)

Anzahl der Antworten 4 Antworten
Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11). Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.

Wie schaffen encoder für benutzerdefinierte Java-Objekte?

Anzahl der Antworten 1 Antworten
Verwende ich folgende Klasse erstellen bean von Spark Encoder Class OuterClass implements Serializable { int id; ArrayList<InnerClass> listofInner; public int getId() { return id; } public void setId (int num) { this.id = num; } public ArrayList<InnerClass>

pyspark Fehler: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten

Wie um die Karte struct im DataFrame zu Fall Klasse?

Anzahl der Antworten 3 Antworten
Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,

Wie verwenden von datasets zum groupby

Anzahl der Antworten 3 Antworten
Ich habe eine Anfrage zur Nutzung rdd zu tun: val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"), ("Detroit", "Michael"), ("Chicago", "Andrew"), ("Detroit", "Peter"), ("Detroit", "George") ) sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println) Das Ergebnis ist, dass: (New

Parsen von json in spark

Anzahl der Antworten 2 Antworten
War ich mit json-scala-Bibliothek zum Parsen der json-von einem lokalen Laufwerk in spark job : val requestJson=JSON.parseFull(Source.fromFile("c:/data/request.json").mkString) val mainJson=requestJson.get.asInstanceOf[Map[String,Any]].get("Request").get.asInstanceOf[Map[String,Any]] val currency=mainJson.get("currency").get.asInstanceOf[String] Aber wenn ich versuche, mit dem gleichen parser, indem Sie auf hdfs Speicherort der Datei das

Gewusst wie: Durchlaufen/iterieren ein Dataset in Spark Java?

Anzahl der Antworten 1 Antworten
Ich versuche, durchqueren Sie ein Dataset, um einige der string-ähnlichkeit Berechnungen wie Jaro-winkler-oder Kosinus-Ähnlichkeit. Ich meine konvertieren Dataset Liste von Zeilen und dann Durchlaufen mit der for-Anweisung, die nicht effizient Funke Weg, es zu tun. Also freue

Timeout-Ausnahme in der Apache-Spark während der Ausführung des Programms

Anzahl der Antworten 4 Antworten
Mir läuft ein Bash Script unter MAC. Dieses Skript ruft eine spark-Methode geschrieben in Scala, eine Sprache für eine große Anzahl von Zeiten. Ich bin versucht derzeit, rufen Sie diese Funke Methode für die 100.000 mal mit

dynamisch binden variable/parameter in der Funke SQL?

Anzahl der Antworten 3 Antworten
Binden von Variablen in Apache Spark SQL? Zum Beispiel: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) InformationsquelleAutor user3769729 | 2014-11-05

Was sind die verschiedenen join Typen in der Funke?

Anzahl der Antworten 4 Antworten
Ich schaute auf die Dokumente, und es sagt, dass die folgenden join-Typen werden unterstützt: Art der Verknüpfung durchführen. Standard-innere. Muss man: innere, cross, äußerer, voller, full_outer, Links, left_outer, rechts, right_outer, left_semi, left_anti. Ich schaute auf die StackOverflow-Antwort

Lesen von csv-Dateien mit zitiert Felder, die eingebettete Kommas

Anzahl der Antworten 3 Antworten
Ich lese eine csv-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Jedoch, die Daten-Datei angegeben hat Felder mit eingebetteten Kommata in Ihnen die sollte nicht behandelt werden wie Kommas. Wie kann ich mit dieser in Pyspark ? Ich weiß,

Spark-Parkett-Partitionierung : Große Anzahl von Dateien

Anzahl der Antworten 2 Antworten
Ich versuche zu nutzen, spark partitionieren. Ich war versucht, etwas zu tun, wie data.write.partitionBy("key").parquet("/location") Die Frage, die hier jeder partition erstellt riesige Anzahl von Parkett-Dateien, die Ergebnis langsam Lesen, wenn ich versuche zu Lesen, aus dem root-Verzeichnis.