Tag: apache-spark-2.0
Verwenden Sie für spezifische Fragen zu Apache Spark 2.0. Für Allgemeine Fragen zu Apache Spark verwenden Sie die tag – [apache-spark].
4
Antworten
Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11). Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.
1
Antworten
Verwende ich folgende Klasse erstellen bean von Spark Encoder Class OuterClass implements Serializable { int id; ArrayList<InnerClass> listofInner; public int getId() { return id; } public void setId (int num) { this.id = num; } public ArrayList<InnerClass>
1
Antworten
Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten
3
Antworten
Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,
3
Antworten
Ich habe eine Anfrage zur Nutzung rdd zu tun: val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"), ("Detroit", "Michael"), ("Chicago", "Andrew"), ("Detroit", "Peter"), ("Detroit", "George") ) sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println) Das Ergebnis ist, dass: (New
2
Antworten
War ich mit json-scala-Bibliothek zum Parsen der json-von einem lokalen Laufwerk in spark job : val requestJson=JSON.parseFull(Source.fromFile("c:/data/request.json").mkString) val mainJson=requestJson.get.asInstanceOf[Map[String,Any]].get("Request").get.asInstanceOf[Map[String,Any]] val currency=mainJson.get("currency").get.asInstanceOf[String] Aber wenn ich versuche, mit dem gleichen parser, indem Sie auf hdfs Speicherort der Datei das
1
Antworten
Ich versuche, durchqueren Sie ein Dataset, um einige der string-ähnlichkeit Berechnungen wie Jaro-winkler-oder Kosinus-Ähnlichkeit. Ich meine konvertieren Dataset Liste von Zeilen und dann Durchlaufen mit der for-Anweisung, die nicht effizient Funke Weg, es zu tun. Also freue
4
Antworten
Mir läuft ein Bash Script unter MAC. Dieses Skript ruft eine spark-Methode geschrieben in Scala, eine Sprache für eine große Anzahl von Zeiten. Ich bin versucht derzeit, rufen Sie diese Funke Methode für die 100.000 mal mit
3
Antworten
Binden von Variablen in Apache Spark SQL? Zum Beispiel: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) InformationsquelleAutor user3769729 | 2014-11-05
4
Antworten
Ich schaute auf die Dokumente, und es sagt, dass die folgenden join-Typen werden unterstützt: Art der Verknüpfung durchführen. Standard-innere. Muss man: innere, cross, äußerer, voller, full_outer, Links, left_outer, rechts, right_outer, left_semi, left_anti. Ich schaute auf die StackOverflow-Antwort
3
Antworten
Ich lese eine csv-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Jedoch, die Daten-Datei angegeben hat Felder mit eingebetteten Kommata in Ihnen die sollte nicht behandelt werden wie Kommas. Wie kann ich mit dieser in Pyspark ? Ich weiß,
2
Antworten
Ich versuche zu nutzen, spark partitionieren. Ich war versucht, etwas zu tun, wie data.write.partitionBy("key").parquet("/location") Die Frage, die hier jeder partition erstellt riesige Anzahl von Parkett-Dateien, die Ergebnis langsam Lesen, wenn ich versuche zu Lesen, aus dem root-Verzeichnis.