Tag: apache-spark-2.0

Verwenden Sie für spezifische Fragen zu Apache Spark 2.0. Für Allgemeine Fragen zu Apache Spark verwenden Sie die tag – [apache-spark].

Lesen Avro Nachrichten von Kafka mit Spark 2.0.2 (strukturierte streaming)

4 Antworten

Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11). Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.

Wie schaffen encoder für benutzerdefinierte Java-Objekte?

1 Antworten

Verwende ich folgende Klasse erstellen bean von Spark Encoder Class OuterClass implements Serializable { int id; ArrayList<InnerClass> listofInner; public int getId() { return id; } public void setId (int num) { this.id = num; } public ArrayList<InnerClass>

apache-spark apache-spark-2.0 java spark-java

pyspark Fehler: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

1 Antworten

Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten

apache-spark apache-spark-2.0 spark-dataframe

Wie um die Karte struct im DataFrame zu Fall Klasse?

3 Antworten

Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,

apache-spark apache-spark-2.0 apache-spark-sql dataframe scala

Wie verwenden von datasets zum groupby

3 Antworten

Ich habe eine Anfrage zur Nutzung rdd zu tun： val test = Seq(("New York", "Jack"), ("Los Angeles", "Tom"), ("Chicago", "David"), ("Houston", "John"), ("Detroit", "Michael"), ("Chicago", "Andrew"), ("Detroit", "Peter"), ("Detroit", "George") ) sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println) Das Ergebnis ist, dass： (New

apache-spark apache-spark-2.0 dataset

Parsen von json in spark

2 Antworten

War ich mit json-scala-Bibliothek zum Parsen der json-von einem lokalen Laufwerk in spark job : val requestJson=JSON.parseFull(Source.fromFile("c:/data/request.json").mkString) val mainJson=requestJson.get.asInstanceOf[Map[String,Any]].get("Request").get.asInstanceOf[Map[String,Any]] val currency=mainJson.get("currency").get.asInstanceOf[String] Aber wenn ich versuche, mit dem gleichen parser, indem Sie auf hdfs Speicherort der Datei das

apache-spark apache-spark-2.0 apache-spark-sql scala

Gewusst wie: Durchlaufen/iterieren ein Dataset in Spark Java?

1 Antworten

Ich versuche, durchqueren Sie ein Dataset, um einige der string-ähnlichkeit Berechnungen wie Jaro-winkler-oder Kosinus-Ähnlichkeit. Ich meine konvertieren Dataset Liste von Zeilen und dann Durchlaufen mit der for-Anweisung, die nicht effizient Funke Weg, es zu tun. Also freue

apache-spark apache-spark-2.0 apache-spark-dataset iterator java

Timeout-Ausnahme in der Apache-Spark während der Ausführung des Programms

4 Antworten

Mir läuft ein Bash Script unter MAC. Dieses Skript ruft eine spark-Methode geschrieben in Scala, eine Sprache für eine große Anzahl von Zeiten. Ich bin versucht derzeit, rufen Sie diese Funke Methode für die 100.000 mal mit

apache-spark apache-spark-2.0 scala spark-graphx

dynamisch binden variable/parameter in der Funke SQL?

3 Antworten

Binden von Variablen in Apache Spark SQL? Zum Beispiel: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) InformationsquelleAutor user3769729 | 2014-11-05

apache-spark apache-spark-2.0 apache-spark-sql scala

Was sind die verschiedenen join Typen in der Funke?

4 Antworten

Ich schaute auf die Dokumente, und es sagt, dass die folgenden join-Typen werden unterstützt: Art der Verknüpfung durchführen. Standard-innere. Muss man: innere, cross, äußerer, voller, full_outer, Links, left_outer, rechts, right_outer, left_semi, left_anti. Ich schaute auf die StackOverflow-Antwort

apache-spark apache-spark-2.0 apache-spark-sql scala spark-dataframe

Lesen von csv-Dateien mit zitiert Felder, die eingebettete Kommas

3 Antworten

Ich lese eine csv-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Jedoch, die Daten-Datei angegeben hat Felder mit eingebetteten Kommata in Ihnen die sollte nicht behandelt werden wie Kommas. Wie kann ich mit dieser in Pyspark ? Ich weiß,

apache-spark apache-spark-2.0 apache-spark-sql csv pyspark

Spark-Parkett-Partitionierung : Große Anzahl von Dateien

2 Antworten

Ich versuche zu nutzen, spark partitionieren. Ich war versucht, etwas zu tun, wie data.write.partitionBy("key").parquet("/location") Die Frage, die hier jeder partition erstellt riesige Anzahl von Parkett-Dateien, die Ergebnis langsam Lesen, wenn ich versuche zu Lesen, aus dem root-Verzeichnis.

apache-spark apache-spark-2.0 bigdata rdd spark-dataframe