Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Berechnen quantile für gruppierte Daten im Dataframe Funke

1 Antworten

Habe ich Folgendes Funke dataframe : agent_id|payment_amount| +--------+--------------+ | a| 1000| | b| 1100| | a| 1100| | a| 1200| | b| 1200| | b| 1250| | a| 10000| | b| 9000| +--------+--------------+ mein Wunsch Ausgabe wäre

Spark dataframe: collect () vs select ()

4 Antworten

Aufrufen collect() auf eine RDD wird wieder die gesamte dataset-Treiber, die verursachen können, aus dem Speicher, und wir sollten vermeiden, dass. Wird collect() die gleiche Weise Verhalten, wenn es auf einem dataframe? Was ist mit den select()

apache-spark apache-spark-sql bigdata dataframe

Spark dataframe Holen-Spalte-Wert in eine string variable

2 Antworten

Ich versuche extrahieren Spalte Wert in eine variable, so dass ich den Wert irgendwo anders im code. Ich versuche wie folgt val name= test.filter(test("id").equalTo("200")).select("name").col("name") Gibt es name org.apache.spark.sql.Column = name wie man den Wert? Upvoting, weil, wie

apache-spark apache-spark-sql dataframe scala

Wie zu verwenden collect_set und collect_list Funktionen in windowed aggregation in Spark 1.6?

1 Antworten

Zündkerzen 1.6.0 /Scala, ist es eine Gelegenheit, um collect_list("colC") oder collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")? InformationsquelleAutor Dzmitry Haikov | 2017-07-16

apache-spark apache-spark-1.6 apache-spark-sql scala

spark-in-Garn-cluser 'sc' nicht definiert

2 Antworten

Bin ich mit spark 1.3.1. Muss ich erklären, sc, wenn die Funken laufen in Garn-cluster-Modus? Ich habe kein problem mit der gleichen python-Programm in spark python-shell. Dies ist, wie ich behaupte der job : /bin/spark-submit --master yarn-cluster

apache-spark apache-spark-sql python

SparkSQL : Kann ich explodieren zwei verschiedene Variablen in der gleichen Abfrage?

3 Antworten

Habe ich Folgendes explodieren-Abfrage, die funktioniert: data1 = sqlContext.sql("select explode(names) as name from data") Will ich explodieren, ein weiteres Feld "Farben", so dass die endgültige Ausgabe könnte das kartesische Produkt von Namen und Farben. Also ich hab:

apache-spark apache-spark-sql spark-dataframe

Methoden max() und sum() undefiniert in der Java-Spark-Dataframe API (1.4.1)

4 Antworten

Setzen Beispiel-code von DataFrame.groupBy() in meinem code, aber es gezeigt, die Methoden der max() und sum() undefiniert. df.groupBy("department").agg(max("age"), sum("expense")); Welche Java-Paket muss ich importieren, wenn ich Sie benutzen will max() und sum() Methode? Ist die korrekte Syntax,

apache-spark-sql java spark-dataframe

Wie nehmen Sie eine zufällige Zeile aus einer PySpark DataFrame?

1 Antworten

Wie bekomme ich eine zufällige Zeile aus einer PySpark DataFrame? Ich sehe nur die Methode sample() nimmt einen Bruch als parameter. Die Einstellung dieser Fraktion zu 1/numberOfRows führt zu zufälligen Ergebnissen, wo ich manchmal keine Zeile. Auf

apache-spark apache-spark-sql dataframe pyspark python

Wie konvertiert Spalte des arrays von strings an strings?

3 Antworten

Ich habe eine Spalte, die den Typ array < string > im spark-Tabellen. Ich bin mit SQL-Abfrage dieser Funke Tabellen. Ich wollte zu konvertieren, die array < string > in string. Wenn verwendet die folgende syntax: select

apache-spark apache-spark-sql

Wie man die erste Zeile als Kopfzeile beim Lesen einer Datei in PySpark und konvertieren Sie es für Pandas Dataframe

2 Antworten

Ich lese eine Datei in PySpark und bilden die rdd. Ich habe dann konvertieren Sie es in einem normalen dataframe und dann zu pandas dataframe. Das Problem, das ich habe, ist, dass es header-Zeile in meine input-Datei

apache-spark apache-spark-sql pandas pyspark python

Sie brauchen, um zu bauen Funken, bevor Sie dieses Programm ausführen Fehler beim ausführen von/bin / pyspark

3 Antworten

Ich bin erste Schritte mit Spark. Bin ich immer ein Problem beim starten Funken. Ich heruntergeladen Funke offiziellen website, ich bin versucht, quickstart aus diesem https://spark.apache.org/docs/0.9.0/quick-start.html Habe ich heruntergeladen, setup sparkhome., und wenn ich versuchte, läuft ./pyspark

apache-spark apache-spark-sql pyspark spark-streaming spark-view-engine

Immer OutofMemoryError - GC overhead limit überschreiten, in pyspark

1 Antworten

in der Mitte des Projekts bin ich immer der Balg Fehler nach dem aufrufen einer Funktion in meinem spark sql-Abfrage ich geschrieben habe, eine Benutzer-Funktion definieren, die zwei string-und concat Sie nach der Verkettung wird es dauern,

apache-spark apache-spark-sql pyspark pyspark-sql udf

Wie bedingt ersetzen Wert in einer Spalte auf der Grundlage der Auswertung des Ausdrucks auf der Basis einer anderen Spalte in Pyspark?

1 Antworten

import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (0, 5, float(10)), (1, 6, float('nan')), (0, 6, float('nan'))], ('session', "timestamp1", "id2")) +-------+----------+----+ |session|timestamp1| id2| +-------+----------+----+ | 1|

apache-spark apache-spark-sql pyspark pyspark-sql

Wie kann ich einen Funken zu erzeugen DataFrame aus einem verschachtelten array von struct-element?

3 Antworten

Habe ich gelesen, die eine JSON-Datei in Spark. Diese Datei hat die folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable =

apache-spark apache-spark-sql dataframe scala

Wie liest gesamte Datei in einen string

4 Antworten

Möchte ich Lesen, json-oder xml-Datei in pyspark.lf meine Datei ist aufgeteilt in mehrere line-in rdd= sc.textFIle(json or xml) Eingang { " employees": [ { "firstName":"John", "lastName":"Doe" }, { "firstName":"Anna" ] } Eingabe auf mehrere Zeilen verteilt. Erwartete

apache-spark apache-spark-sql

how to get max(Datum) aus der gegebenen Menge von Daten zusammengefasst, die durch einige Felder mit pyspark?

1 Antworten

Habe ich die Daten im dataframe wie folgt: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 |

apache-spark apache-spark-sql pyspark pyspark-sql sql

Wie verwenden Sie NICHT die IN-Klausel in der filter-Bedingung Funke

2 Antworten

Möchte ich filter auf eine Spalte einer RDD Quelle : val source = sql("SELECT * from sample.source").rdd.map(_.mkString(",")) val destination = sql("select * from sample.destination").rdd.map(_.mkString(",")) val source_primary_key = source.map(rec => (rec.split(",")(0))) val destination_primary_key = destination.map(rec => (rec.split(",")(0))) val

apache-spark apache-spark-sql scala

Wie konvertiert man die Datensätze der Funke Zeile in string?

2 Antworten

Ich geschrieben habe, der code für den Zugriff auf die Hive-Tabelle mit SparkSQL. Hier ist der code: SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("local[*]") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("select survey_response_value from

apache-spark apache-spark-dataset apache-spark-sql java string

Spark Scala : Unable to import sqlContext.implicits._

4 Antworten

Habe ich versucht den code unten und nicht importieren sqlContext.implicits._ - es wirft einen Fehler (in der Scala IDE), nicht um den code zu erstellen: Wert implicits ist nicht ein Mitglied der org.apache.spark.sql.SQLContext Muss ich hinzufügen, alle

apache-spark apache-spark-sql maven scala

Wie teilt Vektor in Spalten - mit PySpark

1 Antworten

Kontext: ich habe eine DataFrame mit 2 Spalten: Wort und Vektor. Wo die Spalte Typ "vector" ist VectorUDT. Beispiel: word | vector assert | [435,323,324,212...] Und ich will diesen: word | v1 | v2 | v3 |

apache-spark apache-spark-ml apache-spark-sql pyspark python

Wählen Sie bestimmte Spalten in einer PySpark dataframe um die Leistung zu verbessern

2 Antworten

Arbeiten mit Spark dataframes importiert aus dem Bienenstock, manchmal ich am Ende mit mehreren Spalten, die ich nicht brauche. Angenommen, ich will nicht, Sie zu filtern, mit df = SqlContext.sql('select cols from mytable') und ich bin das

apache-spark apache-spark-sql pyspark

So konvertieren Sie eine JSON-Datei, Parkett, Apache Spark?

1 Antworten

Ich bin neu in Apache Spark 1.3.1. Wie konvertiere ich eine JSON-Datei zu Parkett? Sie können auch mithilfe von Apache Drill (vielleicht leichter zu setup), können Sie konvertieren von JSON aus einem lokalen Dateisystem HDFS-Parkett in 1

apache-spark apache-spark-sql json parquet

Spark SQL: Wie neue Zeile Anhängen zu dataframe Tabelle (aus einer anderen Tabelle)

2 Antworten

Bin ich mit Spark SQL mit dataframes. Ich habe ein Eingabe-dataframe, und ich möchte anfügen (oder einfügen) seine Zeilen auf eine größere dataframe, hat mehr Spalten. Wie soll ich das tun? Wenn das SQL würde ich INSERT

apache-spark apache-spark-sql scala

PySpark, Wie Lesen von CSV in Dataframe, und manipulieren

1 Antworten

Ich bin ganz neu bei pyspark und bin versucht, es zu verarbeiten, ein großes dataset, das ist als csv-Datei gespeichert. Ich möchte Lesen CSV-Datei in spark dataframe, fallen einige Spalten, neue Spalten hinzuzufügen. Wie soll ich das

apache-spark apache-spark-sql mapreduce pyspark spark-dataframe

Wie Sie filter ein Funke dataframe gegen einen anderen dataframe

1 Antworten

Ich versuche, die filter eines dataframe gegen den anderen: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id") Nun möchte ich filter df1 und wieder ein dataframe enthält alle

apache-spark apache-spark-sql scala spark-dataframe

Spark SQL konvertieren string in timestamp

1 Antworten

Ich bin neu zu entfachen, SQL und versuche zu konvertieren einen string in ein timestamp in einer spark-Daten-frame. Ich habe einen string, der sieht aus wie '2017-08-01T02:26:59.000Z' in einer Spalte namens " time_string Meinen code zu konvertieren

apache-spark apache-spark-sql pyspark-sql sql

Spark DataFrame: count distinct-Werte jeder Spalte

4 Antworten

Die Frage ist so ziemlich im Titel: gibt es eine effiziente Art zu zählen der eindeutigen Werte in jeder Spalte in einem DataFrame? Den beschreiben Methode liefert nur die Anzahl aber nicht die distinct-count, und ich Frage

apache-spark apache-spark-sql distinct-values

spark - scala: nicht ein Mitglied der org.apache.spark.sql.Zeile

2 Antworten

Ich versuche zu konvertieren, einen Daten-frame zu RDD, dann einige Operationen, unter zurück-Tupeln: df.rdd.map { t=> (t._2 + "_" + t._3 , t) }.take(5) Dann bekam ich den folgenden Fehler. Jemand irgendwelche Ideen? Danke! <console>:37: error: value

apache-spark apache-spark-sql rdd scala spark-dataframe

Nicht Funken.sql.autoBroadcastJoinThreshold Arbeit für joins verwenden Datensatz der join-operator?

2 Antworten

Ich würde gerne wissen, ob spark.sql.autoBroadcastJoinThreshold Eigenschaft kann nützlich sein für die übertragung kleinerer Tisch auf alle worker nodes (während der join), auch wenn die join-Schema ist über die Dataset API-Verknüpfung anstelle der Verwendung von Spark-SQL. Wenn

apache-spark apache-spark-sql

spark sql-Fenster-Funktion lag

2 Antworten

Ich freue mich auf die Fenster slide-Funktion für eine Spark-DataFrame in Spark SQL, Scala. Ich habe einen dataframe mit den Spalten Col1,Col1,Col1,Datum. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 201604

apache-spark apache-spark-sql scala window-functions

Wie wählen Sie und, um mehrere Spalten in einem Pyspark Dataframe nach einem join

1 Antworten

Möchte ich Sie zum auswählen mehrerer Spalten aus vorhandenen dataframe (die erstellt wird, nachdem joins) und möchte, um die fileds, die als mein Ziel-Tabelle Struktur. Wie kann es getan werden ? Der sich näherte, die ich benutzt

apache-spark apache-spark-sql pyspark python

Wie die Konvertierung Timestamp zu Datum-format in einem DataFrame?

3 Antworten

Ich habe eine DataFrame mit Timestamp Spalte, die ich brauche, um zu konvertieren, wie Date format. Gibt es eine Spark-SQL-Funktionen zur Verfügung? InformationsquelleAutor Shankar | 2016-11-17

apache-spark apache-spark-sql

Schreiben RDD als Textdatei mit Apache Spark

5 Antworten

Ich bin erkunden Funke für die batch-Verarbeitung. Ich bin mit der Funke auf meinem lokalen Rechner mit standalone-Modus. Ich versuche zu konvertieren, der Funke RDD als einzelne Datei [endgültige Ausgabe] mit saveTextFile () - Methode, aber es

apache-spark apache-spark-sql java

Anwendung Funktion Spark Dataframe Spalte

1 Antworten

Kommen R, ich bin verwendet, um einfach zu tun, Operationen auf Spalten. Gibt es einen einfachen Weg, um diese Funktion, die ich geschrieben habe in scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded =

apache-spark apache-spark-sql dataframe scala user-defined-functions

Entfernen Sie die Temporären Tabellen von Apache Spark SQL

3 Antworten

Habe ich registertemptable im Apache Spark mit Zeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => s.split(",")).filter(s => s(0) != "Date").map( s =>

apache-spark apache-spark-sql apache-zeppelin scala

Spark SQL groß-und Kleinschreibung filter für Spalte Bedingungen

2 Antworten

Wie zu verwenden Spark SQL-filter als groß-und Kleinschreibung filter. Beispiel: dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet")); nur die Rückgabe von Zeilen, die 'vendor' Spalte ist gleich 'fortinet' aber ich möchte die Zeilen, die 'vendor' Spalte gleich 'fortinet' oder 'Fortinet' oder 'foRtinet' oder

apache-spark apache-spark-sql

Apache Spark : JDBC-Verbindung funktioniert nicht

6 Antworten

Habe ich mich gefragt, diese Frage bisher auch, aber nicht bekam keine Antwort (Nicht in der Lage, eine Verbindung zu PostgreSQL mit jdbc in pyspark shell). Habe ich erfolgreich installiert Spark 1.3.0 auf meinem lokalen windows und

apache-spark apache-spark-sql jdbc postgresql

dynamisch binden variable/parameter in der Funke SQL?

3 Antworten

Binden von Variablen in Apache Spark SQL? Zum Beispiel: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) InformationsquelleAutor user3769729 | 2014-11-05

apache-spark apache-spark-2.0 apache-spark-sql scala

Temp-Tabelle Zwischenspeichern mit spark-sql

2 Antworten

Ist eine Tabelle registriert mit registerTempTable (createOrReplaceTempView mit Funke 2.+) zwischengespeichert? Verwendung von Zeppelin, registriere ich eine DataFrame in mein scala-code, nach der Berechnung, und dann innerhalb %pyspark ich darauf zugreifen möchten, und weitere filter. Wird es

apache-spark apache-spark-sql

Zusammenführen zweier Spalten von a `Dataframe` Spark in einem 2-Tupel?

3 Antworten

Habe ich einen Funken DataFrame df mit fünf Spalten. Ich möchte eine weitere Spalte hinzufügen, die mit den Werten die Tupel der ersten und zweiten Spalten. Bei der Verwendung mit withColumn() Methode bekomme ich den Fehler, weil

apache-spark-sql scala spark-dataframe

Spark SQL - Unterschied zwischen df.partitionieren und DataFrameWriter partitionBy?

2 Antworten

Was ist der Unterschied zwischen DataFrame repartition() und DataFrameWriter partitionBy() Methoden? Ich hoffe, beide werden benutzt, um "partition Daten basierend auf dataframe Spalte"? Oder gibt es da einen Unterschied? InformationsquelleAutor Shankar | 2016-11-04

apache-spark-sql data-partitioning

Was sind die verschiedenen join Typen in der Funke?

4 Antworten

Ich schaute auf die Dokumente, und es sagt, dass die folgenden join-Typen werden unterstützt: Art der Verknüpfung durchführen. Standard-innere. Muss man: innere, cross, äußerer, voller, full_outer, Links, left_outer, rechts, right_outer, left_semi, left_anti. Ich schaute auf die StackOverflow-Antwort

apache-spark apache-spark-2.0 apache-spark-sql scala spark-dataframe

die Auswahl eines Bereichs von Elementen in einem array spark sql

7 Antworten

Benutze ich spark-shell zu tun, die unten angegebenen Operationen. Kürzlich geladen eine Tabelle mit einem array-Spalte in der Funke-sql . Hier ist der DDL für das gleiche: create table test_emp_arr{ dept_id string, dept_nm string, emp_details Array<string> }

apache-spark apache-spark-sql arrays hive scala

Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate

2 Antworten

Ich versuche, mit Spark SQL zu schreiben parquet Datei. Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo. Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für

apache-spark-sql gzip lzo parquet snappy

So konvertieren Sie ein dataframe dataset in Apache Spark in Scala?

2 Antworten

Muss ich meine konvertieren dataframe zu einem dataset, und ich verwendete den folgenden code: val final_df = Dataframe.withColumn( "features", toVec4( //casting into Timestamp to parse the string, and then into Int $"time_stamp_0".cast(TimestampType).cast(IntegerType), $"count", $"sender_ip_1", $"receiver_ip_2" ) ).withColumn("label",

apache-spark apache-spark-encoders apache-spark-sql scala

Warum spark-Anwendung schlägt fehl “executor.CoarseGrainedExecutorBackend: Fahrer-Distanziert"?

2 Antworten

Wenn ich die Abfrage ausführen sql via spark-senden und Funken-sql, entsprechende spark-Anwendung schlägt immer fehl, mit der Fehlermeldung folgt: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkDriver@slave75:60697/user/HeartbeatReceiver 15/03/10 18:52:08 ERROR executor.CoarseGrainedExecutorBackend: Driver Disassociated [akka.tcp://sparkExecutor@slave79:35643] -> [akka.tcp://sparkDriver@slave75:60697] disassociated!

apache-spark apache-spark-sql

Wie verwenden von Spark SQL DataFrame mit flatMap?

2 Antworten

Ich bin mit der Funke Scala-API. Ich habe eine Spark SQL DataFrame (Lesen aus einer Avro-Datei) mit folgendem schema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key:

apache-spark apache-spark-sql scala

So wählen Sie die Letzte Zeile und auch, wie Sie Zugang zu PySpark dataframe, die durch den index?

4 Antworten

Vom PySpark SQL dataframe wie name age city abc 20 A def 30 B Wie man die Letzte Zeile.(Wie von df.limit(1) ich kann die erste Zeile des dataframe in neuen dataframe). Und wie kann ich auf die

apache-spark apache-spark-sql pyspark pyspark-sql python

pyspark: TypeError: IntegerType können nicht akzeptieren, Objekt-Typ <type 'unicode'>

2 Antworten

Programmierung mit pyspark auf eine Spark-cluster, die Daten ist groß und in Stücke, so kann nicht in den Speicher geladen, oder überprüfen Sie die Vernunft der Daten leicht im Grunde sieht es aus wie af.b Current%20events 1

apache-spark apache-spark-sql pyspark python

Wie zip-zwei (oder mehr) DataFrame in Spark

4 Antworten

Habe ich zwei DataFrame a und b. a ist wie Column 1 | Column 2 abc | 123 cde | 23 b ist wie Column 1 1 2 Ich möchte zip - a und b (oder sogar

apache-spark apache-spark-sql dataframe scala